Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Kapitel 1 Konzepte und diskrete Wahrscheinlichkeitstheorie 1.1 Einführung und Motivation Wahrscheinlichkeiten werden im täglichen Sprachgebrauch verwendet und intuitiv verstanden. Hieraus entwickeln wir dann in mehreren Schritten das gängige Konzept der Wahrscheinlichkeitstheorie, die Axiomatik von Kolmogoroff. 1.1.1 Laplaceräume Beispiel 1.1.1 Wir würfeln einen normalen Würfel. Die Ergebnisse sind eine Zahl aus 1 bis 6. Die Wahrscheinlichkeit (W-keit), dass die Zahl 6 erscheint ist 16 . Aus Symmetriegründen ist die Wahrscheinlichkeit für das Erscheinen der Zahl 1 genauso gross. Für jede Zahl i von 1 bis 6 gilt: Wahr(Die Zahl i erscheint) = 1 . 6 Die Wahrscheinlichkeit (W-keit) für das Würfeln einer geraden Zahl ist Wahr(Eine gerade Zahl erscheint) = Wahr(2) + Wahr(4) + Wahr(6) = 1 . 2 Ebenso lassen sich andere W-keiten für Teilmengen A der Ergebnismenge {1, 2, . . . , 6} leicht berechnen, 1 Wahr(A) = |A|. 6 Würfeln ist ein einfaches Beispiel eines Zufallsexperiments. Die Ergebnisse heis̈en auch Realisierungen des Zufallsexperiments. Der Raum aller Realisierungen heis̈t Stichprobenraum und wird konventionell mit Ω bezeichnet. Ein Element ω des Stichprobenraumes heißt Realisierung oder Stichprobe. Die Potenzmenge P(Ω) des Stichprobenraumes heis̈t Ereignisraum, eine Teilmenge des Stichprobenraumes Ereignis. Ein Wahrscheinlichkeitsmas̈ (W-mas̈) ordnet jedem Ereignis einen Wert aus dem Einheitsintervall [0, 1] zu. Konventionell wird diese Abbildung P : P(Ω) → [0, 1] mit P als Abkürzung fürs englische probability bezeichnet. Definition 1.1.2 (Laplaceraum) Ein Laplaceraum ist ein Tupel (Ω, P(Ω), P ). Hierbei ist Ω eine nichtleere endliche Menge und P die Abbildung auf der Potenzmenge P(Ω) ins Einheitsinvall gegeben durch |A| P (A) = . |Ω| 1 Uwe Rösler Merkregel: nisses die SS12 1.1 Einführung und Motivation Einprägsamer ausgedrückt: für Laplaceräume ist die Wahrscheinlichkeit eines Ereig- Anzahl der günstigen geteilt durch die Anzahl der möglichen Fälle. Jedes Elementarereignis {ω} hat die W-keit W-keit eines Ereignisses berechnet sich zu 1 |Ω| . P (A) = Elementarereignisse haben die gleiche W-keit. Die X P ({ω}). ω∈Ω Die Bestimmung von W-keiten reduziert sich zu reinem Abzählen. Beispiel 1.1.3 (Lotto) Aus 49 durchlaufend numerierten Kugeln werden 6 Kugeln zufällig gezogen. Ein Ergebnis ist die Menge der sechs gezogenen Zahlen, üblicherweise geschrieben als 6-Tupel (x1 , . . . , x6 ) mit 1 ≤ x1 < x2 < . . . < x6 ≤ 49. Dies sind die Stichproben. Jede Stichprobe hat dieselbe W-keit. (Dazu stelle man sich die Kugeln umnummeriert vor. Die Umnummerierung hat keinen Einflus̈ auf das Ziehen der Kugeln. Daher sollte mögliche Zahlenkombination dieselbe Wkeit besitzen.) Wir haben einen Laplaceraum vorliegen. Die W-keit 6 richtige mit dem Tip y zu haben ist 1 1 1 = 49 = P ({y}) = |Ω| 13.983.816 6 Lemma 1.1.4 Eine n-elementige Menge hat n k k-elementige Teilmengen. n! Notation nk := k!(n−k)! = n(n−1)(n−2)...(n−k+1) wird n über k gelesen. Das Symbol n! = n(n − k(k−1)...1 1)(n − 2) . . . 1 wird n-Fakultät gelesen. Konvention 0! = 1 und n0 = 1 Auch auf Laplaceräumen gibt es interessante Ereignisse zu betrachten. Beispiel 1.1.5 Wir betrachten n-maliges Würfeln eines Würfels. Eine Realisierung wird durch ein Element ω = (ω1 , . . . , ωn ) aus {1, 2, . . . , 6}n beschrieben. Jede Realisierung sollte gleichwahrscheinlich sein. Es ergibt sich der Laplaceraum (Ω = {1, . . . , 6}n , P ). Sei z.B. X(ω) = |{i ≤ n | ωi = 1}| die Anzahl der aufgetretenen Einsen. Zu jedem ω betrachten wir die Menge der Koordinaten belegt mit einer 1. Es gibt nk k-elementige Teilmengen. Das Urbild einer k-elemtigen Menge hat die Kardinalität 5n−k . n−k n 5 |{ω | X(ω) = k}| P ({ω | X(ω) = k}) = = . 6n k 6n 1.1.2 Diskrete Wahrscheinlichkeitsräume Laplaceräume sind die einfachsten Wahrscheinlichkeitsräume. Unser nächstes Beispiel zeigt einen W-Raum, der kein Laplaceraum ist. Beispiel 1.1.6 Wir werfen eine Münze solange bis Adler erscheint. Das Ergebnis dieses Zufallsexperiments sei die Anzahl der Würfe. Der Stichprobenraum sind die natürlichen Zahlen IN. Die W-keit für einmaliges werfen ist 12 , für zweimaliges werfen 14 für dreimaliges 81 usw P ({n}) = 2−n . Die W-keit eines Ereignisses A berechnet sich zu X P (A) = P ({ω}). ω∈A 2 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Definition 1.1.7 (Diskreter Wahrscheinlichkeitsraum) Ein diskreter W-raum ist ein Tupel (Ω, P(Ω), P ). Hierbei ist Ω eine endliche oder abzählbare nichtleere Menge und die Abbildung P : P(Ω) → [0, 1] erfüllt die Eigenschaften X ∀A ⊂ Ω P (A) = P ({ω}) ω∈A P (Ω) = 1. Proposition 1.1.8 Sei Ω eine endliche oder abzählbare nichtleere Menge. Es gibt eine Bijektion P zwischen W-mas̈en P auf der Potenzmenge von Ω und positiven Funktionen f auf Ω mit ω∈Ω f (ω) = 1. Diese Bijektion kann durch P ({ω}) = f (ω) gegeben werden. Der Beweis ist einfach. W-mas̈e eines diskreten W-raumes werden eindeutig beschrieben durch die Dichtefunktion f. Ist ω1 , ω2 , . . . eine Aufzählung von Ω, so spricht man auch von dem Wahrscheinlichkeitsvektor (f (ω1 ), f (ω2 ), . . .). Die Wahrscheinlichkeit eines Ereignisses A berechnet sich zu X P (A) = f (ω). ω∈A Die Dichtefunktion f kann den Wert 0 annehmen. Beispiel 1.1.9 (Ereignisraum eines rot-grün Blinden) Wir würfeln zwei ununterscheidbare Würfel gleichzeitig. Als Ergebnis dieses Experiments erhalten wir ein Tupel (i, j), i ≤ j der gewürfelten Zahlen. Das Tupel haben wir der Grös̈e nach geordnet, die kleinere Zahl steht zuerst. Da die Würfel ununterscheidbar sind, können wir die Zahlen nicht einem Würfel zuordnen. Das W-mas̈ P auf dem Stichprobenraum beschreiben wir durch die Dichtefunktion f 1 f alls i = j 36 f (i, j) = 2 f alls i < j 36 Wie haben wir die W-keiten gefunden? Betrachten wir dazu das Experiment des würfelns mit zwei unterscheidbaren Würfeln, z.B. roter und grüner Würfel. Als Ergebnis notieren wir das Tupel (i, j), i das Ergebnis des roten Würfel und j des grünen. Sei (Ω, P ) der zu diesem Experiment gehörige Laplaceraum. Ein rot-grün blinder Mensch kann die Würfel nicht unterscheiden und notiert die gewürfelten Zahlen als Tupel (i, j), i ≤ j der Grös̈e nach geordnet. Der Farbblinde benutzt den diskreten Wraum (Ω0 , P 0 ) aus Beispiel 1.1.9. Jedem beobachtbaren Ereignis des Farbblinden ordnen wir ein entsprechenden Ereignis mit unterscheidbaren Würfeln zu. Dazu betrachten wir die Abbildung X : Ω → Ω0 Ω 3 (i, j) 7→ X(i, j) = (min i, j, max i, j) ∈ Ω0 . Diese Abbildung ist wohldefiniert und surjektiv. Ein Ereignis A0 des Farbblinden entspricht dem Ereignis X −1 (A0 ) des Normalsichtigen. Daher definiert P 0 (A0 ) := P (X −1 (A0 )) das richtige W-mas̈ P 0 für den Farbblinden. P 0 heis̈t auch transportiertes Mas̈s. Bemerkung: Im obigen Beispiel haben wir eine Äquivalenzrelation auf Ω gebildet (ω ∼ ω ↔ X(ω) = X(ω)) und Ω0 entspricht den Äquivalenzklassen. Auf Ω selbst bezogen hat der Farbblinde einen echt kleineren Ereignisraum (X −1 (Pot(Ω0 )) als der Normalsichtige. 3 Uwe Rösler 1.1.3 SS12 1.1 Einführung und Motivation Kolmogoroff Axiomatik Wir kommen jetzt zum allgemeinen Konzept der Wahrscheinlichkeitstheorie. Das Beispiel des Farbblinden zeigt bereits die Notwendigkeit kleinere Ereignisräume als die volle Potenzmenge zuzulassen. Wir benötigen strukturelle Forderungen an die Ereignisraum, wie z.B. die Vereinigung von Ereignissen ist ein Ereignis. Die folgende Axiomatik von Kolmogoroff, 1933 Grundbegriffe der Wahrscheinlichkeitstheorie, hat sich als sehr erfolgreich erwiesen. Definition 1.1.10 Ein Wahrscheinlichkeitsraum ist ein Tupel (Ω, A, P ). Der Stichprobenraum Ω ist eine nichtleere Menge, der Ereignisraum A ⊂ P(Ω) ist eine σ-Algebra und P : A → [0, 1] ist ein Wahrscheinlichkeitsmas̈. Definition 1.1.11 Eine σ-Algebra A über einer Menge Ω ist eine Teilmenge der Potenzmenge von Ω mit den folgenden Eigenschaften i) A ist nicht leer. ii) A ist komplementabgeschlossen. iii) A ist abgeschlossen bzgl. abzählbarer Vereinigung. In mathematischerer Schreibweise i) A = 6 ∅ ii) ∀ A ∈ A : Ac ∈ A iii) ∀ An ∈ A, n ∈ IN : ∪n∈IN An ∈ A Ein meßbarer Raum (Ω, A) besteht aus einer nicht leeren Menge Ω und einer σ-Algebra darüber. Bemerkung: Die Forderung A nicht leer können wir durch A enthält die leere Menge ersetzen. Not: R := IR ∪ {−∞, ∞} bezeichne die erweiterten reellen Zahlen. Definition 1.1.12 Ein Maß auf einem mes̈baren Raum (Ω, A) ist eine Abbildung µ : A → IR mit folgenden Eigenschaften i) µ(∅) = 0 ii) µ(A) ≥ 0 für jedes Element A der σ-Algebra A S P iii) µ( ◦ n∈IN An ) = n∈IN µ(An ) für jede paarweise disjunkte Folge An , n ∈ IN aus A. S Not: Das Symbol ◦ i Ai steht für die Vereinigung paarweiser disjunkter Mengen Ai , i aus einer Indexmenge. Definition 1.1.13 Ein Wahrscheinlichkeitsmaß(W-maß) ist ein Maß µ mit der zusätzlichen Normierung µ(Ω) = 1. Kon: W-mas̈e werden üblicherweise mit P bezeichnet. Definition 1.1.14 Ein Maßraum ist ein Tupel (Ω, A, µ) bestehend aus einem meßbaren Raum (Ω, A) und einem Maß µ darauf. Ein W-raum ist ein Maßraum (Ω, A, P ) mit einem W-maß P. Beispiele: Laplaceräume und diskrete W-räume sind W-räume. Jeder W-raum mit endlichem Stichprobenraum Ω, der Potenzmenge als σ-Algebra und gleicher W-keit aller Stichproben ist ein Laplaceraum. Jeder W-raum mit höchstens abzählbarem Stichprobenraum Ω und der Potenzmenge als σ-Algebra ist ein diskreter W-raum. Der Ereignisraum A ist im allgemeinen kleiner als die Potenzmenge. (Es gibt viele Mas̈e kleineren σ-Algebren, die nicht auf die Potenzmenge fortgesetzt werden können.) 4 Elementare Wahrscheinlichkeitstheorie 1.1.4 SS12 Uwe Rösler Zufallsgrößen: W-Räume sind die neuen mathematischen Objekte, die wir betrachten wollen. Zu einer tieferen Theorie benötigen wir Morphismen, d.h. strukturerhaltende Abbildungen zwischen den Objekten. Definition 1.1.15 Eine Abbildung X von einem meßbaren Raum (Ω, A) in einen anderen mes̈baren Raum (Ω0 , A0 ) heis̈t mes̈bar, falls X −1 (A0 ) ∈ A für jedes Ereignis A0 ∈ A0 . Eine Zufallsgröße (Zg) ist eine mes̈bare Abbildung X : Ω → Ω0 . Not: Zgn werden mit gros̈en Buchstaben gekennzeichnet, X, Y, Z. Realisierungen werden vorzugsweise mit kleinen Buchstaben bezeichnet. Der Begriff Zufallsgrös̈e wird ins Englischen durch random variable übersetzt. Eine Rückübersetzung liefert den Begriff Zufallsvariable, der synonym zu Zufallsgrös̈e benutzt wird. Bemerkung Den Begriff Meßbarkeit benötigen wir nur, falls wir Ereignisräume betrachten, die kleiner als die Potenzmenge sind. Im Setting diskreter W-räume ist jede Funktion bereits meßbar. 1.1.5 Transportierte Maße Proposition 1.1.16 Sei X : Ω → Ω0 eine Abbildung von einem Maßraum (Ω, A, µ) in einen meßbaren Raum (Ω0 , A0 ). Dann ist die Abbildung µ0 : A0 → IR µ0 (A0 ) := µ(X −1 (A0 )) ein Mas̈. Beweis: Nachrechnen der Eigenschaften. (Übung) Definition 1.1.17 Das Maß µ0 wie oben heis̈t transportiertes Maß. Ist X eine Zg und µ = P ein W-maß, so heis̈t µ0 = P 0 die Verteilung von X. Not: Folgende Notationen sind gebräuchlich, P X , PX und P X −1 . Ich benutze vorzugsweise P X für die Verteilung von X. Not: Das ω wird gerne unterdrückt. Wir schreiben X ∈ A0 oder auch {X ∈ A0 } für das Ereignis {ω ∈ Ω | X(ω) ∈ A0 } = X −1 (A0 ). Typisch ist P (X ∈ A0 ) anstelle P ({ω ∈ Ω | X(ω) ∈ A}). Not: Mengenklammern werden gerne unterdrückt. Wir schreiben z.B. P (ω) anstelle von P ({ω}). 1.1.6 Verteilungen Im folgenden betrachten wir nur diskrete W-räume mit der Potenzmenge als Ereignisraum. Einige W-räume, mehr noch die zugehörigen W-maße, auch Verteilungen genannt, sind besonders wichtig. • Bernoulliverteilung: Dies ist ein diskretes W-maß P auf dem Stichprobenraum {0, 1} mit P (1) = p und q := P (0) = 1 − p. Das Standardbeispiel ist der Münzwurf. Das Ergebnis des Münzwurfs ist 1 (für Kopf) mit Wahrsch. p und 0 (für Zahl) mit Wahrsch. q. • Binomialverteilung: Die Binomialverteilung Bin(n, p) zum Parameter (n, p), 0 ≤ n, 0 ≤ p ≤ 1, ist ein W-Maß P auf dem Stichprobenraum Ω = {0, . . . , n} mit n k P ({k}) = p (1 − p)n−k . k Werfen wir n mal eine gefälschte Münze, p sei die Wahrsch. für Kopf (1), so ist die Gesamtanzahl S der Kopfwürfe P ({ω | S(ω) = k}) = P ({k}) binomialverteilt Bin(n, p). 5 Uwe Rösler SS12 1.1 Einführung und Motivation • Geometrische Verteilung: Die geometrische Verteilung Geo(p) zum Parameter p ∈ [0, 1) ist ein W-Maß P auf den natürlichen Zahlen als Stichprobenraum mit P ({k}) = (1 − p)pk−1 . Wir werfen eine gefälschte Münze, p sei die Wahrsch. für Kopf (= 1). Sei X die Anzahl der Kopfwürfe vor dem ersten Zahlwurf. Das Ereignis,der k-te Wurf ist der erste Zahlwurf, hat die Wahrsch. P ({ω | X(ω) = k}) = (1 − p)pk−1 . • Poissonverteilung: Die Poissonverteilung Poi(λ) zum Parameter λ ∈ (0, ∞) ist ein W-Maß P auf dem Stichprobenraum IN0 mit P ({k}) = exp(−λ)λk /k!. Beachte P k P ({k}) = 1 wegen der Taylor Entwicklung exp(x) = xn n=0 n! . P∞ • Negative Binomialverteilung: Die negative Binomialverteilung zum Parameter (n, p), n ∈ IN, 0 ≤ p < 1, ist ein W-Maß P auf dem Stichprobenraum IN0 mit k+n−1 n k P ({k}) = q p , k P P k+n−1 k 1 q = 1 − p. Beachte k P ({k}) = 1 wegen der Taylor Entwicklung (1−x) x . n = k k 6 Elementare Wahrscheinlichkeitstheorie 1.2 SS12 Uwe Rösler Kombinatorische Wahrscheinlichkeitstheorie In diesem Abschnitt betrachten wir nur endlichen Stichprobenräume versehen mit der Potenzmenge als σ-Algebra. Das Wahrscheinlichkeitsmaß P schreibt sich als additive Funktion, X P (A) = P ({ω}). ω∈A Notation: P (ω) = P ({ω}). Durch gute Wahl des w-theoretischen Modells reduzieren sich viele W-theoretische Argumente auf Kombinatorik und geschicktes Abzählen. Die Betonung liegt auf geschicktes, denn eine häufige Schwierigkeit ist die Wahl der “richtigen” Anschauung und Darstellung des Stichprobenraumes. Mit der richtigen Betrachtungsweise wird das Abzählen meist einfach. Besonders geeignete Kandidaten sind die Laplaceräume, da die W-keiten sich als Quotient erweisen, Anzahl der günstigen geteilt durch die Anzahl der möglichen Fälle. 1.2.1 Laplaceraum Definition 1.2.1 Ein Laplaceraum ist eine endliche Menge Ω versehen mit der Potenzmenge als σ-Algebra und dem W-maß |A| P (A) = |Ω| auf den Ereignissen. Proposition 1.2.2 Ein W-raum (Ω, P(Ω), P ) mit endlichem Stichprobenraum ist genau dann ein Laplaceraum, wenn alle Stichproben gleichwahrscheinlich sind. Bew: Die Hinrichtung folgt aus P (ω) = aus 1 |Ω| und die Rückrichtung, beachte 1 = P (Ω) = P (A) = X P ({ω}) = ω∈A P ω∈Ω P ({ω}) |A| . |Ω| q.e.d. Die Standardvorstellung zu einem Laplace-Experiment ist das Modell einer Urne mit n numerierten Kugeln, aus der wir einmal ziehen. Überhaupt bilden Urnenmodelle eine geeignete Vorstellung für alle w-theoretischen Fragestellungen bei endlichem Stichprobenraum. Daher eine kleine Übersicht der wichtigsten Urnenmodelle. 1.2.2 Urnenmodelle 13j 12j 11j 10j8j 9j 14j 6j 7j 5j 1j 4j 2j 3j % & Gegeben sei eine Urne mit n numerierten Kugeln, aus der wir insgesamt k-mal ziehen wollen. Die Kugeln seien durchgehend numeriert von 1 bis n. Wir ziehen zufällig (jede Kugel hat dieselbe W-keit) eine Kugel heraus und sehen uns das Ergebnis an. Abhängig vom Urnenmodell legen wir die Kugel zurück oder nicht. Dann wird zum zweitenmal zufällig gezogen usw., insgesamt k-mal. Als Gesamtergebnis notieren wir die Nummern der gezogenen Kugeln in zeitlicher Reihenfolge der Ziehung oder, falls uns die zeitliche Reihenfolge vorenthalten wird, in lexikographischer Ordnung. (i) Ziehen in Reihenfolge und mit Zurücklegen 7 Uwe Rösler SS12 1.2 Kombinatorische Wahrscheinlichkeitstheorie Eine Realisierung ist ein Tupel ω = (ω1 , ω2 , . . . , ωk ), wobei ωj die Nummer der j-ten gezogenen Kugel angibt. Jede solche Realisierung ist gleich wahrscheinlich (Symmetrieüberlegungen und eventuelle Umnummerierung der Kugeln). Der zugehörige Stichprobenraum ΩRZ := {1, 2, . . . , n}k hat |ΩRZ | = nk Elemente und ist ein Laplaceraum. (ii) Ziehen in Reihenfolge und ohne Zurücklegen Wir notieren die Folge der gezogenen Zahlen. Eine Realisierung wird beschrieben durch ein k−Tupel (ω1 , ω2 , . . . , ωk ) verschiedener Zahlen von 1 bis n. Der Stichprobenraum ΩR∼Z := {ω ∈ {1, 2, . . . , n}k | ωi 6= ωj for 1 ≤ i 6= j ≤ k}. hat |ΩR∼Z | = (n)k := n(n − 1) . . . (n − k + 1) = n! (n − k)! Elemente und ist ein Laplaceraum. (Für die Auswahl des ersten Elements ω1 haben wir n Möglichkeiten, für die zweite Kugelzahl nur noch n − 1 Möglichkeiten, dann n − 2 usw.) Für n = k erhalten wir alle Permutationen der Zahlen 1 bis n, d.h. alle bijektiven Abbildungen von {1, 2, . . . , n} auf sich selbst. (iii) Ziehen ohne Reihenfolge und ohne Zurücklegen Als Gesamtergebnis der Ziehung bekommen wir nur mitgeteilt, welche Kugeln gezogen wurden und wie oft diese gezogen wurden. Wir kennen nicht die zeitliche Reihenfolge der Ziehung. Der Übersichtlichkeit halber ordnen wir die gezogenen Zahlen in lexikographischer (=natürlicher) Ordnung. Wir verwenden den Stichprobenraum Ω∼R∼Z := {ω ∈ {1, 2, . . . , n}k | ω1 < ω2 < . . . < ωk }, oder auch alternativ den Stichprobenraum Ω0∼R∼Z := {A ⊂ {1, 2, . . . , n} | |A| = k}. Die Abbildung (ω1 , . . . , ωk ) 7→ {ω1 , . . . , ωk } ist eine Bijektion von Ω∼R∼Z nach Ω0∼R∼Z . Beide Stichprobenräume haben n |Ω∼R∼Z | = = |ΩR∼Z |/k! k Elemente und sind Laplaceräume. (Zum Beweis betrachten wir die obige Abbildung jetzt von ΩR∼Z nach Ω∼R∼Z zuordnet. Jedes Urbild f −1 (y) := {ω | f (ω) = y} von y ∈ Ω∼R∼Z hat genau k! Elemente. Damit erhalten wir obige Formel.) Die häufigste Verwendung dieses Urnenmodells ist enthalten in der folgenden Merkregel: Die Anzahl der k-elementigen Teilmengen einer n-elementigen Menge ist (iv) Ziehen ohne Reihenfolge und mit Zurücklegen 8 n k . Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Als praktische Durchführung denken wir uns ein Ziehen mit Reihenfolge und mit Zurücklegen. Genannt werden nur die Nummern der gezogenen Kugeln, eventuell mit Mehrfachnennungen. Eine Realisierung beschreiben wir durch das k-Tupel ω der aufsteigend geordneten Kugelnummern. Der Stichprobenraum zu diesem Urnenmodell ist Ω∼RZ := {ω ∈ {1, 2, . . . , n}k | ω1 ≤ ω2 ≤ . . . ≤ ωk }. Die Wahrscheinlichkeit eines Ereignisses ω berechnet sich als Summe der Wahrscheinlichkeiten aller ω 0 beim Ziehen mit Reihenfolge und mit Zurücklegen, die zu einer Nennung ω führen. Sei ϕ : ΩRZ 7→ Ω∼RZ die Abbildung, die jedem ω 0 ∈ ΩRZ das geordnete Tupel zuordnet. Das W-maß P∼RZ : ¶(Ω∼RZ ) → IR ist das durch ϕ transportierte Maß P∼RZ (A) = PRZ (ϕ−1 (A)) = |ϕ−1 (A)| . |ΩRZ | Der W-raum (Ω∼RZ , ¶(Ω∼RZ ), P∼RZ ) ist der gesucht Wahrscheinlichkeitsraum. Dies ist kein Laplaceraum. Z.B. hat in unserer Versuchsanordnung für n = 4, k = 4 die Realisierung (1, 1, 1, 1) die W-keit 1/(44 ), die Realisierung (1, 2, 3, 4) aber eine W-keit von 4!/44 . Verschiedene Realisierungen beim Ziehen mit Reihenfolge und mit Zurücklegen ergeben dieselbe Nennung (ohne Reihenfolge.) Die Ziehungen in der zeitlichen Reihenfolge 4, 2, 1, 3 und 4, 3, 2, 1 ergeben als geordnetes Tupel beide (1, 2, 3, 4). Es gibt 4! verschiedener Anordnungen von 1, 2, 3, 4, die als geordnetes Tupel (1, 2, 3, 4) ergeben, aber nur eine von 1, 1, 1, 1, die (1, 1, 1, 1) ergibt. (Der Raum Ω∼RZ hat n+k−1 Elemente. k ϕ Zum Beweis betrachten wir die Abbildung (ω1 , ω2 , . . . , ωk ) 7→ (ω1 , ω2 + 1, . . . , ωk + k − 1). Dies ist eine bijektive Abbildung von Ω∼RZ nach dem Stichprobenraum Ω∼R∼Z eines Urnenmodell, aus n + k − 1 numerierten Kugeln k Kugeln zu ziehen, ohne Zurücklegen und ohne Reihenfolge. (Nachrechnen.) Dafür gibt es n+k−1 verschiedene Möglichkeiten.) k Satz 1.2.3 Die Ergebnisse sind im Vorgriff in der folgenden Tabelle zusammengefaßt. k-mal ziehen mit ohne aus n Kugeln Zurücklegen Zurücklegen mit Laplaceraum Laplaceraum unterscheidbare Reihenfolge |ΩRZ | = nk |ΩR∼Z | = (n)k Kugeln ohne Kein Laplaceraum Laplaceraum |Ω∼R∼Z | = nk ununterscheidbare mit ohne k Kugeln verteilen Mehrfachbelegung Mehrfachbelegung auf n Urnen Reihenfolge 9 Kugeln Uwe Rösler SS12 1.2 Kombinatorische Wahrscheinlichkeitstheorie Die offensichtlichen Vorzüge der Modellierung durch Laplaceräume führt zu folgender Merkregel: Modelliere Urnenmodelle stets mit Reihenfolge. Beispiele • Pasch: Berechne die W-keit bei dreimaligem Würfeln jeweils dieselbe Augenzahl zu würfeln. Hier verwenden wir das erste Urnenmodell, mit Zurücklegen und mit Reihenfolge. Wir haben einen Laplaceraum mit insgesamt 63 verschiedenen Möglichkeiten. Genau die sechs Würfelergebnisse (1, 1, 1), (2, 2, 2) bis (6, 6, 6) sind die “günstigen” Fälle. Damit ist die gesuchte Wahrsch. für einen Pasch 6/63 = 1/36. Wir werfen jetzt drei identisch aussehende Würfel gleichzeitig. Wie groß ist die Wahrsch. für einen Pasch? Wir denken uns die Würfel (durch Farben) gekennzeichnet, und argumentieren dann wie oben, mit demselben Resultat. Es wäre möglich, aber ungeschickt und dies ist eine häufige Fehlerquelle, ein Urnenmodell mit Zurücklegen und ohne Reihenfolge anzusetzen. Dies ist kein Laplaceraum. • Zahlenlotto: Wie groß ist die W-keit für exakt 5 Richtige im Lotto (6 aus 49)? Unser Grundraum ist ein Urnenmodell mit n = 49 Kugeln und k = 6-maligem Ziehen, ohne Zurücklegen und ohne Reihenfolge. Der Laplaceraum Ω∼R∼Z hat 49 = 13.983.816 Elemen6 te. Wir haben genau 5 Richtige, falls aus densechs Gewinnzahlen genau 5 vorliegen und aus den restlichen 43 genau eine. Dafür gibt es 65 43 verschiedene Realisierungen. Die gesuchte 1 Wahrsch. 43/(49 · 47 · 46 · 22) liegt in der Größenordnung 1/50000. • Geburtstag-Paradoxon: Selbst in kleinen Gruppen haben relativ häufig zwei Personen an demselben Tag Geburtstag. Wir wollen dies “erklären”. Als Modell wählen wir ein Urnenmodell mit Reihenfolge und mit Zurücklegen und mit nk Elementen. Die Geburtstage der k Personen entsprechen dem Ergebnis zufälligen Ziehens eines Tages aus dem Jahr. Das Ereignis Ek , kein Geburtstag ist doppelt, entspricht den Elementen von ΩR∼Z , allen k-elementigen Teilmengen von {1, . . . , n} unter Berücksichtigung der Reihenfolge. Wir erhalten P (Ek ) = k−1 k−1 X X i n−i k(k − 1) (n)k = exp( ln( )) ≈ exp(− ) = exp(− ). k n n n 2n i=0 i=0 Hierbei nutzen wir die Taylor Approximation ln(1 + x) ≈ x für x dicht bei 0. Für welche Gruppengröße wird die Wahrsch. ungefähr 1/2? Ein wenig Rechnung liefert uns P (E22 ) = 0, 5243 > 1/2 und P (E23 ) = 0, 4927 < 1/2. Bereits bei 23 Personen ist die Chance für den Zusammenfall von zwei Geburtstagen ungefähr fifty-fifty. In der Informatik kommt die Problemstellung vor bei zufälligem Abspeichern von Daten, siehe dort unter Hashing. • Olympialotterie: In einer Lotterie sind alle gleichteuren Lose auch gleich gewinnträchtig, zumindest ist dies eine weitverbreitete Meinung. Alle Lose sind gleich, aber manchmal sind einige Lose “gleicher”. Für die Glücksspirale der Olympialotterie 1971 wurden 10 Millionen Lose mit siebenstelligen Zahlen angeboten, von Nummer 0000000 bis hin zu 9999999. Die Auslosung geschah durch siebenmaliges Ziehen ohne Zurücklegen der numerierten Kugeln aus einer Trommel. Die gezogenen Ziffern, in zeitlicher Reihenfolge aufgeschrieben, ergab die Gewinnzahl. In der Trommel waren insgesamt 70 Kugeln, jeweils 7 Kugeln der Ziffern 0 bis 9. Die Losnummer 0000000 hat eine Gewinnwahrsch. von 1 7 6 ... = 7!/(70)7 ≈ 8, 3 · 10−10 . 70 69 64 10 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Die Losnummer 0123456 hat eine wesentlich höhere Gewinnwahrsch. von 7 7 7 ... = 77 /(70)7 ≈ 1, 3 · 10−7 . 70 69 64 (Weshalb?) Dies sind gleichzeitig die extremen Elementarwahrscheinlichkeiten. 1.2.3 Urnenmodelle revisited* [ [ [ [ [[ [ [ [ [ [ [ [ [ [ [ ◦ ◦ ◦ ◦ Der Versuchsaufbau besteht jetzt aus n Urnen, numeriert durch 1 bis n, und k Kugeln, die darauf zufällig verteilt werden sollen. Unterschieden wird, ob Mehrfachbelegung der Urnen möglich ist und ob die Kugeln unterscheidbar (=numeriert) sind. Zufällig bedeuted, jede der für eine Belegung möglichen Urnen wird gleich behandelt. Wir stellen uns zufälliges Ziehen der Urnen vor, wobei die gezogenen Urne in i-ter Runde durch hineinlagen der Kugel i gekennzeichnet wird. Damit ist das Experiment wie Ziehen numerierter Kugeln (mit/ohne Zurücklegen und mit/ohne Reihenfolge) aus einer Urne äquivalent zu einem Verteilen von Kugeln (numeriert/ununterscheidbar) auf numerierte Urnen (mit/ohne Mehrfachbelegung). Im Detail: (i) Verteilung unterscheidbarer Kugeln und mit Mehrfachbelegung Eine Realisierung besteht in der Angabe der Kugeln in der j-ten Box nach der Verteilung. Der Stichprobenraum [ ΩU M := {(A1 , A2 , . . . , An ) | ∀ 1 ≤ i ≤ n : Ai ⊂ {1, 2, . . . , k}, ◦ Aj = {1, 2, . . . , k}} j ist bijektiv zum Stichprobenraum ΩRZ des ersten Urnenmodells. Dazu betrachten wir die Bijektion (A1 , . . . , An ) 7→ (ω1 , . . . , ωk ) mit i ∈ Aωi . In Worten, i ∈ Aj entspricht in der i-ten Ziehung (Urnenmodell mit Zurücklegen und mit Reihenfolge) wird die Kugel mit der Zahl j gezogen. (ii) Verteilung unterscheidbarer Kugeln und ohne Mehrfachbelegung Eine Realisierung beschreiben wir durch die Angabe der Kugelnummer in der i-ten Urne, bzw. durch die leere Menge, falls die Urne leer ist. Formal ist der Stichprobenraum ΩU ∼M := {(A1 , . . . , An ) ∈ ΩI | ∀1 ≤ i ≤ n |Ai | ≤ 1}. Diese Menge hat ebensoviele Elemente wie ΩR∼Z . Dazu betrachten wir die Bijektion (A1 , . . . , An ) 7→ ω, eine Kugel j ∈ Ai in Urne i entspricht dem Ziehen der Kugelzahl i in der j-ten Ziehung. (iii) Verteilung ununterscheidbarer Kugeln und ohne Mehrfachbelegung Eine Realisierung beschreiben wir durch eine 0-1 Folge der Länge n. Eine 0 bzw. 1 an der i-ten Stelle entspricht einer leeren bzw. besetzten i-ten Box. Formal ergibt dies den Stichprobenraum n X Ω∼U ∼M := {j ∈ {0, 1}n | ji = k}. i=1 Dieser hat ebenso viele Elemente wie der Stichprobenraum Ω∼R∼Z . Jeder 0-1 Folge j ordnen wir eine Menge A aus den Zahlen 1 bis n zu. Eine Zahl i sei Element von A genau dann, falls die i-te Koordinate ji von j eine 1 ist. Dies ergibt eine Bijektion von Ω∼U ∼M auf Ω∼R∼Z . 11 Uwe Rösler SS12 1.2 Kombinatorische Wahrscheinlichkeitstheorie (iv) Verteilung ununterscheidbarer Kugeln und mit Mehrfachbelegung Eine Realisierung beschreiben wir durch durch die Angabe ji der jeweiligen Kugelanzahl in der i-ten Urne. Der zugehörige Stichprobenraum Ω∼U M := {j ∈ {0, 1, . . . , k}n | X ji = k} i ist gleichmächtig wie Ω∼RZ . Die Abbildung j 7→ ω, ji die Häufigkeit |{l | ωl = i}| mit der die Kugel i aus der Urne gezogen wird, ist bijektiv. Die Beschreibungen eines Experiments durch die Ziehen aus Urnen oder durch Verteilen auf Urnen sind äquivalent. Urnenmodelle in der Physik: Das Modell ΩU M heißt in der Physik die Maxwell-Boltzman Statistik. Die Urnen entsprechen räumlich gleichgroßen Quadern, die Kugeln nicht-wechselwirkenden Teilchen. Keine Teilchen gehorchen diesen Gesetzen. Das Modell ΩU ∼M heißt in der Physik Fermi-Dirac Statistik. Die Teilchen, die diesem Modell gehorchen, heißen Fermionen [5]. Bei der Untersuchung des Aufbaus der Elektronenhülle des Atoms fand Pauli das Gesetz, daß zwei Elektronen nicht in allen vier, ihren Zustand beschreibenden Quantenzahlen übereinstimen dürfen. In anderen Worten, nicht mehr als ein Elektron darf den seinem Zustand beschreibenden Phasenraumvolumen besetzen. Jedem Elementarteilchen ordnet man einen “abstrakten” Eigendrehimpuls zu, den sogenannten Spin. Dieser kann die Werte nh/(4π) oder −nh/(4π) annehmen (n ∈ IN, h = Planck’sches Wirkungsquantum). Die Teilchen mit ganzzahligem Spin (ungerade) sind die Bosonen, die mit halbzahligem Spin (n ungerade) die Fermionen. 1.2.4 Weitere Urnenmodelle (v) Hypergeometrische Verteilung Die hypergeometrische Verteilung zum Parameter (W, S, n) ∈ ZZ + ×ZZ + ×{1, . . . , S +W } ist ein W-maß P auf dem Stichprobenraum {0, 1, . . . , n} P ({k}) = S k W n−k S+W n . Aus einer Urne mit S schwarzen und W weißen Kugeln ziehen wir n−mal zufällig ohne Zurücklegen und ohne Reihenfolge. Die Wahrsch., genau s schwarze und w weiße in n = s+w Ziehungen zu ziehen, ist S W s w S+W s+w . Diese Wahrsch. als Funktion von s mit Parametern S, S +W, s+w, ist die hypergeometrische Verteilung. Unser gewählte Laplace Grundraum Ω∼R∼Z hat S+W Elemente. Wir denken uns die s+w numerierten Kugeln 1, 2, . . . , S als schwarz, die anderen W Kugeln als weiß. Es gibt Ss verschiedene Möglichkeiten daraus s schwarze (und numerierte) Kugeln (ohne Reihenfolge) auszuwählen. Entsprechend gibt es W verschieden Kombinationen für die weißen. Jedes w “günstige” Ereignis wird eindeutig durch die numerierte Menge der schwarzen, bzw. der weißen Bälle beschrieben. 12 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Beispiele • Skat: Wie groß ist die Wahrsch., daß beim Skatspiel Vorhand drei Buben ausgeteilt bekommt? Wir benutzen ein Urnenmodell mit 32 Kugeln und 10-maligem Ziehen ohne Zurück legen und ohne Reihenfolge. Die Anzahl der günstigen Verteilungen für Vorhand ist 43 28 7 . 32 Damit hat Vorhand mit Wahrsch. 43 28 / drei Buben. 7 10 • Fischezählung: Wie lassen sich Fische in einem Teich zählen? Wir fangen S Fische heraus und markieren diese. Danach setzen wir diese zurück, “mischen” kräftig durch und fischen zufällig k Fische heraus. Darunter seien s > 0 markierte. Naiv erwarten wir ein ähnliches Zahlenverhältnis der wiedergefangenen markierten Fische zu den gefangenen wie das der gefangenen zu allen. Dies ergibt heuristisch einen Schätzer N̂ = kS/s der Gesamtanzahl N, (der auch praktisch benutzt wird). Hier ein anderes Argument, beruhend auf einem mathematischen Prinzip (Maximum-Likelihood Schätzer). Die hypergeometrische Verteilung ordnet dem Ereignis, s markierte Fische (S)(W ) wiederzufangen, eine Wahrsch. von p(s) = sS+Ww zu. ( s+w ) Für eine gegebene Gesamtanzahl N = S + W wird die Anzahl der wiedergefangenen markierten Fische s häufig einen relativ großen Wert von p(s) liefern. Umgekehrt, wenn wir die Anzahl der wiedergefangenen markierten Fische s kennen, aber nicht die Gesamtanzahl N, so werden wir eine Gesamtanzahl N erwarten, sodaß die obige Wahrsch. groß wird. Als Schätzer wählen wir denjenigen Wert N, der obige Wahrsch., jetzt für festes s, maximiert. Die Lösung dieser nun mathematischen Aufgabe ist N̂ = kS s . Multinomialkoeffizienten: Die Binomialkoeffizienten nk beschreiben die Anzahl der verschiedenen Teilungen einer n-elementige Menge in zwei Gruppen, wobei die erste Gruppe genau k Elemente haben soll. r Seien n, r natürliche Zahlen und k = (k1 , . . . , kr ) ∈ ZZ≥ ein Vektor mit k1 + k2 + . . . + kr = n. Die Multinomialkoeffizienten sind definiert durch n n! . := k k1 !k2 ! . . . kr ! Die Multinomialkoeffizienten nk geben die Anzahl der möglichen Teilungen von n numerierten Kugeln in r numerierte Gruppen an, wobei die i−te Gruppe ki Elemente haben soll. Für die 1 Auswahl der ersten Gruppe haben wir kn1 Möglichkeiten, für die zweite nur noch n−k Möglichk2 n−k1 −k2 keiten, dann usw. Dies ergibt die Formel. k3 Die hier betrachteten Gruppen sind numeriert, d.h. die Einteilung ist auch abhängig von der Reihenfolge der Gruppenstärken k1 , k2 , . . . , kr . Das folgende Beispiel verdeutlicht die Wichtigkeit dieser Unterscheidung. Beispiel Mannschaftseinteilung: 26 Schulkinder wollen Fußball und Tennis spielen. Dazu bilden sie zwei Mannschaften A, B zu je 11 Spielern für Fußball und zwei Mannschaften C, D 26 für das Tennisdoppel. Es gibt (11,11,2,2) Möglichkeiten der verschiedenen Mannschaftaufteilun1 26 gen in A, B, C, D. Die Anzahl der verschiedenen Spielkombinationen (Paarungen) 11,11,2,2 4 ist kleiner. Trotz verschiedener Mannschaftsaufstellung, z.B. A = {1, 2, . . . , 11}, B = {12, . . . , 22}, C = {23, 24}, D = {25, 26} und A = {12, . . . , 22}, B = {1, . . . , 11}, C = {25, 26}, D = {23, 24}, spielen eventuell dieselben Mannschaften gegeneinander. (vi) Multinomialverteilung Seien n, r natürliche Zahlen, p ein W-maß auf {1, . . . , r}, geschrieben als Vektor X p = (p1 , . . . , pr ), pj = 1. j 13 Uwe Rösler SS12 1.2 Kombinatorische Wahrscheinlichkeitstheorie Die Multinomialverteilung zum P Parameter (n, r, p) ist ein W-maß P auf dem Stichprobenraum {k = (k1 , . . . , kr ) ∈ IN0r | i ki = n} mit n k p . P (k) = k Hierbei ist pk = pk11 pk22 . . . pknn die Multiindexschreibweise. Das Standardbeispiel ist es, n Kugeln auf r Urnen zu verteilen. Die erste Kugel wird mit der W-verteilung p in eine Urne gelegt, dann die zweite (unabhängig von der ersten) usw. 14 Elementare Wahrscheinlichkeitstheorie 1.3 SS12 Uwe Rösler Bedingte Wahrscheinlichkeit Heuristik: Wir betrachten nur W-räume mit endlichem oder abzählbarem Stichprobenraum. Die W-keit eine 6 gewürfeln zu haben, wenn bereits bekannt ist, dass der Wurf 4 oder 5 oder 6 zeigt, ist 1/3. Abstrakter, wenn wir im Venn-Diagramm wie unten die Flächen der Mengen als W-keit interpretieren, dann sollte die W-keit eines Ereignisses A unter B die gemeinsame Fläche A ∩ B dividiert durch die Fläche des bekannten Ereignissses B sein. $$ '' A A∩B B && %% Definition 1.3.1 Die bedingte Wahrscheinlichkeit eines Ereignisses A unter dem Ereignis B mit P (B) > 0 ist P (A ∩ B) P (A | B) = . P (B) Sprachgebrauch: W-keit von A unter (oder gegeben) B. Konvention: Die Verwendung des Symbols P (A | B) beinhaltet bereits die strikte Positivität der Wahrsch. des Ereignisses B. Rechenregeln ergeben sich aus der einfachen Feststellung, dass die Abbildung P (· | B) vom Ereignisraum in die reellen Zahlen ein W-maß ist, das Tripel (Ω, A, P (. | B)), ist ein Wahrscheinlichkeitsraum. Ebenso ist das auf B beschränkte Tupel (Ω|B , A|B , P|B ) = (B, {A ∩ B | A ∈ A}, P (· | B)) ein W-Raum, genannt der bedingte W-Raum. Ist der zugrundeliegende W-Raum ein Laplaceraum, so auch der bedingte. Lemma 1.3.2 (Bedingte Rekursionsformel) Für Ereignisse A, B, C mit P (A ∩ B) > 0 gilt P (A ∩ B ∩ C) = P (A)P (B | A)P (C | A ∩ B). Beweis: Nachrechnen. Induktiv ergibt sich für Ereignisse A1 , . . . , An q.e.d. P (A1 ∩ . . . ∩ An ) = P (A1 )P (A2 | A1 )P (A3 | A1 ∩ A2 ) . . . P (An | ∩i<n Ai ). Bsp: Lotto revisited: Wir betrachten Lottoziehen live am Fernseher. Die Zg Xi stehe für die i-te gezogenen Zahl. Sei x1 , . . . , x6 mein Tipp bestehend aus 6 verschiedenen Zahlen aus {1, . . . , 49}. Sei Ai das Ereignis {ω | Xi (ω) = xi }. (Wir verwenden als Kurzschreibweise hierfür Xi = xi .) Dann werden unsere Zahlen x1 , . . . , x6 in dieser Reihenfolge gezogen mit W-keit P (∩6i=1 Ai ) P (A1 )P (A2 | A1 )P (A3 ∩ A2 ∩ A1 ) . . . P (A6 | ∩5i=1 Ai ) 1 1 1 = ... . 49 48 44 Nach der i-ten Ziehung sind 49 − i Kugeln in der Urne und davon soll ich genau die vorgegebene Kugel mit der Zahl xi+1 (Laplaceraum) ziehen. Ist unser Tipp {x1 , . . . , x6 } ein Haupttreffer? Da es auf die Reihenfolge nicht ankommt gilt, summieren wir über alle Permutationen π der Zahlen 1 bis 6, X P ({X1 , . . . , X6 } = {x1 , . . . , x6 }) = P (Xi = xπ(i) für i = 1, . . . , 6) = π = 15 k! = (49)6 1 49 6 Uwe Rösler SS12 1.3 Bedingte Wahrscheinlichkeit Wir erhalten jeder Tipp ist gleichwahrscheinlich. Bsp: Bridge: Gefragt ist nach der W-keit, daß in einer Bridgehand, 52 Karten werden gleichmäßig und zufällig auf 4 Spieler verteilt, jeder Spieler genau ein Ass erhält. Entspreche Ai dem Ereignis, der Spieler i hält genau ein Ass in seinen 13 Karten, so folgt mit Hilfe der hypergeometrischen Verteilung P (A1 ) = 4 1 P (A3 | A1 ∩ A2 ) = 48 12 52 13 2 24 1 12 26 13 3 1 P (A2 | A1 ) = 36 12 39 13 P (A4 | A1 ∩ A2 ∩ A3 ) = 1. Unsere gesuchte W-keit ist das Produkt dieser vier Wahrsch.. 1.3.1 Bayes Formel Satz 1.3.3 (Bayes Formel) Sei der Stichprobenraum in paarweise disjunkte Ereignisse B1 , B2 , . . . , zerlegt, endlich oder abzählbar viele. Jedes dieser Ereignissse habe strikt positive W-keit. Die Formel von der totalen Wahrscheinlichkeit lautet für ein Ereignis A : X P (Bi )P (A | Bi ). P (A) = i Im Falle strikt positiver Wahrscheinlichkeit des Ereignisses A gilt die Bayes Formel P (B1 )P (A | B1 ) P (B1 | A) = P . i P (Bi )P (A | Bi ) Beweis: Die erste Identität folgt aus der σ-Additivität des Wahrscheinlichkeitsmaßes [ X X P (A) = P ( ◦ (A ∩ Bi )) = P (A ∩ Bi ) = P (Bi )P (A | Bi ). i i i Die Bayes Formel (Bayes 1763) folgt aus der Identität P (B1 | A) = P (B1 )P (A | B1 )/P (A) mit Einsetzen von P (A) aus der Formel von der totalen Wahrscheinlichkeit. q.e.d. Bsp: Urnenwahl. Seien n Urnen gegeben. Die i-te Urne enthalte Si schwarze Kugeln und Wi weiße. Zufällig wird eine Urne i mit W-keit pi ausgewählt und aus dieser eine Kugel gezogen. Gesucht ist die W-keit für das Ereignis A, eine schwarze Kugel zu ziehen. (Präzisieren: Sei Bi das Ereignis die i-te Urne auszuwählen im Modell .....) Der Satz von der totalen Wahrsch. liefert P (A) = n X pi i=1 Si . Si + Wi Bsp: Reihenuntersuchung. Bereits 0,5% der Bevölkerung leidet an der Krankheit ’Ghost’. Bei einer Reihenuntersuchung zeigen durchschnittlich 99% der Kranken eine positive Testreaktion. Von den Gesunden zeigen rund 2% eine positive Testreaktion. Wie beunruhigend ist mein positives Testergebnis wirklich? Als erstes müssen wir die gegebenen Informationen sauber in ein Modell einbetten. Eine Realisierung sei ein 0 − 1 Tupel in dem Produktraum Ω := {0, 1}2 und X1 , X2 seien die Projektion auf die erste, bzw. 2. Koordinate. Die erste Koordinate X1 = 1 bzw. 0 entspreche krank bzw. gesund und die zweite Koordinate X2 = 1 bzw. 0 entspreche positivem bzw. negativem Testergebnis. Obigen Angaben entsprechen präzise den Aussagen P (X1 = 1) = 0, 005, P (X2 = 1 | X1 = 1) = 0, 99, P (X2 = 1 | X1 = 0) = 0, 02. (Es gibt genau ein W-maß zu diesen Werten.) Mit Hilfe der Bayes Formel erhalten wir das uns interessierende Resultat P (X1 = 1)P (X2 = 1 | X1 = 1) P (X1 = 1)P (X2 = 1 | X1 = 1) + P (X1 = 0)P (X2 = 1 | X1 = 0) 495 = ≈ 0, 2. 2485 Wie beunruhigend dies für mich wirklich ist, bleibt eine Interpretations- und Persönlichkeitsfrage. P (X1 = 1 | X2 = 1) = 16 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Unsauberes Denken Der Umgang mit bedingten Wahrsch. im realen Leben führt durch unsauberes Denken und unzureichende Information häufig zu fehlerhaften Schlüssen. Hier zwei Beispiele: Bsp: Diskriminierung. Folgende Zahlen deuteten auf eine sexuelle Diskriminierung weiblicher Bewerber hin. An der Universität Berkeley wurden im Herbst 1973 von den 8442 männlichen Bewerbern für ein Studium 44% (=3738) zugelassen. Von den 4321 weiblichen Bewerbern erhielten nur 35% (=1494) einen Studienplatz. Dieser Unterschied erweist sich auch wissenschaftlich als signifikant, er kann nicht allein durch Zufall ’erklärt’ werden. Da wir apriori davon ausgehen, daß die Damen gleich qualifiziert und leistungsfähig sind, liegt nur der Schluß einer sexuellen negativen Diskriminierung nahe. Um die Hauptquelle der negativen Diskriminierung ausfindig zu machen, sehen wir uns die Daten nach Fächern aufgelistet an. In den hundert Fächern gibt es bei einigen eine leichte Bevorzugung der Männer, bei anderen eine leichte Bevorzugung der Frauen. Insgesamt aber eher eine Bevorzugung der Frauen. Die folgende Liste der sechs Fächer mit den meisten Bewerbern gibt diese Tendenz gut wieder. Fach 1 2 3 4 5 6 Studienzulasssungszahlen männlich weiblich Bewerbungen % Zulassungen Bewerbungen % Zulassungen 825 62 108 82 560 63 25 68 325 37 593 34 417 33 375 35 191 28 393 24 373 6 341 7 Auch bei Zugrundelegung dieser Liste ist der Anteil der akzeptierten männlichen mit 44,5% signifikant höher als der der weiblichen mit 32%. Wo liegt die Erklärung? Die ersten beiden Fächer haben relativ hohe Zulassungsraten. Hier gibt es einen hohen Anteil an männlichen Bewerbern, jedoch nur einen niedrigen an weiblichen. In den nächsten drei Fächern war die Zulassungsquote eher klein, der weibliche Anteil aber überproportinal groß. Selbst wenn in jedem Fach die Frauen deutlich bevorteilt werden, kann insgesamt der prozentual zugelassene Anteil der Männer wesentlich höher sein. Wir wollen uns dies am Beispiel zweier Fächer A und B verdeutlichen. Sei Z die Menge der zugelassenen Personen und M (F ) die Menge der sich bewerbenden Männern (Frauen) M (F ). Wir wollen strikte Bevorzugung der Frauen in jedem Fach annehmen, P (Z ∩ M | A ∩ M ) < P (Z ∩ F | A ∩ F ) P (Z ∩ M ∩ | B ∩ M ) < P (Z ∩ F | B ∩ F ). Die geschlechterspezifischen Gesamtzahlen der Zulassung ergeben sich mit Hilfe der totalen Wahrscheinlichkeiten, P (Z ∩ M | M ) = P (A | M )P (Z ∩ M | M ∩ A) + P (B | M )P (Z ∩ M | M ∩ B) P (Z ∩ F | F ) = P (A | F )P (Z ∩ F | F ∩ A) + P (B | F )P (Z ∩ F | F ∩ B). Wir betrachten den Extremfall, die einzige weibliche Bewerberin für das Fach A erhält einen Studienplatz, der einzige männliche Bewerber für das Fach B erhält keinen. In jedem Fach werden die Frauen bevorzugt (und damit diskriminiert, wenn auch positiv.) Durch Wahl der Zulassungsraten für die Fächer ergäben sich beliebig große ’Diskriminationen’ für die Frauen P (Z ∩ M | M ) = P (Z ∩ F | F ) = |M | − 1 P (Z ∩ M | M ∩ A) |M | 1 |F | − 1 + P (Z ∩ F | F ∩ B). |F | |F | 17 Uwe Rösler SS12 1.3 Bedingte Wahrscheinlichkeit Die Beobachtung, Frauen haben eine Tendenz sich für Fächer mit geringerer Zulassungsquote zu bewerben, ist eine plausible ’Erklärung.’ Jeder Leser wird zu dieser Aussage eigene Erfahrungen und ’Erklärungen’ haben, vielleicht auch Analogien sehen. Dies führt uns jedoch zu weit in die reale Welt. Bsp: Von Autos und Ziegen: Der Sieger einer Quizshow gewinnt den hinter einer Tür versteckten Preis. Hinter einer der drei Türen ist ein Auto, hinter den anderen sind Ziegen. Der Sieger darf eine Tür wählen und soll das dahinter versteckte Objekt erhalten. Nach der Wahl des Kandidaten öffnet der Moderator jedoch erst eine der nichtgewählten Türen, hinter der eine Ziege erscheint. Der Moderator bietet dem Kandidaten einen Wechsel seiner Türwahl an. Wie wäre Ihre Entscheidung? Wenn wir davon ausgehen, daß der Showmaster stets eine Ziege präsentiert, sei es gezwunge-nermaßen oder aus Sympathiegründen, sollte der Kandidat seine Wahl ändern. Die anfangs gewählte Tür zu öffnen behält die Wahrsch. von 1/3 das Auto zu verdecken bei. Das Auto steht hinter der verbliebenen Tür mit Wahrsch. 2/3. Mathematisches Modell: Das mathematische Modell ist aus der Sicht des Kandidaten zum Zeitpunkt seiner zweiten Entscheidung. Die Realisationen sind die wesentlichen Vorgänge (=Informationen) bis zu diesem Zeitpunkt. Als geeigneten (=hinreichend großen) Grundraum wählen wir Ω = {1, 2, 3}3 mit der Potenzmenge als σ-Algebra. Die erste Koordinate X1 bezeichnet die Tür mit dem Auto dahinter. Die zweite Koordinate X2 gibt die Wahl des Kandidaten an. Die dritte Koordinate gibt die vom Quizmaster geöffnete Tür an. Jetzt müssen wir ein (das) geeignetes W-maß P angeben. Jemand hat das Auto nach einer uns unbekannten Prozedur hinter einer Tür versteckt. Wir modellieren (aus Sicht des Kandidaten) dies mit einer Gleichverteilung. Der Kandidat möchte seine Entscheidung X2 so wählen, daß P (X1 = X2 ) möglichst groß wird. Da er zum Zeitpunkt seiner ersten Wahl keine Vorinformation (er ist kein Prophet) zu X1 hat, ist aus seiner Sicht jede Wahl gleich gut. Jede Prozedur, eine Tür zu auszuwählen ist gleichgut mit einer, bei der die Türen permutiert sind. Durch Mittelung, erst eine Permutation und dann nach vorgegebener Prozedur eine Tür zu wählen, ist ebenso gut. Dies führt auf den Ansatz der Gleichverteilung von X2 . Ferner modellieren wir mit Unabhängigkeit “, ” d.h. P (X2 = j | X1 = i) = P (X2 = j) = 31 . Zur weiteren Bestimmung des W-maßes P benötigen wir einige Modellannahmen zum Verhalten des Moderators. Die ’natürlichen’ Annahmen wären: Der Moderator kennt die Tür X1 mit dem Auto und öffnet immer(!) eine nichtgewählte Tür mit Ziege dahinter. Falls er die Wahl zwischen 2 Türen hat, so wählt er zufällig mit Gleichverteilung eine der Türen, z.B. durch Münzwurf. Damit sind alle W-keiten P (X3 = k | X1 = i, X2 = j) jetzt wohlbestimmt und das W-maß P eindeutig gegeben, P ((i, j, k)) = P (X1 = i)P (X2 = j | X1 = i)P (X3 = k | (X1 = i, X2 = j). Nun zur erneuten Wahl des Kandidaten. Zu dem Zeitpunkt sind die Realisierungen X2 und X3 bekannt. Der Einfachheit halber sei X2 = 1 und X3 = 2, die anderen Fälle liefern aus Symmetriegründen (Umnummerieren) das gleiche Resultat. P (X1 = X2 | X2 = 1, X3 = 2) = = P (X1 6= X2 | X2 = 1, X3 = 2) = P (X1 = X2 = 1, X3 = 2) P (X2 = 1, X3 = 2) 111 332 111 332 +0+ 11 3 31 = 1 3 1 − P (X1 = X2 | X2 = 1, X3 = 2) = 2 . 3 Der Kandidat sollte seine Entscheidung ändern. Wie ändern sich die Wahrscheinlichkeiten, wenn die Annahmen den Moderator betreffend nicht zutreffen. Annahme 1: Der Moderator kennt die Tür mit dem Auto dahinter und öffnet immer(!) eine nichtgewählte Tür mit Ziege dahinter. Falls er die Wahl zwischen 2 Türen hat, so wählt er stets diejenige mit der kleinsten Nummer mit einer Wahrscheinlichkeit p. 18 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Annahme 2: Der Moderator kennt nicht die Tür mit dem Auto dahinter und öffnet zufällig eine der verbleibenden Türen. Dahinter erscheint eine Ziege. Annahme 3: Der Moderator kennt die Tür mit dem Auto dahinter. Er gönnt dem Kandidaten nicht das Auto. Der Moderator öffnet nur eine Tür, hinter der eine Ziege erscheint, wenn der Kandidat zuerst die Tür mit Auto gewählt hatte. (Zonk) Annahme 4: Der Kandidat wählt für X2 nicht die Gleichverteilung. (Auflösung: In den Fällen 1 und 2 sollte der Kandidat wechseln. Im Fall 3 nicht. Argument? Die Wahl von 4 ändert nichts an der Argumentation, solange....) Bsp: Die drei Todeskandidaten: Die Originalvorlage ist meines Wissens nach von Martin Gardner. Drei Gefangene sitzen in einer Todeszelle. Genau einer der Kandidaten soll morgen hingerichtet werden. Keiner der Gefangenen weiß, wer es ist. Der Gefangene A fragt den Wärter, wer morgen hingerichtet wird. Der Gefängniswärter, der den Namen kennt, sagt stets die Wahrheit. Er antwortet: Ich darf den Namen nicht ” verraten. Aber ich darf versichern, daß es nicht der Gefangene B ist.“Wie groß ist jetzt die W-keit, daß morgen A hingerichtet wird? Tippen Sie auf 1/3 oder auf 1/2? Welche Argumente würden Sie anführen? Informationsbegriff: Es erhebt sich die grundsätzliche Frage, wieviel ’Information’ in der Antwort des Wärters enthalten ist. Noch weitergehend, durch geschickte Auswahl von objektiv richtiger Information kann der Wärter die subjektiven W-keiten des Todeskanditen bewußt beeinflussen. Überlegen Sie sich mögliche Auswirkungen und Informationsstrategien in Gerichtsprozessen oder den Einfluß gezielter (wahrer) Informationsweitergabe auf Aktienkurse. 1.3.2 Konstruktion von W-Räumen 1.3.3 Wahrscheinlichkeitsbäume Bedingten Wahrscheinlichkeiten schaffen reichhaltige Möglichkeiten zur Modellierung durch Wahrscheinlichkeitsräume. Alle obigen Beispiele haben das gleiche Bildungsschema via Wahrscheinlichkeitsbäumen bzw. Familienbäumen. Sei V = supn∈IN0 IN n die Menge aller endlichen Folgen natürlicher Zahlen einschlies̈lich der leeren Folge ∅. (Konventionell gilt IN 0 = {∅}.) Wir schreiben v = (v1 , v2 , . . . , vn ) oder einfacher v = v1 v2 . . . vn für nichtleere Folgen. Wir verwenden einen familiennahen Sprachgebrauch, wie vi ist das i-te Kind von v und v das Eltern von vi, vw ist ein Nachkomme von v und v ist ein Vorfahre von vw. Die Generation von v entspricht der Länge |v| = n des Tupels. Die Einschränkung von v auf die ersten m−Generationen ist v|m = v1 . . . vm . Ein Element von V wird Knoten oder Individuum, im Englischen vertex, genannt. Eine Kante ist ein Tupel (v, vi) mit v ∈ V, i ∈ IN. Auf V benutzen wir die genealogische Ordnung (Interpretation?) bzw. Präfixordnung v w ⇔ |v| ≤ |w|. vi = wi for i = 1, . . . , n. Wir benutzen v < w für v ≤ w und v 6= w. Eine Menge W ⊂ V heis̈t präfixstabil, falls mit w ∈ W und v ≤ w auch v in W liegt. Ein Baum B ist eine präfixstabile Teilmenge des binären Baumes V. Ein Baum heis̈t endlich, falls er endlich viele Knoten hat. Die Höhe h(B) eines Baumes ist die maximale Länge eines Knotens des Baumes. Ein Element w ∈ W ohne Nachkommen in W heis̈t Blatt. Mit δW bezeichnen wir die Menge aller Blätter des Baumes W. Die Indizierung des Baumes V geschieht durch den Pfad, der von der Wurzel ∅ in den Knoten führt. Der Name des Knotens besteht aus der Aneinanderreihung der besuchten Knoten auf dem Pfad.Ein Baum im obigen Sinne versehen mit den Kanten im Baum ist auch ein Baum im graphentheoretischen Sinne. Ein Ereignisbaum ist ein Baum B versehen mit einer Ereignisfunktion A : B → Ω, sodass gilt – A(∅) = S Ω, – A(b) = ◦ bi∈B A(bi) falls b aus dem Baum und kein Blatt ist. 19 Uwe Rösler SS12 1.3 Bedingte Wahrscheinlichkeit Jeder Baum liefert einen Ereignisbaum, indem wir A(b) := {v ∈ δB | b v} als die Menge aller Nachfahren von b im Baum setzen. Dies ist der kanonische Ereignisbaum. Ein Wahrscheinlichkeitsbaum ist ein Baum B versehen mit einer Kantengewichtsfunktion B 2 3 (b, bi) 7→ p(b, bi) ∈ [0, 1] mit der Eigenschaft X p(b, bi) = 1 bi∈B für alle b ∈ B\δB. Die Grös̈en p(b, bi) heis̈en Kantengewicht auf den Kanten (b, bi) ∈ B 2 des Baumes B. Wir sprechen auch von einem Kantengewichtswahrscheinlichkeitsvektor. Zu gegebenem Wahrscheinlichkeitsbaum B definiere die Pfadgewichte L(b), b ∈ B durch L(∅) = 1 und rekursiv L(bi) = L(b)p(b, bi). L(b) ist das Produkt der Kantengewichte längs des Pfades von der Wurzel nach b ∈ B. Proposition 1.3.4 Sei B ein Wahrscheinlichkeitsbaum. Auf der Menge Ω = δB der Blätter versehen mit der Potenzmenge ist P definiert durch P (A) = X L(v) v∈A A ⊂ δB, ein Wahrscheinlichkeitsmas̈. Es gilt P (A(b)) = L(b). Bew: Es reicht zu zeigen L(b) ≥ 0 und P (A(b)) = L(b) für alle b ∈ B. Für die letztere Aussage betrachte M = {b ∈ B | P (b) = L(b)}. Es gilt δB ⊂ M. Annahme: M 6= B. Dann gibt es ein b ∈ B aber nicht in M und mit A(b)\{b} ⊂ M. Aus P (A(b)) = X P (A(bi)) = i|bi∈B X L(bi) = L(b) i Dies ergibt einen Widerspruch zu b 6∈ M. X p(b, bi) = L(b). i q.e.d. q.e.d. Proposition 1.3.5 Sei B ein Baum endlicher Höhe. Es gibt eine Bijektion zwischen Wahrscheinlichkeitsmas̈en auf den Blättern und Kantengewichtswahrscheinlichkeitsvektoren. Diese kann gegeben werden durch p(b, bi) = P (A(bi) | A(b)) (b, bi) ∈ B 2 mit A(b) = {v ∈ δB | b ≤ v}. Es gilt L(b) = P (A(b)), b ∈ B. Bew: Sei P ein W-mas̈ auf den Blättern. Zeige durch Induktion bzw. wie oben P (A(b)) = L(b). Damit ist der Kantengewichtswahrscheinlichkeitsvektor eindeutig definiert. Die Umkehrung wurde bereits oben gezeigt. q.e.d. Die Modellierung bzw. Konstruktion von W-bäumen geschieht von der Wurzel her via einem Ereignisbaum und Bestimmung der bedingten W-keiten P (A(vi) | A(v)). u u u u A K K A A A 00Au Au01 I @ @ @ 0u iP P PP PP P PPu ∅ 20 u u101 u u KA AK A A 10Au Au 11 I @ @ @ 1u1 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Polya’s Urnenmodell: In einer Urne befinden sich S schwarze und W weiße Kugeln. Nach jeder der k zufälligen Ziehungen werden c + 1 ∈ IN0 Kugeln der gleichen Farbe zurückgelegt. Der Fall c = −1 entspricht einem Urnenmodell ohne Zurücklegen und c = 0 einem mit Zurücklegen. Wir betrachten einen binären Baum B = ∪kn=0 {0, 1}k der Tiefe k. An jeder Verzweigung steht der linke Ast für das Ziehen einer weißen Kugel (0 für weiß), der rechte Ast für eine schwarze (1). Die Folge der Kugelfarben liefert die Namen der Knoten, Ulam-Harris. Der zugehörige Ereignisbaum ordnet jedem Knoten v das Ereignis A(v) zu, in der Reihenfolge v1 , v2 , . . . , v|v| weiße bzw. schwarze Kugeln zu ziehen. Mathematisch modellieren wir durch die Menge {0, 1}k der Blätter und setzen A(v) als die Menge der Blätter, die Nachfahre von v sind. Dies ist der Ereignisbaum. Die Kantengewichte p(v, vi) = P (A(vi) | A(v)) erhalten wir durch das Ziehen einer i-farbigen Kugel aus einer P|v| Urnen mit zur Vorgeschichte v entsprechend vielen farbigen Kugeln (S + c i=1 (vi ) schwarze von S + W + c|v| Kugeln). Die Kantengewichte sind bedingte W-keiten. Dies liefert den W-baum. Sei Ω = {0, 1}k und Xi die Projektion auf die i-te Koordinate. Proposition 1.3.6 Für das Polyasche Urnenmodell ist das W-maß P auf Ω := {0, 1}k gegeben durch Qs−1 Qk−s−1 (W + jc) i=0 (S + ic) j=0 . P (X1 = v1 , . . . , Xk = vk ) = Qk−1 l=0 (S + W + lc) Pk Hierbei ist s := i=1 vi die Gesamtzahl der gezogenen schwarzen Kugeln. Die W-keit P ((Xi )i = v) ist permutationsinvariant in dem Sinne in der Reihenfolge der gezogenen Kugeln. Es gilt P (Xi = S 1) = P (X1 = 1) = S+W für i = 1, . . . , k. Beweis: Sei v = (v1 , . . . vk ). Definiere die Ereignisse A(v|i ) = Ai := {v1 } × {v2 } × . . . × {vi } × {0, 1}×. . .×{0, 1} ⊂ Ω durch Festlegen der ersten i Koordinaten. Die Wahrsch. von Ai+1 , gegeben Pi A1 , . . . , Ai entspricht der Wahrsch. aus einer Urne mit S +W +ic Kugeln, davon sind S +c l=1 vl Kugeln schwarz, eine Kugel mit der Farbe vi+1 zu ziehen. In Formeln ausgedrückt ergibt dies im Fall vi+1 = 1, Pi S + c l=1 vl . P (Ai+1 | A1 ∩ . . . ∩ Ai ) = S + W + ic Der Durchschnitt aller dieser Ereignisse enthält genau die gewählte Realisierung. Das Lemma 1.3.2 ergibt die Behauptung. Da die Formel nur von der Gesamtanzahl der weissen bzw. schwarzen abhaengt, kann ich die Koordinaten von v vertauschen. q.e.d. Die Modellkonstruktion des Ziegenproblems ist von Baumgestalt. Beispiel 1.3.7 (Ziegenproblem revisited) Der Baum B besteht aus allen Folgen der Zahlen 1, 2, 3 mit Länge höchstens 3. (Die leere Folge entspricht ∅.) Die Blätter sind die Folgen aus B mit Länge 3. Der Stichprobenraum {1, 2, 3}3 ist der Blätterraum. A(i) entspricht dem Ereignis hinter der i-ten Tür ist das Auto. A(i, j) entspricht dem Ereignis hinter der i-ten Tür ist das Auto und der Kandidat wählt die j-te Tür. A(i, j, k) entspricht A(i, j) und zusätzlich öffnet der Moderator die k-te Tür. Die Zuordnung der Wahrscheinlichkeiten geschieht nun von der Wurzel her. Jede der Mengen A(i) erhält die W-keit 1/3. Gegeben A(i) erhält A(i, j) die W-keit 1/3. Für die W-keiten P (A(i, j, k) | A(i, j)) haben wir eventuelle Freiheiten, wie in den Fallunterscheidungen angegeben. Beispiel Duell: In einigen Spielen, gerade den neueren Spielen für Erwachsene, hat der technisch beste Spieler die schlechtesten Chancen zu gewinnen. Drei Spieler A,B und C wollen sich mit Pistolen duellieren. Es soll jeweils reihum ein Schuß in der zyklischen Reihenfolge A,B,C abgegeben werden bei freier Zielwahl. Es wird solange geschossen, bis ein befriedigter Sieger feststeht (oder nach 3 Runden beendet.) Der schlechteste Schütze A trifft in rund 50% aller Fälle, der Spieler B hat Trefferquote von 80% und Spieler C trifft immer. Spieler A beginnt. Die Spieler B und C versuchen stets den verbliebenen Spieler mit der größten Trefferw-keit zu erschiessen. 21 Uwe Rösler SS12 1.3 Bedingte Wahrscheinlichkeit Welche Strategie sollte A verwenden und wie sind die Überlebenswahrscheinlichkeiten der Duellanten. (Erstelle einen W-baum mit den bedingten W-keiten als Übergangskerne. Was passiert, wenn das Schlitzohr A als erstes in die Luft schießt?) Die Idee der W-bäume läs̈t sich leicht auch auf nichtendliche Bäume ausdehnen. 1.3.4 Produkträume Ein weiteres Beispiel mit eigenständiger Bedeutung von W-keitsbäumen sind die Produkträume. Produktraum: Seien (Ω1 , Pot(Ω1 ), P1 ), . . . , (ΩN , Pot(ΩN ), PN ) diskrete W-Räume. Auf dem QN Produktraum Ω := Ω1 × Ω2 × . . . × ΩN = n=1 Ωn definieren wir das Produktmaß P durch N Y P ({(ω1 , . . . , ωN )}) = Pn ({ωn }). n=1 NN Notation: n=1 Pi . Der W-Raum (Ω, ¶(Ω), P ) heißt Produktraum, oder auch Produktwahrscheinlichkeitsraum. . Lemma 1.3.8 Der Produktw-raum ist ein W-raum. Bew: Es ist P (Ω) = 1 zu zeigen. Übung. (Übung: Gebe einen zugehörigen W-baum und W-ereignisbaum an.) q.e.d. Proposition 1.3.9 Für Ai ∈ Pot(Ωi , i = 1, . . . , n gilt P (A1 × A2 × . . . × An ) = Y Pi (Ai ). i P P Beweis: Beide Seiten sind gleich ω1 ∈A1 . . . ωn ∈An P1 ({ω1 }) . . . Pn ({ωn }). q.e.d. Bsp: Würfeln. Wir würfeln k-mal hintereinander reale Würfel. Sei Xi das Ergebnis des i-ten Wurfes. Dies modellieren wir durch den Produktraum Ω = {1, . . .}k und das Produktmaß. Jede 1 . Wir haben einen Laplaceraum. Realisierung ((Xi )i=1 k = (xi )i=1 k) die W-keit 6k Übung: Modelliere mit einem Ereignisbaum. Iterierte Funktionensysteme Sei S eine endliche Menge und ν ein Maß auf F = S S versehen mit der Potenzmenge als σ-Algebra und sei νN das Produktmaß bzgl. ν auf F N . Xn seien die Projektionen auf die n-te Koordinate mit Werten in Funktionen. Ein iteriertes Funktionensystem (IFS) ist eine Folge Yn , n ≤ N Yn = Xn ◦ Xn−1 ◦ . . . X1 mit Xi wie oben. Bsp: Wright-Fisher. Ds Wright-Fisher Modell entstammt der Populationsgenetik bezüglich der Vererbung von DNS. Gegeben sei eine feste Bevölkerungsgröße M von Individuen. Jedes Individuum einer Generation ’sucht’ sich ein Individuum aus der vorhergehenden Generation als Eltern aus (und übernimmt dessen Meinung, DNS,...). Das Wright-Fisher modelliert durch Gleichverteilung (Sodom und Gomorrha) auf den Individuen der vorhergehenden Generation. Frage, gibt es einen ersten gemeinsamen Vorfahren (most common recent ancestor). 13j 12j 11j 10j8j 9j 14j 6j 7j 5j 1j 4j 2j 3j 22 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Mathem. Modell: Wir modellieren durch ein IFS. Sei S = {1, . . . , M } mit M die Bevölkerungsgröße und F die Menge der Funktionen von S in sich. Sei ν die Gleichverteilung auf F versehen mit NN der Potenzmenge. Sei (Ω = F N , P(F N ), n=1 ν) der Produktraum und Xn sei die n-te Projektion. (Wir betrachten maximal N Generationen rückwärts.) Sei Yn = Xn ◦ Xn−1 . . . X1 . Interessiert sind wir an dem Ereignis Yn ist eine konstante Funktion und an dem kleinsten n0 mit dieser Eigenschaft. Interpretation: Yn (i) gibt den n-ten Vorfahren von Individuum i der 0-ten Generation an. Yn tut dies gleichzeitig für alle Individuen. Im Wright-Fisher Modell haben alle Individuen, falls wir weit genug in die Vergangenheit blicken können, einen ersten gemeinsamen Vorfahren. Dieser ist Yn0 (1) in der n0 -ten rückwärtigen Generation. Wenn die DNS 100% genau an die Nachkommen übergeben werden, so müsste die jetzige Generation alle die gleiche DNS besitzen. Interessant wird das Modell durch neutrale Mutationen, d.h. Fehler bei der Kopierung der DNS von Eltern auf Kind, wobei die Mutation keine weiteren Auswirkungen haben. Diese Mutationen treten rein zufällig auf und jedesmal mit derselben W-keit. Betrachten wir jetzt zwei Individuen, deren DNS sich durch eine gemessene Anzahl von Mutationen unterscheidet. Dann können wir von Verwandtschaftsgraden sprechen und die vergangene Zeit bis zum ersten gemeinsamen Vorfahren schätzen. Hiermit lassen sich Stammbäumen von verschiedenen Arten konstruieren. Zum Beispiel ließe sich die Fragestellung beantworten, wann gab es den ersten gemeinsamen Vorfahren von Schimpansen und Menschen. (Benötigt genaueres Modell.) Übergangskerne* Die zugrundeliegende Idee der W-bäume und auch der Produkträume sind Übergangskerne. Wir wollen dies formalisieren. Ein diskreter Übergangskern K, oder auch Wahrscheinlichkeitskern von Ω nach Ω0 ist eine Abbildung K : Ω × P(Ω0 ) 7→ IR+ , mit ω, Ω0 höchstens abzählbar und K(ω, ·) ist ein W-maß auf Ω0 für alle ω ∈ Ω. Eine stochastische Matrix ist eine Matrix mit positiven Einträgen und jede Zeilensumme ist 1. Formal: Eine Matrix M = (mx,yP )x∈E,y∈F auf höchstens abzählbaren Mengen E, F und ∀x ∈ E, y ∈ F : mx,y ≥ 0 und ∀x ∈ E : y∈F mx,y = 1. Ein diskreter Übergangskern K liefert eine stochastische Matrix M und umgekehrt via K(x, {y}) = mx,y Bsp: Würfeln. Betrachte zweimaliges Würfeln. Die Verteilung des ersten Wurfes X1 und des zweiten X2 ist eine gleichmäßige auf Ω1 = {1, . . . , 6}. Die bedingte W-keit P (X2 = j | X1 = i) = K(i, {j}) = 61 liefert uns einen Übergangskern K von Ω1 nach Ω2 . Dieser ist ausgeartet von Ω1 icht abhängig. Übergangskerne spielen bei der Konstruktion von W-Räumen die Rolle von bedingten Wahrscheinlichkeiten. Sei (Ω1 , P(Ω1 ), P1 ) ein diskreter W-raum und K ein Übergangskern von Ω1 nach Ω2 versehen mit der Potenzmenge. Auf dem Stichprobenraum Ω = Ω1 × Ω2 versehen mit der Potenzmenge als Ereignisraum definieren wir das W-mas̈ P durch P ({(ω1 , ω2 )}) = P (A) = P1 ({ω1 })K(ω1 , {ω2 }) X P ({ω}). ω∈A (Übung: P ist ein W-mas̈.) Diese Konstruktion läs̈t sich durch weitere Übergangskerne erweitern. Lemma 1.3.10 Gegeben seien endliche oder abzählbare Mengen Ω1 , . . . , ΩN ein W-maß µ auf Ω1 und Übergangskerne n Y Kn : ( Ωi ) × Ωn+1 → IR i=1 23 Uwe Rösler SS12 für 1 ≤ n ≤ N − 1. Dann ist der Produktraum Ω = P ({(ω1 , . . . , ωn }) = µ({ω1 }) 1.3 QN n−1 Y n=1 Bedingte Wahrscheinlichkeit Ωn versehen mit dem dem W-mas̈ Ki ((ω1 , . . . , ωi ), {ωi+1 }) i=1 ein diskreter W-raum. Bew: Der Beweis geschieht durch Induktion. Den Induktionsanfang haben wir oben gemacht. Qn+1 Für den Induktionsschritt von n auf n + 1 konstruiere Pn+1 auf i=1 Ωi durch Pn und den Übergangskern Kn . q.e.d. (Übung: Modelliere Polyas Urnenmodell durch Übergangskerne.) 1.3.5 Markoffketten Sei S endlich oder abzählbar, µ ein W-mas̈ auf S und M eine stochastische Matrix auf S × S. Sei Pµ das in Lemma 1.3.10 definierte W-mas̈ auf dem Produktraum S N zu den Kernen Kn ((x1 , . . . , xn ), {xn+1 ) = mxn ,sx+1 . Pµ ({(x1 , x2 , . . . , xN )}) = µ({x1 })mx1 ,x2 mx2 ,x3 . . . mxN −1 ,xN . Sei Xn : S N → S die n-te Projektion. Not: X = i ist eine Kurzschreibweise für die Menge X −1 (i) = {ω | X(ω) = i}. Die Trennung durch Kommata steht für den Durchschnitt bzw. ein logisches und bei der Interpretation als Aussagen. Proposition 1.3.11 Im obigen Modell gilt, falls wohldefiniert, P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) = µ({x1 })mx1 ,x2 mx2 ,x3 . . . mxn−1 ,xn P (Xn = x, Xn+1 = y) = P (Xn = x)mx,y P (Xn+1 = y | Xn = x) = px,y Bew: Sei alles wohldefiniert. P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) = X P (X1 = x1 , X2 = x2 , . . . , Xn = xn , Xn+1 = xn+1 , . . . , XN = xN xn+1 ,...,xN ∈S = X µ({x1 }) xn+1 ,...,xN ∈S = N −1 Y X µ({x1 }) xn+1 ,...,xN −1 ∈S = X µ({x1 }) X = µ(x1 ) µ({x1 }) n−1 Y mxj ,xj+1 )( N −2 Y X mxN −1 ,xN ) xN ∈S mxj ,xj+1 j=2 xn+1 ,...,xN −2 ∈S ... N −2 Y x=2 xn+1 ,...,xN −1 ∈S = mxj ,xj+1 j=2 N −3 Y mxj ,xj+1 j=2 mxj ,xj+1 j=2 P (Xn = xn , Xn+1 = xn+1 ) = X P (X1 = x1 , X2 = x2 , . . . , Xn = xn , Xn+1 = xn+1 ) x1 ,...,xn−1 ∈S = X x1 ,...,xn−1 ∈S 24 µ({x1 }) n Y j=2 mxj ,xj+1 Elementare Wahrscheinlichkeitstheorie = SS12 mxn ,xn+1 Uwe Rösler X µ({x1 }) x1 ,...,xn−1 ∈S = P (Xn+1 = y | Xn = x) = n−1 Y mxj ,xj+1 j=2 mxn ,xn+1 P (Xn = xn ) P (Xn+1 = y, Xn = x) = mx,y . P (Xn = x) q.e.d. Definition 1.3.12 Eine Markoffkette (Mk) mit Zustandsraum S ist eine Folge von Zgn Xn : Ω → S, n ≤ N auf einem W-raum mit der Markoffeigenschaft P (Xn+1 = y | Xn = x) = P (Xn+1 = y | Xn = x, Xn−1 = xn−1 , . . . , X1 = x1 ) für alle n < N, x, y, x1 , . . . , xn−1 ∈ S. Interpretation: Der Parameter n wird als Zeit interpretiert. Die Markoffeigenschaft besagt, die W-keit von Ereignissen aus der Zukunft, gegeben die gesamte Vergangenheit und Gegenwart, wird nur durch die Gegenwart bestimmt. Die intuitive Vorstellung einer Mk auf dem Zustandsraum S ist ein Irrgarten mit den Kreuzungspunkten S und einem Würfel an jedem Punkt. Am Startpunkt würfeln wir mit dem dortigen Würfel einen neuen Punkt aus und gehen dahin. Angekommen würfeln wir mit dem dortigen Würfel einen neuen Punkt aus und gehen dorthin, u.s.w.. Unser zufälliger Pfad xn = Xn (ω) besteht aus der durchlaufenden Folge der Kreuzungspunkte. Satz 1.3.13 Jedes Tupel von einem W-mas̈ µ auf S und einer stochastischen Matrix M auf S liefert via obiger Konstruktion ein W-maß Pµ auf S N und damit die Mk Xn , n ≤ N der Projektionen. Umgekehrt, zu vorgegebener Mk Yn , n ∈ N auf S gibt es ein Tupel (µ, M ) mit (Xn )n unter Pµ hat dieselbe Verteilung wie (Yn )n . Es gilt P (Y1 ∈ ·) = µ P (Yn+1 = y | Yn = x) = mx,y . Bew: Sei µ, M gegeben und N ∈ IN fest. Definiere Ki : S i × S → IR durch Ki ((x1 , . . . , xi ), {xi+1 }) = mxi ,xi+1 . Sei P das nach Lemma 1.3.10 definierte W-maß und Xn die Koordinatenprojektionen. Dann ist Xn , n ≤ N eine Markoffkette. Die Markoffeigenschaft rechnen wir nach: P (Xn+1 = y | Xn = x, Xn−1 = xn−1 , . . . , X1 = x1 ) = µ(x1 )mx1 ,x2 . . . mxn−1 ,x mx,y = px,y µ(x1 )mx1 ,x2 . . . mxn−1 ,x Umgekehrt, ist eine Mk gegeben, so ist die Verteilung der Mk eindeutig durch das Anfangsmaß und die Übergangsw-keiten P (Yn+1 = y | Yn = x) falls P (Xn = x) > 0 bestimmt. Eventuell ist M eine Übergangsmatrix auf einem Teilraum von S. q.e.d. Bemerkung: In allem gesagten in diesem Abschnitt können wir N = ∞ nehmen. Eine stochastische Matrix wird gerne als ein gewichteter Graph (V, E) dargestellt. Dabei sind die Knoten die Zustände (V = S) und die Kanten sind diejenigen Tupel (x, y) mit mx,y > 0. Ein Markoffgraph ist der obige Graph mit den Kantengewichten E 3 (x, y) 7→ mx,y . Bildlich malen wir einen Pfeil von x nach y und schreiben eventuell den Wert mx,y daran. Bsp: Markoffgraph. S = {1, 2, 3, 4} mit 1/2 1/2 0 0 1/2 1/2 0 0 P = 0 1/4 1/2 1/4 6 6 6 6 u u u u 0 0 0 1 25 Uwe Rösler SS12 1.3 Bedingte Wahrscheinlichkeit Bsp: Peter und Paul. Peter und Paul werfen die Münze. Der Gewinner bekommt eine Einheit von dem anderen. Jeder fängt mit einem Startkapital an und darf solange spielen, bis er pleite ist oder N Teilspiele gespielt sind. Mathem. Modell: Sei x0 das Anfangskapital von Paul und K das Gesamtkapital beider. Wir modellieren das Kapital Xn von Paul nach dem n-ten Spiel durch eine Markoffkette zu der stochastischen Matrix mi,i+1 = 1/2 = mi,i−1 für i = 1, . . . , K − 1 und m0,0 = 1 = mK,K . Das Anfangsmaß ist das Punktmaß δx0 , δx0 (A) = 11x0 ∈A auf x0 . (Übung: Wie sieht der Graph der Markoffkette aus?) Bsp: Polyas Urnenmodell. Um Polyas Urnenmodell als Markoffkette zu simulieren, nehmen +S+sc mit |x| < k die Länge von x wir den Zustandsraum B = ∪ki=0 {0, 1}i , µ(∅) = 1, mx,x1 = WW+S+|x|c P| und s = i=1 x|xi und mx,x0 = 1 − mx,x1 . (Vergleiche dieses Modell mit dem Baummodell!) (Übung: Wie sieht der Graph der Markoffkette aus.) Kommen wir zurück zur Intuition einer Mk als Irrgarten. Die Folge der durchlaufenen Zustände ist eine Realisierung einer Mk. Die Mk liefert keine Information über eine andere Person, die einen anderen Startpunkt macht, bis wir und treffen. Danach gehen wir gemeinsam. Dies ist der Unterschied zwischen eine Mk auf S und einem IFS auf S S . Bsp: Wright-Fisher. Sei Yn = Xn ◦ Xn−1 ◦ . . . X1 das IFS mit Xi Zg mit Werten in F = S S und Verteilung ν. Yn selbst ist eine Markoffkette auf F mit den Übergängen mf,g = ν({g}), f, g ∈ F und das Punktmaß auf der Identität als Startverteilung. Für festes s ∈ S ist die Folge Yn (s), n ≤ N eine Markoffkette auf S mit den Übergangswahrscheinlichkeiten mx,y = ν({f ∈ F | f (x) = y}. 26 Elementare Wahrscheinlichkeitstheorie 1.4 1.4.1 SS12 Uwe Rösler Diverses Die Einschluß-Auschluß Formel Satz 1.4.1 (Einschluß-Ausschluß Formel) Seien Ai , i ∈ I, endlich viele Ereignisse. Es gilt die Einschluß-Ausschluß Formel [ X \ P ( Ai ) = (−1)1+|J| P ( Ai ). (1.1) i∈I J⊂I i∈J Beweis: Wir führen einen Induktionsbeweis nach der Anzahl n der Elemente in der Indexmenge I. Die Aussage gilt für n = 1 und für n = 2, P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ). Im Induktionsschritt zeigen wir die Aussage für n + 1, vorausgesetzt für n ist die Aussage richtig. n+1 [ P( Ai ) = P( i=1 n [ Ai ) + P (An+1 ) − P (( i=1 X = Ai ) ∩ An+1 ) i=1 (−1)1+|J| P ( J⊂{1,...,n} X = n [ \ X Aj ) + P (An+1 ) − j∈J (−1)1+|J| P ( J⊂{1,...,n} (−1)1+|K| P ( \ \ (Aj ∩ An+1 )) j∈J Ak ). k∈K K⊂{1,...,n+1} Die letzte Summe wird aufgeteilt in die drei Summen über diejenigen K mit K ⊂ {1, . . . , n}, mit K = {n + 1} und K enthält {n + 1} ist aber ungleich. T Bemerkung In vielen Anwendungen ist P ( i∈J Ai ) nur von der Mächtigkeit |J| von J abhängig. Die Einschluß-Ausschluß Formel vereinfacht sich zu n n [ X n P ( Ai ) = (−1)1+k ak (1.2) k i=1 k=1 mit ak := P ( Tk i=1 Ai ). Beispiel Tanzparty: Bei einer Tanzparty mit n Ehepaaren werden die Tanzpartnerinnen zufällig zugelost. Mit welcher Wahrsch. werden zwei Ehepartner zusammengelost? Wenn wir die Ehepaare numerieren, so ist eine Auslosung eine zufällige Permutation π der Zahlen 1 bis N, der Herr k tanzt mit der Dame π(k). Der Stichprobenraum der Permutationen ist ein Laplaceraum, alle Permutationen sind gleichwahrsch. Gefragt ist nach der Wahrsch. eine Permutation π mit einem Fixpunkt π(x) = x zu wählen. Die Ereignisse Ak , der Herr k tanzt mit Dame k, sind die Permutationen π auf I := {1, 2, . . . , N } mit Fixpunkt k. Insgesamt gibt es (n! verschiedene Permutationen. Die Wahrsch. der Permutationen mit vorgeschriebenen Fixpunkten J ⊂ I ist P( \ Aj ) = j∈J (n − |J|)! . n! Die Einschluß-Ausschluß Formel liefert P( [ i∈I Ai ) = n X (−1)1+k k=1 27 k! . Uwe Rösler SS12 1.4 Diverses Die Wahrsch. der Auslosung einer Tanzpaarung, in der kein Ehepaar miteinander tanzt ist P( \ Aci ) = 1 − P ( i∈I [ Ai ) = 1 − i∈I P∞ Im Grenzwert n → ∞, beachte e−x = n=0 weise) gegen den Wert 1e echt größer Null. xn n! , n X (−1)1+k k! k=1 . strebt diese Wahrscheinlichkeit (überraschender- Es gibt viele Varianten der obigen Problemstellung. Zum Beispiel zur Weihnachtsfeier bringt jeder Teilnehmer ein Geschenk mit, das später unter den Teilnehmern ausgelost wird. Die ursprüngliche Problemstellung von de Montmort (1713) behandelt die Zulosung von n Karten zu n Spielern. Lemma 1.4.2 (Bonferoni Ungleichung) Seien An , n ∈ IN Ereignisse. Es gilt X X X P (An ) − P (Am ∩ An ) ≤ P (∪n An ) ≤ P (An ). n m<n (1.3) n Allgemeiner, für 1 ≤ k ≤ n (−1)k (P ( [ X An ) − n (−1)1+|J| P ( \ Aj )) ≤ 0. j∈J J⊂I, |J|≤k Beweis: Betrachte Bn := An \(A1 ∩ . . . ∩ An−1 ). Die Ereignisse Bn sind paarweise disjunkt, S S A = ◦ B i≤n i i≤n i und Bn ⊂ An . Damit P( [ [ X An ) = P ( ◦ B n ) = P (Bn ). n n n Die zweite Ungleichung in der ersten Zeile folgt aus der Monotonie P (Bn ) ≤ P (An ). Für die erste argumentiere n−1 [ n−1 X i=1 i=1 P (Bn ) = P (An ) − P ( (Ai ∩ An )) ≥ P (An ) − Den allgemeinen Fall behandeln wir später (refBinomialformal). 1.4.2 P (Ai ∩ An ). q.e.d. Besondere Aufgaben In einem Duell ist die Wahl der Waffen vorteilhaft. In vielen Spielsituationen ist die erste Wahl oder der erste Zug vorteilhaft. Dies ist nicht immer so. Beispiel Der Beste: Auf dem Tisch liegen drei Würfel, beschriftet mit den Zahlen (6, 6, 3, 3, 3, 3), (5, 5, 5, 2, 2, 2) und (4, 4, 4, 4, 4, 1). Spieler A läs̈t Spieler B die erste Wahl eines Würfels und wählt anschlies̈end einen verbleibenden. Dann wird gewürfelt und der Spieler mit der höheren Augenzahl gewinnt. Wer ist im Vorteil? Welche Seite nehmen Sie, A oder B.? Auflösung: Im direkten Vergleich gewinnt der erste Würfel gegen den zweiten mit Wahrsch. 24/36, der zweite gegen den dritten mit Wahrsch. 21/36 und der dritte gegen den ersten mit Wahrsch. 20/36. Es ist ein Nachteil als Erster einen Würfel zu wählen. In diesem Beispiel gibt es keinen absolut besten Würfel. Bierdeckelzahlen: Peter schreibt verdeckt auf zwei Bierdeckel je eine reelle Zahl. Beide Zahlen sind verschieden. Anschließend darf Paul einen der Bierdeckel nach seiner Wahl umdrehen und sich die Zahl ansehen. Er darf dann entscheiden, ob er diese Zahl behält oder die Zahl des anderen Bierdeckels wählt. Paul hat gewonnen, wenn er die größere gewählt hat. Frage: Gibt es eine Strategie für Paul, so dass er mit eine W-keit strikt grøßer als 21 gewinnt? Hinweis: Es gibt eine 28 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Verteilung auf den reellen Zahlen, die jedem offenen Intervall ein strikt positives Maß zuordnet. (Übung) Hutfarbe zum ersten: Drei Personen bekommen jeweils einen weißen oder schwarzen Hut aufgesetzt. Die Farbe des Hutes wird jeweils durch einen zufälligen fairen Münzwurf bestimmt. Die Personen sehen die Hutfarben der anderen, aber nicht die eigene. Jegliche Art von Kommunikation ist unmöglich. Anschließend werden die Personen in hermetisch abgeschlossene Räume geführt und nach ihrer Hutfrage gefragt. Jede Person darf die Antwort verweigern oder eine Aussage treffen. Die gesamte Gruppe hat genau dann gewonnen, wenn mindestens einer eine Aussage macht und alle gemachten Aussagen müssen wahr sein. Die Dreiergruppe darf sich vor dem Spiel beraten und eine Strategie vereinbaren. Mit welcher W-keit strikt größer als 21 kann die Gruppe mindestens gewinnen? Hutfarbe zum zweiten: Jede der n ≥ 3 Personen hat eine ganze Folge von Hüten auf, deren Farben weiß oder schwarz durch unabhängigen M ünzwurf einer fairen Münzw ermittelt wurde. Jede Person sieht die Hüte der anderen, aber nicht seine eigenen. Jegliche Kommunikation ist untersagt und unmöglich. Anschließend werden die Personen in hermetisch abgeschlossene Räume geführt und jede Person wird nach der Koordinate eines eigenen schwarzen Hutes gefragt. Eine Person (und dann die Gruppe) hat genau dann gewonnen, wenn alle einen schwarzen Hut korrekt angegeben haben. Die Personen dürfen sich vor dem Spiel beraten und eine Strategie vereinbaren. Mit welcher W-keit strikt größer als 21n kann die Gruppe mindestens gewinnen? Kommen Sie auf 1 n+1 ? Duell von Mathematikern. Drei Mathematiker A, B, C wollen sich duellieren nach den folgenden Regeln: Es wird in der Reihenfolge A, B, C, A, B, usw. geschossen, wobei nur Lebende schiessen dürfen (können). Wer an der Reihe ist, darf nach eigener Wahl auf einen Duellanten schiessen oder er verzichtet auf sein Schussrecht. Falls nur noch einer lebt oder in einer Runde alle verzichtet haben, einschließlich des letzten Schießenden, wird das Duell beendet. Vor dem Duell verhalten sich die Duellanten emotional und nicht kooperativ, keine Absprachen werden getroffen. Zum Zeitpunkt des Duells jedoch verhalten Mathematiker sich rein rational (=emotionslos) und nehmen stets diejenige Entscheidung, die ihre eigene Überlebenswahrscheinlichkeit maximiert. Gegeben maximale eigen Überlebenschance sehen sie ihre Gegner lieber tot. Die Treffsicherheit von A, B, C ist eine aufsteigender Folge 0 < pA < pB < pC = 1 von strikt positiven Zahlen. Mit welcher W-keit überlebt A bzw. B bzw. C? (Mathematisches Argument!) 29 Uwe Rösler 1.5 SS12 1.5 Konzept: Unabhängigkeit Konzept: Unabhängigkeit Der Konzept der stochastischen Unabhängigkeit ist ein ganz wesentlicher Bestandteil der Stochastik. Dieses Konzept ermöglicht erst in seinen Konsequenzen den Aufbau einer Wahrscheinlichkeitstheorie. Geschichtlich gesehen wurde eine präzise mathematische Formulierung der Unabhängigkeit recht spät gegeben, erst im 20-ten Jahrhundert. Heuristik: Ereignisse A, B sind unabhängig, falls die Wahrsch. für das Eintreten von A nicht von der Kenntnis des Eintretens oder Nichteintretens des Ereignisses B abhängt. Diese Überlegung führt auf den Ansatz P (A | B) = P (A) bzw. P (B | A) = P (B). Definition 1.5.1 (unabhängig) Zwei Ereignisse A und B heißen paarweise unabhängig , falls die W-keit für den Eintritt beider gleich dem Produkt der Einzelw-keiten ist, P (A ∩ B) = P (A)P (B). Sind A und B unabhängig, so auch B, A und A, B c usw. Gilt P (A), P (B) > 0, so sind A, B unabhängig genau dann, wenn die Wahrsch. von A bedingt auf B gleich der Wahrsch. von A selbst ist. Bsp: Gefälschte Münze. Wir werfen zweimal mit einer eventuell gefälschten Münze. Sei p ∈ (0, 1) die W-keit für Kopf, identifiziert mit der 1. Wir betrachten die Ereignisse A, der erste Wurf zeigt ’Kopf’ und B, genau ein ’Kopf’ erscheint. Dies Experiment modellieren wir durch Ω := {0, 1}2 mit dem W-maß P ({(i, j)}) = pi+j q 2−i−j . Die Koordinatenabbildungen Xi : Ω → {0, 1} geben das Ergebnis im i-ten Wurf an. Die Ergebnisse des ersten Wurfes und des zweiten Wurfes sind unabhängig, P (X1 = i, X2 = j) = P (X1 = i)P (X2 = j). Die Ereignisse A := {X1 = 1} = {(1, 0), (1, 1)} und B := {X1 + X2 = 1} = {(0, 1), (1, 0)} haben die W-keiten P (A) = p, P (B) = P ({(0, 1)}) + P ({(1, 0)}) = 2p(1 − p), P (A ∩ B) = p(1 − p). Die beiden Ereignisse A, B sind genau dann paarweise unabhängig, falls p = 1/2 gilt. Jetzt zur allgemeinen formalen Definition der Unabhängigkeit. Definition 1.5.2 (unabhängig) Eine Familie Ai ∈ A, i ∈ I, von Ereignissen zu beliebiger Indexmenge I heißt (stochastisch) unabhängig, falls für jede endliche Auswahl die W-keit des Durchschnitts gleich dem Produkt der Wahrsch. ist. In Formeln: \ Y ∀J ⊂ I, |J| < ∞ P( Aj ) = P (Aj ). j∈J j∈J Eine Familie Ai ⊂ A, i ∈ I, von Untermengen der Ereignismenge zu beliebiger Indexmenge I heißt unabhängig , falls jedes Repräsentantensystem Ai ∈ Ai , i ∈ I, eine Familie von unabhängigen Ereignissen bildet. Die drei Definitionen sind in aufsteigender Reihenfolge der Allgemeinheit, die dritte enthält die zweite und diese die erste als Spezialfall. Lemma 1.5.3 Die Ereignisse Ai , i ∈ I, sind genau dann unabhängig wenn die Mengensysteme {∅, Ai , Aci , Ω}, i ∈ I, unabhängig sind. Seien die Mengensysteme Ai ⊂ A, i ∈ I, stochastisch unabhängig. Sind IkS, k ∈ K, paarweise disjunkte Teilmengen der Indexmenge I, so sind die Mengensysteme Bk := i∈Ik Ai , k ∈ K der Vereiningung unabhängig. Bew: Die Rückrichtung der ersten Aussage ist einfach. Für die Hinrichtung beschränken wir uns oEdA auf endliche Indexmenge I. Wir werden zeigen: Sind die Ereignisse Ai , i ∈ I unabhängig, so auch Aci0 , Ai , i ∈ I\{i0 } für jedes i0 ∈ I. 30 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Sei J ⊂ I. \ \ \ Y Y Y P (Aci0 ∩ Aj ) = P ( Aj )−P ( Aj ) = P (Aj )− P (Aj ) = P (Aci0 ) P (Aj ) i0 6=j∈J i0 6=j∈J j∈J i0 6=j∈J j∈J i0 6=j∈J Eine sukzessive Anwendung liefert die Hinrichtung. Die zweite Aussage folgt direkt aus der Definition. q.e.d. Definition 1.5.4 Eine Familie von Zufallsgrößen Xi : Ω → Ωi , i ∈ I heißt unabhängig, falls die σ-Algebren X −1 (Ai ) = {X −1 (A) | A ∈ Ai }, i ∈ I unabhängig sind. Bemerkung: Allgemein: Seien Ei , i ∈ I durchschnittstabile Erzeuger der σ-Algebren Ai , i ∈ I. (Eine Teilmenge E des Ereignisraumes A heißt Erzeuger, falls A die kleinste, E enthaltende σAlgebra ist. Er ist durchschnittsstabil, falls er abgeschlossen ist bzgl. endlichem Durchschnitt.) Dann reicht es und ist einfacher nachzuweisen, das̈ die Familie Xi−1 (Ei ), i ∈ I unabhängig ist. Das einfachste Beipiel für unabhängige Zgn ist mehrfaches Würfeln. Die Augenzahlen Xi des i-ten Wurfes, 1 ≤ i ≤ n sind unabhängig. In diesem Beispiel ist der W-raum ein Produktraum. Allgemeiner fomuliert, Q Bsp: Produktraum: Seien (Ωi , Pot(Ωi ), Pi ) diskrete W-räume. Sei Ω := i Ωi die Produktmenge Q und P = i Pi das Produktmaß. Die Koordinatenabbildungen X1 , . . . , Xn sind unabhängig 1.3.9. Zum Schluss eine Fallgrube, die wir umschifft haben. Paarweise Unabhängigkeit Ereignisse Ai , i ∈ I, heißen paarweise unabhängig , falls je zwei Ereignisse Ai , Aj , i 6= j unabhängig sind. Unabhängigkeit impliziert paarweise Unabhängigkeit. Die Umkehrung gilt nicht. Warnung: Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit. Ebenso impliziert Tripelunabhängigkeit P (A ∩ B ∩ C) = P (A)P (B)P (C) nicht Unabhängigkeit. Bsp: Paarweise unabhängig: Bei zweimaligem Münzwurf wie oben mit p = 1/2 betrachten wir zusätzlich das Ereignis C, der zweite Wurf zeigt ’Kopf’. Diese Ereignisse sind paarweise unabhängig, aber nicht unabhängig, (A ∩ B ∩ C = ∅). Nachrechnen. Warnung: Die mathematische stochastische Unabhängigkeit kann nicht als einflusslos oder die Verneinung kausaler Zusammenhänge interpretiert werden. Proposition 1.5.5 Die Summe von n unabhängigen, identisch Bernoulli Ber(p) zum Parameter p verteilten Zufallsvariablen ist binomialverteilt Bin(n, p). Pn Beweis: Seien Xi die unabhängigen Bernoulli(p) verteilten Zgn und Sn = i=1 Xi die n−te Partialsumme. Wir zeigen den Induktionsschritt von n nach n + 1. P (Sn+1 = k) = P (Sn = k, Xn+1 = 0) + P (Sn = k − 1, Xn+1 = 1) = P (Sn = k)P (Xn+1 = 0) + P (Sn = k − 1)P (Xn+1 = 1) n k n−k n n + 1 k n+1−k = p q q+ pk−1 q n−k+1 p = . . . = p q k k−1 k 31 Uwe Rösler 1.6 SS12 1.6 Erwartungswerte Erwartungswerte Heuristik: Der durchschnittliche Wert bei einem Münzwurf ist 3,5. Dies ist der Wert, den wir im Durchschnitt erwarten, die Summe der Augenzahlen geteilt durch die Anzahl der Würfe. Wir führen den Erwartungswert zuerst nur für Zgn X ein, die höchstens abzählbar viele verschiedene Werte annehmen können. Definition 1.6.1 (Erwartungswert) Der Erwartungswert E(X) einer positiven Zufallsgröße X : Ω 7→ IR mit abzählbar vielen Werten ist X E(X) := X(ω)P ({ω}). ω∈Ω Der Erwartungswert E(X) einer Zufallsgröße X mit E(X + ) < ∞ oder E(X − ) < ∞ ist E(X) := E(X + ) − E(X − ). Wir haben hier die Zerlegung einer Funktion f = f + − f − in den Positivteil f + := f ∨ 0 und den Negativteil f − := (−f ) ∨ 0 benutzt. Eine Zg X heißt integrierbar, falls E(|X|) < ∞ gilt. Sprachgebrauch: Der Erwartungswert E(X) heißt auch erstes Moment von X oder durchschnittlicher Wert von X. E|X| ist das erste absolute Moment. Notation: EX = E(X), EX 2 = E(X 2 ) und E 2 X = (E(X))2 . Bemerkung Die Verwendung des Erwartungswertes impliziert stets dessen Wohldefiniertheit. P Dazu benötigen wir, daß die Summe X(ω)P (ω) existiert und unabhängig ist von der Reiω henfolge der Summation. Dies wird (genau) durch die Voraussetzung EX + oder EX − endlich gegeben. Der Regelfall ist eine integrierbare Zg. (Beachte: E|X| < ∞ ⇔ EX + < ∞, EX − < ∞.) Der Erwartungswert kann die Werte +∞ und −∞ annehmen, ist für integrierbare Zgn aber stets endlich. Durch entsprechende Umordnung erhalten wir X X E(X) = X(ω)P ({ω}) = xP (X = x). ω∈Ω x∈IR Zur Summation tragen nur abzählbar viele Punkte x bei. Der Erwartungswert einer Zg hängt nur von der Verteilung der Zg ab, nicht aber vom zugrundeliegenden W-raum. Hier einige Rechenregeln für Erwartungswerte. Lemma 1.6.2 Sei a eine reelle Zahl und X, Y Zg. mit endlichem Erwartungswert. (i) E(aX) = aE(X) Skalarität (ii) E(X + Y ) = EX + EY Linearität (iii) 0 ≤ X ⇒ 0 ≤ EX Positivität (iv) X ≤ Y ⇒ EX ≤ EY Ordnungserhaltung (v) E|X + Y | ≤ E|X| + E|Y | Dreiecksungleichung (vi) E(a) = a (vii) |EaX| ≤ |a|E|X| (viii) E|X| = 0 ⇔ P (X = 0) = 1 (ix) E(supi Xi ) ≥ supi EXi 32 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler (x) E(inf i Xi ) ≤ inf i EXi Beweis:Die Beweise sind mehr eine Fingerübung und dem Leser überlassen. Die wesentlichen Eigenschaften sind zusammengefaßt in einer Merkregel. Dazu betrachten wir den Erwartungswert als eine Abbildung von dem Vektorraum V := {X : Ω 7→ IR | E|X| < ∞} in die reellen Zahlen via X 7→ EX. Merkregel: Der Erwartungswert ist eine positive lineare Abbildung auf dem Vektorraum der Zufallsvariablen mit endlichem ersten absoluten Moment. Bsp: Binomialverteilung. Der Erwartungswert einer binomialverteilten Zg S zu den Parametern n ∈ IN und p ∈ (0, 1) ist np. Dies ergibt sich durch Nachrechnen n X X n ES = kP (S = k) = k pk q n−k = ... = np k k=0 k mit q = 1−p. Eleganter ist die Argumentation: Die Summe S von n unabhängigen Bin(p) verteilten Zgn X1 , . . . , Xn ist Bin(n, p) verteilt. Damit gilt ES = n X EXi = nEX1 = np. i=1 Bsp: Bonferoni Ungleichung. Die Binomialformel liefert n Y (1 − ai ) = i=1 X (−1)|J| Y aj . j∈J J⊂{1,...,n} Sei ai ∈ [0, Q1] und sei Sk die rechte Summe über alle J der Mächtigkeit kleiner oder gleich k. Dann ist Sk − i (1 − ai ) positive für ungerade k und negativ für gerade k. (Der Beweis wird durch Induktion nach k erbracht.) Seien Ai , 1 ≤ i ≤ n Ereignisse und 11Ai die Indikatorfunktion. (11A (ω) = 1 für ω ∈ A und 0 sonst.) Mit ai = 11Ai (ω) erhalten wir 11 ∩n Ac i=1 i = n Y X (11 − 11Ai ) = i=1 J⊂{0,1,...,n} (−1)|J| Y 11Aj (1.4) j∈J Auf beiden Seiten den Erwartungswert genommen liefert die Einschluss-Ausschlussformel. Die allgemeine Bonferoni Ungleichung folgt mit der Erwartungswertbildung der alternierenden Reihe Q Sk − i (1 − ai ). Satz 1.6.3 (Transformationssatz) Seien X : Ω 7→ Ω0 und Y : Ω0 7→ IR Zgn. Es gilt EP (Y ◦ X) = EP X (Y ) sofern eine der beiden Seiten existiert. Beweis: EP (Y ◦ X) = X Y (X(ω))P (ω) = X ω Y (x)P (X = x) = EP X (Y ). x Besonders wichtig ist der Multiplikationssatz, der neben der additiven Struktur die Produktstruktur aufzeigt. Satz 1.6.4 (Multiplikationssatz) Für unabhängige integrierbare Zgn X1 , . . . , Xn ist der Erwartungswert des Produktes gleich dem Produkt der Erwartungswerte. Y Y E( Xi ) = E(Xi ). i i 33 Uwe Rösler SS12 1.6 Erwartungswerte Beweis: E( Y Xi ) = n X Y ω i = ! Xi (ω) P (ω) i=1 X x1 . . . xn P (X1 = x1 , . . . , Xn = xn ) x1 ...,xn = X x1 . . . xn P (X1 = x1 ) . . . P (Xn = xn ) = x1 ,...,xn Y E(Xi ). i Petersburger Spiel: Sie werfen eine gefälschte Münze und gewinnen bei Kopf, welcher mit Wahrscheinlichkeit p > 21 erscheint, und verlieren bei Zahl. Ihr Einsatz ist stets Ihr gesamtes Kapital, welches bei Gewinn verdoppelt wird und bei Verlust eingezogen wird. Wie groß ist der erwartete Gewinn nach n Runden und mit welcher W-keit geschieht dies? Mathematisches Modell: Seien Xi , 1 ≤ i ≤ n unabhängige, Ber(p) verteilte Zgn. Ihr AnQi fangskapital sei K0 = 1. Nach der i-ten Runde besitzen sie das Kapital Ki = j=1 (2Xi ). Die i Erwartungswerte E(Ki ) = (2p) Q sind striktnmonoton steigend. Nach n Würfen sind Sie nicht pleite mit einer Q W-keit von P ( i Xi = 1) = p und haben in diesem seltenen Fall ein Riesenkapital von E( i (2Xi )) = (2p)n angesammelt. Üblicherweise läßt sich der Erwartungswert direkt aus der Definition berechnen. Hier zwei andere, nicht triviales Beispiele zur Berechnung eines Erwartungwertes. Zufallsadresse: Ein Komputer hat n Prozessoren und ordnet k Arbeitsaufgaben zufällig mit Gleichverteilung jeweils einem Prozessor zu, der die Aufgabe bearbeiten soll. Falls ein Prozessor zwei oder mehr Aufgaben bekommt, so bearbeitet er keine. Wieviele Aufgaben werden durchschnittlich bearbeitet? Sei Y die Anzahl der Prozessoren, die genau eine Aufgabe erhalten. Gefragt ist nach EY. Es ist relativ schwer die Verteilung der Zg Y zu finden. Für den Erwartungswert gibt es einen einfachen Weg: Seien Xi die Zgn, das̈ der i-te Prozessor genau eine Aufgabe bekommt. (Xi = 1 falls ja, k−1 ansonsten Xi = 0.) Die W-keit P (Xi = 1) berechnet sich zu k1 (n−1) . (Urnenmodell aus einer nk Urne mit n numerierten Kugeln bei k-Ziehungen mit Zurücklegen und Reihenfolge genau einmal die 1 zu ziehen.) Damit gilt EY = E X Xi = i X i k−1 1 EXi = k 1 − . n Für k = n und n gros̈ ergibt sich asymptotisch der erstaunlich hohe Wert, lim n EY = e−1 . n Quicksort: Quicksort ist ein 1961 von Hoare vorgestellter Sortieralgorithmus. Wir beschreiben die Originalversion des zufälligen Algorithmus. Sei Ln eine zu sortierende Menge oder Liste von n verschiedenen Zahlen. • Wähle zufällig aus der Menge (Urne) mit Gleichverteilung ein Element, • vergleiche alle anderen damit und • bilde die Menge der strikt kleineren und die Menge der strikt größeren Zahlen. • Für jede dieser Mengen rufe rekursiv den Algorithmus auf. Dieser Algorithmus terminiert. Schematisch erhalten wir 34 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler x x x x x x x x x x x s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s Die Laufzeit des Algorithmus ist zufällig. Diese Zeit ist im wesentlichen proportional zur benötigten Anzahl Qn der Vergleiche. Die benötigte Vergleichsanzahl für eine Liste der Länge n sind n − 1 Vergleiche zur Bildung der Teillisten und dann die benötigten Vergleichen zur Sortierung der Liste der kleineren und der Liste der größeren Elemente. Wir erhalten die mathematische rekursive Beziehung D Qn = n − 1 + QUn −1 + Qn−Un , n ∈ IN . Hierbei sind Q. , Q. , Un unabhängige Zgn. Die Zg Un hat eine gleichmäßige Verteilung auf D {1, . . . , n}. Die Verteilung von Qm , Qm sind jeweils gleich und rekursiv bestimmt. Das Symbol = steht für Gleichheit in Verteilung. Hier interessiert uns nur die erwartete Anzahl an := EQn der Vergleiche. Die obige rekursive Beziehung ergibt an = n − 1 + EaUn + Ean−Un , n ∈ IN, a0 = 0 = a1 . Diese rekursive Gleichung ergibt an an−1 2(n − 1) = + . n+1 n n(n + 1) Hieraus ergibt sich durch Iteration sofort n+1 X1 an 2 = ... = 2 + −4 n+1 l n+1 l=1 an ≡ 2n ln n + n(2γ − 4) + 2 ln n + 2γ + 1 + O(n−1 ln n)) mit γ = 0, 57721 . . . die Euler Konstante. 1.6.1 Momente Den Erwartungswert E(X) nennt man auch Moment oder genauer erstes Moment. Das absolute erste Moment ist E(|X|). Das p-te Moment ist E(X p ), (Mit der Konvention xp := |x|p sign x und vorausgesetzt E(X p ) ergibt Sinn.) Ebenso spricht man vom p-ten absoluten Moment E(|X|p ), vom exponentiellen Moment E(exp(X)), logarithmischen, usw. Ein zentriertes Moment einer Zufallsvariable X ist der Erwartungswert der zentrierten Zufallsvariable X − EX. Der Leser wird nach diesem Schema selbst neue Sprachkombinationen erfinden können (die ich ad hoc verstehe). Das zweite zentrierte Moment einer Zufallsvariablen X heißtpVarianz der Zufallsvariablen X. 2 Notation: Var(X) = E(X − EX)2 := σX .Die Wurzel σX := Var(X) der Varianz von X heißt Streuung. Die Covarianz Cov(X, Y ) von zwei Zufallsvariablen X, Y ist der Erwartungswert E((X−EX)(Y − EY )) des Produkts der zentrierten Zufallsvariablen. Der Korrelationskoeffizient Cov(X, Y ) σX σY zweier Zgn X, Y ist die Kovarianz dividiert durch das Produkt der Streuungen. ρ := ρ(X, Y ) = 35 Uwe Rösler 1.6.2 SS12 1.6 Erwartungswerte Varianz Proposition 1.6.5 Seien X, Y Zufallsgrößen mit endlichem zweiten Moment. Es gelten die Rechenregeln (i) Var(aX + b) = a2 Var(X), a, b ∈ IR. (ii) Var(X) = E(X 2 ) − E 2 (X) (iii) Var(X) = 0 ⇔ P (X 6= EX) = 0 Beweis: Var(X) = X (X(ω) − EX)2 P (ω) = X (X(ω)2 − 2X(ω)E(X) + (E(X))2 P (ω) = E(X 2 ) − E 2 (X) = E(aX + b − E(aX + b))2 = a2 Var(X) ω Var(aX + b) Die nächste Behauptung folgt aus Lemma 1.6.28. q.e.d. P P Lemma 1.6.6 Für unabhängige Zgn X1 , . . . , Xn ist die Varianz linear (Var i Xi = i VarXi ). P P P P Beweis: Var( i Xi ) = Var( i (Xi − EXi )) = i,j E((Xi − EXi )(Xj − EXj )) = i E(Xi − P EXi )2 = i VarXi . Satz 1.6.7 (Cauchy-Schwarz Ungleichung) Für zwei Zgn X, Y mit endlichem zweiten Moment gilt die Ungleichung E 2 (XY ) ≤ E(X 2 )E(Y 2 ). Gleichheit gilt genau dann, wenn eine Zg mit Wahrsch. 1 ein Vielfaches der anderen ist (∃a, b ∈ IR, ab 6= 0 : P (aX = bY ) = 1). Beweis: O.E.d.A sei E(Y 2 ) > 0. Betrachte das Minimum der Funktion 0 ≤ E(X + aY )2 = EX 2 + 2aE(XY ) + a2 EY 2 in der reellen Variablen a ∈ IR. Das Minimum wird im Wert a = −E(XY )/EY 2 angenommen. Diesen a Wert eingesetzt ergibt die Behauptung. Gleichheit gilt genau für E(X + aY )2 = 0, welches äquivalent zu P (X + aY = 0) = 1 ist. q.e.d. Beispiel: Die Korrelationskoeffizienten erfüllen −1 ≤ ρ(X, Y ) ≤ 1. Dies folgt aus der CauchySchwarz Ungleichung Cov2 (X, Y ) ≤ Var(X)Var(Y ). Übung: Der Erwartungswert EX minimiert die Funktion E(X − a)2 in a ∈ IR. 1.6.3 Kovarianz Proposition 1.6.8 Seien a, b reelle Zahlen und X, Y Zufallsvariablen mit endlichem zweiten Moment. Es gelten die Rechenregeln (i) Cov(X, X) = Var(X) (ii) Cov(X, Y ) = Cov(Y, X) (iii) Cov(X, Y ) = E(XY ) − EXEY (iv) Cov(aX + b, Y ) = aCov(X, Y ) (v) Cov2 (X, Y ) ≤ Var(X)Var(Y ) P P P (vi) Var( i Xi ) = i Var(Xi ) + i6=j Cov(Xi , Xj ) 36 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler (vii) X, Y unabhängig ⇒ Cov(X, Y ) = 0 Beweis: Die fünfte Ausage folgt aus der Cauchy-Schwarz Ungleichung. Für die sechste nehmen wir o.E.d.A. zentrierte Zufallsvariablen X1 , . . . , Xn an. Aus Var(X1 + . . . + Xn ) = X E(Xi Xj ) = X i 1≤i,j≤n folgt die Aussage. Der letzte Teil folgt aus 1.6.4 EXi2 + X EXi Xj i6=j q.e.d. Definition 1.6.9 (unkorreliert) Zwei Zgn X, Y heißen unkorreliert, falls Cov(X, Y ) = 0 gilt. Dies ist äquivalent zu E(XY ) = EXEY. Unabhängigkeit impliziert Unkorreliertheit, aber im allgemeinen gilt nicht die Umkehrung. Beispiel: Die Zg X nehme die Werte −2, −1, 1, 2 an mit jeweils derselben Wahrsch. 1/4. Dann sind die Zgn X, X 2 unkorreliert, aber nicht unabhängig, (EX 3 = 0 = EXEX 2 , 1/4 = P (X = 2, X 2 = 4) 6= P (X = 2)P (X 2 = 4) = 1/8.) Merkregel: Die Covarianz ist eine symmetrische Bilinearform auf dem Raum der Zufallsvariablen mit zweitem endlichen Moment. Interpretation Der Erwartungswert gibt die durchschnittliche Größe einer Zufallsvariablen an (siehe auch den Abschnitt über das schwache Gesetz der großen Zahl). Der Erwartungswert ist physikalisch der Schwerpunkt einer Masseverteilung. Legen wir auf jede reelle Zahl x die physikalische Masse P ({x}) eines W-Maße P, so ist der Erwartungswert exakt der Schwerpunkt aller dieser Massen, d.h. wir können die gewichtete Zahlengerade genau in diesem Punkt auf eine Spitze stellen, und die gewichtete Zahlengerade bleibt im Gleichgewicht. Die Varianz ist eine Kenngröße für die Streuung des W-maßes (Masse). Je größer die Varianz, desto mehr Streuung. Der Extremfall Var(X) = 0 von Varianz Null entspricht keiner Streuung, die Zufallsvariable X nimmt nur einen einzigen Wert X ≡ EX an. Mit wachsender Varianz streuen die Realisierungen immer stärker um den Erwartungswert. Die Kovarianz Cov(X, Y ) zweier Zufallsvariabler ist eine Kenngröße für lineare Abhängigkeit der Zgn X und Y . Üblicherweise wird der Korrelationskoeffizient Cov(X, Y ) ρX,Y = ∈ [−1, 1], σX σY p p die Kovarianz bereinigt um die Streuungen σX = Var(X),σY = Var(Y ), bevorzugt. Positive Korrelation zeigt eine Tendenz zu gleichen Vorzeichen für die zentrierten Zgn X, Y, negative Korrelation zeigt eine Tendenz zu ungleichenVorzeichen. Die Extremfälle sind ρ = 1 falls X − EX = a(Y − EY ) für ein a > 0 und ρ = −1 falls a < 0. Y r Y Y r r r 6 6 6 r r r r r r r r r r r X r X X r r r r r Die Bilder zeigen positive Korrelation, keine Korrelation und negative Korrelation. Die Extremwerte des Korrelatioskoeffizienten ρ sind ρ = 1 und ρ = −1. Diese Fälle entsprechen X − EX = a(Y − EY ) für ein a > 0 bzw. a < 0. Dies ist eine Konsequenz aus der Cauchy-Schwarz Ungleichung. 37 Uwe Rösler 1.6.4 SS12 1.7 Integrationstheorie Konvergenzsätze Eine Zg mit Wertebereich IR = IR ∪ {−∞, ∞} heißt erweitert. Satz 1.6.10 (Monotone Konvergenz) Sei Xn , n ∈ IN, eine steigende (fallende) Folge von erweiterten Zgn und sei EX1 > −∞ (EX1 < ∞.) Dann gilt E lim Xn = lim EXn . n n Beweis: Sei X = limn Xn . Die Aussage folgt (Übung) aus P ω (X(ω) − Xn (ω))P (ω) → 0. Bemerkung: Ein Spezialfall ist: Sei An eine gegen A aufsteigende (oder absteigende) Folge von Ereignissen. Dann gilt P (An ) % P (A). Beachte E11B = P (B). Lemma 1.6.11 (Lemma von Fatou) Sei Xn , n ∈ IN, eine Folge erweiterter Zgn. Sind die Xn gleichmäßig nach unten beschränkt durch eine integrierbare Funktion, so gilt lim inf EXn ≥ E lim inf Xn . Sind die Xn gleichmäßig nach oben beschränkt durch eine integrierbare Zg, so gilt lim sup EXn ≤ E lim sup Xn . Beweis:Definiere Un := inf i≥n Xi . Die Folge Un , n ∈ IN, konvergiert aufsteigend gegen lim inf n Xn . Mit dem Satz von der monotonen Konvergenz erhalten wir EXn ≥ EUn %n E lim inf Xn . n Für die zweite Aussage betrachte die Folge −Xn und beachte lim inf(−Xn ) = − lim sup Xn .q.e.d. Satz 1.6.12 (Dominierte Konvergenz) Sei Xn , n ∈ IN, eine konvergente Folge von erweiterten Zgn. Weiterhin gebe es ein Y mit E|Y | < ∞ und |Xn | ≤ Y für alle n ∈ IN . Dann gilt lim EXn = E lim Xn . n Beweis: Dies ist eine Folgerung aus dem Lemma von Fatou. Sei X der Grenzwert der Folge (Xn )n . Sei Un := inf k≥n Xk und Vn := supk≥n Xk . Die Folge Un ist punktweise aufsteigend gegen X und die Folge Vn (punktweise) absteigend dagegen. Der Satz von der monotonen Konvergenz liefert limn EUn = EX = limn EVn . Damit EX = lim inf EUn ≤ lim inf EXn ≤ lim sup EXn ≤ lim sup EVn = EX. n n n n q.e.d. Die Forderung einer Schranke ist essentiell. Als Beispiel betrachten wir: Ω = IN versehen mit dem W-maß P (i) = c/i2 mit c geeignet. Sei Xn (i) := i11i≥n . Es gilt limn Xn ≡ 0, lim EXn = ∞ > E lim fn = 0. n n Der Satz von der monotonen Konvergenz ist nicht anwendbar. 38 Elementare Wahrscheinlichkeitstheorie 1.7 SS12 Uwe Rösler Integrationstheorie Wir wollen den Erwartungswert allgemeiner Zgn definieren. Mathematisch führt dies auf eine ordnungserhaltende, lineare und σ-stetige Fortsetzung I des W-maßes µ auf Funktionen. Ein Maß µ fassen wir als eine Abbildung auf Indikatorfunktionen 11A auf, µ(11A ) = µ(A). Diese Abbildung setzen wir linear fort zu einer Abbildung µ̃ auf der Menge T der Treppenfunktionen P n i=1 ai 11Ai via X X µ̃( ai 11Ai ) = ai µ(Ai ). i i Damit ist die algebraische Erweiterung beendet. Wir erweitern die Abbildung µ̃ zu I durch einen geeigneten Konvergenzbegriff via I(f ) = lim I(fn ) n mit fn konvergiert gegen f. Als Konvergenzbegriff benutzen wir Ordnungskonvergenz oder topologische Konvergenz. Ordnungsstruktur Ein geeigneter Konvergenzbegriff auf den reellen Zahlen wird durch die Ordnungsstruktur geliefert, fn konvergiert aufsteigend punktweise gegen f . Vektorraumstruktur Ein anderer gern gewählter Zugang ist es, T als Vektorraum zu betrachten, mit einer Norm zu versehen, bezüglich dieser Norm abzuschließen und dann das Funktional I auf den Abschluß von T stetig zu erweitern. 1.7.1 Algebraische Erweiterung Eine Treppenfunktion ist eine meßbare Abbildung f : Ω 7→ IR mit endlich vielen Werten. Eine Treppenfunktion f ist stets eindeutig darstellbar in der Standarddarstellung als Treppenfunktion N X an 11f −1 (an ) . n=1 Hierbei sind a1 , ..., aN ∈ IR die angenommenen Werte. Sei T = T (Ω, IR) die Menge der Treppenfunktionen. Dies ist ein Vektorraum. (Nachrechnen). Dieser Vektorraum wird linear aufgespannt von den Indikatorfunktionen 11A , A ∈ A. Wir betrachten den positiven Kegel T + = T (Ω, IR+ ). Proposition 1.7.1 Die Funktion I : T + 7→ IR definiert durch I(f ) := N X an µ(f −1 (an )) (1.5) n=1 ist eine additive, skalare und isotone Funktion mit I(0) = 0. Beweis: I ist wohldefiniert, da die Standarddarstellung eindeutig ist. • Additivität. Seien αi , βj die möglichen Werte von f bzw. g. X X X I(f + g) = an µ((f + g)−1 (an )) = an 11αi +βj =an µ(f −1 (αi ) ∩ g −1 (βj )) n n i,j = X (αi + βj )µ(f −1 (αi ) ∩ g −1 (βj )) = XX i,j i αi µ(f −1 (αi )) ∩ g −1 (βj )) + j XX i Die Skalarität und Isotonie sind einfach. βj µ(f −1 (αi )) ∩ g −1 (βj )) = I(f ) + I(g) j q.e.d. 39 Uwe Rösler SS12 1.7 Integrationstheorie Hintergrund Ordnungsstruktur Sei A eine Menge. Eine Relation ist eine Teilmenge R von A × A. Die Komposition oder Verknüpfung zweier Relationen R, Q ist gegeben durch R ◦ Q =: {(a, c) | ∃b ∈ A : (a, b) ∈ R, (b, c) ∈ Q}. Das Inverse einer Relation ist R−1 := {(b, a) | (a, b) ∈ R}. Eine Relation heißt reflexiv, falls die Relation die Diagonale {(a, a) | a ∈ A} enthält. Eine Relation heißt symmetrisch, falls die Relation gleich ihrer Inversen ist. Eine Relation heißt antisymmetrisch, falls der Durchschnitt der Relation mit der Inversen genau die Diagonale ist. Eine Relation heißt transitiv, falls die Relation unter Komposition abgeschlossen ist (R ◦ R ⊂ R). Eine Teilordnung oder partielle Ordnung oder Ordnung auf einer Menge A ist eine reflexive, antisymmetrische und transitive Relation. Wir schreiben a b für (a, b) ∈ R und sprechen von b dominiert oder majorisiert a oder auch b ist größer als a. Analog benutzen wir Minorante und kleiner. Ein Tupel (A, ) heißt geordnete Menge . Sei (A, ) eine partielle Ordnung. Ein Element a ∈ A heißt obere Schranke von B ⊂ A falls b ≤ a für alle b ∈ B gilt. Eine Menge B ⊂ A heißt nach oben (unten) beschränkt, falls es eine obere (untere) Schranke von A gibt. Wir sprechen von einer kleinsten oberen Schranke a von B falls a eine obere Schranke W ist und für alle anderen oberen Schranken x gilt a ≤ x. Notation: a = supb∈B b = b∈B b. Eine kleinste obere Schranke a heißt Maximum von B, falls zusätzlich a ∈ B gilt. Notation: x = maxb∈B b. V Analog verwenden wir das Infimum inf b∈B = b∈B b und Minimum. Notation: a ∨ b := sup{a, b} a ∧ b := inf{a, b}. Ein Verband ist eine geordnete Menge abgeschlossen bzgl. endlichem Supremum und endlichem Infimum. Wir schreiben (A, ≺, ∧, ∨) in der Notation wie oben. Ein Verband heißt von oben (unten) vollständig falls jede nach oben (unten) beschränkte Teilmenge ein Supremum (Infimum) besitzt. Er heißt vollständig, falls er von unten und oben vollständig ist. Analog verwenden wir σ-vollständig falls jede beschränkte abzählbare Menge ein Supremum und Infimum besitzt. Eine isotone Funktion ist eine ordnungserhaltende Funktion. Eine isotone Funktion f heißt von unten σ-stetig, falls für jede aufsteigende abzählbare Folge an ∈ M mit supn an ∈ M gilt ∨n f (an ) = f (∨n an ). Analog verwenden wir von oben σ-stetig und σ-stetig für beides. Bemerkung: Jeder Verband läßt sich σ-vervollständigen, (von unten, von oben, vervollständigen). Darunter verstehen wir eine kleinste, ordnungserhaltende und injektive Einbettung des Verbandes in einen σ-vollständigen (von unten, von oben, vollständigen) Verband. Bis auf Isomorphie (ordnungserhaltende Bijektion) ist diese eindeutig. (Keine Übung: Dies ist eine mathematische Standardkonstruktion. Z.B. lassen sich so die reellen Zahlen aus den rationalen Zahlen konstruieren.) Weiterhin: jede isotone, von unten σ-stetige Abbildung I : V 7→ IR ∪ {∞} läßt sich eindeutig von unten σ-stetig fortsetzen auf die σ-Vervollständigung des Verbandes durch ˜ = lim I(vn ). I(v) n Hierbei ist vn ∈ M, n ∈ IN, eine Folge mit vn %n v. Dies bildet den abstrakten Hintergrund unserer folgenden Argumentation. Bemerkung: Eine σ-Algebra ist ein Verband mit der Ordnung induziert durch Enthalten, A ≺ B ⇔ A ⊂ B, A∨B = A∪B, A∧B = A∩B. Dieser Verband ist vollständig. Ein Maß ist von unten σstetig, eine endliches Maß sogar σ-stetig. Der Satz von Caratheodory ist die σ-stetige Erweiterung einer σ-stetigen, additiven und isotonen Abbildung auf einem Verband. Der Ring (=Verband) wird erweitert zur σ-Algebra (Verbandsvervollständigung) und das Prämaß zum Maß. Integrale über Ordnungsstruktur Der Raum der reellwertigen, positiven, erweiterten Treppenfunktionen T + = T (IR+ ) versehen mit der punktweisen Ordnung ist ein Verband. Die Vervollständigung von T + bzgl. σ-Stetigkeit von 40 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler unten ist der Raum F(IR+ ) der erweiterten reellwertigen, meßbaren und positiven Funktionen. Zu + gegebener Funktion f ∈ F konvergieren die Treppenfunktionen fn n n2 X i i+1 11 i fn (x) := n 2n ≤f (x)< 2n 2 i=0 von unten gegen f. Proposition 1.7.2 Die Funktion I : T + 7→ IR+ definiert durch (1.5) ist eine lineare, skalare, isotone, von unten σ-stetige Funktion. Die Abbildung I eingeschränkt auf I −1 (IR) ist σ-stetig. Beweis: Die Wohldefiniertheit, Linearität, Skalarität, Isotonie wurde in Proposition 1.7.1 gezeigt. Für die σ-Stetigkeit von unten betrachte eine aufsteigende Folge fn % f aus T + . Seien 0 = a1 < a2 < ... < an die Werte von f und Ai = f −1 (ai ). • I(fn 11Ai ) % I(f 11Ai ) für alle i = 1..n. Dies fogt aus der σ-Stetigkeit des Maßes, ai µ(Ai ) ≥ I(fn 11Ai ) ≥ (a − )µ(Ai ∩ {fn ≥ a − }) →n (ai − )µ(Ai ) mit geeignetem . Mit →n 0 erhalten wir die Teilbehauptung. • σ-Stetigkeit von unten. Zu zeigen ist I(fn ) % I(f ). X X I(fn ) = I(fn 11Ai ) % I(f 11Ai ) = I(f ). i i • I eingeschränkt auf I −1 (IR) ist σ-stetig. Für eine Folge fn & f ∈ T + betrachte f1 − fn % f1 − f und argumentiere wie oben. q.e.d. Satz 1.7.3 Die additive und von unten σ-stetige Fortsetzung I eines Maßes auf F(IR+ ) wird gegeben durch I˜ : F(IR+ ) 7→ IR+ ˜ ) = lim I(fn ). I(f + T 3fn %f Die Fortsetzung ist eindeutig, additiv, skalar, isoton und σ-stetig von unten. Die Fortsetzung I˜ eingeschränkt auf I˜−1 (IR) ist σ-stetig. Beweis: Das Maß setzt sich linear auf den Raum T + der positiven Treppenfunktionen fort (1.5). Diese ist eindeutig. T + ist ein Verband und die Fortsetzung I ist σ-stetig von unten, Proposition 1.7.2. Der Abschluß von T + bzgl. σ-Vollständigkeit von unten ist F(IR+ ). • I˜ ist wohldefiniert. Seien fn und gm zwei monoton gegen f aufsteigende Folgen von Treppenfunktionen. Dann gilt lim I(fn ) ≥ lim I(fn ∧ gm ) ≥ lim I(gm ). n n m Die rechte Seite ist aus Symmetriegründen ≥ limn I(fn ). Die Sandwichposition ergibt limn I(fn ) = limm I(gm ). • I˜ ist σ-stetig. + Sei F 3 fn % f. Seien T + 3 fi,n %i fn . Dann konvergieren die Treppenfunktionen gn := W i≤n fi,n ≤ fn isoton gegen f. Aus der Sandwichposition I(f ) = lim I(gn ) ≤ lim I(fn ) ≤ I(f ). n ergibt sich die Behauptung. • Die Fortsetzung I˜ eingeschränkt auf I˜−1 (IR) ist σ-stetig. Verwende σ-Stetigkeit von unten und fn & f ⇔ f1 − fn % f1 − f. 41 Uwe Rösler SS12 1.7 Integrationstheorie Zu zeigen bleiben die Eindeutigkeit der Fortsetzung und die algebraischen Eigenschaften Additivität und Skalarität. Dies ist einfach. q.e.d. Jede Funktion f : Ω 7→ IR hat eine eindeutige Zerlegung f = f + −f − mit f + := f ∨0, f − = (−f )+ . ˜ + ) oder I(f ˜ − ) endlich. Erweitere Sei Fe der Raum alle meßbaren erweiterten Funktionen f mit I(f ˜ I auf Fe durch ˜˜ ) := I(f + ) − I(f − ). I(f Dies Objekt nennen wir Integral bzw. genauer Lebesgueintegral. Dies ist (fast) der allgemeinste Integralbegriff. Gebräuchliche Notationen für das Integral I˜˜ sind Z Z Z Z ˜ ˜ I(f ) =: µ(f ) =: f (ω)dµ(ω) =: f (ω)µ(dω) =: f dµ =: f. Ω Weitere Notationen sind Z Z f dµ := f 11A dµ. A Speziell auf IR verwenden wir Z b Z f dµ := a f dµ. (a,b] Hat µ keine Punktmaße (µ(x) = 0∀x ∈ IR), so benutzen wir auch Z b Z f dµ =: − f dµ := a Z [a,b] a f dµ. b Ist µ das Lebesguemaß λ auf IR so schreiben wir Z Z f (x)λ(dx) = f (x)dx. R Eine integrierbare Funktion f ist eine meßbare Funktion mit endlichem Wert |f |dµ < ∞. Der Raum L1 der integrierbaren Funktionen ist ein Vektorraum. R Korollar 1.7.4 Das Integral : L1 7→ IR ist linear, skalar, isoton und σ-stetig. Beispiel: Sei µ ein Maß und g ≥ 0 eine meßbare Funktion. Dann ist die Mengenfunktion ν : A 7→ IR, definiert durch Z ν(A) := g dµ, A ein Maß. Notation dν = gdµ oder auch ν = gµ. Beispiel: Wir betrachten ein W-Maß µ auf (IR, B). Die zugehörige Verteilungsfunktion F sei stetig differenzierbar. Die Behauptung ist Z Z dF g(x)dµ(x) = g(x) (x)dx dx für alle integrierbaren Funktionen g. Die Behauptung ist richtig für eine Treppe 11A . Da beide Seiten additiv und σ-stetig sind, gilt Gleichheit für alle positiven meßbaren Funktionen. Dann aber auch für alle integrierbaren Funktionen. 42 Elementare Wahrscheinlichkeitstheorie 1.7.2 SS12 Uwe Rösler Konvergenzsätze R Sei R E Rbzw. das oben definierte Integral für einen beliebigen Maßraum (Ω, A, µ). Wir benutzen f = f dµ. Es gilt der Satz von der monotonen Konvergenz. Dies ist genau die σ-Stetigkeit des Integrals. Als Folgerungen erhalten wir den Satz von Fatou und den Satz von der dominierten Konvergenz. Die Forderung einer Schranke ist essentiell. Als Beispiel betrachten wir: Ω = (0, 1] versehen mit der Borel σ-Algebra und dem Borelmaß λ. Sei fn := n11(0,1/n] . Es gilt limn fn =≡ 0, Z lim Z fn dλ = 1 > lim fn dλ = 0. n Der Satz über dominierte Konvergenz ist nicht anwendbar. 1.7.3 Transformationssatz Satz 1.7.5 (Transformationssatz) Sei (Ω, A, µ) ein Maßraum und (Ω0 , A0 ) ein meßbarer Raum. Sei T : Ω 7→ Ω0 eine meßbare Abbildung. Dann gilt für meßbare Funktionen f 0 : Ω0 7→ IR, sofern eine Seite wohldefiniert ist, Z Z f 0 dT µ = Ω0 f 0 ◦ T dµ. Ω Beweis: Die Aussage ist leicht nachzurechnen für f 0 = 11A0 , A0 ∈ A0 . (Übung). Beide Seiten sind lineare, σ-stetige Fortsetzungen (einer Mengenfunktion). Diese sind eindeutig. q.e.d. Beispiel: Sei T eine stetig differenzierbare Funktion mit strikt positiver Ableitung T 0 , T µ das Lebesguemaß und f 0 = g. Es gilt die Transformationsformel mit y = T (x), g integrierbar, Z g(y) dy = T 0 (T −1 (y)) Z g(T (x))dx. Hierbei ist das Maß µ gegeben durch Z (µ)(A) = T 0 (T −1 (y))dy. A Für genauere Rechenregeln siehe Lehrbücher über Differential und Integralrechnung. Fubini 0 0 Seien (Ω, A) Ω×Ω0 sei versehen mit der Produkt σNund0 (Ω , A ) meßbare Räume. Der Produktraum 0 Algebra A A , erzeugt von den Rechteckmengen A×A . Der Schnitt Aω einer Menge A ⊂ Ω×Ω0 ' $ A Ax x ist die Menge {ω 0 ∈ Ω0 | (ω, ω 0 ) ∈ A}. & % Analog benutzen wir Aω0 (obwohl dies ein Notationsmißbrauch ist.) Jeder Schnitt einer meßbaren Menge ist wieder meßbar (Übung). 43 Uwe Rösler SS12 1.7 Proposition 1.7.6 Sei µ0 ein σ-endliches Maß auf (Ω0 , A0 ) und A ∈ A ϕA : Ω 7→ IR ω 7→ µ0 (Aω ) N ist meßbar für alle A A0 meßbaren Mengen A. N Integrationstheorie A0 . Die Abbildung Beweis: Sei µ0 ein endliches Maß. Betrachte D := {A ∈ A × A0 | ϕA meßbar}. Es gilt D = A0 . D ist ein Dynkinsystem. Beachte ϕA\B = ϕA − ϕB und ϕS ◦ n An = P n ϕAn . Weiterhin enthält D den durchschnittstabilen Erzeuger aller Produktmengen. Sei µ0 ein σ-endliches Maß. Dann gibt es eine gegen Ω0 aufsteigende Folge Kn ∈ A0 mit µ0 (Kn ) < ∞. Dann argumentiere ϕA = limn ϕA∩Kn . q.e.d. 0 Proposition 1.7.7 Seien N µ 0und µ σ-endliche Maße. Dann gibt es genau ein Maß ν auf dem 0 Produktraum (Ω × Ω , A A ) mit ν(A × A0 ) = µ(A)µ0 (A0 ). Dies wird gegeben durch Z ν(A) = Z 0 µ (Aω )dµ(ω) = µ(Aω0 )dµ0 (ω 0 ). Beweis: Beide Integrale sind wohldefiniert, sind Maße und erfüllen die geforderte Eigenschaft. Für µ, µ0 endliche Maße stimmen beide Integrale überein, für σ-stetige folgt die Gleichheit durch Approximation. q.e.d. Notation: Wir bezeichnen das Produktmaß ν mit µ × µ0 . Sei f : Ω × Ω0 7→ IR eine Produkt meßbare Funktion. Dann sind die Schnitte f (ω, .) : Ω0 7→ IR für alle ω ∈ Ω und f (., ω 0 ) : Ω 7→ IR meßbar. Beachte, der Schnitt zieht sich durch, (f −1 (B))ω = f (ω, .)−1 (Bω ). q.e.d. Satz 1.7.8 (Fubini) Seien µ, µ0 σ-endliche Maße. Dann gilt Z Z Z f (ω, ω 0 )d(µ × µ0 )(ω, ω) = ( f (ω, ω 0 )dµ0 (ω 0 ))dµ(ω). Ω×Ω0 Ω Ω0 Beweis: Wir betrachten f ≥ 0. Der Satz gilt für eine Treppe a11A , für eine Treppenfunktion und dann per monotoner Konvergenz für meßbare Funktionen. Die Ausdehnungen sind jeweils eindeutig. q.e.d. Die σ-Endlichkeit ist wichtig. Als Beispiel betrachten wir µ das Lebesguemaß und µ0 das Zählmaß auf dem Einheitsintervall. Die Funktion f (x, y) = 11x=y ist meßbar. Es gilt Z Z Z Z 0 ( f (x, y)dµ(x))dµ (y) = 0 ( f (x, y)dµ0 (y))dµ(x) = 1. Es gibt Möglichkeiten das Produktmaß auch für nicht σ-endliche Maße zu definieren. Jedoch verliert man dann die Eindeutigkeit und die Vertauschbarkeit, vgl. Halmos [23] page 145, HahnRosenthal SET FUCTIONS 1948 chap IV,§16. 44 Elementare Wahrscheinlichkeitstheorie 1.8 SS12 Uwe Rösler Ungleichungen Für Ungleichungen in der W-theorie gibt es im wesentlichen zwei Quellen, über monotone und über konvexe Funktionen. Die erste Gruppe bilden Markoff Ungleichungen und die zweite beruhen auf der Jensen Ungleichung. Röslers Metatheorem: Alle guten Integralungleichungen beruhen auf Monotonie oder Konvexität. 1.8.1 Tschebycheff-Markoff Die folgenden Ungleichungen beruhen auf Monotonie. Satz 1.8.1 (Tschebycheff-Markoff Ungleichung) Für jede Zg X und jede monoton steigende, positive Funktion ϕ auf den reellen Zahlen gilt ϕ(a)P (X ≥ a) ≤ E(ϕ(X)) für alle reellen Zahlen a. Beweis: Es gilt Eϕ(X) ≥ Eϕ(X)11X≥a ≥ ϕ(a)E11X≥a = ϕ(a)P (X ≥ a). Spezialfälle Eine beliebte Variation in der W-theorie ist eine monoton steigende positive Funktion ϕ auf den positiven Zahlen und die Abschätzung, a, ϕ(a) > 0 P (X ≥ a) ≤ P (|X| ≥ a) ≤ Eϕ(|X|) . ϕ(a) Der Grundfall ist die Markoff Ungleichung , IR+ 3 x 7→ ϕ(x) = x, P (X ≥ a) ≤ P (|X| ≥ a) ≤ E|X| a (1.6) für a > 0. Allgemeiner gilt für p > 0 E|X|p . ap Diese Ungleichungen verbessern sich in der Regel durch zentrieren P (X ≥ a) ≤ P (X ≥ a) ≤ P (|X − EX| ≥ a − EX) für a ≥ EX. Die Tschebycheff Ungleichung lautet Var(X) . a2 Ferner wird gerne das exponentielle Moment benutzt, ϕ(x) = etx , t > 0 P (|X − EX| ≥ a) ≤ (1.7) EetX . eta Der positive Parameter t, der nur auf der rechten Seite erscheint, wird eventuell geeignet (als Minimum) gewählt. Bemerkung: – Es gilt für a > 0, X ≥ 0 P (X ≥ a) ≤ EX p ≤ inf Ees(X−a) . p>0 ap s>0 inf (Übung: Reihenentwicklung!) – Als Faustregel steigt die Güte der Ungleichung für kleine W-keiten mit der Höhe des (zentrierten) Momentes (und fällt anschließend). Die exponentielle Abschätzung gibt zumindest asymptotisch die richtige Größenordnung und ist in der Regel recht gut. Die Tschebycheff-Markoff Ungleichungen haben zahlreiche Anwendungen. 45 Uwe Rösler SS12 1.8 Ungleichungen Beispiel Bsp: Würfeln. Wie groß ist die W-keit bei tausendmaligem Würfeln eine Gesamtaugensumme von mindestens 4000 zu erreichen. Sei Xi die Augenzahl des i-ten Wurfs. Diese Zgn sind unabhängig identisch verteilt. Wir schätzen P1000 die Summe S := i=1 Xi auf verschiedene Weisen ab. Die Tschebycheff Ungleichung ergibt VarX 35/12 7 VarS = = = ≈ 0, 0117. 5002 250 250 600 Mit dem vierten zentrierten Moment ergibt sich P (S ≥ 4000) ≤ P (S − ES ≥ 500) ≤ 18 E(S − ES)4 ≤ ≈ 0, 0003. 5004 62500 Zur Berechnung des 4-ten Momentes beachte XXXX E(S − ES)4 = E (Xi − EXi )(Xj − EXj )(Xk − EXk )(Xl − EXl ) P (S ≥ 4000) ≤ i = X i j k l X 4 E(Xi − EXi ) + E 2 (Xi − EXi )2 ≤ 18 · 106 . 2 4 i6=j Noch höhere Momente bringen etwas bessere Abschätzungen. Eine wesentlich bessere Abschätzung liefert die exponentielle Ungleichung, allerdings richtig angewendet 1.8.2. Bsp: Quicksort. Per Induktion lassen sich die exponentiellen Momente von Qn für Quicksort abschätzen, t(Qn −EQn ) 2 n ≤ et K Ee für alle |t| ≤ L und K = K(L) ∈ IR [27]. Die exponentielle Abschätzung liefert const(t) n2t für jedes t und n. Daher ist Quicksort zuverlässig. Mit hoher Wahrscheinlichkeit ist die Laufzeit von Quicksort in der Größenordnung des Erwartungswertes. Bsp: Weierstraßscher Approximationssatz: Der Approximationssatz von Weierstraß besagt, jede stetige Funktion f auf einem Kompaktum K läßt sich gleichmäßig beliebig gut durch Polynome auf dem Kompaktum approximieren (∀∃P Polynom : supx∈K |f (x) − P (x)| < ). Sei das Kompaktum das Einheitsintervall [0, 1]. Die Bernstein Polynome Bn (f ) n X k n k Bn (f )(x) := f( ) x (1 − x)n−k n k P (Qn − EQn ≥ E|Qn |) ≤ k=0 zu f tun’s. Sei x ∈ [0, 1]. Die Eigenschaft wird leichter ersichtlich aus der Darstellung Bn (f )(x) = E(f ( Snn )) mit Sn eine Binomialverteilung Bin(n, x) zu den Parametern n und x. Sei wδ := sup{|f (y) − f (z)| | y, z ∈ [0, 1], |y − z| < δ} der Stetigkeitsmodul der Funktion f . wδ konvergiert mit δ → 0 gegen 0. (Gleichmäßige Stetigkeit einer stetigen Funktion auf einem w1 Kompaktum.) Zu vorgegebenem wähle ein δ mit wδ < /2 und ein n mit 4nδ 2 < 2 . Dann gilt Sn ))| n Sn ≤ E(|f (x) − f ( )|(11| Sn −x|<δ + 11| Sn −x|≥δ )) n n n w1 Var( Snn ) Sn ≤ wδ + w1 P (| − x| ≥ δ) < + n 2 δ2 w1 x(1 − x)n ≤ + < . 2 n2 δ 2 Die Abschätzungen sind alle gleichmäßig in x. |f (x) − Bn (f )(x)| = |E(f (x) − f ( 46 q.e.d. Elementare Wahrscheinlichkeitstheorie 1.8.2 SS12 Uwe Rösler Exponentielle oder Hoeffding Ungleichung Große Abweichungen: Ziel des Gebietes großer Abweichungen (englisch: large deviation) ist die W-keit für großes Abweichen einer Zg von ihrem PnErwartungswert. Wir betrachten hier P (S − ES ≥ a) ≤? für die n-te Partialsumme S = Sn = i=1 Xi von uiv Zgn Xi . Sei µ̂(t) := E(etX ), t ∈ IR, die Laplacetransformierte der Zg X mit Verteilung µ. Der Einfachheit halber sei µ̂(t) stets endlich und X keine Konstante. (Dies impliziert u.a. Dt µ̂(t) = E(XetX ) und Dt Dt µ̂(t) = E(X 2 e−tX ).) Definiere die Cramér Transformierte Iµ : IR 7→ [−∞, 0], Iµ (x) := inf (ln µ̂(t) − tx). t≥0 Iµ (x) ist wohldefiniert, da der rechte Term Iµ (0) = 0 wird für t = 0. Das Infimum in t wird angenommen für ein t ≥ 0. Hierzu zeigen wir zuerst: Die Funktion t → 7 ln µ̂ ist eine konvexe Funktion. Die zweite Ableitung Dt Dt ln µ̂(t) EXetX µ̂(t) E(X 2 etX ) E 2 (XetX ) − µ̂(t) µ̂2 (t) 1 (E(eXt )E(X 2 etX ) − E 2 (XetX ) ≥ 0 2 µ̂ (t) = Dt = = ist positiv wegen der Cauchy-Schwarz Ungleichung 1.8.10 angewand auf Xe−tX = Xe−tX/2 ·e−tX/2 . Daher ist die Funktion t 7→ ln µ̂(t) − xt konvex für festes x. (Es gilt sogar strikte Konvexität.) Die Ableitung in t = 0 ist EXetX Dt (ln µ̂(t) − xt)t=0 = − x = EX − x. µ̂(t) t=0 Das Infimum der Cramertransformierten in t wird angenommen in t = 0 für x ≤ EX und für ein strikt positives t > 0 im Fall x > EX. Satz 1.8.2 (Große Abweichungen) Sei n P ∈ IN und seien X1 , . . . , Xn unabhängige Zgn mit Verteilung µ. Dann gilt für reelle a und Sn = i≤n Xi P (Sn ≥ an) ≤ enIµ (a) . Beweis: Mit der exponentiellen Markoff Ungleichung erhalten wir für alle t ≥ 0 ln P (Sn ≥ na) = = EetSn etna ln E n etX − nta = n(ln µ̂(t) − ta). ln Durch Infimumsbildung über alle t folgt die Aussage. q.e.d. Bem: Nur der Fall a > EX ist interessant. Eine ähnliche Ungleichung erhalten wir für P (Sn ≤ na) aus Symmetrieüberlegungen durch Übergang von X → −X. Die Crámer Transformierte ist in der Regel schwer zu berechnen. Daher die gröbere, aber handlichere Abschätzung von Hoeffding. Lemma 1.8.3 Sei a ≤ X ≤ b eine zentrierte Zg. Dann gilt für alle reellen Zahlen t ∈ IR EetX ≤ e t2 (b−a)2 8 47 . Uwe Rösler SS12 1.8 Ungleichungen −a b Beweis: Sei OEdA t ≥ 0. Beachte a ≤ 0 ≤ b und p := b−a , q := 1 − p = b−a . tX tb ta • Ee ≤ pe + qe Sei a ≤ x ≤ b. Aus der Konvexität der exponentiellen Funktion x 7→ ext für festes t ≥ 0 folgt etx ≤ x − a tb b − x ta e + e . b−a b−a Setze für x die Zg X ein und integriere. u2 • petb + qeta = (q + peu )e−pu ≤ e 8 mit u := t(b − a). Die erste Gleichung rechnen wir nach. Für die Ungleichung zeigen wir für die Funktion f (u) := u2 u 0 00 8 + pu − ln(q + pe ) die hinreichenden Eigenschaften f (0) = 0, f (0) = 0, f (u) ≥ 0. Es gilt q u 0 f (u) = 4 + p − 1 + q+peu und f 00 (u) = 1 (q − peu )2 pqeu = − ≥ 0. 4 (q + peu )2 4 Die Eigenschaften sind erfüllt. q.e.d. Satz 1.8.4 (Hoeffding) Seien die unabhängigen Zufallsvariablen X1 , . . . , Xn zentriert und beschränkt ai ≤ Xi ≤ bi für alle i. Dann gilt für die n-te Partialsumme Sn und jede positive reelle Zahl c > 0 2c2 ). P (Sn ≥ c) ≤ exp(− P 2 i≤n (bi − ai ) Beweis: Die exponentielle Ungleichung für ein positives t ergibt P (S ≥ c) ≤ ≤ Y EetS = e−tc EetXi tc e i Y t2 (bi −ai )2 t2 d 8 e−tc e = e 8 −tc i mit d := i (bi − ai )2 . Die linke Seite ist unabhängig von t. Die rechte Seite als Funktion in t wird minimiert für t = 4c/d ≥ 0. Mit diesem Wert erhalten wir die Abschätzung. q.e.d. P Aus Symmetriegründen erhalten wir die Abschätzung P (S ≤ −c) ≤ e −P i 2c2 (bi −ai )2 und für den Betrag der Summe P (|S| ≥ c) ≤ 2e −P i 2c2 (bi −ai )2 . Beispiel Würfeln: Die Hoeffding Ungleichung auf obige Fragestellung “Wie groß ist die W-keit bei tausendmaligem Würfeln eine Augensumme von mindestens 4000 zu erreichen” angewandt, ergibt 2·5002 P (S1000 ≥ 4000) = P (S1000 − ES1000 ≥ 500) ≤ e− 1000·25 = e−20 ≈ 2 · 10−9 . Diese Abschätzung mit der Hoeffding Ungleichung ist wesentlich besser als diejenigen mit der Markoff oder Tschebycheff Ungleichung. 48 Elementare Wahrscheinlichkeitstheorie 1.8.3 SS12 Uwe Rösler Jensen Ungleichung Definition 1.8.5 (konvex) Eine reellwertige Funktion ϕ auf einem Intervall heißt konvex, falls für alle x 6= y aus dem Intervall und alle t ∈ (0, 1) gilt ϕ(tx + (1 − t)y) ≤ tϕ(x) + (1 − t)ϕ(y). ϕ heißt strikt konvex, falls in obiger Ungleichung stets strikt kleiner gilt. Satz 1.8.6 (Jensen Ungleichung) Für jede konvexe reellwertige Funktion ϕ : IR 7→ IR und jede reellwertige Zg X gilt E(ϕ(X)) ≥ ϕ(E(X)), vorausgesetzt die Erwartungen sind wohldefiniert. Ist ϕ strikt konvex, X keine Konstante mit Wahrscheinlichkeit 1 und die |Eϕ(X)| endlich, so gilt strikt größer in der Ungleichung. Beweis: Sei l eine lineare Funktion mit l ≤ ϕ und l(x0 ) = ϕ(x0 ) für x0 = EX. (Für eine differenzierbare Funktion ϕ nehme l(x) = ϕ0 (x0 )(x − x0 ) + ϕ(x0 ) ≤ ϕ(x).) Argumentiere E(ϕ(X)) ≥ E(l(X)) = l(E(X)) = ϕ(E(X)). Ist ϕ strikt konvex, so gilt l(x) < ϕ(x) für alle x 6= x0 . q.e.d. Falscher Effee Merkregel: Bsp: Lottospiel. In einem Lottospiel, z.B. 6 aus 49 (Laplaceraum), wird der gesamte Einsatz, jeweils eine Einheit pro Lottozettel, zu gleichen Teilen auf alle Gewinner, die 6 richtige haben, aufgeteilt. Falls keiner gewinnt, bekommt der Staat alles. Mit folgender Strategie können Sie hier Geld gewinnen, zumindest im Erwartungswert. Tippen Sie jeden Tip genau einmal. Sie erhalten +M den Gewinn N SN +1 . Hierbei ist N die Anzahl der anderen teilnehmenden Spieler (eine Konstante, wenn auch unbekannt) und M die Anzahl der eigenen abgegebenen Tipps. SN ist die Summe von Bernoulliverteilten Zgn Xi , 1 ≤ i ≤ N. Die Interpretation von Xi = 1 ist: der i − te Tip gewinnt. 1 Beachte P (Xi = 1) = M . Damit E N +M N +M ≥ = M. SN + 1 ESN + 1 Strikte Ungleichheit gilt für SN keine Konstante. Der Gewinn ist im Erwartungswert positiv. Bsp: Momentenabschätzung. Die Funktion ϕ(x) = |x|p ist konvex für p ≥ 1. Die Jensen Ungleichung ergibt E|X|p ≥ E p |X|. Die Ungleichungen gelten mit umgekehrter Richtung für konkave Funktionen. Eine Funktion ϕ ist konkav genau dann, wenn −ϕ konvex ist. Bsp: Entropie. Die Entropie eines diskreten W-mas̈es P auf einem endlichen Stichprobenraum Ω wird definiert durch X 1 H(P ) := P (ω) ln . P (ω) ω∈Ω Die Entropie ist stets positiv und die Entropie eines Punktmaßes ist 0. Proposition 1.8.7 Die gleichmäßige Verteilung auf einem endlichen Stichprobenraum hat die größte Entropie unter allen W-maßen darauf. Beweis: Der Stichprobenraum habe n Elemente. Sei Q die Gleichverteilung und P irgendeine andere Verteilung. H(P ) − H(Q) = X ω P (ω) ln X1 X X 1 1 1 − ln n = P (ω) ln ≤ ln( P (ω) ) = 0. P (ω) n nP (ω) nP (ω) ω ω ω q.e.d. 49 Uwe Rösler SS12 1.8 Ungleichungen Interpretation: Die Entropie einer Verteilung hat die Interpretation eines Informationsgehalts, den eine Zg zu dieser Verteilung besitzt. Für Punktmaße ist die Ungewissheit 0, denn eine Zg mit dieser Verteilung liefert die genaue Verteilung. Die grös̈te Ungewissheit besteht, falls Gleichverteilung vorliegt. Wenn wir nichts wissen, sprechen wir von einer fifty-fifty Chance. Dies ist die größte vorstellbare Ungewissheit. Warnung: Die Jensen Ungleichung gilt für W-maße, aber nicht für Maße allgemein. Mehrere interessante Ungleichungen folgen aus der Jensen Ungleichung in folgender verallgemeinerten Form: Korollar 1.8.8 (Jensen) Sei ϕ eine konvexe Funktion und µ ein R Maß auf den reellen Zahlen. Seien f, g meßbare Funktionen und sei g > 0 punktweise und 0 < gdµ < ∞. Dann gilt, Wohldefiniertheit vorausgesetzt, R R gϕ(f /g) f R ϕ R ≤ . g g R R Beweis: Durch ν(A) := a1 A gdµ, A ∈ A, und a := gdµ wird ein W-maß ν definiert. Die Jensenungleichung ergibt Z Z f f linke Seite = ϕ dν ≤ ϕ( )dν = rechte Seite g g Normungleichungen Definition 1.8.9 (Norm) Die Abbildungen k · kp , 1 ≤ p ≤ ∞, kXkp := (E(|X|p ))1/p , 1≤p<∞ kXk∞ := inf{a ∈ IR | P (|X| > a) = 0} von Zgn in die erweiterten rellen Zahlen heißen Lp -Norm. Beachte für diskrete W-räume kXk∞ = sup{|X(ω)| | P (ω) > 0}. Satz 1.8.10 (Hölder Ungleichung) Für Zgn X, Y und reelle Zahlen 1 ≤ r, p, q ≤ ∞ mit 1 1 p + q gilt die Ungleichung kXY kr ≤ kXkp kY kq . 1 r = Im Falle 1 < p, q < ∞ gilt Gleichheit genau dann, wenn die Terme unendlich sind oder |X|p kY kqq = |Y |q kXkpp mit Wahrsch. 1 gilt. Beweis: Den Wert 1/∞ interpretieren wir konventionell als 0. • Der Satz gilt für kXkp = 0 oder kY kq = 0. Die Bedingungen implizieren X ≡ 0 oder Y ≡ 0 mit W-keit 1. Damit ist XY = 0 mit W-keit 1. • Der Satz gilt für p = ∞ oder q = ∞. Aus Symmetriegründen sei p = ∞. Es folgt q = r. kXY krr = E|XY |r ≤ inf{ar | P (X > a) = 0}E|Y |r = kXkr∞ kY krr . • Der Satz gilt für 1 ≤ p, q < ∞. Die exponentielle Funktion ist konvex, d.h. ∀x, y ∈ IR, t ∈ [0, 1]: etx+(1−t)y ≤ tex + (1 − t)ey . (1.8) |Y (ω)| Das Einsetzen der speziellen Werte t := pr , 1 − t = rq , x = p ln |X(ω)| kXkp , y = q ln kY kq ergibt |X(ω)Y (ω)| kXkp kY kq r ≤ r p |X(ω)| kXkp 50 p + r q |Y (ω)| kY kq q Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler für jede Realisierung ω. Durch Übergang zum Erwartungswert auf beiden Seiten erhalten wir die Aussage r r |X(ω)Y (ω)| r ≤ + = 1. E kXkp kY kq p q Gleichheit gilt, falls in Gleichung 1.8 Gleichheit gilt für alle Realisationen ω ∈ Ω bis auf eine Menge vom Mas̈ Null. Dies ist äquivalent (die exponentielle Funktion ist strikt konvex) zu x = y oder t = 0 bzw. t = 1. Hiervon verbleibt in unserem Setting nur x = y, was zu |Y (ω)|q |X(ω)|p p = kXkp kY kqq führt. q.e.d. Satz 1.8.11 (Minkowski Ungleichung) Es gilt für 1 ≤ p ≤ ∞ kX + Y kp ≤ kXkp + kY kp . Im Falle 1 ≤ p < ∞ gilt Gleichheit genau dann, wenn die Terme unendlich sind oder X und Y positive Vielfache mit Wahrsch. 1 voneinander sind. Beweis: Sei oEdA kX + Y kp > 0. • Der Fall p = ∞ ist einfach, kX+Y k∞ = inf{a | P (|X+Y | > a) > 0} ≤ inf{b | P (|X| > b) > 0}+inf{c | P (|Y | > c) > 0} = kXk∞ +kY k∞ . • Für 1 ≤ p < ∞ erhalten wir aus der Hölder Ungleichung, 1 = 1/p + 1/q gesetzt, kX + Y kpp = E|X + Y ||X + Y |p−1 ≤ E((|X| + |Y |)(|X + Y |p−1 )) = k|X||X + Y |p−1 k1 + k|Y ||X + Y |p−1 k1 ≤ kXkp k|X + Y |p−1 kq + kY kp k|X + Y |p−1 kq = (kXkp + kY kp )k|X + Y |kp−1 . p • Für die Gleichheit betrachten wir der Einfachheit halber nur 0 < kXkp , kY kp < ∞. Die Gleichheit von |X(ω) + Y (ω)| = |X(ω)| + |Y (ω)| für alle ω bis auf eine Menge vom Mas̈ 0 liefert dasselbe Vorzeichen von X und Y . Aus Gleichheit in der angewandten Hölder Ungleichung folgt |X|p und |X + Y |q und auch |Y |p und |X + Y |q sind positive Vielfache voneinander. Damit auch sind auch X und Y positive Vielfache voneinander. Diese tun’s. q.e.d. Bem: – Die Hölder Ungleichung und die Minkowski Ungleichung als Folgerung gilt allgemein für Maße anstelle von W-maßen. – Eine Eigenschaft A für Realisationen gilt, falls mit W-keit 1 die Eigenschaft gilt. Äquivalent ist die Aussage, die W-keit der Realisationen ω, die nicht die Eigenschaft A haben ist 0. Wir sprechen von fast sicher (f.s.) oder fast überall (f.ü.). Bsp: – Die Cauchy-Schwarz Ungleichung ist ein Spezialfall der Hölder Ungleichung mit r = 1, p = 2 = q. – Die Tchebycheff-Cantelli Ungleichung P (X − EX ≥ a) ≤ VarX VarX + a2 für a ≥ 0 ist etwas stärker als die Markoffungleichung. Diese folgt aus, oEdA sei X zentriert, a2 ≤ E 2 (a − X)11X<a ≤ (E(a − X)2 )E11X<a = (V arX + a2 )P (X < a). 51 Uwe Rösler SS12 1.8 Ungleichungen Vektoräume von Zgn∗ Der Raum Lp (Ω) = Lp , 1 ≤ p ≤ ∞ aller Zufallsvariablen X : Ω 7→ IR mit kXkp < ∞ ist ein Vektorraum. (Beachte: Lp ist abgeschlossen bezüglich der Addition von Funktionen aufgrund der Minkowski Ungleichung.) Die Abbildung k · kp : Lp 7→ IR ist eine Pseudonorm auf dem Raum Lp . (Eine Pseudonorm k.k ist eine Norm bis auf die Eigenschaft kvk = 0 ⇒ v = 0.) Die Abbildung k · kp ist eine Norm genau dann, wenn P (ω) > 0 gilt für alle ω ∈ Ω. (Nachrechnen). Durch Äquivalenzbildung erhalten wir einen normierten Vektorraum. Definiere die Äquivalenzrelation X ∼ Y ⇔ kX − Y kp = 0 für X, Y ∈ Lp , 1 ≤ p ≤ ∞. Der Raum Lp := {[X] | X ∈ Lp } der Äquivalenzklassen [X] := {Y ∈ Lp | X ∼ Y } mit den Verknüpfungen + und · definiert durch [X] + [Y ] := [X + Y ], a · [X] := [aX], a ∈ IR, ist ein Vektorraum. Die Abbildung k · kp : Lp 7→ IR definiert durch k[X]kp := kXkp ist eine Norm auf Lp . (Zu zeigen ist die Wohldefiniertheit, d.h. die getroffenen Definitionen sind unabhängig von der Auswahl der Repräsentanten bzw. der Darstellung [X] = [Y ].) Notation: Wir unterscheiden in Zukunft nur im Falle möglicher Mißverständnisse zwischen Zgn und den zugehörigen Äquivalenzklassen. In unserem Setup diskreter W-räume gibt es einen anschaulicheren Vektorraum Lp (Ω0 ) isomorph zu Lp . Betrachte den Teilraum Ω0 aller ω mit strikt positiver Wahrsch. Dann ist (Lp (Ω0 ), k · kp ) ein normierter Vektorraum isomorph zu (Lp , k · kp ). Beachte X ∼ Y genau dann, falls X und Y auf Ω0 übereinstimmen. Einer Äquivalenzklasse [X] ordnen wir bijektiv die Abbildung X : Ω0 7→ IR zu. Lemma 1.8.12 Für 1 ≤ p ≤ q gilt Lp ⊃ Lq und die Normabschätzung kXkp ≤ kXkq . Beweis: Aus der Jensen Ungleichung folgt E|X|q = E(|X|p )q/p ≥ (E|X|p )q/p . Definition 1.8.13 (Banachraum) Ein vollständiger normierter Vektorraum (V, k · k) heißt Banachraum. Äquivalent ist, daß jede Cauchyfolge (vn ∈ V, n ∈ IN , mit ∀ > 0∃n0 ∀m, n > 0 : kvn − xm k < ) konvergiert (∃v ∈ V ∀ > 0∃n0 ∀n > n0 : kvn − vk < ). Satz 1.8.14 (Fischer-Riesz) Der Raum (Lp , k · kp ), 1 ≤ p ≤ ∞, ist ein Banachraum. Beweis: Sei Xn eine Cauchyfolge in dem normierten Vektorraum (Lp , k · kp ), 1 ≤ p ≤ ∞. Wähle eine Teilfolge Xni mit ni →i ∞ aufsteigend und X kXni+1 − Xni kp < ∞. i Für jede Realisation ω von strikt positiver Wahrsch. ist die Folge Xni (ω) eine Cauchyfolge in den reellen Zahlen. Diese haben einen Grenzwert, genannt X(ω). Diese Zg X tuts. P • i |Xni+1 (ω) P − Xni (ω)| < ∞ (falls P (ω) > 0.) Sei YN := i≤N |Xni+1 (ω) − Xni (ω)|, N ∈ IN ∪ {∞}. Es gilt kY∞ kp -N kYN kp ≤ X kXni+1 − Xni kp %N P j≥i (Xnj+1 (ω) kXni+1 − Xni kp < ∞. i∈IN i≤N • X(ω) := Xni + X − Xnj (ω)) wohldefiniert für ω mit P (ω) > 0. Klar 52 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Lp • Xni →i X. P P kXni − Xkp ≤ k j≥i |Xnj+1 − Xnj |kp ≤ j≥i kXnj+1 − Xnj kp →i 0. Lp • Xn →i X. kXn − Xkp ≤ kXn − Xni kp + kXni − Xkp →n,ni 0. • X ∈ Lp kXkp ≤ kX − Xn kp + kXn kp < ∞. q.e.d. Satz 1.8.15 Der Raum (L2 , k · k2 ) ist ein Hilbertraum. Die Bilinearform < ., . >: L2 × L2 7→ IR gegeben durch < X, Y >= EXY √ erzeugt die Norm kXk2 := < X, X >. Der Covarianzoperator Cov : L2 × L2 7→ IR ist eine positiv definite Bilinearform. Beweis: Der Vektorraum L2 der Äquivalenzklassen ist ein Banachraum Theorem 1.8.14. Der Rest ist einfach. Beachte: Unabhängigkeit ist mehr als Unkorreliertheit von Zgn. Unkorrelierte zentrierte Zgn sind orthogonal im Hilbertraum. Allgemeinwissen: Hilberträume mit gleicher Kardinalität einer Basis sind isomorph. Die L2 -Räume diskreter W-räume haben endliche oder abzählbare Basis. Die Dimension des Hilbertraumes L2 (Ω, P ) ist die Anzahl der ω ∈ Ω mit P (ω) > 0. 53 Uwe Rösler 1.9 SS12 1.9 Gesetze der Großen Zahl Gesetze der Großen Zahl Das Gesetz der Großen Zahl (GGZ) besagt die Konvergenz der relativen Häufigkeit eines Ereignisses bei unabhängiger Wiederholung eines Experiments gegen die W-keit dieses Ereignisses. Satz 1.9.1 (Starke GGZ) Die n-te Partialsumme Sn von uiv integrierbaren Zgn (Xi )i geteilt durch n konvergiert fast sicher gegen den Erwartungswert von X. In Formeln: P (limn Snn = EX1 ) = 1. Die grundlegende Bedeutung des Gesetzes der Großen Zahl rechtfertigt den Namen Erster Hauptsatz der Wahrscheinlichkeitstheorie. Im folgenden verwenden wir abzählbare Folgen von Zgn auf einem gemeinsamen W-raum. Die Existenz solcher W-räume ist nicht trivial und der W-raum (in der Regel) kein diskreter W-raum mehr. Alle folgenden Aussagen lassen sich sinngemäß umformen unter ausschließlicher Verwendung diskreter W-räume und endlich vieler Zgn. Dies ist mühsam und nicht wirklich sinnvoll. 1.9.1 Schwaches Gesetz der Großen Zahl Es gibt eine schwache und eine starke Version des GGZ. Definition 1.9.2 (stochastische Konvergenz) Eine Folge (Xn )n von Zgn konvergiert stochastisch oder in Wahrscheinlichkeit gegen eine Zg X, falls P (|Xn − X| > ) →n 0 für alle > 0 gilt. s P Not: Xn →n X oder auch Xn →n X. Definition 1.9.3 (schwache GGZ) EinePFolge (Xn )n , von integrierbaren Zgn genügt dem schwan chen Gesetz der Großen Zahl, falls n1 i=1 (Xi − EXi ) stochastisch gegen 0 konvergiert. In Formeln geschrieben, 1 n (Sn s − ESn ) →n 0 mit Sn = Pn i=1 Xi . Definition 1.9.4 (identisch verteilt) Eine Folge (Xn )n von Zgn heißt identisch verteilt, falls alle Xn dieselbe Verteilung besitzen. Satz 1.9.5 (Schwache Gesetz der Großen Zahl) Eine Folge von unabhängig, identisch verteilten Zgn mit endlichem zweiten Moment genügt dem schwachen Gesetz der Großen Zahl. s Memokürzel : Snn →n EX. Beweis: Wir verwenden die Tschebycheff Ungleichung 1.7 P | VarSn Sn Sn − ESn VarX1 − EX| > = P | |> ≤ 2 2 = →n 0. n n n n2 Bsp: Würfeln. Die Zgn Xn , n ∈ IN , für die jeweilig erwürfelte n-te Augenzahl sind unabhängig identisch verteilt. Die durchschnittliche Augenzahl Snn in n Würfen Pnkonvergiert in Wahrsch. gegen den Erwartungswert 3, 5. Die relative Häufigkeit der Sechsen 1/n i=1 11Xi =6 konvergiert schwach gegen 1/6. Bsp: Spieler. Seien Xn , n ∈ IN , uiv (quadrat-)integrierbare Zgn und Sn die n−te Partialsumme. Die Zg Xn interpretieren wir als Auszahlung bei dem n-ten Spiel für den Spieler bei Einsatz einer Einheit. Diese kann positiv und negativ (Einsatz) sein. Den Wert Sn interpretieren wir als das Spielkapital des Spielers nach dem n−ten Spiel bei Start in 0. s Das schwache Gesetz der Großen Zahl besagt Snn →n EX. Ist EX > 0, so ist es langfristig gesehen vorteilhaft für den Spieler zu spielen. Ist EX < 0, so ist es langfristig nachteilig für den Spieler zu spielen. Im Falle EX = 0 und X nicht ausgeartet gilt −∞ = lim inf n Sn < lim supn Sn = ∞. 54 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Bsp: Falschspieler. Eine gegebene Münze ist eventuell gefälscht. Falls sie gefälscht ist, so ist die Wahrsch. p für einen Kopfwurf (identifiziert mit 1) einviertel. Die relative Häufigkeit Sn /n der Kopfwürfe wird gegen den Wert p konvergieren. Dieser ist 1/4 oder 1/2. Damit können wir mit beliebig großer Sicherheit, aber nie absoluter, eine eventuelle Fälschung erkennen. Bsp: Statistik. Weshalb ist Datenanalyse, untreffend als Statistik bezeichnet, möglich? Das einfachste statistische Problem ist ein Entscheidungsproblem. Gegeben sei eine Folge Xn , n ∈ IN, von uiv Zgn mit unbekannter Verteilung. Diese Verteilung ist eine der bekannten Verteilungen Q oder P. (Die Generierung der Zgn heißt statistisches Experiment.) Pn Zur Entscheidungsfindung wähle ein Ereignis A mit Q(A) 6= P (A). Dann konvergiert 1/n i=1 11Xi ∈A gegen den Erwartungswert Q(A) bzw. P (A). Mit beliebig großer Sicherheit, mache n groß genug, können wir zwischen Q und P entscheiden. Variationen Satz 1.9.6 Eine Folge Xn , n ∈ IN , quadratintegrierbarer, unkorrelierter Zgn mit Pn i=1 Var(Xi ) →n 0 n2 genügt dem schwachen GGZ. Beweis: OBdA seien die Zgn zentriert. Beachte EXi Xj = 0 für i 6= j. Aus n X n n n X X X VarSn = E Xi Xj = EXi2 = VarXi i=1 j=1 i=1 i=1 mit Anwendung der Tschebycheff Ungleichung ergibt sich mit Tschebycheff P (| VarSn Sn | > ) ≤ 2 2 →n 0. n n q.e.d. Strukturell folgert der obige Satz aus der L2 −Konvergenz die stochastische Konvergenz. Proposition 1.9.7 Lp Konvergenz für ein p ∈ [1, ∞] impliziert stochastische Konvergenz. Beweis: Der Fall p = ∞ ist einfach. Für 1 ≤ p < ∞ argumentiere P (|Xn | > ) ≤ E|Xn |p →n 0. p In dem folgenden Satz benutzen wir (exemplarisch) die Abschneidetechnik. Satz 1.9.8 (Khintschin) Eine Folge unabhängiger, identisch verteilter und integrierbarer Zgn erfüllt das schwache GGZ. Beweis: Seien Xn , n ∈ IN , die uiv Zgn. Zu vorgegebenem >P0 wähle ein a, δ mit E|X1 − Y1 | < δ n wobei Yi die abgeschnittenen Zgn Xi 11|Xi |≤a sind. Sei Tn := i=1 Yi die n−te Partialsumme der Y 0 s. P (| Sn Sn − Tn Tn − EX1 | > ) ≤ P (| | > /3) + P (| − EY1 | > /3) + P (|EY1 − EX1 | > /3). n n n Alle Terme sind klein. • Der erste Term ist klein für δ klein wegen ≤ E|Sn − Tn | nδ 3δ ≤ = n/3 n/3 55 Uwe Rösler SS12 1.9 Gesetze der Großen Zahl • Der zweite Term ist klein für hinreichend gros̈es n wegen dem schwachen GGZ. • Der dritte Term ist 0 für δ hinreichend klein. q.e.d. Proposition 1.9.9 Die Summe von endlich vielen stochastisch konvergenten Zgn ist stochastisch konvergent. gegen 0. Bew: Es reicht die Proposition für zwei stochastisch konvergente Folgen Xn gegen X und Yn gegen Y zu zeigen. P (|Xn − X + Yn − Y | > ) ≤ P (|Xn − X| > ) + P (|Yn − Y | > ) →n 0. 2 2 q.e.d. Das schwache GGZ als Verteilungskonvergenz ∗ Das schwache GGZ läßt sich ausschließlich durch Maße ohne Zuhilfenahme von Zgn formulieren. Definition 1.9.10 (Faltung) Die Faltung von diskreten Maßen ist eine Abbildung ∗ : M×M 7→ M mit M die Menge aller (diskreter) Maße auf den reellen Zahlen, B ⊂ IR X µ ∗ ν(B) := µ(x)ν(y). x+y∈B Für W-maße µ und ν ergibt sich µ ∗ ν als Verteilung von zwei unabhängigen Zgn X und Y mit Verteilung P X = µ bzw. P Y = ν. ‘ Für a ∈ IR\{0} definiere Ta : M 7→ M via Ta (µ)(B) = µ(aB), aB := {ab | b ∈ B}. Sei µ die Verteilung einer Zg X, so ist X/a verteilt nach Ta (µ). Definition 1.9.11 (Konvergenz dem Maße nach) Eine Folge νn , n ∈ IN , von W-maßem auf den reellen Zahlen konvergiert dem Maße nach gegen das Punktmaß δa auf a ∈ IR, falls gilt: X x |x − a| νn (x) →n 0. 1 + |x − a| Beachte: Xn konvergiert stochastisch gegen X genau dann, wenn die Verteilung von Xn − X dem Maße nach gegen 0 strebt. Proposition 1.9.12 s Xn →n 0 ⇔ E |Xn | →n 0. 1 + |Xn | Beweis: • “⇒” E |Xn | |Xn | |Xn | =E 11|Xn |≤ + E 11|Xn |> . 1 + |Xn | 1 + |Xn | 1 + |Xn | Den ersten Term schätzen wir durch • “⇐” 0 ←n E 1+ ≤ ab, der zweite konvergiert in n gegen 0. |Xn | |Xn | |Xn | =E 11|Xn |≤ + E 11|Xn |> ≥ 0 + P (|Xn | > ). 1 + |Xn | 1 + |Xn | 1 + |Xn | 1+ q.e.d. Der folgende Satz ist eine Umformulierung des schwachen GGZ. P Satz 1.9.13 (Schwache GGZ) Sei µ ein W-maß mit x∈IR x2 µ(x) < ∞ P und µn die n−fache Faltung. Dann konvergiert Tn (µn ) dem Mas̈e nach gegen das Punktmaß auf x xµ(x). 56 Elementare Wahrscheinlichkeitstheorie 1.9.2 SS12 Uwe Rösler Starke GGZ Das schwache Gesetz der Großen Zahl ist eigentlich eine Verteilungskonvergenzaussage für Zgn und damit unbeeinflußt vom zugrunde gelegten W-raum und eine reine Aussage über Ma s̈e. Das starke GGZ ist eine Konvergenzaussage für Zufallsgrößen als Funktionen auf einem W-raum. Definition 1.9.14 (fast sicher) Eine Aussage über ω gilt fast sicher, falls die Menge der ω, für die die Aussage nicht richtig ist, das Mas̈ 0 hat. Definition 1.9.15 (Fast sichere Konvergenz) Eine Folge (Xn ) von Zgn konvergiert fast sicher gegen eine Zg X, falls Xn gegen X punktweise konvergiert mit Wahrsch. 1. Ausführlich in Formeln geschrieben, P ({ω | limn Xn (ω) = X(ω)}) = 1. f.s. Not: Xn →n X oder auch Xn →n X als default setting. Definition 1.9.16 (Starke GGZ) Eine Folge PnXn , n ∈ IN , von integrierbaren Zgn genügt dem starken Gesetz der Großen Zahl, falls n1 i=1 (Xi − EXi ) fast sicher gegen 0 konvergiert. n In Formeln geschrieben, P ( Sn −ES →n 0) = 1 mit Sn = n Pn i=1 Xi . Satz 1.9.17 (Starke Gesetz der Großen Zahl) Eine Folge unabhängiger, identisch verteilter integrierbarer Zgn genügt dem starken Gesetz der Großen Zahl. f.s. Memokürzel: Snn →n EX. Beweis: Der Beweis ist zu schwierig für dieses Skript. Bsp: Schreibender Affe. Ein Affe tippt zufällig auf die Tastatur. Wie groß ist die Wahrscheinlichkeit, daß er irgendwann einmal die Buchstabenfolge BAHNHOF tippt. Math. Modell: Seien Xn , n ∈ IN, unabhängige Zgn mit Gleichverteilung auf der Menge der l grossen Buchstaben. Sei Yn := 11X|n+6 =(B,A,H,N,H,O,F ) , n ∈ IN mit X|k = (Xk , Xk+1 , . . . , Xl ). Sei r Pn P7 n r P Sn (n−r)/7 Sn = i=1 Yi . Schreibe Sn = r=1 Sn mit Snr := i=0 → Y7i+r . Das starke GGZ liefert n/7 EYr und damit konvergiert Snn fast sicher gegen EY1 . (Beachte, die Yi sind nicht unabhängig, aber identisch verteilt.) Wenn der Affe nur lange genug schreibt, wird er jede Buchstabenfolge, so auch Goethes Klassiker Faust oder die Heisenbergsche Unschärferelation, irgendwann einmal fehlerlos(!) schreiben. Wer kann das schon von sich behaupten. Proposition 1.9.18 Die fast sichere Konvergenz impliziert die stochastische Konvergenz. Bew: Zu vorgegebenem > 0 betrachte die Mengen An mit |Xi − X| > epsilon für ein i ≥ n. Die Folgen An ist absteigend gegen die leere Menge (fast sicher) und es folgt die stochastische Konvergenz P (|Xn − X| > ) ≤ P (An ) &n P (∅) = 0. q.e.d. Im allgemeinen sind die stochastische Konvergenz und die fast sichere Konvergenz verschiedene Konvergenzarten. Dies ersieht man aus dem Beispiel Ω = [0, 1] versehen mit der Borel σ-Algebra und dem Lebesguemaß λ. Die Folge von Zgn X1 = 11[0,1] , X2 = 11[0,1/2] , X3 = 11[1/2,1] , X4 = 11[0,1/4] , X5 = 11[1/4,1/2] , ..., X8 = 1[0,1/8] , ... usw. konvergiert stochastisch, aber nicht f.s. Formaler Xn := 11[i/2m ,(i+1)/2m ] mit n = 2m + i, 0 ≤ i < 2m . (Zeichnung machen!). Für diskrete W-räume sind die Konvergenzbegriffe identisch. Proposition 1.9.19 Sei (Ω, A, P ) ein diskreter W-raum. Dann sind stochastische Konvergenz und fast sichere Konvergenz dasselbe. 57 Uwe Rösler SS12 1.9 Gesetze der Großen Zahl Beweis: Wesentlich ist die spezielle Eigenschaft P ({ω | P ({ω}) > 0}) = 1 für diskrete W-räume. Sei Bδ := {ω | P ({ω}) > δ}). Für alle ω ∈ Bδ gilt lim supn |Xn (ω) − X(ω)| = 0. (Übung). Dann argumentiere P (Bδ ) →δ→0 P ({ω | P ({ω}) > 0}) = 1. q.e.d. Bemerkung: Falls Xn stochastisch gegen 0 konvergiert und U eine auf dem Einheitsintervall gleichmäßig verteilte Zg ist, so gibt es Zgn Yn mit Yn hat dieselbe Verteilung wie Xn für alle n und Yn konvergiert fast sicher gegen 0. Die Zgn Yn = Fn−1 (U ) tun’s. Hierbei ist Fn , Fn (x) = P (Xn ≤ x) die Verteilungsfunktion von Xn und Fn−1 die linksstetige Inverse (diese ist eindeutig) (oder auch rechtsstetige) von Fn . Glivenko-Cantelli Seien Xi , i ∈ IN, Zgn. Die n-te empirische Verteilungsfunktion ist die Funktion Fn : Ω → IRIR definiert durch n X Fn (ω)(x) = 11Xi (ω)≤x . i=1 Für jedes ω ist Fn (ω) eine Verteilungsfunktion. Üblicherweise wird das ω weggelassen. Pn Die empirische Verteilungsfunktion korrespondiert zu dem (empirischen) zufälligen W-mas̈ n1 i=1 δXi (ω) ). Der Satz von Glivenko-Cantelli behauptet die gleichmäs̈ige Konvergenz der empirischen Verteilungsfunktion gegen die wahre Verteilungsfunktion F der Zgn. Satz 1.9.20 (Glivenko-Cantelli) Seien Xn , n ∈ IN, uiv Zgn mit Verteilungsfunktion F . Dann konvergiert Fn fast sicher gleichmäßig gegen F, f.s. sup |Fn (x) − F (x)| →n 0. x Beweis: Formal, durch stetige Fortsetzung, erweitern wir den Definitionsbereich F und Fn um −∞ und ∞. Zu vorgegebenem > 0 wähle eine endliche Folge −∞ = x0 < x1 < .... < xm = ∞ mit |F (xi+1 −) − F (xi )| < , i = 0, . . . , m − 1. (Diese Folge enthält alle Punkte x mit Sprunghöhe F (x) − F (x−) größer als .) • supi |Fn (xi ) − F (xi )| + supi |Fn (xi −) − F (xi −)| →n 0 fast sicher. Es reicht die Aussage für ein i zu zeigen, da das Supremum nur über endlich viele i genommen wird. Für ein i ist dies das starke Gesetz der großen Zahl. Für xi ≤ x < xi+1 schätze ab |Fn (x) − F (x)| ≤ |Fn (xi+1 −) − F (x)| + |Fn (xi ) − F (x)| ≤ |Fn (xi+1 −) − F (xi+1 −)| + 2|F (xi+1 −) − F (xi )| + |Fn (xi ) − F (xi )| Der erste und dritte Term sind klein für große n, der zweite kleiner als 2. Dies Argument gilt gleichmäßig für alle x. • supx |Fn (x) − F (x)| ist meßbar. Wegen der Rechtsstetigkeit von Verteilungsfunktionen gilt sup |Fn (x) − F (x)| = sup |Fn (x) − F (x)|. x∈IR q∈Q l Für jedes q ∈ Q l, n ∈ IN ist die Abbildung Ω → Fn (q) mes̈bar. Damit auch das abzählbare Supremum. q.e.d. Borel-Cantelli* Seien An , n ∈ IN, Ereignisse und sei A das Ereignis, daß An unendlich oft eintritt, A := {ω | |{i ∈ IN | ω ∈ Ai }| = ∞} = ∩m ∪n≥m An 58 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Eine andere Charakterisierung ist via 11A = lim sup 11An . n Wir schreiben auch A = lim supn An . Das Komplement ist, An tritt nur endlich oft ein, Ac = {ω | |{i ∈ IN | ω ∈ Ai }| < ∞} = ∪m ∩n≥m An und analog 11Ac = lim inf 11An A = lim inf An . n n Eselsbrücke: In Schreibschrift erinnert sup an ∩∪ und inf an ∪ ∩ . Satz 1.9.21 (Borel-Cantelli) Seien An , n ∈ IN, Ereignisse und A := lim supn An . P • Aus n P (An ) < ∞ folgt P (A) = 0. P • Sind die An , n ∈ IN, unabhängig und n P (An ) = ∞, so folgt P (A) = 1. Beweis: Die erste Behauptung folgt aus P (A) ≤ P (∪n≥n0 An ) ≤ X P (An ) →n0 0. n≥n0 Für die zweite Behauptung verwenden wir Ac = ∪m ∩n≥m Acn . Es folgt Y Y c P (∩n≥m Acn ) ≤ P (∩N P (Acn ) = (1 − P (An )) n=m An ) = m≤n≤N ≤ exp(− X m≤n≤N X P (An )) →N ≤ exp(− m≤n≤N P (An )) →m = 0. m≤n Die letzte Abschätzung beruht auf der Abschätzung 1 − x ≤ e−x . P (Ac ) = lim P (∩n≥m An ) = 0. n q.e.d. Tombola: In einer gemeinnützigen Tombolaziehung wird ein Gewinner gezogen, der dann alle Einsätze bekommt. Der Staat, früher unter dem Motto Brot und Spiele, heute unter Wahlgeschenke, verdoppelt diesen Betrag zusätzlich. An der n-ten Tombolaziehung nehmen n2 Personen teil, die alle eine Einheit setzen. Sool ich daran Teilnehmen? Math. Modell: Seien Xn , n ∈ IN, unabhängige Zgn mit P (Xn = 1) = n12 = 1 − P (Xn = 0). Xn entspricht dem Ereignis, ich gewinne in der n-ten Spielrunde. Der Gewinn in n-ter Spielrunde ist Xn 2n2 − 1 und der Erwartungswert ist 1. (Nachrechnen.) Der Satz von Borel-Cantelli impliziert, es treten nur endlich viele der Ereignisse An = {Xn = 1} ein. Einerseits sollte ich jede Runde spielen, da der Erwartungswert strikt positiv ist (durch die Bezuschussung des Staates). Andererseits wenn ich dies mache, gehe ich fast sicher pleite, da ich nur endlich oft gewinne, aber unendlich viele Einsätze zahlen muss. Beipiel: Starke Gesetz der Grossen Zahlen Satz 1.9.22 (Gesetz der Großen Zahl) Eine Folge von uiv Zgn mit endlichem vierten Moment erfüllt das starke Gesetz der Großen Zahl. Beweis: Seien X1 , X2 , . . . die Zgn. Ohne Einschränkung seien die Zgn zentriert. Eine Rechnung zeigt ESn4 = nEX 4 + 3n(n − 1)E 2 X 2 . Die Markoff Ungleichung liefert Sn ES 4 1 ) ≤ 4 n4 ≤ c 2 . P ( n n n 59 Uwe Rösler SS12 1.9 Gesetze der Großen Zahl Die Summe hierüber ist endlich. Daher tritt das Ereignis | Snn | > nur endlich oft ein mit Wahrsch. 1. q.e.d. Alternativ mit endlichem zweiten Moment: Schätze ab P( VarS 2 VarX1 |Sn2 | > ) ≤ 2 4n = 2 2 . 2 n n n Die Summe hierüber ist endlich. Daher gilt mit Borel-Cantelli fast sicher |Sn2 /n2 | > nur endlich S S S oft. Ebenfalls mit Borel-Cantelli und Tchebycheff zeige, die Ereignisse | nn22 − kn2 | > und | kn2 − Sk 2 2 k | > in k mit n gegeben durch n ≤ k < (n + 1) treten nur endlich oft ein fast sicher. (Übung). Das starke GGZ gilt auch für integrierbare Zgn. (Betrachte Yn := Xn 11|Xn |≤n . Zeige Yn 6= Xn nur Pn endlich oft und n1 i=1 Yi → 0 fast sicher.) 60 Elementare Wahrscheinlichkeitstheorie 1.10 SS12 Uwe Rösler Poissonapproximation Wir behandeln die Poissonapproximation der Binomialverteilung für seltene Ereignisse. Die Summe vieler unabhängiger Bernoulli Zgn mit kleiner Erfolgswahrscheinlichkeit ist ungefähr poissonverteilt. Satz 1.10.1 Sei (pn )n∈IN eine Folge reeller Zahlen mit Werten in [0, 1] und npn konvergiere gegen eine reelle Zahl λ > 0. Dann konvergiert für jedes k die Binomialwahrsch. von k gegen die Poisssonwahrsch. von k, n k λk = Poi(λ)(k). Bin(n, pn )(k) = pn (1 − pn )n−k →n exp(−λ) k! k Beweis: In der Zerlegung Bin(n, pn )(k) = nn−1 n−k+1 1 1 ... (npn )k (1 − pn )−k (1 − pn )n →n λk e−λ | {z } | {z } | {z } n n n k! k! | {z } II I III IV benötigen wir die Konvergenz der Faktoren I →n 1, II →n λk , III →n 1 und IV →n e−λ . Dies ist erfüllt. (Die letzte Konvergenz folgt aus − x2 x ≤ ln(1 − x) ≤ −x − 1−x 2 (1.9) für x ∈ (0, 1) aus dem Einheitsintervall. (Übung.)) q.e.d. Die obige Aussage ist eine lokale Aussage, die Wahrsch. eines Punktes k betreffend. Es ist eine reine Konvergenzaussage, sie gibt keine Abschätzung über die Abweichung. Jetzt eine stärkere, globale Konvergenzaussage, die gesamte Verteilung betreffend. Totalvariation: Als Abstandsbegriff für W-Maße µ, ν wählen wir den Totalvariationsabstand d(µ, ν) = sup |µ(A) − ν(A)|. A∈A Dies ist eine Metrik auf dem Raum aller W-Maße (zu einem meßbaren Raum). (Nachrechnen.) Für diskrete W-räume wird das Supremum angenommen durch das Ereignis B aller Realisationen ω mit strikt größerem µ-Maß als ν-Maß, µ(ω) > ν(ω), oder dessen Komplement B c , aller ω mit strikt kleinerem µ-Maß als ν-Maß. Die Beziehung 0 = µ(Ω) − ν(Ω) = (µ(B) − ν(B)) − (µ(B c ) − µ(B c )) führt uns für diskrete W-räume zu der Formel 1X d(µ, ν) = |µ(ω) − ν(ω)| (1.10) 2 ω zur Berechnung der Totalvariation. (Übung) Notation: Für Zgn benutzen wir d(X, Y ) = d(P X , P Y ). Lemma 1.10.2 Die Summe von unabhängigen Zgn mit Poissonverteilung ist wieder poissonverteilt mit der Summe der Einzelparameter als Parameter. Beweis: Es reicht die Behauptung für zwei Zgn zu beweisen. Seien X, Y unabhängige Zgn mit Verteilung Poi(λ1 ) und Poi(λ2 ). P (X + Y = k) = X P (X = i)P (Y = j) = i=0 {i,j|i+j=k} = e−λ1 −λ2 k X i=0 k X e−λ1 −λ2 λi1 λk−i 2 i!(k − i)! (λ1 + λ2 )k k λi1 λk−i 2 = e−λ1 −λ2 . i k! k! q.e.d. 61 Uwe Rösler SS12 1.10 Poissonapproximation Wir beweisen die Poissonapproximation jetzt durch Konstruktion von speziellen gekoppelten Zgn. Diese Technik wird coupling genannt. Satz 1.10.3 Seien X1 , . . . , Xn unabhängige Bernoulli verteilte Zgn zum Parameter P (Xi = 1) = pi . Sei S = X1 + . . . + Xn die Summe dieser und sei T eine poissonverteilte Zg zum Parameter p1 + . . . + pn . Dann gilt n d(S, T ) = n X 1X |P (S = k) − P (T = k)| ≤ p2i . 2 i=1 k=0 Beweis: Dieser Satz sagt etwas über die Verteilungen der Zgn aus. Der zugrundeliegende W-raum spielt hierbei keine Rolle. Wir konstruieren auf einem geeigneten W-raum folgende Zgn. Seien Zi , i = 1, . . . , n unabhängige Zgn mit Werten −1, 0, 1, . . . und der Verteilung k = −1 1 − pi e−pi − 1 + pi k=0 P (Zi = k) = −pi k e pi /k! k = 1, 2, 3 . . . Wir betrachten die Zgn Xi := 11Zi ≥0 und Yi := Zi ∨ 0. • Die Zgn Xi , i ∈ IN , sind unabhängige Zgn und Xi hat Bernoulli Verteilung zum Parameter pi . • Die Zgn Yi , i ∈ IN , sind unabhängige Zgn und Yi hat Poisson Verteilung zum Parameter pi . Wesentlich ist die Abschätzung P (Xi 6= Yi ) = 1 − P (Xi = Yi ) = 1 − P (Zi = −1) − P (Zi = 1) = pi (1 − e−pi ) ≤ p2i . Die Summe T := Wir schätzen ab d(S, T ) P i Yi ist Poisson verteilt zum Parameter P i pi . 1X |P (S = k 6= T ) − P (T = k 6= S)| 2 k k X X ≤ P (S = 6 T) ≤ P (Xi = 6 Yi ) ≤ p2i . = X |P (S = k) − P (T = k)| = i i q.e.d. Bemerkung: Die Summe von n unabhängigen Bernoulli Zgn zum Parameter p ist binomialmialverteilt zum Parameter n, p.PIn dieser Form wird der Satz meistens angewandt. Das n sollte groß sein, das p klein. Genauer, i p2i sollte klein sein. Bsp: Geburtstage. In einem Hörsaal sind 100 Studenten. Wieviele haben heute Geburtstag? Sei Xi die Bernoulli Zg der i-te Student hat Geburtstag. Wir nehmen an, diese Zgn sind unabhängig identisch Bernoulli verteilt zum Parameter 1/365. (Die Aufgabe stammt aus einer Zeit, als Sonntagsarbeit in Krankenhäusern noch üblich war.) Die Anzahl S der Geburtstage ist Binomial Bin(100, 1/365) verteilt. Die Poissonapproximation liefert P (S = 0) ≈ exp(−100/365) ≈ .76 1 200 Der Fehler |P (S = 0) − exp(−100/365)| dieser Approximation ist beschränkt durch 365 2 ≈ 800 . Bsp: Warendefekte. Bei einer Massenware sind einzelne Exemplare bereits bei der Produktion mit einer kleinen Wahrsch. p defekt. Ein Kunde bestellt k intakte Exemplare. Um die Wünsche des Kunden zu erfüllen und den Kunden zufriedenzustellen, wird der Lieferant vorsichtshalber einige Exemplare mehr liefern. Auch dann hat er keine absolute Sicherheit, aber eine hohe. Wieviel Exemplare n muß eine Sendung enthalten, damit der Kunde mit Wahrsch. α mindestens k intakte erhält? 62 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Mathematisches Modell: Seien X1 , . . . , Xn unabhängige Zgn mit Bernoulliverteilung Ber(p), Sn die n-te Partialsumme. Xi = 1 bezeichne ein defektes i−tes Exemplar. Das Problem reduziert sich auf das Finden der kleinsten Zahl n mit α ≤ P (k ≤ n − Sn ) ≈ Poi(np)({0, 1, . . . , n − k}) = n−k X Poi(np)(i). i=0 Dies ist auch mit einem Taschenrechner möglich. Bsp: Telefonzentrale. Mehrere n interne Telefone sind an einer Zentrale angeschlossen. Wieviele k Außenleitungen müssen bereitgestellt werden, damit zu vorgegebener Wahrsch. α alle anrufenden Teilnehmer eine freie Leitung haben? Einerseits soll k aus Kostengründen klein sein und andererseits groß, um die Kunden zufriedenzustellen. Wir betrachten die Anzahl der Anrufe zu einem festen, aber beliebigen Zeitpunkt. Mathematisches Modell: Seien X1 , . . . , Xn uiv Zgn mit Bernoulliverteilung Ber(p). Xi = 1 steht für das Ereignis der i−te Teilnehmer telefoniert. Die Gesamtzahl Sn der telefonierenden Teilnehmer ist ungefähr Poisson Poi(np) verteilt. Die Lösung ergibt sich aus der Bedingung P (Sn ≤ k) ≈ Poi(np)([0, k]) ≥ α. Literatur: Eine noch genauere Abschätzung des Totalvariationsabstands zu einer Poissonverteilung findet sich in [4] 1992 und eine Übersicht in [1] 1992. 63 Uwe Rösler 1.11 SS12 1.11 Der Zentrale Grenzwertsatz Der Zentrale Grenzwertsatz Der Zentrale Grenzwertsatz ist eine Grenzwertaussage für die Summe von unabhängigen Zgn, wobei jeder Summand relativ zur Summe nur einen verschwindend kleinen Beitrag liefert. Im Gegensatz bestand die Summe bei der Poissonapproximation aus wenigen Summanden, die verglichen mit der Summe relativ groß waren. Der Zentrale Grenzwertsatz (ZGS) läßt sich als ein allgemeines Naturgesetz verstehen und auch beobachten. Wenn immer eine Summe aus vielen kleinen unabhängigen Zgn gebildet wird, gilt der ZGS. Die Bedeutung des Zentralen Grenzwertsatzes (ZGS) rechtfertigt das Statement: Der Zentrale Grenzwertsatz ist der zweite Hauptsatz der W-theorie. Wir formulieren zuerst den ZGS in der einfachsten Form, geben einen Beweis und diskutieren dann Folgerungen und Ausweitungen. Definition 1.11.1 (standardisierte Normalverteilung) Die Funktion Φ : IR 7→ IR, Z x Φ(x) := ϕ(y)dy −∞ mit y2 1 ϕ(y) := √ e− 2 2π heißt standardisierte Normalverteilungsfunktion oder Gaussverteilungsfunktion . Der Integrand ϕ heis̈t standard Gaussdichte bzw. Dichte der standard Normalverteilung. Die Funktion Φ ist eine Verteilungsfunktion und ϕ die Dichte dazu. Die numerischen Werte der Gauß Funktion Φ sind tabelliert bzw. können mathematischen Komputerprogrammen wie Maple oder Mathematica entnommen werden. (Übung, beachte Φ(x) = 1 − Φ(−x).) Definition 1.11.2 (Standardnormierung) Die Standardnormierung einer Zg X ist, sofern wohldefiniert, ist X − EX X ∗ := √ . VarX Definition 1.11.3 (Zentraler Grenzwertsatz) Eine Folge Xn , n ∈ IN , von Zgn gehorcht dem Zentralen Pn Grenzwertsatz, (ZGS) falls für die Standardnormierung der n-ten Partialsumme Sn := i=1 Xi und für alle reellen a < b gilt P (a ≤ Sn∗ ≤ b) →n Φ(b) − Φ(a). Die Grundform des ZGS lautet Satz 1.11.4 (Zentraler Grenzwertsatz) Eine Folge unabhängiger, identisch verteilter Zgn mit endlicher Varianz ungleich 0 gehorcht dem ZGS. Wir werden zuerst (technisch einfach) diesen Satz mit Hilfsmitteln der diskreten W-theorie beweisen und danach die Einlagerung in die allgemeine W-theorie vornehmen. 1.11.1 Moivre-Laplace Die einfachste Form des ZGS ist der Satz von Moivre-Laplace. Satz 1.11.5 (De Moivre-Laplace) Eine Folge unabhängiger identisch verteilter Zgn mit einer Bernoulliverteilung zum Parameter p ∈ (0, 1) genügt dem ZGS. 64 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Die Beweisidee besteht in brutalem Abzählen. Sei Sn die n-te Partialsumme von unabhängigen, Bernoulli verteilten Zgn zum Parameter p. (Münzwurf.) Die Wahrscheinlichkeit P (Sn = k) stellen wir in einem Säulendiagramm dar, hier eine Säule im Bereich [k − 1/2, k + 1/2]. Die Wahrscheinlichkeit P (a ≤ Sn ≤ b) mit a, b ∈ IN0 entspricht der Fläche über dem Intervall [a − 21 , b + 12 ]. Wir approximieren P (Sn = k) als Funktion in k und integrieren diese Funktion auf. (Übung: Verdeutlichen Sie sich die Herangehensweise in einem Bild.) Zur Vorbereitung benötigen wir die Stirlingsche Formel [31][17], die von allgemeinem Interesse ist und die wir ohne Beweis angeben. Lemma 1.11.6 (Stirling Formel) Für jede natürliche Zahl n gilt 1 e 12n+1 < √ 1 n! < e 12n 2nπ( ne )n (1.11) Sei ϕm,σ2 die Funktion ϕm,σ2 (x) := (x−m)2 1 2σ 2 e . 2πσ 2 Lemma 1.11.7 Sei Sn Binomial Bin(n, p), 0 < p < 1, verteilt. Sei αn , n ∈ IN , eine positive Folge mit limn n1/3 αn = 0 und Kn die Menge der ganzen Zahlen k mit | nk − p| ≤ αn . Dann gilt P (Sn = k) − 1| →n 0. ϕnp,np(1−p) (k) sup | k∈Kn Beweis: Den obigen Quotienten schreiben wir als Produkt von fünf Faktoren. √ n!pk q n−k 2npqπ P (Sn = k) = (k−np)2 ϕnp,npq (k) k!(n − k)!e− 2npq p √ √ (k−np)2 √ n−k k n−k 2kπ( ke )k 2(n − k)π( n−k 2nπ 2npqπ n! p q e 2npq e ) p √ = √ n−k k! } (n − k)! ( k )k ( n−k 2nπ( ne )n | {z 2kπ 2(n − k)π n ) | {z }| n {z }| {z } | {z } F2 F1 F3 F4 • F1 →n 1 gleichmäßig für k ∈ Kn . Dies folgt aus der Stirling Formel 1.11, 1 sup |F1 − 1| = sup (F1 − 1) ≤ e 12n − 1 →n 0. k∈Kn k∈Kn • F2 →n 1 gleichmäßig für k ∈ Kn . sup |F2 − 1| ≤ k∈Kn 1 sup (1 − e− 12k ) ≤ sup k∈Kn = sup 12n( nk 1 12k 1 1 ≤ →n 0. 12np − 12nαn − p) + 12np • F3 →n 1 gleichmäßig für k ∈ Kn . Analog zum vorherigen. • F5 →n 1 gleichmäßig für k ∈ Kn . F5 schreibt sich in der Form √ pq q F5 = q . p + ( nk − p) 1 − p − ( nk − p) Jetzt wird | nk − p| durch αn abgeschätzt und αn konvergiert in n gegen 0. • F4 →n 1 gleichmäßig für k ∈ Kn . 65 F5 Uwe Rösler SS12 k n Eine einfache, längliche Rechnung mit u = ln F4 u2 = 1.11 Der Zentrale Grenzwertsatz − p zeigt n u u − n(u + p) ln(1 + ) − n(q − u) ln(1 − ). 2pq p q Mit der Taylor Entwicklung ln(1 − x) = −x − x2 /2 + x3 rest(x) für |x| < 1 mit rest(x) →x→0 1 erhalten wir ln F4 = nu3 a. Der Term a := 2p12 − (u + p) rest( up ) − (q − u) rest( uq ) − k. Der Term |nu3 | ≤ nαn3 konvergiert gegenP0. n Beweis von Moivre-Laplace: Sei Sn = i=1 Xi mit 1 2q 2 ist beschränkt gleichmäßig in n und q.e.d. Sn − np Sn − ESn = √ Sn∗ := √ npq VarSn die standardisierte n-te Partialsumme, q = 1 − p. ∗ √ Definiere die Abbildung IR 3 x → x∗n := x−np npq und sei Dn := {k ∈ IN | a ≤ kn ≤ b} für vorgegebenen feste Zahlen reellen Zahlen a, b. Wir werden zeigen P (a ≤ Sn∗ ≤ b) →n Φ(b) − Φ(a). Aus schreibtechnischen Gründen unterdrücken wir nach Möglichkeit das n. Sei Z ϕ̃ = ϕnp,npq , rk := P (Sn = k), sk := ϕ̃(k), k+1/2 tk := ϕ̃(x)dx. k−1/2 P • P (a ≤ Sn∗ ≤ b) = k∈Dn rk . Trivial. • supk∈Dn |1 − srkk | →n 0. Verwende das letzte Lemma mit αn := P • | k∈Dn (rk − sk )| →nP 0 l.S. ≤ supl∈Dn |1 − srll | k rk →n 0. P • | k∈Dn (sk − tk )| →n 0. | X (sk − tk )| |c|∨|d| √ . n XZ ≤ k∈Dn k+1/2 |ϕ̃(k) − ϕ̃(x)|dx k−1/2 k k+1/2 ϕ̃(k) = − 1 dx ϕ̃(x) ϕ̃(x) k−1/2 k Z X k+1/2 (x−k)2 +2(x−k)(k−np) 2npq = ϕ̃(x) e − 1 dx k−1/2 k Z y2 y k ≤ sup sup |e 2npq + pq ( n −p) − 1| ϕ̃(x)dx XZ k∈Dn |y|≤ 12 1 ≤ + |e 8npq − 1 2pq (αn ) − 1| →n 0 Rb P • | k∈Dn tk − a ϕ(x)dx| →n 0. ∗ ∗ Sei an := inf Dn , bn := sup Dn mit Pan →n a und bn →n b. Wir verwenden nun die Transformation ∗ y := x für festes n. Die Summe k∈Dn tk läßt sich schreiben als X k∈Dn Z bn +1/2 tk = Z √1 b∗ n + 2 npq ϕ̃(x)dx = ϕ(y)dy. √1 a∗ n − 2 npq an −1/2 Die untere Grenze des rechten Integrals konvergiert gegen a, die obere gegen b. 66 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Dies zusammengenommen reicht. q.e.d. Bem: Im obigen Satz ist es unerheblich, ob wir asymptotisch die W-keit der standardisierten Summe Sn∗ im abgeschlossenen Intervall [a, b] oder im offenen Intervall (a, b) oder in einem halboffenen Intervall (a, b], [a, b) betrachten. Bem: Für ganze Zahlen a, b ist a + 1/2 − np b − 1/2 − np P (a ≤ Sn ≤ b) = P (a − 1/2 ≤ Sn ≤ b + 1/2) ≈ Φ −Φ (1.12) √ √ npq npq + eine etwas bessere Abschätzung als ohne den Korrekturterm von − 12 . Bsp: Würfeln: Gesucht ist die W-keit bei sechstausendmaligem Würfeln zwischen 980 und 1020 mal die Sechs zu erhalten. Die Zgn Xi , 1 ≤ i ≤ 6000, seien uiv Ber(1/6) verteilt. Das Ereignis Xi = 1 entspricht einer 6 im i-ten Wurf. Z b∗ ∗ ∗ ∗ P (980 ≤ Sn ≤ 1020) = P (a ≤ Sn ≤ a ) ≈ ϕ(x)dx = Φ(a∗ ) − Φ(b∗ ) ≈ 0, 51 a∗ mit a∗ := √ −20 5000/6 a∗ := √−20,5 5000/6 und b∗ := √ und b∗ := √ 20,5 5000/6 20 . 5000/6 Die bessere Abschätzung nach der Bemerkung 1.12 mit liefert P (979, 5 ≤ Sn ≤ 1020, 5) ≈ 0, 52. Bsp: Wahl: In einem fiktiven demokratischen Land gibt es zwei Parteien, A und B. 106 Bürger entscheiden sich durch einen fairen Münzwurf für die eine oder andere Partei. Die restlichen 2000 Bürger sind fanatisch und wählen stets A. Mit welcher W-keit gewinnt A. MM: Seien X1 , X2 , . . . , X106 unabhängige Zgn mit Ber(0, 5) Verteilung und sei S die Summe. W ahr(A gewinnt) = P (S > 106 − 1000) = P (S∗ > −2) = P (S∗ < 2) ≡ Φ(2) ≡ 0, 977... 1.11.2 Allgemeiner Zentraler Grenzwertsatz Wir geben nun den Beweis des Zentralen Grenzwertsatzes 1.11.4, Lemma 1.11.8 Seien Xn , Yn , n ∈ IN unabhängige Zgn mit endlicher Varianz, wobei die (Xn ) identisch verteilt sind und die (Yn ) auch. Seien Sn∗ und Tn∗ die Standardisierungen der Partialsummen Sn = X1 + . . . + Xn und Tn = Y1 + . . . + Yn . Dann gilt |E(f (Sn∗ )) − E(f (Tn∗ ))| →n 0 (1.13) für alle dreimal stetig differenzierbaren Funktionen mit für alle dreimal stetig differenzierbaren Funktionen mit einer beschränkten dritten Ableitung kf 000 k∞ < ∞. Beweis: Wir nehmen oEdA. die Zgn X, Y mit Erwartungswert Null und Varianz Eins an. Nur zur Einfachheit seien die dritten absoluten Momente endlich. Wir verwenden die Teleskopsummendarstellung f (Sn∗ ) − f (Tn∗ ) = X i Pi−1 Y Pn X Xi Yi (f (ci + √ ) − f (ci + √ ) =: Ai n n i X mit ci := j=1 √jn + k=i+1 √nj . Wir verwenden die Taylor Approximation f (x) = f (x0 ) + (x − x0 )f 0 (x0 ) + (x − x0 )2 00 (x − x0 )3 000 f (x0 ) + f (ξ) 2! 3! 67 Uwe Rösler SS12 1.11 Der Zentrale Grenzwertsatz mit einem geeigneten Zwischenwert ξ (bzw. η) zwischen x und x0 jeweils angewandt auf den i-ten Term in obiger Summe entwickelt um ci . Ai = f 0 (ci ) Xi − Yi X 2 − Yi2 Xi3 Yi3 √ + f 00 (ci ) i + f 000 (ξi,x ) 3/2 + f 000 (ξi,y ) 3/2 | 2n n 6n 6n Auf beiden Seiten nehmen wir den Erwartungswert. Die Unabhängigkeit von ci und (Xi , Yi ) ergibt E( Xi − Yi 0 Xi − Yi √ f (ci )) = E( √ )E(f 0 (ci )) = 0 n n Xi2 − Yi2 00 X 2 − Yi2 f (ci )) = E( i )E(f 00 (ci )) = 0 2n 2n Die Abschätzung wird fortgeführt, E( |E(f (Sn∗ ) − f (Tn∗ ))| ≤ n X |EAi | i=1 ≤ n kf 000 k∞ X ( (E|Xi |3 + E|Yi |3 ) 6n3/2 i=1 ≤ const →n 0 n1/2 Mit ein klein wenig mehr Aufwand läßt sich das Lemma auch ohne endliches 3. Moment zeigen. (Taylorentwicklung bis zweite Ableitung.) Wir überschlagen dies. q.e.d. Satz 1.11.9 (Zentraler Grenzwertsatz) Eine Folge unabhängiger, identisch verteilter Zgn mit endlicher Varianz ungleich 0 gehorcht dem ZGS. Beweis: Sei Sn∗ die standardisierte Summe und Tn∗ eine standardisierte Summe von unabhängigen Bernoulli Zgn zum Parameter 21 . Zu vorgegebenem > 0 und reellen Zahlen a < b wähle dreimal stetig differenzierbare Funktionen f, g mit beschränkter dritter Ableitung, die 11(−∞,b−] ≤ f ≤ 11(−∞,b] ≤ g ≤ 11(−∞,b+] erfüllen. Solche Funktionen existieren. Dann folgt aus der Monotonie des Integrals P (Sn∗ ≤ b) ≤ EgSn∗ ≤ EgTn∗ + EgSn∗ − EgTn∗ ≤ P (Tn∗ ≤ b + ) + EgSn∗ − EgTn∗ →n Φ(b + ) P (Sn∗ ≤ b) ≥ Ef Sn∗ ≥ Ef Tn∗ + Ef Sn∗ − Ef Tn∗ ≥ P (Tn∗ ≤ b − ) + Ef Sn∗ − Ef Tn∗ →n Φ(b − ). Mit → 0 folgt die Aussage. 1.11.3 q.e.d. Gleichmäßige Konvergenz Die Grundformulierung 1.11.4 hat verschiedene Defizite. Einer ist, daß die Konvergenz gegen die Normalverteilung nur für festes c und d formuliert wurde. Das macht uns unflexibel in Anwendungen, in denen wir c und d in Abhängigkeit von n betrachten wollen. Mathematisch fragen wir nach einer gleichmäßigen Konvergenz. Dies liefert der Satz von Glivenko-Cantelli. Lemma 1.11.10 Eine Folge von Verteilungsfunktionen, die punktweise gegen eine stetige Verteilungsfunktion konvergiert, konvergiert gleichmäßig. In Formeln: Fn , F Verteilungsfunktionen, F stetig und ∀x ∈ IR : Fn (x) →n F (x) impliziert supx |Fn (x) − F (x)| →n 0. 68 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Beweis: Die Folge Fn , n ∈ IN, von Verteilungsfunktionen konvergiere punktweise gegen die Verteilungsfunktion F. Wir benutzen die stetige Erweiterung bei +/ − inf ty, Fn (−∞) = 0 = F (−∞) und Fn (∞) = 1 = F (∞). f (x−) bezeichne den linkseitigen Grenzwert einer Funktion f in x. Zu vorgegebenem > 0 gibt es eine endliche Folge von Stützstellen −∞ = d0 < d1 < . . . < dm < dm = ∞ in den erweiterten reellen Zahlen IR mit |F (di ) − F (di−1 )| < für i = 0, . . . , m. • sup0≤i≤m |Fn (di ) − F (di )| →n 0. Leicht. • kFn − F k∞ →n 0. Zu x ∈ IR wähle das eindeutige i mit di−1 ≤ x < di . |Fn (x) − F (x)| ≤ 11Fn (x)>F (x) (Fn (x) − F (x)) + 11Fn (x)<F (x) (F (x) − Fn (x)) ≤ 11Fn (x)>F (x) (Fn (di ) − F (di−1 )) + 11Fn (x)<F (x) (F (di ) − Fn (di−1 )) ≤ sup |Fn (dj ) − F (dj )| + sup |F (dj ) − F (dj−1 )| j j Der zweite Term auf der rechten Seite ist klein in . Der erste ist klein für n hinreichend gros̈. Diese Abschätzung ist gleichmäßig in x. q.e.d. Korollar 1.11.11 (Glivenko-Cantelli) Sei Xn eine Folge von Zgn. Äquivalent sind (i) Für alle reellen Zahlen b gilt P (Xn ≤ b) →n Φ(b). (ii) supb∈IR |P (Xn ≤ b) − Φ(b)| →n 0. (iii) supa<b∈IR |P (a ≤ Xn ≤ b) − Φ(b) + Φ(a)| →n 0. (iv) supa<b∈IR |P (a < Xn < b) − Φ(b) + Φ(a)| →n 0 Der Beweis ergibt sich aus dem obigen Lemma. Güte der Approximation: Wie gut ist die Normalapproximation? Die Approximationsgüte, d.h. Aussagen über die Konvergenzgeschwindigkeit des maximalen Abstands supb |P (Sn∗ ≤ b) − Φ(b)| für uiv Zgn gibt der Satz von Berry-Esseen. Satz 1.11.12 (Berry-Esseen) Sei Sn∗ die standardisierte Summe von n unabhängig identisch verteilten Zgn X1 , . . . , Xn mit Varianz σ 2 und endlichem zentrierten dritten absoluten Moment 0 < γ := E|X − EX|3 < ∞. Dann gilt sup |P (Sn∗ ≤ b) − Φ(b)| ≤ b 0, 8γ √ . σ3 n Literatur: Sozanov [30]. Bsp: Würfeln Wir betrachten die Anzahl der Sechsen bei sechstausendmaligem Würfeln. Der Fehler in der Approximation von P (a ≤ S6000 ≤ b) durch die Normalverteilung ist beschränkt durch 2 ∗ 0, 8 ∗ 130/64 √ ≈ 0, 040. (5/36)3/2 6000 Bemerkung Wann sollte die Normalapproximation benutzt werden und wann P die Poissonapproximation? Stets sollte die Anzahl der Zgn gros̈ sein. Grob gesagt, falls i p2i kleiner als 1 ist, wende die Poissonapproximation an, anderenfalls die Normalapproximation. Genauere Aussagen sind nur mit Fehlerabschätzungen möglich. 69 Uwe Rösler 1.11.4 SS12 1.11 Der Zentrale Grenzwertsatz W-theoretische Formulierung des ZGS Bisher haben wir möglichst elementar den ZGS hergeleitet, für die die Verwendung diskreter Wräume ausreichend ist. Zum tieferen Verständnis lagern wir den ZGS in die allgemeine W-theorie ein. Allgemeiner Hintergrund: Wir betrachten stets die reellen Zahlen versehen mit der Borel σ-Algebra B, der kleinsten σ-Algebra, die alle offenen Intervalle enthält. Eine Zg ist eine mes̈bare Funktion g : Ω → IR, d.h. g −1 (B) ⊂ A. Es gibt eine Bijektion zwischen W-maßen µ auf der Borel σ-Algebra und Verteilungsfunktionen F , z.B. gegeben durch µ((−∞, ·]) = F (·). Wir werden im folgenden nur Verteilungsfunktionen betrachten mit einer stetigen Ableitung F 0 = f. Es gilt Z x F (x) = f (y)dy. −∞ Eine Zg X hat Dichte f , falls f die Ableitung der Verteilungsfunktion ist. Für eine Zg X mit Dichte f gilt Z E(h(X)) = h(x)f (x)dx für mes̈bare Funktionen h : IR → IR+ . Für unabhängige Zgn X, Y mit Dichte f, g gilt Z Z Eh(X + Y ) = h(x + y)f (x)g(y)dxdy Insbesondere haben X + Y die Dichte Z Z z 7→ f (z − y)g(y)dy = g(z − x)f (x)dx Definition 1.11.13 (Gaussdichte) Die Funktion ϕm,σ2 : IR 7→ IR zu den Parameter m ∈ IR und 0 < σ 2 < ∞, (y−m)2 1 e− 2σ2 ϕm,σ2 (y) := √ 2πσ 2 Gaussdichte bzw. Dichte der Normalverteilung zu den Parametern (m, σ 2 ). Die Dichte heißt auch nach Ihrem “Entdecker” Carl Friedrich Gauß die Gauß Glockenkurve. Definition 1.11.14 (Gaussverteilungsfunktion) Die Funktion Φm,σ2 : IR 7→ IR Z x Φm,σ2 (x) := ϕm,σ2 (y)dy −∞ zu den Parametern m ∈ IR und 0 < σ 2 < ∞ heißt Gauß Verteilungsfunktion oder auch Verteilungsfunktion der Normalverteilung . Die Standardnormalverteilungsfunktion ist die Funktion Φ := Φ0,1 mit der standardisierten Gauß Glockenkurve bzw. Dichte der Standardnormalverteilung φ := φ0,1 . Die Gaussdichte ϕm,σ2 : IR → IR ist eine Dichte und hat folgende Eigenschaften – ∀y ∈ IR : ϕm,σ2 (y) > 0 – ϕm,σ2 ist eine stetige Funktion symmetrisch um m. – Die Funktion y 7→ ϕm,σ2 (y) ist steigend bis y = m und dann fallend. Daher der Name Glockenkurve. R – ϕm,σ2 (y)dy = 1 Dies zeigt man unter Verwendung von Polarkoordinaten p y (r, ψ) = ( x2 + y 2 , arcsin ), dxdy = rd(r, ψ) x Z Z Z Z 2π Z ∞ r2 1 2 e− 2 rdrdψ = 1. ( ϕ(x)dx) = ϕ(x)ϕ(y)dxdy = 2π 0 0 70 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler R – R yϕm,σ2 (y)dy = y (einfach) – (y − m)2 ϕm,σ2 (y)dy = σ 2 (Partielle Integration) Die Funktion Φm,σ2 : IR → IR hat folgende Eigenschaften – Sie ist eine Verteilungsfunktion. – Sie ist 180 rotationssymmetrisch um den Punkt (m, 1/2). (Φm,σ2 (m + x) + Φm,σ2 (m − x) = 1) – Φm,σ2 (m) = 1/2. Wir betrachten stets die reellen Zahlen versehen mit der Borel σ-Algebra B, der kleinsten σAlgebra, die alle offenen Intervalle enthält. Wegen der Bijektion zwischen W-maßen µ auf der Borel σ-Algebra und Verteilungsfunktionen F , gegeben durch µ((−∞, ·]) = F (·), gibt es genau ein W-mass auf den reellen Zahlen zu einer Gausverteilung mit Parametern m, σ 2 . Diese heißt Gaussverteilung oder Normalverteilung. Not: N (m, σ 2 ) Eine Zgn X heis̈t gaussverteilt zu den Parametern m, σ 2 , falls die Verteilung der Zg eine Gaussverteilung zu den Parametern ist. Not: X ∼ N (m, σ 2 ). Bem: Die Parameter einer gausverteilten Zg X sind der Erwartungswert m = E(X) und die Varianz σ 2 = Var(X). Proposition 1.11.15 Eine nicht ausgeartete linear affine Funktion einer Gausverteilung ist gausverteilt. Die Summe endlich vieler unabhängiger gausverteilter Zgn ist gausverteilt. Bew: Sei X N (m, σ 2 ) verteilt und a 6= 0, b ∈ IR. Dann ist aX + b N (am, a2 σ 2 ) verteilt. P (aX + b ≤ z) Z = E(11aX+b≤z = 11ax+b≤z ϕm,σ2 (x)dx Z y−b 1 = 11y≤z ϕm,σ2 ( ) dy a a Z = ... = 11y≤z ϕam,a2 σ2 (y)dy Für die zweite Aussage reicht es nur die Summe zweier unabhängiger gaussverteilter Zgn zu betrachten. Wir können oEdA (nach dem ersten Teil) annehmen X ist N (0, 1) verteilt und Y ist N (0, σ 2 ) verteilt. Dann ist die Dichte h von X + Y gegeben durch Z h(x) = = = = = = ϕ0,1 (x − y)ϕ0,σ2 (y)dy Z (x−y)2 y2 1 1 √ √ e− 2 − 2σ2 dy 2π 2πσ 2 Z 1 σ 2 (x2 + y 2 − 2xy) + y 2 √ exp(− )dy 2σ 2 2π2πσ 2 Z −x2 σ 4 2 2 xσ 2 2 (1 + σ 2 )(y − 1+σ 1 2) (1+σ 2 ) + x σ √ exp(− )exp(− )dy 2σ 2 2σ 2 2π2πσ 2 p 2π(1 + σ 2 ) x2 √ exp(− 2σ 2 ) 2) 2 (1 + σ 2π2πσ ϕ0,1+σ2 (x) q.e.d. Bem: Die Parameter berechnnen sich leicht via dem Erwartungswert und der Varianz. Folgerung: Eine Folge von unabhängigen, identisch normalverteilten Zgn erfüllt den ZGS mit der Standardnormierung. 71 Uwe Rösler SS12 1.11 Der Zentrale Grenzwertsatz Konvergenz Definition 1.11.16 (Konvergenz bzgl. Funktionenklasse) Sei F eine Menge von Funktionen. Eine Folge µn von W-maßen konvergiert gegen ein W-maß µ bezüglich der FunktioR R nenklasse F, falls für alle Funktionen f der Funktionenmenge f dµn →n f dµ gilt. F Not: µn →n µ ⇔ µn (f ) →n µ(f ) ∀f ∈ F. Punktweise Konvergenz: vergenz. Die F-Konvergenz mit F := {11A | A ∈ A ist die punktweise KonZ ∀f ∈ F gilt inf f dµn →n f dµ ⇔ ∀A ∈ Aµn (A) →n µ(A). Schwache Konvergenz: Sei Cb die Menge der reellwertigen, stetigen und beschränkten Funktionen. Die Konvergenz bzg. Cb heißt schwache Konvergenz. C d Not: µn →n µ ⇔ µn →bn µ. Hierbei steht d für distribution. Es wird auch w verwendet für weak. d Für Zg benutzen wir dieselbe Notation Xn → X falls die Verteilungen schwach konvergieren. Satz 1.11.17 (Zentrale Grenzwertsatz) Sei X1 , X2 , . . . eine Folge von uiv Zg mit endlicher Varianz nicht Null. Dann konvergiert Sn∗ in Verteilung gegen die Standardnormalverteilung. Beweis: Wir verwenden das Lemma von Trotter, eventuell mit der Bemerkung. Seien die Y Zgn alle normalveteilt. Dann ist Tn∗ standardnormalverteilt für alle n. Folglich haben wir die Konvergenz von Sn∗ gegen die Standardnormalverteilung für die Funktionenklasse F der dreimal stetig differenzierbaren Funktionen mit beschränkter stetiger Ableitung. Jede stetige beschränkte Funktion g mit endlichem Träger {x | g(x) 6= 0} läs̈t sich gleichmäs̈ig durch eine Funktion f aus F beliebig gut approximieren. Dann gilt Eg(Sn∗ ) − Eg(Tn∗ ) = (Eg(Sn∗ ) − Ef (Sn∗ )) + (Ef (Sn∗ ) − Ef (Tn∗ )) + (Ef (Tn∗ ) − Eg(Tn∗ )) →n 0. Und was macht man, falls der Träger nicht endlich ist? (Übung in Abschneidetechnik) q.e.d. Bsp: Gauß als Geodäter. Gauss ist bekannt geworden durch seine genaue Landvermessung. Seine bahnbrechnede Neuerung war die Mittelwertbildung seiner Mehrfachmessungen als gute Approximation der wahren Streckenlänge. Eine Strecke wird n−mal gemessen. Die sich ergebenen Meßwerte sind mit einem Meßfehler behaftet und weichen voneinander ab. Inwieweit läßt sich aus den fehlerbehafteten Daten die wahre Streckenlänge c approximativ bestimmen. Mathem. Modell: Xi , 1 ≤ i ≤ n, seien unabhängige Zgn mit unbekannter Verteilung und endlicher Varianz σ 2 . Der Erwartungswert der Zg sei die zu bestimmende unbekannte Größe c. Ein guter Schätzer für c ist n Sn 1X ĉn = = Xi . n n i=1 √ ĉn −c Die Zg n √ konvergiert schwach gegen eine normalverteilte Zg. N . Sehr grob gedacht, der nσ 2 √ Fehler bei Benutzung von ĉn anstelle des wahren Wertes c ist von der Größenordnung N/ n. Die 2 Varianz σn von ĉn liefert dieselbe Grös̈enordnung √1n des Fehlers. ZGS für Schemata * Wann konvergieren Summen von unabhängigen Zgn gegen eine Normalverteilung? Wir geben eine Gleichmäßigkeitsaussage an. 72 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Definition 1.11.18 (Schema von Zufallsgrößen) Ein Schema von Zgn ist eine Familie von Zgn Xn,k , n ∈ IN, 1 ≤ k ≤ kn ∈ IN . Wir schreiben diese in der Form X1,1 , X1,2 , . . . , X1,k1 X2,1 , X2,2 , . . . , X2,k2 X3,1 , X3,2 , X3,3 , . . . , X3,k3 ...................... Wir betrachten insbesonders die Summe der n-ten Reihe eines Schemas, Sn = kn X Xn,k . k=1 Definition 1.11.19 (unabhängig, standardisiert) Ein Schema heißt unabhängig, falls die Zgn (Xn,k )k in jeder Reihe n unabhängig sind. Ein Schema heißt standardisiert, falls die Zgn zentriert sind und die Varianz s2n := VarSn = 1 jeder Reihensumme stets 1 ist. Jedes Schema mit endlicher Reihenvarianz s2n ungleich 0 läßt sich durch Übergang zu den Zgn X −EX Yn,k := n,k sn n,k standardisieren. Definition 1.11.20 (asymptotisch vernachlässigbar) Ein standardisiertes Schema (Xn,k )n,k heißt asymptotisch vernachlässigbar, falls für alle > 0 gilt sup P (|Xn,k | > ) →n 0. k Definiere für ein standardisiertes Schema Ln () := X 2 E(Xn,k 11|Xn,k |≥ ). k Satz 1.11.21 (Lindeberg) Sei (Xn,k )n,k ein unabhängiges und standardisiertes Schema. Dann sind äquivalent (i) (Xn,k )n,k ist asymptotisch vernachlässigbar und es gilt der ZGS ∀x ∈ IR P (Sn ≤ x) →n Φ(x) (ii) Die Lindebergbedingung gilt, d.h. für alle > 0 gilt Ln () →n 0. Beweis: Die Rückrichtung ließe sich analog zu Lemma 1.11.8 zeigen. Für die Hinrichtung siehe Feller [7]. Weiter- und tieferliegende Literatur ist Petrov [26] und Gnedenko-Kolmogoroff [20]. ZGS für uiv Zg: Sei Xn , n ∈ IN , eine Folge uiv Zg mit EX1 = m und endlicher Varianz σ 2 ungleich 0. Diese Folge bildet in natürlicher Weise ein Schema via Xn,k = Xk , 1 ≤ k ≤ kn = n und X1 − m √ , σ2 X1 − m X2 − m √ , √ 2σ 2 2σ 2 .......... n Xk − m √ . nσ 2 k=1 X1 X1 , X2 ............ X1 , . . . , Xn 73 Uwe Rösler SS12 1.11 Der Zentrale Grenzwertsatz −m Das zugehörige standardisierte Schema ist Yn,k := X√knσ , 1 ≤ k ≤ n ∈ IN . Das standardisierte 2 Schema ist unabhängig. Es erfüllt die Lindebergbedingung Ln () := n X k=1 E (Xk − m)2 11|Xk −m|≥√nσ2 nσ 2 =E (X1 − m)2 11|X1 −m|≥√nσ2 σ2 →n 0. Daher gilt der ZGS und die einzelnen Beiträge der Zg zur Summe sind asymptotisch vernachlässigbar. Beispiel Mergesort: Eine direkte Anwendung ist die asymptotische Analyse von Mergesort (siehe dort). 74 Elementare Wahrscheinlichkeitstheorie 1.12 SS12 Uwe Rösler Zgn mit Werten in Rd ∗ Im Text schreiben wir einen Vektor in der Form x = (x1 , . . . , xd ). In Formeln benutzen wir den Vektor als Spaltenvektor. Der Reihenvektor wäre xt . Fürq eine Matrix A benutzen wir At für die Pd 2 transponierte. Wir benutzen die euklidische Norm kxk = i=1 xi . d Im folgenden betrachten wir Zgn X mit Werten in IR . Diese schreiben wir in der Form X = (X1 , . . . , Xd ) : Ω 7→ IRd , X(ω) = (X1 (ω), . . . , Xd (Ω)). Definition 1.12.1 (Erwartungswert) Der Erwartungswert einer Rd -wertigen Zg X ist definiert durch EX = (EX1 , . . . , EXd ). Definition 1.12.2 (Covarianz) Die Covarianzmatrix Cov(X, Y ) : {1, . . . , d}2 7→ IR zweier IRd −wertiger Zgn X, Y ist gegeben durch Cov(X, Y )i,j := Cov(Xi , Yi ) = E((Xi − EXi )(Yj − EYj )). Prägnanter: Cov(X, Y ) = E((X − EX)(Y − EY )t ). Es gilt für Matrizen A, B ∈ IRd×d und Vektoren a, b ∈ IRd Cov(AX + a, BY + b) = ACov(X, Y )B t . Die Covarianzmatrix einer Zgn X ist die Matrix Cov(X, X) =: Cov(X). Definition 1.12.3 (positiv definit) Eine Matrix A heißt positiv definit, falls v t Av ≥ 0 für alle v ∈ IRd gilt. Proposition 1.12.4 Die Covarianzmatrizen Cov(X) sind genau die positiv definiten Matrizen. Beweis: “⇒” Sei v ∈ IRd . Dann gilt v t Cov(X, X)v = v t E((X − EX)(X − EX)t ))v = E(((X − EX)t v)t ((X − EX))t v) ≥ E(((X − EX)t v)2 ) ≥ 0. “⇐” Sei X = (Xi )1≤i≤d eine IRd −wertige Zg mit der Einheitsmatrix als Covarianzmatrix. (Dies ist möglich, (Xi )i unabhängig mit EXi = 0 und VarXi = 1.) Dann tuts C 1/2 pX. (Für diagonale Matrizen D = (di,j )i,j mit positiven Einträgen ist D1/2 definiert durch ( di,j )i,j .) Sei jetzt C eine positiv definite d × d Matrix. Dann existiert eine orthogonale (Ot = O−1 ) Rotation O mit OCOt = D hat Diagonalgestalt. Definiere C 1/2 = Ot D1/2 O. q.e.d. GGZ: Es gilt das sinngemäße Gesetz der Großen Zahl. Satz 1.12.5 (GGZ) Eine Folge uiv Rd −wertiger Zgn. mit endlichem ersten Moment erfüllt das schwache Gesetz der Großen Zahl. Beweis: Sei Xn die Rd −wertige Folge uiv Zgn, oEdA zentriert, Sn die n−te Partialsumme. X d Sn,i Sn P > ≤ P > →n 0. n n d i=1 Pn Hierbei haben wir das GGZ verwandt für Sn,i := j=1 Xj,i , Xj = (Xj,1 , . . . , Xj,d ). q.e.d. 75 Uwe Rösler SS12 1.12 Zgn mit Werten in Rd ∗ ZGS: Die d−dimensionale Glockenkurve bzw. d−dimensionale Dichte der Normalverteilung ist die Funktion ϕm,C : IRd 7→ IR ϕm,C (x) = p 1 (2π)d det(C) e− (x−m)t C −1 (x−m) 2 mit m ∈ IRd und C ∈ IRd×d eine positiv definite und invertierbare Matrix. Wir benutzen ϕ = ϕ0,I mit I die Einheitsmatrix. Einige Eigenschaften der Gauß Glockenkurve sind. Lemma 1.12.6 (i) ϕm,C ist stetig, strikt positiv und symmetrisch um m, (∀x ∈ IRd ϕm,C (x − m) = ϕm,C (−x − m)). R (ii) ϕm,C (x)dx = 1. R (iii) xϕm,C (x)dx = m. R (iv) (x − m)(x − m)t ϕm,C (x)dx = C. R (v) ϕm1 ,C1 (x − y)ϕm2 ,C2 (y)dy = ϕm1 +m2 ,C1 +C2 (x). Beweis: Alle Aussagen sind einfach und straight forward. Notation: ϕ = ϕ0,I mit I die Einheitsmatrix. Definiere die Gauß Verteilungsfunktion Z Φ(x) := ϕ(y)dy. y≤x d Hierbei benutzen wir R die koordinatenweise Ordnung in IR , u ≤d v ⇒ ui ≤ vi benutzen Φ(f ) := f (x)ϕ(x)dx für geeignete Funktionen f : IR 7→ IR. 1 ≤ i ≤ d. Wir Definition 1.12.7 (Standardnormierung) Die Standardnormierung einer Zg X ist, falls wohldefiniert, X ∗ = Cov−1/2 (X)(X − EX). Hierbei ist Cov−1/2 (X) das Inverse von Cov1/2 (X) wie oben erklärt. Satz 1.12.8 (Der d−dimensionale ZGS) Eine Folge uiv Rd −wertiger Zgn mit endlicher Covarianzmatrix von vollem Rang erfüllt den Zentralen Grenzwertsatz P (Sn∗ ≤ b) →n Φ(b) für alle b ∈ IRd . Äquivalent ist Ef (Sn∗ ) → Φ(f ) für alle stetigen beschränkten Funktionen f . Beweis: Ein Beweis analog zum eindimensionalen Fall ist möglich. Wir führen dies nicht aus. 76 Elementare Wahrscheinlichkeitstheorie 1.13 SS12 Uwe Rösler Sortieralgorithmen Wir führen eine Laufzeitanalyse von den Sortieralgorithmen Mergesort und Quicksort durch. 1.13.1 Laufzeitanalyse: Gegeben sei ein Algorithmus A. Dieser Algorithmus benötigt die Zeit A(x) bei Eingabe (=Input) x bis zur Ausgabe S(x) (=Output). Die Zeit wird bestimmt bzw. ist proportional zu die ausgeführten Befehlen. Wir messen daher Zeit durch das Zählen gewisser Operationen. Wir benutzen der einfachheit halber als Eingabe x ∈ IRn und betrachten n = |x| als die Problemgrös̈e. Wir werden teile-und-herrsche (divide-and-conquer) Algorithmen analysieren. Ein Problem der Stufe n wird zerlegt in kleinere Probleme niedrigerer Stufe. Durch rekursive Aufrufe des Algorithmus kommen wir letztendlich zu Problemen ganz niedriger Stufe, die lösbar sind. Die rekursive Gleichung ist der Schlüssel zur Analyse. Wir unterscheiden deterministische und stochastische Algorithmen. Stochastische Algorithmen haben eine Zufallsquelle im Programm (=Software) selber, eventuell durch Erzeugung von Zufallszahlen. Bei demselben Input ist die Laufzeit verschieden. Wir unterscheiden internen und externen Zufall. – Der interne Zufall ist im Programm selbst enthalten, zum Beispiel durch Wahl von Zufallszahlen. – Der externe Zufall kommt von außen. Hierbei wird der Input selbst als zufällig betrachtet und durch eine Zg modelliert. Eine Laufzeitanalyse umfaßt folgende Punkte. • Worst case: Hierbei handelt es sich um eine obere Schranke der Laufzeit bei Input vom Level n. Diese wird meistens asymptotisch in n angegeben. (Weniger interessant ist der beste Fall.) • Average case: Der Input wird als Zg betrachtet (=externer Zufall) oder der Algorithmus ist stochastisch (=interner). Die Laufzeit dieser Algorithmen ist eine Zg. In der average case Analyse wird der Erwartungswert der Laufzeit bestimmt. Die Idee ist An ≈ EAn auf Level n. Hierhin gehören auch Abschätzungen von P (An − EAn ≥ cn ), wie sie z.B. mit Hilfe der Tschebycheff-Markov Ungleichungen möglich sind. Die Varianz wird gerne als Abstandsbegriff genommen. • Verteilungsanalyse: Hier wird die asymptotische Verteilung von A = An bei Level-nEingabe bestimmt. Mit einer geeigneten Normierung von An , meistens eine affine von der n , konvergiert A∗n in Verteilung gegen einen nicht trivialen Grenzwert. Form A∗n = And−c n • Große Abweichungen: Ziel sind Abschätzungen der W-keit P (An − EAn ≥ cn ) → n für sehr große cn . Diese Wahrscheinlichkeit geht exponentiell schnell in n gegen 0, bzw. 1 n ln P... konvergiert in n. Diese Abschätzungen beruhen in der Regel auf exponentiellen Abschätzungen, wie die Cramer Transformierte oder der Hoeffding Ungleichung. 1.13.2 Insertionsort: Der Algorithmus Insertionsort bzw. Bubble up ist ein Sortieralgorithmus. Der Input besteht n aus einer Liste x ∈ IR6= von n ungleichen reellen Zahlen. Die Ausgabe ist die Folge S(x) ∈ IRn der aufsteigend sortierten Komponenten von x. Algorithmus Insertionsort: Wir beschreiben nur den Rekursionsschritt. Im k + 1-ten Schritt seien die ersten k Daten bereits geordnet zu a1 < a2 < . . . , ak . Die Date xk+1 wird jetzt eingelesen und soll eingeordnet werden. Dies geschieht durch Vergleich mit ak , ak−1 , ak−2 usw. solange, bis der richtige Platz gefunden ist. Gefragt ist nach der Anzahl der notwendigen Vergleiche. 77 Uwe Rösler SS12 1.13 Sortieralgorithmen Sei Z(x) die Anzahl der benötigten Vergleiche zum Einordnen der letzten Koordinate xn in die geordnete Liste der S(x1 , . . . , xn−1 ). Sei A(x) die Anzahl aller von Insertionsort durchgeführten Vergleiche bei Eingabe von x. Es gilt A(x) = A(x− ) + Z(x). (1.14) Hierbei bezeichnet x− die um die letzte Koordinate reduzierte Liste x. Das Problem vom Level n wird auf eins vom Level n − 1 zurückgeführt. n Bounds: Aus 1 ≤ Z(x) ≤ n − 1 für x ∈ IR6= und n ≥ 2 erhalten wir n − 1 ≤ A(x) ≤ n X (i − 1) = i=2 n(n − 1) 2 durch Induktion nach der Problemlänge n. Average Sei Ri (x) := n X 11xj ≤xi j=1 n der Rang von xi unter den Komponenten von x ∈ IRne . R(x) ist eine Permutation der Zahlen 1 bis n = |x|. R heißt Rangfunktion. Durch Induktion läßt sich leicht zeigen: A(x) = A(R(x)) Z(x) = Z(R(x)). Anstelle von allgemeinen Listen reicht es Permutationen zu betrachten. Zur mathematischen Formulierung betrachten wir als Grundraum die Menge Πn der Permutationen von {1, . . . , n} mit W-maß µn als Laplaceraum. Sei An (π) = A(π) und Zn (π) = Z(π) für π ∈ Πn . Sei ϕn : Πn → Πn−1 × {1, . . . , n} mit π 7→ (R(π − ), πn ). Die Rekursion lautet An (π) = A(ϕn,1 (π)) + Zn (π). Proposition 1.13.1 Für gegebenes n sind die Zgn ϕn,1 , ϕn,2 unabhängig. Die Verteilung von ϕn,1 , ϕn,2 ist die gleichmäßige auf dem Bildraum. Bew: Die Abbildung ϕn ist eine Bijektion. Die Verteilung von ϕn,1 , ϕn,2 wird nachgerechnet und ebenfalls die Unabhängigkeit. q.e.d. Mathem. Modell: Der Input wird gegeben durch eine zufällige Permutation der Länge n mit Gleichverteilung. Definiere eine Folge νn , n ∈ IN von W-maßen auf IN rekursiv definiert durch den Anfangswert ν1 = δ0 und νn , n ≥ 2 ist die Verteilung von X + C mit X, C sind unabhängig, X ist νn−1 verteilt und C ist verteilt nach 1 falls 1 ≤ j < n − 1 n P (C = j) = 2 falls j =n−1 n Intuitiver mit Zgn geschrieben, D Xn = Xn−1 + Cn . D Hierbei hat X· die Verteilung ν· und das Zeichen = steht für Gleichheit der Verteilungen von Zgn. Lemma 1.13.2 Die Verteilung von An : Πn → IN0 unter der Gleichverteilung auf Πn ist gegeben durch νn . 78 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler D Beweis: Wir beweisen das Lemma durch Induktion nach n. Der Induktionsanfang ν1 = A1 = 0 ist erfüllt. Wir zeigen den Induktionsschritt von n − 1 nach n. Die Zgn An auf Πn erfüllt D An = A(ϕn,1 ) + Zn . Hierbei sind die Zgn A(ϕn,1 ), Zn = (ϕn,2 )∧(n−1) unabhängig. Die Verteilung von Zn ist diejenige von C = Cn wie oben angegeben. Die Verteilung von A(ϕn,1 ) ist nach Induktionsvoraussetzung νn−1 . Das wars. q.e.d. Die Analyse für den Erwartungswert an = EXn = EAn beruht auf der Rekursion an = an−1 + ECn . Es gilt ECn = n 2 + 1 2 − n1 . Damit an = n X j=2 ECj = n n X 1 1 n(n + 3) X 1 j − . ( + − )= 2 2 j 4 j j=1 j=2 Höhere Momente lassen sich ebenfalls einfach berechnen. Zum Beispiel die Varianz bn = VarXn erhalten wir aus der Rekursion bn = bn−1 + VarCn . Die Rekursion ergibt sich aus D Xn − an = Xn−1 − an−1 + Cn − ECn . Asymptotische Verteilung Satz 1.13.3 Die asymptotische Verteilung von standardisiertem Insertionsort ist die Normalverteilung. Pn Bew: An hat eine Verteilung, die wir als Summe k=1 Ck von unabhängigen Zgn darstellen können. Die Verteilung von Ck ist die gleichmäßige auf {1, . . . , k}. Der Erwartungswert von Ck ist k+1 2 und Pi 2 .) Die Varianz von An ist die Varianz ist k 12−1 . (Verwende die Identität j=1 j 2 = n(n+1)(2n+1) 6 n(n+1)(2n+1) . 12 Betrachte das Schema ((Cn,k )nk=1 )n mit Cn,k := Ck . Die Summe der n-ten Zeile hat die Verteilung von An . Dieses Schema ist unabhängig. Dieses Schema standardisieren wir Ck − ECk ∗ Cn,k := √ . VarAn Die Behauptung folgt aus dem Satz 1.11.21 von Lindeberg, wenn wir die Lindeberg-Bedingung gezeigt haben. n X ∗ ∗ |≥ ) →n 0. Ln () = E((Cn,k )2 11|Cn,k k=1 Ln () ist 0 für n hinreichend groß, da |Ck − ECk | durch k ≤ n beschränkt ist und die Normierung √ VarAn wie n3/2 wächst. q.e.d. Große Abweichungen Satz 1.13.4 Für die Laufzeit An von Mergesort gilt a P (|An − EAn | ≥ a) ≤ 2e− 4c mit c = n(n−1)(2n−1) . 192 79 Uwe Rösler SS12 1.13 Sortieralgorithmen Beweis: Die Hoeffding Abschätzung 1.8.3 Eeλ(Ck −ECk ) ≤ e 2 λ2 (k−1) 8 2 ) liefert Eeλ(An −EAn ) = n Y λ2 Pn−1 Eeλ(Ck −ECk ) ≤ e 32 k=0 k2 k=1 Damit erhalten wir P (An − EAn ≥ a) ≤ 2 Eeλ(An −EAn ) ≤ ecλ −λa λa e für alle λ ≥ 0 und c wie oben. Das beste λ erfüllt λ = 1.13.3 a 2c . Dies ergibt die Aussage. q.e.d. Mergesort Der Algorithmus Mergesort sortiert eine Menge von Objekten mit einer Ordnungstruktur. Der n Einfachheit halber bestehe die Eingabe x ∈ IR6= aus n unterschiedlichen reellen Zahlen. Die Ausgabe S(x) besteht aus den geordneten Zahlen der Eingabe. (Der Einfachheit halber sei n eine Zweierpotenz. Für allgemeines n siehe [15].) Mergesort: (i) Teile die Liste in zwei etwa gleich große Listen auf. (ii) Sortiere jede dieser Listen durch rekursiven Aufruf. (iii) Merge die beiden sortierten Listen. Das Ineinandersortieren (=merge) von zwei Listen geschieht nach folgendem Verfahren. Merge: (i) Vergleiche die jeweils größte (kleinste) Zahl der Listen. (ii) Die größere (kleinere) entferne aus der Liste und speichere sie in einer Zielliste (geordnet) ab. (iii) Benutze rekursiv Merge bis eine der Listen leer ist. Der Algorithmus terminiert mit der Ausgabe einer geordneten Liste. Dies ist die rekursive Beschreibung. Die iterative (=rechnergerechte) Durchführung geschieht umgekehrt. Zuerst werden Zweierlisten gebildet, dann Viererlisten, dann Achterlisten usw. Die Programmierung dieses Algorithmus ist nach folgendem Bild für n = 16 einfach. r r r r r r r r r 6 6 C6 C6 1,1 6 C1,2 1,3 6 C2,1 C2,2 6 C3,1 r r 6 r r 6 80 r 6 6 6 C4,1 r 6 6 6 r Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Vorbetrachtung: Die Laufzeit des Algorithmus wird im wesentlichen bestimmt durch die Anzahl n A(x) der zur Sortierung benötigten Abfragen bei einem Input x =∈ IR6= von verschiedenen Zahlen. Schlüssel zur Analyse ist die Rekursion A(x) = A(l(x)) + A(r(x)) + Z(x). (1.15) Hierbei bezeichnet l(x) = (x1 , . . . , xdn/2e ) die linke Liste und r(x) = (xdn/2e+1 , . . . , xn ) die rechte und Z(x) die Anzahl der benötigten Abfragen zum Ineinandersortieren der sortierten Listen aus dem Input a(x) und aus b(x). Wir haben eine teile-und-herrsche (divide-and-conquer) Situation. Die rekursive Gleichung 1.15 dient als Definition für A, sofern Z wohldefiniert ist. Das Ineinandersortieren wird rekursiv erklärt. Eine geordnete Liste der Länge n ≥ 0 ist ein Element n x ∈ IR6= mit strikt aufsteigenden Koordinaten. Hierbei ist konventionell IR0 = {∅} gesetzt. Sei L, Ln die Menge aller geordneten Listen bzw. der Listen der Länge n. Betrachte die Mergefunktion Zs,t : Ls × Lt → IN0 rekursiv definiert durch Zs−1,t (x− , y) falls xs ≥ yt Zs,t (x, y) = 1 + Zs,t−1 (x, y − ) falls xs < yt mit x ∈ IRs , y ∈ IRt , x− = (x1 , . . . , xs−1 ), y − = (y1 , . . . , yt−1 ) für s, t ≥ 1 und den Anfangsbedingungen Zs,t = 0 falls s = 0 oder t = 0. Zs,t ist wohldefiniert. Zu x ∈ IRn sei S(x) der Vektor der der Größe nach geordneten Komponenten von x. Dann definiere Z(x) := Zd n2 e,b n2 c (S(l(x)), S(r(x))). Worst case analysis: Zum Ineinandersortieren von zwei Listen der Längen s, t benötigen wir im ungünstigsten Fall s + t − 1 Vergleiche. Sei Xn = sup A(x). |x|=n Xn erfüllt die rekursive Abschätzung Xn ≤ Xdn/2e + Xbn/2c + n − 1. Hieraus ergeben sich obere Abschätzungen An ≤ n log2 n für n = 2m , m X X2∗m−1 X2m ≤ m−1 + 1 − 2−m ≤ (1 − 2−i ) = m − 1 + 2−m−1 . m 2 2 j=1 Best case analysis: Im besten Fall benötigen wir zum Ineinandersortieren zweier Listen der Länge s, t mindestens s ∧ t Vergleiche. Sei Xn = inf A(x). |x|=n Xn erfüllt die rekursive Abschätzung Xn ≥ Xdn/2e + Xbn/2c + bn/2c. Hieraus ergeben sich untere Abschätzungen n log2 n ≤ An 2 für n = 2m , m X2m X2m−1 1 X1 m ≥ + ≥ = . 2m 2m−1 2 j=1 2 2 81 Uwe Rösler SS12 1.13 Sortieralgorithmen Average Case: Sei R die Rangfuntion. Durch Induktion läßt sich leicht zeigen M (x) = M (R(x)) Z(x) = Z(R(x)). Anstelle von allgemeinen Listen reicht es Permutationen zu betrachten. Mathem. Modell: Der Input ist eine zufällige Permutation der Länge n mit Gleichverteilung. Sei Πn der Raum der Permutionen auf 1 bis n versehen mit der Gleichverteilung µn . Betrachte An : Πn → IN0 , An (π) = A(π) als Zg. Es gilt die Rekursion, wir unterdrücken in der Schreibweise π ∈ Πn , An = Ad n2 e (R(l)) + Ab n2 c (R(r))) + Zn mit Z = Zd n2 ,b n2 c (S(l)), S(r)). Wir benötigen folgendes Lemma. Lemma 1.13.5 Seien n = s + t natürliche Zahlen. Sei l die Projektion von IRn auf die ersten s Koordinaten, r auf die letzten t Koordinaten. Die Zgn Rl : Πn → Πs Rr : Πn → Πt Sl : Πn → IRs auf (Πn , µn ) sind unabhängig. Ferner die Verteilungen von Rl und Rr ist die Gleichverteilung. Die Verteilung von Zs,t : Πn → IN0 wird gegeben durch z−1 z−1 t−1 + s−1 P (Zs,t = z) = 11s∧t≤z≤s+t−1 s+t s EZs,s = Var(Zs,s ) = 2s2 s+1 2s2 (s − 1) <2 (s + 1)2 (s + 2) Bew: Betrachte die Abbildung ϕs,t = ϕ : Πn → Πs × Πt × {A ⊂ {1, 2, . . . , n} | |A| = s} definiert durch ϕ(π) = (R(l(π)), R(r(π)), {π1 , . . . , πs }). • ϕ ist bijektiv. Aus der Kenntnis von ϕ1 (π) und ϕ3 (π) können wir die ersten s Koordinaten von π eindeutig bestimmen und aus der Kenntnis von ϕ2 (π) und der verwendeten Symbole {1, . . . , n}\ϕ3 (π) die restlichen Koordinaten. Damit ist ϕ injektiv. Die Surjektivität folgt demselben Weg. Die gleichmäßige Verteilung µn auf Πn (Laplaceraum) entspricht dem Ziehen aus einer Urne mit n Kugeln ohne Zuruecklegen in Reihenfolge. Das von ϕ1 (ϕ2 , ϕ3 , a, b, transportierten Maß ist die Gleichverteilung auf dem Bild unter der Abbildung. Wir haben einen Laplaceraum. Explizit, die W-keiten sind 1 1 1 P (ϕ1 = ·) = P (ϕ2 = ·) = P (ϕ3 = ·) = n s! t! s für · aus dem Bildraum. Eine Rechnung zeigt die Unabhängigkeit, P (ϕ = (τ, ρ, A)) = 1 1 1 1 = P (ϕ1 = τ )P (ϕ2 = ρ)P (ϕ3 = A). = n! s! t! ns Der Rest ist abzählen. P (Zs,t ≤ s + t − r) = 111≤r≤s+t−s∧t und nachrechnen. s+t−r s−r s+t s + s+t−r s s+t s ! q.e.d. Rekursion: Definiere eine rekursive Folge von Verteilungen νn , n ∈ IN0 auf IN0 durch ν0 , ν1 das Punktmaß auf 0 und rekursiv νn ist die Verteilung von X + X + C. Hierbei sind X, X, C 82 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler unabhängig. Die Verteilung von X und X wird rekursiv durch νd n2 e , µb n2 c gegeben. Die Verteilung von C = Cn ist diejenige von Zn = Zd n2 e,b n2 c . Intuitiver mit entsprechender Notation D Xn = Xd n2 e + X b n2 c + Cn (1.16) D 2 ≤ n ∈ IN, (Xi = µi .) Lemma 1.13.6 Unter der Annahme einer zufälligen Permutation der Länge n mit Gleichverteilung als Input von Mergesort, ist νn die Verteilung von Mergesort An : Πn → IN0 . Bew: Wir führen eine Induktion über n und zeigen nur den Induktionsschritt n − 1 nach n. Die Rekursionsgleichung für Mergesort lautet An = Ad n2 e (R(l)) + Ab n2 c (R(r))) + Zn . mit Zn = Zd n2 ,b n2 c (S(l)), S(r)). Die 3 Zgn auf der rechten Seite sind unabhängig voneinander, Lemma 1.13.5. (Beachte, bei Kenntnis von Sl auf Πn kennen wir auch Sr, da genau die Zahlen 1 bis n einmal als Koordinate von Sl oder Sr auftreten.) Die Verteilung der ersten beiden ist laut Induktionsannahme νd n2 e , µb n2 c . Die dritte Zg Zn hat dieselbe Verteilung wie Cn . Damit ist die Verteilung von An eindeutig bestimmt und identifiziert als νn . q.e.d. Erwartungswerte: Der einfachheit halber betrachten wir nur n = 2m als Zweierpotenzen. Aus der Schlüsselgleichung ergibt sich eine rekursive Gleichung a2n = 2an + EC2n für die Erwartungswerte an = EAn . Mit bm = a2m 2m und b0 = 0 erhalten wir m bm+1 = bm + = 2 m X i=0 X EC2i+1 EC2m+1 = . . . = 2m+1 2i+1 i=0 m X 2i 1 = 2(m + 1) − . i i 2 +1 2 +1 i=0 P∞ Damit EAn ≤ 2n log2 n und etwas genauer EAn = n log2 n − cn + o(n) mit c := i=0 2i1+1 . Bem: Der Abschnitt über Anfänge der Informationstheorie liefert eine untere theoretische Schranke für die erwartete Laufzeit für jeden Sortieralgorithmus. Diese Schranke ist ln2 n! = n log2 n − n log2 e + o(n). Mergesort liegt sehr dicht bei dieser Schranke. Bsp: Varianz Aus der rekursiven Gleichung lassen sich Momente berechnen. Für die Varianz ergibt sich beispielsweise aus D X2n − a2n = Xn − an + X n − an + C2n − EC2n die Rekursion VarX2m+1 = 2VarX2m + VarC2m+1 . Diese läßt sich leicht lösen und liefert die Größenordnung c n + o(n) mit c eine Konstante für die Varianz von An , n eine Zweierpotenz. Hieraus ergeben sich die Abschätzungen P (An − EAn ≥ a) ≤ cn + o(n) VarAn = . a2 a2 Asymptotische Verteilung: Wir betrachten nur Zweierpotenzen n = 2m von n. Satz 1.13.7 Die asymptotische Verteilung von standardisiertem Mergesort ist die Normalverteilung. 83 Uwe Rösler SS12 1.13 Sortieralgorithmen In Formeln, An − EAn d A∗n := √ →m Φ VarAn oder als gleichmäßige Aussage formuliert, sup |P (a ≤ A∗n ≤ b) − Φ(b) + Φ(a)| →m 0. a,b Bew: Mit einer entsprechenden Indizierung (alle C-Zgn sind unabhängig und die Verteilung von Cm,· ist Zn,n mit n = 2m ) A2m = Sm in dem obigen Bild erhalten wir aus der Rekursion 1.16 S1 = S2 = C2,1 + C1,1 + C1,2 C1,1 (1.17) (1.18) S3 = C3,1 + C2,1 + C2,2 + C1,1 + C1,2 + C1,3 + C1,4 (1.19) ... Sm = (1.20) m−j m 2X X Cj,i . (1.21) j=1 i=1 m−j ≤k< Sm ist die Zeilensumme von einem Schema ((Xm,k )m k=1 )m∈IN (Setze Xm,k = Cj,i mit 2 m−j m−j 22 , i = k−2 + 1) von Zgn. Dieses Schema ist unabhängig. Dieses Schema standardisieren wir Xn,k − EXm,k ∗ √ . Xm,k := VarSm Die Behauptung folgt aus dem Satz 1.11.21 von Lindeberg, wenn wir die Lindeberg-Bedingung gezeigt haben. m−j Lm () = m 2X X E(( j=1 i=1 = m X 2m−j E(( j=1 = m0 X (Cj,i − ECj,i )2 11|Cj,i −ECj,i |>√VarSm ) VarSm m X ... + j=1 (Cj,1 − ECj,1 )2 11|Cj,1 −ECj,1 |>√VarSm ) VarSm ... j=m0 +1 für ein m0 ∈ IN. Den zweiten Term schätzen wir grob ab durch ≤ m X j=m0 +1 2m−j m X VarCj,1 ≤c 2−j ≤ c2−m0 . VarXm j=m +1 0 Dieser Term wird beliebig klein für m0 hinreichend groß gleichmäßig in m. Der erste Term ist 0 für m hinreichend groß, da Cj,1 beschränkt ist für j ≤ m0 und VarXm mit m gegen ∞ konvergiert. q.e.d. Bemerkung: Ist n keine Zweierpotenz, so bleiben alle Argumente grundsätzlich bestehen, die Rechnungen werden unschön. Z.B. das Varianzverhalten wird folgendermaßen beschrieben [15]: Es gibt eine gleichmäßig stetige Funktion f : [0, 1] → IR mit VarMn n − 2m − f( ) →n 0 n 2m mit 2m ≤ n < 2m+1 [29]. f ist minimal genau an den Stellen 0 und 1. (Dies entspricht einer 2-er Potenz von n.) Die Konvergenz gegen die Normalverteilung bleibt bestehen. 84 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Große Abweichungen: Satz 1.13.8 Für n eine 2-er Potenz gilt für die Laufzeit von Mergesort 4a2 P (|An − EAn | ≥ a) ≤ 2e− n2 . Beweis: Sei n = 2m . Die Hoeffding Abschätzung 1.8.3 liefert m−j λ(Xm −EXm ) Ee = m 2Y Y Eeλ(Cj,i −ECj,i ) ≤ j=1 i=1 = e λ2 32 Pm j=1 m Y (e λ2 (2j−1 )2 8 m−j )2 j=1 2m+j ≤e λ2 16 2m 2 Damit erhalten wir 2 n2 Eeλ(An −EAn ) ≤ eλ 16 −λa λa e für alle λ ≥ 0. Das beste λ erfüllt λn2 = 8a. Dies ergibt die Aussage. P (An − EAn ≥ a) ≤ 1.13.4 q.e.d. Quicksort Wir führen eine ausführliche Analyse des Sortieralgorithmus Quicksort durch. Dieser wurde 1961 von Hoare [24] veröffentlicht. Zur Bedeutung sei angeführt, daß das Betriebssystem UNIX Quicksort implementiert hat (in der Version, für den Vergleich den Median der drei Zahlen auf den Listenplätzen, erster, letzter und mittlerer, zu nehmen). Der Algorithmus Quicksort sortiert Objekte mit einer totalen Ordnungsstruktur. Der Einfachn heit halber bestehe die Eingabe x ∈ IR6= aus n unterschiedlichen reellen Zahlen. Die Ausgabe S(x) besteht aus den geordneten Zahlen der Eingabe. Quicksort: (i) Wähle zufällig mit Gleichverteilung eine dieser Zahlen aus, genannt das Pivotelement. (ii) Bilde die Liste der strikt kleineren und der strikt größeren Zahlen als das Pivotelement. (iii) Speichere diese Listen mit dem Pivotelement in der Mitte in dieser Reihenfolge ab. (iv) Rufe rekursiv den Algorithmus für die Teillisten mit mehr als einem Element auf. Das Ergebnis ist eine geordnete Liste. Da die Kardinalität der Mengen stets echt kleiner wird, endet dieser Algorithmus in endlicher Zeit. Algorithm 64 für schnelles Sortieren von Hoare 1961 37 10 -55 -55 1070 12 7 7 77 7 10 10 3873 -55 12 12 -55 19 19 19 u 19 3873 37 37 93518 93518 77 77 u u u u u u u 7 77 93518 3873 12 1070 1070 93518 u u 10 37 3873 1070 u rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr 85 zufällige Zahl 19 7 7 10 37 93518 Uwe Rösler SS12 1.13 Sortieralgorithmen Das letzte Bild zeigt die Durchführung abstrakt als Prinzip. In der praktischen Durchführung geschieht die Umordnung innerhalb der Liste selbst. Nach der Auswahl des zufälligen Elementes suchen wir von links startend das erste Element echt größer als das zufällige. Von rechts startend suchen wir das erste echt kleinere. Dann vertauschen wir diese beiden und fahren mit der Suche fort. Wenn sich beide Suchzeiger treffen, wird das zufällige zwischen die Liste der strikt kleineren und der Liste der strikt größeren Zahlen gespeichert. (Das Pivotelement selbst stört etwas dieses Schema. Genauer: Verfahre wie oben beschrieben, wobei der Platz des Pivotelementes unberücksichtigt bleibt bis die Zeiger sich treffen. Dann sortiere das Pivotelement entsprechend ein.) In einer weiteren Liste werden die Adressen der Listenanfänge gespeichert. Der benötigte zusätzliche Speicherraum ist von der Größenordnung O(ln n). ? ? 6 ?? 6 Problemstellung: Wir sind an der zufälligen Laufzeit des Algorithmus Quicksort interessiert. Die Laufzeit ist proportional zu der Anzahl der vollzogenen Operationen. In unserem Fall ist die Laufzeit hauptsächlich bestimmt durch die Anzahl A(x) der benötigten Vergleiche zur Sortierung der Liste x, zumindest proportional dazu. Da wir einen internen Zufall haben, ist A(x) eine Zg. Für eine Liste der Länge n benötigen wir n − 1 Vergleiche für die Aufspaltung, und dann noch die ∗ Vergleiche zur Sortierung der verbleibenden Listen. Die Rekursion für die Zgn A(x), x ∈ IR6= = ∞ n ∪n=0 IR6= , wir unterdrücken das ω, lautet A(x) = A(l(x)) + A(r(x)) + n − 1, (1.22) |x| ≥ 2. Hierbei bezeichne l(x) die linke Liste nach dem Vergleich und r(x) bezeichne die rechte Liste. Die Zgn A(l(x)) und A(r(x)) sind abhängig vom Input l(x), r(x) und dem internen Zufall. Gegeben l(x), r(x) sind die Zgn unabhängig. Die Zgn A(x) und A(x) haben dieselbe Verteilung. Die Anfangswerte sind A(x) = 0 für |x| ≤ 1. Nun zu einer sauberen Definition der Objekte. (Bitte beim ersten Lesen überschlagen.) Mathematisches Modell∗ : Wir benutzen die stochastische Version von Quicksort mit internem Zufall. – Als Pivotelement wird ein mit Gleichverteilung zufällig gezogenes Listenelement genommen. – Das Ziehen der Pivotelemente ist für verschiedene Listen unabhängig voneinander. Definiere die Abbildung ψ ψ |x|−j j n ∪∞ n=1 (IR6= × {1, . . . , n}) 3 (x, i) 7→ (l(x, i), r(x, i)) ∈ IR6= × IR6= × {0, 1} rekursiv mit den Anfangswerte l(x, 1) = ∅ = r(x, 1) für |x| = 1. Sei |x| = n ≥ 2, j der Rang Ri (x) der i-ten Komponente von x, y = y(x) ∈ IRn gegeben durch xl falls l 6= i, j xi l=j . yl = xj l=i und τ := inf{k ≤ j | yk > yj }, σ = sup{k ≥ j | yk ≤ yj }. Setze rekursiv l(x, i) = (y1 . . . , yj−1 ) r(x, i) = (yj+1 , . . . , yn ) für τ = σ und anderenfalls l(x, i) = (y1 , . . . , yτ , l(z, i − τ )) r(x, i) = (r(z, i − τ ), yσ , . . . , yn ) 86 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler mit z = (yτ + 1, . . . , yσ−1 ). Damit ist ψ wohldefiniert. Beachte die Beziehungen für die Rangfunktion R R(l(R(·), i) = R(l(·), i)) R(r(R(·), i)) = R(r(·), i)). n Seien U (x), x ∈ ∪∞ n=0 N6= unabhängige Zgn mit U (x) hat eine Gleichverteilung auf {1, . . . , |x|}. Definiere Zgn A(x) rekursiv durch A(x) = A(l(x, RU (x) (x))) + A(r(x, RU (x) (x))) + |x| − 1 für |x| ≥ 2 und den Anfangsbedingungen A(x) = 0 für |x| = 0 oder 1. R ist die Rangfunktion. Die beiden Zgn A(l(x, j)), A(r(x, j)) gegeben j = RU (x) (x))) sind unabhängig. Die oben verwendete Zg l(x) ist l(x, RU (x) (x)) und r(x) ist r(x, RU (x) (x)). Damit erfüllt A die Gleichung 1.22 für kleineren Definitionsbereich. (Übung: Weshalb ist dies unerheblich?.) Wir fahren auschließlich fort mit der Gleichung 1.22. Proposition 1.13.9 Die Verteilung von A(x) hängt nur von der Listenlänge n = |x| ab. Bew: Wir führen eine Induktion über die Listenlänge |x| = n. Der Induktionsschritt n − 1 nach n ergibt sich aus A(x) = A(l(x)) + A(r(x)) + n − 1. Die Listenlänge von l(x) und r(x) ist strikt kleiner als n. Die Verteilung der rechten Seite ist unabhängig von x und daher die linke. q.e.d. Sei νn die Verteilung von A(x) mit |x| = n ∈ IN0 . Die Folge νn , 2 ≤ n ∈ IN erfüllt die rekursive Schlüsselgleichung, d An = AIn −1 + An−In + n − 1 (1.23) n ∈ IN . Die Zgn Ai , Aj , In , i, j < n sind unabhängig. Die Verteilung von In ist eine gleichmäßige Verteilung auf den Zahlen 1 bis n. Die Verteilung der Ai undAi ist gleich und rekursiv durch νi (1.13.10) für i < n gegeben. Die Anfangswerte ν0 , ν1 sind die Punktmaße auf 0. Proposition 1.13.10 Die Folge νn , n ∈ IN0 ist eindeutig durch die Rekursion bestimmt. Bew: Der Beweis ist eine Induktion nach n. Wir überschlagen dies. q.e.d. Worst Case: Der Wert der Zgn An für gegebene Listenlänge n ist beschränkt durch die folgenden zwei Extremwerte. Im ungünstigsten Fall ist die zufällig gewählte Vergleichszahl stets die kleinste (oder größte). Dann haben wir trotz der Abfragen nur wenig weitere Information gesammelt. Zum Abstieg vom ersten Level zu dem zweiten benötigen wir n − 1 Vergleiche, vom zweiten zum dritten n − 2, dann n − 3 usw. Insgesamt ergeben sich n(n − 1)/2 benötigte Vergleiche. Dieses ist tatsächlich der ungünstigste Fall. (Der formale Beweis wird durch Induktion mit der Schlüsselgleichung erbracht.) n−1 n−2 n−3 r rr rrr 87 Uwe Rösler SS12 1.13 Sortieralgorithmen Best Case: Am günstigsten ist es, wenn die Liste in zwei gleich lange Listen aufgeteilt wird. Nehmen wir an, wir teilen zufällig die Listen stets in (fast) gleich lange Teillisten. Dann benötigen wir ungefähr ln2 n Level, und auf jedem Level haben wir rund n Abfragen. n − 21 + 1 r n − 22 + 1 r r r n − 23 + 1 r r r r r r r rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr Genauer ergeben sich ndln2 ne − 2dln2 ne + dln2 ne ≈ n ln2 n Abfragen. (Wir haben hier den günstigsten Fall beschrieben. Der Nachweis dieser Behauptung wird durch Induktion mit der Schlüsselgleichung gezeigt.) Insgesamt ergeben sich die Grenzen n ln2 n − n ≤ An ≤ n2 /2 für eine Liste der Länge n. Eine Laufzeit von n2 /2 ist sehr schlecht und unakzeptabel. Wir werden zeigen, daß diese nur sehr selten eintritt. Average case: Sei an := EAn der Erwartungswert, eine Liste der Länge n mit Quicksort zu sortieren. Es gilt die Rekursionsformel a0 = 0, a1 = 0 an = n − 1 + n X 1 (ai−1 + an−i ). n i=1 Hieraus erhalten wir durch eine Variablentransformation an = n − 1 + Rechnung die Rekursionsformel 2 n Pn−1 i=0 ai und nach etwas an an−1 2(n − 1) = + . n+1 n n(n + 1) Durch rekursive Anwendung dieser Formel erhalten wir an = 2 n+1 X i=1 1 2 + − 4. i n+1 Daher ist der Erwartungswert der Quicksortlaufzeit an = E(An ) approximativ E(An ) = 2n ln n + n(2γ − 4) + 2 ln n + 2γ + 1 + O(n−1 ln n) mit γ = 0.57721 . . . die Euler Konstante, siehe Knuth [25]. Für jeden Sortieralgorithmus ist der erwartete Wert der Vergleiche, unter Annahme einer Gleichverteilung auf dem Raum der Listen (Permutationen), nach unten beschränkt durch ln2 n! ≈ ln2 n − n + o(n), siehe Abschnitt 1.14. Verteilungsanalyse: Definiere An − E(An ) . n (Die Varianz von An ist von der Größenordnung cn2 .) Die Quicksort-Rekursionsgleichung (1.13.10) schreibt sich um zu Qn := D Qn = QIn −1 In − 1 n − In + Qn−In + Cn (In ) n n 88 (1.24) Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler n ≥ 2 mit n−1 1 + (E(Ai−1 ) + E(An−i ) − E(An )) . (1.25) n n Lassen wir jetzt n gegen unendlich laufen. Es läßt sich zeigen, und sei vorausgesetzt, • In /n konvergiert schwach gegen eine gleichförmige verteilte Zg U auf dem Einheitsintervall. • Cn (n · In /n) konvergiert geeignet gegen C(U ) mit Cn (i) = C(x) := 2x ln x + 2(1 − x) ln(1 − x) + 1, x ∈ [0, 1] • Qn konvergiert schwach gegen eine Zg Q. Unter diesen Voraussetzungen erwarten wir für Q eine Gleichung der Form D Q = QU + Q(1 − U ) + C(U ), (1.26) D mit U, Q, Q unabhängig, Q = Q. Wir zeigen jetzt mit einem Fixpunktargument, daß es eine Verteilung bzw. Zg Q gibt, die (1.26) erfüllt. Kontraktionsmethode: (Dieser Abschnitt benutzt nichtdiskrete Maße.) R Auf dem Raum M der W-Maße auf IR mit endlichem zweiten Moment |x|2 µ(dx) sei d die Mallows d2 -Metrik, d(µ, ν) = inf kX − Y k2 . Das Infimum ist über alle Zgn X, Y mit Verteilung µ, ν. Bemerkung: Der Raum (M, d) ist ein vollständiger, separabler metrischer Raum [18]. Das Infimum wird angenommen durch X = Fµ−1 (U ), Y = Fν−1 (U ), mit U eine gleichmäßige Verteilung und Fµ , Fν die Verteilungsfunktionen R von µ, ν. Sei M0 die Menge aller µ ∈ M mit xµ(dx) = 0. Wir betrachten die Abbildung K : M0 7→ M0 , D K(µ) := U X + (1 − U )X + C(U ). (1.27) Hierbei sind X, X, U unabhängige Zgn auf einem beliebigen W-Raum. U ist gleichmäßig auf dem Einheitsintervall verteilt. Die Verteilung von X und X ist µ. Die Abbildung K ist wohldefiniert. Sie ist unabhängig von der Wahl des W-Raumes und der Wahl der Zgn. Weiterhin gilt K(µ) ∈ M0 R wegen xK(µ)(dx) = 0 und Z 1/2 x2 K(µ)(dx) = kU X + (1 − U )X + C(U )k2 ≤ 2kXk2 + kC(U )k2 < ∞. Lemma 1.13.11 (Kontraktionslemma) Seien µ, ν ∈ M quadratintegrierbar und besitzen dasR R selbe erste Moment xdµ(x) = xdν(x). Dann gilt r 2 d(K(µ), K(ν)) ≤ d(µ, ν). 3 Beweis: Wir wählen die Zg U X + (1 − U )X + C(U ) für die Verteilungen K(µ) und U Y + (1 − U )Y + C(U ) für die Verteilung K(ν). Hierbei sind U, (X, Y ), (X, Y ) unabhängige Zgn. Die Zg U hat eine gleichmäßige Verteilung auf dem Einheitsintervall. Die Verteilung von X und d d X ist µ, X = µ = X. Ferner gilt d( µ, ν) = kX − Y k2 = kX − Y k2 . Dies ist möglich. (Weshalb?) Dann gilt d2 (K(µ), K(ν)) ≤ kU X + (1 − U )X + C(U ) − U Y − (1 − U )Y − C(U )k22 = kU (X − Y ) + (1 − U )(X − Y )k22 = EU 2 E(X − Y )2 + E(1 − U )2 E(X − Y )2 = 32 d2 (µ, ν) 89 Uwe Rösler SS12 1.13 Sortieralgorithmen Theorem 1.13.12 Jede Folge M0 3 µ, K(µ), K(K(µ)) = K 2 (µ), K 3 (µ) . . . für quadratintegrierbare W-Maße µ ∈ M2 konvergiert exponentiell schnell gegen einen Fixpunkt. Der Fixpunkte von K ist eindeutig. R R Beweis: Die Folge K n (µ) ist eine Cauchyfolge. Die Erwartungswerte xµ(dx) = xK(µ)(dx) = R xK n (µ)(dx) sind alle gleich. Eine Anwendung des vorhergehenden Lemmas ergibt für m ≤ n, Pn−1 d(K m (µ), K n (µ)) ≤ j=m d(K j (µ), KK j+1 (µ)) m/2 Pn−1 j/2 d(µ, K(µ)) ≤ 3 23 d(µ, K(µ)) →m 0 ≤ j=m 32 Die Cauchyfolge K n (µ) konvergiert exponentiell schnell inR d-Metrik gegen einen Grenzwert µ∞ . R Dies W-Maß hat denselben Erwartungswert xµ∞ (dx) = xµ(dx) wie das Ausgangsmaß µ. Das Grenzmaß µ∞ ist ein Fixpunkt µ = K(µ), d(µ∞ , K(µ∞ )) = d(µ∞ , K n (µ)) + d(K n (µ), K(µ∞ )) →n 0. • Eindeutigkeit R R Seien ν, ρ zwei Fixpunkte mit demselben Erwartungswert xdν = xdρ. Es gilt d(ν, ρ) = d(K(ν), K(ρ)) < d(ν, ρ). Nachdem wir den Fixpunkt kennen, bestätigen wir unsere Heuristik durch Rechnerei. Theorem 1.13.13 Die Verteilung von Qn konvergiert in der Mallows d-Metrik gegen den eindeutigen Fixpunkt µ∞ von K. Siehe [27]. Eine Konsequenz des obigen Satzes ist die Markoffabschätzung P (|An − EAn | ≥ EAn ) ≤ n2 VarAn VarQn . ≈ 2 E An 4 ln2 n Die Varianz von Qn konvergiert gegen die Varianz von Q, die sich aus der Fixpunktgleichung (1.26) berechnet, Z 1 Var(Q) = 3 C(x)2 dx = 7 − 2/3π 2 . 0 Große Abweichungen: Bemerkung: Die tatsächliche W-keit schlechten Laufverhaltens ist wesentlich kleiner, mindestens const(a) P (|An − EAn | ≥ EAn ) ≤ na für jedes a ≥ 0. Vergleich mit Heapsort: Heapsort, der größte Konkurrent von Quicksort neben Mergesort, benötigt höchstens 4n ln n Abfragen. Trotzdem ist Quicksort vorzuziehen, da Simulationen in der Regel schnellere Laufzeiten von Quicksort zeigen. Dies liegt an der einfachen rekursiven Struktur von Quicksort. Im Erwartungswert benötigt Quicksort approximativ 2n ln n Vergleiche. Dies ist das normale Laufverhalten. Wir werden zeigen, ein schlechtes Laufverhalten von Quicksort ist sehr selten. Hierbei definieren wir schlecht als mehr benötigte Abfragen als die obere Grenze 4n ln2 n von Heapsort. Ziel ist es zu zeigen, daß P (An ≥ 4n ln n) klein ist für große n. Die Tchebycheff Ungleichung liefert, ϕAn ist von der Größenordnung n2 , P (An − EAn ≥ 4n ln n) ≤ 90 const VarQn ≈ →n 0. 2 2 ln n ln2 n Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Bem: In der Praxis werden deterministische Versionen von Quicksort benutzt. (Unix benutzt den Median des ersten, mittleren und letzten Elementes der Liste.) Wenn wir eine Gleichverteilung des Inputs auf dem Raum der Permutation der Länge n annehmen, verläuft die Analyse analog. Die Verteilung von An ist νn wie vorher. Jedoch ist An (x) ein fester Zahlenwert von x abhängig. In der stochastischen Version wie oben ist An (x) eine Zg mit Verteilung νn für jeden Input x der Länge n. Multivariates Quicksort Zur Laufzeitberechnung hatten wir nur die Anzahl der Abfragen benutzt. Viele andere Rechneroperationen benötigen ebenfalls Zeit. Wir betrachten hier neben den Abfragen A die Anzahl der Vertauschungen V und die Anzahl der Wiederaufrufe W des Algorithmus. Wir erwarten eine Rekursion der Form (A(x), V (x), W (x)) = (A(l(x)), V (l(x)), W (l(x))) + (A(l(x)), V (l(x)), W (l(x))) + (n − 1, v(x), 1) für |x| ≥ 2. Hierbei bezeichne l(x) die linke Liste nach dem Vergleich und r(x) bezeichne die rechte Liste und v(x) die Anzahl der Vertauschungen vom Übergang von x zu den beiden Teillisten. Die Zgn (A(l(x)), V (l(x)), W (l(x))), (A(l(x)), V (l(x)), W (l(x))), v(x) sind unabhängig. Die Verteilung von (A, V, W ) ist dieselbe wie für (A, V , W ). Die Anfangswerte sind (A(x), V (x), W (x)) = 0 für |x| ≤ 1. Die mehrdimensionale Analyse erfolgt ähnlich [13]. 1.13.5 Algorithmus MAX: Der Algorithmus Max findet das größte Element in einer Menge. Die Eingabe sei (der einfachheit n aus n unterschiedlichen reellen Zahlen. Die Ausgabe ist die grös̈te Zahl halber) eine Liste x ∈ IR6= in dieser Liste. Nacheinander werden die Daten x1 , x2 , . . . eingelesen und das Maximum der bisherigen Daten verglichen mit der neuen Date. Wir sind interessiert an der Anzahl der neuen Rekorde. Die Date xk heißt neuer Rekord, falls xk > supi<k xi gilt. Der Wert Z(x1 , . . . , xk ) = Zk (x) sei 1, falls xk ein neuer Rekord ist und ansonsten 0. Z1 wird identisch 1 gesetzt. Die Anzahl der Rekorde ist P|x| A(x) =: i=1 Zi (x). Die rekursive Gleichung lautet A(x) = A(x− ) + Z(x). (1.28) Worst case: Aus 0 ≤ Z(x) ≤ 1 erhalten wir 0 ≤ A(x) ≤ |x| − 1. Average: Es gilt A(x) = A(R(x)) mit R der Rangvektor, A(R(x)) = A(R(x− )) + Z(R(x)). (1.29) Annahme: Der Input ist eine zufällige Permutation der Zahlen 1 bis n mit Gleichverteilung. Definiere eine Folge νn , n ∈ IN von W-mas̈en rekursiv durch den Anfangswert ν0 , ν1 das Punktmaß auf 0 und νn , n ≥ 2 wird gegeben durch die Verteilung von X + C mit X, C unabhängig und X ist νn−1 verteilt und C = Cn ist Bernoulli verteilt mit Parameter 1/n. Intuitiver D Xn = Xn−1 + Cn . Proposition 1.13.14 Die Verteilung von An : Πn → IN0 unter der Gleichverteilung auf den Permutationen ist νn . Bew: Der Beweis folgt aus einer Induktion über n. Der Induktionsanfang n = 0, 1 ist erfüllt. Für den Schluß von n − 1 auf n betrachte die Abbildung ϕn : Πn → Πn−1 × {1, 2, . . . , n} mit π 7→ (R(π − ), πn ). In Propostion 1.13.1 haben wir die Unabhängigkeit der Komponenten ϕn,1 , ϕn,2 gezeigt. 91 Uwe Rösler SS12 1.13 Sortieralgorithmen In der Rekursion 1.29 ist der erste Term auf der rechten Seite eine Funktion von ϕn,1 , der zweite eine Funktion von ϕn,2 . Damit sind sie unabhängig. Z hat die geforderte Bernoulli(1/n) Verteilung und π 7→ A(π − ) hat nach Induktionsvoraussetzung die Verteilung νn−1 . q.e.d. Pn Aus der Rekursion erhalten wir An = Z als Summe von unabhängigen Zgn mit Z i ist i=1 i Pn Ber(1/i) verteilt. Der Erwartungswert EAn ist die n-te harmonische Zahl Hn := i=1 1i ≈ ln n. Die Varianz berechnet sich zu VarAn Hn (2) n X = i=1 n X = i=1 VarZi = n X i−1 i2 i=1 = Hn − Hn (2) π2 1 ⇒ ζ(2) = . n i2 6 Mit der Tschebycheff Ungleichung erhalten wir VarAn ln n ≈ 2 . 2 cn cn P (|An − EAn | ≥ cn ) ≤ Verteilung: Proposition 1.13.15 An − EAn d A∗n = √ →n→∞ N (0, 1). VarAn 1 Beweis: PnSeien Zi , i ∈ IN , unabhängige Zgn und Zi sei Bernoulli verteilt zum Parameter pi = i . An = i=1 Zi ist die Zeilensumme von dem Schema Xn,k = Zk , k = 1, . . . , n. Dieses Schema ist unabhängig. Wir standardisieren dies und prüfen die Lindebergbedingung nach. Ln () = n X E k=1 Zk − EZk 2 √ 11| Z√k −EZk |> VarAn VarAn →n 0. Ab gewissem n gilt Ln () = 0, da Zk − EZk | ≤ 1 gilt und die Varianz von An gegen ∞ strebt. Große Abweichung: Das Tailverhalten der Verteilung ergibt sich durch Proposition 1.13.16 a P (An − EAn ≥ a) ≤ ea−(EAn +a) ln(1+ EAn ) . Beweis: Eine einfache Rechnung ergibt EeλZi = 1 + P (An − EAn ≥ a) ≤ eλ −1 i . Damit folgt n Y eλ(An −EAn ) eλ − 1 −λa −λEAn = e e ) (1 + eλa i i=1 ≤ e−λa−λEAn n Y e eλ −1 i = e−λa−λEAn +(e λ −1)EAn i=1 Dies gilt für alle λ. Der Ausdruck wird minimiert für λ mit eλ = tung. 92 a+EAn EAn . Dies ergibt die Behaupq.e.d. Elementare Wahrscheinlichkeitstheorie 1.14 SS12 Uwe Rösler Anfänge der Informationstheorie Eine Nachricht soll vom Sender zum Empfänger übermittelt werden, und dies in kurzer Zeit. Dazu wird die Nachricht zuerst kodiert, dann technisch die kodierte Nachricht übermittelt und anschließend dekodiert dem Empfänger übergeben. Sender.......¿ Kodieren...... ¿ Übermitteln.........¿ Dekodieren....... ¿ Empfänger. Durch die Kodieren läßt sich die Nachricht komprimieren und dadurch Zeit sparen. Wenn wir die Zeit messen als Länge der kodierten Nachrichten und die Nachrichten zufällig entstehen, wollen wir eine Kodierung mit der kürzesten durchschnittlichen Nachrichtenlänge. Damit verbunden ist die Frage, wie eine Information quantitativ gemessen wird. Quellenkodierung Definition 1.14.1 (Kode) Sei A eine endliche Menge, im folgenden Alphabet genannt und B eine endliche Menge, im folgenden Kodealphabet genannt. Die Elemente eines Alphabets sind die Buchstaben. Ein Kode für das Alphabet A ist eine injektive Abbildung ϕ : A 7→ B ∗ = ∪n∈IN B n des Alphabets A in die endlichen B-Folgen. Ein Kodebuchstabe ist ein Element aus dem Bild des Kodes. Ein binärer Kode ist ein Kode mit Kodealphabet {0, 1}. Erweitere einen Kode ϕ zu einer Abbildung ϕ∗ : A∗ → B ∗ via ϕ∗ ((a1 , . . . , an )) = ϕ(a1 )ϕ(a2 ) . . . ϕ(an ). Definition 1.14.2 Eine kodierte Nachricht ist eine Folge ϕ(a1 )ϕ(a2 ) . . . ϕ(an ) von Kodebuchstaben. (Es wäre natürlich, für kodierte Nachricht auch Kodewort zu benutzten. Leider hat Kodewort bereits in deutscher Sprache den Sinn eines Kodeschlüssels.) Definition 1.14.3 Ein Kode heißt Folgenkode, falls die Erweiterung ϕ : A∗ → B ∗ ein Kode ist. Bsp: Kein Folgenkode Sei a kodiert durch 1 und b durch 11. Dies ist ein binärer Kode, aber kein Folgenkode. Die kodierte Nachricht 111 kann von ab oder von ba herrühren. Wären die Kodebuchstaben voneinander getrennt, so kann aus der Injektivität des Kodes die Buchstabenfolge entschlüsselt werden. Definition 1.14.4 Ein präfixfreier Kode ist ein Kode, sodaß kein Kodebuchstabe ein Anfangsstück eines anderen Kodebuchstabens ist. Formal, sei v = (v1 , v2 , . . . , vm ) ∈ Am und w = (v1 , v2 , . . . , vn ) ∈ An . v ist Anfangsstück von w falls m ≤ n gilt und v = w|m := (w − 1, . . . , wm ). Die Länge von v ∈ Am ist m. Not: |v| = m. Die Länge eines Kodebuchstabens oder einer kodierten Nachricht ist analog die Anzahl der Nullen und Einsen. Die präfixfreie Eigenschaft garantiert eine kodierte Nachricht, bestehend aus einem String von kodierten Buchstaben, von links nach rechts sukzessive dekodieren zu können. Im Beispiel oben führe formal die Trennung als neues Zeichen ein. Dann erhalten wir einen präfixfreien Kode. Betrachten wir einen binären Kodebaum: 93 Uwe Rösler SS12 ) u 0 Q Q Q Q + s Qu01 u 00 A A A A Uu A u AUu u 1.14 u PPP Anfänge der Informationstheorie PP PP PP qu1 @ @ Ru @ u A A A A AUu u AUu u Die Knoten tragen die natürliche Indizierung durch diejenige 0-1 Folge, die dem Pfad zur Wurzel entspricht. Eine Abzweigung nach links entspricht der 0 und eine nach rechts einer 1. Auf dem Raum der Knoten betrachten wir die genealogische Ordnung v g w mit v ist Anfangstück von w. Jeder kodierte Buchstabe entspricht einem Knoten und jeder Knoten repräsentiert maximal einen Buchstaben untr dem Kode. Präfixfrei bedeutet, auf jedem Pfad von der Wurzel ∅ startend bis nach ∞ gibt es maximal einen kodierten Buchstaben. Anders formuliert, die Kodebuchstaben liegen auf den Blättern des Baumes T = {v ∈ IN ∗ | v g w für ein Kodewort w}. Die Knoten 00, 01, 1 z.B. könnten als Kodierungsbuchstaben eines präfixfreien Kodes dienen. Jeder präfixfreie Kode ist ein Folgenkode. Lemma 1.14.5 (Kraft) Die Kodebuchstabenlängen eines binären präfixfreien Kodes ϕ erfüllen X 2−|ϕ(b)| ≤ 1. (1.30) b∈B P Umgekehrt, geben wir natürliche Zahlen la für jeden Buchstaben a ∈ A vor und gilt a∈A 2−la ≤ 1, dann gibt es einen binären präfixfreien Kode ψ mit Kodebuchstabenlängen |ψ(a)| gleich den vorgegeben Zahlen la . Beweis: Wir beweisen das Lemma von Kraft durch Induktion nach der Alphabetlänge |A| = n. • Kraftungleichung Für den Induktionsschritt zu (1.30) n → n + 1 seien A0 bzw. A1 die Menge aller Buchstaben a, deren Kodierung ϕ(a) mit 0 bzw. 1 beginnt. Definiere die binären Präfixkodes ψ0 für A0 und ψ1 für A1 durch (i, ψi (a)) = ϕ(a), i ∈ {0, 1}, a ∈ A, entstanden durch Weglassen der ersten Koordinate. Sind A0 und A1 beide nicht leer, so folgt nach Induktionsvoraussetzung X X X 2−|ϕ(a)| = 2−|ψ0 (a)|−1 + 2−|ψ1 (a)|−1 ≤ 1. a∈A a∈A0 a∈A1 Sind A0 oder A1 leer, so wiederhole den Aufteilungsschritt. • Umkehrung Pi Ordne la , a ∈ A, der Größe nach, etwa la1 ≤ la2 ≤ . . . ≤ lan+1 . Definiere i0 = sup{i | j=1 2−laj ≤ 1/2} und A0 := {aj ∈ A | j ≤ i0 } und A1 = A\A0 . Es gilt X 2−la ≤ 1/2 und a∈A0 X 2−la ≤ 1/2. a∈A1 (Übung.) Sind A0 und A1 nicht P leer, so gibt es nach Induktionsvoraussetzung binäre präfixfreie Kodes ψi für Ai , i = 0, 1 mit a∈Ai 2−ψi (a) ≤ 1/2. Der zusammengesetzte Kode ϕ mit ϕ(a) := (i, ψi (a)) für a ∈ Ai tuts. Sind A0 oder A1 leer, so wiederhole den Aufteilungsschritt. q.e.d. 94 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Definition 1.14.6 (Entropie) Die Entropie I(µ) eines W-maßes µ auf A ist der Wert I(µ) := X µ(a) log2 a∈A 1 . µ(a) Wir benutzen die stetige Erweiterung von x 7→ x log2 x1 in x = 0 und ∞. Definiere die Entropie einer Zg X als Entropie der Verteilung der Zg. Anstelle des Logarithmus zur Basis 2 könnten wir auch andere Basen wählen. Dies entspricht einer Multiplikation der (binären) Entropie durch ein Konstante. Proposition 1.14.7 Für W-maße auf endlichem Alphabet A gilt 0 ≤ I(µ) ≤ ln2 |B|. Die untere Grenze wird angenommen durch ein Punktmaß, die obere durch die Gleichverteilung. Beweis: X 0 ≤ I(µ) = µ(a) log2 a∈A 1 µ(a) Jensen ≤ log2 ( X µ(a) a∈A Der zweite Teil der Behauptung wird nachgerechnet. 1 ) = ln2 |A|. µ(a) q.e.d. Satz 1.14.8 (Quellenkodierung) Sei X eine Zg auf A. Die erwartete Länge jeden binären präfixfreien Kodes ϕ ist nach unten beschränkt durch die Entropie von X, I(X) ≤ E|ϕ(X)|. Weiterhin gibt es stets einen binären Präfixkode ψ mit erwarteter Kodelänge unter X beschränkt durch die Entropie plus 1, E|ψ(X)| < I(X) + 1. Beweis: (i) Sei µ(a) := P (X = a). Mit der Jensen und Kraft Ungleichung folgt I(X) − E|ϕ(X)| = X (log2 a X Jensen 2−|ϕ(a)| 2−|ϕ(a)| )µ(a) ≤ log2 ( µ(a) ) ≤ log2 1 = 0. µ(a) µ(a) a (ii) Definiere natürliche Zahlen la durch 2−la ≤ µ(a) < 2−la +1 . P P Wegen a 2−la ≤ a µ(a) = 1 existiert nach dem Lemma von Kraft ein binärer präfixfreier Kode ψ mit diesen Kodewortlängen |ψ(a)| = la . Dieser tut’s: X X E|ψ(X)| = µ(a)la < µ(a)(− log2 µ(a) + 1) = I(X) + 1 a a . q.e.d. Zurück zur Zielsetzung der Kodierung. Wir wollen eine zufällige Nachricht der Buchstabenlänge n schnell übermitteln. Den Zufall der Nachricht modellieren wir durch iid Zgn X1 , . . . , Xn mit bekannter Verteilung µ. Die Länge der kodierten Nachricht ist ∗ |ϕ ((X1 , . . . , Xn ))| = n Y |ϕ(Xi )|. i=1 Im Erwartungswert ist dies |ϕ∗ ((X1 , . . . , Xn ))| = E n |ϕ(X1 )|. 95 Uwe Rösler SS12 1.14 Anfänge der Informationstheorie Dies soll möglichst klein werden. Wieviel Zeit (=Zeichen) benötigt die typische Nachricht? Nach dem GGZ konvergiert n Y 1 ln |ϕ∗ ((X1 , . . . , Xn ))| →n E|ϕ(X1 )| = |ϕ(Xi )| n i=1 gegen den Erwartungswert und, standardnormiert, gegen die Normalverteilung, ln |ϕ∗ ((X1 , . . . , Xn ))| − nE|ϕ(X1 )| d p →n N (0, 1). nVar ln ϕ(X1 ) Sortieralgorithmen: Für einen Sortieralgorithmus wollen wir nur die Zahl der benötigten Vergleiche zur Sortierung betrachten. Alle anderen Operationen, die auch Zeit benötigen, wollen wir vernachlässigen. Wir interpretieren den Sortieralgorithmus als eine Folge von genauen, fest vorgegebenen Vorschriften, jeweils zwei genau bezeichnete Elemente der vorliegenden Liste in Abhängigkeit vorhergehender Vergleichsergebnisse auszuwählen und zu vergleichen. Das Ergebnis dieser Vergleiche speichern wir in zeitlicher Reihenfolge als eine 0 − 1 Folge gewisser Länge ab. Der Vergleichsprozeß ist beendet, wenn wir an Hand der Vergleiche sicher die Liste ordnen können bzw. geordnet haben. Betrachten wir nun nur Listen vorgegebener Länge n, interpretiert als Buchstaben des Alphabets. Da es nicht auf die Absolutgröße der Elemente ankommt, sondern nur die relative, interpretieren wir jede Liste als eine Permutation der Zahlen 1, . . . , n. Die Ausführung des Sortieralgorithmus entspricht einer Kodierung unserer Listen. Vom gegebenen Kode, (einschließlich der Angabe, welche Elemente verglichen wurden, bei deterministischen Algorithmen ist die Angabe einfach, bei stochastischen wie Quicksort müssen wir den Zufall als bekannt vorgeben, können wir eindeutig die Ausgangsliste rekonstruieren. Dieser Kode ist ein Präfixkode, da wir an Hand der durchgeführten Vergleiche genau wissen, wann die Liste geordnet ist (werden kann). Mathematisches Modell: Sei Πn die Menge aller Permutationen π auf 1, ..., n und P ein W-maß darauf. Der Quellenkodierungssatz liefert für jeden binären Präfixkode I(P ) ≤ E|ϕ|. Allgemein gilt I(P ) ≤ I(Gleichverteilung) = log2 n!. Der schlechteste Fall ist die Gleichverteilung, was mit der Intuition übereinstimmt. Lemma 1.14.9 Die erwartete Anzahl der Abfragen für jeden Sortieralgorithmus, um eine zufällige Liste der Länge n zu sortieren, ist für die Gleichverteilung des Inputs mindestens log2 n!. Beweis: Jeder Sortieralgorithmus entspricht einem binärem Präfixkode. Der Quellenkodierungssatz liefert das Resultat. q.e.d. Der “beste” bekannte Sortieralgorithmus ist Mergesort. Wir erhalten mit der Stirlingschen Formel ln n! = n ln n − n + o(n) und genauer als globale untere Schranke √ ln2 e . log2 n! ≥ n log2 n − n log2 e + log 2πn + 12n + 1 Sortierspiel: Wir betrachten “sortieren” jetzt als Spiel zweier Kontrahenten. Sei n (der Einfachheit halber) fest. (i) Der Spieler I wählt verdeckt den Sortieralgorithmus A. (ii) Der Spieler II wählt verdeckt eine Permutation π ∈ Πn (entspricht einer Liste). 96 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler (iii) Die Werte A und π werden aufgedeckt und die Anzahl der Vergleiche A(π) des Algorithmus zur Sortierung ermittelt. (iv) Der Spieler I zahlt an Spieler II den Betrag A(π) − C. C ist ein vorher vereinbarter Betrag. Der Spieler I wählt den Algorithmus nach einer Verteilung µ und der Spieler II wählt die Permutation (=zu sortierende Liste) nach einer Verteilung ν. Die durchschnittliche Auszahlung beträgt dann X EA(π) = µ(A)ν(π)A(π) =:< µ, ν > . A,π Spieler I möchte die Anzahl der Abfragen möglichst klein machen, Spieler II möglichst groß. Dies sind gegensätzliche Ziele. Spieler I kann aus eigener Kraft mindestens inf sup < µ, ν > µ ν sicherstellen für jede Wahl des Spielers II tut. Spieler II kann mindestens (aus eigener Kraft) [sup inf < µ, ν > ν µ sicherstellen, unabhängig von der Wahl des Spielers I. Ohne Beweis sei angeführt: inf sup < µ, ν >= sup inf < µ, ν >=: V. µ ν ν µ Der Wert V heißt der Spielwert des Spiels. Wird als Grundgröße C der Spielwert V gewählt, so ist das Spiel fair, d.h. im Erwartungswert ist kein Spieler bevorteilt oder benachteiligt. Obiges Lemma 1.14.9 gibt eine untere Schranke für V , I(Gleichverteilung) = log2 n! ≤ V. Obere Schranken ergeben sich durch die bekannten Sortieralgorithmen, z.B. Mergesort. Bessere Schranken sind mir nicht bekannt und auch der Spielwert V ist unbekannt. Spielstrategien: Die optimale Strategie für Spieler II besteht in zufälliger Wahl der Permutation mit Gleichverteilung. Intuitiv ist dies naheliegend, da dann Spieler I am wenigsten Information (=maximale Entropie) für die Wahl seines Algorithmus hat. Mathematisch formal folgt dies folgendermaßen: (ii) Spieler II will ein ν finden, welches inf µ < µ, ν > maximiert. Sei e ∈ Πn eine P Permutation und νe das W-maß auf den Permutationen mit νe (π) := ν(e◦π). 1 Sei ν = n! e∈Πn νe . Für einen Algorithmus A sei Ae derjenige Algorithmus mit Ae (π) = A(e ◦ π). Analog verwenden wir µe mit µe (Ae ) = µ(A). Beachte < µ, ν >= X A(π)µ(A)ν(π) = π∈Πn X eπ∈Πn für alle e ∈ Π. • inf µ < µ, ν >≤ inf µ |µ, ν > 97 A(eπ)µ(A)ν(eπ) =< µe , νe > Uwe Rösler SS12 1.14 Anfänge der Informationstheorie inf < µ, ν > ≤ inf inf < µe , ν >= inf inf < µ, νe−1 > µ µ e∈Πn µ e∈Πn 1 X ≤ inf < µ, νe > µ n! e∈Πn = inf < µ, ν > µ Anstelle von ν kann Spieler II daher oEdA die Gleichverteilung ν wählen. Anders fomuliert, Spieler II sollte die Daten vorher gut mischen. (i) Nun zur Sicht des Spielers I. Er sollte, ganz analog zu obigem aus Symmetriegründen, nur P 1 µ Mittelungen µ = n! e∈Πn e wählen. Spieler I kann dies intern durch einen Zufall im Algorithmus verwirklichen. (Siehe auch Quicksort.) Die einfachste Vorstellung ist allerdings ein Algorithmus, der zuerst die eingegebenen Daten gut mischt bevor er sortiert. (Dazu sind keine Abfragen notwendig.) Damit erreicht der Spieler, daß die Laufzeit auch für eine deterministischen Algorithmus unabhängig von der Originalliste ist. Intuitiv ist dies gut nach dem Spielprinzip, dem Gegner möglichst wenig Einflußnahme auf das Spiel zu belassen. Mathematisch formal argumentiere (analog wie oben). 98 Elementare Wahrscheinlichkeitstheorie SS12 Uwe Rösler Literaturverzeichnis [1] R. Arratia, L. Goldstein and L. Gordon, Poisson approximation and the Chen-Stein method. Stat. Sci. 5, 403-434 (1990) [2] H. Bauer Wahrscheinlichkeitstheorie und Grundzüge der Maßtheorie. de Gruyter 1968. [3] K. Behnen und G. Neuhaus Grundkurs Stochastik. Teubner 1984. [4] A.D. Barbour, L Holst and S. Janson, Poisson Approximation, Oxford University Press, Oxford, 1992. [5] H. Dinges und H. Rost Prinzipien der Stochastik. Teubner 1982. [6] M. Greiner und G. Tinhofer Stochastik für Studienanfänger der Informatik. Hanser 1996. [7] W. Feller An introduction to probability theory and its applications. Wiley 1957. [8] M. Fisz Wahrscheinlichkeitsrechung und mathematische Statistik. VEB Deutscher Verlag der Wissenschaften 1980. [9] N. Henze Stochastik für Einsteiger. Vieweg 1997. [10] K. Jacobs Discrete Stochastics. Birkhäuser 1992. [11] U. Krengel Einführung in die Wahrscheinlichkeitstheorie und Statistik. de Gruyter 1985. [12] R. Mathar und D. Pfeifer Stochastik für Informatiker. Teubner 1990. [13] Ralph Neininger A survey of multivariate aspects of the contraction method. Discrete Mathematics and Theoretical Computer Science. DMTCS vol 8, 31-56, 2006. [14] J. Pfanzagl Elemtare Wahrscheinlichkeitsrechung. de Gruyter 1988. [15] Jens Schimmer Stochastische Analyse des Mergesort-Algorithmus. Diplomarbeit Mathematisches Seminar zu Kiel, 1997. [16] K. Schürger Wahrscheinlichkeitstheorie. Oldenbourg Verlag, 1998. [17] M. Abramowitz und A. Stegum Handbook of Mathematical Functions. Applied Mathematical Studies 55, National Bureau of Standards, U.S. Government printing office, fourth edition. [18] P.J. Bickel und D.A. Freedman Some asymptotic theory for the bootstrap. Ann. Prob. 9, 1196-1217, 1981. [19] M. Cramer, Stochastic analysis of the Merge-Sort algorithm. Random Structure and Algorithms, 11 (1997), 81-96. [20] B.W. Gnedenko und A.N. Kolmogorov Grenzverteilungen von Summen unabhängiger Zufallsgrößen. Akademie-Verlag Berlin 1959. 99 Uwe Rösler SS12 1.14 Anfänge der Informationstheorie [21] Grübel,R. und Rösler,U. Asymptotic distribution theory for Hoare’s selection algorithm. Advances in Applied Probability 28 (1996) 252-269. [22] Hahn-Rosenthal SET FUCTIONS 1948 chap IV,§16 ................................. [23] Halmos, P.R. Measure Theory. van Nostrand 1950. [24] C.A.R. Hoare, Quicksort. Comp. J., 5 (1962), 10-15. [25] D.E. Knuth The art of computer programming, Vol.3: Sorting and searching. Reading M.A., Addison-Wesley 1973. [26] V.V. Petrov Sums of independent random variables. Springer Verlag 1975. [27] Rösler, U. A limit theorem for ”Quicksort”. Informatique théorique et Applications / Theoretical Informatics and Applications 25 (1991), 85-100. [28] Rösler, U. A fixed point theorem for distributions. Stochastic Processes and their Applications 37 (1992), 195-214. [29] Jens Schimmler Stochastische Analyse des Mergesort-Algorithmus. Diplomarbeit Kiel 1997. [30] Sozanov, V.V. Normal Approximation - some recent advances. Lecture Notes in Mathematics 879, (1981), Berlin. [31] E.T. Whittaker und G.N. Watson A Course of Modern Ananlysis. Cambridge University Press, fourth edition, 1927. 100