Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Kapitel 1 Konzepte und diskrete Wahrscheinlichkeitstheorie 1.1 Einführung und Motivation Wahrscheinlichkeiten werden im täglichen Sprachgebrauch verwendet und intuitiv verstanden. Hieraus entwickeln wir dann in mehreren Schritten das gängige Konzept der Wahrscheinlichkeitstheorie, die Axiomatik von Kolmogoroff. 1.1.1 Laplaceräume Beispiel 1.1.1 Wir würfeln einen normalen Würfel. Die Ergebnisse sind eine Zahl aus 1 bis 6. Die Wahrscheinlichkeit (W-keit), dass die Zahl 6 erscheint ist 61 . Aus Symmetriegründen ist die Wahrscheinlichkeit für das Erscheinen der Zahl 1 genauso gross. Für jede Zahl i von 1 bis 6 gilt: Wahr(Die Zahl i erscheint) = 1 . 6 Die Wahrscheinlichkeit (W-keit) für das Würfeln einer geraden Zahl ist Wahr(Eine gerade Zahl erscheint) = Wahr(2) + Wahr(4) + Wahr(6) = 1 . 2 Ebenso lassen sich andere W-keiten für Teilmengen A der Ergebnismenge {1, 2, . . . , 6} leicht berechnen, 1 Wahr(A) = |A|. 6 Würfeln ist ein einfaches Beispiel eines Zufallsexperiments. Die Ergebnisse heis̈en auch Realisierungen des Zufallsexperiments. Der Raum aller Realisierungen heis̈t Stichprobenraum und wird konventionell mit Ω bezeichnet. Ein Element ω des Stichprobenraumes heißt Realisierung oder Stichprobe. Die Potenzmenge Pot(Ω) des Stichprobenraumes heis̈t Ereignisraum, eine Teilmenge des Stichprobenraumes Ereignis. Ein Wahrscheinlichkeitsmas̈ (W-mas̈) ordnet jedem Ereignis einen Wert aus dem Einheitsintervall [0, 1] zu. Konventionell wird diese Abbildung P : Pot(Ω) → [0, 1] mit P als Abkürzung fürs englische probability bezeichnet. Definition 1.1.2 (Laplaceraum) Ein Laplaceraum ist ein Tupel (Ω, P ). Hierbei ist Ω eine nichtleeren endliche Menge und P die Abbildung auf der Potenzmenge Pot(Ω) ins Einheitsinvall gegeben durch |A| P (A) = . |Ω| 1 Uwe Rösler Merkregel: die SS98 1.1 Einführung und Motivation Einprägsamer ausgedrückt: für Laplaceräume ist die Wahrscheinlichkeit eines Ereignisses Anzahl der günstigen geteilt durch die Anzahl der möglichen Fälle. Jedes Elementarereignis {ω} hat die W-keit W-keit eines Ereignisses berechnet sich zu 1 |Ω| . P (A) = Elementarereignisse haben die gleiche W-keit. Die X P ({ω}). ω∈Ω Die Bestimmung von W-keiten reduziert sich zu reinem abzählen. Beispiel 1.1.3 (Lotto) Aus 49 durchlaufend numerierten Kugeln werden 6 Kugeln zufällig gezogen. Ein Ergebnis ist die Menge der sechs gezogenen zahlen, üblicherweise geschrieben als 6-Tupel (x1 , . . . , x6 ) mit 1 ≤ x1 < x2 < . . . < x6 ≤ 49. Dies sind die Stichproben. Jede Stichprobe hat dieselbe W-keit. (Dazu stelle man sich die Kugeln umnummeriert vor. Die Umnummerierung hat keinen Einflus̈ auf das Ziehen der Kugeln. Daher sollte mögliche Zahlenkombination dieselbe Wkeit besitzen.) Wir haben einen Laplaceraum vorliegen. Die W-keit 6 richtige mit dem Tip y zu haben ist 1 1 1 = ¡49¢ = P ({y}) = |Ω| 13.983.816 6 Lemma 1.1.4 Eine n-elementige Menge hat n k k-elementige Teilmengen. ¡ ¢ n! Notation nk := k!(n−k)! = n(n−1)(n−2)...(n−k+1) wird n über k gelesen. Das Symbol n! = n(n − k(k−1)...1 1)(n − 2) . . . 1 wird n-Fakultät ¡ ¢ gelesen. Konvention 0! = 1 und n0 = 1 Beispiel 1.1.5 Wir betrachten n-maliges Würfeln eines Würfels. Eine Realisierung wird durch ein Element ω = (ω1 , . . . , ωn ) aus {1, 2, . . . , 6}n beschrieben. Jede Realisierung sollte gleichwahrscheinlich sein. Es ergibt sich der Laplaceraum (Ω = {1, . . . , 6}n , P ). Auch auf Laplaceräumen gibt es interessante Zufallsgrös̈en. Sei z.B. X(ω) = |{i ≤ n | ωi = 1}| die Anzahl der aufgetretenen Einsen. Dann hat X eine Binomialverteilung Bin(n, 1/6), d.h. |{ω | X(ω) = k}| P ({ω | X(ω) = k}) = = 6n 1.1.2 µ ¶ µ ¶k µ ¶n−k n 5 1 . 6 6 k Diskrete Wahrscheinlichkeitsräume Laplaceräume sind die einfachsten Wahrscheinlichkeitsräume. Unser nächstes Beispiel zeigt einen W-Raum, der kein Laplaceraum ist. Beispiel 1.1.6 Wir werfen eine Münze solange bis Adler erscheint. Das Ergebnis dieses Zufallsexperiments sei die Anzahl der Würfe. Der Stichprobenraum sind die natürlichen Zahlen IN. Die W-keit für einmaliges werfen ist 12 , für zweimaliges werfen 14 für dreimaliges 18 usw P ({n}) = 2−n . Die W-keit eines Ereignisses A berechnet sich zu P (A) = X ω∈A 2 P ({ω}). Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Definition 1.1.7 (Diskreter Wahrscheinlichkeitsraum) Ein diskreter W-raum ist ein Tupel (Ω, P ). Hierbei ist Ω eine endliche oder abzählbare nichtleere Menge und die Abbildung P : Pot(Ω) → [0, 1] erfüllt die Eigenschaften X P ({ω}) ∀A ⊂ Ω P (A) = ω∈A P (Ω) = 1. Proposition 1.1.8 Sei Ω eine endliche oder abzählbare nichtleere PMenge. Es gibt eine Bijektion zwischen W-mas̈en P auf Ω und positiven Funktionen f auf Ω mit ω∈Ω f (ω) = 1. Diese Bijektion kann durch P ({ω}) = f (ω) gegeben werden. Der Beweis ist einfach. W-mas̈e eines diskreten W-raumes werden eindeutig beschrieben durch die Dichtefunktion f. Ist ω1 , ω2 , . . . eine Aufzählung von Ω, so spricht man auch von dem Wahrscheinlichkeitsvektor (f (ω1 ), f (ω2 ), . . .). Die Wahrscheinlichkeit eines Ereignisses A berechnet sich zu X P (A) = f (ω). ω∈A Die Dichtefunktion f kann den Wert 0 annehmen. Beispiel 1.1.9 (Ereignisraum eines rot-grün Blinden) Wir würfeln zwei ununterscheidbare Würfel gleichzeitig. Als Ergebnis dieses Experiments erhalten wir ein Tupel (i, j), i ≤ j der gewürfelten Zahlen. Das Tupel haben wir der Grös̈e nach geordnet, die kleinere Zahl steht zuerst. Da die Würfel ununterscheidbar sind, können wir die Zahlen nicht einem Würfel zuordnen. Das W-mas̈ P auf dem Stichprobenraum beschreiben wir durch die Dichtefunktion f ½ 1 f alls i = j 36 f (i, j) = 2 f alls i < j 36 Wie haben wir die W-keiten gefunden? Betrachten wir dazu das Experiment des würfelns mit zwei unterscheidbaren Würfeln, z.B. roter und grüner Würfel. Als Ergebnis notieren wir das Tupel (i, j), i das Ergebnis des roten Würfel und j des grünen. Sei (Ω, P ) der zu diesem Experiment gehörige Laplaceraum. Ein rot-grün blinder Mensch kann die Würfel nicht unterscheiden und notiert die gewürfelten Zahlen als Tupel (i, j), i ≤ j der Grös̈e nach geordnet. Der Farbblinde benutzt den diskreten Wraum (Ω0 , P 0 ) aus Beispiel 1.1.9. Jedem beobachtbaren Ereignis des Farbblinden ordnen wir ein entsprechenden Ereignis mit unterscheidbaren Würfeln zu. Dazu betrachten wir die Abbildung X : Ω → Ω0 Ω 3 (i, j) 7→ X(i, j) = (min i, j, max i, j) ∈ Ω0 . Diese Abbildung ist wohldefiniert und surjektiv. Ein Ereignis A0 des Farbblinden entspricht dem Ereignis X −1 (A0 ) des Normalsichtigen. Daher definiert P 0 (A0 ) := P (X −1 (A0 )) das richtige W-mas̈ P 0 für den Farbblinden. P 0 heis̈t auch transportiertes Mas̈s. Bemerkung: Im obigen Beispiel haben wir eine Äquivalenzrelation auf Ω gebildet (ω ∼ ω ↔ X(ω) = X(ω)) und Ω0 entspricht den Äquivalenzklassen. Auf Ω selbst bezogen hat der Farbblinde einen echt kleineren Ereignisraum (X −1 (Pot(Ω0 )) als der Normalsichtige. 3 Uwe Rösler 1.1.3 SS98 1.1 Einführung und Motivation Kolmogoroff Axiomatik Wir kommen jetzt zum allgemeinen Konzept der Wahrscheinlichkeitstheorie. Das Beispiel des Farbblinden zeigt bereits die Notwendigkeit kleinere Ereignisräume als die volle Potenzmenge zuzulassen. Wir benötigen strukturelle Forderungen an die Ereignisraum, wie z.B. die Vereinigung von Ereignissen ist ein Ereignis. Die folgende Axiomatik von Kolmogoroff hat sich als sehr erfolgreich erwiesen. Definition 1.1.10 Ein Wahrscheinlichkeitsraum ist ein Tupel (Ω, A, P ). Der Stichprobenraum Ω ist eine nichtleere Menge, der Ereignisraum A ⊂ Pot(Ω) ist eine σ-Algebra und P : A → [0, 1] ist ein Wahrscheinlichkeitsmas̈. Definition 1.1.11 Eine σ-Algebra A über einer Menge Ω ist eine Teilmenge der Potenzmenge von Ω mit den folgenden Eigenschaften i) A ist nicht leer. ii) A ist komplementabgeschlossen. iii) A ist abgeschlossen bzgl. abzählbarer Vereinigung. In mathematischerer Schreibweise i) A 6= ∅ ii) ∀ A ∈ A : Ac ∈ A iii) ∀ An ∈ A, n ∈ IN : ∪n∈IN An ∈ A Ein mes̈barer Raum (Ω, A) besteht aus einer nicht leeren Menge Ω und einer σ-Algebra darüber. Bemerkung: Die Forderung A nicht leer können wir durch A enthält die leere Menge ersetzen. Not. R := IR ∪ {−∞, ∞} bezeichne die erweiterten reellen Zahlen. Definition 1.1.12 Ein Mas̈ auf einem mes̈baren Raum (Ω, A) ist eine Abbildung µ : A → R mit folgenden Eigenschaften i) µ(∅) = 0 ii) µ(A) S ≥ 0 für jedes P Element A der σ-Algebra A iii) µ( ◦ n∈IN An ) = n∈IN µ(An ) für jede paarweise disjunkte Folge An , n ∈ IN aus A. S Not: Das Symbol ◦ i Ai steht für die Vereinigung paarweiser disjunkter Mengen Ai , i aus einer Indexmenge. Definition 1.1.13 Ein Wahrscheinlichkeitsmas̈(W-mas̈) ist ein Mas̈ µ mit der zusätzlichen Normierung µ(Ω) = 1. Kon W-mas̈e werden üblicherweise mit P bezeichnet. Definition 1.1.14 Ein Mas̈raum ist ein Tupel (Ω, A, µ) bestehend aus einem mes̈baren Raum (Ω, A) und einem Mas̈ µ darauf. Ein W-raum ist ein Mas̈raum (Ω, A, P ) mit einem W-mas̈ P. Beispiele: Laplaceräume und diskrete W-rüame sind W-räume. Jeder W-raum mit endlichem Stichprobenraum Ω, der Potenzmenge als σ-Algebra und gleicher W-keit aller Stichproben ist ein Laplaceraum. Jeder W-raum mit höchstens abzählbarem Stichprobenraum Ω und der Potenzmenge als σ-Algebra ist ein diskreter W-raum. 1.1.4 Zufallsgrös̈en: W-Räume sind die neuen Objekte, die wir betrachten wollen. Zu einer tieferen Theorie benötigen wir strukturerhaltende Abbildungen zwischen W-räumen. Definition 1.1.15 Eine Abbildung X von einem mes̈baren Raum (Ω, A) in einen anderen mes̈baren Raum (Ω0 , A0 ) heis̈t mes̈bar, falls X −1 (A0 ) ∈ A für jedes Ereignis A0 ∈ A0 . Eine Zufallsgrös̈e (Zg) ist eine mes̈bare Abbildung X : Ω → Ω0 . 4 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Not Zgn werden mit gros̈en Buchstaben gekennzeichnet, X, Y, Z. Realisierungen werden vorzugsweise mit kleinen Buchstaben bezeichnet. Bemerkung Den Begriff Mes̈barkeit benötigen wir nur, falls wir Ereignisräume betrachten, die kleiner als die Potenzmenge sind. Im Setting diskreter W-räume ist jede Funktion bereits mes̈bar. 1.1.5 Transportierte Maße Proposition 1.1.16 Sei X : Ω → Ω0 eine Abbildung von einem Mas̈raum (Ω, A, µ) in einen mes̈baren Raum (Ω0 , A0 ). Dann ist die Abbildung µ0 : A0 → IR µ0 (A0 ) := µ(X −1 (A0 )) ein Mas̈. Beweis: Nachrechnen der Eigenschaften. (Übung) Definition 1.1.17 Das Mas̈ µ0 wie oben heis̈t transportiertes Mas̈. Ist X eine Zg und µ ein W-mas̈, so heis̈t µ0 die Verteilung von X. Not Folgende Notationen sind gebräuchlich, µX , µX und µX −1 . Ich benutze vorzugsweise P X für die Vereteilung von X. Not Das ω wird gerne unterdrückt. Wir schreiben X ∈ A0 für das Ereignis {ω ∈ Ω | X(ω) ∈ A} = X −1 (A0 ). Typisch ist P (X ∈ A0 ) anstelle P ({ω ∈ Ω | X(ω) ∈ A}). Not Mengenklammern werden gerne unterdrückt. Wir schreiben z.B. P (ω) anstelle von P ({ω}). 1.1.6 Verteilungen Konvention: Im folgenden betrachten wir nur diskrete W-räume mit der Potenzmenge als Ereignisraum. Einige W-räume, mehr noch die zugehörigen W-maße, auch Verteilungen genannt, sind besonders wichtig. • Bernoulliverteilung: Dies ist ein diskretes W-maß P auf dem Stichprobenraum {0, 1} mit P (1) = p und q := P (0) = 1 − p. Das Standardbeispiel ist der Münzwurf. Das Ergebnis des Münzwurfs ist 1 (für Kopf) mit Wahrsch. p und 0 (für Zahl) mit Wahrsch. q. • Binomialverteilung: Die Binomialverteilung Bin(n, p) zum Parameter (n, p), 0 ≤ n, 0 ≤ p ≤ 1, ist ein W-Maß P auf dem Stichprobenraum Ω = {0, . . . , n} mit µ ¶ n k P ({k}) = p (1 − p)n−k . k Werfen wir n mal eine gefälschte Münze, p sei die Wahrsch. für Kopf (1), so ist die Gesamtanzahl S der Kopfwürfe P ({ω | S(ω) = k}) = P ({k}) binomialverteilt Bin(n, p). • Geometrische Verteilung: Die geometrische Verteilung Geo(p) zum Parameter p ∈ [0, 1) ist ein W-Maß P auf den natürlichen Zahlen als Stichprobenraum mit P ({k}) = (1 − p)pk−1 . Wir werfen eine gefälschte Münze, p sei die Wahrsch. für Kopf (= 1). Sei X die Anzahl der Kopfwürfe vor dem ersten Zahlwurf. Das Ereignis,der k-te Wurf ist der erste Zahlwurf, hat die Wahrsch. P ({ω | X(ω) = k}) = (1 − p)pk−1 . • Poissonverteilung: Die Poissonverteilung Poi(λ) zum Parameter λ ∈ (0, ∞) ist ein W-Maß P auf dem Stichprobenraum ZZ + mit P ({k}) = exp(−λ)λk /k!. Beachte P k P ({k}) = 1 wegen der Taylor Entwicklung exp(x) = 5 P∞ xn n=0 n! . Uwe Rösler SS98 1.1 Einführung und Motivation • Negative Binomialverteilung: Die negative Binomialverteilung zum Parameter (n, p), n ∈ IN, 0 ≤ p < 1, ist ein W-Maß P auf dem Stichprobenraum IN0 mit ¶ µ k+n−1 n k q p , P ({k}) = k P P ¡k+n−1¢ k 1 q = 1 − p. Beachte k P ({k}) = 1 wegen der Taylor Entwicklung (1−x) x . n = k k 6 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 1.2 SS98 Kombinatorische Wahrscheinlichkeitstheorie Uwe Rösler In diesem Abschnitt betrachten wir nur endlichen Stichprobenräume versehen mit der Potenzmenge als σ-Algebra. Das Wahrscheinlichkeitsmaß P schreibt sich als additive Funktion, X P ({ω}). P (A) = ω∈A Notation: P (ω) = P ({ω}). Durch gute Wahl des w-theoretischen Modells reduzieren sich viele W-theoretische Argumente auf Kombinatorik und geschicktes Abzählen. Die Betonung liegt auf geschicktes, denn eine häufige Schwierigkeit ist die Wahl der “richtigen” Anschauung und Darstellung des Stichprobenraumes. Mit der richtigen Betrachtungsweise wird das Abzählen meist einfach. Besonders geeignete Kandidaten sind die Laplaceräume, da die W-keiten sich als Quotient erweisen, Anzahl der günstigen geteilt durch die Anzahl der möglichen Fälle. 1.2.1 Laplaceraum Definition 1.2.1 Ein Laplaceraum ist eine endliche Menge Ω versehen mit der Potenzmenge als σ-Algebra und dem W-maß |A| P (A) = |Ω| auf den Ereignissen. Proposition 1.2.2 Ein W-raum (Ω, P(Ω), P ) mit endlichem Stichprobenraum ist genau dann ein Laplaceraum, wenn alle Stichproben gleichwahrscheinlich sind. P 1 Bew: Die Hinrichtung folgt aus P (ω) = |Ω| und die Rückrichtung, beachte 1 = P (Ω) = ω∈Ω P ({ω}) aus X |A| . P (A) = P ({ω}) = |Ω| ω∈A q.e.d. Die Standardvorstellung zu einem Laplace-Experiment ist das Modell einer Urne mit n numerierten Kugeln, aus der wir einmal ziehen. Überhaupt bilden Urnenmodelle eine geeignete Vorstellung für alle w-theoretischen Fragestellungen bei endlichem Stichprobenraum. Daher eine kleine Übersicht der wichtigsten Urnenmodelle. 1.2.2 Urnenmodelle 13j 12j 11j 10j8j 9j 14j 6j 7j 5j 1j 4j 2j 3j % & Gegeben sei eine Urne mit n numerierten Kugeln, aus der wir insgesamt k-mal ziehen wollen. Die Kugeln seien durchgehend numeriert von 1 bis n. Wir ziehen zufällig (jede Kugel hat dieselbe W-keit) eine Kugel heraus und sehen uns das Ergebnis an. Abhängig vom Urnenmodell legen wir die Kugel zurück oder nicht. Dann wird zum zweitenmal zufällig gezogen usw., insgesamt k-mal. Als Gesamtergebnis notieren wir die Nummern der gezogenen Kugeln in zeitlicher Reihenfolge der Ziehung oder, falls uns die zeitliche Reihenfolge vorenthalten wird, in lexikographischer Ordnung. (i) Ziehen in Reihenfolge und mit Zurücklegen Eine Realisierung ist ein Tupel ω = (ω1 , ω2 , . . . , ωk ), wobei ωj die Nummer der j-ten gezogenen Kugel angibt. Jede solche Realisierung ist gleich wahrscheinlich (Symmetrieüberlegungen und eventuelle Umnummerierung der Kugeln). Der zugehörige Stichprobenraum ΩRZ := {1, 2, . . . , n}k 7 Uwe Rösler SS98 1.2 Kombinatorische Wahrscheinlichkeitstheorie hat Elemente und ist ein Laplaceraum. |ΩRZ | = nk (ii) Ziehen in Reihenfolge und ohne Zurücklegen Wir notieren die Folge der gezogenen Zahlen. Eine Realisierung wird beschrieben durch ein k−Tupel (ω1 , ω2 , . . . , ωk ) verschiedener Zahlen von 1 bis n. Der Stichprobenraum ΩR∼Z := {ω ∈ {1, 2, . . . , n}k | ωi 6= ωj for 1 ≤ i 6= j ≤ k}. hat |ΩR∼Z | = (n)k := n(n − 1) . . . (n − k + 1) = n! (n − k)! Elemente und ist ein Laplaceraum. (Für die Auswahl des ersten Elements ω1 haben wir n Möglichkeiten, für die zweite Kugelzahl nur noch n − 1 Möglichkeiten, dann n − 2 usw.) Für n = k erhalten wir alle Permutationen der Zahlen 1 bis n, d.h. alle bijektiven Abbildungen von {1, 2, . . . , n} auf sich selbst. (iii) Ziehen ohne Reihenfolge und ohne Zurücklegen Als Gesamtergebnis der Ziehung bekommen wir nur mitgeteilt, welche Kugeln gezogen wurden und wie oft diese gezogen wurden. Wir kennen nicht die zeitliche Reihenfolge der Ziehung. Der Übersichtlichkeit halber ordnen wir die gezogenen Zahlen in lexikographischer (=natürlicher) Ordnung. Wir verwenden den Stichprobenraum Ω∼R∼Z := {ω ∈ {1, 2, . . . , n}k | ω1 < ω2 < . . . < ωk }, oder auch alternativ den Stichprobenraum Ω0∼R∼Z := {A ⊂ {1, 2, . . . , n} | |A| = k}. Die Abbildung (ω1 , . . . , ωk ) 7→ {ω1 , . . . , ωk } ist eine Bijektion von Ω∼R∼Z nach Ω0∼R∼Z . Beide Stichprobenräume haben µ ¶ n = |ΩR∼Z |/k! |Ω∼R∼Z | = k Elemente und sind Laplaceräume. (Zum Beweis betrachten wir die obige Abbildung jetzt von ΩR∼Z nach Ω∼R∼Z zuordnet. Jedes Urbild f −1 (y) := {ω | f (ω) = y} von y ∈ Ω∼R∼Z hat genau k! Elemente. Damit erhalten wir obige Formel.) Die häufigste Verwendung dieses Urnenmodells ist enthalten in der folgenden Merkregel: Die Anzahl der k-elementigen Teilmengen einer n-elementigen Menge ist (iv) Ziehen ohne Reihenfolge und mit Zurücklegen ¡n ¢ k . Als praktische Durchführung denken wir uns ein Ziehen mit Reihenfolge und mit Zurücklegen. Genannt werden nur die Nummern der gezogenen Kugeln, eventuell mit Mehrfachnennungen. Eine Realisierung beschreiben wir durch das k-Tupel ω der aufsteigend geordneten Kugelnummern. Der Stichprobenraum zu diesem Urnenmodell ist Ω∼RZ := {ω ∈ {1, 2, . . . , n}k | ω1 ≤ ω2 ≤ . . . ≤ ωk }. Die Wahrscheinlichkeit eines Ereignisses ω berechnet sich als Summe der Wahrscheinlichkeiten aller ω 0 beim Ziehen mit Reihenfolge und mit Zurücklegen, die zu einer Nennung ω führen. 8 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Sei ϕ : ΩRZ 7→ Ω∼RZ die Abbildung, die jedem ω 0 ∈ ΩRZ das geordnete Tupel zuordnet. Das W-maß P∼RZ : ¶(Ω∼RZ ) → IR ist das durch ϕ transportierte Maß P∼RZ (A) = PRZ (ϕ−1 (A)) = |ϕ−1 (A)| . |ΩRZ | Der W-raum (Ω∼RZ , ¶(Ω∼RZ ), P∼RZ ) ist der gesucht Wahrscheinlichkeitsraum. Dies ist kein Laplaceraum. Z.B. hat in unserer Versuchsanordnung für n = 4, k = 4 die Realisierung (1, 1, 1, 1) die Wahrscheinlichkeit 1/(44 ), die Realisierung (1, 2, 3, 4) aber eine Wahrscheinlichkeit von 4!/44 . Verschiedene Realisierungen beim Ziehen mit Reihenfolge und mit Zurücklegen ergeben dieselbe Nennung (ohne Reihenfolge.) Die Ziehungen in der zeitlichen Reihenfolge 4, 2, 1, 3 und 4, 3, 2, 1 ergeben als geordnetes Tupel beide (1, 2, 3, 4). Es gibt 4! verschiedener Anordnungen von 1, 2, 3, 4, die als geordnetes Tupel (1, 2, 3, 4) ergeben, aber nur eine von 1, 1, 1, 1, die (1, 1, 1, 1) ergibt. ¢ ¡ Elemente. (Der Raum Ω∼RZ hat n+k−1 k ϕ Zum Beweis betrachten wir die Abbildung (ω1 , ω2 , . . . , ωk ) 7→ (ω1 , ω2 + 1, . . . , ωk + k − 1). Dies ist eine bijektive Abbildung von Ω∼RZ nach dem Stichprobenraum Ω∼R∼Z eines Urnenmodell, aus n + k − 1 numerierten Kugeln ¡k Kugeln ¢ zu ziehen, ohne Zurücklegen und verschiedene Möglichkeiten.) ohne Reihenfolge. (Nachrechnen.) Dafür gibt es n+k−1 k Satz 1.2.3 Die Ergebnisse sind im Vorgriff in der folgenden Tabelle zusammengefaßt. k-mal ziehen mit ohne aus n Kugeln Zurücklegen Zurücklegen mit Laplaceraum Laplaceraum unterscheidbare Reihenfolge |ΩRZ | = nk |ΩR∼Z | = (n)k Kugeln ohne Kein Laplaceraum Laplaceraum ¡ ¢ |Ω∼R∼Z | = nk ununterscheidbare mit ohne k Kugeln verteilen Mehrfachbelegung Mehrfachbelegung auf n Urnen Reihenfolge Kugeln Die offensichtlichen Vorzüge der Modellierung durch Laplaceräume führt zu folgender Merkregel: Modelliere Urnenmodelle stets mit Reihenfolge. Beispiele • Pasch: Berechne die W-keit bei dreimaligem Würfeln jeweils dieselbe Augenzahl zu würfeln. Hier verwenden wir das erste Urnenmodell, mit Zurücklegen und mit Reihenfolge. Wir haben einen Laplaceraum mit insgesamt 63 verschiedenen Möglichkeiten. Genau die sechs 9 Uwe Rösler SS98 1.2 Kombinatorische Wahrscheinlichkeitstheorie Würfelergebnisse (1, 1, 1), (2, 2, 2) bis (6, 6, 6) sind die “günstigen” Fälle. Damit ist die gesuchte Wahrsch. für einen Pasch 6/63 = 1/36. Wir werfen jetzt drei identisch aussehende Würfel gleichzeitig. Wie groß ist die Wahrsch. für einen Pasch? Wir denken uns die Würfel (durch Farben) gekennzeichnet, und argumentieren dann wie oben, mit demselben Resultat. Es wäre möglich, aber ungeschickt und dies ist eine häufige Fehlerquelle, ein Urnenmodell mit Zurücklegen und ohne Reihenfolge anzusetzen. Dies ist kein Laplaceraum. • Zahlenlotto: Wie groß ist die W-keit für exakt 5 Richtige im Lotto (6 aus 49)? Unser Grundraum ist ein Urnenmodell mit n = 49 Kugeln und k = Ziehen, ohne ¡ 6-maligem ¢ Zurücklegen und ohne Reihenfolge. Der Laplaceraum Ω∼R∼Z hat 49 = 13.983.816 Elemente. 6 Wir haben genau 5 Richtige, falls aus den¡ sechs Gewinnzahlen genau 5 vorliegen und aus ¢¡ ¢ verschiedene Realisierungen. Die gesuchte den restlichen 43 genau eine. Dafür gibt es 65 43 1 Wahrsch. 43/(49 · 47 · 46 · 22) liegt in der Größenordnung 1/50000. • Geburtstag-Paradoxon: Selbst in kleinen Gruppen haben relativ häufig zwei Personen an demselben Tag Geburtstag. Wir wollen dies “erklären”. Als Modell wählen wir ein Urnenmodell mit Reihenfolge und mit Zurücklegen und mit nk Elementen. Die Geburtstage der k Personen entsprechen dem Ergebnis zufälligen Ziehens eines Tages aus dem Jahr. Das Ereignis Ek , kein Geburtstag ist doppelt, entspricht den Elementen von ΩR∼Z , allen kelementigen Teilmengen von {1, . . . , n} unter Berücksichtigung der Reihenfolge. Wir erhalten P (Ek ) = k−1 k−1 X X i n−i k(k − 1) (n)k ln( = exp( )) ≈ exp(− ) = exp(− ). nk n n 2n i=0 i=0 Hierbei nutzen wir die Taylor Approximation ln(1 + x) ≈ x für x dicht bei 0. Für welche Gruppengröße wird die Wahrsch. ungefähr 1/2? Ein wenig Rechnung liefert uns P (E22 ) = 0, 5243 > 1/2 und P (E23 ) = 0, 4927 < 1/2. Bereits bei 23 Personen ist die Chance für den Zusammenfall von zwei Geburtstagen ungefähr fifty-fifty. In der Informatik kommt die Problemstellung vor bei zufälligem Abspeichern von Daten, siehe dort unter Hashing. • Olympialotterie: In einer Lotterie sind alle gleichteuren Lose auch gleich gewinnträchtig, zumindest ist dies eine weitverbreitete Meinung. Alle Lose sind gleich, aber manchmal sind einige Lose “gleicher”. Für die Glücksspirale der Olympialotterie 1971 wurden 10 Millionen Lose mit siebenstelligen Zahlen angeboten, von Nummer 0000000 bis hin zu 9999999. Die Auslosung geschah durch siebenmaliges Ziehen ohne Zurücklegen der numerierten Kugeln aus einer Trommel. Die gezogenen Ziffern, in zeitlicher Reihenfolge aufgeschrieben, ergab die Gewinnzahl. In der Trommel waren insgesamt 70 Kugeln, jeweils 7 Kugeln der Ziffern 0 bis 9. Die Losnummer 0000000 hat eine Gewinnwahrsch. von 7 6 1 ... = 7!/(70)7 ≈ 8, 3 · 10−10 . 70 69 64 Die Losnummer 0123456 hat eine wesentlich höhere Gewinnwahrsch. von 7 7 7 ... = 77 /(70)7 ≈ 1, 3 · 10−7 . 70 69 64 (Weshalb?) Dies sind gleichzeitig die extremen Elementarwahrscheinlichkeiten. 10 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 1.2.3 Urnenmodelle revisited* SS98 Uwe Rösler [ [ [ [ [[ [ [ [ [ [ [ [ [ [ [ ◦ ◦ ◦ ◦ Der Versuchsaufbau besteht jetzt aus n Urnen, numeriert durch 1 bis n, und k Kugeln, die darauf zufällig verteilt werden sollen. Unterschieden wird, ob Mehrfachbelegung der Urnen möglich ist und ob die Kugeln unterscheidbar (=numeriert) sind. Zufällig bedeuted, jede der für eine Belegung möglichen Urnen wird gleich behandelt. Wir stellen uns zufälliges Ziehen der Urnen vor, wobei die gezogenen Urne in i-ter Runde durch hineinlagen der Kugel i gekennzeichnet wird. Damit ist das Experiment wie Ziehen numerierter Kugeln (mit/ohne Zurücklegen und mit/ohne Reihenfolge) aus einer Urne äquivalent zu einem Verteilen von Kugeln (numeriert/ununterscheidbar) auf numerierte Urnen (mit/ohne Mehrfachbelegung). Im Detail: (i) Verteilung unterscheidbarer Kugeln und mit Mehrfachbelegung Eine Realisierung besteht in der Angabe der Kugeln in der j-ten Box nach der Verteilung. Der Stichprobenraum [ ΩU M := {(A1 , A2 , . . . , An ) | ∀ 1 ≤ i ≤ n : Ai ⊂ {1, 2, . . . , k}, ◦ Aj = {1, 2, . . . , k}} j ist bijektiv zum Stichprobenraum ΩRZ des ersten Urnenmodells. Dazu betrachten wir die Bijektion (A1 , . . . , An ) 7→ (ω1 , . . . , ωk ) mit i ∈ Aωi . In Worten, i ∈ Aj entspricht in der i-ten Ziehung (Urnenmodell mit Zurücklegen und mit Reihenfolge) wird die Kugel mit der Zahl j gezogen. (ii) Verteilung unterscheidbarer Kugeln und ohne Mehrfachbelegung Eine Realisierung beschreiben wir durch die Angabe der Kugelnummer in der i-ten Urne, bzw. durch die leere Menge, falls die Urne leer ist. Formal ist der Stichprobenraum ΩU ∼M := {(A1 , . . . , An ) ∈ ΩI | ∀1 ≤ i ≤ n |Ai | ≤ 1}. Diese Menge hat ebensoviele Elemente wie ΩR∼Z . Dazu betrachten wir die Bijektion (A1 , . . . , An ) 7→ ω, eine Kugel j ∈ Ai in Urne i entspricht dem Ziehen der Kugelzahl i in der j-ten Ziehung. (iii) Verteilung ununterscheidbarer Kugeln und ohne Mehrfachbelegung Eine Realisierung beschreiben wir durch eine 0-1 Folge der Länge n. Eine 0 bzw. 1 an der i-ten Stelle entspricht einer leeren bzw. besetzten i-ten Box. Formal ergibt dies den Stichprobenraum n X ji = k}. Ω∼U ∼M := {j ∈ {0, 1}n | i=1 Dieser hat ebenso viele Elemente wie der Stichprobenraum Ω∼R∼Z . Jeder 0-1 Folge j ordnen wir eine Menge A aus den Zahlen 1 bis n zu. Eine Zahl i sei Element von A genau dann, falls die i-te Koordinate ji von j eine 1 ist. Dies ergibt eine Bijektion von Ω∼U ∼M auf Ω∼R∼Z . (iv) Verteilung ununterscheidbarer Kugeln und mit Mehrfachbelegung Eine Realisierung beschreiben wir durch durch die Angabe ji der jeweiligen Kugelanzahl in der i-ten Urne. Der zugehörige Stichprobenraum X Ω∼U M := {j ∈ {0, 1, . . . , k}n | ji = k} i ist gleichmächtig wie Ω∼RZ . Die Abbildung j 7→ ω, ji die Häufigkeit |{l | ωl = i}| mit der die Kugel i aus der Urne gezogen wird, ist bijektiv. Die Beschreibungen eines Experiments durch die Ziehen aus Urnen oder durch Verteilen auf Urnen sind äquivalent. 11 Uwe Rösler SS98 1.2 Kombinatorische Wahrscheinlichkeitstheorie Urnenmodelle in der Physik: Das Modell ΩU M heißt in der Physik die Maxwell-Boltzman Statistik. Die Urnen entsprechen räumlich gleichgroßen Quadern, die Kugeln nicht-wechselwirkenden Teilchen. Keine Teilchen gehorchen diesen Gesetzen. Das Modell ΩU ∼M heißt in der Physik Fermi-Dirac Statistik. Die Teilchen, die diesem Modell gehorchen, heißen Fermionen [?]. Bei der Untersuchung des Aufbaus der Elektronenhülle des Atoms fand Pauli das Gesetz, daß zwei Elektronen nicht in allen vier, ihren Zustand beschreibenden Quantenzahlen übereinstimen dürfen. In anderen Worten, nicht mehr als ein Elektron darf den seinem Zustand beschreibenden Phasenraumvolumen besetzen. Jedem Elementarteilchen ordnet man einen “abstrakten” Eigendrehimpuls zu, den sogenannten Spin. Dieser kann die Werte nh/(4π) oder −nh/(4π) annehmen (n ∈ IN, h = Planck’sches Wirkungsquantum). Die Teilchen mit ganzzahligem Spin (ungerade) sind die Bosonen, die mit halbzahligem Spin (n ungerade) die Fermionen. 1.2.4 Weitere Urnenmodelle (v) Hypergeometrische Verteilung Die hypergeometrische Verteilung zum Parameter (W, S, n) ∈ ZZ + ×ZZ + ×{1, . . . , S +W } ist ein W-maß P auf dem Stichprobenraum {0, 1, . . . , n} P ({k}) = ¡S ¢¡ W n−k ¡S+W ¢ n k ¢ . Aus einer Urne mit S schwarzen und W weißen Kugeln ziehen wir n−mal zufällig ohne Zurücklegen und ohne Reihenfolge. Die Wahrsch., genau s schwarze und w weiße in n = s+w Ziehungen zu ziehen, ist ¡S ¢¡W ¢ ¡sS+Ww¢ . s+w Diese Wahrsch. als Funktion von s mit Parametern S, S +W, s+w, ist die hypergeometrische Verteilung. ¢ ¡ Elemente. Wir denken uns die Unser gewählte Laplace Grundraum Ω∼R∼Z hat S+W s+w ¡ ¢ numerierten Kugeln 1, 2, . . . , S als schwarz, die anderen W Kugeln als weiß. Es gibt Ss verschiedene Möglichkeiten daraus s¡schwarze (und numerierte) Kugeln (ohne Reihenfolge) ¢ auszuwählen. Entsprechend gibt es W verschieden Kombinationen für die weißen. Jedes w “günstige” Ereignis wird eindeutig durch die numerierte Menge der schwarzen, bzw. der weißen Bälle beschrieben. Beispiele • Skat: Wie groß ist die Wahrsch., daß beim Skatspiel Vorhand drei Buben ausgeteilt bekommt? Wir benutzen ein Urnenmodell mit 32 Kugeln und 10-maligem Ziehen ohne Zurücklegen und ¢ ¡ ¢¡ . Damit hat ohne Reihenfolge. Die Anzahl der günstigen Verteilungen für Vorhand ist 43 28 7 ¡ ¢¡ ¢ ¡32¢ drei Buben. / Vorhand mit Wahrsch. 43 28 10 7 • Fischezählung: Wie lassen sich Fische in einem Teich zählen? Wir fangen S Fische heraus und markieren diese. Danach setzen wir diese zurück, “mischen” kräftig durch und fischen zufällig k Fische heraus. Darunter seien s > 0 markierte. Naiv erwarten wir ein ähnliches Zahlenverhältnis der wiedergefangenen markierten Fische zu den gefangenen wie das der gefangenen zu allen. Dies ergibt heuristisch einen Schätzer N̂ = kS/s der Gesamtanzahl N, (der auch praktisch benutzt wird). 12 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Hier ein anderes Argument, beruhend auf einem mathematischen Prinzip (Maximum-Likelihood Schätzer). Die hypergeometrische Verteilung ordnet dem Ereignis, s markierte Fische wiederzu(S)(W ) fangen, eine Wahrsch. von p(s) = sS+Ww zu. ( s+w ) Für eine gegebene Gesamtanzahl N = S+W wird die Anzahl der wiedergefangenen markierten Fische s häufig einen relativ großen Wert von p(s) liefern. Umgekehrt, wenn wir die Anzahl der wiedergefangenen markierten Fische s kennen, aber nicht die Gesamtanzahl N, so werden wir eine Gesamtanzahl N erwarten, sodaß die obige Wahrsch. groß wird. Als Schätzer wählen wir denjenigen Wert N, der obige Wahrsch., jetzt für festes s, maximiert. Die Lösung dieser nun mathematischen Aufgabe ist N̂ = kS s . ¡ ¢ Multinomialkoeffizienten: Die Binomialkoeffizienten nk beschreiben die Anzahl der verschiedenen Teilungen einer n-elementige Menge in zwei Gruppen, wobei die erste Gruppe genau k Elemente haben soll. r Seien n, r natürliche Zahlen und k = (k1 , . . . , kr ) ∈ ZZ≥ ein Vektor mit k1 + k2 + . . . + kr = n. Die Multinomialkoeffizienten sind definiert durch µ ¶ n n! . := k k1 !k2 ! . . . kr ! ¡ ¢ Die Multinomialkoeffizienten nk geben die Anzahl der möglichen Teilungen von n numerierten Kugeln in r numerierte Gruppen an,¡ wobei die i−te Gruppe ki Elemente haben soll. ¢ ¡ ¢ Für die 1 Auswahl der ersten Gruppe haben wir kn1 Möglichkeiten, für die zweite nur noch n−k Möglichkeik2 ¡n−k1 −k2 ¢ usw. Dies ergibt die Formel. ten, dann k3 Die hier betrachteten Gruppen sind numeriert, d.h. die Einteilung ist auch abhängig von der Reihenfolge der Gruppenstärken k1 , k2 , . . . , kr . Das folgende Beispiel verdeutlicht die Wichtigkeit dieser Unterscheidung. Beispiel Mannschaftseinteilung: 26 Schulkinder wollen Fußball und Tennis spielen. Dazu bilden sie zwei Mannschaften B zu ¡ A, ¢ je 11 Spielern für Fußball und zwei Mannschaften C, D für 26 das Tennisdoppel. Es gibt (11,11,2,2) Möglichkeiten der verschiedenen Mannschaftaufteilungen in ¡ 26 ¢ 1 A, B, C, D. Die Anzahl der verschiedenen Spielkombinationen (Paarungen) 11,11,2,2 4 ist kleiner. Trotz verschiedener Mannschaftsaufstellung, z.B. A = {1, 2, . . . , 11}, B = {12, . . . , 22}, C = {23, 24}, D = {25, 26} und A = {12, . . . , 22}, B = {1, . . . , 11}, C = {25, 26}, D = {23, 24}, spielen eventuell dieselben Mannschaften gegeneinander. (vi) Multinomialverteilung Seien n, r natürliche Zahlen, p ein W-maß auf {1, . . . , r}, geschrieben als Vektor X p = (p1 , . . . , pr ), pj = 1. j Die Multinomialverteilung zum P Parameter (n, r, p) ist ein W-maß P auf dem Stichprobenraum {k = (k1 , . . . , kr ) ∈ IN0r | i ki = n} mit µ ¶ n k P (k) = p . k Hierbei ist pk = pk11 pk22 . . . pknn die Multiindexschreibweise. Das Standardbeispiel ist es, n Kugeln auf r Urnen zu verteilen. Die erste Kugel wird mit der W-verteilung p in eine Urne gelegt, dann die zweite (unabhängig von der ersten) usw. 13 Uwe Rösler 1.3 SS98 1.3 Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Heuristik: Wir betrachten nur W-räume mit endlichem oder abzählbarem Stichprobenraum. Die W-keit eine 6 gewürfeln zu haben, wenn bereits bekannt ist, dass der Wurf 4 oder 5 oder 6 zeigt, ist 1/3. Abstrakter, wenn wir im Venn-Diagramm wie unten die Flächen der Mengen als W-keit interpretieren, dann sollte die W-keit eines Ereignisses A unter B die gemeinsame Fläche A ∩ B dividiert durch die Fläche des bekannten Ereignissses B sein. $$ '' A A∩B B && %% Definition 1.3.1 Die bedingte Wahrscheinlichkeit eines Ereignisses A unter dem Ereignis B mit P (B) > 0 ist P (A ∩ B) . P (A | B) = P (B) Sprachgebrauch: W-keit von A unter (oder gegeben) B. Konvention: Die Verwendung des Symbols P (A | B) beinhaltet bereits die strikte Positivität der Wahrsch. des Ereignisses B. Rechenregeln ergeben sich aus der einfachen Feststellung, dass die Abbildung P (· | B) vom Ereignisraum in die reellen Zahlen ein W-maß ist, das Tripel (Ω, A, P (. | B)), ist ein Wahrscheinlichkeitsraum. Ebenso ist das auf B beschränkte Tupel (Ω>B , A|B , P|B ) = (B, {A ∩ B | A ∈ A}, PB = P (. | B)) ein W-Raum, genannt der induzierte oder auch eingeschränkte W-Raum. Ist der zugrundeliegende W-Raum ein Laplaceraum, so auch der eingeschränkte. Lemma 1.3.2 (Bedingte Rekursionsformel) Für Ereignisse A, B, C mit P (B ∩ C) > 0 gilt P (A ∩ B ∩ C) = P (A)P (B | A)P (C | A ∩ B). Beweis: Nachrechnen. Induktiv ergibt sich für Ereignisse A1 , . . . , An q.e.d. n−1 Ai ). P (A1 ∩ . . . ∩ An ) = P (A1 )P (A2 | A1 ) . . . P (An | ∩i=1 Bsp: Lotto revisited: Wir betrachten Lottoziehen life am Fernseher. Die Zg Xi stehe für die i-te gezogenen Zahl. Sei x1 , . . . , x6 mein Tipp bestehend aus 6 verschiedenen Zahlen aus {1, . . . , 49}. Sei Ai das Ereignis {ω | Xi (ω) = xi }. (Wir verwenden als Kurzschreibweise hierfür Xi = xi .) Dann werden unsere Zahlen x1 , . . . , x6 in dieser Reihenfolge gezogen mit W-keit = P (A1 )P (A2 | A1 )P (A3 ∩ A2 ∩ A1 ) . . . P (A6 | ∩5i=1 Ai ) 1 1 1 = ... . 49 48 44 Nach der i-ten Ziehung sind 49 − i Kugeln in der Urne und davon soll ich genau die vorgegebene Kugel mit der Zahl xi+1 (Laplaceraum) ziehen. Ist unser Tipp {x1 , . . . , x6 } ein Haupttreffer? Da es auf die Reihenfolge nicht ankommt gilt, summieren wir über alle Permutationen π der Zahlen 1 bis 6, X P (Xi = xπ(i) für i = 1, . . . , 6) P ({X1 , . . . , X6 } = {x1 , . . . , x6 }) = P (∩6i=1 Ai ) π = 14 k! 1 = ¡49¢ (49)6 6 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Wir erhalten jeder Tipp ist gleichwahrscheinlich. Bsp: Bridge: Gefragt ist nach der W-keit, daß in einer Bridgehand, 52 Karten werden gleichmäßig und zufällig auf 4 Spieler verteilt, jeder Spieler genau ein Ass erhält. Entspreche Ai dem Ereignis, der Spieler i hält genau ein Ass in seinen 13 Karten, so folgt mit Hilfe der hypergeometrischen Verteilung ¡ ¢¡ ¢ ¡ ¢¡ ¢ P (A1 ) = 4 1 48 ¢ ¡5212 13 P (A3 | A1 ∩ A2 ) = 3 1 ¡2¢¡24¢ ¡2612 ¢ 1 36 ¢ ¡3912 P (A2 | A1 ) = 13 P (A4 | A1 ∩ A2 ∩ A3 ) = 1. 13 Unsere gesuchte W-keit ist das Produkt dieser vier Wahrsch.. 1.3.1 Bayes Formel Satz 1.3.3 (Bayes Formel) Sei der Stichprobenraum in paarweise disjunkte Ereignisse B1 , B2 , . . . , zerlegt, endlich oder abzählbar viele. Jedes dieser Ereignissse habe strikt positive W-keit. Die Formel von der totalen Wahrscheinlichkeit lautet für ein Ereignis A : X P (Bi )P (A | Bi ). P (A) = i Im Falle strikt positiver Wahrscheinlichkeit des Ereignisses A gilt die Bayes Formel P (B1 )P (A | B1 ) P (B1 | A) = P . i P (Bi )P (A | Bi ) Beweis: Die erste Identität folgt aus der σ-Additivität des Wahrscheinlichkeitsmaßes [ X X P (A) = P ( ◦ (A ∩ Bi )) = P (A ∩ Bi ) = P (Bi )P (A | Bi ). i i i Die Bayes Formel (Bayes 1763) folgt aus der Identität P (B1 | A) = P (B1 )P (A | B1 )/P (A) mit Einsetzen von P (A) aus der Formel von der totalen Wahrscheinlichkeit. q.e.d. Bsp: Urnenwahl. Seien n Urnen gegeben. Die i-te Urne enthalte Si schwarze Kugeln und Wi weiße. Zufällig wird eine Urne i mit W-keit pi ausgewählt und aus dieser eine Kugel gezogen. Gesucht ist die W-keit für das Ereignis A, eine schwarze Kugel zu ziehen. (Präsisieren Sei Bi das Ereignis die i-te Urne auszuwählen. Der Satz von der totalen Wahrsch. liefert P (A) = n X pi i=1 Si . S i + Wi Bsp: Reihenuntersuchung. Bereits 0,5% der Bevölkerung leidet an der Krankheit ’Ghost’. Bei einer Reihenuntersuchung zeigen durchschnittlich 99% der Kranken eine positive Testreaktion. Von den Gesunden zeigen rund 2% eine positive Testreaktion. Wie beunruhigend ist mein positives Testergebnis wirklich? Als erstes müssen wir die gegebenen Informationen sauber in ein Modell einbetten. Eine Realisierung sei ein 0 − 1 Tupel in dem Produktraum Ω := {0, 1}2 und X1 , X2 seien die Projektion auf die erste, bzw. 2. Koordinate. Die erste Koordinate X1 = 1 bzw. 0 entspreche krank bzw. gesund und die zweite Koordinate X2 = 1 bzw. 0 entspreche positivem bzw. negativem Testergebnis. Obigen Angaben entsprechen präzise den Aussagen P (X1 = 1) = 0, 005, P (X2 = 1 | X1 = 1) = 0, 99, P (X2 = 1 | X1 = 0) = 0, 02. (Es gibt genau ein W-maß zu diesen Werten.) Mit Hilfe der Bayes Formel erhalten wir das uns interessierende Resultat P (X1 = 1)P (X2 = 1 | X1 = 1) P (X1 = 1)P (X2 = 1 | X1 = 1) + P (X1 = 0)P (X2 = 1 | X1 = 0) 495 = ≈ 0, 2. 2485 Wie beunruhigend dies für mich wirklich ist, bleibt eine Interpretations- und Persönlichkeitsfrage. P (X1 = 1 | X2 = 1) = 15 Uwe Rösler SS98 1.3 Bedingte Wahrscheinlichkeit Unsauberes Denken Der Umgang mit bedingten Wahrsch. im realen Leben führt durch unsauberes Denken und unzureichende Information häufig zu fehlerhaften Schlüssen. Hier zwei Beispiele: Bsp: Diskriminierung. Folgende Zahlen deuteten auf eine sexuelle Diskriminierung weiblicher Bewerber hin. An der Universität Berkeley wurden im Herbst 1973 von den 8442 männlichen Bewerbern für ein Studium 44% (=3738) zugelassen. Von den 4321 weiblichen Bewerbern erhielten nur 35% (=1494) einen Studienplatz. Dieser Unterschied erweist sich auch wissenschaftlich als signifikant, er kann nicht allein durch Zufall ’erklärt’ werden. Da wir apriori davon ausgehen, daß die Damen gleich qualifiziert und leistungsfähig sind, liegt nur der Schluß einer sexuellen negativen Diskriminierung nahe. Um die Hauptquelle der negativen Diskriminierung ausfindig zu machen, sehen wir uns die Daten nach Fächern aufgelistet an. In den hundert Fächern gibt es bei einigen eine leichte Bevorzugung der Männer, bei anderen eine leichte Bevorzugung der Frauen. Insgesamt aber eher eine Bevorzugung der Frauen. Die folgende Liste der sechs Fächer mit den meisten Bewerbern gibt diese Tendenz gut wieder. Fach 1 2 3 4 5 6 Studienzulasssungszahlen männlich weiblich Bewerbungen % Zulassungen Bewerbungen % Zulassungen 825 62 108 82 560 63 25 68 325 37 593 34 417 33 375 35 191 28 393 24 373 6 341 7 Auch bei Zugrundelegung dieser Liste ist der Anteil der akzeptierten männlichen mit 44,5% signifikant höher als der der weiblichen mit 32%. Wo liegt die Erklärung? Die ersten beiden Fächer haben relativ hohe Zulassungsraten. Hier gibt es einen hohen Anteil an männlichen Bewerbern, jedoch nur einen niedrigen an weiblichen. In den nächsten drei Fächern war die Zulassungsquote eher klein, der weibliche Anteil aber überproportinal groß. Selbst wenn in jedem Fach die Frauen deutlich bevorteilt werden, kann insgesamt der prozentual zugelassene Anteil der Männer wesentlich höher sein. Wir wollen uns dies am Beispiel zweier Fächer A und B verdeutlichen. Sei Z die Menge der zugelassenen Personen und M (F ) die Menge der sich bewerbenden Männern (Frauen) M (F ). Wir wollen strikte Bevorzugung der Frauen in jedem Fach annehmen, P (Z ∩ M | A ∩ M ) < P (Z ∩ F | A ∩ F ) P (Z ∩ M ∩ | B ∩ M ) < P (Z ∩ F | B ∩ F ). Die geschlechterspezifischen Gesamtzahlen der Zulassung ergeben sich mit Hilfe der totalen Wahrscheinlichkeiten, P (Z ∩ M | M ) = P (A | M )P (Z ∩ M | M ∩ A) + P (B | M )P (Z ∩ M | M ∩ B) P (Z ∩ F | F ) = P (A | F )P (Z ∩ F | F ∩ A) + P (B | F )P (Z ∩ F | F ∩ B). Wir betrachten den Extremfall, die einzige weibliche Bewerberin für das Fach A erhält einen Studienplatz, der einzige männliche Bewerber für das Fach B erhält keinen. In jedem Fach werden die Frauen bevorzugt (und damit diskriminiert, wenn auch positiv.) Durch Wahl der Zulassungsraten für die Fächer ergäben sich beliebig große ’Diskriminationen’ für die Frauen P (Z ∩ M | M ) = P (Z ∩ F | F ) = |M | − 1 P (Z ∩ M | M ∩ A) |M | 1 |F | − 1 + P (Z ∩ F | F ∩ B). |F | |F | Die Beobachtung, Frauen haben eine Tendenz sich für Fächer mit geringerer Zulassungsquote zu bewerben, ist eine plausible ’Erklärung.’ Jeder Leser wird zu dieser Aussage eigene Erfahrungen 16 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler und ’Erklärungen’ haben, vielleicht auch Analogien sehen. Dies führt uns jedoch zu weit in die reale Welt. Bsp: Von Autos und Ziegen: Der Sieger einer Quizshow gewinnt den hinter einer Tür versteckten Preis. Hinter einer der drei Türen ist ein Auto, hinter den anderen sind Ziegen. Der Sieger darf eine Tür wählen und soll das dahinter versteckte Objekt erhalten. Nach der Wahl des Kandidaten öffnet der Moderator jedoch erst eine der nichtgewählten Türen, hinter der eine Ziege erscheint. Der Moderator bietet dem Kandidaten einen Wechsel seiner Türwahl an. Wie wäre Ihre Entscheidung? Wenn wir davon ausgehen, daß der Showmaster stets eine Ziege präsentiert, sei es gezwunge-nermaßen oder aus Sympathiegründen, sollte der Kandidat seine Wahl ändern. Die anfangs gewählte Tür zu öffnen behält die Wahrsch. von 1/3 das Auto zu verdecken bei. Das Auto steht hinter der verbliebenen Tür mit Wahrsch. 2/3. Mathematisches Modell: Das mathematische Modell ist aus der Sicht des Kandidaten zum Zeitpunkt seiner zweiten Entscheidung. Als geeigneten (=hinreichend großen) Grundraum wählen wir Ω = {1, 2, 3}3 mit der Potenzmenge als σ-Algebra. Die erste Koordinate X1 gibt die Tür an, hinter der das Auto steht. Die zweite Koordinate X2 gibt die Wahl des Kandidaten an. Die dritte Koordinate gibt die vom Quizmaster geöffnete Tür an. Wir benutzen Xi = j für das Ereignis aller ω mit Xi (ω) = j. Jetzt müssen wir ein (das) geeignetes W-maß P angeben, aus Sicht des Kandidaten. Der Kandidat möchte seine Entscheidung X2 so wählen, daß P (X1 = X2 ) möglichst groß wird. Der Kandidat hat zum Zeitpunkt seiner ersten Wahl keine Vorinformation (und ist kein Prophet), welche Tür das Auto verdeckt. Jede Prozedur, eine Tür zu wählen oder das Auto zu verstecken, ist gleichgut mit einer, bei der die Türen permutiert sind. Durch Mittelung, erst eine Permutation und dann nach vorgegebener Prozedur eine Tür zu wählen, ebenso gut. Dies führt auf den Ansatz der Gleichverteilung von X1 und X2 . Ferner modellieren wir mit Unabhängigkeit, d.h. P (X1 = i, X2 = j) = P (X1 = i)P (X2 = j). Zur weiteren Bestimmung des W-maßes P benötigen wir einige Modellannahmen zum Verhalten des Moderators. Die ’natürlichen’ Annahmen wären: Der Moderator kennt die Tür X1 mit dem Auto und öffnet immer(!) eine nichtgewählte Tür mit Ziege dahinter. Falls er die Wahl zwischen 2 Türen hat, so wählt er zufällig mit Gleichverteilung eine der Türen, z.B. durch Münzwurf. Damit sind alle W-keiten P (X3 = k | X1 = i, X2 = j) jetzt wohlbestimmt und das W-maß P eindeutig gegeben, P ((i, j, k)) = P (X1 = i)P (X2 = j | X1 = i)P (X3 = k | (X1 = i, X2 = j). Zum Zeitpunkt der zweiten Wahl sind X2 und X3 bekannt. Der Einfachheit halber sei X2 = 1 und X3 = 2, die anderen Fälle liefern aus Symmetriegründen das gleiche Resultat. P (X1 = X2 | X2 = 1, X3 = 2) = = = P (X1 6= X2 | X2 = 1, X3 = 2) P ((1, 1, 2)) P (X2 = 1, X3 = 2) P (X1 = 1)P (X2 = 1 | X1 = 1)P (X3 = 2 | X1 = 1, X2 = 1) P ((1, 1, 2)) + P ((2, 1, 2)) + P ((3, 1, 2)) 111 332 111 332 +0+ 11 3 31 = 1 3 = 1 − P (X1 = X2 | X2 = 1, X3 = 2) = 2 . 3 Der Kandidat sollte eindeutig seine Entscheidung ändern. Wie ändern sich die Wahrscheinlichkeiten, wenn die Annahmen den Moderator betreffend nicht zutreffen. Annahme 1: Der Moderator kennt die Tür mit dem Auto dahinter und öffnet immer(!) eine nichtgewählte Tür mit Ziege dahinter. Falls er die Wahl zwischen 2 Türen hat, so wählt er stets diejenige mit der kleinsten Nummer mit einer Wahrscheinlichkeit p. Annahme 2: Der Moderator kennt nicht die Tür mit dem Auto dahinter und öffnet zufällig eine der verbleibenden Türen. Dahinter erscheint eine Ziege. 17 Uwe Rösler SS98 1.3 Bedingte Wahrscheinlichkeit Annahme 3: Der Moderator kennt die Tür mit dem Auto dahinter. Er gönnt dem Kandidaten nicht das Auto. Der Moderator öffnet nur eine Tür, hinter der eine Ziege erscheint, wenn der Kandidat zuerst die Tür mit Auto gewählt hatte. (Zonk) Annahme 4: Der Knadidat wählt für X2 nicht die Gleichverteilung. (Auflösung: In den Fällen 1 und 2 sollte der Kandidat wechseln. Im Fall 3 nicht. Argument? Die Wahl von 4 ändert nichts an der Argumentation, solange....) Bsp: Die drei Todeskandidaten: Die Originalvorlage ist meines Wissens nach von Martin Gardner. Drei Gefangene sitzen in einer Todeszelle. Genau einer der Kandidaten soll morgen hingerichtet werden. Keiner der Gefangenen weiß, wer es ist. Der Gefangene A fragt den Wärter, wer morgen hingerichtet wird. Der Gefängniswärter, der den Namen kennt, sagt stets die Wahrheit. Er antwortet: Ich darf den Namen nicht verraten. ” Aber ich darf versichern, daß es nicht der Gefangene B ist.“Wie groß ist jetzt die W-keit, daß morgen A hingerichtet wird? Tippen Sie auf 1/3 oder auf 1/2? Welche Argumente würden Sie anführen? Informationsbegriff: Es erhebt sich die grundsätzliche Frage, wieviel ’Information’ in der Antwort des Wärters enthalten ist. Noch weitergehend, durch geschickte Auswahl von objektiv richtiger Information kann der Wärter die subjektiven W-keiten des Todeskanditen bewußt beeinflussen. Überlegen Sie sich mögliche Auswirkungen und Informationsstrategien in Gerichtsprozessen oder den Einfluß gezielter (wahrer) Informationsweitergabe auf Aktienkurse. 1.3.2 Konstruktion von W-Räumen 1.3.3 Wahrscheinlichkeitsbäume Alle obigen Beispiele haben das gleiche Bildungsschema via Wahrscheinlichkeitsbäumen bzw. Familienbäumen. Sei V = supn∈IN S n die Menge aller echten endlichen Folgen mit Werten in S, S endlich oder abzählbar. (Konvention S 0 = {∅}.) Wir schreiben v = (v1 , v2 , . . . , vn ) oder einfacher v = v1 v2 . . . vn . Wir verwenden einen familiennahen Sprachgebrauch, wie vi ist das i-te Kind von v und v das Eltern von vi, vw ist ein Nachkomme von v und v ist ein Vorfahre von vw. Die Generation von v entspricht der Länge |v| = n des Tupels. Die Einschränkung von v auf die ersten m−Generationen ist v|m = v1 . . . vm . Ein Element von V wird Knoten oder Individuum, im Englischen vertex, genannt. Ein Baum ist eine nichtleere Teilmenge W von V, sodass jedes Individuum aus W auch alle seine Vorfahren in W hat. Ein Element w ∈ W ohne Nachkommen in W heis̈t Blatt. Ein Wahrscheinlichkeitsbaum ist ein Baum W versehen mit Kantengewichten p(w, wi) auf den Kanten (w, wi) ∈ W 2 im Baum, mit – p(w, P wi) ≥ 0, – wi∈W p(w, wi) = 1 falls w aus dem Baum und kein Blatt ist. Definiere dazu die Pfadgewichte L : W → IR durch L(∅) = 1 und rekursiv L(wi) = L(w)p(w, wi). Diese heißen Pfadgewichte, da Pfade von der Wurzel ∅ nach w mit w identifiziert werden. L(w) ist das Produkt der Kantengewichte längs des Pfades von der Wurzel nach w. Proposition 1.3.4 Sei W ein Wahrscheinlichkeitsbaum. Die Menge Ω der Blätter (Namen) versehen mit den W-keiten P ({v}) = L(v) P und P (A) = v∈Ω L(v) bildet eine W-raum. Bew: Es reicht zu zeigen P (Ω) = 0. Dies geschieht durch Induktion. (Übung). q.e.d. Ein Ereignisbaum ist ein Baum W versehen mit einem Ereignisvektor A : W → Ω, sodass gilt – A(∅) = Ω, S – A(w) = ◦ wi∈W A(wi) falls w aus dem Baum und kein Blatt ist. 18 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Proposition 1.3.5 Jeder Ereignisbaum liefert einen W-baum, indem wir p(v, vi) = P (A(vi) | A(v)) setzen. Es ergeben sich die Pfadgewichte L(v) = P (A(v)). Umgekehrt, zu jedem W-baum können wir einen Ereignisbaum auf einem geeigneten W-raum konstruieren. Bew: Der erste Teil folgt durch nachrechnen. Für den zweiten wähle als Stichprobenraum Ω alle Blätter des Baumes, als Ereignisraum A die Potenzmenge und das W-mass eines Blattes w wird eindeutig durch das Pfadgewicht L(w) bestimmt. Die Ereignisse A(w) sind die Menge der Blätter, die Nachfahre des Individuums w sind. q.e.d. Die Modellierung bzw. Konstruktion von W-bäumen geschieht von der Wurzel her via einem Ereignisbaum und Bestimmung der bedingten W-keiten P (A(vi) | A(v)). ³ ³³ ³³ )³ ³ 0u ¡@ ¡ @ ª ¡ Ru01 @ 00 u ¢A ¢A ¢ A ¢ A u u ¢® Uu A ¢® UAu u ³³ PPP PP PP qu1 ¡@ ¡ @ ª ¡ Ru11 @ 10 u ¢A ¢A ¢ A ¢ A u ¢® AUu101 u AUu ¢® PP Polya’s Urnenmodell: In einer Urne befinden sich S schwarze und W weiße Kugeln. Nach jeder der k zufälligen Ziehungen werden c + 1 ∈ IN Kugeln der gleichen Farbe zurückgelegt. Der Fall c = −1 entspricht einem Urnenmodell ohne Zurücklegen und c = 0 einem mit Zurücklegen. (Meine mathematischen Bäume wachsen nach unten.) Wir betrachten einen binären Baum der Tiefe k. An jeder Verzweigung steht der linke Ast für das Ziehen einer weißen Kugel (0 für weiß), der rechte Ast für eine schwarze (1). Dies liefert die Namen der Knoten. Der zugehörige Ereignisbaum ordnet jedem Namen v das Ereignis A(v) zu, in der Reihenfolge v1 , v2 , . . . , v|v| weiße bzw. schwarze zu ziehen. Mathematisch modellieren wir durch die Menge {0, 1}k der Blätter und setzen A(v) als die Menge der Blätter, die Nachfahre von v sind. Dies ist der Ereignisbaum. Die Kantengewichte p(v, vi) = P (A(vi) | A(v)) erhalten wir durch das Ziehen einer i-farbigen Kugel aus einer Urnen mit zur Vorgeschichte v entsprechend P|v| farbigen Kugeln (S + c i=1 (vi ) schwarze von S + W + c|v| Kugeln). Die Kantengewichte sind bedingte W-keiten. Dies liefert den W-baum. Proposition 1.3.6 Für das Polyasche Urnenmodell ist das W-maß P auf Ω := {0, 1}k gegeben durch Qs−1 Qk−s−1 (W + jc) i=0 (S + ic) j=0 . P ({(ω1 , ω2 , . . . , ωk )}) = Qk−1 l=0 (S + W + lc) Pk Hierbei ist s := i=1 ωi die Gesamtzahl der gezogenen schwarzen Kugeln. P (ω) ist permutationsinvariant. Beweis: Sei die Realisierung (v1 , v2 , . . . , vk ). Definiere die Ereignisse Ai := {j1 } × {j2 } × . . . × {ji } × {0, 1} × . . . × {0, 1} ⊂ Ω durch Festlegen der ersten i Koordinaten. Die Wahrsch. von Ai+1 , gegeben PiA1 , . . . , Ai entspricht der Wahrsch. aus einer Urne mit S + W + ic Kugeln, davon sind S + c l=1 vl Kugeln schwarz, eine Kugel mit der Farbe vi+1 zu ziehen. In Formeln ausgedrückt ergibt dies im Fall vi+1 = 1, Pi S + c l=1 vl . P (Ai+1 | A1 ∩ . . . ∩ Ai ) = S + W + ic Der Durchschnitt aller dieser Ereignisse enthält genau die gewählte Realisierung. Das Lemma 1.3.2 ergibt die Behauptung. Die Modellkonstruktion des Ziegenproblems ist von Baumgestalt. 19 Uwe Rösler SS98 1.3 Bedingte Wahrscheinlichkeit Beispiel 1.3.7 (Ziegenproblem revisited) Der Baum W besteht aus allen Folgen der Zahlen 1, 2, 3 mit Länge höchstens 3. (Die leere Folge entspricht ∅.) Die Blätter sind die Folgen aus W mit Länge 3. Der Stichprobenraum ist {1, 2, 3}3 . A(i) entspricht dem Ereignis hinter der iten Tür ist das Auto. A(i, j) entspricht dem Ereignis hinter der i-ten Tür ist das Auto und der Kandidat wählt die j-te Tür. A(i, j, k) entspricht A(i, j) und zusätzlich öffnet der Moderator die k-te Tür. Die Zuordnung der Wahrscheinlichkeiten geschieht nun von der Wurzel her. Jede der Mengen A(i) erhält die W-keit 1/3. Gegeben A(i) erhält A(i, j) die W-keit 1/3. Für die W-keiten P (A(i, j, k) | A(i, j)) haben wir eventuelle Freiheiten, wie in den Fallunterscheidungen angegeben. Beispiel Duell: In einigen Spielen, gerade den neueren Spielen für Erwachsene, hat der technisch beste Spieler die schlechtesten Chancen zu gewinnen. Drei Spieler A,B und C wollen sich mit Pistolen duellieren. Es soll jeweils reihum ein Schuß in der zyklischen Reihenfolge A,B,C abgegeben werden bei freier Zielwahl. Es wird solange geschossen, bis ein befriedigter Sieger feststeht (oder nach 3 Runden beendet.) Der schlechteste Schütze A trifft in rund 50% aller Fälle, der Spieler B hat Trefferquote von 80% und Spieler C trifft immer. Spieler A beginnt. Die Spieler B und C versuchen stets den verbliebenen Spieler mit der größten Trefferw-keit zu erschiessen. Welche Strategie sollte A verwenden und wie sind die Überlebenswahrscheinlichkeiten der Duellanten. (Erstelle einen W-baum mit den bedingten W-keiten als Übergangskerne. Was passiert, wenn das Schlitzohr A als erstes in die Luft schießt?) Die Idee der W-bäme läs̈t sich leicht auch für nichtendliche Bäume ausdehnen. 1.3.4 Produkträume Ein weiteres Beispiel mit eigenständiger Bedeutung von W-keitsbäumen sind die Produkträume. Produktraum: Seien (Ω1 , Pot(Ω1 ), P1 ), . . . , (Ωn , Pot(Ωn ), Pn ) diskrete W-Räume. Auf dem Produktraum Ω := Ω1 × Ω2 × . . . × Ωn definieren wir das Produktmaß P durch P ({(ω1 , . . . , ωn )}) = n Y i=1 Pi ({ωi }). Der W-Raum (Ω, ¶(Ω), P ) heißt Produktraum, oder auch Produktwahrscheinlichkeitsraum. . (Übung: Gebe einen zugehörigen W-baum und W-ereignisbaum an.) Proposition 1.3.8 Für Ai ∈ Pot(Ωi , i = 1, . . . , n gilt P (A1 × A2 × . . . × An ) = Y Pi (Ai ). i P P q.e.d. Beweis: Beide Seiten sind gleich ω1 ∈A1 . . . ωn ∈An P1 ({ω1 }) . . . Pn ({ωn }). Bsp: Wright-Fisher. DNS wird durch Vererbung weitergegeben. Gegeben sei eine feste Bevölkerungsgröße von Individuen. Jedes Individuum der neuen Generation ’sucht’ sich ein Individuum aus der vorhergehenden Generation als Eltern aus (und übernimmt dessen Meinung, DNS,...). Das WrightFisher modelliert durch Gleichverteilung (Sodom und Gomorrha) auf den Individuen der vorhergehenden Generation. Frage, gibt es einen gemeinsamen ersten Vorfahren. 13j 12j j j j j 11 10 8 9 14j j j j j j j j 6 7 5 1 4 2 3 Mathem. Modell: Sei S die endliche Menge der Individuen und oEdA {1, . . . , N }. Sei F die Menge der Funktionen von S in sich. Zu vorgegebener Verteilung (Gleichverteilung im WrightQn Fisher Modell) ν auf F sei (Ω = F n , P(F n ), i=1 ν) der Produktraum und Xi sei die i-te 20 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Projektion. (Wir betrachten maximal n Generationen rückwärts.) Das Hauptobjekt ist der Prozess Yi = Xi ◦ Xi−1 . . . X1 . (Formal definiert als Abbildung ω 7→= (Xi (ω))((Xi−1 (ω))(. . .)(X1 (ω)) . . .)) und unterdrücke in der Schreibweise das ω ∈ Ω.) Für festes s hat (Yi (s))i , 1 ≤≤ n (formal definiert als Abbildung ω 7→ (Yi (ω))(s) ∈ S und dann das ω unterdrückt) die Interpretation als i-ter Ahne von s aus der jetzigen Generation. (Mathematisch heißt die Folge Yn ein iteriertes Funktionensystem, IFS.) Im Wright-Fisher Modell haben alle Individuen, falls wir weit genug in die Vergangenheit blicken können, einen ersten gemeinsamen Vorfahren. Auf DNS bezogen, sind alle Kopien voneinander. Interessant wird das Modell durch die Erweiterung, wobei von dem Eltern die DNS mit zufälligen Änderungen (=Mutationen) übernommen werden. Falls wir die Anzahl der Änderungen schätzen können, lassen sich Fragestellungen nach Verwandtschaftsgraden und Stammbäumen von verschiedenen Arten beantworten. Übergangskerne* Die zugrundeliegende Idee der W-bäume und auch der Produkträume sind Übergangskerne. Wir wollen dies formalisieren. Seien Ω, Ω0 zwei endliche oder abzählbare Mengen. Ein Übergangskern K, oder auch Wahrscheinlichkeitskern von Ω nach Ω0 ist eine Abbildung K : Ω × P(⊗0 ) 7→ IR+ , mit K(ω, ·) ist ein W-maß auf Ω0 für alle ω ∈ Ω. Das Standardbeispiel eines Übergangskerns ist zweimaliges Würfeln. Sei Ω = Ω0 = {1, 2, . . . , 6} und K(i, {j}) die bedingte P Wahrscheinlichkeit, daß der zweite Wurf zeigt j gegeben der erste Wurf zeigt i. Mit K(i, A0 ) = j∈A0 K(i, {j}) erhalten wir einen Übergangskern. Übergangskerne spielen bei der Konstruktion von W-Räumen die Rolle von bedingten Wahrscheinlichkeiten. Sei (Ω1 , Pot(Ω1 ), P1 ) ein diskreter W-raum und K ein Übergangskern von Ω1 nach Ω2 versehen mit der Potenzmenge. Auf dem Stichprobenraum Ω = Ω1 × Ω2 versehen mit der Potenzmenge als Ereignisraum definieren wir das W-mas̈ P durch = P1 ({ω1 })K(ω1 , {ω2 }) X P ({a}). P (A) = P ({(ω1 , ω2 )}) a∈A (Übung: P ist ein W-mas̈.) Diese Konstruktion läs̈t sich durch weitere Übergangskerne erweitern. Proposition 1.3.9 Gegeben seien endliche oder abzählbare Mengen Ω1 , . . . , Ωn ein W-maß P1 auf Ω1 und Übergangskerne i−1 Y Ωj ) × Ωi → IR Ki : ( j=1 für 2 ≤ i ≤ n. Dann ist Ω = Qn i=1 Ωi versehen mit P ({(ω1 , . . . , ωn }) = P1 ({ω1 }) n Y i=2 K((ω1 , . . . , ωi−1 ), {ωi }) ein W-raum. Qi Bew: Konstruiere rekursiv Pi auf j=1 Ωj durch Pi−1 und den Übergangskern Ki . (Übung: Modelliere Polyas Urnenmodell durch Übergangskerne.) 1.3.5 Markoffketten Sei S endlich oder abzählbar. 21 q.e.d. Uwe Rösler SS98 1.3 Bedingte Wahrscheinlichkeit Definition 1.3.10 Eine stochastische Matrix auf S ist eine Matrix P = (pi,j )i,j∈S mit positiven Einträgen und die Summe jeder Zeile ist 1, X pi,j = 1 j∈S für alle i ∈ S. Eine stochastische Matrix liefert einen Übergangskern via K(i, {j}) = pi,j und umgekehrt. Zu vorgegebenem W-maß µ auf S definiere ein W-maß Pµ auf dem Stichprobenraum S N durch Pµ ((i1 , i2 , . . . , iN )) = µ({i1 })pi1 ,i2 pi2 ,i3 . . . piN −1 ,iN . P (Dies liefert mit P (A) = i∈A P ({i}) ein W-maß.) Sei Xn : S N → S die n-te Projektion. Not: X = i ist eine Kurzschreibweise für die Menge X −1 (i) = {ω | X(ω) = i}. Die Trennung durch Kommata steht für den Durchschnitt bzw. ein logisches und bei der Interpretation als Aussagen. Proposition 1.3.11 Im obigen Modell gilt P (X1 = i1 , X2 = i2 , . . . , Xn = in ) = µ({i1 })pi1 ,i2 pi2 ,i3 . . . pin−1 ,in P (Xn = i, Xn+1 = j) = P (Xn = i)pi,j P (Xn+1 = j | Xn = i) = pi,j Bew: P (X1 = i1 , X2 = i2 , . . . , Xn = in ) = X P (X1 = i1 , X2 = i2 , . . . , Xn = in , Xn+1 = in+1 . . . XN = iN ) in+1 ,...,iN ∈S = X in+1 ,...,iN ∈S = µ({i1 }) µ({i1 }) X µ({i1 }) X µ({i1 }) in+1 ,...,iN −1 ∈S = in+1 ,...,iN −2 ∈S ... = µ(i1 ) n−1 Y pij ,ij+1 j=2 X in+1 ,...,iN −1 ∈S = N −1 Y N −2 Y pij ,ij+1 )( j=2 N −2 Y X iN ∈S piN −1 ,iN ) pij ,ij+1 j=2 N −3 Y pij ,ij+1 j=2 pij ,ij+1 j=2 P (Xn = in , Xn+1 = in+1 ) = X P (X1 = i1 , X2 = i2 , . . . , Xn = in , Xn+1 = in+1 ) i1 ,...,in−1 ∈S = X i1 ,...,in−1 ∈S = pin ,in+1 µ({i1 }) X i1 ,...,in−1 ∈S = P (Xn+1 = j | Xn = i) = n Y pij ,ij+1 j=2 µ({i1 }) n−1 Y j=2 pin ,in+1 P (Xn = in ) P (Xn+1 = j, Xn = i) = pi,j . P (Xn = i) 22 pij ,ij+1 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler q.e.d. Definition 1.3.12 Eine Markoffkette mit Zustandsraum S ist eine Folge von Funktionen Xn : Ω → S, n ≤ N auf einem W-raum mit der Markoffeigenschaft P (Xn+1 = j | Xn = i) = P (Xn+1 = j | Xn = i, Xn−1 = in−1 , . . . , X1 = i1 ) für alle n < N, i, j, i1 , . . . , in−1 ∈ S. Der obige Prozess zu vorgegebener stochastischer Matrix P und Anfangsverteilung µ ist eine Markoffkette. Umgekehrt, ist X = (Xn )n eine Markoffkette, so können wir die stochastische Matrix pi,j = P (Xn+1 = j | Xn = i) und das Anfangsmaß µ({i}) = P (X1 = i) wiedergewinnen. (Eventuell muß die erhaltene Matrix ergänzt werden.) Gilt Ω = S N , so sprechen wir von dem kanonischen W-raum. Eine stochastische Matrix wird gerne als ein gewichteter Graph (V, E) dargestellt. Dabei sind die Knoten die Zustände (V = S) und die Kanten sind diejenigen Tupel (i, j) mit pi,j > 0. Ein Markoffgraph ist der obige Graph mit den Kantengewichten E 3 (i, j) 7→ pi,j . Bildlich malen wir einen Pfeil von i nach j und schreiben den Wert pi,j daran. Bsp: Markoffgraph. S = {1, 2, 3, 4} mit 1/2 1/2 0 0 ¾» ¾» ¾» ¾» 1/2 1/2 0 0 P = 0 1/4 1/2 1/4 6 6 6 6 u¾ u¾ u u ½¼ ½¼ ½¼ ½¼ 0 0 0 1 Bsp: Peter und Paul. Peter und Paul werfen die Münze. Der Gewinner bekommt eine Einheit von dem anderen. Jeder fängt mit einem Startkapital an und darf solange spielen, bis er pleite ist oder N Teilspiele gespielt sind. Mathem. Modell: Sei x0 das Anfangskapital von Paul und K das Gesamtkapital beider. Wir modellieren das Kapital Xn von Paul nach dem n-ten Spiel durch eine Markoffkette zu der stochastischen Matrix pi,i+1 = 1/2 = pi,i−1 für i = 1, . . . , K − 1 und p0,0 = 1 = pK,K . Das Anfangsmaß ist das Punktmaß δx0 , δx0 (A) = 11x0 ∈A auf x0 . (Übung: Wie sieht der Graph der Markoffkette aus?) Bsp: Polyas Urnenmodell. Um Polyas Urnenmodell als Markoffkette zu simulieren, setzen wir +S+sc S = ∪ki=1 {0, 1}i als Stichprobenraum, µ({0}) = WW+S = 1 − µ({1}), px,x1 = WW+S+|x|c mit |x| < k P| die Länge von x und s = i=1 x|xi und px,x = 1 für |x| = k. (Übung: Wie sieht der Graph der Markoffkette aus.) Bsp: Wright-Fisher. Im Wright-Fisher Modell ist die Ahnenreihe Yn (s) eine Markoffkette. Der Zustandsraum ist S und die Übergangsmatrix ist pi,j = P ({ω | (X(ω))(i) = j}) = ν({f ∈ F | f (i) = j}). 23 Uwe Rösler 1.4 1.4.1 SS98 1.4 Diverses Diverses Die Einschluß-Auschluß Formel Satz 1.4.1 (Einschluß-Ausschluß Formel) Seien Ai , i ∈ I, endlich viele Ereignisse. Es gilt die Einschluß-Ausschluß Formel \ X [ (1.1) (−1)1+|J| P ( Ai ). P ( Ai ) = i∈J J⊂I i∈I Beweis: Wir führen einen Induktionsbeweis nach der Anzahl n der Elemente in der Indexmenge I. Die Aussage gilt für n = 1 und für n = 2, P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ). Im Induktionsschritt zeigen wir die Aussage für n + 1, vorausgesetzt für n ist die Aussage richtig. n+1 [ P( Ai ) = P ( n [ i=1 i=1 = Ai ) + P (An+1 ) − P (( X i=1 (−1)1+|J| P ( X \ Ai ) ∩ An+1 ) Aj ) + P (An+1 ) − j∈J J⊂{1,...,n} = n [ (−1)1+|K| P ( \ X J⊂{1,...,n} (−1)1+|J| P ( \ j∈J (Aj ∩ An+1 )) Ak ). k∈K K⊂{1,...,n+1} Die letzte Summe wird aufgeteilt in die drei Summen über diejenigen K mit K ⊂ {1, . . . , n}, mit K = {n + 1} und K enthält {n + 1} ist aber ungleich. T Bemerkung In vielen Anwendungen ist P ( i∈J Ai ) nur von der Mächtigkeit |J| von J abhängig. Die Einschluß-Ausschluß Formel vereinfacht sich zu µ ¶ n n [ X n P ( Ai ) = (−1)1+k ak (1.2) k i=1 k=1 Tk mit ak := P ( i=1 Ai ). Beispiel Tanzparty: Bei einer Tanzparty mit n Ehepaaren werden die Tanzpartnerinnen zufällig zugelost. Mit welcher Wahrsch. werden zwei Ehepartner zusammengelost? Wenn wir die Ehepaare numerieren, so ist eine Auslosung eine zufällige Permutation π der Zahlen 1 bis N, der Herr k tanzt mit der Dame π(k). Der Stichprobenraum der Permutationen ist ein Laplaceraum, alle Permutationen sind gleichwahrsch. Gefragt ist nach der Wahrsch. eine Permutation π mit einem Fixpunkt π(x) = x zu wählen. Die Ereignisse Ak , der Herr k tanzt mit Dame k, sind die Permutationen π auf I := {1, 2, . . . , N } mit Fixpunkt k. Insgesamt gibt es (n! verschiedene Permutationen. Die Wahrsch. der Permutationen mit vorgeschrieben Fixpunkten J ⊂ I ist P( \ Aj ) = j∈J (n − |J|)! . n! Die Einschluß-Ausschluß Formel liefert P( [ i∈I Ai ) = n X (−1)1+k k=1 24 k! . Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Die Wahrsch. der Auslosung einer Tanzpaarung, in der kein Ehepaar miteinander tanzt ist P( \ Aci ) i∈I = 1 − P( [ i∈I Im Grenzwert n → ∞, beachte e−x = gegen den Wert 1e echt größer Null. P∞ xn n=0 n! , Ai ) = 1 − n X (−1)1+k k! k=1 . strebt diese Wahrscheinlichkeit (überraschenderweise) Es gibt viele Varianten der obigen Problemstellung. Zum Beispiel zur Weihnachtsfeier bringt jeder Teilnehmer ein Geschenk mit, das später unter den Teilnehmern ausgelost wird. Die ursprüngliche Problemstellung von de Montmort (1713) behandelt die Zulosung von n Karten zu n Spielern. Lemma 1.4.2 (Bonferoni Ungleichung) Seien An , n ∈ IN Ereignisse. Es gilt X X X P (An ) − P (Am ∩ An ) ≤ P (∪n An ) ≤ P (An ). n m<n n Allgemeiner, für 1 ≤ k ≤ n [ (−1)k (P ( An ) − n X (−1)1+|J| P ( \ j∈J J⊂I, |J|≤k Aj )) ≤ 0. Beweis: Betrachte Bn := An \(A1 ∩ . . . ∩ An−1 ). Die Ereignisse Bn sind paarweise disjunkt, S S i≤n Ai = ◦ i≤n Bi und Bn ⊂ An . Damit [ [ X P ( An ) = P ( ◦ Bn ) = P (Bn ). n n n Die zweite Ungleichung in der ersten Zeile folgt aus der Monotonie P (Bn ) ≤ P (An ). Für die erste argumentiere n−1 [ P (Bn ) = P (An ) − P ( i=1 (Ai ∩ An )) ≤ P (An ) − n−1 X i=1 P (Ai ∩ An ). q.e.d. Bemerkung 1.4.3 Obige Bonferoni-Ungleichung ist nur der einfachste Fall der allgemeineren Ungleichung \ X [ Aj )) ≤ 0 (−1)1+|J| P ( (−1)k (P ( An ) − n J⊂I, |J|≤k j∈J für 1 ≤ k ≤ n. 1.4.2 Besondere Aufgaben In einem Duell ist die Wahl der Waffen vorteilhaft. In vielen Spielsituationen ist die erste Wahl oder der erste Zug vorteilhaft. Dies ist nicht immer so. Beispiel Der Beste: Auf dem Tisch liegen drei Würfel, beschriftet mit den Zahlen (6, 6, 3, 3, 3, 3), (5, 5, 5, 2, 2, 2) und (4, 4, 4, 4, 4, 1). Spieler A läs̈t Spieler B die erste Wahl eines Würfels und wählt anschlies̈end einen verbleibenden. Dann wird gewürfelt und der Spieler mit der höheren Augenzahl gewinnt. Wer ist im Vorteil? Welche Seite nehmen Sie, A oder B.? Auflösung: Im direkten Vergleich gewinnt der erste Würfel gegen den zweiten mit Wahrsch. 24/36, der zweite gegen den dritten mit Wahrsch. 21/36 und der dritte gegen den ersten mit Wahrsch. 20/36. Es ist ein Nachteil als Erster einen Würfel zu wählen. In diesem Beispiel gibt es keinen absolut besten Würfel. 25 Uwe Rösler 1.5 SS98 1.5 Konzept: Unabhängigkeit Konzept: Unabhängigkeit Der Konzept der stochastischen Unabhängigkeit ist ein ganz wesentlicher Bestandteil der Stochastik. Dieses Konzept ermöglicht erst in seinen Konsequenzen den Aufbau einer Wahrscheinlichkeitstheorie. Geschichtlich gesehen wurde eine präzise mathematische Formulierung der Unabhängigkeit recht spät gegeben, erst im 20-ten Jahrhundert. Heuristik: Zwei Ereignisse A, B sind unabhängig, falls die Wahrsch. für das Eintreten von A nicht von der Kenntnis des Eintretens oder Nichteintretens des Ereignisses B abhängt. Diese Überlegung führt auf den Ansatz P (A | B) = P (A) bzw. P (B | A) = P (B). Definition 1.5.1 (unabhängig) Zwei Ereignisse A und B heißen paarweise unabhängig , falls die W-keit für den Eintritt beider gleich dem Produkt der Einzelw-keiten ist, P (A ∩ B) = P (A)P (B). Sind A und B unabhängig, so auch B, A und A, B c usw. Gilt P (A), P (B) > 0, so sind A, B unabhängig genau dann, wenn die Wahrsch. von A bedingt auf B gleich der Wahrsch. von A selbst ist. Bsp: Gefälschte Münze. Wir werfen zweimal mit einer eventuell gefälschten Münze. Sei p ∈ (0, 1) die W-keit für Kopf, identifiziert mit der 1. Wir betrachten die Ereignisse A, der erste Wurf zeigt ’Kopf’ und B, genau ein ’Kopf’ erscheint. Dies Experiment modellieren wir durch Ω := {0, 1}2 mit dem W-maß P ({(i, j)}) = pi+j q 2−i−j . Die Koordinatenabbildungen Xi : Ω → {0, 1} geben das Ergebnis im i-ten Wurf an. Die Ergebnisse des ersten Wurfes und des zweiten Wurfes sind unabhängig, P (X1 = i, X2 = j) = P (X1 = i)P (X2 = j). Die Ereignisse A := {X1 = 1} = {(1, 0), (1, 1)} und B := {X1 + X2 = 1} = {(0, 1), (1, 0)} haben die W-keiten P (A) = p, P (B) = P ({(0, 1)}) + P ({(1, 0)}) = 2p(1 − p), P (A ∩ B) = p(1 − p). Die beiden Ereignisse A, B sind genau dann paarweise unabhängig, falls p = 1/2 gilt. Jetzt zur allgemeinen formalen Definition der Unabhängigkeit. Definition 1.5.2 (unabhängig) Eine Familie Ai ∈ A, i ∈ I, von Ereignissen zu beliebiger Indexmenge I heißt (stochastisch) unabhängig, falls für jede endliche Auswahl von Ereignissen die W-keit des Durchschnitts gleich dem Produkt der Wahrsch. ist, Y \ P (Aj ). Aj ) = ∀J ⊂ I, |J| < ∞ P( j∈J j∈J Eine Familie Ai ⊂ A, i ∈ I, von Untermengen der Ereignismenge zu beliebiger Indexmenge I heißt unabhängig , falls jedes Repräsentantensystem Ai ∈ Ai , i ∈ I, eine Familie von unabhängigen Ereignissen bildet. Die drei Definitionen sind in aufsteigender Reihenfolge der Allgemeinheit, die dritte enthält die zweite und diese die erste als Spezialfall. Lemma 1.5.3 Die Ereignisse Ai , i ∈ I, sind genau dann unabhängig wenn die Mengensysteme {∅, Ai , Aci , Ω}, i ∈ I, unabhängig sind. Seien die Mengensysteme Ai ⊂ A, i ∈ I, stochastisch unabhängig. Sind IkS, k ∈ K, paarweise disjunkte Teilmengen der Indexmenge I, so sind die Mengensysteme Bk := i∈Ik Ai , k ∈ K der Vereiningung unabhängig. Bew: Die Rückrichtung der ersten Aussage ist einfach. Für die Hinrichtung beschränken wir uns oEdA auf endliche Indexmenge I. Wir werden zeigen: Sind die Ereignisse Ai , i ∈ I unabhängig, so auch Aci0 , Ai , i ∈ I\{i0 } für jedes i0 ∈ I. 26 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Sei J ⊂ I. \ \ \ Y Y Y P (Aci0 ∩ Aj ) = P ( Aj )−P ( Aj ) = P (Aj )− P (Aj ) = P (Aci0 ) P (Aj ) i0 6=j∈J i0 6=j∈J j∈J i0 6=j∈J j∈J i0 6=j∈J Eine sukzessive Anwendung liefert die Hinrichtung. Die zweite Aussage folgt direkt aus der Definition. q.e.d. Definition 1.5.4 Eine Familie von Zufallsgrößen Xi : Ω → Ωi , i ∈ I heißt unabhängig, falls die σ-Algebren X −1 (Ai ) = {X −1 (A) | A ∈ Ai }, i ∈ I unabhängig sind. Bemerkung: Seien Ei , i ∈ I durchschnittstabile Erzeuger der σ-Algebren Ai , i ∈ I. (Eine Teilmenge E des Ereignisraumes A heißt Erzeuger, falls A die kleinste, E enthaltende σ-Algebra ist. Er ist durchschnittsstabil, falls er abgeschlossen ist bzgl. endlichem Durchschnitt.) Dann reicht es und ist einfacher nachzuweisen, das̈ die Familie Xi−1 (Ei ), i ∈ I unabhängig ist. Das einfachste Beipiel für unabhängige Zgn ist mehrfaches Würfeln. Die Augenzahlen Xi des i-ten Wurfes, 1 ≤ i ≤ n sind unabhängig. In diesem Beispiel ist der W-raum ein Produktraum. Allgemeiner fomuliert, Q Bsp: Produktraum. Seien (Ωi , Pot(Ωi ), Pi ) diskrete W-räume. Sei Ω := i Ωi die Produktmenge Q und P = i Pi das Produktmaß. Die Koordinatenabbildungen X1 , . . . , Xn sind unabhängig 1.3.8. Zum Schluss eine Fallgrube, die wir umschifft haben. Paarweise Unabhängigkeit Ereignisse Ai , i ∈ I, heißen paarweise unabhängig , falls je zwei Ereignisse Ai , Aj , i 6= j unabhängig sind. Unabhängigkeit impliziert paarweise Unabhängigkeit. Die Umkehrung gilt nicht. Warnung: Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit. Ebenso impliziert Tripelunabhängigkeit P (A ∩ B ∩ C) = P (A)P (B)P (C) nicht Unabhängigkeit. Bsp: Paarweise unabhängig. Bei zweimaligem Münzwurf wie oben mit p = 1/2 betrachten wir zusätzlich das Ereignis C, der zweite Wurf zeigt ’Kopf’. Diese Ereignisse sind paarweise unabhängig, aber nicht unabhängig, (A ∩ B ∩ C = ∅). Nachrechnen. 27 Uwe Rösler 1.6 SS98 1.6 Zufallsgrößen und Verteilungen Zufallsgrößen und Verteilungen Unsere mathematischen Objekte sind die diskreten Wahrscheinlichkeitsräume. Wir betrachten nun die Morphismen, d.h. Abbildungen unter den Objekten, die die Struktur erhalten. Dies sind die Zufallsgrößen, (meßbare) Abbildungen von einem Stichprobenraum in einen anderen. Heuristik: Häufig interessieren uns nur gewisse Teilaspekte einer Person, wie Augenfarbe, Religion, Alter usw. Dies geht so weit, daß wir (der Staat) eine Person ω, die tatsächliche Realisierung als Menschen, nur noch durch qualitative und quantitative Größen X(ω) wahrnehmen. In der Tat können wir nie den ’wahren’ Menschen, so es diesen gibt, erfahren, sondern nur mit unseren Sinnen erfaßbare Größen. In Zufallsexperimenten interessiert weniger die tatsächlich zugrundeliegende Realisierung ω des Experiments, als vielmehr ein gewisser Teilaspekt X(ω). Dieser Teilaspekt ist eine Abbildung X des Stichprobenraumes Ω in einen anderen Raum Ω0 . Jede derartige Funktion heißt Zufallsgröße oder Zufallsvariable . Die Verwendung des Namens Zufallsvariable für eine Funktion ist etwas unglücklich. An der Abbildung X ist nichts zufällig oder variabel. Zufällig erscheinen die konkret beobachteten Realisierungen X(ω). Diese variieren mit der Realisierung und sind in diesem Sinne zufällig. Besser ist der ältere deutsche Begriff Zufallsgröße. Für Zufallsgrößen verwenden wir stets einen großen Buchstaben, z.B. X, Y, Z. Für das beobachtete Ergebnis eines tatsächlichen Experiments verwenden wir kleine Buchstaben, z.B. x, y, z. Verschieden Realisierungen ω können dieselbe Beobachtung X(ω) = x im Experiment liefern. Die Wahrsch. von x ist die Wahrsch. aller Realisierungen ω mit der Ausprägung X(ω) = x. Eine strikte Einhaltung dieser formalen Unterscheidung vereinfacht das Denken. Mathematische Präzisierung: Eine Zufallsgröße ist eine meßbare Abbildung X : Ω 7→ Ω0 von einem meßbaren Raum (Ω, A) in einen anderen meßbaren Raum (Ω0 , A0 ). (Jedes Urbild X −1 (A0 ) einer meßbaren Menge A0 ∈ A0 muß meßbar (∈ A) sein.) Im Falle diskreter Stichprobenräume mit der Potenzmenge als Ereignisraum ist jede Abbildung meßbar. Das Default setting einer Zufallsgröße ist eine reellwertige Abbildung X : Ω 7→ IR. In diesem Fall versehen wir die reellen Zahlen IR mit der Borel σ−Algebra, der kleinsten σ−Algebra bezüglich der alle offenen Mengen meßbar sind. Alternativ betrachten wir die Abbildung X : Ω 7→ X(Ω). Für diskrete W-räume ist der Bildraum X(Ω) abzählbar und diesen versehen wir mit der Potenzmenge als Ereignisraum. Notation: Anstelle der aufwendigen Schreibweise X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} benutzen wir die kurze Form {X ∈ A} oder X ∈ A. Auch die Menge X ≤ x sollte jetzt verständlich sein. Die Mengenklammern und ω werden nach Möglichkeit weggelassen, z.B. bei der Wahrsch. P (X ∈ A). Definition 1.6.1 (Verteilung) Sei (Ω, A, P ) ein W-raum und (Ω0 , A0 ) ein meßbarer Raum. Das W-maß Q : A0 → IR definiert durch Q(A0 ) := P (X −1 (A0 )) heißt das durch X transportierte oder induzierte W-Maß. (Übung: Q ist W-maß.) Die Verteilung einer Zufallsgröße X : Ω 7→ Ω0 ist das durch X transportierte W-Maß. Für die Verteilung Q von X schreiben wir P X −1 oder XP oder PX oder P X oder auch einfach P . Hat die Verteilung einen besonderen Namen, so bekommt auch die Zg den sinngemäßen Namen, wie Bernoullizufallsgröße oder Poissonzufallsgröße usw. Für diskrete W-räume (Ω, ¶(Ω), P ) ist (Ω0 , ¶(Ω0 ), P X ) ein diskreter W-raum. Die Wahrsch. eines Ereignisses A0 ∈ A0 läßt sich als eine Summe schreiben, X X PX (A0 ) = PX (x) = P ({ω}). x∈A0 ω∈X −1 (A0 ) 28 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Die Summation ist über höchstens abzählbar viele Terme ungleich Null, da die Menge {ω 0 ∈ Ω0 | P (X = ω 0 ) > 0} höchstens abzählbar ist. d-dimensionale Zgn: Andere wichtige Zufallsvariablen X sind IRd -wertige Zufallsvariablen. Der Bildraum ist der d-dimensionale reelle Raum IRd mit der Borel σ−Algebra. (Auch die Potenzmenge als σ-Algebra würde es für diskrete W-räume tun.) Wir schreiben auch X = (X1 , X2 , . . . , Xd ) mit Xi die i−te Projektion. Die Verteilung von X = (X1 , X2 , . . . , Xn ) heißt auch die gemeinsame Verteilung der Zufallsvariablen X1 , . . . , Xn . Sie ist durch die Angabe aller Wahrsch. P (X1 ∈ A1 , . . . , Xn ∈ An ) bestimmt. Die Verteilung von Xi , bzw. von (Xi1 , Xi2 , . . . , Xik ) mit verschiedenen Indizes ij , heißt i−te Marginalverteilung bzw. Marginalverteilung zu {i1 , . . . , ik }. Philosophie: Die reale Welt können wir nur über unsere 5 Sinne erfahren. Jede Frage nach dem wirklichen Sein ergibt keinen Sinn. Ebenso können wir vom zugrundeliegenden W-raum nur über Zgn Information erlangen. Der zugrundeliegende W-raum ist meistens relativ unwichtig, und muß nur existieren. Zunehmend wichtig sind die Zgn und deren transportierter W-raum. 1.6.1 Verteilung Einige Verteilungen kommen besonders häufig vor. • Bernoulliverteilung: Ber(p) zum Parameter p ∈ [0, 1]. Die Zg nimmt nur die Werte 1 oder 0 mit Wahrsch. p bzw. q = 1 − p an, P (X = 1) = p. Das transportierte Maß ist das Bernoullimaß. Das Standardbeispiel ist der Münzwurf mit der Zg X als Wert 1 für Kopf oder 0 für Zahl. • Binomialverteilung: Bin(n, p) zum Parameter (n, p)(n, p) ∈ IN × [0, 1]. Die Zg nimmt nur die Werte {0, . . . , n} an. Das Bildmaß P X −1 ist die Binomialverteilung Bin(n, p) falls µ ¶ n k P (X = k) = p (1 − p)n−k . k Das Standardbeispiel ist n-maliges werfen einer gefälschten Münze, p sei die Wahrsch. für Kopf (1) und X bezeichne die Gesamtanzahl der Kopfwürfe. • Geometrische Verteilung: Geo(p) zum Parameter p ∈ [0, 1) Die Zg nimmt nur natürliche Zahlen an. Die Verteilung der Zg ist die geometrische Verteilung Geo(p) falls P (X = n) = (1 − p)pn . Standardbsp. Wir werfen eine gefälschte Münze, p sei die Wahrsch. für Kopf (1). Die Anzahl X der Kopfwürfe vor dem ersten Zahlwurf ist eine geometrisch verteilte Zg zum Parameter p. • Poissonverteilung: Poi(λ) zu dem Parameter λ ∈ (0, ∞). Die Zg X nimmt ganze positive Zahlen an und ist Poissonverteilt Poi(λ) verteilt falls P (X = n) = exp(−λ)λn /n! für alle n = 0, 1, 2 . . . gilt. • Multinomialverteilung: zu den Parameter (n, r, p) ∈ IN × IN × [0, 1]n , nimmt Werte k = (k1 , . . . , kn ) ∈ (ZZ + )n an mit k1 + k2 + . . . + kn = r µ ¶ n k P (X = k) = p . k P i pi = 1. Die Zg Das Standardbeispiel ist das unabhängige Verteilen von n Kugeln auf r Urnen, wobei pi die Wahrsch. ist, die Kugel in die i−te Urne zu legen. 29 Uwe Rösler 1.7 SS98 1.7 Unabhängigkeit Unabhängigkeit Eine Familie von Zufallsgrößen Xi : Ω 7→ Ωi , i ∈ I, heißt unabhängig, falls die Mengensysteme Xi−1 (Ai ) unabhängig sind. Gleichbedeutend mit obiger Definition ist, P( \ i∈J {Xi ∈ Ai }) = Y i∈J P (Xi ∈ Ai ) für alle endlichen Teilmengen J aus der Indexmenge und alle Ereignisse Aj ∈ Aj , j ∈ J. Satz 1.7.1 Seien die Zufallsgrößen Xi : Ω 7→ Ωi , i ∈ I unabhängig und Yi : Ωi 7→ · weitere Zgn. Dann sind die Zufallsgrößen Yi ◦ Xi , i ∈ I, unabhängig. Beweis: \ \ Y Y P ( {Yj (Xj ) ∈ Aj }) = P ( {Xj ∈ Yj−1 (Aj )}) = P (Xj ∈ Yj−1 (Aj )) = P (Yj (Xj ) ∈ Aj ). j∈J j∈J j∈J j∈J q.e.d. Bemerkung: Sind die Xi unabhängig, so auch f (X1 , X2 , . . . , Xn ) und g(Xn+1 , . . . , Xn+m ), mit f, g Funktionen in mehreren Variablen. Allgemeiner: Sei Ik , k ∈ K, eine Partition (=disjunkte Q Zerlegung) der Indexmenge I und seien Zk : i∈Ik Ωi → · Zgn. Dann sind die Zgn Zk (Xi , i ∈ Ik ) : Ω 7→ ·, unabhängig. Hintergrund ist das Lemma 1.5.3, die Familie (Xi )i∈Ik , k ∈ K, bzw. die von diesen erzeugte σ−Algebren, sind unabhängig. Existenz unabhängiger Zgn: Wir können uns stets unabhängige Zufallsvariablen X1 , . . . , Xn i = 1, . . . , n zu endlich vielen vorgegebenen eindimensionalen Marginalverteilungen Pi = P Xi , Q Qn n verschaffen. Seien (Ωi , Ai , Pi ), 1 ≤ i ≤ n W-Räume, (Ω := i=1 Ωi , A = ¶(Ω), P := i=1 Pi ) der Produktraum und Xi : Ω 7→ Ωi die i-te Koordinatenabbildung. Dann sind Pi die Marginalverteilungen P Xi der unabhängigen Zufallsvariablen X1 , . . . , Xn . Nach Definition gilt Pi (Ai ) = P (Ω1 . . . × Ωi−1 × Ai × Ωi+1 . . . Ωn ) = P (Xi−1 (Ai )), \ Y P ( Xi−1 (Ai )) = P (A1 × . . . × An ) = P (A1 ) · . . . · P (An ) = P (Xi−1 (Ai )). i i Warnung: Diese Konstruktion funktioniert nur für endlich viele Koordinaten problemlos. Bereits zur Konstruktion abzählbarer Produktwahrscheinlichkeitsräume benötigen wir den tieferen Satz von Caratheodory über Maßerweiterungen aus der Maßtheorie. Allein die Existenz einer von abzählbar vielen unabhängigen Zufallsvariablen, wie sie beim Münzwurf auftreten, ist nicht offensichtlich. Wir setzen, falls notwendig, die Existenz voraus. Bernoulli Experimente: Eine gefälschte Münze wird n mal unabhängig geworfen, p sei die Wahrsch. für Kopf. Die Zg Xi sei 1, falls der i-te Wurf Kopf war, und anderenfalls 0. Dies sind unabhängig, Bernoulli verteilte Zgn. Die Summe dieser ist binomial Bin(n, p) verteilt. Als W-Raum würde sich der Produktraum Ω := {0, 1}n mit der Potenzmenge anbieten. Die Zufallsvariablen Xi sind genau die Projektionen auf die i-ten Koordinaten. Proposition 1.7.2 Die Summe von n unabhängigen, identisch Bernoulli Ber(p) zum Parameter p verteilten Zufallsvariablen ist binomialverteilt Bin(n, p). 30 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Pn Beweis: Seien Xi die unabhängigen Bernoulli Zg und Sn = i=1 Xi die n−te Partialsumme. Wir zeigen den Induktionsschritt von n nach n + 1. P (Sn+1 = k) = P (Sn = k, Xn+1 = 0) + P (Sn = k − 1, Xn+1 = 1) = P (Sn = k)P (Xn+1 = 0) + P (Sn = k − 1)P (Xn+1 = 1) µ ¶ µ ¶ µ ¶ n k n−k n n + 1 k n+1−k k−1 n−k+1 = p q q+ p q p = ... = p q k k−1 k 31 Uwe Rösler 1.8 SS98 1.8 Erwartungswerte Erwartungswerte Wir führen den Erwartungswert zuerst nur für Zgn X ein, die höchstens abzählbar viele verschiedene Werte annehmen können. Definition 1.8.1 (Erwartungswert) Der Erwartungswert E(X) einer positiven Zufallsgröße X : Ω 7→ IR mit abzählbar vielen Werten ist X X(ω)P ({ω}). E(X) := ω∈Ω Der Erwartungswert E(X) einer Zufallsgröße X mit E(X + ) < ∞ oder E(X − ) < ∞ ist E(X) := E(X + ) − E(X − ). Wir haben hier die Zerlegung einer Funktion f = f + − f − in den Positivteil f + := f ∨ 0 und den Negativteil f − := (−f ) ∨ 0 benutzt. Eine Zg X heißt integrierbar, falls E(|X|) < ∞ gilt. Sprachgebrauch: Der Erwartungswert E(X) heißt auch erstes Moment von X oder durchschnittlicher Wert von X. E|X| ist das erste absolute Moment. Notation: EX = E(X), EX 2 = E(X 2 ) und E 2 X = (E(X))2 . Bemerkung Die Verwendung desPErwartungswertes impliziert stets dessen Wohldefiniertheit. Dazu benötigen wir, daß die Summe ω X(ω)P (ω) existiert und unabhängig ist von der Reihenfolge der Summation. Dies wird (genau) durch die Voraussetzung EX + oder EX − endlich gegeben. Der Regelfall ist eine integrierbare Zg. (Beachte: E|X| < ∞ ⇔ EX + < ∞, EX − < ∞.) Der Erwartungswert kann die Werte +∞ und −∞ annehmen, ist für integrierbare Zgn aber stets endlich. Durch entsprechende Umordnung erhalten wir X X E(X) = X(ω)P ({ω}) = xP (X = x). ω∈Ω x∈IR Zur Summation tragen nur abzählbar viele Punkte x bei. Der Erwartungswert einer Zg hängt nur von der Verteilung der Zg ab, nicht aber vom zugrundeliegenden W-raum. Binomialverteilung: Der Erwartungswert einer Zg X mit Binomialverteilung zu den Parametern n ∈ IN und p ∈ (0, 1) ist np. Dies ergibt sich durch Nachrechnen. Eleganter ist die Argumentation: Die Summe Sn von n unabhängigen Bin(p) verteilten Zgn X1 , . . . , Xn ist Bin(n, p) verteilt. Damit ESn = n X k=0 X µn¶ pk q n−k = ... = np kP (X = k) = k k k mit q = 1 − p. Hier einige Rechenregeln für Erwartungswerte. Lemma 1.8.2 Sei a eine reelle Zahl und X, Y Zg. mit endlichem Erwartungswert. (i) E(aX) = aE(X) Skalarität (ii) E(X + Y ) = EX + EY Linearität (iii) 0 ≤ X ⇒ 0 ≤ EX Positivität (iv) X ≤ Y ⇒ EX ≤ EY Ordnungserhaltung (v) E|X + Y | ≤ E|X| + E|Y | Dreiecksungleichung 32 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 (vi) E(a) = a SS98 Uwe Rösler (vii) |EaX| ≤ |a|E|X| (viii) E|X| = 0 ⇔ P (X = 0) = 1 (ix) E(supi Xi ) ≥ supi EXi (x) E(inf i Xi ) ≤ inf i EXi Beweis:Die Beweise sind mehr eine Fingerübung und dem Leser überlassen. Die wesentlichen Eigenschaften sind zusammengefaßt in einer Merkregel. Dazu betrachten wir den Erwartungswert als eine Abbildung von dem Vektorraum V := {X : Ω 7→ IR | E|X| < ∞} in die reellen Zahlen via X 7→ EX. Merkregel: Der Erwartungswert ist eine positive lineare Abbildung (auf dem Vektorraum der Zufallsvariablen mit endlichem ersten absoluten Moment). Binomialverteilung: Der Erwartungswert einer binomialverteilten Zg S zu den Parametern n ∈ IN und p ∈ (0, 1) ist np. Dies ergibt sich durch Nachrechnen n X X µn¶ ES = kP (S = k) = k pk q n−k = ... = np k k=0 k mit q = 1−p. Eleganter ist die Argumentation: Die Summe S von n unabhängigen Bin(p) verteilten Zgn X1 , . . . , Xn ist Bin(n, p) verteilt. Damit ES = n X EXi = nEX1 = np. i=1 Satz 1.8.3 (Transformationssatz) Seien X : Ω 7→ IR und Y : IR 7→ IR Zgn. Es gilt EP (Y ◦ X) = EP X (Y ) sofern eine der beiden Seiten existiert. Beweis: EP (Y ◦ X) = X Y (X(ω))P (ω) = ω X Y (x)P (X = x) = x X yP (Y (X) = y) = EPX (Y ). y Besonders wichtig ist der Multiplikationssatz, der neben der linearen Struktur die Produktstruktur aufzeugt. Satz 1.8.4 (Multiplikationssatz) Für unabhängige integrierbare Zgn X1 , . . . , Xn ist der Erwartungswert des Produktes gleich dem Produkt der Erwartungswerte. Y Y E( Xi ) = E(Xi ). i i Beweis: Y X E( Xi ) = ω i = X à n Y i=1 ! Xi (ω) P (ω) x1 . . . xn P (X1 = x1 , . . . , Xn = xn ) x1 ...,xn = X x1 . . . xn P (X1 = x1 ) . . . P (Xn = xn ) = x1 ,...,xn Y i 33 E(Xi ). Uwe Rösler SS98 1.8 Erwartungswerte Beispiel: Sie werfen eine gefälschte Münze und gewinnen bei Kopf, verlieren bei Zahl. Ihr Einsatz ist Ihr gesamtes Kapital, welches entweder verdoppelt wird oder Sie sind pleite. Wie groß ist der erwartete Gewinn nach n Runden? Üblicherweise läßt sich der Erwartungswert direkt aus der Definition berechnen. Hier ein anderes, nicht triviales Beispiel zur Berechnung des Erwartungwertes. Quicksort: Quicksort ist ein 1961 von Hoare vorgestellter Sortieralgorithmus. Wir beschreiben die Originalversion des zufälligen Algorithmus. Sei Ln eine zu sortierende Menge oder Liste von n verschiedenen Zahlen. • Wähle zufällig aus der Menge (Urne) mit Gleichverteilung ein Element, • vergleiche alle anderen damit und • bilde die Menge der strikt kleineren und die Menge der strikt größeren Zahlen. • Für jede dieser Mengen rufe rekursiv den Algorithmus auf. Dieser Algorithmus terminiert. Schematisch erhalten wir x x x x x x x x x x x s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s Die Laufzeit des Algorithmus ist zufällig. Diese Zeit ist im wesentlichen proportional zur benötigten Anzahl Qn der Vergleiche. Die benötigte Vergleichsanzahl für eine Liste der Länge n sind n − 1 Vergleiche zur Bildung der Teillisten und dann die benötigten Vergleichen zur Sortierung der Liste der kleineren und der Liste der größeren Elemente. Wir erhalten die mathematische rekursive Beziehung D Qn = n − 1 + QUn −1 + Qn−Un , n ∈ IN . Hierbei sind Q. , Q. , Un unabhängige Zgn. Die Zg Un hat eine gleichmäßige Verteilung auf D {1, . . . , n}. Die Verteilung von Qm , Qm sind jeweils gleich und rekursiv bestimmt. Das Symbol = steht für Gleichheit in Verteilung. Hier interessiert uns nur die erwartete Anzahl an := EQn der Vergleiche. Die obige rekursive Beziehung ergibt an = n − 1 + EaUn + Ean−Un , n ∈ IN, a0 = 0 = a1 . Diese rekursive Gleichung ergibt an an−1 2 = + . n n−1 n Hieraus ergibt sich sofort an = 2n n X 1 i=2 i 34 ≡ 2n ln n. Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 1.8.1 SS98 Unabhängigkeit Uwe Rösler Proposition 1.8.5 Seien Xi , i = 1, 2, . . . , n unabhängig. Dann gilt der Erwartungswert des Produktes gleich dem Produkt der Erwartungswerte. In Formeln, alles wohldefiniert vorausgesetzt, E( n Y Xi ) = n Y E(Xi ). i=1 i=1 Beweis: Es reicht den Beweis nur für zwei unabhängige Zgn zu führen. X X XX E(XY ) = P (XY = z) = xyP (X = x, Y = y) = xP (X = x)yP (Y = y) = E(X)E(Y ). z∈IR 1.8.2 x x,y∈IR y Momente Den Erwartungswert E(X) nennt man auch Moment oder genauer erstes Moment. Das absolute erste Moment ist E(|X|). Das p-te Moment ist E(X p ), (Mit der Konvention xp := |x|p signx und vorausgesetzt E(X p ) ergibt Sinn.) Ebenso spricht man vom p-ten absoluten Moment E(|X|p ), vom exponentiellen Moment E(exp(X)), logarithmischen, usw. Ein zentriertes Moment einer Zufallsvariable X ist der Erwartungswert der zentrierten Zufallsvariable X − EX. Der Leser wird nach diesem Schema selbst neue Sprachkombinationen erfinden können (die ich ad hoc verstehe). Das zweite zentrierte Moment einer Zufallsvariablen X heißtpVarianz der Zufallsvariablen X. 2 Notation: Var(X) = E(X − EX)2 := σX .Die Wurzel σX := Var(X) der Varianz von X heißt Streuung. Die Covarianz Cov(X, Y ) von zwei Zufallsvariablen X, Y ist der Erwartungswert E((X−EX)(Y − EY )) des Produkts der zentrierten Zufallsvariablen. Der Korrelationskoeffizient ρ := ρ(X, Y ) = Cov(X, Y ) σX σY zweier Zgn X, Y ist die Kovarianz dividiert durch das Produkt der Streuungen. 1.8.3 Varianz Proposition 1.8.6 Seien X, Y Zufallsgrößen mit endlichem zweiten Moment. Es gelten die Rechenregeln (i) Var(aX + b) = a2 Var(X), a, b ∈ IR. (ii) Var(X) = E(X 2 ) − E 2 (X) (iii) Var(X) = 0 ⇔ P (X 6= EX) = 0 Beweis: Var(X) = X ω = X (X(ω) − EX)2 P (ω) (X(ω)2 − 2X(ω)E(X) + (E(X))2 P (ω) = E(X 2 ) − E 2 (X) Var(aX + b) = E(aX + b − E(aX + b))2 = a2 Var(X) Die nächste Behauptung folgt aus Lemma 1.8.28. q.e.d. P P Lemma 1.8.7 Für unabhängige Zgn X1 , . . . , Xn ist die Varianz linear (Var i Xi = i VarXi ). P P P P Beweis: Var( i Xi ) = Var( i (Xi − EXi )) = i,j E((Xi − EXi )(Xj − EXj )) = i E(Xi − P EXi )2 = i VarXi . 35 Uwe Rösler SS98 1.8 Erwartungswerte Satz 1.8.8 (Cauchy-Schwarz Ungleichung) Für zwei Zgn X, Y mit endlichem zweiten Moment gilt die Ungleichung E 2 (XY ) ≤ E(X 2 )E(Y 2 ). Gleichheit gilt genau dann, wenn eine Zg mit Wahrsch. 1 ein Vielfaches der anderen ist (∃a, b ∈ IR, ab 6= 0 : P (aX = bY ) = 1). Beweis:O.E.d.A sei E(Y 2 ) > 0. Betrachte das Minimum der Funktion 0 ≤ E(X + aY )2 = EX 2 + 2aE(XY ) + a2 EY 2 in der reellen Variablen a ∈ IR. Das Minimum wird im Wert a = −E(XY )/EY 2 angenommen. Diesen a Wert eingesetzt ergibt die Behauptung. Gleichheit gilt genau für E(X + aY )2 = 0, welches äquivalent zu P (X + aY = 0) = 1 ist. q.e.d. Beispiel: Die Korrelationskoeffizienten erfüllen −1 ≤ ρ(X, Y ) ≤ 1. Dies folgt aus der CauchySchwarz Ungleichung Cov2 (X, Y ) ≤ Var(X)Var(Y ). Übung: Der Erwartungswert EX minimiert die Funktion E(X − a)2 in a ∈ IR. 1.8.4 Kovarianz Proposition 1.8.9 Seien a, b reelle Zahlen und X, Y Zufallsvariablen mit endlichem zweiten Moment. Es gelten die Rechenregeln (i) Cov(X, X) = Var(X) (ii) Cov(X, Y ) = Cov(Y, X) (iii) Cov(X, Y ) = E(XY ) − EXEY (iv) Cov(aX + b, Y ) = aCov(X, Y ) (v) Cov2 (X, Y ) ≤ Var(X)Var(Y ) P P P (vi) Var( i Xi ) = i Var(Xi ) + i6=j Cov(Xi , Xj ) (vii) X, Y unabhängig ⇒ Cov(X, Y ) = 0 Beweis: Die fünfte Ausage folgt aus der Cauchy-Schwarz Ungleichung. Für die sechste nehmen wir o.E.d.A. zentrierte Zufallsvariablen X1 , . . . , Xn an. Aus X X X EXi Xj EXi2 + E(Xi Xj ) = Var(X1 + . . . + Xn ) = i 1≤i,j≤n folgt die Aussage. Der letzte Teil folgt aus 1.8.4 i6=j q.e.d. Definition 1.8.10 (unkorreliert) Zwei Zgn X, Y heißen unkorreliert, falls Cov(X, Y ) = 0 gilt. Dies ist äquivalent zu E(XY ) = EXEY. Unabhängigkeit impliziert Unkorreliertheit, aber im allgemeinen gilt nicht die Umkehrung. Beispiel: Die Zg X nehme die Werte −2, −1, 1, 2 an mit jeweils derselben Wahrsch. 1/4. Dann sind die Zgn X, X 2 unkorreliert, aber nicht unabhängig, (EX 3 = 0 = EXEX 2 , 1/4 = P (X = 2, X 2 = 4) 6= P (X = 2)P (X 2 = 4) = 1/8.) Merkregel: Die Covarianz ist eine symmetrische Bilinearform auf dem Raum der Zufallsvariablen mit zweitem endlichen Moment. 36 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 Interpretation SS98 Uwe Rösler Der Erwartungswert gibt die durchschnittliche Größe einer Zufallsvariablen an (siehe auch den Abschnitt über das schwache Gesetz der großen Zahl). Der Erwartungswert ist physikalisch der Schwerpunkt einer Masseverteilung. Legen wir auf jede reelle Zahl x die physikalische Masse P ({x}) eines W-Maße P, so ist der Erwartungswert exakt der Schwerpunkt aller dieser Massen, d.h. wir können die gewichtete Zahlengerade genau in diesem Punkt auf eine Spitze stellen, und die gewichtete Zahlengerade bleibt im Gleichgewicht. Die Varianz ist eine Kenngröße für die Streuung des W-maßes (Masse). Je größer die Varianz, desto mehr Streuung. Der Extremfall Var(X) = 0 von Varianz Null entspricht keiner Streuung, die Zufallsvariable X nimmt nur einen einzigen Wert X ≡ EX an. Mit wachsender Varianz streuen die Realisierungen immer stärker um den Erwartungswert. Die Kovarianz Cov(X, Y ) zweier Zufallsvariabler ist eine Kenngröße für lineare Abhängigkeit der Zgn X und Y . Üblicherweise wird der Korrelationskoeffizient Cov(X, Y ) ∈ [−1, 1], ρX,Y = σX σY p p die Kovarianz bereinigt um die Streuungen σX = Var(X),σY = Var(Y ), bevorzugt. Positive Korrelation zeigt eine Tendenz zu gleichen Vorzeichen für die zentrierten Zgn X, Y, negative Korrelation zeigt eine Tendenz zu ungleichenVorzeichen. Die Extremfälle sind ρ = 1 falls X−EX = a(Y − EY ) für ein a > 0 und ρ = −1 falls a < 0. Y r Y Y r r r 6 6 6 r r r r r r r r r r r r X X X r r r r r Die Bilder zeigen positive Korrelation, keine Korrelation und negative Korrelation. Die Extremwerte des Korrelatioskoeffizienten ρ sind ρ = 1 und ρ = −1. Diese Fälle entsprechen X−EX = a(Y −EY ) für ein a > 0 bzw. a < 0. Dies ist eine Konsequenz aus der Cauchy-Schwarz Ungleichung. 1.8.5 Konvergenzsätze Eine Zg mit Wertebereich IR = IR ∪ {−∞, ∞} heißt erweitert. Satz 1.8.11 (Monotone Konvergenz) Sei Xn , n ∈ IN, eine steigende (fallende) Folge von erweiterten Zgn und sei EX1 > −∞ (EX1 < ∞.) Dann gilt E lim Xn = lim EXn . n n Beweis: Sei X = limn Xn . Die Aussage folgt (Übung) aus P ω (X(ω) − Xn (ω))P (ω) → 0. Bemerkung: Ein Spezialfall ist: Sei An eine gegen A aufsteigende (oder absteigende) Folge von Ereignissen. Dann gilt P (An ) % P (A). Beachte E11B = P (B). Lemma 1.8.12 (Lemma von Fatou) Sei Xn , n ∈ IN, eine Folge erweiterter Zgn. Sind die Xn gleichmäßig nach unten beschränkt durch eine integrierbare Funktion, so gilt lim inf EXn ≥ E lim inf Xn . Sind die Xn gleichmäßig nach oben beschränkt durch eine integrierbare Zg, so gilt lim sup EXn ≤ E lim sup Xn . 37 Uwe Rösler SS98 1.9 Integrationstheorie Beweis:Definiere Yn := inf i≥n Xi . Die Folge Yn , n ∈ IN, konvergiert aufsteigend gegen lim inf n Xn . Mit dem Satz von der monotonen Konvergenz erhalten wir EXn ≥ EYn %n E lim inf Xn . n Für die zweite Aussage betrachte die Folge −Xn und beachte lim inf(−Xn ) = − lim sup Xn .q.e.d. Satz 1.8.13 (Dominierte Konvergenz) Sei Xn , n ∈ IN, eine konvergente Folge von erweiterten Zgn. Weiterhin gebe es ein Y mit E|Y | < ∞ und |Xn | ≤ Y für alle n ∈ IN . Dann gilt lim EXn = E lim Xn . n Beweis: Dies ist eine Folgerung aus dem Lemma von Fatou. Sei X der Grenzwert der Folge (Xn )n . Sei Un := inf k≥n Xn und Vn := supk≥n Xn . Die Folge Un ist punktweise aufsteigend gegen X und die Folge Vn (punktweise) absteigend dagegen. Der Satz von der monotonen Konvergenz liefert limn EUn = EX = limn EVn . Damit EX = lim inf EUn ≤ lim inf EXn ≤ lim sup EXn ≤ lim sup EVn = EX. n n n n q.e.d. Die Forderung einer Schranke ist essentiell. Als Beispiel betrachten wir: Ω = IN versehen mit dem W-maß P (i) = c/i2 mit c geeignet. Sei fn (i) := i11i≥n . Es gilt limn fn =≡ 0, lim Z fn dP = ∞ > Z lim fn dP = 0. n Der Satz über monotone Konvergenz ist nicht anwendbar. 1.9 Integrationstheorie Wir wollen den Erwartungswert allgemeiner Zgn definieren. Mathematisch führt dies auf eine ordnungserhaltende, lineare und σ-stetige Fortsetzung I des W-maßes µ auf Funktionen. Ein Maß µ fassen wir als eine Abbildung auf Indikatorfunktionen 11A auf, µ(11A ) = µ(A). Diese Abbildung setzen wir linear fort zu einer Abbildung µ̃ auf der Menge T der Treppenfunktionen Pn i=1 ai 11Ai via X X µ̃( ai 11Ai ) = ai µ(Ai ). i i Damit ist die algebraische Erweiterung beendet. Wir erweitern die Abbildung µ̃ zu I durch einen geeigneten Konvergenzbegriff via I(f ) = lim I(fn ) n mit fn konvergiert gegen f. Als Konvergenzbegriff benutzen wir Ordnungskonvergenz oder topologische Konvergenz. Ordnungsstruktur Ein geeigneter Konvergenzbegriff auf den reellen Zahlen wird durch die Ordnungsstruktur geliefert, fn konvergiert aufsteigend punktweise gegen f . Vektorraumstruktur Ein anderer gern gewählter Zugang ist es, T als Vektorraum zu betrachten, mit einer Norm zu versehen, bezüglich dieser Norm abzuschließen und dann das Funktional I auf den Abschluß von T stetig zu erweitern. 38 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 1.9.1 SS98 Algebraische Erweiterung Uwe Rösler Eine Treppenfunktion ist eine meßbare Abbildung f : Ω 7→ IR mit endlich vielen Werten. Eine Treppenfunktion f ist stets eindeutig darstellbar in der Standarddarstellung als Treppenfunktion N X an 11f −1 (an ) . n=1 Hierbei sind a1 , ..., aN ∈ IR die angenommenen Werte. Sei T = T (Ω, IR) die Menge der Treppenfunktionen. Dies ist ein Vektorraum. (Nachrechnen). Dieser Vektorraum wird linear aufgespannt von den Indikatorfunktionen 11A , A ∈ A. Wir betrachten den positiven Kegel T + = T (Ω, IR+ ). Proposition 1.9.1 Die Funktion I : T + 7→ IR definiert durch I(f ) := N X an µ(f −1 (an )) (1.3) n=1 ist eine additive, skalare und isotone Funktion mit I(0) = 0. Beweis: I ist wohldefiniert, da die Standarddarstellung eindeutig ist. • Additivität. Seien αi , βj die möglichen Werte von f bzw. g. X X X 11αi +βj =an µ(f −1 (αi ) ∩ g −1 (βj )) an an µ((f + g)−1 (an )) = I(f + g) = n n = X (αi + βj )µ(f i,j = XX i j −1 (αi ) ∩ g −1 i,j (βj )) αi µ(f −1 (αi )) ∩ g −1 (βj )) + XX i j βj µ(f −1 (αi )) ∩ g −1 (βj )) = I(f ) + I(g) Die Skalarität und Isotonie sind einfach. q.e.d. Hintergrund Ordnungsstruktur Sei A eine Menge. Eine Relation ist eine Teilmenge R von A × A. Die Komposition oder Verknüpfung zweier Relationen R, Q ist gegeben durch R ◦ Q =: {(a, c) | ∃b ∈ A : (a, b) ∈ R, (b, c) ∈ Q}. Das Inverse einer Relation ist R−1 := {(b, a) | (a, b) ∈ R}. Eine Relation heißt reflexiv, falls die Relation die Diagonale {(a, a) | a ∈ A} enthält. Eine Relation heißt symmetrisch, falls die Relation gleich ihrer Inversen ist. Eine Relation heißt antisymmetrisch, falls der Durchschnitt der Relation mit der Inversen genau die Diagonale ist. Eine Relation heißt transitiv, falls die Relation unter Komposition abgeschlossen ist (R ◦ R ⊂ R). Eine Teilordnung oder partielle Ordnung oder Ordnung auf einer Menge A ist eine reflexive, antisymmetrische und transitive Relation. Wir schreiben a ¹ b für (a, b) ∈ R und sprechen von b dominiert oder majorisiert a oder auch b ist größer als a. Analog benutzen wir Minorante und kleiner. Ein Tupel (A, ¹) heißt geordnete Menge . Sei (A, ¹) eine partielle Ordnung. Ein Element a ∈ A heißt obere Schranke von B ⊂ A falls b ≤ a für alle b ∈ B gilt. Eine Menge B ⊂ A heißt nach oben (unten) beschränkt, falls es eine obere (untere) Schranke von A gibt. Wir sprechen von einer kleinsten oberen Schranke a von B falls a eine obere Schranke W ist und für alle anderen oberen Schranken x gilt a ≤ x. Notation: a = supb∈B b = b∈B b. Eine kleinste obere Schranke a heißt Maximum von B, falls zusätzlich a ∈ B gilt. 39 Uwe Rösler SS98 1.9 Integrationstheorie Notation: x = maxb∈B b. V Analog verwenden wir das Infimum inf b∈B = b∈B b und Minimum. Notation: a ∨ b := sup{a, b} a ∧ b := inf{a, b}. Ein Verband ist eine geordnete Menge abgeschlossen bzgl. endlichem Supremum und endlichem Infimum. Wir schreiben (A, ≺, ∧, ∨) in der Notation wie oben. Ein Verband heißt von oben (unten) vollständig falls jede nach oben (unten) beschränkte Teilmenge ein Supremum (Infimum) besitzt. Er heißt vollständig, falls er von unten und oben vollständig ist. Analog verwenden wir σ-vollständig falls jede beschränkte abzählbare Menge ein Supremum und Infimum besitzt. Eine isotone Funktion ist eine ordnungserhaltende Funktion. Eine isotone Funktion f heißt von unten σ-stetig, falls für jede aufsteigende abzählbare Folge an ∈ M mit supn an ∈ M gilt ∨n f (an ) = f (∨n an ). Analog verwenden wir von oben σ-stetig und σ-stetig für beides. Bemerkung: Jeder Verband läßt sich σ-vervollständigen, (von unten, von oben, vervollständigen). Darunter verstehen wir eine kleinste, ordnungserhaltende und injektive Einbettung des Verbandes in einen σ-vollständigen (von unten, von oben, vollständigen) Verband. Bis auf Isomorphie (ordnungserhaltende Bijektion) ist diese eindeutig. (Keine Übung: Dies ist eine mathematische Standardkonstruktion. Z.B. lassen sich so die reellen Zahlen aus den rationalen Zahlen konstruieren.) Weiterhin: jede isotone, von unten σ-stetige Abbildung I : V 7→ IR ∪ {∞} läßt sich eindeutig von unten σ-stetig fortsetzen auf die σ-Vervollständigung des Verbandes durch ˜ = lim I(vn ). I(v) n Hierbei ist vn ∈ M, n ∈ IN, eine Folge mit vn %n v. Dies bildet den abstrakten Hintergrund unserer folgenden Argumentation. Bemerkung: Eine σ-Algebra ist ein Verband mit der Ordnung induziert durch Enthalten, A ≺ B ⇔ A ⊂ B, A∨B = A∪B, A∧B = A∩B. Dieser Verband ist vollständig. Ein Maß ist von unten σstetig, eine endliches Maß sogar σ-stetig. Der Satz von Caratheodory ist die σ-stetige Erweiterung einer σ-stetigen, additiven und isotonen Abbildung auf einem Verband. Der Ring (=Verband) wird erweitert zur σ-Algebra (Verbandsvervollständigung) und das Prämaß zum Maß. Integrale über Ordnungsstruktur Der Raum der reellwertigen, positiven, erweiterten Treppenfunktionen T + = T (IR+ ) versehen mit der punktweisen Ordnung ist ein Verband. Die Vervollständigung von T + bzgl. σ-Stetigkeit von unten ist der Raum F(IR+ ) der erweiterten reellwertigen, meßbaren und positiven Funktionen. Zu + gegebener Funktion f ∈ F konvergieren die Treppenfunktionen fn n fn (x) := n2 X i i+1 11 i n 2n ≤f (x)< 2n 2 i=0 von unten gegen f. Proposition 1.9.2 Die Funktion I : T + 7→ IR+ definiert durch (1.3) ist eine lineare, skalare, isotone, von unten σ-stetige Funktion. Die Abbildung I eingeschränkt auf I −1 (IR) ist σ-stetig. Beweis: Die Wohldefiniertheit, Linearität, Skalarität, Isotonie wurde in Proposition 1.9.1 gezeigt. Für die σ-Stetigkeit von unten betrachte eine aufsteigende Folge fn % f aus T + . Seien 0 = a1 < a2 < ... < an die Werte von f und Ai = f −1 (ai ). • I(fn 11Ai ) % I(f 11Ai ) für alle i = 1..n. Dies fogt aus der σ-Stetigkeit des Maßes, ai µ(Ai ) ≥ I(fn 11Ai ) ≥ (a − ²)µ(Ai ∩ {fn ≥ a − ²}) →n (ai − ²)µ(Ai ) mit geeignetem ². Mit ² →n 0 erhalten wir die Teilbehauptung. 40 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 • σ-Stetigkeit von unten. Zu zeigen ist I(fn ) % I(f ). X X I(f 11Ai ) = I(f ). I(fn 11Ai ) % I(fn ) = Uwe Rösler i i • I eingeschränkt auf I −1 (IR) ist σ-stetig. Für eine Folge fn & f ∈ T + betrachte f1 − fn % f1 − f und argumentiere wie oben. q.e.d. Satz 1.9.3 Die additive und von unten σ-stetige Fortsetzung I eines Maßes auf F(IR+ ) wird gegeben durch I˜ : F(IR+ ) 7→ IR+ ˜ ) = lim I(fn ). I(f + T 3fn %f Die Fortsetzung ist eindeutig, additiv, skalar, isoton und σ-stetig von unten. Die Fortsetzung I˜ eingeschränkt auf I˜−1 (IR) ist σ-stetig. Beweis: Das Maß setzt sich linear auf den Raum T + der positiven Treppenfunktionen fort (1.3). Diese ist eindeutig. T + ist ein Verband und die Fortsetzung I ist σ-stetig von unten, Proposition 1.9.2. Der Abschluß von T + bzgl. σ-Vollständigkeit von unten ist F(IR+ ). • I˜ ist wohldefiniert. Seien fn und gm zwei monoton gegen f aufsteigende Folgen von Treppenfunktionen. Dann gilt lim I(fn ) ≥ lim I(fn ∧ gm ) ≥ lim I(gm ). n n m Die rechte Seite ist aus Symmetriegründen ≥ limn I(fn ). Die Sandwichposition ergibt limn I(fn ) = limm I(gm ). • I˜ ist σ-stetig. + + Sei W F 3 fn % f. Seien T 3 fi,n %i fn . Dann konvergieren die Treppenfunktionen gn := i≤n fi,n ≤ fn isoton gegen f. Aus der Sandwichposition I(f ) = lim I(gn ) ≤ lim I(fn ) ≤ I(f ). n ergibt sich die Behauptung. • Die Fortsetzung I˜ eingeschränkt auf I˜−1 (IR) ist σ-stetig. Verwende σ-Stetigkeit von unten und fn & f ⇔ f1 − fn % f1 − f. Zu zeigen bleiben die Eindeutigkeit der Fortsetzung und die algebraischen Eigenschaften Additivität und Skalarität. Dies ist einfach. q.e.d. Jede Funktion f : Ω 7→ IR hat eine eindeutige Zerlegung f = f + −f − mit f + := f ∨0, f − = (−f )+ . ˜ + ) oder I(f ˜ − ) endlich. Erweitere Sei Fe der Raum alle meßbaren erweiterten Funktionen f mit I(f ˜ I auf Fe durch ˜˜ ) := I(f + ) − I(f − ). I(f Dies Objekt nennen wir Integral bzw. genauer Lebesgueintegral. Dies ist (fast) der allgemeinste Integralbegriff. Gebräuchliche Notationen für das Integral I˜˜ sind Z Z Z Z ˜˜ ) =: µ(f ) =: f (ω)dµ(ω) =: I(f f (ω)µ(dω) =: f dµ =: f. Ω Weitere Notationen sind Z A f dµ := Z 41 f 11A dµ. Uwe Rösler SS98 Speziell auf IR verwenden wir Z b f dµ := Z 1.9 Integrationstheorie f dµ. (a,b] a Hat µ keine Punktmaße (µ(x) = 0∀x ∈ IR), so benutzen wir auch Z b Z a Z f dµ =: − f dµ := f dµ. [a,b] a b Ist µ das Lebesguemaß λ auf IR so schreiben wir Z Z f (x)λ(dx) = f (x)dx. R Eine integrierbare Funktion f ist eine meßbare Funktion mit endlichem Wert |f |dµ < ∞. Der Raum L1 der integrierbaren Funktionen ist ein Vektorraum. R Korollar 1.9.4 Das Integral : L1 7→ IR ist linear, skalar, isoton und σ-stetig. Beispiel: Sei µ ein Maß und g ≥ 0 eine meßbare Funktion. Dann ist die Mengenfunktion ν : A 7→ IR, definiert durch Z ν(A) := g dµ, A ein Maß. Notation dν = gdµ oder auch ν = gµ. Beispiel: Wir betrachten ein W-Maß µ auf (IR, B). Die zugehörige Verteilungsfunktion F sei stetig differenzierbar. Die Behauptung ist Z Z dF (x)dx g(x)dµ(x) = g(x) dx für alle integrierbaren Funktionen g. Die Behauptung ist richtig für eine Treppe 11A . Da beide Seiten additiv und σ-stetig sind, gilt Gleichheit für alle positiven meßbaren Funktionen. Dann aber auch für alle integrierbaren Funktionen. 1.9.2 Konvergenzsätze R RSei E Rbzw. das oben definierte Integral für einen beliebigen Maßraum (Ω, A, µ). Wir benutzen f = f dµ. Es gilt der Satz von der monotonen Konvergenz. Dies ist genau die σ-Stetigkeit des Integrals. Als Folgerungen erhalten wir den Satz von Fatou und den Satz von der dominierten Konvergenz. Die Forderung einer Schranke ist essentiell. Als Beispiel betrachten wir: Ω = (0, 1] versehen mit der Borel σ-Algebra und dem Borelmaß λ. Sei fn := n11(0,1/n] . Es gilt limn fn =≡ 0, Z Z lim fn dλ = 1 > lim fn dλ = 0. n Der Satz über dominierte Konvergenz ist nicht anwendbar. 1.9.3 Transformationssatz Satz 1.9.5 (Transformationssatz) Sei (Ω, A, µ) ein Maßraum und (Ω0 , A0 ) ein meßbarer Raum. Sei T : Ω 7→ Ω0 eine meßbare Abbildung. Dann gilt für meßbare Funktionen f 0 : Ω0 7→ IR, sofern eine Seite wohldefiniert ist, Z Z f 0 dT µ = Ω0 Ω 42 f 0 ◦ T dµ. Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Beweis: Die Aussage ist leicht nachzurechnen für f 0 = 11A0 , A0 ∈ A0 . (Übung). Beide Seiten sind lineare, σ-stetige Fortsetzungen (einer Mengenfunktion). Diese sind eindeutig. q.e.d. Beispiel: Sei T eine stetig differenzierbare Funktion mit strikt positiver Ableitung T 0 , T µ das Lebesguemaß und f 0 = g. Es gilt die Transformationsformel mit y = T (x), g integrierbar, Z Z g(y) dy = g(T (x))dx. T 0 (T −1 (y)) Hierbei ist das Maß µ gegeben durch (µ)(A) = Z T 0 (T −1 (y))dy. A Für genauere Rechenregeln siehe Lehrbücher über Differential und Integralrechnung. Fubini 0 0 Seien (Ω, A) Ω×Ω0 sei versehen mit der Produkt σNund0 (Ω , A ) meßbare Räume. Der Produktraum 0 Algebra A A , erzeugt von den Rechteckmengen A×A . Der Schnitt Aω einer Menge A ⊂ Ω×Ω0 ' Ax x ist die Menge {ω 0 ∈ Ω0 | (ω, ω 0 ) ∈ A}. $ A & % Analog benutzen wir Aω0 (obwohl dies ein Notationsmißbrauch ist.) Jeder Schnitt einer meßbaren Menge ist wieder meßbar (Übung). N Proposition 1.9.6 Sei µ0 ein σ-endliches Maß auf (Ω0 , A0 ) und A ∈ A A0 . Die Abbildung ϕA : Ω 7→ IR ω 7→ µ0 (Aω ) N 0 ist meßbar für alle A A meßbaren Mengen A. Beweis: Sei µ0 ein endliches Maß. Betrachte D := {A ∈ A × A0 | ϕA meßbar}. Es gilt D = A0 . D ist ein Dynkinsystem. Beachte ϕA\B = ϕA − ϕB und ϕS ◦ n An = P n ϕA n . Weiterhin enthält D den durchschnittstabilen Erzeuger aller Produktmengen. Sei µ0 ein σ-endliches Maß. Dann gibt es eine gegen Ω0 aufsteigende Folge Kn ∈ A0 mit µ0 (Kn ) < ∞. q.e.d. Dann argumentiere ϕA = limn ϕA∩Kn . 0 Proposition 1.9.7 Seien N µ 0und µ σ-endliche Maße. Dann gibt es genau ein Maß ν auf dem 0 Produktraum (Ω × Ω , A A ) mit ν(A × A0 ) = µ(A)µ0 (A0 ). Dies wird gegeben durch ν(A) = Z 0 µ (Aω )dµ(ω) = 43 Z µ(Aω0 )dµ0 (ω 0 ). Uwe Rösler SS98 1.9 Integrationstheorie Beweis: Beide Integrale sind wohldefiniert, sind Maße und erfüllen die geforderte Eigenschaft. Für µ, µ0 endliche Maße stimmen beide Integrale überein, für σ-stetige folgt die Gleichheit durch Approximation. q.e.d. Notation: Wir bezeichnen das Produktmaß ν mit µ × µ0 . Sei f : Ω × Ω0 7→ IR eine Produkt meßbare Funktion. Dann sind die Schnitte f (ω, .) : Ω0 7→ IR für alle ω ∈ Ω und f (., ω 0 ) : Ω 7→ IR meßbar. Beachte, der Schnitt zieht sich durch, (f −1 (B))ω = f (ω, .)−1 (Bω ). q.e.d. Satz 1.9.8 (Fubini) Seien µ, µ0 σ-endliche Maße. Dann gilt Z Z Z f (ω, ω 0 )d(µ × µ0 )(ω, ω) = ( f (ω, ω 0 )dµ0 (ω 0 ))dµ(ω). Ω×Ω0 Ω Ω0 Beweis: Wir betrachten f ≥ 0. Der Satz gilt für eine Treppe a11A , für eine Treppenfunktion und dann per monotoner Konvergenz für meßbare Funktionen. Die Ausdehnungen sind jeweils eindeutig. q.e.d. Die σ-Endlichkeit ist wichtig. Als Beispiel betrachten wir µ das Lebesguemaß und µ0 das Zählmaß auf dem Einheitsintervall. Die Funktion f (x, y) = 11x=y ist meßbar. Es gilt Z Z Z Z ( f (x, y)dµ(x))dµ0 (y) = 0 ( f (x, y)dµ0 (y))dµ(x) = 1. Es gibt Möglichkeiten das Produktmaß auch für nicht σ-endliche Maße zu definieren. Jedoch verliert man dann die Eindeutigkeit und die Vertauschbarkeit, vgl. Halmos [?] page 145, HahnRosenthal SET FUCTIONS 1948 chap IV,§16[?]. 44 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 1.10 SS98 Ungleichungen Uwe Rösler Für Ungleichungen in der W-theorie gibt es im wesentlichen zwei Quellen, über monotone und über konvexe Funktionen. Die erste Gruppe bilden Markoff Ungleichungen und die zweite beruhen auf der Jensen Ungleichung. Röslers Metatheorem: Alle guten Integralungleichungen beruhen auf Monotonie oder Konvexität. 1.10.1 Tschebycheff-Markoff Die folgenden Ungleichungen beruhen auf Monotonie. Satz 1.10.1 (Tschebycheff-Markoff Ungleichung) Für jede Zg X und jede monoton steigende, positive Funktion ϕ auf den reellen Zahlen gilt ϕ(a)P (X ≥ a) ≤ E(ϕ(X)) für alle reellen Zahlen a. Beweis: Es gilt inf ϕ(X) ≥ Z ϕ(a)11X≥a ) ≥ ϕ(a) Z 11X≥a = ϕ(a)P (X ≥ a). Spezialfälle Eine beliebte Variation in der W-theorie ist eine monoton steigende positive Funktion ϕ auf den positiven Zahlen und die Abschätzung, a ≥ 0 P (X ≥ a) ≤ P (|X| ≥ a) ≤ Eϕ(|X|) . ϕ(a) Der Grundfall ist die Markoff Ungleichung , IR+ 3 x 7→ ϕ(x) = x, E|X| . a Diese Ungleichung verbessert sich in der Regel durch höhere Momente P (X ≥ a) ≤ P (|X| ≥ a) ≤ P (X ≥ a) ≤≤ (1.4) E|X|p ap p ≥ 1 und durch zentrieren P (X ≥ a) ≤ P (|X − EX| ≥ a − EX) für a ≥ EX. Die Tschebycheff Ungleichung lautet Var(X) . a2 Ferner wird gerne das exponentielle Moment benutzt, ϕ(x) = etx , t > 0 P (|X − EX| ≥ a) ≤ (1.5) EetX . eta Der positive Parameter t, der nur auf der rechten Seite erscheint, wird eventuell geeignet (als Minimum) gewählt. Bemerkung: – Es gilt für a > 0, X ≥ 0 P (X ≥ a) ≤ EX p ≤ inf Ees(X−a) . s>0 p>0 ap inf (Übung) – Als Faustregel steigt die Güte der Ungleichung für kleine W-keiten mit der Höhe des (zentrierten) Momentes und die exponentielle Abschätzung gibt zumindest asymptotisch die richtige Grös̈enordnung. Die Tschebycheff-Markoff Ungleichungen haben zahlreiche Anwendungen. 45 Uwe Rösler SS98 1.10 Ungleichungen Beispiel Bsp: Würfeln. Wie groß ist die W-keit bei tausendmaligem Würfeln eine Gesamtaugensumme von mindestens 4000 zu erreichen. Sei Xi die Augenzahl des i-ten Wurfs. Diese Zgn sind unabhängig identisch verteilt. Wir schätzen P1000 die Summe S := i=1 Xi auf verschiedene Weisen ab. Die Tschebycheff Ungleichung ergibt P (S ≥ 4000) ≤ P (S − ES ≥ 500) ≤ VarS VarX 35/12 7 = = = ≈ 0, 0117. 2 500 250 250 600 Mit dem vierten zentrierten Moment ergibt sich P (S ≥ 4000) ≤ 18 E(S − ES)4 ≤ ≈ 0, 0003. 5004 62500 Zur Berechnung des 4-ten Momentes beachte XXXX (Xi − EXi )(Xj − EXj )(Xk − EXk )(Xl − EXl ) E(S − ES)4 = E i = X i j k l E(Xi − EXi )4 + µ ¶X 4 E 2 (Xi − EXi )2 ≤ 18 · 106 . 2 i6=j Noch höhere Momente bringen etwas bessere Abschätzungen. Eine wesentlich bessere Abschätzung liefert die exponentielle Ungleichung, allerdings richtig angewendet 1.10.2. Bsp: Quicksort. Per Induktion lassen sich die exponentiellen Momente von Qn für Quicksort abschätzen, t(Qn −EQn ) 2 n Ee ≤ et K für alle |t| ≤ L und K = K(L) ∈ IR [?]. Die exponentielle Abschätzung liefert P (Qn − EQn ≥ E|Qn |) ≤ const(t) n2t für jedes t und n. Daher ist Quicksort zuverlässig. Mit hoher Wahrscheinlichkeit ist die Laufzeit von Quicksort in der Größenordnung des Erwartungswertes. Bsp: Weierstraß Approximationssatz. Der Approximationssatz von Weierstraß besagt, jede stetige Funktion f auf dem abgeschlossenen Einheitsintervall [0, 1] läßt sich gleichmäßig beliebig gut durch Polynome approximieren (∀²∃g Polynom : supx |f (x) − g(x)| < ²). Die Bernstein Polynome g µ ¶ n X i n i p (1 − p)n−i f( ) g(p) := i n i=0 auf dem abgeschlossenen Einheitsintervall approximieren f . Die Eigenschaft wird leichter ersichtlich aus der Darstellung g(p) = E(f ( B(p) n )) mit B(p) eine Binomialverteilung Bin(n, p) zu den Parametern n und p. Sei aδ := sup{|f (x) − f (y)| | x, y ∈ [0, 1], |x − y| < δ} der Stetigkeitsmodul. aδ konvergiert mit δ → 0 gegen 0. (Gleichmäßige Stetigkeit einer stetigen Funktion auf einem Kompaktum.) Zu a1 ² vorgegebenem ² wähle ein δ mit aδ < ²/2 und ein n mit 4nδ 2 < 2 . Dann gilt |f (p) − g(p)| B(p) B(p) )| ≤ E|f (p) − f ( )| n n B(p) = E(|f (p) − f ( )|(11| B(p) −p|<δ + 11| B(p) −p|≥δ )) n n n a1 Var( B(p) ² B(p) n ) − p| ≥ δ) ≤ + < ². ≤ aδ + a1 P (| 2 n 2 δ = |E(f (p) − f ( Dies ist die behauptete gleichmäßige Konvergenz. 46 q.e.d. Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 1.10.2 SS98 Exponentielle oder Hoeffding Ungleichung Uwe Rösler Große Abweichungen: Ziel des Gebietes großer Abweichungen ist die W-keit für großes Abweichen einer Zg von ihrem Erwartungswert. Wir betrachten hier P (S − ES ≥ c) ≤? für die n-te Partialsumme S = Sn = Pn i=1 Xi von uiv Zgn Xi . Sei µ̂(t) := E(etX ), t ∈ IR, die Laplacetransformierte der Zg X mit Verteilung µ. Der Einfachheit halber sei µ̂(t) stets endlich und X keine Konstante. (Dies impliziert u.a. Dt µ̂(t) = E(XetX ) und Dt Dt µ̂(t) = E(X 2 etX ).) Definiere die Cramér Transformierte Iµ : IR 7→ [0, ∞], Iµ (x) := inf (ln µ̂(t) − tx). t≥0 Iµ (x) ist wohldefiniert, da der rechte Term 0 wird für t = 0. Das Infimum in t wird angenommen für ein t ≥ 0. Hierzu zeigen wir zuerst: Die Funktion t 7→ ln µ̂ ist eine konvexe Funktion. Die zweite Ableitung EXetX ) µ̂(t) E(X 2 etX ) E 2 (X 2 etX ) − µ̂(t) µ̂2 (t) 1 (E(eXt )E(X 2 etX ) − E 2 (XetX ) ≥ 0 2 µ̂ (t) Dt Dt ln µ̂(t) = Dt ( = = ist positiv wegen der Cauchy-Schwarz Ungleichung ??. Daher ist die Funktion t 7→ ln µ̂(t) − xt konvex für feste x. Die Ableitung in t = 0 ist ¯ EXetX ¯¯ Dt (ln µ̂(t) − tx)¯t=0 = − x = EX − x. µ̂(t) t=0 Das Infimum in t wird angenommen in t = 0 für EX − x ≥ 0 und für ein striktes t > 0 im Fall EX − x < 0. Satz 1.10.2 (Große Abweichungen) Seien Xn , n ∈ IN , unabhängige Zgn mit Verteilung µ. Dann gilt für reelle c P (Sn ≥ cn) ≤ enIµ (c) . Beweis: Mit der exponentiellen Markoff Ungleichung erhalten wir für alle t ≥ 0 ln P (Sn ≥ na) EetSn etnc = ln E n etX − ntc = n(ln µ̂(t) − tc). = ln Durch Infimumsbildung über alle t folgt die Aussage. q.e.d. Bem: Nur der Fall c ≥ EX ist interessant. Eine ähnliche Ungleichung erhalten wir für P (Sn ≤ nc) durch Übergang von X → −X. Die Crámer Transformierte ist in der Regel schwer zu berechnen. Daher die gröbere, aber handlichere Abschätzung von Hoeffding. Lemma 1.10.3 Sei a ≤ X ≤ b eine zentrierte Zg. Dann gilt für alle reellen Zahlen t ∈ IR EetX ≤ e t2 (b−a)2 8 Beweis: Sei OEdA t ≥ 0. Beachte a ≤ 0 ≤ b. 47 . Uwe Rösler SS98 1.10 Ungleichungen −a b • EetX ≤ petb + qeta mit p := b−a , q := 1 − p = b−a . Sei a ≤ x ≤ b. Aus der Konvexität der exponentiellen Funktion folgt etx ≤ x − a tb b − x ta e + e . b−a b−a Setze für x die Zg X ein und integriere. u2 • petb + qeta = (q + peu )e−pu ≤ e 8 mit u := t(b − a). Die erste Gleichung rechnen wir nach. Für die Ungleichung zeigen wir für die Funktion 2 f (u) := u8 −pu+ln(q +peu ) die hinreichenden Eigenschaften f (0) = 0, f 0 (0) = 0, f 00 (u) ≥ 0. peu Es gilt f 0 (u) = u4 − p + q+pe u und f 00 (u) = pqeu (p + qeu )2 − 4pqeu 1 − = ≥ 0. 4 (q + peu )2 4(p + qeu )2 Die Eigenschaften sind erfüllt. q.e.d. Satz 1.10.4 (Hoeffding) Seien die unabhängigen ZufallsvariablenPX1 , . . . , Xn zentriert und beschränkt ai ≤ Xi ≤ bi , 1 ≤ i ≤ n. Dann gilt für die Summe S := i Xi und jede positive reelle Zahl c > 0 2c2 ). P (S ≥ c) ≤ exp(− P 2 i (bi − ai ) Beweis: Die exponentielle Ungleichung für ein positives t ergibt Y EetS = e−tc EetXi tc e i Y t2 (bi −ai )2 t2 d −tc 8 e ≤ e = e 8 −tc P (S ≥ c) ≤ i P mit d := i (bi − ai )2 . Die linke Seite ist unabhängig von t. Die rechte Seite als Funktion in t wird minimiert für t = 4c/d ≥ 0. Mit diesem Wert erhalten wir die Abschätzung. q.e.d. Aus Symmetriegründen erhalten wir die Abschätzung −P P (S ≤ −c) ≤ e und für den Betrag der Summe −P P (|S| ≥ c) ≤ 2e 2c2 i (bi −ai )2 i (bi −ai )2 2c2 . Beispiel Würfeln: Die Hoeffding Ungleichung auf obige Fragestellung “Wie groß ist die W-keit bei tausendmaligem Würfeln eine Augensumme von mindestens 4000 zu erreichen” angewandt, ergibt 2·5002 P (S1000 ≥ 4000) = P (S1000 − ES1000 ≥ 500) ≤ e− 1000·25 = e−20 ≈ 2 · 10−9 . Diese Abschätzung mit der Hoeffding Ungleichung ist wesentlich besser als diejenigen mit der Markoff oder Tschebycheff Ungleichung. 48 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 1.10.3 Jensen Ungleichung SS98 Uwe Rösler Definition 1.10.5 (konvex) Eine reellwertige Funktion ϕ auf einem Intervall heißt konvex, falls für alle x 6= y aus dem Intervall und alle t ∈ (0, 1) gilt ϕ(tx + (1 − t)y) ≤ tϕ(x) + (1 − t)ϕ(y). ϕ heißt strikt konvex, falls in obiger Ungleichung stets strikt kleiner gilt. Satz 1.10.6 (Jensen Ungleichung) Für jede konvexe reellwertige Funktion ϕ : IR 7→ IR und jede reellwertige Zg X gilt E(ϕ(X)) ≥ ϕ(E(X)), vorausgesetzt die Erwartungen sind wohldefiniert. Ist ϕ strikt konvex, X keine Konstante mit Wahrscheinlichkeit 1 und die |Eϕ(X)| endlich, so gilt strikt größer in der Ungleichung. Beweis: Sei l eine lineare Funktion mit l ≤ ϕ und l(x0 ) = ϕ(x0 ) für x0 = EX. (Für eine differenzierbare Funktion ϕ nehme l(x) = ϕ0 (x0 )(x − x0 ) + ϕ(x0 ) ≤ ϕ(x).) Argumentiere E(ϕ(X)) ≥ E(l(X)) = l(E(X)) = ϕ(E(X)). Ist ϕ strikt konvex, so gilt l(x) < ϕ(x) für alle x 6= x0 . q.e.d. Merkregel: Falscher Effee Bsp: Momentenabschätzung. Die Funktion ϕ(x) = |x|p ist konvex für p ≥ 1. Die Jensen Ungleichung ergibt E|X|p ≥ E p |X|. Die Ungleichungen gelten mit umgekehrter Richtung für konkave Funktionen. Eine Funktion ϕ ist konkav genau dann, wenn −ϕ konvex ist. Bsp: Entropie. Die Entropie eines diskreten W-mas̈es P auf einem endlichen Stichprobenraum Ω wird definiert durch X 1 . P (ω) ln H(P ) := P (ω) ω∈Ω Die Entropie ist stets positiv und die Entropie eines Punktmaßes ist 0. Proposition 1.10.7 Die gleichmäßige Verteilung auf einem endlichen Stichprobenraum hat die größte Entropie unter allen W-maßen darauf. Beweis: Der Stichprobenraum habe n Elemente. Sei P die Gleichverteilung und Q irgendeine andere Verteilung. X1 X X X 1 1 1 P (ω) ln P (ω) P (ω) ln − ln n = ≤ ln( = ln 1 = 0. H(Q)−H(P ) = P (ω) n nP (ω) nP (ω) ω ω ω ω q.e.d. Bem: Die Entropie einer Verteilung hat die Interpretation eines Informationsgehalts, den eine Zg zu dieser Verteilung besitzt. Für Punktmaße ist die Ungewissheit 0, denn ein Zg mit dieser Verteilung liefert die genaue Verteilung. Die grös̈te Ungewissheit besteht, falls die Gleichverteilung vorliegt. Wenn wir nichts wissen, sprechen wir von einer fifty-fifty Chance. Dies ist die größte vorstellbare Ungewissheit. Bem: Die Jensen Ungleichung gilt für W-maße, aber nicht für Maße allgemein. Mehrere interessante Ungleichungen folgen aus der Jensen Ungleichung in folgender verallgemeinerter Form: Korollar 1.10.8 (Jensen) Sei ϕ : I 7→ IR eine konvexe Funktion, µ ein R Maß auf den reellen Zahlen und µ(I c ) = 0. Seien f, g meßbare Funktionen und sei g ≥ 0, 0 < gdµ < ∞. Dann gilt, Wohldefiniertheit vorausgesetzt, R R f gϕ(f /g) R ϕ( R ) ≤ . g g 49 Uwe Rösler SS98 Beweis: Durch ν(A) := Jensenungleichung ergibt 1 a R A 1.10 gdµ, A ∈ A, und a := linke Seite = ϕ Z f dν ≤ g Z R Ungleichungen gdµ wird ein W-maß ν definiert. Die f ϕ( )dν = rechte Seite g Normungleichungen Definition 1.10.9 (Norm) Die Abbildungen k · kp , 1 ≤ p ≤ ∞, kXkp := (E(|X|p ))1/p , 1≤p<∞ kXk∞ := inf{a ∈ IR | P (|X| > a) = 0} von Zgn in die erweiterten rellen Zahlen heißen Lp -Norm. Beachte für diskrete W-räume kXk∞ = sup{|X(ω)| | P (ω) > 0}. Satz 1.10.10 (Hölder Ungleichung) Für Zgn X, Y und reelle Zahlen 1 ≤ r, p, q ≤ ∞ mit 1 1 1 r = p + q gilt die Ungleichung kXY kr ≤ kXkp kY kq . Im Falle 1 < p, q < ∞ gilt Gleichheit genau dann, wenn die Terme unendlich sind oder |X|p kY kqq = |Y |q kXkpp mit Wahrsch. 1 gilt. Beweis: Den Wert 1/∞ interpretieren wir konventionell als 0. • Der Satz gilt für kXkp = 0 oder kY kq = 0. Die Bedingungen implizieren X ≡ 0 oder Y ≡ 0 mit Wahrsch. 1. Damit ist XY = 0 mit W. 1. • Der Satz ist ebenfalls einfach für p = ∞ oder q = ∞. Aus Symmetriegründen sei p = ∞. Es folgt q = r. kXY krr = E|XY |r ≤ sup{|X(ω)|r | P (ω) > 0}E|Y |r = kXkr∞ kY kqq . • Sei also 1 ≤ p, q < ∞. Die exponentielle Funktion ist konvex, d.h. ∀x, y ∈ IR, t ∈ [0, 1]: etx+(1−t)y ≤ tex + (1 − t)ey . |Y (ω)| Das Einsetzen der speziellen Werte t := pr , 1 − t = rq , x = p ln |X(ω)| kXkp , y = q ln kY kq ergibt µ |X(ω)Y (ω)| kXkpp kY kqq ¶r r ≤ p µ |X(ω)| kXkp ¶p r + q µ |Y (ω)| kY kq ¶q für jede Realisierung ω. Durch Übergang zum Erwartungswert auf beiden Seiten erhalten wir die Aussage µ ¶r |X(ω)Y (ω)| r r E ≤ + . kXkpp kY kqq p q Gleichheit gilt, falls für alle Realisationen ω von strikt positiver Wahrsch. die obige Ungleichung eine Gleichung ist. Dies ist äquivalent (die exponentielle Funktion ist strikt konvex) zu x = y oder t = 0 bzw. t = 1. Hiervon verbleibt in diesem Fall nur x = y, was zu |X(ω)|p |Y (ω)|q p = kXkp kY kqq führt. q.e.d. 50 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Satz 1.10.11 (Minkowski Ungleichung) Es gilt für 1 ≤ p ≤ ∞ Uwe Rösler kX + Y kp ≤ kXkp + kY kp . Im Falle 1 ≤ p < ∞ gilt Gleichheit genau dann, wenn die Terme unendlich sind oder X und Y positive Vielfache mit Wahrsch. 1 voneinander sind. Beweis: Sei oEdA kX + Y kp > 0. • Der Fall p = ∞ ist einfach, kX + Y k∞ = sup |X(ω) + Y (ω)| ≤ sup |X(ω)| + sup |Y (ω)| = kXk∞ + kY k∞ . P (ω)>0 • Für 1 ≤ p < ∞ erhalten wir aus der Hölder Ungleichung, 1 = 1/p + 1/q gesetzt, kX + Y kpp = k|X + Y ||X + Y |p−1 k1 ≤ k|X||X + Y |p−1 k1 + k|Y ||X + Y |p−1 k1 ≤ kXkp k|X + Y |p−1 kq + kY kp k|X + Y |p−1 kq = (kXkp + kY kp )k|X + Y |kpp−1 . • Für die Gleichheit betrachten wir der Einfachheit halber nur 0 < kXkp , kY kp < ∞ und P (ω) > 0. Die Gleichheit von |X(ω) + Y (ω)| = |X(ω)| + |Y (ω)| liefert dasselbe Vorzeichen von X und Y . Aus Gleichheit in der angewandten Hölder Ungleichung folgt |X|p und |X +Y |q und auch |Y |p und |X + Y |q sind positive Vielfache voneinander. Damit auch sind auch X und Y positive Vielfache voneinander. q.e.d. Bem: Die Hölder Ungleichung und die Minkowski Ungleichung als Folgerung gilt allgemein für Maße anstelle von W-maßen. Bsp: – Die Cauchy-Schwarz Ungleichung ist ein Spezialfall der Hölder Ungleichung mit r = 1, p = 2 = q. – Die Tchebycheff-Cantelli Ungleichung P (X − EX ≥ a) ≤ VarX VarX + a2 für a ≥ 0 ist etwas stärker als die Markoffungleichung. Diese folgt aus, oEdA sei X zentriert, a2 ≤ E 2 (a − X)11X<a ≤ (E(a − X)2 )E11X<a = (V arX + a2 )P (X < a). Vektoräume von Zgn∗ Der Raum Lp (Ω) = Lp , 1 ≤ p ≤ ∞ aller Zufallsvariablen X : Ω 7→ IR mit kXkp < ∞ ist ein Vektorraum. (Beachte: Lp ist abgeschlossen bezüglich der Addition von Funktionen aufgrund der Minkowski Ungleichung.) Die Abbildung k · kp : Lp 7→ IR ist eine Pseudonorm auf dem Raum Lp . (Eine Pseudonorm k.k ist eine Norm bis auf die Eigenschaft kvk = 0 ⇒ v = 0.) Die Abbildung k · kp ist eine Norm genau dann, wenn P (ω) > 0 gilt für alle ω ∈ Ω. (Nachrechnen). Durch Äquivalenzbildung erhalten wir einen normierten Vektorraum. Definiere die Äquivalenzrelation X ∼ Y ⇔ kX − Y kp = 0 für X, Y ∈ Lp , 1 ≤ p ≤ ∞. Der Raum Lp := {[X] | X ∈ Lp } der Äquivalenzklassen [X] := {Y ∈ Lp | X ∼ Y } mit den Verknüpfungen + und · definiert durch [X] + [Y ] := [X + Y ], a · [X] := [aX], a ∈ IR, ist ein Vektorraum. Die Abbildung k · kp : Lp 7→ IR definiert durch k[X]kp := kXkp ist eine Norm auf Lp . (Zu zeigen ist die Wohldefiniertheit, d.h. die getroffenen Definitionen sind unabhängig von der Auswahl der Repräsentanten bzw. der Darstellung [X] = [Y ].) 51 Uwe Rösler SS98 1.10 Ungleichungen Notation: Wir unterscheiden in Zukunft nur im Falle möglicher Mißverständnisse zwischen Zgn und den zugehörigen Äquivalenzklassen. In unserem Setup diskreter W-räume gibt es einen anschaulicheren Vektorraum Lp (Ω0 ) isomorph zu Lp . Betrachte den Teilraum Ω0 aller ω mit strikt positiver Wahrsch. Dann ist (Lp (Ω0 ), k · kp ) ein normierter Vektorraum isomorph zu (Lp , k · kp ). Beachte X ∼ Y genau dann, falls X und Y auf Ω0 übereinstimmen. Einer Äquivalenzklasse [X] ordnen wir bijektiv die Abbildung X : Ω0 7→ IR zu. Lemma 1.10.12 Für 1 ≤ p ≤ q gilt Lp ⊃ Lq und die Normabschätzung kXkp ≤ kXkq . Beweis: Aus der Jensen Ungleichung folgt E|X|q = E(|X|q/p )p ≥ (E|X|q/p )p . Definition 1.10.13 (Banachraum) Ein vollständiger normierter Vektorraum (V, k · k) heißt Banachraum. Äquivalent ist, daß jede Cauchyfolge (vn ∈ V, n ∈ IN , mit ∀² > 0∃n0 ∀m, n > 0 : kvn − xm k < ²) konvergiert (∃v ∈ V ∀² > 0∃n0 ∀n > n0 : kvn − vk < ²). Satz 1.10.14 (Fischer-Riesz) Der Raum (Lp , k · kp ), 1 ≤ p ≤ ∞, ist ein Banachraum. Beweis: Sei Xn eine Cauchyfolge in dem normierten Vektorraum (Lp , k · kp ), 1 ≤ p ≤ ∞. Wähle eine Teilfolge Xni mit ni →i ∞ aufsteigend und X kXni+1 − Xni kp < ∞. i Für jede Realisation ω von strikt positiver Wahrsch. ist die Folge Xni (ω) eine Cauchyfolge in den reellen Zahlen. Diese haben einen Grenzwert, genannt X(ω). Diese Zg X tuts. P • i |Xni+1 (ω) P − Xni (ω)| < ∞ (falls P (ω) > 0.) Sei YN := i≤N |Xni+1 (ω) − Xni (ω)|, N ∈ IN ∪ {∞}. Es gilt kY∞ kp -N kYN kp ≤ • X(ω) := Xni + Lp P X i≤N j≥i (Xnj+1 (ω) kXni+1 − Xni kp %N X i∈IN kXni+1 − Xni kp < ∞. − Xnj (ω)) wohldefiniert für ω mit P (ω) > 0. Klar • Xni →i X. P P kXni − Xkp ≤ k j≥i |Xnj+1 − Xnj |kp ≤ j≥i kXnj+1 − Xnj kp →i 0. Lp • Xn →i X. kXn − Xkp ≤ kXn − Xni kp + kXni − Xkp →n,ni 0. • X ∈ Lp kXkp ≤ kX − Xn kp + kXn kp < ∞. q.e.d. Satz 1.10.15 Der Raum (L2 , k · k2 ) ist ein Hilbertraum. Die Bilinearform < ., . >: L2 × L2 7→ IR gegeben durch < X, Y >= EXY √ erzeugt die Norm kXk2 := < X, X >. Der Covarianzoperator Cov : L2 × L2 7→ IR ist eine positiv definite Bilinearform. Beweis: Der Vektorraum L2 der Äquivalenzklassen ist ein Banachraum Theorem 1.10.14. Der Rest ist einfach. Beachte: Unabhängigkeit ist mehr als Unkorreliertheit von Zgn. Unkorrelierte zentrierte Zgn sind orthogonal im Hilbertraum. 52 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Allgemeinwissen: Hilberträume mit gleicher Kardinalität einer Basis sind isomorph. Die L2 -Räume diskreter W-räume haben endliche oder abzählbare Basis. Die Dimension des Hilbertraumes L2 (Ω) ist die Anzahl der ω ∈ Ω mit P (ω) > 0. 53 Uwe Rösler 1.11 SS98 1.11 Gesetze der Großen Zahl Gesetze der Großen Zahl Es gibt ein schwaches Gesetz der Großen Zahl (GGZ) und ein starkes. Im folgenden verwenden wir abzählbare Folgen von Zgn auf einem gemeinsamen W-raum. Die Existenz solcher W-räume ist nicht trivial und der W-raum in der Regel kein diskreter Wraum mehr. Die Verwendung eines gemeinsamen W-raumes geschieht aus rein schreibtechnischen Gründen der Eleganz. Alle folgenden Aussagen lassen sich sinngemäß umformen unter ausschließlicher Verwendung diskreter W-räume und endlich vieler Zgn. P X wie bisher eine Wir benutzen EX weiterhin in dem Sinne EX = x xP (X = x), wobei P diskrete Verteilung ist. 1.11.1 Schwache GGZ Definition 1.11.1 (stochastische Konvergenz) Eine Folge von Zgn Xn konvergiert stochastisch oder in Wahrscheinlichkeit gegen eine Zg X, falls P (|Xn − X| > ²) →n 0 für alle ² > 0 gilt. Notation: s P Xn →n X oder auch Xn →n X. Definition 1.11.2 (schwache Pn GGZ) Eine Folge Xn , n ∈ IN , genügt dem schwachen Gesetz der Großen Zahl, falls n1 i=1 (Xi − EXi ) stochastisch gegen 0 konvergiert, n 1X s (Xi − EXi ) →n 0. n i=1 Definition 1.11.3 (identisch verteilt) Eine Folge von Zgn Xn , n ∈ IN , heißt identisch verteilt, falls alle Xn dieselbe Verteilung besitzen. Satz 1.11.4 (Schwache Gesetz der Großen Zahl) Eine Folge von unabhängig, identisch verteilten Zgn mit endlichem zweiten Moment genügt dem schwachen Gesetz der Großen Zahl. s Memokürzel : Snn →n EX. Beweis: Wir verwenden die Tschebycheff Ungleichung 1.5 ¢ ¡ Sn − ESn ¢ VarSn ¡ Sn VarX1 − EX| > ² = P | |>² ≤ 2 2 = →n 0. P | n n n ² n²2 Die grundlegende Bedeutung des schwachen Gesetzes der Großen Zahl rechtfertigt den Namen Erster Hauptsatz der Wahrscheinlichkeitstheorie. Bsp: Würfeln. Die Zgn Xn , n ∈ IN , für die jeweilig erwürfelte n-te Augenzahl sind unabhängig identisch verteilt. Die durchschnittliche Augenzahl Snn in n Würfen Pnkonvergiert in Wahrsch. gegen den Erwartungswert 3, 5. Die relative Häufigkeit der Sechsen 1/n i=1 11Xi =6 konvergiert schwach gegen einsechstel 1/6. Bsp: Spieler. Seien Xn , n ∈ IN , uiv Zgn und Sn die n−te Partialsumme. Die Zg Xn interpretieren wir als Auszahlung bei dem n-ten Spiel für den Spieler. Diese kann positiv und negativ (Einsatz) sein. Den Wert Sn interpretieren wir als das Spielkapital des Spielers nach dem n−ten Spiel. s Das schwache Gesetz der Großen Zahl besagt Snn →n EX. Ist EX > 0, so ist es auf lange Sicht vorteilhaft für den Spieler zu spielen. Auf lange Sicht gewinnt der Spieler mit beliebig hoher Wahrscheinlichkeit. Trotzdem könnte Snn , jetzt als Funktion in n betrachtet, immer mal wieder weit weg von EX sein. (Dies ist nicht der Fall.) Beachte, der Satz besagt nicht limn Snn = EX punktweise. Bsp: Falschspieler. Eine gegebene Münze ist eventuell gefälscht. Falls sie gefälscht ist, so ist die Wahrsch. p für einen Kopfwurf, identifiziert mit 1, einviertel, p = 1/4. Die relative Häufigkeit 54 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Sn /n der Kopfwürfe wird gegen den Wert p konvergieren. Dieser ist 1/4 oder 1/2. Damit können wir mit beliebig großer Sicherheit, aber nie absoluter, eine eventuelle Fälschung erkennen. Bsp: Statistik. Das Grundproblem jeglicher Statistik ist eine Entscheidung, ob eine Verteilung P oder Q vorliegt. Dabei seien der Einfachheit halber P und Q bekannt. Falls wir unabhängige Experimente machen können, erhalten wir uiv Zgn X1 , X2 , P . . . mit der Verteilung P bzw. Q. Wähle n eine Menge A mit P (A) 6= Q(A). Die relative Häufigkeit n1 i=1 11Xi ∈A konvergiert schwach gegen den Grenzwert E(X1 ) = P (A) unter P und gegen E(X1 ) = Q(A) unter Q. Mit großer Wahrsch. läßt sich die wahre Verteilung P oder Q bestimmen. Bsp: Schreibender Affe. Ein Affe tippt zufällig eine unendliche Folge von Buchstaben in den Komputer. Jeder Buchstabe ist gleichberechtigt. Wie häufig kommt durchschnittlich das Wort Bahnhof in dieser Folge vor? Mathematisches Modell : Seien Xn , n ∈ IN , unabhängige Zgn mit der Gleichverteilung auf den Buchstaben A,B,...,Z. Definiere Yn := 11(Xn ,...,Xn+6 )=(B,A,H,N,H,O,F ) . Pn Sei Sn := i=1 Yi die relative Häufigkeit des Wortes ’BAHNHOF’ in der Folge (X1 , . . . , Xn+6 ). Dann konvergiert Snn stochastisch gegen den Erwartungswert EY1 . P (| Var(Sn ) Sn − ESn | ≥ ²) ≤ . n n2 ²2 Zur Berechnung der Varianz beachte E((Yi − EYi )(Yj − EYj )) = 0 für |i − j| > 7. Var(Sn ) = E n n X X i=1 j=1 (Yi − EYi )(Yj − EYj ) ≤ cn mit c eine Konstante. Variationen Satz 1.11.5 Eine Folge Xn , n ∈ IN , quadratintegrierbarer, unkorrelierter Zgn mit Pn i=1 Var(Xi ) →n 0 n2 genügt dem schwachen GGZ. Beweis: OBdA seien die Zgn zentriert. Beachte EXi Xj = 0 für i 6= j. Aus n X n n n X X X VarSn = E Xi Xj = EXi2 = VarXi i=1 j=1 i=1 i=1 mit Anwendung der Tschebycheff Ungleichung ergibt sich P (| VarSn Sn | > ²) ≤ 2 2 →n 0. n n ² q.e.d. Strukturell folgert der obige Satz aus der L2 −Konvergenz die stochastische Konvergenz. Proposition 1.11.6 Lp Konvergenz für ein p ∈ [1, ∞] impliziert stochastische Konvergenz. Beweis: Der Fall p = ∞ ist einfach. Für 1 ≤ p < ∞ argumentiere P (|Xn | > ²) ≤ E|Xn |p →n 0. ²p In dem folgenden Satz benutzen wir (exemplarisch) die Abschneidetechnik. 55 Uwe Rösler SS98 1.11 Gesetze der Großen Zahl Satz 1.11.7 (Khintschin) Eine Folge unabhängiger, identisch verteilter und integrierbarer Zgn erfüllt das schwache GGZ. Beweis: Seien Xn , n ∈ IN , die uiv Zgn. Zu vorgegebenem Pn² > 0 wähle ein a mit E|Xi −Yi | < δ wobei Yi die abgeschnittenen Zgn Xi 11|Xi |≤a sind. Sei Tn := i=1 Yi die n−te Partialsumme der Y 0 s. Sn − Tn Tn Sn − EX1 | > ²) ≤ P (| | > ²/3) + P (| − EY1 | > ²/3) + P (|EY1 − EX1 | > ²/3). n n n Alle Terme sind klein. P (| • Für den ersten verwende ≤ E|Sn − Tn | nδ 3δ ≤ = . n²/3 n²/3 ² • Für den zweiten verwende das schwache GGZ. • Der dritte Term ist 0 für δ hinreichend klein. q.e.d. Das schwache GGZ als Verteilungskonvergenz ∗ Das GGZ läßt sich ausschließlich durch Maße ohne Zuhilfenahme von Zgn formulieren. Definition 1.11.8 (Faltung) Die Faltung von Maßen ist eine Abbildung ∗ : M × M 7→ M mit M die Menge aller (diskreter) Maße auf den reellen Zahlen, B ⊂ IR X µ(x)ν(y). µ ∗ ν(B) := x+y∈B Für W-maße P und Q ergibt sich P ∗ Q als Verteilung von zwei unabhängigen Zgn X und Y mit Verteilung P bzw. Q. ‘ Für a ∈ IR\{0} definiere Ta : M 7→ M via Ta (µ)(B) = µ(aB), aB := {ab | b ∈ B}. Sei µ die Verteilung einer Zg X, so ist X/a verteilt nach Ta (µ). Definition 1.11.9 (Konvergenz dem Maße nach) Eine Folge νn , n ∈ IN , von W-maßem auf den reellen Zahlen konvergiert dem Maße nach gegen das Punktmaß δa auf a ∈ IR, falls gilt: X |x − a| νn (x) →n 0. 1 + |x − a| x Beachte: Xn konvergiert stochastisch gegen X genau dann, wenn die Verteilung von Xn − X dem Maße nach gegen 0 strebt. Proposition 1.11.10 s X n →n 0 ⇔ E Beweis: • “⇒” E |Xn | →n 0. 1 + |Xn | |Xn | |Xn | |Xn | =E 11|Xn |≤² + E 11|Xn |>² . 1 + |Xn | 1 + |Xn | 1 + |Xn | ² Den ersten Term schätzen wir durch 1+² ≤ ² ab, der zweite konvergiert in n gegen 0. • “⇐” |Xn | |Xn | ² |Xn | =E 11|Xn |≤² + E 11|Xn |>² ≥ 0 + P (|Xn | > ²). 0 ←n E 1 + |Xn | 1 + |Xn | 1 + |Xn | 1+² q.e.d. Der folgende Satz ist eine Umformulierung des schwachen GGZ. P Satz 1.11.11 (Schwache GGZ) Sei µ ein W-maß mit x∈IR x2 µ(x) <P∞ und µn die n−fache Faltung. Dann konvergiert Tn (µn ) stochastisch gegen das Punktmaß auf x xµ(x). 56 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 1.11.2 Starke GGZ SS98 Uwe Rösler Das schwache Gesetz der Großen Zahl ist eigentlich eine Verteilungskonvergenzaussage für Zgn und damit unbeeinflußt vom zugrunde gelegten W-raum. Das starke GGZ ist eine Konvergenzaussage für Zufallsgrößen als Funktionen auf einem W-raum. Für diskrete Zgn fallen beide Begriffe zusammen. Definition 1.11.12 (fast sichere Konvergenz) Eine Folge von Xn konvergiert fast sicher gegen eine Zg X, falls Xn gegen X punktweise konvergiert mit Wahrsch. 1, P ({ω | limn Xn (ω) = X(ω)) = 1. f.s. Notation: Wir schreiben Xn = X. Im allgemeinen sind die stochastische Konvergenz und die fast sichere Konvergenz verschiedene Konvergenzarten. Für diskrete Zgn sind sie identisch. Proposition 1.11.13 Sei (Ω, A, P ) ein diskreter W-raum. Dann sind stochastische Konvergenz und fast sichere Konvergenz dasselbe. f.s. s Beweis: • Xn →n X ⇒ Xn →n X Sei An := {ω | ∃i ≥ n |Xi (ω) − X(ω)| > ²}. An ist fallend gegen die leere Menge (fast sicher) und es folgt P (An ) &n P (∅) = 0. Dies gilt für alle ² > 0. s f.s. • X n →n X ⇒ X n →n X Wesentlich ist die spezielle Eigenschaft P ({ω | P (ω) > 0}) = 1 für diskrete W-räume. Sei B² := {ω | P (ω) > ²}). Für alle ω ∈ B² gilt limn Xn (ω) = X(ω). (Übung). Dann argumentiere P (B² ) →²→0 P ({ω | P (ω) > 0}) = 1. q.e.d. Proposition 1.11.14 Eine Folge Xn , n ∈ IN , genügt dem starken Gesetz der Großen Zahl, n falls Sn −ES fastP sicher gegen 0 konvergiert. n n Hierbei ist Sn = i=1 Xi die n−te Partialsumme. 57 Uwe Rösler 1.12 SS98 1.12 Poissonapproximation Poissonapproximation Wir behandeln die Poissonapproximation der Binomialverteilung für seltene Ereignisse. Die Summe vieler unabhängiger Bernoulli Zgn mit kleiner Erfolgsw-keit ist ungefähr Poissonverteilt. Satz 1.12.1 Sei (pn )n∈IN eine Folge reeller Zahlen mit Werten in [0, 1] und npn konvergiere gegen eine reelle Zahl λ > 0. Dann konvergiert für jedes k die Binomialwahrsch. von k gegen die Poisssonwahrsch. von k, µ ¶ λk n k Bin(n, pn )(k) = pn (1 − pn )n−k →n Poi(λ)(k) = exp(−λ) . k! k Beweis: In der Zerlegung Bin(n, pn )(k) = n−k+1 1 1 nn−1 ... (npn )k (1 − pn )n−k →n λk e−λ {z } n } k! | {z } | k! |n n {z II I III benötigen wir die Konvergenz der Faktoren I →n 1, II →n λk und III →n e−λ . Dies ist erfüllt. (Die letzte Konvergenz folgt aus − x2 x ≤ ln(1 − x) ≤ −x − 1−x 2 (1.6) für x ∈ (0, 1) aus dem Einheitsintervall. (Übung.) q.e.d. Die obige Aussage ist eine lokale Aussage, die Wahrsch. eines Punktes k betreffend. Es ist eine reine Konvergenzaussage, sie gibt keine Abschätzung über die Abweichung. Jetzt eine stärkere, globale Konvergenzaussage, die gesamte Verteilung betreffend. Totalvariation: Als Abstandsbegriff für W-Maße P, Q wählen wir den Totalvariationsabstand d(P, Q) = sup |P (A) − Q(A)|. A∈A Dies ist eine Metrik auf dem Raum aller W-Maße (zu einem meßbaren Raum). (Nachrechnen.) Das Supremum wird angenommen durch das Ereignis A aller Realisationen ω mit strikt größerem P-Maß als Q-Maß, P (ω) > Q(ω). Die Beziehung d(P, Q) = P (A) − Q(A) = Q(Ac ) − P (Ac ) führt uns für diskrete W-räume zu der Formel 1X d(P, Q) = |P (ω) − Q(ω)| (1.7) 2 ω zur Berechnung der Totalvariation. (Übung) Notation: Für Zgn benutzen wir d(X, Y ) = d(P X , P Y ). Lemma 1.12.2 Die Summe von unabhängigen Zgn mit Poissonverteilung ist wieder poissonverteilt mit der Summe der Einzelparameter als Parameter. Beweis: Es reicht die Behauptung für zwei Zgn zu beweisen. Seien X, Y die unabhängigen Zgn mit Verteilung Poi(λ1 ) und Poi(λ2 ). P (X + Y = k) = X P (X = i)P (Y = j) = i=0 {i,j|i+j=k} = eλ1 +λ2 k µ X i=0 k X k i ¶ λi1 λ2k−i k! = eλ1 +λ2 eλ1 +λ2 λi1 λ2k−i i!(k − i)! (λ1 + λ2 )k . k! q.e.d. 58 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Wir beweisen die Poissonapproximation jetzt durch Konstruktion von speziellen gekoppelten Zgn. Diese Technik wird coupling genannt. Satz 1.12.3 Seien X1 , . . . , Xn unabhängige Bernoulli verteilte Zgn zum Parameter P (Xi = 1) = pi . Sei S = X1 + . . . + Xn die Summe dieser und sei T eine poissonverteilte Zg zum Parameter p1 + . . . + pn . Dann gilt n n d(S, T ) = X 1X p2i . |P (S = k) − P (T = k)| ≤ 2 i=1 k=0 Beweis: Dieser Satz sagt etwas über die Verteilungen der Zgn aus. Der zugrundeliegende W-raum spielt hierbei keine Rolle. Wir konstruieren auf einem geeigneten W-raum folgende Zgn. Seien Zi , i = 1, . . . , n unabhängige Zgn mit Werten −1, 0, 1, . . . und der Verteilung k = −1 1 − pi e−pi − 1 + pi k=0 P (Zi = k) = −pi k k = 1, 2, 3 . . . e pi /k! Wir betrachten die Zgn Xi := 11Zi ≥0 und Yi := Zi ∨ 0. • Die Zgn Xi , i ∈ IN , sind unabhängige Zgn und Xi hat Bernoulli Verteilung zum Parameter pi . • Die Zgn Yi , i ∈ IN , sind unabhängige Zgn und Yi hat Poisson Verteilung zum Parameter pi . Wesentlich ist die Abschätzung P (Xi 6= Yi ) = P (Zi ≥ 2, Zi = 0) = 1 − P (Zi = −1) − P (Zi = 1) = pi (1 − e−pi ) ≤ p2i . Die Summe T := Wir schätzen ab P 2d(S, T ) = i Yi ist Poisson verteilt zum Parameter X k |P (S = k) − P (T = k)| = ≤ 2P (S 6= T ) ≤ X i X k P (Xi 6= Yi ) ≤ 2 P i pi . |P (S = k 6= T ) − P (T = k 6= S)| X p2i . i q.e.d. Bemerkung: Die Summe von n unabhängigen Bernoulli Zgn zum Parameter p ist binomialmialverteilt zum Parameter n, p. In dieser Form wird der Satz meistens angewandt. Das n sollte groß sein, das p klein. Bsp: Geburtstage. In einem Hörsaal sind 100 Studenten. Wieviele haben heute Geburtstag? Sei Xi die Bernoulli Zg der i-te Student hat Geburtstag. Wir nehmen an, diese Zgn sind unabhängig identisch Bernoulli verteilt zum Parameter 1/365. (Die Aufgabe stammt aus einer Zeit, als Sonntagsarbeit in Krankenhäusern noch üblich war.) Die Anzahl S100 der Geburtstage ist Binomial Bin(100, 1/365) verteilt. Die Poissonapproximation liefert P (S100 = 0) ≈ exp(−100/365) ≈ .76 200 1 Der Fehler |P (S100 = 0) − exp(−100/365)| dieser Approximation ist beschränkt durch 365 2 ≈ 800 . Bsp: Warendefekte. Bei einer Massenware sind einzelne Exemplare bereits bei der Produktion mit einer kleinen Wahrsch. p defekt. Ein Kunde bestellt k intakte Exemplare. Um die Wünsche des Kunden zu erfüllen und den Kunden zufriedenzustellen, wird der Lieferant vorsichtshalber einige Exemplare mehr liefern. Auch dann hat er keine absolute Sicherheit, aber eine hohe. Wieviel Exemplare n muß eine Sendung enthalten, damit der Kunde mit Wahrsch. α mindestens k intakte erhält? 59 Uwe Rösler SS98 1.12 Poissonapproximation Mathematisches Modell: Seien X1 , . . . , Xn unabhängige Zgn mit Bernoulliverteilung Ber(p). Xi = 1 bezeichne ein defektes i−tes Exemplar. Das Problem reduziert sich auf das Finden der kleinsten Zahl n mit n−k X Poi(np)(i). α ≤ P (k ≤ n − Sn ) ≈ Poi(np)({0, 1, . . . , n − k}) = i=0 Dies ist auch mit einem Taschenrechner möglich. Bsp: Telefonzentrale. Mehrere n interne Telefone sind an einer Zentrale angeschlossen. Wieviele k Außenleitungen müssen bereitgestellt werden, damit zu vorgegebener Wahrsch. α alle anrufenden Teilnehmer eine freie Leitung haben? Einerseits soll k aus Kostengründen klein sein und andererseits groß, um die Kunden zufriedenzustellen. Wir betrachten die Anzahl der Anrufe zu einem festen, aber beliebigen Zeitpunkt. Mathematisches Modell: Seien X1 , . . . , Xn uiv Zgn mit Bernoulliverteilung Ber(p). Xi = 1 steht für das Ereignis der i−te Teilnehmer telefoniert. Die Gesamtzahl Sn der tefonierenden Teilnehmer ist ungefähr Poisson Poi(np) verteilt. Die Lösung ergibt sich aus der Bedingung Poi(np)([0, k]) ≥ α. 60 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 1.13 SS98 Der Zentrale Grenzwertsatz Uwe Rösler Der Zentrale Grenzwertsatz ist eine Grenzwertaussage für die Summe von unabhängigen Zgn, wobei jeder Summand relativ zur Summe nur einen verschwindend kleinen Beitrag liefert. Im Gegensatz bestand die Summe bei der Poissonapproximation aus wenigen Summanden, die verglichen mit der Summe relativ groß waren. Der Zentrale Grenzwertsatz (ZGS) läßt sich als ein allgemeines Naturgesetz verstehen und auch beobachten. Wenn immer eine Summe aus vielen kleinen unabhängigen Zgn gebildet wird, gilt der ZGS. Die Bedeutung des Zentralen Grenzwertsatzes (ZGS) rechtfertigt das Statement: Der Zentrale Grenzwertsatz ist der zweite Hauptsatz der W-theorie. Wir formulieren zuerst den ZGS in der einfachsten Form, geben einen Beweis und diskutieren dann Folgerungen und Ausweitungen. Definition 1.13.1 (standardisierte Normalverteilung) Die Funktion Φ : IR 7→ IR, Z x ϕ(y)dy Φ(x) := −∞ mit y2 1 ϕ(y) := √ e− 2 2π heißt standardisierte Normalverteilungsfunktion oder Gaussverteilung . Der Integrand ϕ heis̈t Dichte der Gaussdichte bzw. Dichte der Normalverteilung. Die Funktion Φ ist eine Verteilungsfunktion und ϕ die Dichte dazu. Die numerischen Werte der Gauß Funktion Φ sind tabelliert bzw. können mathematischen Komputerprogrammen wie Maple oder Mathematica entnommen werden. (Übung, beachte Φ(x) = 1 − Φ(−x).) Definition 1.13.2 (Zentraler Grenzwertsatz) Eine Folge Xn , n ∈ IN , von Zgn gehorcht dem Zentralen Grenzwertsatz, Pn (ZGS) falls es eine Folge reeller Zahlen cn , dn gibt, sodaß für die n-te Partialsumme Sn := i=1 Xi und für alle reellen a < b gilt P µ Sn − cn a≤ ≤b dn ¶ →n Φ(b) − Φ(a). Definition 1.13.3 (Standardnormierung) Die Standardnormierung einer Zg X ist, sofern wohldefiniert, gegeben durch X − EX . X ∗ := √ VarX Die obige Folge cn , dn entspricht im √ Regelfall der Standardnormierung der Summe Sn durch cn = √ ESn = nEX1 und dn = VarSn = nEX1 . Die Grundform des ZGS lautet Satz 1.13.4 (Zentraler Grenzwertsatz) Eine Folge unabhängiger, identisch verteilter Zgn mit endlicher Varianz ungleich 0 gehorcht dem ZGS mit der Standardnormalisierung. 1.13.1 Moivre-Laplace Die einfachste Form des ZGS ist der Satz von Moivre-Laplace. Satz 1.13.5 (De Moivre-Laplace) Eine Folge unabhängiger identisch verteilter Zgn mit einer Bernoulliverteilung zum Parameter p ∈ (0, 1) genügt dem ZGS. 61 Uwe Rösler SS98 1.13 Der Zentrale Grenzwertsatz Die Beweisidee besteht in brutalem Abzählen. Sei Sn die n-te Partialsumme von unabhängigen, Bernoulli verteilten Zgn zum Parameter p. (Münzwurf.) Die Wahrscheinlichkeit P (Sn = k) stellen wir in einem Säulendiagramm dar. Die Wahrscheinlichkeit P (a − 21 ≤ Sn ≤ b + 12 ) mit a, b ∈ Z entspricht der Fläche über dem Intervall [a − 12 , b + 12 ]. Wir approximieren P (Sn = k) als Funktion in k und integrieren diese Funktion auf. (Übung: Verdeutlichen Sie sich die Herangehensweise in einem Bild.) Zur Vorbereitung benötigen technische Resultate. Auch von allgemeinem Interesse ist die Stirling Formel [?][?], die wir ohne Beweis angeben. Lemma 1.13.6 (Stirling Formel) Für jede natürliche Zahl n gilt 1 1 n! < e 12n e 12n+1 < √ 2nπ( ne )n Sei ϕm,σ2 die Funktion ϕm, σ 2 (x) := (1.8) (x−m)2 1 2σ 2 e . 2πσ 2 Lemma 1.13.7 Sei Sn Binomial Bin(n, p), 0 < p = 1 − q < 1, verteilt. Sei αn , n ∈ IN , eine positive Folge mit limn n1/3 αn = 0 und Kn die Menge der ganzen ZAhlen k mit | nk − p| ≤ αn . Dann gilt P (Sn = k) →n 1. sup k∈Kn ϕnp,np(1−p) (k) Beweis: Den obigen Quotienten schreiben wir als Produkt von fünf Faktoren. √ n!pk q n−k 2npqπ P (Sn = k) = (k−np)2 ϕnp,npq (k) k!(n − k)!e− 2npq p √ √ (k−np)2 √ n−k k n−k 2kπ( ke )k 2(n − k)π( n−k n! 2nπ 2npqπ p q e 2npq e ) p √ = √ n−k k! } (n − k)! ( k )k ( n−k 2nπ( ne )n | {z 2kπ 2(n − k)π n ) | {z }| n {z }| {z } | {z } F F3 2 F1 F4 • F1 →n 1 gleichmäs̈ig für k ∈ Kn . Dies folgt aus der Stirling Formel 1.8, 1 sup |F1 − 1| = F1 − 1 ≤ e 12n − 1 →n 0. k∈Kn • F2 →n 1 gleichmäs̈ig für k ∈ Kn . sup |F2 − 1| = k∈Kn = 1 12k 1 1 →n 0. sup ≤ k 12np − 12nαn 12n( n − p) + 12np 1 sup(1 − F2 ) ≤ 1 − e− 12k ≤ sup • F3 →n 1 gleichmäs̈ig für k ∈ Kn . Analog zum vorherigen. • F5 →n 1 gleichmäs̈ig für k ∈ Kn . F5 schreibt sich in der Form √ pq q F5 = q . p + ( nk − p) 1 − p − ( nk − p) Jetzt wird | nk − p| durch αn abgeschätzt und αn konvergiert in n gegen 0. • F4 →n 1 gleichmäs̈ig für k ∈ Kn . 62 F5 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 Eine einfache, längliche Rechnung mit u = ln F4 = u2 k n SS98 − p zeigt Uwe Rösler n u u − n(u + p) ln(1 + ) − n(q − u) ln(1 − ). 2p(1 − p) p q Mit der Taylor Entwicklung ln(1 − x) = −x − x2 /2 + x3 rest(x) für |x| < 1 mit rest(x) →x→0 1 erhalten wir ln F4 = nu3 a. Der Term a := 2p12 − (u + p) rest( up ) − (q − u) rest( uq ) − k. Der Term |nu3 | ≤ nαn3 konvergiert gegen 0. Beweis von Moivre-Laplace: Sei Sn∗ 1 2q 2 ist beschränkt gleichmäßig in n und q.e.d. Sn − ESn Sn − np Sn∗ := √ = √ npq VarSn die standardisierte n-te Partialsumme, q = 1 − p. Definiere die Abbildung k → kn∗ := Seien reelle Zahlen a∗ ≤ b∗ vorgegeben und definiere Kn := {k ∈ IN | a∗ ≤ kn∗ ≤ b∗ } rk := P (Sn = k), sk := ϕnp,npq (k), tk := Z k−np √ npq . k+1/2 ϕnp,npq (x)dx. k−1/2 P • P (a∗ ≤ Sn∗ ≤ b∗ ) = k∈Kn rk . Trivial. • supk∈Kn |1 − srkk | →n 0. ∗ ∗ |∨|b | Verwende das letzte Lemma mit αn := |a √ . n P •P | k∈Kn (rk − sk )| →n 0 P | k∈Kn (rk − sk )| ≤ supl∈Kn |1 − srll | k rk →n 0. P • | k∈Kn (sk − tk )| →n 0. | X k∈Kn (sk − tk )| ≤ = XZ k+1/2 k−1/2 k XZ k+1/2 √ k−1/2 k ≤ sup k 1 √ 2πnpq sup − 12 ≤y≤ 21 ¯ ¯ ¯ − (k−np)2 (x−np)2 ¯ ¯e 2npq − e− 2npq ¯ dx ¯ ¯ ¯ ¯ ¯ (k−np)2 −(x−k+k−np)2 (x−np)2 ¯ 1 − 2npq ¯ − 2npq e − 1¯¯ dx e ¯ 2πnpq {z } | |e y 2 +2y(k−np) 2npq y2 − 1| Z |e (x−k)2 +2(x−k)(k−np) 2npq −1| ϕnp,npq (x)dx k ≤ sup sup |e 2npq +2y( n −p) − 1| →n 0 y k R b∗ P • | k∈Kn tk − a∗ ϕ(x)dx| →n 0. Sei an := inf Kn√ , bn := sup Kn . Es gilt an = da∗ (npq)+1/2+npe−np−1/2 √ npq und bn = Wir verwenden nun die Transformation y := X k∈Kn tk = Z bb∗ x−np √ npq . √ (npq)+1/2+npc−np+1/2 √ . npq Die Summe bn +1/2 ϕnp,npq (x)dx = an −1/2 Z P k∈Kn tk bn +1/2−np √ npq an −1/2−np √ npq läßt sich schreiben als ϕ(x)dx. Die untere Grenze des rechten Integrals konvergiert gegen a∗ , die obere gegen b∗ . Dies reicht. q.e.d. 63 Uwe Rösler SS98 1.13 Der Zentrale Grenzwertsatz Bemerkung: Im obigen Satz ist es unerheblich, ob wir asymptotisch die W-keit der standardisierten Summe Sn∗ im abgeschlossenen Intervall [a∗ , b∗ ] oder im offenen Intervall (a∗ , b∗ ) oder in einem halboffenen Intervall (a∗ , b∗ ], [a∗ , b∗ ) betrachten. Bemerkung: Für ganze Zahlen a, b ist P (a ≤ Sn ≤ b) = P (a − 1/2 ≤ Sn ≤ b + 1/2) ≈ Φ µ b + 1/2 − np √ npq ¶ −Φ µ a − 1/2 − np √ npq ¶ (1.9) + eine etwas bessere Abschätzung als ohne den Korrekturterm von − 21 . Beispiel Würfeln: Gesucht ist die W-keit bei sechstausendmaligem Würfeln zwischen 980 und 1020 mal die Sechs zu erhalten. Die Zgn Xi , 1 ≤ i ≤ 6000, seien 1, wenn im i-ten Wurf eine 6 erscheint und ansonsten Null. Z b∗ P (980 ≤ Sn ≤ 1020) = P (a∗ ≤ Sn∗ ≤ b∗ ) ≈ ϕ(x)dx = Φ(b∗ ) − Φ(a∗ ) ≈ 0, 51 a∗ mit a∗ := √ −20 und 5000/6 a∗ := √−20,5 und b∗ := 5000/6 b∗ := √ 20 . 5000/6 √ 20,5 liefert 5000/6 Die besere Abschätzung nach der Bemerkung 1.9 mit P (979, 5 ≤ Sn ≤ 1020, 5) ≈ 0, 52. 1.13.2 Gleichmäßige Konvergenz Die Grundformulierung 1.13.4 hat verschiedene Defizite. Einer ist, daß die Konvergenz gegen die Normalverteilung nur für festes a und b formuliert wurde. Das macht uns unflexibel in Anwendungen, in denen wir a und b als abhängig von n betrachten wollen. Mathematisch fragen wir nach einer gleichmäßigen Konvergenz. Lemma 1.13.8 Eine Folge von Verteilungsfunktionen, die punktweise gegen eine stetige Verteilungsfunktion konvergiert, konvergiert gleichmäs̈ig. Beweis: Die Folge Fn , n ∈ IN von Verteilungsfunktionen konvergiere punktweise gegen die stetige Verteilungsfunktion F. Wir benutzen die stetige Erweiterung Fn (−∞) = 0 = F (−∞) und Fn (∞) = 1 = F (∞). Zu zeigen ist supx |Fn (x) − F (x)| →n 0. Zu vorgegebenem ² > 0 gibt es eine endliche Folge −∞ = d0 < d1 < . . . < dm < dm+1 = ∞ in den erweiterten reellen Zahlen IR mit |F (di ) − F (di+1 )| < ² für i = 0, . . . , m. • sup0≤i≤m+1 |Fn (di ) − F (di )| →n 0. Leicht. • kFn − F k∞ →n 0. Sei x ∈ IR. Wähle das eindeutige i mit di ≤ x < di+1 wie oben. |Fn (x) − F (x)| ≤ 11Fn (x)>F (x) (Fn (x) − F (x)) + 11Fn (x)≤F (x) (F (x) − Fn (x)) ≤ 11Fn (x)>F (x) (Fn (di+1 ) − F (di )) + 11Fn (x)≤F (x) (F (di+1 ) − Fn (di )) ≤ sup |Fn (dj ) − F (dj )| + sup |F (dj ) − F (dj+1 )| j j Der zweite Term auf der rechten Seite ist klein in ². Der zweite ist klein für n hinreichend gros̈. Diese Abschätzung ist gleichmäßig in x. q.e.d. Korollar 1.13.9 (Glivenko-Cantelli) Sei Xn eine Folge von Zgn. Äquivalent sind (i) Für alle reellen Zahlen b gilt P (Xn ≤ b) →n Φ(b). (ii) supb∈IR |P (Xn ≤ b) − Φ(b)| →n 0. (iii) supa,b∈IR |P (a ≤ Xn ≤ b) − Φ(b) + Φ(a)| →n 0. Der Beweis ergibt sich aus dem obigen Lemma. 64 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 1.13.3 SS98 Allgemeiner Zentraler Grenzwertsatz Uwe Rösler Wir geben nun den Beweis des Zentralen Grenzwertsatzes 1.13.4, Lemma 1.13.10 Seien Xn , Yn , n ∈ IN unabhängige Zgn mit endlicher Varianz, wobei die (Xn ) identisch verteilt sind und die (Yn ) auch. Seien Sn∗ und Tn∗ die Standardisierungen der Partialsummen Sn = X1 + . . . + Xn und Tn = Y1 + . . . + Yn . Dann gilt |E(f (Sn∗ )) − E(f (Tn∗ ))| →n 0 (1.10) für alle dreimal stetig differenzierbaren Funktionen mit einer beschränkten dritten beschränkten Ableitung kf 000 k∞ < ∞. Beweis: Wir nehmen PnoEdA.Xndie Zgn X, Y mit Erwartungswert Null und Varianz Eins an. Sei Pi−1 Yi + k=i+1 √ ). Eine Teleskopsummendarstellung ci := ( j=1 sqrtn n f (Sn∗ ) − f (Tn∗ ) = X i Yi Xi (f (ci + √ ) − f (ci + √ ) n n ergibt |E(f (Sn∗ ) − f (Tn∗ ))| ≤ = n X Xi Yi |E(f (ci + √ ) − f (ci + √ )| n n i=1 X : Ai i Pn Pi−1 Yi Xn + k=i+1 √ mit ci := ( j=1 sqrtn . n Wir verwenden die Taylor Approximation f (x) = f (x0 ) + (x − x0 )f 0 (x0 ) + (x − x0 )3 000 (x − x0 )2 00 f (x0 ) + f (ξ) 2! 3! mit einem geeigneten Zwischenwert ξ (bzw. η) zwischen x und x0 jeweils angewandt auf den i-ten Term in obiger Summe entwickelt um ci . Ai = |E(f 0 (ci ) Xi − Yi Xi3 Yi3 X 2 − Yi2 √ + f 000 (ξi ) 3/2 + f 000 (ηi ) 3/2 | + f 00 (ci ) i 2n n 6n 6n Die Unabhängigkeit von ci und (Xi , Yi ) ergibt E( Xi − Yi 0 Xi − Yi √ f (ci )) = E( √ )E(f 0 (ci )) = 0 n n X 2 − Yi2 Xi2 − Yi2 00 f (ci )) = E( i )E(f 00 (ci )) = 0 2n 2n Damit sind die ersten beiden Terme 0. Die Abschätzung wird nun fortgeführt, E( Ai ≤ E|f 000 (ξi ) ≤ Yi3 Xi3 | + E|f 000 (ηi ) 3/2 | 3/2 6n 6n 1 kf 000 k∞ (E|Xi |3 + E|Yi |3 ) 6n3/2 q.e.d. Hieraus erhalten wir A ≤ const √1n →n 0. Bemerkung: Mit ein klein wenig mehr Aufwand läs̈t sich das Lemma auch ohne endliches 3. Moment zeigen. 65 Uwe Rösler SS98 1.13 Der Zentrale Grenzwertsatz Satz 1.13.11 (Zentraler Grenzwertsatz) Eine Folge unabhängiger, identisch verteilter Zgn mit endlicher Varianz ungleich 0 gehorcht dem ZGS. Beweis: Sei Sn∗ die standardisierte Summe und Tn∗ eine unabhängige, standardisierte Summe von Bernoulli Zgn zum Parameter 21 . Zu vorgegebenem ² > 0 und reelllen Zahlen a < b wähle dreimal stetig differenzierbare Funktionen f, g mit beschränkter dritter Ableitung und die 11[a+²,b−²] ≤ f ≤ 11[a,b] ≤ g11[a−²,b+²] erfüllen. Solche Funktionen existieren. Dann folgt aus Monotonie des Integrals P (a+² ≤ Tn∗ ≤ b−²)+an ≤ Ef Tn∗ ≤ Ef Sn∗ +an ≤ P (a ≤ Sn∗ ≤ b) ≤ EgSn∗ ≤ Ef Tn∗ +bn ≤ P (a−² ≤ Tn∗ ≤ b+²)+bn mit an = Ef Tn∗ − Ef Sn∗ und bn = EgSn∗ − Ef Tn∗ . Beide Terme konvergieren in n → ∞ gegen 0. Mit dem Grenzübergang n → ∞ folgt Φ(b − ²) − Φ(a + ²) ≤ lim inf P (a ≤ Sn∗ ≤ b) ≤ lim sup P (a ≤ Sn∗ ≤ b) ≤ Φ(b + ²) − Φ(a − ²). n n Mit ² → 0 erhalten wir das behauptete Resultat. q.e.d. Beispiel Gauß als Geodäter: Eine Strecke wird n−mal gemessen. Die sich ergebenen Meßwerte sind mit einem Meßfehler behaftet und weichen voneinander ab. Inwieweit läßt sich aus den fehlerbehafteten Daten die wahre Streckenlänge c approximativ bestimmen. Mathem. Modell: Xi , 1 ≤ i ≤ n, seien unabhängige Zgn. mit unbekannter Verteilung und endlicher Varianz σ 2 . Der Erwartungswert der Zg sei die zu bestimmende unbekannte Größe c. Ein guter Schätzer für c ist n 1X Sn = Xi . ĉ = n n i=1 p Die Verteilung des Abstands σn2 (ĉ−c) ist approximativ Φ. Grob gesagt, der Fehler bei Benutzung √ von ĉ anstelle des wahren Wertes c ist von der Größenordnung 1/ n. Gauss ist bekannt geworden durch seine genaue Landvermessung. Seine bahnbrechnede Neuerung war die Mittelwertbildung seiner Mehrfachmessungen als gute Approximation der wahren Streckenlänge. Güte der Approximation: Wie gut ist die Normalapproximation? Die Approximationsgüte, d.h. Aussagen über die Konvergenzgeschwindigkeit des maximalen Abstands supb |P (Sn∗ ≤ b) − Φ(b)| für uiv Zgn gibt der Satz von Berry-Esseen. Satz 1.13.12 (Berry-Esseen) Sei Sn∗ die standardisierte Summe von n unabhängig identisch verteilten Zgn X1 , . . . , Xn mit Varianz σ 2 und endlichem zentrierten dritten absoluten Moment 0 < γ := E|X − EX|3 < ∞. Dann gilt sup |P (Sn∗ ≤ b) − Φ(b)| ≤ b 0, 8γ √ . σ3 n Literatur: Sozanov [?]. Beispiel Würfeln: Wir betrachten die Anzahl der Sechsen bei tausendmaligem Würfeln. Der Fehler in der Approximation ist beschränkt durch 2 ∗ 0, 8 ∗ 130/64 √ ≈ 0, 098. (5/36)3/2 1000 66 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 W-theoretische Formulierung des ZGS Uwe Rösler Die reellwertige Funktion ϕm,σ2 : IR 7→ IR ϕm,σ2 (x) := √ 1 2πσ 2 e− (x−m)2 2σ 2 zu den Parametern m ∈ IR und 0 < σ 2 < ∞ wird wegen Ihrer Glockenform nach Ihrem “Entdecker” Carl Friedrich Gauß die Gauß Glockenkurve genannt. Sie heißt auch Dichte der Normalverteilung zu den Parametern m, σ 2 . Die Funktion Φm,σ2 : IR 7→ IR Z x ϕm,σ2 (y)dy Φm,σ2 (x) := −∞ zu den Parametern m ∈ IR, σ 2 ∈ (0, ∞) heißt Gauß Verteilungsfunktion oder auch Verteilungsfunktion der Normalverteilung . Die Standardnormalverteilung ist die Funktion Φ := Φ0,1 mit der standardisierten Gauß Glockenkurve bzw. Dichte der Standardnormalverteilung φ := φ0,1 . Die Gauss Verteilungsfunktion ist eine Verteilungsfunktion ist eine R und die Gauss Glockenkurve R 2 2 2 Dichtefunktion. Die Parameter haben die Bedeutung m = yϕ (y)dy und σ = (y−m) ϕm,σ2 (y)dy. m,σ R (Übung, bis auf ϕ(y)dy = 1. Dies zeigt man durch unter Verwendung von Polarkoordinaten p y (r, ψ) = ( x2 + y 2 , arcsin ), dxdy = rd(r, ψ) x Z 2π Z ∞ Z Z Z r2 1 e− 2 rdrdψ = 1. ( ϕ(x)dx)2 = ϕ(x)ϕ(y)dxdy = 2π 0 0 Die Gaussverteilung oder Normalverteilung ist das zugehörige W-mas̈ zu der Gauss Verteilungsfunktion. Zu diesem W-mas̈ gibt es (auf einem geeignetem W-raum, z.B. die reellen Zahlen versehen mit der Borel σ-Algebra, dem Gaussmas̈ und der Identität als Zg.) eine Zg mit dieser Verteilung. Man spricht von einer normalverteilten Zg zu den Parametern m, σ 2 . Die Parameter haben die Interpretation als Erwartungswert m und Varianz σ 2 . Not: Wir verwenden N (m, σ 2 ) für die Verteilung und das W-mas̈ einer Normalverteilung zu den Parametern m, σ 2 . Die Normalverteilung hat mehrere besondere Eigenschaften, die sie von anderen Verteilungen unterscheidet. Proposition 1.13.13 Die Summe von unabhängigen normalverteilten Zgn ist wieder normalverteilt mit Addition der Parameter. Ist die Zg X N (m, σ 2 ) verteilt und a 6= 0, so ist aX + b N (m + am, a2 σ 2 ) verteilt. Beweis: Der zweite Teil ist einfaches Nachrechnen. Für den ersten Teil reicht zwei Zgn zu nehmen. Die Summe zweier unabhängiger Zg mit Dichte f und g hat eine Dichte h, die sich berechnet aus Z h(x) = f (x − y)g(y)dy. Der rest ist Schreibarbeit. q.e.d. Definition 1.13.14 (Konvergenz bzgl. Funktionenklasse) Sei F eine Menge von Funktionen. Eine Folge µn von W-maßen konvergiert gegen ein RW-maß µ bezüglich der Funktionenklasse R F, falls für alle Funktionen f der Funktionenmenge f dµn →n f dµ gilt. F Not: µn →n µ ⇔ µn (f ) →n µ(f ) ∀f ∈ F. 67 Uwe Rösler SS98 1.13 Der Zentrale Grenzwertsatz Die F-Konvergenz mit F := {11A | A ∈ A ist die punktweise Z ∀f ∈ F gilt inf f dµn →n f dµ ⇔ ∀A ∈ Aµn (A) →n µ(A). Punktweise Konvergenz: Konvergenz. Schwache Konvergenz: Sei Cb die Menge der reellwertigen, stetigen und beschränkten Funktionen. Die Konvergenz bzg. Cb heißt schwache Konvergenz. C d Not: µn →n µ ⇔ µn →bn µ. Hierbei steht d für distribution. Es wird auch w verwendet für weak. d Für Zg benutzen wir dieselbe Notation Xn → X falls die Verteilungen schwach konvergieren. Satz 1.13.15 (Zentrale Grenzwertsatz) Sei X1 , X2 , . . . eine Folge von uiv Zg mit endlicher Varianz nicht Null. Dann konvergiert Sn∗ in Verteilung gegen die Standardnormalverteilung. Beweis: Wir verwenden das Lemma von Trotter, eventuell mit der Bemerkung. Seien die Y Zgn alle normalveteilt. Dann ist Tn∗ standardnormalverteilt für alle n. Folglich haben wir die Konvergenz von Sn∗ gegen die Standardnormalverteilung für die Funktionenklasse F der dreimal stetig differenzierbaren Funktionen mit beschränkter stetiger Ableitung. Jede stetige beschränkte Funktion g mit endlichem Träger {x | g(x) 6= 0} läs̈t sich gleichmäßig durch eine Funktion f aus F beliebig gut approximieren. Dann gilt Eg(Sn∗ ) − Eg(Tn∗ ) = (Eg(Sn∗ ) − Ef (Sn∗ )) + (Ef (Sn∗ ) − Ef (Tn∗ )) + (Ef (Tn∗ ) − Eg(Tn∗ )) →n 0. Und was macht man, falls der Träger nicht endlich ist? (Übung in Abschneidetechnik) q.e.d. ZGS für Schemata * Wann konvergieren Summen von unabhängigen Zgn gegen eine Normalverteilung? Wir geben eine Gleichmäßigkeitsaussage an. Definition 1.13.16 (Schema von Zufallsgrößen) Ein Schema von Zgn ist eine Familie von Zgn Xn,k , n ∈ IN, 1 ≤ k ≤ kn ∈ IN . Wir schreiben diese in der Form X1,1 , X1,2 , . . . , X1,k1 X2,1 , X2,2 , . . . , X2,k2 X3,1 , X3,2 , X3,3 , . . . , X3,k3 ...................... Wir betrachten insbesonders die Summe der n-ten Reihe eines Schemas, Sn = kn X Xn,k . k=1 Definition 1.13.17 (unabhängig, standardisiert) Ein Schema heißt unabhängig, falls die Zgn (Xn,k )k in jeder Reihe n unabhängig sind. Ein Schema heißt standardisiert, falls die Zgn zentriert sind und die Varianz s2n := VarSn = 1 jeder Reihensumme stets 1 ist. Jedes Schema mit endlicher Reihenvarianz s2n ungleich 0 läßt sich durch Übergang zu den Zgn X −EX Yn,k := n,k sn n,k standardisieren. Definition 1.13.18 (asymptotisch vernachlässigbar) Ein Schema (Xn,k )n,k heißt asymptotisch vernachlässigbar, falls für alle ² > 0 gilt sup P (|Xn,k − EXn,k | > ²) →n 0. k Definiere für ein standardisiertes Schema Ln (²) := X k 2 E(Xn,k 11|Xn,k |≥² ). 68 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Satz 1.13.19 (Lindeberg) Sei (Xn,k )n,k ein unabhängiges und standardisiertes Schema. Dann sind äquivalent (i) (Xn,k )n,k ist asymptotisch vernachlässigbar und es gilt der ZGS ∀x ∈ IR P (Sn ≤ x) →n Φ(x) (ii) Die Lindebergbedingung gilt, d.h. für alle ² > 0 gilt Ln (²) →n 0. Beweis: Die Rückrichtung ließe sich analog zu Lemma 1.13.10 zeigen. Für die Hinrichtung siehe Feller [?]. Weiter- und tieferliegende Literatur ist Petrov [?] und Gnedenko-Kolmogoroff [?]. ZGS für uiv Zg: Sei Xn , n ∈ IN , eine Folge uiv Zg mit EX1 = m und endlicher Varianz σ 2 ungleich 0. Diese Folge bildet in natürlicher Weise ein Schema via Xn,k = Xk , 1 ≤ k ≤ kn = n und X1 − m √ , σ2 X1 − m X2 − m √ , √ 2σ 2 2σ 2 .......... ¶n µ Xk − m √ . nσ 2 k=1 X1 X 1 , X2 ............ X1 , . . . , Xn −m , 1 ≤ k ≤ n ∈ IN . Das standardisierte Schema ist Das zugehörige standardisierte Schema ist X√knσ 2 unabhängig. Es erfüllt die Lindebergbedingung Ln (²) := n X k=1 E µ (Xk − m)2 11|Xk −m|≥√nσ2 ² nσ 2 ¶ =E µ (X1 − m)2 11|X1 −m|≥√nσ2 ² σ2 ¶ →n 0. Daher gilt der ZGS und die einzelnen Beiträge der Zg zur Summe sind asymptotisch vernachlässigbar. Beispiel Mergesort: Eine direkte Anwendung ist die asymptotische Analyse von Mergesort (siehe dort). 69 Uwe Rösler 1.14 SS98 1.14 Zgn mit Werten in Rd ∗ Zgn mit Werten in Rd ∗ Im Text schreiben wir einen Vektor in der Form x = (x1 , . . . , xd ). In Formeln benutzen wir den Vektor als Spaltenvektor. Der Reihenvektor wäre xt . Fürq eine Matrix A benutzen wir At für die Pd 2 transponierte. Wir benutzen die euklidische Norm kxk = i=1 xi . d Im folgenden betrachten wir Zgn X mit Werten in IR . Diese schreiben wir in der Form X = (X1 , . . . , Xd ) : Ω 7→ IRd , X(ω) = (X1 (ω), . . . , Xd (Ω)). Definition 1.14.1 (Erwartungswert) Der Erwartungswert einer Rd -wertigen Zg X ist definiert durch EX = (EX1 , . . . , EXd ). Definition 1.14.2 (Covarianz) Die Covarianzmatrix Cov(X, Y ) : {1, . . . , d}2 7→ IR zweier IRd −wertiger Zgn X, Y ist gegeben durch Cov(X, Y )i,j := Cov(Xi , Yi ) = E((Xi − EXi )(Yj − EYj )). Prägnanter: Cov(X, Y ) = E((X − EX)(Y − EY )t ). Es gilt für Matrizen A, B ∈ IRd×d und Vektoren a, b ∈ IRd Cov(AX + a, BY + b) = ACov(X, Y )B t . Die Covarianzmatrix einer Zgn X ist die Matrix Cov(X, X) =: Cov(X). Definition 1.14.3 (positiv definit) Eine Matrix A heißt positiv definit, falls v t Av ≥ 0 für alle v ∈ IRd gilt. Proposition 1.14.4 Die Covarianzmatrizen Cov(X) sind genau die positiv definiten Matrizen. Beweis: “⇒” Sei v ∈ IRd . Dann gilt v t Cov(X, X)v = v t E((X − EX)(X − EX)t ))v = E(((X − EX)t v)t ((X − EX))t v) ≥ E(((X − EX)t v)2 ) ≥ 0. “⇐” Sei X = (Xi )1≤i≤d eine IRd −wertige Zg mit der Einheitsmatrix als Covarianzmatrix. (Dies ist möglich, (Xi )i unabhängig mit EXi = 0 und VarXi = 1.) Dann tuts C 1/2 pX. (Für diagonale Matrizen D = (di,j )i,j mit positiven Einträgen ist D1/2 definiert durch ( di,j )i,j .) Sei jetzt C eine positiv definite d × d Matrix. Dann existiert eine orthogonale (Ot = O−1 ) Rotation O mit OCOt = D hat Diagonalgestalt. Definiere C 1/2 = Ot D1/2 O. q.e.d. GGZ: Es gilt das sinngemäße Gesetz der Großen Zahl. Satz 1.14.5 (GGZ) Eine Folge uiv Rd −wertiger Zgn. mit endlichem ersten Moment erfüllt das schwache Gesetz der Großen Zahl. Beweis: Sei Xn die Rd −wertige Folge uiv Zgn, oEdA zentriert, Sn die n−te Partialsumme. µ ¶ X µ ¶ d ¯ Sn,i ¯ ° Sn ° ² ¯ ° ° ¯ P >² ≤ > P →n 0. n n d i=1 Pn Hierbei haben wir das GGZ verwandt für Sn,i := j=1 Xj,i , Xj = (Xj,1 , . . . , Xj,d ). q.e.d. 70 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 ZGS: SS98 Uwe Rösler Die d−dimensionale Glockenkurve bzw. d−dimensionale Dichte der Normalverteilung ist die Funktion ϕm,C : IRd 7→ IR ϕm,C (x) = p 1 (2π)d det(C) e− (x−m)t C −1 (x−m) 2 mit m ∈ IRd und C ∈ IRd×d eine positiv definit und invertierbar Matrix. Wir benutzen ϕ = ϕ0,I mit I die Einheitsmatrix. Einige Eigenschaften der Gauß Glockenkurve sind. Lemma 1.14.6 (i) ϕm,C ist stetig, strikt positiv und symmetrisch um m, (∀x ∈ IRd ϕm,C (x − m) = ϕm,C (−x − m)). R (ii) ϕm,C (x)dx = 1. R (iii) xϕm,C (x)dx = m. R (iv) (x − m)(x − m)t ϕm,C (x)dx = C. R (v) ϕm1 ,C1 (x − y)ϕm2 ,C2 (y)dy = ϕm1 +m2 ,C1 +C2 (x). Beweis: Alle Aussagen sind einfach und straight forward. Notation: ϕ = ϕ0,I mit I die Einheitsmatrix. Definiere die Gauß Verteilungsfunktion Φ(x) := Z ϕ(y)dy. y≤x d Hierbei benutzen wir R die koordinatenweise Ordnung in IR , u ≤d v ⇒ ui ≤ vi benutzen Φ(f ) := f (x)ϕ(x)dx für geeignete Funktionen f : IR 7→ IR. 1 ≤ i ≤ d. Wir Definition 1.14.7 (Standardnormierung) Die Standardnormierung einer Zg X ist, falls wohldefiniert, X ∗ = Cov−1/2 (X)(X − EX). Hierbei ist Cov−1/2 (X) das Inverse von Cov1/2 (X) wie oben erklärt. Satz 1.14.8 (Der d−dimensionale ZGS) Eine Folge uiv Rd −wertiger Zgn mit endlicher Covarianzmatrix von vollem Rang erfüllt den Zentralen Grenzwertsatz P (Sn∗ ≤ b) →n Φ(b) für alle b ∈ IRd . Äquivalent ist Ef (Sn∗ ) → Φ(f ) für alle stetigen beschränkten Funktionen f . Beweis: Ein Beweis analog zum eindimensionalen Fall ist möglich. Wir führen dies nicht aus. 71 Uwe Rösler 1.15 SS98 1.15 Sortieralgorithmen Sortieralgorithmen Wir führen eine Laufzeitanalyse von den Sortieralgorithmen Mergesort und Quicksort durch. 1.15.1 Laufzeitanalyse: Gegeben sei ein Algorithmus A. Dieser Algorithmus benötigt die Zeit An zum Lösen einer Aufgabe der “Größe n”. Diese Laufzeit ist eine Funktion vom Input und hängt eventuell weiterhin vom Zufall ab. Dabei unterscheiden wir internen und externen Zufall. – Der interne Zufall ist im Programm selbst, zum Beispiel durch Wahl von Zufallszahlen. – Der externe Zufall kommt von außen, der Input kann zufällig sein oder beinhaltet zufällige Komponenten wie Zufallszahlen. Eine wahrscheinlichkeitstheoretische Analyse umfaßt folgende Punkte. • Worst case: Hierbei handelt es sich um eine obere Schranke von An . Diese ist meistens asymptotisch in n. • Average case: Die Laufzeit vieler Algorithmen ist eine Zg, mit internem oder externem Zufall. In der average case Analyse wird der Erwartungswert der Laufzeit bestimmt. Die Idee ist An ≈ EAn . Hierhin gehören auch Abschätzungen von P (An − EAn ≥ cn ), wie sie z.B. mit Hilfe der Tschebycheff-Markov Ungleichungen möglich sind. • Verteilungsanalyse: Hier wird die asymptotische Verteilung von An bestimmt. Mit einer n , konvergiert geeigneten Normierung von An , meistens eine affine von der Form A∗n = Anb−a n P (a ≤ A∗n ≤ b) gegen einen nicht trivialen Grenzwert für alle a, b ∈ IR. • Große Abweichungen: Ziel sind Abschätzungen der Wahrsch. P (An −EAn ≥ cn ) für cn in der Regel sehr groß. Diese Wahrscheinlichkeit geht exponentiell schnell in n gegen 0. Diese Abschätzungen beruhen in der Regel auf exponentiellen Abschätzungen, wie die Cramer Transformierte oder der Hoeffding Ungleichung. Übung: Analysiere den Sortieralgorithmus Bubble down. Bubble down sortiert rekursiv in eine bereits geordnete Liste ein neues Element x ein. x wird mit dem größten Element der Liste verglichen, dann mit dem zweitgrößten usw., bis wir den richtigen Platz für x gefunden haben. (Das folgende Mergesort kann als Vorlage dienen.) 1.15.2 Mergesort Der Algorithmus Mergesort sortiert eine Menge von Objekten mit einer Ordnungstruktur. Wir betrachten hier eine Menge von n verschiedene Zahlen und benutzen die natürliche Ordnung. Der Einfachheit halber sei n eine Zweierpotenz. (Für allgemeines n siehe [?].) Mergesort: Die Zahlen stellen wir uns als Folge (Liste) vor, siehe Bild. n sei eine Potenz von 2. (i) Teile die Liste in zwei gleich große Listen auf. (ii) Sortiere jede dieser Listen durch rekursiven Aufruf. (iii) Merge die beiden sortierten Listen. Das Ineinandersortieren (=merge) von zwei Listen geschieht nach folgendem Verfahren. 72 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 Merge: SS98 Uwe Rösler (i) Vergleiche die jeweils kleinsten Zahlen der Listen. (ii) Die kleinere entferne aus der Liste und speichere sie in einer Zielliste (geordnet) ab. (iii) Benutze rekursiv Merge bis eine der Listen leer ist. Der Algorithmus terminiert mit der Ausgabe einer geordneten Liste. Die Programmierung dieses Algorithmus ist nach diesem Bild, via Dualdarstellung der Indexzahlen 1, 2, . . . , n, einfach. r r r r r r r r r (1) (2) (3) 6 6 Z6 Z6 1,1 6 Z1,1 1,1 6 (1) (2) Z2,2 Z2,2 6 (1) Z4,4 r 6 r 6 r r 6 r 6 6 r 6 r 6 6 (1) Z8,8 Die Laufzeit des Algorithmus wird im wesentlichen bestimmt durch die Anzahl Mn der benötigten Abfragen, um einen Input von n verschiedenen Zahlen zu sortieren. Sei Zs,t die Anzahl der benötigten Abfragen zum Ineinandersortieren von zwei gegebenen Listen der Länge s und t. Mit einer entsprechenden Indizierung in dem obigen Bild (welche?) erhalten wir (1) M2 = Z1,1 M 22 = (1) Z2,2 = (1) Z22 ,22 M 23 (1.11) + (1) Z1,1 + + (1) Z2,2 (2) Z1,1 + (2) Z2,2 (1.12) + (1) Z1,1 + (2) Z1,1 + (3) Z1,1 + (4) Z1,1 ... (1.13) (1.14) j−1 M 2m = m 2X X (i) Z2m−j ,2m−j . (1.15) j=1 i=1 Die Anzahl Mn der Abfragen ist eine Funktion des Inputs. Im günstigsten Fall geschieht das Ineinandersortieren Zs,t zweier Listen der Länge s und t mit s ∧ t Abfragen, und im ungünstigsten Fall mit s + t − 1 Abfragen. Worst case analysis: Zum Ineinandersortieren von zwei Listen der Längen s, t benötigen wir im ungünstigsten Fall s + t − 1 Vergleiche. Damit ergibt sich eine obere Abschätzung, n = 2m , j−1 Mn ≤ m 2X X j=1 i=1 (2m−j 2 − 1) = m X j=1 (2m − 2j−1 ) = m2m − 2m + 1 = n ln2 n − n + 1. Best case analysis: Im besten Fall benötigen wir zum Ineinandersortieren zweier Listen der Länge s, t mindestens s ∧ t Vergleiche. Damit ergibt sich j−1 Mn ≥ m 2X X 2m−j = m2m−1 = j=1 i=1 73 n ln2 n. 2 Uwe Rösler SS98 1.15 Sortieralgorithmen Average Case: Wir denken uns eine Menge von n verschiedenen Zahlen vorgegeben. Diese Zahlen werden zufällig als Folge geschrieben. Dies entspricht dem Ziehen aus einer Urne mit Reihenfolge und ohne Zurücklegen. Sei Xi das Ergebnis der i−ten Ziehung. Sei Ri der relative Rang von Xi in der Stichprobe X1 , . . . , Xn , n X 11Xj ≤Xi . Ri := j=1 Da die wirklichen Werte der X-Zgn keine weitere Rolle spielen, sondern nur die relativen Größe zueinander, können wir zu den Rängen übergehen. Der Rangvektor R = (R1 , . . . , Rn ) ist eine Permutation und jede Permutation sollte gleichwahrsch. sein. Daher wählen wir als W-raum den Raum Πn der Permutation von {1, . . . , n} als Laplaceraum. Sei Zs,t die Anzahl der Abfragen, um zwei Listen der Länge s, t mit ’merge’ ineinander zu sortieren. Dies ist eine Zg. Proposition 1.15.1 P (Zs,t = z) = EZs,s 11s∧t≤z≤s+t−1 ¡z−1¢ t−1 + ¡z−1¢ ¡s+t¢s−1 s 2s2 s+1 2s2 (s − 1) <2 (s + 1)2 (s + 2) = Var(Zs,s ) = Beweis: Wir betrachten eine Urne mit s+t Kugeln. Hieraus ziehen wir s+t mal, ohne Zurücklegen und mit Reihenfolge. Die ersten s Kugeln entsprechen der ersten Liste, die restlichen der zweiten. Das Ereignis, Zs,t ist kleiner oder gleich s + t − r, ist gleich dem Ereignis, daß die erste oder die zweite Liste mindestens die r größten Zahlen enthält. Wir erhalten durch Abzählen à ¡s+t−r¢ ¡ ¢! s+t−r P (Zs,t ≤ s + t − r) = 111≤r≤s+t−s∧t Der Rest ist nachrechnen. (Hinweis: P z s ¡s−r ¢ + ¡s+t ¢ s+t s P (Zs,t = z) = 1.) . s q.e.d. Damit läßt sich der Erwartungswert von Mn berechnen, EMn = m X (1) 2j−1 EZ2m−j ,2m−j = j=1 = m X j=1 2m − m X j=1 m X 22m−j 2m−j + 1 j=1 m−1 X 1 2m ≤ n ln n − n 2 2m−j + 1 2k + 1 k=0 Hieraus ergeben sich gute Abschätzungen für EMn . P∞ Zum Beispiel erhalten wir EMn = n ln2 n − cn + o(n) mit c := i=0 1 2i +1 . Bemerkung: Der Abschnitt über Anfänge der Informationstheorie liefert eine untere theoretische Schranke für die erwartete Laufzeit für jeden Sortieralgorithmus. Diese Schranke ist ln2 n! = n ln2 n − n ln2 e + o(n). Mergesort liegt sehr dicht bei dieser Schranke. Die Varianz läßt sich ebenfalls berechnen. Beachte, daß alle Z−Zgn unabhängig sind (Nachrechnen). VarMn = m m X X n 23j (2j − 1) (i) VarZ = i ,2i 2 i j 2 (2 + 1)2 (2j + 2) j=1 j=1 74 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Dies ist von der Größenordnung cn + o(n) mit c eine Konstante. Hieraus ergeben sich die Abschätzungen P (Mn − EMn ≥ a) ≤ Uwe Rösler VarMn cn + o(n) = . 2 a a2 Asymptotische Verteilung: Satz 1.15.2 Die asymptotische Verteilung von standardisiertem Mergesort ist die Normalverteilung, Mn − EMn →n Φ. Mn∗ := √ VarMn Anders formuliert P (a ≤ Mn∗ ≤ b) → Φ(b) − Φ(a) oder auch als gleichmäßige Aussage sup |P (a ≤ Mn∗ ≤ b) − Φ(b) + Φ(a)| →n 0. a,b Beweis: M2m , wie in 1.11 angegeben, ist die Zeilensumme von einem Schema von Zgn, siehe oben. Dieses Schema ist unabhängig. Dieses Schema standardisieren wir Z2∗im−j ,2m−j := Z2i m−j ,2m−j − EZ2i m−j ,2m−j √ . VarM2m Dann ist die Lindeberg-Bedingung nachzurechnen, Lm (²) →m 0. j−1 Lm (²) = m 2X X j=1 i=1 = m X j=1 E((Z2∗im−j ,2m−j )2 11|Z ∗im−j 2 ,2m−j 2j−1 E((Z2∗m−j ,2m−j )2 11|Z ∗m−j 2 ,2 |>² ) |>² ) m−j = m−m X0 j=1 ... + m X .... j=m−m0 +1 Den ersten Term schätzen wir ab durch ≤ m−m X0 j=1 j−1 VarZ2m−j ,2m−j 2 VarM2m ≤ m−m X0 j=1 2j−1 2m−m0 +1 2 = const 2−m0 +1 . ≤ const VarM2m 2m Dieser Term wird klein für m0 groß. Der zweite Term wird 0 für m hinreichend groß, da die entsprechenden Z-Zgn beschränkt sind und VarMm mit m → ∞ beliebig groß wird. Mit dem Satz 1.13.19 folgt die Konvergenz gegen die Normalverteilung. q.e.d. Bemerkung: Ist n keine Zweierpotenz, so bleiben alle Argumente grundsätzlich bestehen, die Rechnungen werden unschön. Z.B. das Varianzverhalten wird folgendermaßen beschrieben: Es gibt eine gleichmäßig stetige Funktion f : [1, 2] → IR mit ¯ ¯ VarMn n ¯ − f ( bln nc )¯ →n 0. 2 n 2 f ist minimal genau an den Stellen 1 und 2. (dies entspricht einer 2-er Potenz von n. Siehe [?].) Die Konvergenz gegen die Normalverteilung bleibt bestehen. 75 Uwe Rösler SS98 1.15 Sortieralgorithmen Große Abweichungen: Satz 1.15.3 Sei n eine 2-er Potenz. Für Mergesort gilt 2a2 P (|Mn − EMn | ≥ a) ≤ 2e− n2 . Beweis: Sei n = 2m . Die Proposition 1.10.3 liefert j−1 Eeλ(Mn −EMn ) = m 2Y Y λ(Z Ee (i) 2m−j ,2m−j −EZ (i) 2m−j ,2m−j ) j=1 i=1 j−1 ≤ m 2Y Y e λ2 (2m−j −1)2 8 j=1 i=1 ≤e λ2 n 2 8 Damit erhalten wir P (Mn − EMn ≥ a) ≤ 2 n2 Eeλ(Mn −EMn ) ≤ eλ 8 −λa λa e für alle λ ≥ 0. Das beste λ erfüllt λn2 = 4a. Es folgt 2a2 P (Mn − EMn ≥ a) ≤ e− n2 . q.e.d. Rekursive Darstellung Die Verteilung der Mn erfüllt folgende rekursive Gleichung: d Mn = Mb n2 c + M d n2 e + Zb n2 c,d n2 e . (1.16) Hierbei sind Mb n2 c , M d n2 e , Zb n2 c,d n2 e unabhängige Zgn. Die Verteilung von Zb n2 c,d n2 e ist wie oben gegegeben. Die Verteilung von Mb n2 c und M d n2 e wird rekursiv gegeben. Siehe hierzu das Bild bzw. die Algorithmenbeschreibung. Eigentlich könnten wir auch das Gleichheitszeichen in 1.16 verwenden. Da aber nur die Verteilung d der Zgn wichtig ist, haben wir das Symbol = für Gleichheit in Verteilung gewählt. Die gesammte Analysis des Algorithmus beruht auf einer Analysis dieser Gleichung. Besonders einfach wird die rekursive Struktur für n eine Zweierpotenz. Mit der Notation Xm = M2m , Cm = Z2m ,2m erhalten wir d Xm = Xm−1 + X m−1 + Cm−1 . Dies ist eine rekursive Gleichung für die Verteilung von Xn . Der Erwartungswert an = EXm erfüllt am = 2am−1 + 22m−1 2m−1 + 1 und läßt sich daraus rekursiv bestimmen. 1.15.3 Andere Algorithmen In dieser Sektion werden zwei weitere Algorithmen als Beispiel analysiert. 76 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 Algorithmus MAX: SS98 Uwe Rösler Der Algorithmus MAX findet die größte Zahl in einer Menge {x1 , . . . , xn } von n verschiedenen Zahlen. Nacheinander werden die Daten xk eingelesen und das Maximum der bisherigen Daten genommen. Wir sind interessiert an der Anzahl der neuen Rekorde. Der Wert rk = 11sup1≤i≤k−1 xi <xk ist eins, falls xk ein neuer Rekord ist. Wir zählen x1 als Rekord. Pn Die Anzahl der Rekorde ist an =: k=1 rk . Die rekursive Gleichung lautet ak = ak−1 + rk . Average. Als mathematisches Modell betrachten wir das Ziehen aus einer Urne ohne Zurücklegen und mit Reihenfolge. Sei Xi die i−te gezogenen Zahl. Seien Rk , Mk die entsprechenden Zgn zu X1 , . . . , Xn . Ohne Beweis fügen wir an: R1 , . . . , Rn sind unabhängige Zgn. Die Zg Rk ist Bernoulli verteilt zum Parameter k1 . Pn Damit folgt EAn = i=1 1i =: Hn ≈ ln n. Die Varianz berechnet sich zu VarAn = n X VarRi = n X i−1 i2 i=1 i=1 Hn (2) = = Hn − Hn (2), n X 1 π2 ⇒ ζ(2) = . n i2 6 i=1 Mit der Tschebycheff Ungleichung erhalten wir P (|An − Hn | ≥ cn ) ≤ VarAn ln n ≈ 2 . 2 cn cn Verteilung. Proposition 1.15.4 An − EAn d A∗n = √ →n→∞ Φ. VarAn Beweis: SeienPRi , i ∈ IN , unabhängige Zgn und Ri sei Bernoulli verteilt zum Parameter n pi = 1i . An = i=1 Ri ist die Zeilensumme von dem Schema Xn,k = Rk , k = 1, . . . , n. Dieses Schema ist unabhängig. Wir standardisieren dies und prüfen die Lindebergbedingung nach. µ ¶ n X ¡ Rk − ERk ¢2 √ 11| R√k −ERk |>² →n 0. E Ln (²) = VarAn VarAn k=1 Ab gewissem n gilt Ln (²) = 0, da die R durch 1 beschränkt sind und die Varianz von An gegen ∞ strebt. Große Abweichungen. Das Tailverhalten der Verteilung ergibt sich durch Proposition 1.15.5 c P (An − EAn ≥ c) ≤ ec−(EAn +c) ln(1+ EAn ) . Beweis: Eine einfache Rechnung ergibt EeλRi = 1 + P (An − EAn ≥ c) ≤ eλ −1 i . Damit folgt n Y eλ − 1 eλ(An −EAn ) −λc −λEAn (1 + = e e ) λc e i i=1 ≤ e−λc−λEAn n Y e eλ −1 i = e−λc−λEAn +(e −1)EAn i=1 Dies gilt für alle λ. Der Ausdruck wird minimiert für λ mit eλ = Behauptung. 77 λ c+EAn EAn . Dies ergibt die q.e.d. Uwe Rösler SS98 1.15 Sortieralgorithmen Insertionsort: Der Algorithmus Insertionsort bzw. Bubble up ist ein Sortieralgorithmus. Algorithmus Insertionsort: Wir beschreiben nur den Rekursionsschritt. Im k + 1-ten Schritt seien die ersten k Daten bereits geordnet zu a1 ≤ a2 ≤ . . . ≤ ak . Die Date xk+1 wird jetzt eingeordnet. Dies geschieht durch Vergleich mit ak , ak−1 , ak−2 usw., bis der richtige Platz gefunden ist. Gefragt ist nach der Anzahl der notwendigen Vergleiche. Sei In die Anzahl der von Insertionsort durchgeführten Vergleiche zum Ordnen einer Liste der Länge n. Sei Zn die Anzahl der benötigten Vergleiche zum Einordnen von xn . Es gilt die rekursive Gleichung In = In−1 + Zn . (1.17) Bounds: Aus 1 ≤ Zn ≤ n − 1 für n ≥ 2 erhalten wir n − 1 ≤ In ≤ n X i=2 (n − 1) = n(n − 1) . 2 Average: Als Grundraum wählen wir die Menge der Permutationen von {1, . . . , n} als Laplaceraum. Es gilt (ohne Beweis) • Z2 , Z3 , . . . , Zn sind unabhängige Zgn. Die Verteilung ist gegeben durch 1 j−1 P (Zj = i) = falls 1 ≤ i ≤ j − 2 falls falls i = j − 1 2 j−1 Eine einfache Rechnung zeigt EIn = n X j=2 n EZj = n(n + 3) X 1 − . 4 j j=1 Höhere Momente lassen sich ebenfalls einfach berechnen. Die Verteilungsaussagen und Große Abweichungen laufen nach dem wohlbekannten Schema, Lindeberg und Hoeffding. 1.15.4 Quicksort Wir führen eine ausführliche Analyse des Sortieralgorithmus Quicksort durch. Dieser wurde 1961 von Hoare [?] veröffentlicht. Zur Bedeutung sei angeführt, daß das Betriebssystem UNIX Quicksort implementiert hat (in der Version, für den Vergleich den Median der drei Zahlen auf den Listenplätzen, erster, letzter und mittlerer, zu nehmen). Quicksort: Ohne Einschränkung der Allgemeinheit sortieren wir eine Menge (Liste) mit n verschiedenen Zahlen. (i) Wähle zufällig mit Gleichverteilung eine dieser Zahlen aus. (ii) Bilde die Menge der Zahlen kleiner als die zufällig gezogenen und die Menge der größeren. (iii) Rufe rekursiv den Algorithmus für die Teilmengen mit mehr als einem Element auf. Das Ergebnis ist eine geordnete Liste. Da die Kardinalität der Mengen stets echt kleiner wird, endet dieser Algorithmus in endlicher Zeit. Algorithm 64 für schnelles Sortieren von Hoare 1961 78 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 70 37 10 77 3873 -55 10 12 7 -55 19 -55 7 10 12 19 -55 7 10 12 19 19 3873 37 37 SS98 93518 93518 77 77 u u u u u u u 7 77 93518 3873 u 12 1070 1070 93518 u u 10 37 3873 1070 Uwe Rösler zufällige Zahl 19 7 7 10 37 93518 u rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr Das letzte Bild zeigt die Durchführung abstrakt als Prinzip. In der praktischen Durchführung geschieht die Umordnung innerhalb der Liste selbst. Nach der Auswahl des zufälligen Elementes suchen wir von links startend das erste Element echt größer als das zufällige. Von rechts startend suchen wir das erste echt kleinere. Dann vertauschen wir diese beiden und fahren mit der Suche fort. Wenn sich beide Suchzeiger treffen, wird das zufällige zwischen die Liste der kleineren und die Liste der größeren Zahlen gespeichert. In einer weiteren Liste werden die Adressen der Listenanfänge gespeichert. Der benötigte zusätzliche Speicherraum ist von der Größenordnung O(ln n). ¾¶ ? ? 6 » ³ ?? 6 Problemstellung: Wir sind an der zufälligen Laufzeit des Algorithmus Quicksort interessiert. Die Laufzeit ist proportional zu der Anzahl der vollzogenen Operationen. In unserem Fall ist die Laufzeit hauptsächlich bestimmt durch die Anzahl Qn der benötigten Vergleiche zur Sortierung der Liste n, zumindest proportional dazu. Mathematisches Modell Für die Analyse des Algorithmus benutzen wir ausschließlich folgende rekursive Formel, genannt die Schlüsselgleichung, d Qn = n − 1 + QZn −1 + Qn−Zn (1.18) n ∈ IN . Hierbei benutzen wir nur die Gleichheit in Verteilung. Die Zgn Q. , Q. , Z. sind unabhängig. Die Verteilung von Zn ist eine gleichmäßige Verteilung auf den Zahlen 1 bis n. Die Verteilung der Q. ist rekursiv durch (1.18) gegeben mit Qi ∼ Qi mit dem Anfangswerten Q0 ≡ 0. Die obige Gleichung ist nur eine Gleichung für die Verteilung. Wir benötigen n−1 Vergleiche für die Aufspaltung, und dann noch die Vergleiche zur Sortierung der beiden Listen. Das Sortieren der beiden Listen geschieht unabhängig voneinander. Die Teillistenlänge wird durch die endgültige Position Zn des zufällig gewählten Vergleichelementes nach den Vergleichen bestimmt. (Dies Element ist das Zn -kleinste in der Ausgangsliste.) Zn hat eine gleichförmige Verteilung auf den Zahlen 1 bis n. Die Verteilung von Qn hängt nur von der Listenlänge ab, (Induktion), nicht von der eingegebenen Liste. Durch die zufällige Auswahl des Vergleichselementes mit Gleichverteilung spielt die aktuelle Anordnung der Zahlen in der Anfangsliste keine Rolle. Der Wert der Zgn Qn für gegebene Listenlänge n ist beschränkt durch die folgenden zwei Extremwerte. 79 Uwe Rösler SS98 1.15 Sortieralgorithmen Worst Case: Im ungünstigsten Fall ist die zufällig gewählte Vergleichszahl stets die kleinste (oder größte). Dann haben wir trotz der Abfragen nur wenig weitere Information gesammelt. Zum Abstieg vom ersten Level zu dem zweiten benötigen wir n − 1 Vergleiche, vom zweiten zum dritten n − 2, dann n − 3 usw. Insgesamt ergeben sich n(n − 1)/2 benötigte Vergleiche. Dieses ist tatsächlich der ungünstigste Fall. (Der formale Beweis wird durch Induktion mit der Schlüsselgleichung erbracht.) r rr rrr n−1 n−2 n−3 Best Case: Am günstigsten ist es, wenn die Liste in zwei gleich lange Listen aufgeteilt wird. Nehmen wir an, wir teilen zufällig die Listen stets in (fast) gleich lange Teillisten. Dann benötigen wir ungefähr ln2 n Level, und auf jedem Level haben wir rund n Abfragen. n − 21 + 1 r n − 22 + 1 r r r n − 23 + 1 r r r r r r r rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr Genauer ergeben sich ndln2 ne − 2dln2 ne + dln2 ne ≈ n ln2 n Abfragen. (Wir haben hier den günstigsten Fall beschrieben. Der Nachweis dieser Behauptung wird durch Induktion mit der Schlüsselgleichung gezeigt.) Insgesamt ergeben sich die Grenzen n ln2 n − n ≤ QL ≤ n2 /2 für eine Liste der Länge n. Eine Laufzeit von n2 /2 ist sehr schlecht und unakzeptabel. Wir werden zeigen, daß diese nur sehr selten eintritt. Average case: Sei an := EQn der Erwartungswert, eine Liste der Länge n mit Quicksort zu sortieren. Es gilt die Rekursionsformel a0 = 0, a1 = 0 an = n − 1 + n X 1 (ai−1 + an−i ). n i=1 Hieraus erhalten wir durch eine Variablentransformation an = n − 1 + Rechnung die Rekursionsformel 2 n Pn−1 i=0 ai und nach etwas an an−1 2(n − 1) = + . n+1 n n(n + 1) Durch rekursive Anwendung dieser Formel erhalten wir an = 2 n+1 X i=1 1 2 + − 4. i n+1 Daher ist der Erwartungswert der Quicksortlaufzeit an = E(Qn ) approximative E(Qn ) = 2n ln n + n(2γ − 4) + 2 ln n + 2γ + 1 + O(n−1 ln n) 80 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler mit γ = 0.57721 . . . die Euler Konstante, siehe Knuth [?]. Für jeden Sortieralgorithmus ist der erwartete Wert der Vergleiche, unter Annahme einer Gleichverteilung auf dem Raum der Listen (Permutationen), nach unten beschränkt durch ln2 n! ≈ ln2 n − n + o(n), siehe Abschnitt 1.16. Heapsort, der größte Konkurrent von Quicksort neben Mergesort, benötigt höchstens 4n ln n Abfragen. Trotzdem ist Quicksort vorzuziehen, da Simulationen die in der Regel schnellere Laufzeit von Quicksort zeigen. Dies liegt an der einfachen rekursiven Struktur von Quicksort. Im Erwartungswert benötigt Quicksort approximativ 2n ln n Vergleiche. Dies ist das normale Laufverhalten. Wir werden zeigen, ein schlechtes Laufverhalten von Quicksort ist sehr selten. Hierbei definieren wir schlecht als mehr benötigte Abfragen als die obere Grenze 4n ln2 n von Heapsort. Ziel ist es zu zeigen, daß P (Qn ≥ 4n ln n) klein ist für große n. Die Tchebycheff Ungleichung liefert P (Qn − an ≥ ²an ) ≤ VarQn const ≈ →n 0. ²2 a2n ln2 n Verteilungsanalyse: Heuristik: Definiere Rn := (Qn − E(Qn ))/n. Die Quicksortrekursionsgleichung (1.18) schreibt sich um zu D Rn = RZn −1 n ≥ 2 mit Cn (i) = Zn − 1 n − Zn + Rn−Zn + Cn (Zn ) n n n−1 1 + (E(Qi−1 ) + E(Qn−i ) − E(Qn )) . n n (1.19) (1.20) Lassen wir jetzt n gegen unendlich laufen. Es läßt sich zeigen, und sei vorausgesetzt, • Zn /n konvergiert schwach gegen ein gleichförmige verteilte Zg U auf dem Einheitsintervall. • Cn (n · Zn /n) konvergiert geeignet gegen C(U ) mit C(x) := 2x ln x + 2(1 − x) ln(1 − x) + 1, x ∈ [0, 1] • Rn konvergiert schwach gegen eine Zg R Unter diesen Voraussetzungen erwarten wir für R eine Gleichung der Form D R = RU + R(1 − U ) + C(U ), (1.21) D mit U, R, R unabhängig, R = R. Wir zeigen jetzt mit einem Fixpunktargument, daß es eine Verteilung bzw. Zg R gibt, die (1.21) erfüllt. Kontraktionsmethode: (Dieser Abschnitt benutzt nichtdiskrete Maße.) R Auf dem Raum M der W-Maße auf IR mit endlichem zweiten Moment |x|2 µ(dx) sei d die Mallows d2 -Metrik, d(µ, ν) = inf kX − Y k2 . Das Infimum ist über alle Zgn X, Y mit Verteilung µ, ν. 81 Uwe Rösler SS98 1.15 Sortieralgorithmen Bemerkung: Der Raum (M, d) ist ein vollständiger, separabler metrischer Raum [?]. Das Infimum wir angenommen durch X = Fµ−1 (U ), Y = Fν−1 (U ), mit U eine gleichmäßige Verteilung und Fµ , Fν die Verteilungsfunktionen R von µ, ν.. Sei M0 die Menge aller µ ∈ M mit xµ(dx) = 0. Wir betrachten die Abbildung K : M0 7→ M0 , D K(µ) := U X + (1 − U )X + C(U ). (1.22) Hierbei sind X, X, U unabhängige Zgn auf einem beliebigen W-Raum. U ist gleichmäßig auf dem Einheitsintervall verteilt. Die Verteilung von X und X ist µ. Die Abbildung K ist wohldefiniert. Sie ist unabhängig von der Wahl des W-Raumes und der Wahl der Zgn. Weiterhin gilt K(µ) ∈ M0 R wegen xK(µ)(dx) = 0 und µZ ¶1/2 = kU X + (1 − U )X + C(U )k2 ≤ 2kXk2 + kC(U )k2 < ∞. x K(µ)(dx) 2 Lemma 1.15.6 Seien µ, ν ∈ M quadratintegrierbar und besitzen dasselbe R (Kontraktionslemma) R erste Moment xdµ(x) = xdν(x). Dann gilt r 2 d(µ, ν). d(K(µ), K(ν)) ≤ 3 Beweis: Wir wählen die Zg U X + (1 − U )X + C(U ) für die Verteilungen K(µ) und U Y + (1 − U )Y + C(U ) für die Verteilung K(ν). Hierbei sind U, (X, Y ), (X, Y ) unabhängige Zgn. Die Zg U hat eine gleichmäßige Verteilung auf dem Einheitsintervall. Die Verteilung von X und d d X ist µ, X = µ = X. Ferner gilt d( µ, ν) = kX − Y k2 = kX − Y k2 . Dies ist möglich. (Weshalb?) Dann gilt d2 (K(µ), K(ν)) ≤ kU X + (1 − U )X + C(U ) − U Y − (1 − U )Y − C(U )k22 = kU (X − Y ) + (1 − U )(X − Y )k22 = EU 2 E(X − Y )2 + E(1 − U )2 E(X − Y )2 = 32 d2 (µ, ν) Theorem 1.15.7 Jede Folge M0 3 µ, K(µ), K(K(µ)) = K 2 (µ), K 3 (µ) . . . für quadratintegrierbare W-Maße µ ∈ M2 konvergiert exponentiell schnell gegen einen Fixpunkt. Der Fixpunkte von K ist eindeutig. R R Beweis: Die Folge K n (µ) ist eine Cauchyfolge. Die Erwartungswerte xµ(dx) = xK(µ)(dx) = R xK n (µ)(dx) sind alle gleich. Eine Anwendung des vorhergehenden Lemmas ergibt für m ≤ n, d(K m (µ), K n (µ)) Pn−1 j j+1 (µ)) j=m d(K (µ), KK ¡ ¢m/2 Pn−1 ¡ 2 ¢j/2 d(µ, K(µ)) ≤ 3 23 d(µ, K(µ)) →m 0 ≤ j=m 3 ≤ Die Cauchyfolge K n (µ) konvergiert exponentiell schnell inR d-Metrik gegen einen Grenzwert µ∞ . R Dies W-Maß hat denselben Erwartungswert xµ∞ (dx) = xµ(dx) wie das Ausgangsmaß µ. Das Grenzmaß µ∞ ist ein Fixpunkt µ = K(µ), d(µ∞ , K(µ∞ )) = d(µ∞ , K n (µ)) + d(K n (µ), K(µ∞ )) →n 0. • Eindeutigkeit R R Seien ν, ρ zwei Fixpunkte mit demselben Erwartungswert xdν = xdρ. Es gilt d(ν, ρ)) = d(K(ν), K(ρ)) < d(ν, ρ). Nachdem wir den Fixpunkt kennen, bestätigen wir unsere Heuristik durch Rechnerei. 82 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Uwe Rösler Theorem 1.15.8 Die Verteilung von Rn konvergiert in der Mallows d-Metrik gegen den eindeutigen Fixpunkt µ∞ von K. Siehe [?]. Eine Konsequenz des obigen Satzes ist die Markoffabschätzung P (|Qn − EQn | ≥ EQn ) ≤ n2 VarR VarRn . ≈ 2 E Qn 4 ln2 n Die Varianz von Rn konvergiert gegen die Varianz von R, die sich aus der Fixpunktgleichung (1.21) berechnet, Z 1 Var(R) = 3 0 C(x)2 dx = 7 − 2/3π 2 . Große Abweichungen: Bemerkung: Die tatsächliche W-keit schlechten Laufverhaltens ist wesentlich kleiner, mindestens P (|Qn − EQn | ≥ EQn ) ≤ für jedes a ≥ 0. 83 const(a) na Uwe Rösler 1.16 SS98 1.16 Anfänge der Informationstheorie Anfänge der Informationstheorie Quellenkodierung Definition 1.16.1 (binärer Kode) Sei A eine endliche Menge, im folgenden Alphabet genannt. Die Elemente des Alphabets sind die Buchstaben. Ein binärer Kode für das Alphabet A ist eine injektive Abbildung ϕ : A 7→ {0, 1}∗ = ∪n∈IN {0, 1}n des Alphabets A in die endlichen 0-1 Folgen. Die Bilder ϕ(a) heißen kodierte Buchstaben Kodebuchstaben. Ein kodierte Nachricht ist eine Folge ϕ(a1 )ϕ(a2 ) . . . ϕ(an ) von Kodebuchstaben. Ein Kodebuchstabe ist demgemäß auch eine kodierte Nachricht. (Es wäre natürlich, für kodierte Nachricht auch Kodewort zu benutzten. Leider hat Kodewort bereits in deutscher Sprache den Sinn eines Kodeschlüssels.) Eine kodierte Nachricht ist eine 0-1 Folge. Wären die Kodebuchstaben voneinander getrennt, so kann aus der Injektivität des Kodes die Buchstabenfolge entschlüsselt werden. Ansonsten eventuell nicht. Sei z.B. a kodiert durch 1 und b durch 11. Dann kann die kodierte Nachricht 111 herrühren ab oder von ba. Ein binärer präfixfreier Kode ist ein Kode, sodaß kein Kodebuchstabe ein Anfangsstück eines anderen Kodebuchstabens ist. Formal, sei v = (v1 , v2 , . . . , vm ) ∈ Am und w = (v1 , v2 , . . . , vn ) ∈ An . v ist Anfangsstück von w falls m ≤ n gilt und v = w|m := (w − 1, . . . , wm ). Die Länge von v ∈ Am ist m. Notation |v| = m. Die Länge |ϕ(a)| eines Kodebuchstabens ist die Anzahl der Nullen und Einsen. Die präfixfreie Eigenschaft garantiert eine kodierte Nachricht, bestehend aus einem String von kodierten Buchstaben, von links nach rechts sukzessive dekodieren zu können. Betrachten wir einen Kodebaum: ³ ³³ ³³ u 0 )³ ³ ´Q ´ Q ´ Q ´ Q +́ su01 Q u 00 ¢A ¢A ¢ A ¢ A u u ¢® Uu A ¢® AUu u ³³ PPP PP PP qu1 ¡@ ¡ @ u ª ¡ Ru @ ¢A ¢A ¢ A ¢ A u u ¢® AUu AUu ¢® PP Die Knoten tragen die natürliche Indizierung durch diejenige 0-1 Folge, die dem Pfad zur Wurzel entspricht. Eine Abzweigung nach links entspricht der 0 und eine nach rechts einer 1. Die Länge dieses Pfades ist die Anzahl der Nullen und Einsen. Jeder Knoten repräsentiert unter einem Kode maximal einen Buchstaben. Ein präfixfreier Kode hat Buchstaben lediglich an den Enden des Baumes, nicht unbedingt alle auf gleicher Höhe. Die Knoten 00, 01, 1 könnten als Kodierungsbuchstaben eines Präfixkodes dienen. Lemma 1.16.2 (Kraft) Die Kodebuchstabenlängen eines binären Präfixkodes ϕ erfüllen X 2−|ϕ(b)| ≤ 1. (1.23) b∈B P Umgekehrt, geben wir natürliche Zahlen lb für jeden Buchstaben b vor und gilt b∈B 2−lb ≤ 1, dann gibt es einen binären Präfixkode ψ mit Kodebuchstabenlängen gleich den vorgegeben Zahlen. Beweis: Wir beweisen das Lemma von Kraft durch Induktion nach der Alphabetlänge |B| = n. • Kraftungleichung Für den Induktionsschritt zu (1.23) n → n + 1 seien B0 bzw. B1 die Menge aller Buchstaben b, deren Kodierung ϕ(b) mit 0 bzw. 1 beginnt. Definiere die binären Präfixkodes ψ0 für B0 und ψ1 für B1 durch (i, ψx (b)) = ϕ(b), i ∈ {0, 1}, b ∈ B, entstanden durch Weglassen der ersten Koordinate. 84 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 SS98 Sind B0 und B1 beide nicht leer, so folgt nach Induktionsvoraussetzung X X X 2−|ϕ(b)| = 2−|ψ0 (b)|−1 + 2−|ψ1 (b)|−1 ≤ 1. b∈B b∈B0 Uwe Rösler b∈B1 Sind B0 oder B1 leer, so wiederhole den Aufteilungsschritt. • Umkehrung Pi Ordne lb , b ∈ B, der Größe nach, etwa lb1 ≤ lb2 ≤ . . . ≤ lbn+1 . Definiere i0 = sup{i | j=1 2−lbj ≤ 1/2} und B0 := {bj ∈ B | j ≤ i0 } und B1 = B\B0 . Es gilt X X 2−lb ≤ 1/2 und 2−lb ≤ 1/2. b∈B0 b∈B1 (Übung.) Sind B0 und BP 1 nicht leer, so gibt es nach Induktionsvoraussetzung binäre Präfixkodes ψi für Bi , i = 0, 1 mit b∈Bi 2−ψi (b) ≤ 1/2. Der zusammengesetzte Kode ϕ mit ϕ(bi ) := (i, ψi ) tuts. Sind B0 oder B1 leer, so wiederhole den Aufteilungsschritt. q.e.d. Definition 1.16.3 (Entropie) Die Entropie I(µ) eines W-maßes µ auf B ist der Wert X 1 . I(µ) := µ(b) log2 µ(b) b∈B Wir benutzen den Logarithmus zur Basis 2 und die stetige Erweiterung von x 7→ x log2 x1 in x = 0, ∞. Analog benutzen wir Entropie einer Zg X mit Werten in den Buchstaben als Entropie der Verteilung der Zg. Proposition 1.16.4 Für W-maße auf B gilt 0 ≤ I(µ) ≤ ln2 |B|. Die untere Grenze wird angenommen durch ein Punktmaß, die obere durch die Gleichverteilung. Beweis: 0 ≤ I(µ) = X µ(b) log2 b∈B 1 µ(b) Jensen ≤ log2 ( Der zweite Teil der Behauptung wird nachgerechnet. X µ(b) b∈B 1 ) = ln2 |B|. µ(b) q.e.d. Satz 1.16.5 (Quellenkodierung) Sei X eine Zg auf B. Die erwartete Länge jeden binären Präfixkode ϕ ist nach unten beschränkt durch die Entropie von X, I(X) ≤ E|ϕ(X)|. Weiterhin gibt es stets einen binären Präfixkode ψ mit E|ψ(X)| < I(X) + 1. Beweis: (i) Sei µ(b) := P (X = b). Mit der Jensen und Kraft Ungleichung folgt I(X) − E|ϕ(X)| = X b (log2 X Jensen 2−|ϕ(b)| 2−|ϕ(b)| )µ(b) ≤ log2 ( ) ≤ log2 1 = 0. µ(b) µ(b) µ(b) b (ii) Definiere natürliche Zahlen lb durch 2−lb ≤ µ(b) < 2−lb +1 . P P Wegen b 2−lb ≤ b µ(b) = 1 existiert nach dem Lemma von Kraft ein binärer Präfixkode ψ mit diesenPKodewortlängen |ψ(b)| = lb . Dieser tut’s: P q.e.d. E|ψ(X)| = b µ(b)lb < b µ(b)(− log2 µ(b) + 1) = I(X) + 1. 85 Uwe Rösler SS98 1.16 Anfänge der Informationstheorie Sortieralgorithmen: Für einen Sortieralgorithmus wollen wir nur die Zahl der benötigten Vergleiche zur Sortierung betrachten. Alle anderen Operationen, die auch Zeit benötigen, wollen wir vernachlässigen. Wir interpretieren den Sortieralgorithmus als eine Folge von genauen, fest vorgegebenen Vorschriften, jeweils zwei Elemente der vorliegenden Liste in Abhängigkeit vorhergehender Vergleichsergebnisse auszuwählen und zu vergleichen. Das Ergebnis dieser Vergleiche speichern wir in zeitlicher Reihenfolge als eine 0 − 1 Folge gewisser Länge ab. Der Vergleichsprozeß ist beendet, wenn wir an Hand der Vergleiche sicher die Liste ordnen können bzw. geordnet haben. Betrachten wir nun nur Listen vorgegebener Länge n, interpretiert als Buchstaben des Alphabets. Da es nicht auf die Absolutgröße der Elemente ankommt, sondern nur die relative, interpretieren wir jede Liste als eine Permutation der Zahlen 1, . . . , n. Die Ausführung des Sortieralgorithmus entspricht einer Kodierung unserer Listen. Vom gegebenen Kode, (einschließlich der Angabe, welche verglichen wurden, vgl. Quicksort,) können wir eindeutig die Ausgangsliste rekonstruieren. Dieser Kode ist ein Präfixkode, da wir an Hand der durchgeführten Vergleiche genau wissen, wann die Liste geordnet ist (werden kann). Mathematisches Modell: Sei Πn die Menge aller Permutationen π auf 1, ..., n und P ein W-maß darauf. Der Quellenkodierungssatz liefert für jeden binären Präfixkode I(P ) ≤ E|ϕ|. Allgemein gilt I(P ) ≤ I(Gleichverteilung) = log2 n!. Der schlechteste Fall ist die Gleichverteilung, was mit der Intuition übereinstimmt. Lemma 1.16.6 Die erwartete Anzahl der Abfragen für jeden Sortieralgorithmus, um eine Liste der Länge n zu sortieren, ist mindestens log2 n! unter Gleichverteilungsannahme der Listen. Beweis: Jeder Sortieralgorithmus entspricht einem binärem Präfixkode. Der Quellenkodierungssatz liefert das Resultat. q.e.d. Der “beste” bekannte Sortieralgorithmus ist Mergesort. Wir erhalten mit der Stirlingschen Formel ln n! = n ln n − n + o(n) und genauer als globale untere Schranke √ ln2 e . log2 n! ≥ n log2 n − n log2 e + log 2πn + 12n + 1 Sortierspiel: halber) fest. Wir betrachten “sortieren” jetzt als Spiel zweier Kontrahenten. Sei n (der Einfachheit (i) Der Spieler I wählt verdeckt den Sortieralgorithmus A. (ii) Der Spieler II wählt verdeckt eine Permutation π (entspricht einer Liste) zu dem gegebenen n. (iii) Die Werte A und π werden aufgedeckt und die Anzahl der Vergleiche A(π) des Algorithmus zur Sortierung ermittelt. (iv) Der Spieler I zahlt an Spieler II den Betrag A(π) − C. C ist ein vorher vereinbarter Betrag. (Hier haben wir den Algorithmus A als Funktion auf den Permutationen aufgefaßt.) Der Spieler I wählt den Algorithmus nach einer Verteilung µ und der Spieler II wählt die Permutation (=zu sortierende Liste) nach einer Verteilung ν. Die durchschnittliche Auszahlung beträgt dann X EA(π) = µ(A)ν(π)A(π) =:< µ, ν > . A,π Spieler I möchte die Anzahl der Abfragen möglichst klein machen, Spieler II möglichst groß. Dies sind gegensätzliche Ziele. 86 Elementare Wahrscheinlichkeitstheorie Vorlesungsmitschrift SS 2008 Spieler I kann aus eigener Kraft mindestens SS98 Uwe Rösler inf sup < µ, ν > µ ν sicherstellen für jede Wahl des Spielers II tut. Spieler II kann mindestens (aus eigener Kraft) sup inf < µ, ν > ν µ sicherstellen, unabhängig von der Wahl des Spielers I. Ohne Beweis sei angeführt: inf sup < µ, ν >= sup inf < µ, ν >=: V. µ ν ν µ Dieser Wert V heißt der Spielwert. Wird als Grundgröße C der Spielwert V gewählt, so ist das Spiel fair, d.h. im Erwartungswert ist kein Spieler bevorteilt. Obiges Lemma 1.16.6 gibt eine untere Schranke für V , I(Gleichverteilung) = log2 n! ≤ V. Obere Schranken ergeben sich durch die bekannten Sortieralgorithmen, z.B. Mergesort. Bessere Schranken sind mir nicht bekannt und auch der Spielwert V ist unbekannt. Spielstrategien: Die optimale Strategie für Spieler II besteht in zufälliger Wahl der Permutation mit Gleichverteilung. Intuitiv ist dies naheliegend, da dann Spieler I am wenigsten Information (=maximale Entropie) für die Wahl seines Algorithmus hat. Mathematisch formal folgt dies folgendermaßen: (ii) Spieler II will ein ν finden, welches ϕ(ν) = inf µ < µ, ν > maximiert. Sei e ∈ Π Peine Permutation und νe das W-maß auf den Permutationen mit νe (π) := ν(eπ). Sei 1 ν = |Π| e∈Π νe . Für einen Algorithmus A sei Ae derjenige Algorithmus mit Ae (π) = A(eπ) für alle π. Analog verwenden wir µe für die Verteilung von Ae , wenn A verteilt ist nach µ. Beachte < µ, ν >=< µe−1 , νe > for alle e ∈ Π. • ϕ(ν) ≤ ϕ(ν). Zu gegebenem ν sei µ̃ ein W-maß, welches das Infimum inf µ < µ, ν > fast annimmt und < µ̃, ν >≤< µ̃e , ν > erfüllt für alle e ∈ Π. Es gilt 1 X ϕ(ν) ≤ < µ̃, ν >≤ < µ̃e , ν > |π| e∈Π 1 X = < µ̃, νe− 1 > |π| e∈Π = < µ̃, ν >= ϕ(ν) Spieler II sollte daher die Gleichverteilung wählen. (i) Nun zur Sicht des Spielers I. Er sollte, ganz analog zu obigem aus Symmetriegründen, nur P 1 µ Mittelungen µ = |π| e∈Π e wählen. Dies kann er durch einen Zufall intern im Algorithmus verwirklichen. (Siehe auch Quicksort.) Die einfachste Vorstellung ist allerdings ein Algorithmus, der zuerst die eingegebenen Daten gut mischt bevor er sortiert. Damit erreicht der Spieler, daß die Performance des Algorithmus unabhängig von der Originalliste ist. Intuitiv ist dies gut nach dem Spielprinzip, dem Gegner möglichst wenig Einflußnahme auf das Spiel zu belassen. Mathematisch formal argumentiere (analog wie oben): 87