Einführung in die Wahrscheinlichkeitstheorie Thomas Richthammer Vorlesung an der TUM im WS 2011/2012 12. März 2012 Inhaltsverzeichnis 1 Wahrscheinlichkeitsräume 1.1 Einführende Beispiele . . . . . . . . 1.2 Axiomatische Beschreibung . . . . 1.3 Wahl des Wahrscheinlichkeitsraums 1.4 Diskrete Wahrscheinlichkeitsmaße . 1.5 Stetige Wahrscheinlichkeitsmaße . . 1.6 Verteilungsfunktion . . . . . . . . . . . . . . . 3 3 4 6 7 10 12 2 Zufallsvariablen 2.1 Verteilung einer Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . 2.2 Simulation von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 2.3 Transformation von Zufallsvariablen: . . . . . . . . . . . . . . . . . . . 14 14 17 18 3 Bedingte Wahrscheinlichkeiten und Verteilungen 3.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . 3.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 23 24 4 Erwartungswert 4.1 Erwartungswert . . . . . . . . . . . . . 4.2 Kovarianz und Varianz . . . . . . . . . 4.3 Verwendung von Indikatorfunktion und 4.4 Momentenerzeugende Funktionen . . . . . . . 27 27 29 32 34 5 Beispiele für Zufallsvariablen 5.1 Zufällige Ereignisse in diskreter Zeit . . . . . . . . . . . . . . . . . . . . 5.2 Zufällige Ereignisse in stetiger Zeit . . . . . . . . . . . . . . . . . . . . 5.3 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 35 37 39 6 Grenzwertsätze 6.1 Gesetz der großen Zahl . . . . . . . . . . 6.1.1 Schwaches Gesetz der großen Zahl 6.1.2 Starkes Gesetz der großen Zahl . 6.2 Zentraler Grenzwertsatz . . . . . . . . . 43 43 43 44 46 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Wahrscheinlichkeitsräume 3 Vorwort Dieses Skript ist eine Weiterentwicklung des Skriptes zur Vorlesung “Einführung in die Wahrscheinlichkeitstheorie” vom Wintersemester 2010/11. Besonderer Dank geht an die Studenten R. Hager, P. Hoffmann und A. Leitner, die eine erste Version dieses Skripts geTEXt haben, und an alle Studenten der Vorlesung, die mich auf Fehler im Skript hingewiesen haben. Zur Verwendung des Skripts im Wintersemester 2011/12: Das Skript enthält im Wesentlichen alles, was in der Vorlesung besprochen wurde, abgesehen von Bildern und Skizzen. 1 Wahrscheinlichkeitsräume 1.1 Einführende Beispiele Viele Vorgänge des täglichen Lebens sind mit einer gewissen Unsicherheit behaftet. Beispiele hierfür sind Wettervorhersage, Lotto, Aktienkurse, die Ausbreitung von Krankheiten, das Verhalten großer Teilchenmengen (Physik), das Verhalten großer Menschenmassen z.B. bei Panik, die Wartezeit in Warteschlangen, u.s.w. Die Wahrscheinlichkeitstheorie, ein Teilgebiet der Stochastik, dient zur mathematischen Beschreibung solcher Phänomene. Diese Vorlesung soll eine erste Einführung in dieses Gebiet vermitteln. Ziel der Vorlesung ist: • die präzise Beschreibung unsicherer Situationen, • die Quantifizierung des Zufalls, • Gesetzmäßigkeiten zu erkennen und zu erklären. Betrachten wir zunächst ein paar einfache konkrete Situationen: (a) Einmaliges Werfen eines Würfels. Diese Situation wird komplett beschrieben durch die Menge der möglichen Ergebnisse {1, 2, 3, 4, 5, 6}, sowie deren Wahrscheinlichkeiten: Ergebnis 1 2 3 4 5 6 Wahrscheinlichkeit 16 16 16 16 16 16 (b) Zufällige Bruchstelle einer Fahrzeugachse (der Länge 1). Die Menge der möglichen Bruchstellen kann beschrieben werden durch [0, 1]. Dass die Achse exakt an einer festen Stelle x ∈ [0, 1] bricht, z.B. x = 0.233517..., ist extrem unwahrscheinlich (d.h. dies hat Wahrscheinlichkeit 0). Die Angabe der Einzelwahrscheinlichkeiten ist daher zur Beschreibung der Bruchstelle ungeeignet. Sinnvoll dagegen ist z.B. die Betrachtung der Wahrscheinlichkeit für einen Bruch in [0, 12 ]. Aus Symmetriegründen würde man hierfür annehmen, dass diese Wahrscheinlichkeit 12 ist. 1.2 Axiomatische Beschreibung 4 (c) Schadensfälle einer Versicherung. Ein mögliches Ergebnis wäre hier z.B. durch die Angabe der Zeitpunkte aller Schadensfälle bestimmt. Sinnvoll wäre hier z.B. die Betrachtung der Wahrscheinlichkeit dafür dass in einem gewissen Zeitraum 3 Schadensfälle stattfinden, oder dafür dass zwischen 2. und 3. Schadensfall höchstens 2 Tage liegen. Diese Beispiele sollen zeigen, dass es zur Beschreibung eines probabilistischen Sachverhalts oft nicht ausreicht, die Wahrscheinlichkeiten aller möglicher Einzelergebnisse zu betrachten. Stattdessen sollten besser Mengen von Ergebnissen (sogenannte Ereignisse) betrachtet werden. Im nächsten Abschnitt beschreiben wir zufälliges Verhalten durch eine Funktion, die jedem Ereignis (das für uns interessant ist) seine entsprechende Wahrscheinlichkeit zuordnet. Bemerkung: Die Wahrscheinlichkeitstheorie gibt keine Antwort auf die Frage: Was ist Zufall? Diese Frage ist Gegenstand der Philosophie (vgl. naive, frequentistische, subjektive Interpretation). Die Mathematik soll unabhängig von der Interpretation von Wahrscheinlichkeit funktionieren. 1.2 Axiomatische Beschreibung Für die Beschreibung einer Situation mit Unsicherheit (=Zufallsexperiment) soll ein mathematisches Modell verwendet werden, bestehend aus: • Ω = Menge aller Ergebnisse (d.h. aller möglichen Ausgänge des Experiments). • F = Menge aller Ereignisse, die wir zur Beschreibung des Experiments verwenden wollen. Ein Ereignis ist hierbei eine gewisse Menge von Ergebnissen, d.h. eine Teilmenge von Ω. • P = Abbildung, die jedem Ereignis eine Wahrscheinlichkeit zuordnet. Einige Eigenschaften sollten Ω, F, P sinnvollerweise grundsätzlich haben, unabhängig von der Art des betrachteten Zufallsexperiments. Diese werden in einer axiomatischen Definition zusammengefasst: Definition: • Ein Mengensystem F ⊂ P(Ω) heißt σ-Algebra auf Ω 6= ∅, falls (S1) Ω ∈ F (S2) Für jedes A ∈ F ist auch Ac (= Ω − A) ∈ F. S (S3) Für beliebige Ai ∈ F, i ∈ I (mit I abzählbar), ist auch i∈I Ai ∈ F. • Eine Abbildung P : F → [0, 1] heißt Wahrscheinlichkeitsmaß auf (Ω, F) falls: (P1) P (Ω) = 1 S P (P2) Für disjunkte Ai ∈ F, i ∈ I (mit I abzählbar), ist P ( i∈I Ai ) = i∈I P (Ai ). • Die Menge Ω 6= ∅ heißt Ergebnisraum. Ist F eine σ-Algebra auf Ω, so heißt (Ω, F) Ereignisraum. Ist P ein Wahrscheinlichkeitsmaß auf (Ω, F ), so heißt (Ω, F, P ) Wahrscheinlichkeitsraum. 1.2 Axiomatische Beschreibung 5 Bemerkung: • (P1) = Normiertheit (Ω enthält mit Sicherheit alle möglichen Ergebnisse) (P2) = σ-Additivität (vgl. Massenfunktion) • Warum statt F nicht einfach ganz P(Ω)? Dann ist Forderung (P2) zu stark (→ Banach-Tarski-Paradox) • Warum Abzählbarkeit? Sonst S P Probleme z.B. bei “zufälliger Bruchstelle”: P ([0, 1]) = P ( x {x}) = x P ({x}) = 0 • Warum nicht einfach nur für endliche I? Unendliche I nötig für Betrachtung von Grenzprozessen • (S1) nötig für (P1), (S3) nötig für (P2) (S2),(S3): Abgeschlossenheitsaxiome: Bestimmte Mengenoperationen auf Ereignissen ergeben wieder Ereignisse Bemerkung: Alle Mengenoperationen lassen sich auf Komplementbildung und S VereiT c c c c nigung zurückführen, z.B. A ∩ B = (A ∪ B ) , A − B = A ∩ B , i∈I Ai = ( i∈I Aci )c , daher gilt für eine σ-Algebra: • ∅ = Ωc = Ω − Ω ∈ F • Für A, B ∈ F ist auch A − B ∈ F • Für Ai ∈ F, i ∈ I (mit I abzählbar) ist auch T i∈I Ai ∈ F Aus (P1) und (P2) folgen viele weitere Eigenschaften von Wahrscheinlichkeitsmaßen. Satz: Sei P ein Wahrscheinlichkeitsmaß auf (Ω, F), und seien A, B, Ai ∈ F. (a) Additivität: A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B) insbesondere: P (Ac ) = 1 − P (A) (b) Monotonie: A ⊂ B ⇒ P (B) = P (A) + P (B − A) insbesondere: A ⊂ B ⇒ P (A) ≤ P (B) (c) σ-Stetigkeit: S An ↑ A (d.h. A1 ⊂ A2 ⊂ A3 ... mit Tn An = A) An ↓ A (d.h. A1 ⊃ A2 ⊃ A3 ... mit n An = A) (d) Ein-/Ausschluß-Formel: P ( n S Ai ) = i=1 d.h. P (A1 ∪ A2 ∪ ... ∪ An ) = n P i=1 n P ⇒ ⇒ (−1)k+1 k=1 P (Ai ) − P (An ) ↑ P (A) P (An ) ↓ P (A) P J⊂{1,...,n}:|J|=k P P( T Aj ), j∈J P (Ai ∩ A2 ) + ..., 1≤i1 <i2 ≤n also insbesondere P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Beweis: (a) Additivität folgt aus (P2), mit B := Ac folgt der Rest. (b), (c): Hausaufgabe, (d) beweisen wir später. 1.3 Wahl des Wahrscheinlichkeitsraums 1.3 6 Wahl des Wahrscheinlichkeitsraums Bemerkung: • Vor der Bearbeitung eines Problems sollte immer zuerst das verwendete Modell angegeben werden, d.h. der zugrundeliegende Wahrscheinlichkeitsraum (Ω, F, P ), sowie die Interpretation eines Ereignisses x ∈ Ω. • Die Wahl des Modells kann nicht mathematisch begründet werden (aber manche Modelle sind plausibler als andere). • Verschiedene Modelle können zum gleichen Ziel führen. Der Ergebnisraum Ω sollte alle möglichen Ergebnisse enthalten. Der Grad der Vereinfachung hängt davon ab, an was genau man interessiert ist. Beispiel: Einmaliges Würfeln. Mögliche Ergebnismengen sind: (a) Ω = (R3 )N mit N := Anzahl der Atome des Würfels (x1 , ..., xN ) ∈ Ω: xi := Position des i-ten Atoms nach dem Wurf in R3 Problem: Wahl von P ist kompliziert, die Lage jedes einzelnen Atoms interessiert normalerweise gar nicht! (b) Ω = {1, 2, ..., 6, 0} wobei 0 = unklarer Ausgang, z.B. Würfel bleibt auf Kante stehen. Normalerweise wird 0 einfach ignoriert. Dies führt zu: (c) Ω = {1, ..., 6}. Hier beschreibt x ∈ Ω die Augenzahl. (d) Ω = {0, 1} mit 0 = “gerade Augenzahl”, 1 = “ungerade Augenzahl” Problem: Ereignis “Augenzahl ist 4” kann nicht beschrieben werden! Bei der Wahl des Ereignisraumes legt man in der Regel zunächst fest, welche Art von elementaren Ereignissen auf jeden Fall betrachtet werden sollen. Definition: Für ein gegebenes Mengensystem S ⊂ P(Ω) bezeichne σ(S) die kleinste σ-Algebra, die S enthält. Ist σ(S) = F, so heißt F die von S erzeugte σ-Algebra, und S heißt Erzeuger von F. Bemerkung: Die kleinste σ-Algebra, die S enthält, kann man explizit konstruieren: Sei F der Durchschnitt aller σ-Algebren, die S enthalten. Dann ist F tatsächlich eine σ-Algebra, die S enthält, und für jede weitere σ-Algebra F 0 , die S enthält, gilt F 0 ⊃ F. Beispiel: • Falls Ω abzählbar ist (z.B. endlich), wählt man in der Regel S = {{ω} : ω ∈ Ω}. Man erhält dann σ(S) = P(Ω) (denn jede Teilmenge ist abzählbare Vereinigung von 1-elementigen Mengen). 1.4 Diskrete Wahrscheinlichkeitsmaße 7 • Falls Ω ein topologischer Raum ist (z.B. Rn oder eine Teilmenge davon), wählt man in der Regel S als das System aller offenen Mengen. Man erhält dann σ(S) =: BΩ , die sogenannte Borel-σ-Algebra. Bemerkung: • Oft ist Ω = R, F = BR =: B. Es gilt B = 6 P(R), aber B enthält alle Mengen, die man in gewisser Weise “sinnvoll definieren” kann. • B hat neben der Menge der offenen Mengen noch weitere nützliche Erzeuger, z.B. S 0 := {(−∞, c] : c ∈ R} oder S 0 := {[a, b] : a ≤ b ∈ R}. Die Betrachtung von Erzeugern hat einen weiteren Vorteil: Satz: (Eindeutigkeitssatz.) Seien P1 , P2 Wahrscheinlichkeitsmaße auf (Ω, F), und sei S ⊂ P(Ω) ∩-stabil (d.h. A, B ∈ S ⇒ A ∩ B ∈ S) mit σ(S) = F. Ist P1 (A) = P2 (A) ∀A ∈ S, dann gilt bereits P1 (A) = P2 (A) ∀A ∈ F, d.h. ein Wahrscheinlichkeitsmaß ist durch seine Werte auf S bereits eindeutig festgelegt. Beweis: Maßtheorie. Beispiel: Sei Ω = N, F = P(N) und P ein Wahrscheinlichkeitsmaß. S = {∅, {1}, {2}, ...} ist ein ∩-stabiler Erzeuger von F. Dass P durch seine Werte S P auf S eindeutig festgelegt ist, sieht man hier auch direkt: P (A) = P ( x∈A {x}) = x∈A P ({x}). Die Wahl eines geeigneten Wahrscheinlichkeitsmaßes ist in der Regel der schwierigste Teil der Modellbildung. In der Vorlesung betrachten wir meist diskrete oder stetige Wahrscheinlichkeitsmaße. Wie man diese konstruiert, wird in den nächsten beiden Abschnitten besprochen. 1.4 Diskrete Wahrscheinlichkeitsmaße Ist Ω abzählbar, kann man ein geeignetes P definieren, indem man die Wahrscheinlichkeit aller Ergebnisse angibt: Definition: Sei Ω abzählbar. • Eine Funktion ρ : Ω → [0, 1] mit P ρ(x) = 1 heißt Zähldichte. x∈Ω • P (A) := P ρ(x) heißt diskretes Wahrscheinlichkeitsmaß mit Zähldichte ρ. x∈A Bemerkung: P ist ein Wahrscheinlichkeitsmaß auf (Ω, P(Ω)), denn (P1) ergibt sich aus Normiertheit, (P2) aus dem verallgemeinertem Kommutativitätsgesetz Das wichtigste Beispiel ist die diskrete Gleichverteilung. 1.4 Diskrete Wahrscheinlichkeitsmaße 8 Definition: Sei Ω endlich. Das Wahrscheinlichkeitsmaß auf (Ω, P(Ω)) mit Zähldichte 1 , x ∈ Ω heißt (diskrete) Gleichverteilung auf Ω : UΩ . ρ(x) := |Ω| Bemerkung: Ist P = UΩ die Gleichverteilung auf (Ω, P(Ω)), so ist P (A) = X ρ(x) = x∈A X 1 |A| # betrachtete Ergebnisse = = b . |Ω| |Ω| # mögliche Ergebnisse x∈A Beispiel: Man wähle rein zufällig eine Zahl aus N = {1, 2, 3, ...}. Mit welcher Wahrscheinlichkeit ist die Zahl gerade? (Vermutete Antwort: 12 .) Lösung: Wahrscheinlichkeitsraum: Ω = N, F = P(N), A = {2, 4, 6, ...}. Was ist P ? Wir verfolgen drei Ansätze: (a) Da die Zahl rein zufällig gewählt werden soll, würden P wir gerne eine Zähldichte ρ wählen mit P ρ(n) = c ≥ 0 konstant. Falls c = 0, so folgt n∈N ρ(n) = 0 6= 1. Falls c > 0, 6 1. In beiden Fällen ergibt sich ein Widerspruch zur so folgt n∈N ρ(n) = ∞ · c = ∞ = Normiertheitsbedingung. Wir sehen also, dass es keine Gleichverteilung auf N gibt! (b) Wir wählen ein großes N und P = U{1,2,...,2N } . Hier gilt wie vermutet P (A) = 1 . (Aber die zufällige Zahl ist hier immer ≤ 2N .) 2 N 2N = (c) Wir wählen P mit Zähldichte ρ so dass ρ(n + 1) = 12 ρ(n) ∀n ∈ N. (Diese Wahl ist 1 1 natürlich etwas beliebig.) Es giltP dann ρ(n) = P ρ(n − 1) = . . . = 2n−1 ρ(1)∀n ∈ N, und 2 1 1 aus der Normiertheit folgt 1 = n∈N ρ(n) = n∈N 2n−1 ρ(1) = 1− 1 ρ(1) = 2ρ(1), d.h. ρ(1) = 1 2 und somit ρ(n) = P (A) = X n∈A 1 . 2n 2 Hieraus ergibt sich ρ(n) = X 1 X 1 1 = = 2m m 2 4 1− m∈N m∈N 1 4 1 −1= . 3 Wir stellen fest: Die Aufgabe ist schlecht gestellt. Es ist nicht klar, was “rein zufällig in N” bedeutet. Bemerkung: Die Formel P (A) = |A| sieht leicht aus, aber es kann ziemlich schwierig |Ω| sein, die Anzahl der Elemente einer Menge richtig zu zählen! Beispiel: Es wird drei mal gewürfelt. Bestimmen Sie die Wahrscheinlichkeiten der Ereignisse A = “Summe = 5”, B = “6 dabei”, C = “jeder Wert mehr als vorher”. Lösung: Wahrscheinlichkeitsraum: Ω = {1, ..., 6}3 = {(x1 , x2 , x3 ) : xi ∈ {1, ..., 6}} (mit xi = Ergebnis im i-ten Wurf), F = P(Ω), P = UΩ . Es gilt |Ω| = 216. (a) A = {(1, 2, 2), (2, 1, 2), (2, 2, 1), (1, 1, 3), (1, 3, 1), (3, 1, 1)}. Wir erhalten |A| = 6 und 6 1 somit P (A) = 216 = 36 . (b) B = B1 ∪ B2 ∪ B3 wobei Bi = {(x1 , x2 , x3 ) ∈ Ω : xi = 6}. Wir versuchen zunächst |B| = |B1 | + |B2 | + |B3 | = 3 · 36. Dies ist aber falsch, denn die Bi sind nicht disjunkt! 1.4 Diskrete Wahrscheinlichkeitsmaße 9 Das Ergebnis (6, 2, 6) wurde z.B. doppelt gezählt. Ein richtiges Ergebnis erhält man mit der Einschluss-Ausschluss-Formel: P (B) = 3 X P (Bi ) − i=1 X P (Bi ∩ Bj ) + P (B1 ∩ B2 ∩ B3 ) = 3 · 1≤i≤j≤3 Einfacher ist: P (B) = 1 − P (B c ) = 1 − ( 56 )3 . (c) C = {(x1 , x2 , x3 ) ∈ Ω : x1 < x2 < x3 }, also |C| = 6 3 1 1 1 − 3 · 2 + 3. 6 6 6 = 5 · 4 und P (C) = 5·4 . 63 Beispiel: Poker wird mit 4 × 13 = 52 Karten gespielt. Eine Poker-Hand besteht aus 5 Karten. Man bestimme die Wahrscheinlichkeit dafür, folgendes Blatt zu erhalten: (a) einen Zwilling (aber nichts besseres) (b) zwei Zwillinge (aber nichts besseres) Lösung: Ω =Menge aller Kombinationen von 5 aus 52 Karten, F = P(Ω), P = UΩ . 4 12 3 (a) |A| = 13 2 3 4 . (Wähle zuerst Wert für den Zwilling, und 2 entsprechende Karten, dann drei weitere Werte und je eine Karte.) Es folgt P (A) ≈ 42.3%. 42 (b) |B| = 13 · 11 · 4. (Wähle zuerst zwei Werte und je zwei Karten, dann einen 2 2 weiteren Wert und eine Karte.) Es folgt P (B) ≈ 4.8%. Beispiel: n Bosonen (z.B. H2 - Atome) werden auf N Zellen (des Ort-/Impulsraumes) verteilt. Wie hoch ist die Wahrscheinlichkeit, dass keine Zelle doppelt besetzt ist? Lösung: Wir verfolgen zwei verschiedene Lösungsansätze: (1) Wir setzen Ω = {1, ....., N }n , F = P(Ω), P = UΩ . Für x ∈ Ω bezeichne xi die Zelle für Teilchen i. Das Ereignis ist dann A = {(x1 , ....., xn ) : xi alle verschieden}, und es gilt N · (N − 1) · ... · (N − n + 1) N! 1 |A| = = . P (A) = n |Ω| N (N − n)! N n (2) Wir setzem Ω = {(k1 , ...., kN ) ∈ ZN : ki ≥ 0, k1 +....+kN = n}, F = P(Ω), P = UΩ . Für k ∈ Ω bezeichne ki die Anzahl von Teilchen in Zelle i. Das Ereignis ist dann A = {k ∈ Ω : ki ∈ {0, 1}}. Es gilt |A| = Nn . (Wähle n der Zellen zur Besetzung.) Für |Ω| verwenden wir einen Trick: Wir beschreiben das Ergebnis k1 = 3, k2 = 2, k3 = 0..... durch: ooo|oo||o|oo|....|o. (o sind die n Teilchen, | sind N − 1 Zellwände). Es ist dann |Ω| = n+Nn −1 . (Wähle n von (n + N − 1) Plätzen für die Teilchen.) Es folgt P (A) = |A| N! 1 = · . |Ω| (N − n)! N · (N + 1) · .... · (N + n − 1) Die Ergebnisse sind je nach Wahl des Modells verschieden. In physikalischen Experimenten zeigt sich, dass das Modell (b) die Realität besser beschreibt. (Bosonen sind nicht unterscheidbar, und in (b) haben wir die Gleichverteilung auf Konfigurationen von nicht unterscheidbarer Teilchen.) 1.5 Stetige Wahrscheinlichkeitsmaße 1.5 10 Stetige Wahrscheinlichkeitsmaße Interpretiert man P als Massenverteilung ergibt sich folgendes Bild: • Ist Ω abzählbar, so sitzt die Masse in abzählbar vielen Punkten: “Massenpunkte” • Ist dagegen Ω = Rn , so ist die Masse über ganz Ω verschmiert: “Massendichte” Definition: f : Rn → R heißt (Borel-) messbar, falls f −1 (A) ∈ BRn für alle A ∈ B. Bemerkung: • “Praktisch alle interessanten Funktionen” sind messbar (→ Maßtheorie), z.B. ( 1 für x ∈ A mit A ∈ BR . stetige Funktionen oder Indikatorfunktion: 1A (x) := 0 für x ∈ /A • Für Funktionen f≥ R messbare R R 0 existiertRdas Lebesgue-Integral (→ Maßtheorie): f (x)dλn (x) = f (x)dx = dxf (x) = dx1 ...dxn f (x1 , ..., xn ). • Ist f ≥ 0 Riemann-integrierbar, so ist f messbar, und das Lebesgue-Integral ist gleich dem Riemann-Integral. R • 1A (x)dλn (x) = λn (A). λn ist das sogenannte Lebesguemaß. λ1 ist die Länge, λ2 die Fläche, λ3 das Volumen. Definition: R • Eine messbare Funktion f : Rn → [0, ∞) mit f (x)dx = 1 (Normierung) heißt Dichtefunktion (auf Rm ). R R • P (A) := A f (x)dx = f (x)1A (x)dx heißt stetiges Wahrscheinlichkeitsmaß mit Dichtefunktion f . Bemerkung: RP ist tatsächlich ein Wahrscheinlichkeitsmaß auf (Rn , BRn ): (P1) P (Rn ) = f (x)dx = 1 wegen Normierung. (P2) folgt aus den Eigenschaften des Lebesgue-Integrals. Bemerkung: f (x) ist ein gewisses MaßRdafür, wie wahrscheinlich der Punkt x ist. Rx Aber f (x) 6= P ({x}), sondern: P ({x}) = {x} f (y)dy = x f (y)dy = 0. Auch hier ist das wichtigste Beispiel die Gleichverteilung. Definition: Sei S ∈ BRn mit 0 < λn (S) < ∞. Das Maß mit Dichtefunktion f (x) = c · 1S (x) = λn1(S) 1S (x) heißt (stetige) Gleichverteilung auf S: US . Bemerkung: Ist P = US , so sind alle x ∈ S “gleichwahrscheinlich” und es gilt: Z Z 1 λn (A) “Volumen von A00 ∀A ∈ BS : P (A) = f (x)dx = 1 (x)dx = = . A λn (S) λn (S) “Volumen von S 00 A 1.5 Stetige Wahrscheinlichkeitsmaße 11 Beispiel: Romeo und Julia treffen sich heimlich. Beide haben eine Verspätung von zwischen 0-1 Stunde. Muss einer auf den anderen länger als 1/4 Stunde warten, begeht er Selbstmord. Bestimme die Wahrscheilichkeit für ein “glückliches Ende”! Lösung: Wir setzen Ω = [0, 1]2 , F = BΩ , P = UΩ . Für t ∈ Ω sei t1 die Verspätung von Romeo und t2 die Verspätung von Julia. Das betrachtete Ereignis ist dann A := {(t1 , t2 ) : |t1 − t2 | ≤ 41 }, d.h. ein Quadrat weniger zweier Dreiecke. Ω ist ein Quadrat mit Fläche λ2 (Ω) = 1. Es folgt λ2 (A) 1 3 3 7 = λ2 (A) = 1 − · 2 · ( )2 = 1 − ( )2 = . 2 λ (Ω) 2 4 4 16 R Alternativ (aber schwieriger) kann man P (A) = 1A (x)dx auch berechnen durch P (A) = Z Z dx1 Z 1 4 Z dx1 dx2 1A (x) = 0 1 +x1 4 3 4 Z dx2 + 0 Z 1 +x1 4 dx1 1 4 1 Z dx2 + − 14 +x1 Z 1 dx1 3 4 dx2 = − 14 +x1 7 . 16 Beispiel: (Bertrandsches Paradox.) In einem Kreis mit Radius 1 wird zufällig eine Sehne gezogen. Mit welcher Wahrscheinlichkeit ist diese länger als die Seite des einbeschriebenen gleichseitigen Dreiecks? Lösung: Wir beschreiben drei Lösungsvarianten: (1) Wir beschreiben die Sehne durch ihren Mittelpunkt. Ω = {(x, y) : x2 + y 2 ≤ 1}, F = BΩ , P = UΩ . Das Ereignis A wird dann gerade durch den Inkreis des Dreiecks 2 ( 12 )2 π beschrieben (Radius 12 ). Es folgt P (A) = λλ2 (A) = = 14 . (Ω) 12 π (2) Wir beschreiben die Sehne durch ihren Mittelpunktswinkel. Ω = (0, π), F = BΩ , P = π 1 3 UΩ . Das Ereignis ist dann A = ( 23 π, π), also P (A) = λλ1 (A) = = 13 . (Ω) π (3) Wir beschreiben die Sehne durch ihren Abstand zum Mittelpunkt. Ω = [0, 1], F = 1 BΩ , P = UΩ . Das Ereignis ist dann A = [0, 12 ], also P (A) = λλ1 (A) = 12 . (Ω) Dass man verschiedene Antworten erhält erscheint paradox, ist es aber nicht. Es kommt eben darauf an, wie genau der Zufallsmechanismus aussieht, mit dem die Kante gewählt wird. “Rein zufälliges” ziehen einer Sehne lässt verschiedene Interpretationen zu. Bemerkung: Man kann auch Zufallsexperimente betrachten, die stetige und diskrete Anteile haben. Ist zum Beispiel Ω = {(x1 , x2 ) : x1 ∈ N, x2 ∈P R} = R N×R und F = BΩ , so kann ein Wahrscheinlichkeitsmaß definieren durch R = x1 dx2 f (x1 , x2 )1A (x1 , x2 ) PP (A) mit f : N × R → [0, ∞) messbar und normiert: x1 dx2 f (x1 , x2 ) = 1. 1.6 Verteilungsfunktion 1.6 12 Verteilungsfunktion S = {(−∞, c] : c ∈ R} ist ein ∩-stabiler Erzeuger von B, daher ist nach dem Eindeutigkeitssatz jedes Wahrscheinlichkeitsmaß P auf (R, B) schon durch seine Werte P ((−∞, c]) eindeutig festgelegt. Dies gibt Anlass zu folgender Definition: Definition: Die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes P auf (R, B) ist die Funktion F : R → [0, 1], F (c) := P ((−∞, c]). Bemerkung: P • Ist P diskret mit Dichte ρ(x), x ∈ S, so ist F (c) = x∈S:x≤c ρ(x). Rc • Ist P stetig mit Dichte f (x), so ist F (c) = −∞ f (x)dx. Wir verwenden im Folgenden eine Kurzschreibweisen für Limiten: F (c−) := lim F (x), F (c+) := lim F (x), F (∞) := lim F (x), F (−∞) := lim F (x). x→c− x→c+ x→∞ x→−∞ Lemma: Sei F die Verteilungsfunktion von P . Dann ist F (c−) = P ((−∞, c)). Beweis: Sei cn ↑ c dann ist F (c−) = limn F (cn ) = limn P ((−∞, cn ]) = P ((−∞, c)), denn (−∞, cn ] ↑ (−∞, c). Hieraus folgt insbesondere, dass ich die Wahrscheinlichkeiten aller Intervalle leicht durch F ausdrücken lassen, z.B. P ([a, b]) = P ((−∞, b]) − P ((−∞, a)) = F (b) − F (a−). Der folgende Satz liefert ein einfaches Kriterium, welche Funktionen Verteilungsfunktionen sind: Satz: Eine Funktion F : R → [0, 1] ist genau dann eine Verteilungsfunktion, wenn gilt: (i) F ist monoton wachsend (d.h. c1 ≤ c2 ⇒ F (c1 ) ≤ F (c2 )). (ii) F ist rechtsstetig (d.h. F (c+) = F (c)). (iii) F (∞) = 1, F (−∞) = 0. Beweis: Für eine Verteilungsfunktion sind die Eigenschaften (i), (ii), (iii) leicht nachzuweisen (Hausaufgabe). Jedes F mit den Eigenschaften (i), (ii), (iii) ist eine Verteilungfunktion (nächstes Kapitel). Es ergibt sich also, dass die Wahrscheinlichkeitsmaße auf (R,B) eindeutig den Funktionen F : R → [0, 1] mit den Eigenschaften (i), (ii), (iii) entsprechen: Für jedes P hat die Verteilungsfunktion die entsprechenden Eigenschaften, und für jede Funktion mit diesen Eigenschaften gibt es ein passendes Wahrscheinlichkeitsmaß P . In wichtigen Fällen, lässt sich P sogar explizit aus F bestimmen: 1.6 Verteilungsfunktion 13 Satz: Sei F die Verteilungsfunktion von P und sei S ⊂ R diskret (d.h. eine abzählbare Menge ohne Häufungspunkte). (a) P ist diskretes Wahrscheinlichkeitsmaß auf S ⇔ F ist stückweise konstant mit Sprungstellen höchstens in S. In diesem Fall gilt ρ(x) = F (x) − F (x−) für x ∈ S. (b) P ist stetig mit Dichte f , so dass f stetig auf R − S F ist stetig auf R und stetig diffbar auf R − S. In diesem Fall gilt f (x) = F 0 (x) für x ∈ R − S. ⇔ Beweis: P (a) Sei P diskret mit Dichte ρ(x), x ∈ S, dann ist F (c) = x∈S:x≤c ρ(x) stückweise konstant mit Sprungstellen höchstens in S und Sprunghöhen F (x) − F (x−) = ρ(x). Ist umgekehrt F stückweise konstant mit Sprungstellen höchstens in S und sei P ∗ diskret mit Dichte ρ∗ (x) := F (x)−F (x−), dann folgt wie eben, dass F ∗ stückweise konstant ist mit Sprungstellen höchstens in S und Sprunghöhen ρ∗ (x). Also haben F, F ∗ dieselben Sprungstellen und Sprunghöhen, d.h. F = F ∗ und somit P = P ∗ . (b) Sei P stetig mit Dichte f , so dass f stetig ist auf R − S. Es gilt Z x+h F (x + h) − F (x) = P ((x, x + h]) = Z x f (y)dy → x f (y) = 0 für h → 0, x mit monotoner Konvergenz (Maßtheorie!), d.h. F ist stetig. Ferner ist für x ∈ /S 1 1 (F (x + h) − F (x)) = h h Z x+h f (y)dy → f (x) für h → 0, x d.h. F 0 (x) = f (x) und insbesondere ist F stetig diffbar auf R − S. Ist umgekehrt F stetig und stetig diffbar auf R − S und sei P ∗ stetig mit Dichte f ∗ (x) = F 0 (x) für x ∈ R − S, dann folgt wie eben, dass F ∗ stetig ist und stetig diffbar auf R − S mit (F ∗ )0 = f ∗ = F 0 . Hieraus folgt F = F ∗ und somit P = P ∗ . Bemerkung: • Teil (b) ist wichtig zur Bestimmung von Dichten • Es gilt nicht: P stetig ⇔ F stetig • Es gibt Wahrscheinlichkeitsmaße auf (R, B), die weder diskret noch stetig sind. Analog kann man eine mehrdimensionale Verteilungsfunktion für ein Wahrscheinlichkeitsmaß P auf (Rn , BRn ) definieren: FP (c1 , ..., cn ) = P ((−∞, c1 ] × ... × (−∞, cn ]). Diese Funktion hat ähnliche Eigenschaften wie im 1-dimensionalen, insbesondere folgende, die man zur Berechnung von Dichten verwenden kann: Ist F stetig, “stückweise” stetig diffbar, so ist P stetig mit Dichte f (x1 , ..., xn ) = ∂x∂ 1 ... ∂x∂n F (x1 , ..., xn ). 2 Zufallsvariablen 2 14 Zufallsvariablen 2.1 Verteilung einer Zufallsvariable Manchmal interessiert bei einem Zufallsexperiment (Ω, F, P ) nicht genau das Ergebnis ω ∈ Ω, sondern eine Eigenschaft des Ergebnisses: X(ω). Definition: Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und (Ω0 , F 0 ) ein Ereignisraum. • Eine Abbildung X : Ω → Ω0 heißt (Ω0 -wertige) Zufallsvariable (ZVe), falls {X ∈ A0 } := X −1 A0 = {ω ∈ Ω : X(ω) ∈ A0 } ∈ F ∀A0 ∈ F 0 (∗) • Für A0 ∈ F 0 sei P 0 (A0 ) := P ({X ∈ A0 }). P 0 heißt die Verteilung von X. Man schreibt dann X ∼ P 0 oder P 0 = P ◦ X −1 . Lemma: Die Verteilung P 0 einer ZVe X ist ein Wahrscheinlichkeitsmaß auf (Ω0 , F 0 ). Beweis: P 0 : F 0 → [0, 1] ist wohldefiniert (da X ZVe ist) und erfüllt die Axiome: (P1) P 0 (Ω0 ) = P (X ∈ Ω0 ) = P (Ω) = 1 (P2) Seien abzählbar). Es gilt dann P P 0 S S (I S Ai0, i ∈ I disjunkt 0 0 P (X ∈ Ai ) = P (Ai ). Ai ) = P ( {X ∈ A0i }) = P ( Ai ) = P (X ∈ i∈I i∈I i∈I i∈I i∈I Bemerkung: • Formal ist X eine Funktion Ω → Ω0 , und ω ∈ Ω wird zufällig gemäß P gewählt. Wird ω zufällig gewählt, ist auch der Wert X(ω) zufällig. Daher kann man sich X vorstellen als eine Größe mit zufälligem Wert, z.B. eine zufällige reelle Zahl. Die Verteilung P ◦ X −1 beschreibt das gesamte zufällige Verhalten von X. • Für Ereignisse, die das Verhalten von X betreffen, verwenden wir eine Kurzschreibweise, z.B.: {X ∈ A} := {ω ∈ Ω : X(ω) ∈ A} ist das Ereignis, dass X einen Wert in A hat. {X ≤ c} := {ω ∈ Ω : X(ω) ≤ c} ist das Ereignis, dass X einen Wert ≤ c hat. • Die definierende Eigenschaft (*) einer ZVe, prüfen wir hier in der Regel nicht nach. Diese Eigenschaft ist in allen Beispielen der Vorlesung automatisch erfüllt. • Spezialfall: Ist Ω0 = R, so heißt X eine reelle Zufallsvariable. Bemerkung: Jede Eigenschaft eines Wahrscheinlichkeitsmaßes kann auf eine ZVe X übertragen werden (mittels der Verteilung von X), z.B.: • X heißt diskret, falls P ◦ X −1 diskret ist, d.h. falls es eine Zähldichte ρ(x) auf einer abzählbaren Teilmenge S ⊂ Ω0 gibt, so dass P (X = x) = P 0 ({x}) = ρ(x) ∀x ∈ S. 2.1 Verteilung einer Zufallsvariable 15 • X heißt stetig, falls P ◦ X −1 stetig ist, d.h. falls es eine Dichte f (x) gibt, so dass Z 0 P (X ∈ A) = P (A) = f (x)dx ∀A ∈ F 0 . A • Die Verteilungsfunktion von X ist die Verteilungsfunktion von P ◦ X −1 , d.h. FX (c) = P ◦ X −1 ((−∞, c]) = P (X ∈ (−∞, c]) = P (X ≤ c). Beispiel: Zwei Würfel werden geworfen. Man bestimme die Verteilung der Summe der Augenzahlen und die Wahrscheinlichkeit dafür, dass die Summe zwischen 5 und 8 liegt. Lösung: Wir wählen Ω = {1, ...., 6}2 , F = P(Ω), P = UΩ . Die Summe Z kann im Modell definiert werden durch Z : Ω → R, Z(i, j) = i + j. Die Menge S der mögliche Werte von Z ist abzählbar: S = {2, 3, ..., 12}. Daher ist Z eine diskrete Zufallsvariable. Die Zähldichte berechnet man durch ρ(k) = P (Z = k), k ∈ S, z.B: 1 2 P (Z = 2) = P ({(1, 1)}) = 36 , P (Z = 3) = P ({(1, 2), (2, 1)}) = 36 . Man erhält somit k ρ(k) 2 3 4 5 6 7 8 9 10 11 12 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 Für die Berechnung der Wahrscheinlichkeit gibt es zwei Möglichkeiten. Entweder man verwendet P und die Definition von Z P (5 ≤ Z ≤ 8) = P ({(i, j) : 5 ≤ i + j ≤ 8}) = P ({(1, 4), ..., (6, 2)}) = 20 , 36 oder man verwendet die Verteilung von Z, d.h. die Zähldichte ρ P (5 ≤ Z ≤ 8) = P (Z ∈ {5, 6, 7, 8}) = 8 X ρ(k) = k=5 4+5+6+5 20 = . 36 36 Beispiel: Eine Lampe im Abstand L vom Boden eines Zimmers strahlt gleichmässig in alle Richtungen. Um die Leuchtintensität am Boden zu bestimmen, betrachten wir ein Photon, das von der Lampe in einer zufälligen Richtung ausgesandt wird. Sei X der Auftreffort des Photons am Boden. Wir nehmen an, dass die gesuchte Leuchtintensität der Dichte von X entspricht. Lösung: Sei Ω = (− π2 , π2 ) (θ ∈ Ω sei der Ausfallwinkel), F = BΩ , P = UΩ . Der Auftreffort kann beschrieben werden durch X : Ω → R, X(θ) = L tan(θ). X hat beliebige Werte in R und für c ∈ R ist FX (c) = P (X ≤ c) = P ({θ ∈ Ω : L tan(θ) ≤ c}) = P also fX (c) = FX0 (c) = 1 π · 1 2 1+ c 2 L · 1 L = 1 πL · 1 2 1+ c 2 L . π c tan−1 ( Lc ) + π2 − , tan−1 ( ) = , 2 L π 2.1 Verteilung einer Zufallsvariable 16 Betrachtet man mehrere (reelle) ZVen X1 , ..., Xn , so kann man die Xi als Komponenten eines zufälligen Vektors X betrachten: X : Ω → Rn , X = (X1 , ..., Xn ). P ◦ X −1 heißt dann gemeinsame Verteilung der Xi . Die gemeinsame Verteilung beschreibt das gemeinsame zufällige Verhalten aller ZVen. Das gemeinsame Verhalten beinhaltet natürliche insbesondere das Verhalten der einzelnen ZVen: Lemma: Bestimmung der Einzelverteilungen aus der gemeinsamen Verteilung. (a) Sind X1 , .., Xn diskret mit gemeinsamer Zähldichte ρ(x1 , ..., xn ), so ist auch X1 P diskret mit Zähldichte ρ1 (x1 ) = x2 ....xn ρ(x1 , ..., xn ). (b) Sind X1 , .., Xn stetigRmit gemeinsamer Dichte f (x1 , .., xn ), so ist auch X1 stetig R mit Dichte f1 (x1 ) = dx2 .... dxn f (x1 , ....xn ). Beweis: (a) funktioniert analog zu (b), und für (b) berechnet man für A ∈ B: Z n−1 P (X1 ∈ A) = P ((X1 , .., Xn ) ∈ A × R ) = dx1 ...dxn f (x1 , ..., xn ) A×Rn−1 Z Z Z Z = dx1 dx2 ... dxn f (x1 , ..., xn ) = dx1 f1 (x1 ). A A Beispiel: Ein Punkt im Einheitskreis wird rein zufällig gewählt. Man bestimme die gemeinsame Verteilung des Abstands zum Mittelpunkt und des Winkels mit der xAchse, und berechne daraus die Einzelverteilungen. Lösung: Ω = {(x, y) ∈ R2 : x2 + y 2 ≤ 1}, F = BΩ , P = UΩ . Die betrachteten Größen sind die ZVen R : Ω → [0, 1] und Φ : Ω → [0, 2π), deren Werte R(x, y) und Φ(x, y) eindeutig durch (x, y) bestimmt sind gemäß x + iy = reiϕ . Für a ∈ [0, 1], b ∈ [0, 2π) ist b a2 π · 2π b = a2 FR,Φ (a, b) = P (R ≤ a, Φ ≤ b) = 2 1π 2π (Fläche eines Kreissegments). 1 Die gemeinsame Dichte ist also fR,Φ (a, b) = ∂a∂bFR,Φ (a, b) = 2a 2π , (a, b) ∈ [0, 1] × [0, 2π). Die sich aus obigem Lemma durch Integration: Es ist R Einzeldichten ergeben R 2π R 1 f (r) = dϕfR,Φ (r, ϕ) = 0 dϕ2r 2π = 2r, r ∈ [0, 1] und fΦ (ϕ) = drfR,Φ (r, ϕ) = RR1 1 dr2r 2π = π1 , d.h. der Winkel ist gleichverteilt (wie zu erwarten). 0 Bemerkung: Interessieren bei einem Zufallsexperiment nur die Größen X1 , ..., Xn hat man bei der Modellierung zwei Möglichkeiten: 1. Man definiert (Ω, F, P ) und X1 , ..., Xn als Funktionen auf Ω. 2. Man definiert die gemeinsame Verteilung P 0 von X1 , ..., Xn . Die Wahrscheinlichkeit, dass die ZVen Werte in A ∈ BRn annehmen, ist in beiden Fällen bestimmbar: P ((X1 , ..., Xn ) ∈ A) = P 0 (A) . 2.2 Simulation von Zufallsvariablen 2.2 17 Simulation von Zufallsvariablen Aus Kapitel 1.6 ist noch nachzutragen, dass zu einer Funktion mit den Eigenschaften (i)-(iii) immer ein zugehöriges Wahrscheinlichkeitsmaß existiert. Dieses Wahrscheinlichkeitsmaß erhält man am einfachsten als Verteilung einer geeignet definierten ZVe, der sogenannten Quantil-Transformation. Satz: Sei F : R → [0, 1] monoton wachsend, rechtsstetig und F (∞) = 1, F (−∞) = 0. Sei (Ω, F, P ) = ((0, 1), B(0,1) , U(0,1) ) und X : (0, 1) → R die “linksstetige Umkehrfunktion” von F , d.h. X(w) = inf{c ∈ R : F (c) > w}. Dann ist FX = F , d.h. F ist die Verteilungsfunktion von P ◦ X −1 . Beweis: Es gilt F (c) ≥ w genau dann, wenn X(w) ≤ c. Somit ist FX (c) = P (X ≤ c) = P ({w ∈ Ω : X(w) ≤ c}) = P ({w ∈ Ω : F (c) > ω}) = F (c). Bemerkung: Ist F explizit berechenbar und hat man einen U(0,1) Zufallsgenerator (wie er in jedem Taschenrechner eingebaut ist), so kann der Satz dazu verwendet werden, um eine Zufallsvariable X mit der vorgegebenen Verteilung zu simulieren, d.h. einen zufälligen Wert zu erzeugen, der gemäß der Verteilungsfunktion F verteilt ist. Beispiel: Die Exponentialverteilung ist stetig mit Dichte f (x) = e−x , x > 0. Wie kann man einen zufällige exponentialverteilte Zahl erzeugen? Lösung: Zunächst bestimmt R c man die Verteilungsfunktion: Für c ≤ 0 ist F (c) = 0 und für c ≥ 0 ist F (c) = −∞ e−x dx = 1 − e−c . Die linksstetigen Umkehrfunktion X(ω) = F −1 (ω) aus dem Satz erhält man durch Umformung: 1 − e−c = ω ⇔ 1 − ω = e−c ⇔ c = − ln(1 − ω). Zur Erzeugung der gewünschten Zahl kann man dann so vorgehen: • Erzeuge ω ∈ (0, 1) mit U(0,1) . • X(ω) = − ln(1 − w) ist die gesuchte Zahl. 2.3 Transformation von Zufallsvariablen: 2.3 18 Transformation von Zufallsvariablen: Transformationen von ZVen kann man einfach punktweise definieren, z.B.: • Sind X, Y : Ω → R ZVen, so ist X + Y : Ω → R, (X + Y )(ω) := X(ω) + Y (ω). • Ist X : Ω → Ω0 eine ZVe und g : Ω0 → Ω00 messbar, so ist g(X) : Ω → Ω00 , g(X)(ω) := g(X(ω)). Bemerkung: Man interpretiert X + Y als Summe der beiden zufälligen Werte X, Y und g(X) als Funktionswert des zufälligen Wertes X. Man kann zeigen, dass X + Y und g(X) wieder ZVen sind. Wir betrachten nun folgendes Problem: Gegeben ist eine ZVe mit bekannter Verteilung. Man bestimme die Verteilung einer gewissen Transformation dieser ZVe. Beispiel: (X, Y ) sei gleichverteilt auf {−1, 0, 1}2 . Was ist die Verteilung von Z = XY ? Lösung: X, Y haben die gemeinsame Zähldichte ρ(x, y) = 91 für alle −1 ≤ x, y ≤ 1. Z = g(X, Y ) mit g : R2 → R, g(x, y) = xy. Die möglichen Werte von Z sind {−1, 0, 1}, und die Zähldichte ρZ erhält man durch aufsummieren, z.B. 2 ρZ (−1) = P (Z = −1) = P ((X, Y ) ∈ {(1, −1), (−1, 1)}) = ρ(1, −1) + ρ(−1, 1) = . 9 Analog erhält man ρZ (1) = 2 9 und ρZ (0) = 95 . Beispiel: Sei X gleichverteilt auf [−2, 2]. Man bestimme die Verteilung von Y = X 2 . Lösung: Die möglichen Werte von Y sind [0, 4]. Für c ∈ [0, 4] ist √ √ Z √c √ √ 2 c c 2 FY (c) = P (Y ≤ c) = P (X ≤ c) = P (− c ≤ X ≤ c) = √ f (x)dx = = , 4 2 − c also fY (c) = FY0 (c) = 1 √ , 4 c d.h. fY (y) = 1 √ 1 4 y {0≤y≤4} bzw. fY (y) = 1 √ , 4 y 0 ≤ y ≤ 4. Beispiel: Sei X stetig mit Dichte f . Man bestimme die Dichte von Y = X 2 . Lösung: Y kann nur nichtnegative Werte annehmen, und für c ≥ 0 ist Z √c √ √ FY (c) = √ f (x)dx = FX ( c) − FX (− c). − c Das Integral kann zwar nicht weiter vereinfacht werden, aber die Ableitung davon kann man bestimmen: √ √ √ √ 1 1 1 fY (c) = FY0 (c) = FX0 ( c) · √ + FX0 (− c) · √ = √ (f ( c) + f (− c)). 2 c 2 c 2 c 2.3 Transformation von Zufallsvariablen: 19 Beispiel: X, Y haben die gemeinsame Dichte f (x, y) = 21 xy 2 · e−x−y , x, y ≥ 0. Man X bestimme die gemeinsame Verteilung von U = X + Y, V = X+Y . x Lösung: (U, V ) = g(X, Y ) = (u(X, Y ), v(X, Y )) mit u(x, y) = x + y, v(x, y) = x+y . 2 g : (0, ∞) → (0, ∞) × (0, 1) ist bijektiv mit Umkehrfunktion: x = uv = x(u, v), y = u − uv = y(u, v). Nun gibt es zwei Möglichkeiten fortzufahren: (1) Integration bezüglich dxdy: X ≤ b) = FU,V (a, b) = P (U ≤ a, V ≤ b) = P (X + Y ≤ a, X +Y Z f (x, y)dxdy = (∗) A x mit A = {(x, y) ∈ [0, ∞)2 : x + y ≤ a, x+y ≤ b}. Um A auf dxdy aufteilen zu können, x = b, macht man eine Skizze und bestimmt den Schnittpunkt der Kurven x + y = a, x+y 1 d.h. y = a − x, y = ( b − 1)x. Dieser hat die Korrdinaten (c, d) mit c = ab, d = a − ab. R c R a−x Es folgt (∗) = 0 dx ( 1 −1)x dy 12 xy 2 e−x−y . Dieses Integral kann nun berechnet werden, b und hieraus ergibt sich fU,V (a, b) = ∂U ∂V FU,V (a, b) für (a, b) ∈ (0, ∞) × (0, 1). (2) Integration bezüglich dudv: g ist ein Diffeomorphismus (g bijektiv, g, g −1 stetig diffbar). Will man (∗) durch Integration über dudv berechnen benötigt man die JacobiMatrix von g bzw. g −1 : Formal gilt ∂u ∂u d(u, v) d(u, v) ∂x ∂y dxdy, wobei := | det Dg(x, y)| mit Dg = , bzw. dudv = ∂v ∂v d(x, y) d(x, y) ∂x ∂y ∂x ∂x d(x, y) d(x, y) −1 −1 ∂u ∂v dxdy = dudv, wobei := | det Dg (u, v)| mit Dg = . ∂y ∂y d(u, v) d(u, v) ∂u ∂v Für beliebiges A ∈ BR2 ist dann P ((U, V ) ∈ A) = P (g(X, Y ) ∈ A) = P ((X, Y ) ∈ g −1 A) Z Z d(x, y) dudv dxdyf (x, y) = f (x(u, v), y(u, v)), = d(u, v) g −1 (A) A d.h. die gemeinsame Dichte von U, V ist dann fU,V (u, v) = d(x, y) f (x(u, v), y(u, v)). d(u, v) In unserem Beispiel ist x = uv, y = u − uv und damit d(x, y) v u = det = |v · (−u) − u · (1 − v)| = | − u| = u 1 − v −u d(u, v) und 1 1 f (x(u, v), y(u, v)) = (uv)(u − uv)2 e−u = (1 − v)2 u3 e−u , 2 2 1 also fU,V (u, v) = 2 (1 − v)2 u4 e−u , (u, v) ∈ (0, ∞) × (0, 1). Dies funktioniert ganz allgemein, solange g ein Diffeomorphismus ist: 2.3 Transformation von Zufallsvariablen: 20 Satz: Sei X eine Rn -wertige Zufallsvariable mit Dichte f , und sei g : M → N ein Diffeomorphismus (M, N ⊂ Rn offen, g, g −1 stetig differenzierbar) mit P (X ∈ M ) = 1. Dann ist Y = g(X) stetig mit Dichte fY (y) = | det Dg −1 (y)|fX (g −1 (y)), y ∈ N. Beweis: Wie im Beispiel vorher. Bemerkung: • Besonders wichtig ist der eindimensionale Spezialfall: Ist X eine reelle ZVe mit Dichte f , M, N ⊂ R Intervalle mit P (X ∈ M ) = 1 und g : M → N ein Diffeomorphismus, dann ist Y = g(X) eine reelle ZVe mit Dichte fY (y) = |(g −1 )0 (y)|fX (g −1 (y)). • Ist g nicht bijektiv, kann Methode (2) nicht verwendet werden! • Ist g : Rn → R, so kann man Methode (2) anwenden, falls man g zu einem Diffeomorphismus ergänzen kann. Beispiel: Sei (X1 , X2 ) gleichverteilt auf [0, 1]2 . Was ist die Dichte von Y = X1 X2 ? Lösung: Wir betrachten wieder beide Möglichkeiten (1) und (2). Die gemeinsame Dichte von X1 , X2 ist fX1 ,X2 (x1 , x2 ) = 1, x1 , x2 ∈ [0, 1]. (1) Y hat Werte in [0, 1] und für c ∈ [0, 1] ist Z FY (c) = P (Y ≤ c) = P (X1 X2 ≤ c) = 1 − P (X1 X2 > c) = 1 − 1 1 Z dx2 1 dx1 c x1 c = 1 − [x1 − c ln(x1 )]1c = .... = 1 − (1 − c + c · ln(c)) = c − c · ln(c), also fY (c) = 1 − ln(c) − c · 1c , d.h. fY (y) = − ln(y), 0 < y < 1. (2) Wir betrachten Z1 = X1 , Z2 = Y = X1 X2 , d.h. Z = g(X) mit g : (0, 1)2 → {(z1 , z2 ) : 0 < z2 < z1 < 1}, g(x1 , x2 ) = (x1 , x1 x2 ). g ist ein Diffeomorphismus mit Umkehrabbildung g −1 : x1 = z1 , x2 = zz12 . Nach obigem Satz ist 1 fZ1 ,Z2 (z1 , z2 ) = det z2 −z12 Die Dichte von Y = Z2 ist daher Z 1 Z fY (y) = dz1 fZ1 ,Z2 (z1 , y) = z2 y 0 1 z1 1 dz1 1 = , z1 0 < z2 < z1 < 1. 1 = ln(z1 )|1y = − ln(y), z1 0 < y < 1. 3 Bedingte Wahrscheinlichkeiten und Verteilungen 3 21 Bedingte Wahrscheinlichkeiten und Verteilungen In diesem Abschnitt soll untersucht werden, wie sich Wahrscheinlichkeiten bzw. Verteilungen verändern, falls zusätzliche Informationen zur Verfügung stehen. 3.1 Bedingte Wahrscheinlichkeiten Definition: Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und B ∈ F mit P (B) 6= 0. Die (bedingte) Wahrscheinlichkeit von A ∈ F gegeben B sei P (A|B) := P (A ∩ B) . P (B) Lemma: P (.|B) ist wieder ein Wahrscheinlichkeitsmaß auf (Ω, F). Beweis: Es ist P (Ω|B) = P P(Ω∩B) = 1, und für disjunkte Mengen Ai gilt (B) S S P [ P ( i (Ai ∩ B)) P ( i (Ai ∩ B)) P (Ai ∩ B) X P ( Ai |B) = = = i = P (Ai |B), P (B) P (B) P (B) i i den auch die B ∩ Ai sind dann disjunkt. Was beschreibt das neue Wahrscheinlichkeitsmaß P (.|B)? Es gilt P (B|B) = 1, also ist das Ergebnis des Zufallsexperiments mit Sicherheit in B. Für Ereignisse A1 , A2 ⊂ B dagegen bleibt die relative Wahrscheinlichkeit unverändert: P (A1 ∩ B)/P (B) P (A1 ) P (A1 |B) = = . P (A2 |B) P (A2 ∩ B)/P (B) P (A2 ) P (.|B) ist also im Prinzip die gleiche Wahrscheinlichkeitsverteilung wie P , abgesehen davon, dass Ergebnisse in B c ignoriert werden. Man interpretiert P (.|B) daher als Verteilung eines Zufallsexperiments, das eigentlich durch P beschrieben wird, unter der zusätzlichen Information, dass das Ergebnis des Experiments in B liegt. Beispiel: Beim Würfeln mit zwei Würfeln ergibt sich die Summe 5. Wie ist die Augenzahl des ersten Würfels verteilt? Lösung: Sei Ω = {1, ..., 6}2 , F = P(Ω), P = UΩ . Die Augenzahlen der Würfel werden beschrieben durch die Projektionen X1 , X2 mit Xi (x1 , x2 ) := xi . Man sieht leicht, dass P (X1 = k) = 16 für alle k ∈ {1, 2, 3, 4, 5, 6}, d.h. X1 ist gleichverteilt auf {1, 2, 3, 4, 5, 6}. Dies berücksichtigt jedoch nicht die gegebene Information. Gesucht ist hier stattdessen P (X1 = k|B) mit B := {X1 + X2 = 5}. Es ist k P (X1 = k|B) 1 2 3 4 1 4 1 4 1 4 1 4 5 6 , 0 0 4 denn P (B) = P ({1, 4}, ..., {4, 1}) = 36 und beispielsweise P ({X1 = 1} ∩ B) = 1 1 P ({(1, 4}) = 36 , also P (X1 = 1|B) = 4 . Durch die Zusatzinformation haben sich also die Wahrscheinlichkeiten von 1, 2, 3, 4 erhöht, dagegen sind 5, 6 jetzt ausgeschlossen. 3.1 Bedingte Wahrscheinlichkeiten 22 Satz: (Fallunterscheidungsformel für Wahrscheinlichkeiten.) Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und A ∈ F. Für jede Partition Bi , i ∈ I, von Ω (d.h. Bi ∈ F S disjunkt, i Bi = Ω) gilt X P (A) = P (A|Bi )P (Bi ). i Beweis: A ∩ Bi ist eine Partition von A, daher gilt X i P (A|Bi )P (Bi ) = X P (A ∩ Bi ) i P (Bi ) P (Bi ) = X i [ P (A ∩ Bi ) = P ( (A ∩ Bi )) = P (A). i Die Fallunterscheidungsformel ist nützlich bei der Bestimmung von P (A). Dabei ist es aber oft schwierig, eine Partition Bi zu finden, die die Berechnung von P (A|Bi ) möglichst einfach macht. Beispiel: Im sogenannten Auktionsproblem oder Heiratsproblem, stehen n Objekte zur Verfügung, die man hintereinander sieht. Man möchte genau eines auswählen, muss bei jedem sofort entscheiden, ob man es will oder nicht. Was ist eine gute Strategie, um mit möglichst hoher Wahrscheinlichkeit das beste Objekt zu erhalten? Lösung: Sei A das Ereignis, das beste Objekt zu bekommen. Eine mögliche Strategie besteht darin, zu warten bis man k der Objekte gesehen hat, und dann das nächste zu nehmen, das besser ist als alle bisherigen. (Falls kein besseres mehr kommt geht man leer aus.) Zumindest dann wenn das zweitbeste Objekt unter den ersten k, und das beste unter den letzten n−k ist, bekommt man das beste. Insofern ist P (A) mindestens k n−k ( ≈ 14 für k := n2 ). Wir wollen P (A) für beliebiges k genauer bestimmen und n n−1 versuchen, k optimal zu wählen. Seien dazu 1, 2, 3, ..., n die n Objekte, sortiert nach aufsteigendem Wert. Sei Ω die Menge der Permutationen von {1, 2, ..., n}, d.h. Ω = {σ : {1, 2, ..., n} → {1, 2, ..., n} : σ bijektiv}, F = P(Ω), P = UΩ . Für σ ∈ Ω sei σ(i) das i-te Objekt. Für die Berechnung von P (A) bedingen wir auf die Position des besten Objekts: Bi := {σ : σ(i) = n}. Die Bi bilden eine Partition. Für i ≤ k ist P (A|Bi ) = 0, denn dann besteht keine Möglichkeit das beste Objekt zu erhalten. Für i > k ist P (A|Bi ) = P (max{σ(1), ...σ(i − 1)} ∈ {σ(1)...σ(k)}) = k , i−1 denn unter den i − 1 Anfangsobjekten ist das beste mit gleicher Wahrscheinlichkeit an jeder Stelle. Aus Symmetriegründen gilt ferner P (Bi ) = n1 für alle 1 ≤ i ≤ n. Mit der Fallunterscheidungsformel folgt nun Z n n n X X k 1 k X 1 k n1 k k = ≈ dx = − log . P (A) = P (A|Bi )P (Bi ) = i−1n n i=k+1 i − 1 n k x n n i=1 i=k+1 Für f (x) := −x log x ist f 0 (x) = − log x − 1, also hat f ein Maximum bei x = 1e . Also wird P (zumindest für große n) maximal für nk ≈ 1e , und die entsprechende Wahrscheinlichkeit ist dann P (A) ≈ 1e ≈ 0, 37 (praktisch unabhängig von der Anzahl n der Objekte). 3.2 Bedingte Verteilungen 3.2 23 Bedingte Verteilungen Ein Zufallsexperiment liefert zwei Werte X, Y . Was ist die Verteilung von X bei bekanntem Wert Y = y? Falls X, Y diskret sind, liefert das letzte Kapitel die Antwort: P (X = x|Y = y) = ρX,Y (x, y) ρY (y) falls P (Y = y) 6= 0. Ist Y stetig, ist zwar P (Y = y) = 0, dennoch gehen wir analog vor: Im diskreten Fall ist die Verteilung von X bei gegebenem Y = y bestimmt durch die renormalisierte Zähldichte ρ(., y), also definieren wir im stetigen Fall die bedingte Verteilung durch die geeignet renormalisierte Dichtefunktion f (., y). Definition: Bedingte Verteilung. ρ (x,y) • Sind X, Y diskret, so definieren wir ρX (x|Y = y) := X,Y ρY (y) als bedingte Zähldichte von X gegeben Y = y, falls ρY (y) 6= 0. f (x,y) • Sind X, Y stetig, so definieren wir fX (x|Y = y) := X,Y fY (y) als bedingte Dichte von X gegeben Y = y, falls fY (y) 6= 0. In beiden Fällen bezeichnen wir mit PX (.|Y = y) die zugehörige Verteilung, die sogenannte bedingte Verteilung von X, gegeben den Wert von Y . Ähnlich kann man vorgehen bei mehr als zwei Zufallsvariablen oder im gemischt diskret-stetigen Fall. Bemerkung: • Man kann leicht nachprüfen, dass ρX (.|Y = y) und fX (.|Y = y) die Normalisierungsbedingung erfüllen. • Obige Definition impliziert, dass sich die gemeinsame Verteilung von (X, Y ) z.B. aus der Verteilung von Y und der bedingter Verteilung von X gegeben Y ergibt: fX,Y (x, y) = fY (y) · fX (x|Y = y). Bei der Modellierung genügt es also, entsprechende Verteilungen und bedingte Verteilungen anzugeben. Beispiel: Ein zufälliger Punkt (X, Y ) der Menge {(x, y) : x, y > 0, x + y ≤ 1} wird gemäß der Dichte fX,Y (x, y) = x gewählt. Bestimmen Sie P (X ≥ 12 |Y = 31 ). Lösung: Die bedingte Dichte ist fX (x|Y = 13 ) = cx, 0 < x < 23 . Die neue NormalisieR 2/3 rungskonstante c ergibt sich aus 0 xdx = 92 , d.h. c = 92 . Es folgt 1 1 P (X ≥ |Y = ) = 2 3 1 Z 1 2 1 fX (x|Y = )dx = 3 2 3 Z 1 2 9 7 xdx = . 2 16 Beispiel: Eine seltene Krankheit betrifft 1 unter 10000 Personen. Ein Bluttest bezüglich dieser Krankheit liefert bei gesunden Personen ein korrektes Ergebnis mit 99% und bei kranken Personen mit 95%. Bei der Blutuntersuchung einer Person ergibt sich ein positives Testresultat. Mit welcher Wahrscheinlichkeit ist die Person wirklich krank? 3.3 Unabhängigkeit 24 Lösung: Seien X1 , X2 ZVen mit Werten in {g, k}. Hierbei bedeutet g gesund, k krank, X1 sei der wirkliche Gesundheitszustand und X2 das Testergebnis. Gegeben sind: P (X1 = k) = 1 , 10000 P (X2 = k|X1 = k) = 0.95, P (X2 = g|X1 = g) = 0.99, d.h. gegeben sind die Verteilung von X1 und die bedingte Verteilung von X2 . Damit ist das Problem vollständig modelliert. Wir erhalten P (X1 = k|X2 = k) = 1 0.95 · 10000 P (X1 = k, X2 = k) = 9999 ≈ 1%. 1 P (X2 = k) + 0.01 10000 0.95 10000 Im zweiten Schritt haben wir die Wahrscheinlichkeiten durch Fallunterscheidung nach den möglichen Werten von X1 berechnet. Obiges Ergebnis ist vielleicht etwas überraschend: der Test scheint doch eigentlich recht gut zu sein scheint. Die Erklärung für das Ergebnis liegt darin, dass die Krankheit so selten ist: Unter 10000 Personen ist nur einer wirklich krank. Unter den 9999 gesunden haben im Durchschnitt 1 %, also ca. 100 ein positives Testresultat. Um dem schlechten Testverhalten abzuhelfen, sollte man also den Test wiederholen, bzw. auf andere Anzeichen testen. 3.3 Unabhängigkeit Von Unabhängigkeit spricht man, falls sich die Wahrscheinlichkeit nicht ändert durch zusätzliche Information. Bei Ereignissen A, B ∈ F bedeutet dies: P (A) = P (A|B) = P (A∩B) . d.h. P (A ∩ B) = P (A)P (B). P (B) Definition: Unabhängigkeit von Ereignissen. Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und Ai ∈ F. (a) A1 , A2 unabhängig :⇔ P (A1 ∩ A2 ) = P (A1 )P (A2 ) (b) Ai , i ∈ I paarweise unabhängig :⇔ P (Ai ∩ Aj ) = P (Ai )P (Aj ) ∀i 6= j T Q (c) Ai , i ∈ I unabhängig :⇔ für jedes endliche J ⊂ I : P ( i∈J Ai ) = i∈J P (Ai ) Beispiel: Seien A, B unabhängig. Man zeige: A, B c sind auch unabhängig. Lösung: P (A ∩ B c ) = P (A) − P (A ∩ B) = P (A) − P (A)P (B) = P (A)(1 − P (B)) = P (A)P (B c ). Beispiel: Eine Münze wird zweimal geworfen. Zeigen Sie, dass folgende Ereignisse paarweise unabhängig, aber nicht unabhängig sind: A = “1. Münze Zahl”, B = “2. Münze Zahl”, C = “beide Münzen gleich” Lösung: Wir wählen Ω = {0, 1}2 , F = P(Ω), P = UΩ . Drückt man alle Ereignisse als Teilmengen von Ω aus erhält man P (A) = P (B) = P (C) = 21 und P (A ∩ B) = P (A ∩ C) = P (B ∩ C) = 14 , aber P (A ∩ B ∩ C) = 14 . Analog definiert man Unabhängigkeit für Zufallsvariablen: 3.3 Unabhängigkeit 25 Definition: Unabhängigkeit von ZVen. Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und Xi : (Ω, F) → (Ωi , Fi ) ZVen, i ∈ I. (a) X1 , X2 unabhängig :⇔ P (X1 ∈ A1 , X2 ∈ A2 ) = P (X1 ∈ A1 )P (X2 ∈ A2 ) ∀A1 ∈ F1 , A2 ∈ F2 (b) Xi , i ∈ I paarweise unabhängig :⇔ P (Xi ∈ Ai , Xj ∈ Aj ) = P (Xi ∈ Ai )P (Xj ∈ Aj ) ∀Ai ∈ Fi , Aj ∈ Fj , i 6= j ∈ I (c) Xi , i ∈ I unabhängig :⇔ Q für jedes endliche J ⊂ I, Ai ∈ Fi : P (Xi ∈ Ai ∀i ∈ J) = i∈J P (Xi ∈ Ai ). Bemerkung: • Wir betrachten {X ∈ A} für beliebige A, da beliebige Informationen über X berücksichtigt werden sollen. • Statt jeweils alle Ai ∈ Fi , genügt es nur Ai ∈ Si zu betrachten, wobei Si ein ∩-stabiler Erzeuger von Fi ist. (Dies folgt aus dem Eindeutigkeitssatz.) • X1 , ..., Xn unabhängig ⇔ ∀Ai ∈ Fi : P (Xi ∈ Ai ∀1 ≤ i ≤ n) = n Q P (Xi ∈ Ai ). i=1 (Man setze für festes J in obiger Definition einfach Ai := Ωi für i ∈ / J.) Auch auf der Ebene von Dichtefunktionen kann Unabhängigkeit durch entsprechende Produktformeln charakterisiert werden: Satz: Seien X1 , ..., Xn reele Zufallsvariablen. (a) Für X1 , ..., Xn diskret: (b) Für X1 , ..., Xn stetig: Q X1 , ..., Xn unabh. ⇔ ρX1 ,..,Xn (x1 , ..., xn ) = ni=1 ρXi (xi ) Q X1 , ..., Xn unabh. ⇔ fX1 ,...,Xn (x1 , ..., xn ) = ni=1 fXi (xi ) Beweis: (b) ist Hausaufgabe. Wir zeigen (a): “⇒”: Dies folgt sofort aus der Definition mit Ai := {xi }. ”⇐”: Für beliebige Ai ∈ Fi ist P (X1 ∈ A1 , ..., Xn ∈ An ) = X ρX1 ,..,Xn (x1 , ..., xn ) = x1 ∈A1 ,...,xn ∈An = X ρX1 (x1 ) · ... · x1 ∈Ai X X x1 ∈A1 ... n X Y ρXi (xi ) xn ∈An i=1 ρXn (xn ) = P (X1 ∈ A1 ) · ... · P (Xn ∈ An ). xn ∈An Bemerkung: • X, Y unabhängig ⇔ ρX (x) = ρX (x|Y = y) bzw. fX (x) = fX (x|Y = y) ⇔ das Verhalten von Y ist irrelevant für die Verteilung von X. (Dies folgt direkt aus dem letzten Satz.) • Sind f1 , f2 Zähldichten bzw. Dichtefunktion und gilt fX,Y (x, y) = f1 (x)f2 (y), so folgt sofort, dass X, R Y unabhängig sind mit Dichten f1 , f2 , denn dann ist automatisch fX (x) = dyfX,Y (x, y) = f1 (x), und analog fY (y) = f2 (y). 3.3 Unabhängigkeit 26 Beispiel: : Seien X1 , X2 .... die binäre Nachkommastellen einer zufällige Zahl X in [0, 1]. Man zeige: X1 , X2 , ... sind unabhängig, und Xi ist gleichverteilt auf {0, 1}. P Lösung: Es ist X = i X2ii . Es genügt zu zeigen, dass ρX1 ,...,Xn (k1 , ..., kn ) = 12 · ... · 21 . Nach obiger Bemerkung folgt dann, dass X1 , ..., Xn unabhängig sind mit Dichte ρi (ki ) = 1 , also gleichverteilt. Damit ist dann auch jede endliche Teilmenge der Xi unabhängig. 2 P Seien also ki ∈ {0, 1}, dann ist mit c := i k2ii ρX1 ,...,Xn (k1 , ..., kn ) = P (X1 = k1 , ..., Xn = kn ) = P (c ≤ X < c + P (X ∈ [c, c + 1 )= 2n λ([c, c + 21n )) 1 1 = n. )) = n 2 λ([0, 1]) 2 Satz: (Vererbung von Unabhängigkeit.) Seien Xi , i ∈ I unabhängige ZVen, Jk ⊂ I disjunkt und fk : ×i∈Jk Ωi → Ω(k) . Dann sind die ZVen Yk := fk (Xi : i ∈ Jk ), k ∈ K, auch wieder unabhängig, (z.B. Y1 = f1 (X1 , X2 ), Y2 = f2 (X4 , X7 , X3 )). Beweis: Hausaufgabe (im Spezialfall). Beispiel: Eine Münze wird 100 Mal geworfen. Y1 bzw. Y2 gebe an wie oft “Zahl” bei den ersten 50 bzw. nächsten 50 Würfen fällt. Man zeige, dass Y1 , Y2 unabhängig sind. Lösung: Sei Xi das Ergebnis des i-ten Wurfes, (1 = ˆ Zahl; 0 = ˆ Kopf). Die Xi sind dann unabhängig, P und es ist Y1 = f1 (X1 , ..., X50 ) und Y2 = f2 (X51 , ..., X100 ) mit f1 (x) = f2 (x) = 50 i=1 xi . Nach dem Satz sind daher Y1 , Y2 unabhängig. Satz: (Faltung von ZVen.) Seien X1 , X2 unabhängig und Y = X1 + X2 . (a) Sind X1 , X2 diskret mit Zähldichten ρ1 , ρ2 , dann ist Y diskret mit Zähldichte X ρ1 (l)ρ2 (k − l). ρ(k) = l (b) Sind X1 , X2 stetig mit Dichten f1 , f2 , dann ist Y stetig mit Dichte Z f (y) = dxf1 (x)f2 (y − x). Beweis: (b) ist Hausaufgabe und (a) folgt aus X ρ(k) = P (X1 + X2 = k) = ρX1 ,X2 (k1 , k2 ) = k1 ,k2 :k1 +k2 =k X ρ1 (k1 )ρ2 (k2 ). k1 ,k2 :k1 +k2 =k Mit l := k1 ist k2 = k − l und die Summe hat die gegebene Form. 4 Erwartungswert 4 27 Erwartungswert 4.1 Erwartungswert Der Erwartungswert E(X) ist Mittelwert einer reellen ZVe X : Ω → R, wobei jeder mögliche Wert mit seiner Wahrscheinlichkeit gewichtet wird. (Dies entspricht also dem Massenschwerpunkt einer Massenverteilung.) Der Erwartungswert wird schrittweise definiert: • Ist X ≥ 0 eine Treppenfunktion, d.h. X = P An ∈ B, setzt man E(X) := N n=1 an P (An ). PN n=1 an 1An mit N ∈ N, an ≥ 0, • Ist X ≥ 0 beliebig, approximiert man X von unten durch Treppenfunktionen Xn , d.h. Xn ↑ X, und setzt dann E(X) := limn→∞ E(Xn ). • Für beliebiges X setzt man E(X) := E(X+ )−E(X− ). Hierbei ist X+ = |X|·1{X>0} der Positiv-Teil und X− = |X| · 1{X<0} der Negativ-Teil von X. • L1 sei die Menge aller ZVen X mit E(|X|) < ∞, d.h. E(X+ ), E(X− ) < ∞. Bemerkung: • Für Details, siehe Maßtheorie. Insbesondere im 1. und 2. Schritt ist zu zeigen, dass E(X) wohldefiniert ist, also nicht von der speziellen Darstellung von X abhängt. • Im dritten Schritt kann es passieren, dass E(X+ ) oder E(X− ) unendlich sind. Falls beide unendlich sind, ist der Erwartungswert nicht definiert. Falls einer unendlich ist, ist E(X) = ∞ bzw. −∞. Für X ∈ L1 sind beide endlich, und daher ist E(X) definiert und hat einen endlichen Wert. Satz: Erwartungswert von diskreten und stetigen ZVen. Sei g : Rn → R messbar. Sind X1 , ..., Xn reelle ZVen mit gemeinsamer Zähldichte ρ bzw. Dichte f , dann ist X E(g(X1 , ..., Xn )) = g(k1 , ..., kn )ρ(k1 , ..., kn ), bzw. k1 ,...,kn Z E(g(X1 , ..., Xn )) = g(x1 , ..., xn )f (x1 , ..., xn )dx1 ...dxn . Insbesondere ist für eine reelle ZVe mit Zähldichte ρ bzw. Dichte f Z X E(X) = kρ(k) bzw. E(X) = xf (x)dx. k Beweis: Maßtheorie. Bemerkung: • Im Satz sind die Gleichungen so zu verstehen, dass die eine Seite genau dann wohldefiniert ist, wenn es die andere Seite ist. Beispielsweise im Falle von X mit Zähldichte existiert der Erwartungswert genau dann, wenn die Reihe konvergiert. 4.1 Erwartungswert 28 • Für unsere Zwecke kann man die Gleichungen aus dem Satz als Definition des Erwartungswerts ansehen. • Man beachte, dass der Erwartungswert jeweils nur von der Verteilung abhängt. Beispiel: Erwartungswert der Augenzahl bei einmaligem Werfen eines Würfels. P Lösung: E(X) = 6k=1 k · 16 = 3, 5. Beispiel: Erwartungswert für X mit der Dichte f (x) = R R∞ Lösung: E(X) = xf (x)dx = −∞ π1 · Erwartungswert ist also nicht definiert! x 1+x2 = 1 2π 1 π · 1 1+x2 (Cauchy-Verteilung). ∞ ln(1 + x2 ) −∞ = ∞ − ∞. Der Satz: (Eigenschaften des Erwartungswerts.) Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum, seien X, Y reelle ZVen, A ∈ F, a, b ∈ R. (a) E(1A ) = P (A), E(1) = E(1Ω ) = 1 (b) Linearität: E(aX + bY ) = a · E(X) + b · E(Y ) (c) Monotonie: X ≤ Y ⇒ E(X) ≤ E(Y ) (d) Multiplikativität: X,Y unabhängig ⇒ E(XY ) = E(X)E(Y ) Beweis: (für diskrete ZVen). Seien X, Y diskret mit gemeinsamer Dichte ρ. (a) E(1A ) = 1 · P (1A = 1) + 0 · P (1A = 0) = P (A), denn {1A = 1} = A. (b) Mit g(x, y) = ax + by folgt aus dem letzten Satz X X X X X E(aX + bY ) = (ax + by)ρ(x, y) = a x ρ(x, y) + b y ρ(x, y) x,y =a x X xρX (x) + b x X y y x yρY (y) = aE(X) + bE(Y ). y (c) Nach (b) ist E(Y ) − E(X) = E(Y − X) = P (y − x) · ρ(x, y) ≥ 0. x,y | {z } ≥0 (d) Mit g(x, y) = xy folgt aus dem letzten Satz X X X X E(XY ) = xyρ(x, y) = xyρX (x)ρY (y) = ( xρX (x))( yρY (y)) = E(X)E(Y ). x,y x,y x y Bemerkung: • Im Satz ist implizit vorausgesetzt, dass die Erwartungswerte existieren. • Per Induktion verallgemeinert man (b), (d) auf endliche Summen und Produkte. 4.2 Kovarianz und Varianz 4.2 29 Kovarianz und Varianz Definition: Sei L2 := {X : Ω → R ZVe : E(X 2 ) < ∞}. Bemerkung: • Es gilt L2 ⊂ L1 und man kann zeigen, dass L1 und L2 Vektorräume sind. • Für X, Y ∈ L2 ist E(XY ) wohldefiniert. Definition: Für X, Y ∈ L2 ist die Kovarianz definiert durch Cov(X, Y ) := E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y ). Für X1 , ..., Xn ∈ L2 wird (E(Xi ))i als Erwartungsvektor und (Cov(Xi , Xj ))i,j als Kovarianzmatrix bezeichnet. Bemerkung: • Die Gleichheit in der Definition ergibt sich durch Ausmultiplizieren aus der Linearität des Erwartungswerts. • Interpretation der Kovarianz: das Vorzeichen von Cov(X, Y ) bestimmt sich daraus, ob X −E(X) und Y −E(Y ) bevorzugt gleiches Vorzeichen oder verschiedenes Vorzeichen haben. Cov(X, Y ) ist also ein gewisses Maß dafür, ob X und Y lieber gleichzeitig relativ große und relativ kleine Werte annehmen (bezogen auf den jeweiligen Mittelwert) oder nicht. Man bezeichnet bei > 0 X, Y als positiv korreliert Cov(X, Y ) < 0 X, Y als negativ korreliert = 0 X, Y als unkorreliert • Aus der Multiplikativitätsregel des Erwartungswerts folgt sofort, dass unabhängige ZVen automatisch unkorreliert sind. Satz: (Eigenschaften der Kovarianz.). Seien X, Y, Xi , Yi ∈ L2 , ai , bi , c ∈ R, 1 ≤ i ≤ n. (a) Symmetrie: Cov(X, Y ) = Cov(Y, X). P P P P (b) Bilinearität: Cov( i ai Xi , j bj Yj ) = i j ai bj Cov(Xi , Yj ). (c) Konstanten: Cov(X, Y + c) = Cov(X, Y ), Cov(X, c) = 0. (d) C := (Cov(Xi , Xj ))ij ist positiv semidefinit: ∀v ∈ Rn : v T Cv = P i,j vi Cij vj ≥ 0. 4.2 Kovarianz und Varianz 30 Beweis: (a) ist klar (b) Wegen (a) genügt es die Linearität in der ersten Komponente zu zeigen: X X X Cov ai X i , Y = E ai Xi − E( ai Xi ) Y − E(Y ) i i X iX =E ai (Xi − E(Xi ))(Y − E(Y )) = ai E (Xi − E(Xi ))(Y − E(Y )) i = X i ai Cov(Xi , Y ). i (c) Cov(X, c) = E((X − E(X))(c − E(c))) = E(0) = 0 und P der Rest folgt mit (b). (d) Für v ∈ Rn ist wegen (b) unter Verwendung von Z := i vi Xi X X X vi Cov(Xi , Xj )vj = Cov v i Xi , vj Xj = Cov(Z, Z) = E((Z − E(Z))2 ) ≥ 0. i,j i j Definition: Für X ∈ L1 ist die Varianz definiert durch V(X) := Cov(X, X) = E[(X − E(X))2 ] = E(X 2 ) − E(X)2 . Bemerkung: • Aus der Definition folgt sofort V(X) ≥ 0. Für X ∈ L1 kann V(X) = ∞ sein. Für X ∈ L2 ist V(X) < ∞. • V(X) = E[(X − E(X))2 ] ist der durchschnittliche quadratische Abstand von X zu seinem Mittelwert. V(X) ist also ein gewisses Maß dafür, wie stark die Werte von X streuen. Satz: (Eigenschaften der Varianz.) Seien X, Xi ∈ L2 und c ∈ R, 1 ≤ i ≤ n. (a) Konstanten: V(X + c) = V(X), V(cX) = c2 V(X), V(c) = 0. P P P (b) Summenregel: V( i Xi ) = P i V(Xi )P + i6=j Cov(Xi , Xj ). Insbesondere gilt für unabhängige X1 , ..., Xn V( i Xi ) = i V(Xi ). Beweis: Diese Eigenschaften ergeben sich sofort aus V(X) = Cov(X, X) und den Eigenschaften der Kovarianz. Beispiel: Man bestimme E und V für die Augensumme bei 12 Mal Würfeln. Lösung: Seien X1 , ..., X12 die erzielten Augenzahlen. Die Xi sind unabhängig und gleichverteilt auf P {1, ..., 6}. Wir2verfolgen P 22 Ansätze: (1) E(X) = k kρX (k), E(X ) = k k ρX (k). Um diese Summen zu berechnen, benötigen wir ρX . Diese Zähldichte zu bestimmen, ist aber sehr aufwändig, daher beschreiten wir einen Alternativweg: 4.2 Kovarianz und Varianz 31 (2) Wir bestimmen zunächst E(Xi ) und V(Xi ): 6 X 1 + ... + 6 7 1 = E(Xi ) = k = 6 6 2 k=1 und E(Xi2 ) = 6 X k2 k=1 1 12 + ... + 62 91 = = , 6 6 6 49 35 91 2 2 . Mit den Rechenregeln für E und V folgt also V(Xi ) = E(X P i ) − E(Xi ) = 6 − 4 = 12P nun E(X) = i E(Xi ) = 42 und V(X) = i V(Xi ) = 35. Letzteres gilt, da die Xi unabhängig sind. Bisweilen ist es sinnvoll ZVen auf eine Normalform zu bringen, √ die Standardisierung von X. Definition: Für X ∈ L2 heißt X ∗ := X−E(X) V(X) Bemerkung: • Nach den Rechenregeln für E und V ist E(X ∗ ) = √ 1 V(X) V(X ∗ ) = ( √ 1 V(X) (E(X) − E(X)) = 0 und )2 V(X) = 1. X ∗ ist also eine größenbereinigte Version von X. • X ∗ hat die gleiche Wahrscheinlichkeitsverteilung wie X, abgesehen davon dass die Werte entsprechend verschoben und gestaucht wurden. Definition: • Für X ∈ L1 ist die Standardabweichung definiert durch σ(X) := • Für X, Y ∈ L2 ist die Korrelation definiert durch ρ(X, Y ) := p V(X). Cov(X,Y ) . σ(X)σ(Y ) Bemerkung: Y −E(Y ) • Es gilt ρ(X, Y ) = E( X−E(X) ) = E(X ∗ Y ∗ ) = Cov(X ∗ , Y ∗ ). σ(X) σ(Y ) • Cov und V haben die schöneren Eigenschaften, und sind daher zum Rechnen besser geeignet. Dafür haben σ und ρ die interessantere Interpretation: • Da V ein Maß für die durchschnittliche quadratische Abweichung vom Mittelwert ist, kann σ als Maß für die durchschnittliche Abweichung vom Mittelwert betrachtet werden. • ρ(X, Y ) = E(X ∗ Y ∗ ) ist ein Maß für die Tendenz, dass X ∗ und Y ∗ gleichgroße Werte haben. Nach dem folgenden Lemma ist ρ(X, Y ) ∈ [−1, 1] und die extremalen Fälle werden erreicht durch ρ(X, X) = 1 (Größe genau gleich) und ρ(X, −X) = −1 (Größe genau gegenläufig). Lemma: Für X, Y ∈ L2 ist ρ(X, Y ) ∈ [−1, 1]. Beweis: Die Behauptung folgt mittels der Rechenregeln aus 0 ≤ V(X ∗ ± Y ∗ ) = V(X ∗ ) + V(Y ∗ ) ± 2Cov(X ∗ , Y ∗ ) = 2 ± 2ρ(X, Y ). 4.3 Verwendung von Indikatorfunktion und Bedingungen 4.3 32 Verwendung von Indikatorfunktion und Bedingungen P Ist X = i 1Ai , so haben wir für jedes Ai , das eintritt, 1Ai = 1, d.h. X ist die Anzahl von allen Ereignissen Ai die eintreten. Hier kann man den Erwartungswert (und die Varianz) besonders einfach berechnen: P Satz: Ist X = i 1Ai mit Ai ∈ F, 1 ≤ i ≤ n, so ist X X X E(X) = P (Ai ) und E(X 2 ) = P (Ai ) + P (Ai ∩ Aj ). i i i6=j P P P Beweis: E( ) = i P (Ai ) P und die zweite Gleichung folgt ebenso, i i 1Ai ) =P i E(1AP P P 2 2 2 da X = ( i 1Ai ) = i 1Ai + i6=j 1Ai 1Aj = i 1Ai + i6=j 1Ai ∩Aj . Beispiel: Wir wählen rein zufällig eine 8-stellige Codezahl mit Ziffern aus {1, ..., 6}. Man bestimme, wie viele verschiedenen Ziffer die Codezahl im Durchschnitt hat. Lösung: Sei Ω {1, ..., 6}8 , F = P(Ω), P = UΩ . Sei P X die Anzahl der verschiedenen Ziffern, die in der Codezahl vorkommen. Es ist X = 1Ai , wobei Ai das Ereignis ist, dass Ziffer i vorkommt. P (Ai ) und P (Ai ∩ Aj ) sind aber nicht so leicht zu bestimmen. P Leichter ist P (Aci ) = ( 65 )8 und P (Aci ∩ Acj ) = ( 46 )8 . Daher setzen wir Y := i 1Aci die Anzahl der Ziffern, die nicht vorkommen. Es gilt X = 6−Y und E(Y ) und V(Y ) ergeben sich aus dem vorhergehenden Satz: E(Y ) = 6( 65 )8 ≈ 1, 4, E(Y 2 ) = 6( 65 )8 +6·5( 46 )8 ≈ 2, 6, also V(Y ) = E(Y 2 ) − E(Y )2 = 0, 6. Hieraus folgt sofort E(X) = 6 − E(Y ) ≈ 4, 6 und V(X) = V(Y ) ≈ 0, 6. Beispiel: Man zeige mittels Indikatorfunktionen die Einschluss-Ausschlussformel: P n [ Ai = i=1 n X X (−1)k+1 k=1 P J⊂{1,...,n}:|J|=k \ Aj für Ai ∈ F. j∈J Lösung: Schreibt man die Wahrscheinlichkeiten als Erwartungen von Indikatorfunktionen, so genügt es wegen der Linearität der Erwartung zu zeigen, dass 1 S i Ai n X X = (−1)k+1 1T k=1 Aj , d.h. 1−1 S j∈J J:|J|=k i Ai = n X (−1)k k=0 X J:|J|=k 1T Aj . j∈J Q Dies zeigt man unter Verwendung von 1 − 1A = 1Ac und 1∩Ai = 1Ai : Es ist Y Y XY 1 − 1Si Ai = 1(Si Ai )c = 1Ti Aci = 1Aci = (1 − 1Ai ) = (−1Ai ) und i X k k (−1) X J:|J|=k 1 T i∈J Ai i J i∈J X X Y X X Y = (−1)k 1Ai = (−1Ai ). k J:|J|=k i∈J k J:|J|=k i∈J 4.3 Verwendung von Indikatorfunktion und Bedingungen 33 Eine andere Methode zur Berechnung des Erwartungswerts beruht auf einer Fallunterscheidungsformel analog zu der für Wahrscheinlichkeiten. Hierbei steht E(X|Y = y) für den Erwartungswert von X unter dem Wahrscheinlichkeitsmaß P (.|Y = y). Satz: Seien X, Y reelle Zufallsvariablen. Hat Y Zähldichte ρ bzw. Dichte f so gilt Z X E(X) = E(X|Y = y)ρ(y) bzw. E(X) = dyE(X|Y = y)f (y), y falls die rechte Seite definiert ist. Zusammenfassend schreibt man diese Formel auch in der Form E(X) = E(E(X|Y )) (“Turmeigenschaft für den Erwartungswert”). P P ρ (x,y) , also Beweis: (für X, Y diskret.) E(X|Y = y) = x xρX (x|Y = y) = x x X,Y ρY (y) X X X ρX,Y (x, y) XX E(X|Y = y)ρ(y) = x ρY (y) = xρX,Y (x, y) = E(X). ρ (y) Y y y x x y Beispiel: Ein Stab der Länge 1 bricht an einer zufälligen Stelle. Der rechte Teil wird weggeworfen, der linke Teil bricht wieder an einer zufälligen Stelle, und der rechte Teil wird wieder weggeworfen. Wie groß ist der restliche Teil im Durchschnitt? Lösung: Sei Y die Restlänge nach dem ersten Bruch und X die Restlänge nach dem zweiten Bruch. Die Verteilung von Y ist U[0,1] und die bedingte Verteilung von X, gegeben Y = y, ist U[0,y] . Wir verfolgen 2 Ansätze: (1) Aus den gegebenen Verteilungen bestimmt man die gemeinsame Dichte fX,Y (x, y) = R 1 fY (y)fX (x|Y = y) = 1[0,1] (y) y 1[0,y] (x), und berechnet hieraus E(X) = dxdyxfX,Y (x, y). Aufgrund der Struktur des Problems ist aber folgender Ansatz einfacher: (2) Es ist E(X|Y = y) = y2 (Erwartungswert von U[0,y] ). Mit dem Satz erhalten wir also Z Z 1 1 1 E(X) = dyE(X|Y = y)fY (y) = dyyfY (y) = E(Y ) = , 2 2 4 1 denn Y ∼ U[0,1] impliziert E(Y ) = 2 . Bei komplizierteren Aufgaben sind folgende einfache Tatsachen oft nützlich: Satz: Sind X, Y unabhängige Zufallsvariablen, so ist E(X|Y = y) = E(X). Beweis: Bei Unabhängigkeit ist die bedingte Verteilung identisch mit der unbedingten Verteilung. Hieraus folgt sofort die Behauptung. Satz: Sind X, Y Zufallsvariablen, so ist E(f (X, Y )|Y = y) = E(f (X, y)|Y = y). Beweis: Hausaufgabe fr̈ den Fall X, Y diskret. Bemerkung: Bei beiden hier vorgestellten Berechnungsmethoden des Erwartungswerts besteht das Problem nicht in der Anwendung der Formeln, sondern darin, für eine gegebene ZVe X geeignete Indikatorfunktionen oder eine geeignete Bedingung Y zu finden, die das Problem vereinfachen! 4.4 Momentenerzeugende Funktionen 4.4 34 Momentenerzeugende Funktionen Definition: Die momentenerzeugende Funktion (MF) einer reellen ZVe X ist MX : R → R, MX (t) = E(etX ), t ∈ R. Bemerkung: • MX ist nur sinnvoll falls E wenigstens für t in einer Umgebung von 0 endlich ist. (Dies soll im Folgenden generell vorausgesetzt sein.) In diesem Fall ist X n ∈ L1 für alle n. • Mit den Formeln für den Erwartungswert von diskreten bzw. stetigen ZVen folgt: Z X tk MX (t) = e ρX (k) für X diskret, MX (t) = dxetx fX (x) für X stetig k Satz: (Eigenschaften von MX .) Seien X, Y reelle ZVen, a, b ∈ R. (a) Momente: E(X n ) = dn MX (t)|t=0 dtn (b) Lineare Transformation: MaX+b (t) = ebt MX (at) (c) Produkteigenschaft: Sind X, Y unabhängig, so ist MX+Y (t) = MX (t) · MY (t). (d) Eindeutigkeit: Ist MX = MY in einer Umgebung der 0, so haben X, Y die gleiche Verteilung. Beweis: (in Teilen) (a)Für n = 1 ist dtd MX (t) = dtd E(eXt ) = E( dtd eXt ) = E(XeXt ) und mit t = 0 folgt die 2 Formel. Für n = 2 ist dd2 t MX (t) = dtd MX (X · eXt ) = E(X 2 · eXt ) und mit t = 0 folgt die Formel. Für allgemeines n argumentiert man induktiv. Die Vertauschbarkeit von E und Ableitung muss hierbei noch genauer begründet werden (vgl. Maßtheorie). (b) E(et(aX+b) ) = E(etb · eatX ) = etb · E(e(at)X ). (c) E(et(X+Y ) ) = E(etX · etY ) = E(etX )E(etY ). (d) Analog zur Eindeutigkeit bei der Fourier-Transformation. Beispiel: Man bestimme die MF von X ∼ U[0,1] . Lösung: MX (t) = E(etX ) = sich MX (0) = 1. R etx f (x)dx = R1 0 etx dx = 1t etx |10 = et −1 . t Für t = 0 ergibt Bemerkung: : Analog definiert man die (gemeinsame) MF von reellen ZVen X1 , ..., Xn als MX1 ...Xn : Rn → R mit MX1 ...Xn (t1 ...tn ) = E(et1 X1 +...+tn Xn ). Diese hat auch wieder Eigenschaften ähnlich zu denen in obigem Satz. 5 Beispiele für Zufallsvariablen 5 35 Beispiele für Zufallsvariablen 5.1 Zufällige Ereignisse in diskreter Zeit Wir betrachten diskrete Zeitpunkte n = 1, 2, . . .. Zu jedem Zeitpunkt wird ein Experiment mit zwei möglichen Ausgängen (Niete/Treffer) durchgeführt. Die einzelnen Experimente seien dabei unabhängig. Standardbeispiel ist hierbei der unendlich oft wiederholte Münzwurf (mit etwa “Zahl” als Treffer). Definition: Eine Folge von ZVen Xn , n ≥ 1, heißt Bernoulli-Folge oder BernoulliProzess mit Parameter p ∈ (0, 1), falls die Xn unabhängig sind mit Zähldichte ρ(0) = 1 − p (Niete) und ρ(1) = p (Treffer). p wird auch als Trefferwahrscheinlichkeit bezeichnet. In einem Bernoulli-Prozess betrachtet man außer den Xn auch folgende ZVen: • NA , A ⊂ N: Anzahl von Treffern in A. • Ti , i ≥ 1: Wartezeit zwischen (i−1)-ten und i-ten Treffer (0-ter Treffer bei n = 0). • Si , i ≥ 1: Wartezeit bis zum i-ten Treffer. Man kann die Verteilungen dieser Zufallsvariablen leicht bestimmen: Satz: Sei Xn , n ≥ 1, eine Bernoulli-Folge mit Parameter p. a) Sind A1 , A2 ... disjunkt, so sind NA1 , NA2 , ... unabhängig. Ist |A| = n, so ist ρNA (k) = nk pk (1 − p)n−k , k = 0, 1, ..., n. b) T1 , T2 , ... sind unabhängig und ρTi (k) = p(1 − p)k−1 , k = 1, 2, 3... c) S1 , S2 , ...Sn : Zähldichte ρS1 ...Sn (k1 , ..., kn ) = pn (1 − p)kn −n , 0 < k1 < ... < kn . Beweis: P P (a) NAi = k∈Ai 1{Xk =1} = k∈Ai Xk . Nach den Vererbungseigenschaften der Unabhängigkeit sind die N daher unabhängig. Für A = {m1 , ..., mn } ist P (NA = k) = Ai P k P n−k , wobei über alle xi ∈ {0, 1} sumx p (1 − p) x P (Xm1 = x1 , ..., Xmn = xn ) = miert wird, von denen genau k 1 und n − k 0 sind. DieAnzahl solcher Folgen ist nk , daher folgt für die Wahrscheinlichkeit: P (NA = k) = nk pk (1 − p)n−k . (c) Wir setzen xkj := 1 und xi = 0 sonst. Damit erhalten wir P (S1 = k1 , ..., Sn = kn ) = P (Xi = xi ∀1 ≤ i ≤ kn ) = pn (1 − p)kn −n , denn genau n der xi sind 1. (b) ..., Tn = ln ) = P (S1 = l1 , ..., Sn = l1 + ... + ln ) = pn (1 − p)l1 +...+ln −n = Qn P (T1 = l1li,−1 . Hieraus erhält man die Unabhängigkeit und die Zähldichte. i=1 p(1 − p) Die in (a) und (b) definierten Verteilungen kommen in Anwendungen häufig vor und bekommen daher eigene Bezeichnungen: 5.1 Zufällige Ereignisse in diskreter Zeit 36 Definition+Satz: Sei p ∈ (0, 1) und n ∈ N. (a) X heißt binomialverteilt mit Parametern n, p (X ∼ Bin n,p ) falls X diskret ist mit Zähldichte ρX (k) = nk pk (1 − p)n−k , k = 0, ..., n. Es gilt E(X) = np, V(X) = np(1 − p). (b) X heißt geometrisch verteilt mit Parameter p (X ∼ Geo p ), falls X diskret ist mit Zähldichte ρX (k) = p(1 − p)k−1 , k = 1, 2... . Es gilt E(X) = p1 , V(X) = 1−p p2 Beweis: (a) Eine Möglichkeit ist, die Formeln für Erwartungswert und Varianz zu verwenden und die entstehenden Summen vereinfachen. Einfacher argumentiert man mit dem Bernoulli-Prozess: X = N{1,...,n} = X1 + ... + Xn . Die Xi sind unabhängig mit E(Xi ) = 1 · p + 0 · (1 − p) = p, E(Xi2 ) = 12 · p + 02 · (1 − p) = p, also V(Xi ) = p2 − p = p(1 − p). Es folgt E(X) = n X i=1 E(Xi ) = n X i=1 p = np und V(X) = n X V(Xi ) = np(1 − p). i=1 (b) Wieder kann man entweder die Formeln für Erwartungswert und Varianz verwenden oder mit dem Bernoulli-Prozess argumentieren: X = T sei die Wartezeit bis zum ersten Erfolg in einer Bernoulli-Folge mit Parameter p. Wir bestimmen E(T ) durch Bedingen auf X1 : Falls X1 = 1, so ist T = 1, also E(T |X1 = 1) = 1. Falls X1 = 0, so ist T = 1+T 0 , wobei T 0 die Wartezeit nach der Zeit 1 auf den ersten Erfolg ist. T 0 ist unabhängig von X1 und T 0 ∼ T , also ist E(T |X1 = 0) = E(1+T 0 |X1 = 0) = 1+E(T 0 |X1 = 0) = 1+E(T ). Es folgt E(T ) = E(T |X1 = 0)P (X1 = 0) + E(T |X1 = 1)P (X1 = 1) = (1 + E(T ))(1 − p) + 1 · p. P Wegen E(T ) = k kp(1 − p)k−1 < ∞ folgt hieraus durch umformen E(T ) = p1 . Analog berechnet man E(T 2 ) (Hausaufgabe) und erhält hieraus V(T ). Beispiel: Seien T1 , T2 , T3 unabhängig und geometrisch verteilt mit Parameter p. Man berechne P (T1 + T2 + T3 ≥ 5). Lösung: Wir betrachten die Ti als entsprechende Wartezeiten im Bernoulli-Prozess und drücken das betrachtete Ereignis durch P andere Zufallsvariablen aus: P (T1 + T2 + T3 ≥ 5) = P (S3 ≥ 5) = P (N{1,...,4} ≤ 2) = 2k=0 k4 pk (1−p)4−k = (1−p)4 +4p(1−p)3 +6p2 (1−p)2 . 5.2 Zufällige Ereignisse in stetiger Zeit 5.2 37 Zufällige Ereignisse in stetiger Zeit Zunächst benötigen wir eine weitere diskrete Verteilung: Definition+Satz: X heißt Poisson-verteilt mit Parameter λ > 0 (X ∼ Poi λ ), falls k X diskret ist mit Zähldichte ρX (k) = e−λ λk! , k = 0, 1, 2, ... Es gilt E(X) = λ, V(X) = λ. Beweis: Hausaufgabe. Die Poisson-Verteilung approximiert die Anzahl von Erfolgen (in einem BernoulliProzess) in sehr großen Zeitintervallen bei sehr kleiner Trefferwahrscheinlichkeit: Satz: (Poisson-Approximation.) Sei λ > 0, pn > 0 mit npn → λ für n → ∞. Für Yn ∼ Binn,pn , Y ∼ P oiλ ist P (Yn = k) → P (Y = k) für n → ∞. (Für großes n und kleines pn ist also Bin n,pn ≈ Poi λ mit λ = npn .) Beweis: n k 1 npn n nn−1 n−k+1 P (Yn = k) = pn (1 − pn )n−k = (npn )k ... (1 − pn )−k (1 − ) . k k! n n n n Es gilt (npn )k → λk , n−i n → 1, (1 − pn )−k → 1 und (1 − npn n ) n → e−λ . Nun kommen wir zur Definition eines Prozesses von zufälligen Zeitpunkten in stetiger Zeit. Wir betrachten jetzt also beliebige Zeitpunkte t > 0. Da die Menge der Zeitpunkte überabzählbar ist, ist es nicht praktikabel bei jedem einzelnen Zeitpunkt zu entscheiden, ob ein Treffer stattfindet oder nicht (wie bei der Definition des Bernoulli-Prozesses). Sinnvoll dagegen ist die Verwendung der anderen Zufallsvariablen: • NA , A ⊂ (0, ∞): Anzahl von Treffern in A. • Ti , i ≥ 1: Wartezeit zwischen (i−1)-ten und i-ten Treffer (0-ter Treffer bei t = 0). • Si , i ≥ 1: Wartezeit bis zum i-ten Treffer. Um die Verteilung dieser Zufallsvariablen festzulegen, machen wir folgende (natürliche) Modellannahmen: (i) Was in disjunkten Intervallen passiert ist unabhängig (ii) Für ein kleines Intervall A: NA ≤ 1 (iii) Für ein kleines Intervall A: P (NA = 1) ≈ αλ1 (A) Ist h = λ1 (A) die Länge von A, so kann man (ii),(iii) wie folgt präzisieren: P (NA ≥ 2) = o(h), P (NA = 1) = αh + o(h) für h → 0. 5.2 Zufällige Ereignisse in stetiger Zeit 38 Definition+Satz: Ein Prozess von Ereignissen in stetiger Zeit erfülle (i),(ii),(iii). Sind dann A1 , A2 ... ∈ B(0,∞) disjunkt, so sind NA1 , NA2 , ... unabhängig und es gilt NA ∼ Poi λA mit λA = αλ1 (A). Ein Prozess mit diesen Eigenschaften heißt Poisson-Prozess (PP) zum Parameter α. α nennt man auch die Rate des PP. Beweis: (Skizze.) Die Unabhängigkeit der NAi folgt aus (i). Um NA ∼ Poi λA zu 1 zeigen, zerlegen wir A in n Teilmengen Ai der Länge λ1 (Ai ) = λ n(A) . Mit (ii),(iii) ist 1 1 dann P (NAi = 1) = α·λn(A) + o( n1 ) und P (NAi = 0) = 1 − α·λn(A) + o( n1 ), d.h. bis auf α·λ1 (A) o( n1 ) bilden die NAi einen Bernoulli-Prozess mit Erfolgswahrscheinlichkeit p := . n n Es folgt P (NA = k) = nk pkn (1 − pn )n−k + n · o( n1 ). Der zweite Term geht gegen 0, und der erste Term gegen e−λA Approximation verwenden. λkA , k! denn wegen npn = αλ1 (A) kann man die Poisson Satz: Wir betrachten einen Poisson-Prozess mit Rate α. (a) Sind Ai , i ≥ 1, disjunkt, so sind NAi unabhängig und NAi ∼ Poi λAi . (b) Die Tn , n ≥ 1, sind unabhängig mit Dichte f (t) = αe−αt 1{t>0} (c) Die S1 , ..., Sn haben die gemeinsame Dichte fS1 ...Sn (s1 , ..., sn ) = αn e−αsn 1{0<s1 <....<sn } . Beweis: (a) ist gerade die Definition des Poisson-Prozesses. Wir beweisen (c),(b) für n = 2. Für größere n funktioniert es analog. (c) Für beliebige s01 < s1 < s02 < s2 ist P (s01 < S1 ≤ s1 , s02 < S2 ≤ s2 ) = P (N[0,s01 ] = 0, N(s01 ,s1 ] = 1, N(s1 ,s02 ] = 0, N(s02 ,s2 ] ≥ 1) = P (N[0,s01 ] = 0)P (N(s01 ,s1 ] = 1)P (N(s1 ,s02 ] = 0)P (N(s02 ,s2 ] ≥ 1) 0 0 0 1 0 0 (α(s02 − s1 ))0 0 (αs1 ) 0 (α(s1 − s1 )) 0 0 (α(s2 − s2 )) = e−αs1 e−α(s1 −s1 ) e−α(s2 −s1 ) 1 − e−α(s2 −s2 ) 0! 1! 0! 0! −αs02 −αs2 0 = α(s1 − s1 )(e −e ). Rs Rs Andererseits ist die Wahrscheinlichkeit von der Form s01 dt1 s02 dt2 f (t1 , t2 ), daher er1 2 halten wir die Dichte durch partielles ableiten: fS1 ,S2 (s1 , s2 ) = ∂s1 ∂s2 P (.....) = α · αe−αs2 = α2 e−αs2 . (b) S1 = T1 , S2 = T1 + T2 . Die Transformation s1 = t1 , s2 = t1 + t2 ist ein Diffeomor1 0 phismus mit Jacobi-Determinante J = , det J = 1. Nach Transformationssatz 1 1 und (c) folgt daher fT1 ,T2 (t1 , t2 ) = α2 e−α(t1 +t2 ) · 1 = αe−αt1 αe−αt2 . Hieraus folgt die Behauptung. 5.3 Normalverteilung 39 Definition+Satz: T heißt exponentialverteilt mit Parameter α > 0 (T ∼ Exp α ), falls T stetig ist mit Dichte fT (t) = αe−αt , t > 0. Es gilt E(T ) = α1 und V(T ) = α12 . Beweis: Z ∞ ∞ Z tf (t)dt = E(T ) = 0 αte −αt dt = [−t · e−αt ]∞ 0 und analog E(T 2 ) = 0 ∞ + 0 0 R∞ Z t2 f (t)dt = ... = 2 , α2 e−αt dt = 1 −αt ∞ 1 e |0 = , α α also V(T ) = E(T 2 ) − E(T )2 = 1 . α2 Eine wichtige Eigenschaft der Exponentialverteilung ist die “Gedächtnislosigkeit”: Satz: (Gedächtnislosigkeit.) Für T ∼ Exp α ist P (T > s + t|T > t) = P (T > s), d.h. die bisherige Wartezeit hat keinen Einfluss auf die zusätzliche Wartezeit. Beweis: Hausaufgabe. 5.3 Normalverteilung Die Normalverteilung spielt eine wichtige Rolle in vielen Anwendungen; warum dies so ist, zeigt sich aber erst im Abschnitt über den zentralen Grenzwertsatz. Definition: X heißt normalverteilt mit Parametern m ∈ R, v > 0 (X ∼ Nm,v ), √ 1 e− 2πv (x−m)2 2v . N0,1 nennt man auch StandardRc x2 Normalverteilung und setzt ϕ(x) := ϕ0,1 (x) = √12π e− 2 und Φ(c) := −∞ ϕ(x)dx. falls X stetig ist mit Dichte ϕm,v (x) = Es ist nicht so einfach zu sehen, ob ϕm,v überhaupt eine Dichtefunktion ist: R Lemma: Für alle m ∈ R, v > 0 ist ϕm,v (x)dx = 1. Beweis: Mit der Substitution y = x−m √ v ergibt sich Z Z (x−m)2 y2 1 1 − 2v √ √ e− 2 dy, und somit I := e dx = 2πv 2π Z Z ∞ Z 2π Z ∞ 2 2 2 r2 r2 1 1 2 − x2 − y2 − r2 I = dxdye e = dr dϕ r · e = dr r · e− 2 = −e− 2 |∞ 0 = 1. 2π 2π 0 0 0 Hier sind wir zu Polarkoordinaten übergegangen: x = r cos ϕ, y= r sin ϕ. Man erhält r cos ϕ −r sin ϕ r2 = x2 + y 2 und für die Jacobi-Matrix J = ergibt sich | det J| = r sin ϕ r cos ϕ r cos2 ϕ + r sin2 ϕ = r und somit dxdy = rdrdϕ. 5.3 Normalverteilung 40 Rc x2 Bemerkung: Φ(c) = √12π −∞ e− 2 kann nicht analytisch integriert werden. Φ kann man entweder mittels numerischer Integration berechnen, oder man verwendet entsprechende Tabellen, die die Werte von Φ(c) für c > 0 enthalten. Für die Werte c < 0 verwendet man dann einfach die Relation Φ(−x) + Φ(x) = 1. Satz: Eigenschaften der Normalverteilung. (a) Für X ∼ Nm,v und Y := aX + b mit a 6= 0 ist Y ∼ Nam+b,a2 v . v 2 (b) Für X ∼ Nm,v ist E(X) = m, V(X) = v und MX (t) = emt+ 2 t . (c) Sind X1 ∼ Nm1 ,v1 und X2 ∼ Nm2 ,v2 unabhängig, so gilt X1 + X2 ∼ Nm1 +m2 ,v1 +v2 . Lösung: 1 (a) Nach Hausaufgabe ist fY (y) = fX ( y−b )· |a| = a 1 − √1 e 2πv |a| t2 2 y−b ( a −m)2 2v = √ 1 ·e− 2πa2 v (y−ma−b)2 2a2 v . t2 2 (b) Für X ∼ N0,1 ist nach Hausaufgabe MX (t) = e . Aus MX0 (t) = te , MX00 (t) = t2 (1 + t2 )e 2 √folgt E(X) = 0, E(X 2 ) = 1, also V(X) = 1. Nun betrachten wir Y = aX + b. Für a = v, b = m ist Y ∼ Nm,v nach (a), und wir erhalten MY (t) = MX (at) · etb , E(Y ) = aE(X) + b = b, V(Y ) = a2 V(X) = v. Hieraus ergeben sich die Behauptungen. v1 2 v2 2 v1 +v2 2 (c) MX1 +X2 (t) = MX1 (t)MX2 (t) = em1 t+ 2 t em2 t+ 2 t = e(m1 +m2 )t+ 2 t ist die Momentenerzeugende Funktion von Nm1 +m2 ,v1 +v2 . Nach dem Eindeutigkeitssatz folgt die Behauptung. Nun betrachten wir lineare Transformationen unabhängiger normalverteilter ZVen: Definition: und Vektoraddition) mit Sei X = AZ + b (Matrixmultiplikation b1 a11 . . . a1n Z1 .. .. . m m×n .. ∈ R b= . ∈R ,A= . und Z = ... mit unabhängigen bm am1 . . . amn Zn Zi ∼ N0,1 , d.h. die Xi seien Linearkombinationen der Zi : X1 = a11 Z1 + ... + a1n Zn + b1 , ... , Xm = am1 Z1 + ... + amn Zn + bm . Die Xi heißen multivariat normalverteilt: X ∼ Nb,C mit C := AAT . Bemerkung: • Ist X multivariat normalverteilt, so ist nach dem letzten Satz jedes Xi normalverteilt. Umgekehrt sind normalverteilte Zufallsvariablen nicht unbedingt gemeinsam multivariat normalverteilt. Die multivariate Normalverteilung ist eine sehr spezielle gemeinsame Verteilung normalverteilter ZVen. • C = AAT ist automatisch symmetrisch und positiv semidefinit. Wir zeigen umgekehrt, dass abgesehen von dieser Einschränkung zu vorgegebenen Parametern b, C genau eine zugehörige multivariate Normalverteilung Nb,C existiert. • Im Gegensatz dazu können verschiedene Matrizen A zur gleichen multivariaten Normalverteilung führen, nämlich wenn C = AAT gleich ist. 5.3 Normalverteilung 41 m1 σ1 0 σ12 ... ... Beispiel: Ist b = ... , A = und C = AAT = mn 0 σn 0 gegebene mi , σi ∈ R und X = AZ + b ∼ Nm,C , so sind die Xi = σi Zi + σi2 unabhängig. Unabhängige Normalverteilungen entsprechen demnach genau C Diagonalmatrix. 0 für σn2 ∼ Nmi ,σi2 Nb,C mit Satz: Ist b ∈ Rn und C ∈ Rn×n symmetrisch und positiv semidefinit, so gibt es eine zugehörige multivariate Normalverteilung (Nb,C ). Beweis: Es genügt ein A ∈ Rn×n zu finden mit AAT = C, denn dann wählt man Z1 , ..., Zn unabhängig ∼ N0,1 und setzt X = AZ + b, und erhält so X ∼ Nb,C . Da C symmetrisch ist, gibt es eine orthogonale Matrix M (M −1 = M T ) und eine Diagonalmatrix D mit C = M DM −1 . Seien di die Diagonaleinträge von D, d.h. die Eigenwerte von C. Da C positiv semi-definit√ist, gilt di ≥ 0, denn für jeden Eigenvektor v√ i ist 2 t t 0 ≤ vi Cv √i = vi di vi = di kvi k . Sei D die Diagonalmatrix mit Diagonaleinträgen di . A := M DM −1 hat dann die gewünschte Eigenschaft: √ √ √ √ T AAT = M DM −1 (M −1 )T D M T = M D DM T = M DM T = C. denn M −1 (M −1 )T = M T (M −1 )T = (M −1 M )T . Hieraus folgt die Existenz der multivariaten Normalverteilung zu vorgegebenen Parametern. Deren Eindeutigkeit folgt aus dem folgenden Satz ((b) oder (c)), ebenso wie die Bedeutung der Parameter ((a)): Satz: Sei X = AZ + b ∼ Nb,C wie in obiger Definition. (a) X hat Erwartungsvektor b, Kovarianzmatrix C. (b) Ist A invertierbar, so gilt fX (x1 , ..., xm ) = 1 1 m 1 (2π) 2 | det C| 2 1 T C −1 (x−b) e− 2 (x−b) . 1 T Ct+tT b (c) MX (t1 , ..., tm ) = e 2 t (d) Ist Y = BX + c mit B ∈ Rk×m , c ∈ Rm , so ist Y ∼ NBb+c,BCB T . Beweis: P P (a) E(Xi ) = E( j aij Zj + bi ) = j aij E(Zj ) + bi = bi wegen E(Zj ) = 0 und X XX X Cov(Xi , Xj ) = Cov aik Zk + bi , ajl Zl + bj = aik ajl Cov(Zk , Zl ) k = X k,l:k6=l aik ajl · 0 + l X k,l:k=l aik ajl V(Zk ) = k X l aik ajk = (AAT )ij . k Q 1 T 2 ) 1 − 1 (z 2 +...+zm = (2π)1m/2 e− 2 z z . Die Behaup(b) Es ist fZ (z1 , ..., zm ) = i fZi (zi ) = √2π me 2 1 tung folgt damit aus dem Transformationssatz: x = Az + b ist ein Diffeomorphismus, 1 z = A−1 (x − b), dx = A, | det A| = | det C| 2 wegen | det A|2 = | det A det AT | = | det C| dz und z T z = (x − b)T (A−1 )T (A−1 )(x − b) = (x − b)T C −1 (x − b). 5.3 Normalverteilung 42 P P P P (c) Sei X̄ =P i ti Xi , so ist X̄P∼ Nm,vPmit m = E( t X ) = t E(X ) = i i i i i i t i bi P i P und v = V( i ti Xi ) = Cov( i ti Xi , j tj Xj ) = i,j ti tj Cov(Xi , Xj ) = i,j ti tj cij . Hiermit ergibt sich MX (t1 , ..., tn ) = E(e P i ti Xi v 2 1 T Ct+tT b ) = E(eX̄ ) = MX̄ (1) = em·1+ 2 ·1 = e 2 t . (d) Y = BX + c = B(AZ + b) + c = (BA)Z + (Bb + c) ist multivariat normalverteilt mit Kovarianzmatrix BA(BA)T = BAAT B T = BCB T . Bemerkung: • Normalerweise ist Unabhängigkeit eine stärkere Eigenschaft als Unkorreliertheit. Für multivariat normalverteilte ZVen Xi sind diese Eigenschaften aber identisch: Die Xi sind genau dann unkorreliert, wenn C eine Diagonalmatrix ist. Nach obigem Beispiel bedeutet das aber gerade, dass die Xi unabhängig sind. • Nach (d) ist jede affine Transformation einer multivariaten Normalverteilung wieder multivariat normalverteilt. Ist insbesondere X ∼ N0,I und M orthogonal (M −1 = M T ), so ist Y := M X ∼ N0,I , denn Y hat Kovarianzmatrix M M T = I. Demnach sind unabhängige Standardnormalverteilungen invariant unter beliebigen Drehungen. • Die Dichte der multivariaten Normalverteilung ist zum Rechnen relativ unhandlich. Oft verwendet man besser die Definition der multivariaten Normalverteilung und obige Unabhängigkeitsaussagen. Beispiel: Seien X1 , X2 unabhängig und N0,1 -verteilt. Bestimmen Sie die Verteilung von Y1 = 2X1 − 3X2 , Y2 = 3X1 + 2X2 . Beweis: (Y1 , Y2 ) ist nach Definition multivariat normalverteilt mit E(Y1 ) = 0 + 0 = 0, V(Y1 ) = 4 + 9 = 13, E(Y2 ) = 0, V(Y2 ) = 13 und Cov(Y1 , Y2 ) = Cov(2X1 − 3X2 , 3X1 + 2X2 ) = 6 − 6 = 0, d.h. Y1 , Y2 sind unabhängig und N0,13 -verteilt. 6 Grenzwertsätze 6 6.1 43 Grenzwertsätze Gesetz der großen Zahl Eine empirische Beobachtung bei häufigem Würfeln mit einem fairen Würfel ist, dass n ungefähr 3, 5 = E(Xi ) ist. Anders ausgedrückt: der Mittelwert von n Würfen X1 +...+X n Der Stichprobenmittelwert (zeitliches Mittel) ist ungefähr gleich dem Erwartungswert (Mittelwert bei einem Experiment). Bevor wir diesen Sachverhalt erklären können, müssen wir ihn präzise beschreiben, z.B. als X1 + ... + Xn → E(Xi ) n für n → ∞, wobei aber nicht klar ist, was mit der Konvergenz von Zufallsvariablen gemeint ist. Es kann ja durchaus vorkommen, dass Xi = 1 für alle i. In diesem Fall konvergiert der Mittelwert gegen 1 6= E(Xi ), andererseits ist dies aber auch extrem unwahrscheinlich. Gemeint ist hier also so etwas wie: der Mittelwert ist für große n mit hoher Wahrscheinlichkeit nahe bei E(Xi ). Hierfür sind unterschiedliche mathematische Präzisierungen möglich, die jeweils zu unterschiedlichen Gesetzen der großen Zahl führen. 6.1.1 Schwaches Gesetz der großen Zahl Definition: (Stochastische Konvergenz.) Seien Yn , Y : Ω → R Zufallsvariablen. p Wir schreiben Yn → Y stochastisch (oder Yn →Y ), wenn ∀ > 0 : P (|Yn − Y | > ) → 0. Bemerkung: Dies kann man folgendermaßen interpretieren: Der Wert von Yn liegt für großes n nahe bei Y . Bei fester Schranke > 0 gibt es für jedes n Ausnahmebeobachtungen ω ∈ {|Yn − Y | > }, aber diese werden bei wachsendem n zunehmend unwahrscheinlich. Um Wahrscheinlichkeiten wie in obiger Definition abschätzen zu können benötigen wir geeignete Werkzeuge: Satz: Sei X eine reelle Zufallsvariable und a > 0. (a) Ist X ≥ 0 und X ∈ L1 , so gilt P (X ≥ a) ≤ (b) Ist X ∈ L2 , so gilt P (|X − E(X)| ≥ a) ≤ E(X) a V(X) a2 (Markov-Ungleichung). (Chebyshev-Ungleichung). Beweis: (a) Um eine Wahrscheinlichkeit gegen einen Erwartungswert abschätzen zu können, müssen wir zunächst eine Zufallsvariable gegen eine Indikatorfunktion abschätzen. Hier ist X ≥ a1{X≥a} , denn ist X < a, so ist die rechte Seite 0 und die linke ≥ 0. Ist X ≥ a, so ist die rechte Seite a und die linke ≥ a. Wegen der Monotonie der Erwartung folgt E(X) ≥ E(a1{X≥a} ) = aE(1{X≥a} ) = aP (X ≥ a). 6.1 Gesetz der großen Zahl 44 (b) Durch Anwendung von (a) auf Y := (X − E(X))2 ≥ 0 (Y ∈ L1 ) erhält man P (|X − E(X)| ≥ a) = P (Y ≥ a2 ) ≤ E(Y ) V(X) = . 2 a a2 Satz: (Schwaches Gesetz der großen Zahl.) Sind X1 , X2 ... unabhängig, mit gleicher Verteilung und mit Xi ∈ L2 , so gilt X1 + ... + Xn → E(Xi ) stochastisch n für n → ∞. Beweis: Sei m = E(Xi ), v = V(Xi ). (Wegen der gleichen Verteilung ergeben sich gleiche Erwartungswerte und gleiche Varianzen.) Es gilt E und X + ... + X 1 X 1 1X 1 n E(Xi ) = nm = m = E( Xi ) = n n n i n i X + ... + X 1 X 1 X 1 v 1 n V = 2 V( Xi ) = 2 V(Xi ) = 2 nv = . n n n i n n i Sei > 0, so folgt aus der Ungleichung von Chebyshev: X + ... + X v/n 1 n P − m > ≤ 2 → 0. n 6.1.2 Starkes Gesetz der großen Zahl Definition: (Fast sichere Konvergenz.) Seien Yn , Y : Ω → R reelle Zufallsvariablen. Wir schreiben Yn → Y fast sicher (oder f.s.), falls P (Yn → Y ) = 1. Bemerkung: Dies kann man folgendermaßen Interpretieren: Für praktisch jede Beobachtung ω gilt: Yn (ω) → Y (ω). Es gibt zwar Ausnahmen, aber diese haben Wahrscheinlichkeit 0. Satz: (Starkes Gesetz der großen Zahl.) Sind X1 , X2 ... unabhängig, mit gleicher Verteilung und mit Xi ∈ L1 , so gilt X1 + ... + Xn → E(Xi ) fast sicher n Beweis: probability theory für n → ∞. Das starke Gesetz der großen Zahl ist tatsächlich “stärker” als das schwache, da es dieses impliziert. Um sich davon zu überzeugen, genügt es nachzuprüfen, dass fast sichere Konvergenz stochastische Konvergenz impliziert: 6.1 Gesetz der großen Zahl 45 Lemma: Seien Yn , Y : Ω → R reelle Zufallsvariablen. Yn → Y fast sicher ⇒ Yn → Y stochastisch. Beweis: Sei > 0. Es gilt {|Yn − Y | > } ⊂ {∃n0 ≥ n : |Yn0 − Y | > } =: An ↓ A := \ An n mit A = {∀n∃n0 ≥ n : |Yn0 − Y | > } ⊂ {Yn 6→ Y }. Gilt nun Yn → Y fast sicher, so folgt P (A) = 0, und mit der σ-Stetigkeit von P folgt P (An ) → 0. Es folgt Yn → Y stochastisch. Bemerkung: • Zu beiden Gesetzen gibt es Verallgemeinerungen, z.B. auf den Fall, dass die Xn nicht mehr unabhängig sind oder nicht mehr die gleiche Verteilung haben. • Das schwache GgZ trifft eine Aussage für das Verhalten nach endlicher Zeit n, dafür hat die Ausnahmemenge (zwar kleine) aber doch positive Wahrscheinlichkeit, genauer gilt: V(X ) X + ... + X 1 i n − E(Xi ) > ≤ . P 2 n n Man kann also abschätzen, wie nahe man beim Erwartungswert nach n Experimenten liegt. Das schwache Gesetz ist daher vor allem für die Praxis interessant. • Das starke GgZ trifft eine Aussage für das Verhalten nach “unendlicher”, d.h. beliebig langer Zeit, dafür hat die Ausnahmemenge Wahrscheinlichkeit 0. Das starke Gesetz ist daher eher theoretisch interessant. • Beide Konvergenztypen von Zufallsvariablen haben viele der Eigenschaften der normalen Konvergenz von reellen Zahlen, z.B. gilt für reelle Zufallsvariablen Xn , Yn , X, Y mit Xn → X, Yn → Y , reelle Zahlen cn , c mit cn → c und eine stetige Funktion h : R → R auch Xn + Yn → X + Y, cn Xn → cX und h(Xn ) → h(X). 6.2 Zentraler Grenzwertsatz 6.2 46 Zentraler Grenzwertsatz Die Normalverteilung taucht in der Praxis in vielen verschiedenen Zusammenhängen auf. Immer dann wenn ein zufälliger Wert S das Resultat vieler kleiner zufälliger Bestandteile ist, ist S ungefähr normalverteilt. Zur Motivation des folgenden Satzes betrachten wir Sn ∼ Bin n,p . Sn kann interpretiert werden als die Anzahl der Erfolge bis zum Zeitpunkt n in einem Bernoulliprozess Xi , i ≥ 1, mit Erfolgswahrscheinlichkeit p. Sn = X1 + ... + Xn ist das Resultat vieler kleiner n −E(Sn ) = √Sn −np ungefähr N0,1 -verteilt sein. Was Bestandteile, daher sollte Sn∗ = S√ V(Sn ) np(1−p) bedeutet das für die Zähldichte? Ein möglicher Wert von Sn∗ ist von der Form kn∗ = √kn −np np(1−p) mögliche Werte haben den Abstand √ 1 . np(1−p) mit kn ∈ {0, 1, ...n}. Zwei Um die diskrete Verteilung von Sn∗ und die stetige Standard-Normalverteilung überhaupt vergleichen zu können muss man die Punktmasse von Sn∗ also mit der Masse der Normalverteilung auf einem Intervall der vergleichen. Wir erwarten demnach, dass für große n Länge √ 1 np(1−p) P (Sn = kn ) = P (Sn∗ = kn∗ ) Z ∗+ √ kn 2 ≈ ∗− √ kn 2 1 np(1−p) 1 np(1−p) 1 ϕ(kn∗ ). ϕ(x)dx ≈ p np(1 − p) Satz: (Grenzwertsatz von deMoivre-Laplace.) Seien Sn ∼ Bin n,p und a, b ∈ R. (a) Für beliebige Folgen kn ∈ {0, ..., n} mit kn∗ ∈ [a, b] gilt ϕ(kn∗ ) p →1 np(1 − p)P (Sn = kn ) für n → ∞, und zwar sogar gleichmäßig für alle solchen Folgen. (b) Es gilt P (a ≤ Sn∗ Z ≤ b) → b ϕ(x)dx = Φ(b) − Φ(a). a Beweis: −. Den Grenzwert in (a) erhält man durch Anwenden der Stirling-Formel für n! und anschließende geeignete Taylor-Approximation. (b) folgt aus (a) durch aufsummieren der Wahrscheinlichkeiten. Bemerkung: • (a) heißt “lokale Normalapproximation” und kann verwendet werden zur Annäherung von Wahrscheinlichkeiten der Form P (Sn = k). • (b) heißt “Normalapproximation” und kann verwendet werden zur Annäherung von Wahrscheinlichkeiten der Form P (a0 ≤ Sn ≤ b0 ). 6.2 Zentraler Grenzwertsatz 47 Für die Konvergenz in (b) genügt FSn∗ (c) → Φ(c) für alle c ∈ R, denn dann folgt P (a < Sn∗ ≤ b) = FSn∗ (b) − FSn∗ (a) → Φ(b) − Φ(a). Dies motiviert den folgenden Konvergenzbegriff: Definition: (Verteilungskonvergenz.) Seien Yn , Y reelle Zufallsvariablen. Man schreibt d Yn → Y in Verteilung (oder Yn →Y ), wenn FYn (c) → FY (c) für alle Stetigkeitsstellen c von FY . Bemerkung: Die Verteilungsfunktion Φ der Standard-Normalverteilung ist überall stetig, daher muss dann obige Konvergenz für alle c ∈ R gelten. Obige Definition über die Verteilungsfunktion ist für viele Zwecke praktisch. Für unsere Zwecke ist es aber einfacher, mit momentenerzeugenden Funktionen zu argumentieren: Lemma: Seien Yn , Y reelle Zufallsvariablen, deren momentenerzeugende Funktionen existieren. Falls MYn (t) → MY (t) für alle t ∈ R, so gilt Yn → Y in Verteilung. Beweis: −. Satz: (Zentraler Grenzwertsatz.) Sind X1 , X2 , ... ∈ L2 unabhängig, mit gleicher Verteilung und m := E(Xi ), v := V(Xi ) > 0, so gilt für Sn := X1 + ... + Xn : X1 + ... + Xn − nm Sn − E(Sn ) √ = → N0,1 Sn∗ = p nv V(Sn ) in Verteilung. Beweis: (Für den Fall, dass Xi eine Momentenerzeugende Funktion besitzt.) Wir i −m betrachten die Standardisierungen Xi∗ = X√ . Es ist dann v Sn∗ = X ∗ + ... + Xn∗ X1 + ... + Xn − nm √ = 1 √ nv n und E(Xi∗ ) = 0 und V(Xi∗ ) = 1. Die momentenerzeugende Funktion von Sn∗ ist daher X1∗ +...+Xn∗ ∗ t ∗ t ∗ t √ X1 √n X √ X √ t Xn∗ √tn n ∗ MSn (t) = E e =E e · ... · e = E e 1 n ...E e n n , wegen der Unabhängigkeit der Zufallsvariablen. Die Erwartungen im letzten Term sind gerade MXi∗ ( √tn ), und da die Xi die gleiche Verteilung haben, sind diese momentenerzeugenden Funktionen alle gleich. Nach Taylorentwicklung ist für festes t t t 1 t t MXi∗ ( √ ) = MXi∗ (0) + MX0 i∗ (0) √ + MX00 i∗ (0)( √ )2 + o(( √ )2 ) n n 2 n n t 1 t 1 t2 1 = 1 + E(Xi∗ ) √ + E((Xi∗ )2 )( √ )2 + o( ) = 1 + + o( ). n 2n n n 2 n Es folgt t2 1 n 2 MSn∗ (t) = 1 + + o( ) → et /2 . 2n n Dies ist aber gerade die momentenerzeugende Funktion der Standard-Normalverteilung. Mit dem Lemma folgt daher die Behauptung.