c 2002 Stefan Meyer ° [email protected] Version 0.13 vom 17. Juli 2002 Die aktuellste Version des Skripts gibt’s auf der Lehrämtler-Homepage www.trepsilon.de. Wer Tipp- oder sonstige Fehler findet, von denen es sicherlich einige im Skript gibt, kann mir diese gerne mitteilen. Dieses Skript bezieht sich auf die Vorlesung Stochastik I“, die PD Dr. Eva Herrmann im Wintersemester ” 2001/2002 an der Universität Bayreuth hielt. Das Dokument wurde in LATEX gesetzt, und die Bilder mit METAPOST erzeugt. Stochastik I PD Dr. Eva Herrmann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 6 12 14 Zufallsvariablen auf endlichen Wahrscheinlichkeitsräumen . . . . . . . . . . . . . . Grenzwertsätze zur Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . Zufallsvariablen und ihre Verteilungen auf allgemeinen Wahrscheinlichkeitsräumen Einführung in die Integrationstheorie . . . . . . . . . . . . . . . . . . . . . . . . . Transformationsformeln und Stichprobentheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 23 27 32 40 Null-Eins-Gesetze . . . . . . . . . . Gesetze der großen Zahlen . . . . . Die empirische Verteilungsfunktion Verteilungskonvergenz und zentraler . . . . . . . . . . . . . . . . . . . . . . . . . . . Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 53 57 57 65 66 67 Wichtige diskrete Zufallsgrößen . . . . . . . . . Wichtige stetige Zufallsgrößen . . . . . . . . . . Übersicht und Implikationen der Konvergenzen Nützliches aus den Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 69 70 70 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Abbildungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 A.1. A.2. A.3. A.4. Anhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4.1. Einfache Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Testen zusammengesetzter Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Ergänzende Beweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Testen statistischer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.1. 3.2. 3.3. 3.4. 3. Allgemeine Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.1. 2.2. 2.3. 2.4. 2.5. 2. Endliche Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Heuristische Wahrscheinlichkeitsbegriffe . . Maßräume . . . . . . . . . . . . . . . . . . Elementare bedingte Wahrscheinlichkeiten Stochastische Unabhängigkeit . . . . . . . 4 1. Grundlegendes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1. 1.2. 1.3. 1.4. 3 0. Einführung in die Stochastik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inhaltsverzeichnis 2 0. Einführung in die Stochastik Gesetzmäßigkeiten des Zufalls“ sind der Gegenstand der Wahrscheinlichkeitstheorie, die bestimmten ” Ergebnissen“ Gewichtungen, nämlich Wahrscheinlichkeiten“, zuordnet. Daher orientiert man sich an ” ” dem Verhalten von relativen Häufigkeiten“, subjektiven Wahrscheinlichkeiten“ und an Regeln für Wahr” ” scheinlichkeiten bei Glücksspielen, die sich aus Symmetrieeigenschaften bestimmen. In einem konkreten Anwendungsfall bleibt die Entscheidung nicht kontrollierbar, man kann jedoch Vertrauen in die Entscheidung haben, wenn das Verfahren optimal“ ist. ” Ob dann ein echter“, reiner“ Zufall oder nur eine undurchschaubare Ursache-Wirkungsbeziehung vor” ” liegt, ist nicht wichtig, solange die angenommenen Gesetzmäßigkeiten ein gutes (in der Regel idealisiertes) Modell bilden. In der mathematischen Statistik wird deshalb ein bestimmtes Vorgehen angewendet: Man setzt voraus, daß der Zufall bestimmen Gesetzmäßigkeiten folgt und bewertet nicht eine einzelne Entscheidung, sondern das Entscheidungsverfahren an sich. Anhand der angenommenen Gesetzmäßigkeiten kann man verschiedene Verfahren vergleichen, sie bewerten und optimieren. Gesucht sind Entscheidungen, qualitative Aussagen zu zufälligen“ Datensätzen. Es liegt in der Natur ” des Zufalls“, daß man dabei in einem Anwendungsfall immer auch eine falsche Entscheidung treffen ” kann. Ausgangspunkt der Statistik sind konkrete Anwendungsprobleme, die Erhebung und Auswertung von Datensätzen. Neben der rein deskriptiven Beschreibung von Datensätzen (z.B. Notenspiegel einer Klausur, Durchschnittsnote) stellen sich schnell Fragestellungen: War ein Jahrgang besser oder läßt sich ein etwas besserer Durchschnitt durch zufällige Schwankungen erklären? Bietet ein neues Medikament mit Nebenwirkungen die gleichen Heilungschancen? Was ist ein fairer Preis für ein Wertpapier? Wieviele Wahlzettel muß ich für eine gute Prognose des Wahlergebnisses auswerten? Die Stochastik setzt sich aus der Statistik und der Wahrscheinlichkeitstheorie zusammen. 0. Einführung in die Stochastik 3 4 3 6 = 1 2 1 Pierre Laplace (1749-1827) b) Ω habe n Elemente, dann gibt es n! = n · (n − 1) · . . . · 1 Möglichkeiten, alle Elemente anzuordnen. Beispiel: Es gibt 8! verschiedene Möglichkeiten, 8 Personen auf 8 verschiedene Plätze anzuordnen. a) Ergebnismenge Ω = Ω1 × . . . × Ωk , Ωi mit ni Elementen (i = 1, . . . , k). Dann besitzt Ω insgesamt n = n1 · . . . · nk Elemente. Beispiel: Kartenspiel mit 32 Karten, es wird 10mal eine Karte gezogen (mit Zurücklegen). Dann gibt es 3210 Möglichkeiten, Karten auszuwählen, wenn die Reihenfolge der Züge mitberücksichtigt wird. 1.1.4. Einige Grundregeln der Kombinatorik Anzahl der günstigen“ P (A) = ” Anzahl der möglichen“ ” Allgemein: Es gibt n verschiedene und aus Symmetriegründen gleichwahrscheinliche Ergebnisse, wobei ein Ereignis A von diesen n Ergebnissen genau k ∈ {0, . . . , n} enthält. Dann gilt: P (A) = nk . In Worten: c) Roulette 37 Ergebnisse: 0, . . . , 36 1 P ({i}) = 37 für i = 0, . . . , 36 b) Würfel werfen 6 Ergebnisse: 1, 2, 3, 4, 5 oder 6 P ({1}) = . . . = P ({6}) = 16 und auch P ({1, 2, 3}) = a) Münze werfen 2 Ergebnisse: Zahl oder Kopf P ({Kopf}) = P ({Zahl}) = 12 Beispiele: Bei Glücksspielen und ähnlichen Problemen kann man aus Symmetriegründen Wahrscheinlichkeiten zuordnen. 1.1.3. Laplace-Wahrscheinlichkeit1 Auch ohne konkrete Meßreihe kann man eine Vorstellung davon besitzen, mit welchen relativen Häufigkeiten man bei einem Experiment rechnen würde. 1.1.2. Subjektive Wahrscheinlichkeit Beispiel: n = 5, Meßreihe: 2.1, 4.8, 5.1, 6.3, 3.8 A: Ereignis, daß eine Zahl kleiner als 4 auftritt, A = (−∞, 4). Die relative Häufigkeit von A ist hn (A) = 2 5. Ein Zufallsexperiment wird n-mal durchgeführt (n ≥ 1), und wir erhalten eine Meßreihe von Ergeb” nissen“ x1 , . . . , xn . Unter einem Ereignis verstehen wir zunächst einen konkreten Zahlenwert oder eine Menge von Zahlenwerten (möglichen Ergebnissen), also eine Eigenschaft zu diesen Zahlenwerten. Dann zählen wir, wieviele der Meßwerte mit diesem bestimmten Zahlenwert übereinstimmen bzw. die Eigenschaft erfüllen, sagen wir k-mal (0 ≤ k ≤ n). Die relative Häufigkeit des Ereignisses ist hn = nk . 1.1.1. Relative Häufigkeit 1.1. Heuristische Wahrscheinlichkeitsbegriffe 1. Grundlegendes 1. Grundlegendes 1. Grundlegendes ki günstige im i-ten Zug“ = ” mögliche im i-ten Zug“ ni ” i=1 K Y p(Ai ) = k1 · . . . · k K . n1 · . . . · n K also p(B1 ∩ . . . ∩ Bk ) = i=1 k Y i=1 p(Bi ). p(A) = k Y a) Es muß immer genau überlegt werden, welche Ergebnisse gleich wahrscheinlich sind. Beispiel: Würfeln mit 2 nicht unterscheidbaren Würfeln. Es gibt 21 verschiedene Ergebnisse, aber 1 die Wahrscheinlichkeit für A = {(1, 1)} ist dennoch 36 , wie bei unterscheidbaren Würfeln. =:Bi p(Ω1 × . . . × Ωi−1 × Ai × Ωi+1 × . . . × Ωk ), | {z } Allgemein: Ω = Ω1 ×. . .×Ωk mit k endlichen Mengen Ω1 , . . . , Ωk . Sei A ⊂ Ω mit A = A1 ×. . .×Ak , Ai ⊂ Ωi . Dann folgt: p(A) = auf. Die Wahrscheinlichkeit, daß alle Ereignisse eintreffen (A), ergibt sich aus p(Ai ) = c) Es gilt auch eine Produktregel für Laplace-Wahrscheinlichkeiten. Beispiel: Ein Glücksspiel bestehe aus K Spielzügen: Jedesmal tritt ein Ereignis Ai mit b) p(A) = p(A1 ) + p(A2 ), falls A = A1 ∪ A2 und A1 ∩ A2 = ∅. a) 0 ≤ p(A) ≤ 1. Bei Laplace-Wahrscheinlichkeiten (relativen Häufigkeiten, empirischen Wahrscheinlichkeiten) gilt für ein Ereignis: d) Ω habe n Elemente, dann gibt es µ ¶ n! n = verschiedene Möglichkeiten, k Elemente aus k (n − k)! · k! n auszuwählen. (Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge) Beispiel: In einer Tüte sind M rote und N − M andersfarbige Gummibärchen. Man zieht ohne Reinzusehen n-mal (0 ≤ n ≤ N ). Wie groß ist die Wahrscheinlichkeit, daß man dabei genau k µ ¶ N (0 ≤ k ≤ M, n) rote Gummibärchen zieht? Laplace-Annahme: Es gibt genau gleichwahrn µ ¶µ ¶ M N −M scheinliche Möglichkeiten, n Bärchen zu ziehen und Möglichkeiten, daß k rote k n−k Gummibärchen dabei sind. Insgesamt gilt: µ ¶µ ¶ M N −M k n−k µ ¶ . p= N n n! c) Ω habe n Elemente, dann gibt es n · (n − 1) · . . . · (n − k + 1) = (n−k)! verschiedene Möglichkeiten, eine Anordnung von k verschiedenen Elementen zu finden (0 ≤ k ≤ n). n! viele Möglichkeiten, k Studenten auf n Plätze zu verteilen. Beispiel: Es gibt (n−k)! 1.1.5. Probleme bei Laplace-Wahrscheinlichkeiten 5 6 ⇒ A1 ∪ A2 ∈ A. A ∈ A, ⇒ A1 , A 2 ∈ A ⇒ (A1 ∪ A2 ) = A1 ∩ A2 ∈ A. b) Für eine Algebra A folgt auch die Abgeschlossenheit gegenüber endlichen Schnitten: a) Aus Eigenschaft c) der Definition folgt die Abgeschlossenheit von A bezüglich endlicher Vereinigungen. Bemerkung 1: c) A1 , A2 ∈ A a) Ω ∈ A, b) A ∈ A Definition 1 (Mengenalgebra): Sei Ω eine Menge, A ⊂ 2Ω ein System von Teilmengen von Ω. A heißt (Mengen-)Algebra auf Ω, falls i∈I d) 2Ω ist abgeschlossen gegenüber beliebigen Vereinigungen: Sei I eine beliebige Indexmenge und [ Ai ∈ 2Ω . (Manchmal ist jedoch 2Ω zu komplex.) Ai ∈ 2Ω für alle i ∈ I, dann folgt: b) ∅ ∈ 2Ω und Ω ∈ 2Ω , d.h. beide extremen“ Teilmengen sind in der Potenzmenge enthalten. ” c) Aus A ∈ 2Ω folgt A = Ω \ A ∈ 2Ω , d.h. die Potenzmenge ist abgeschlossen gegenüber Komplementbildung. a) Für endliche Mengen Ω mit k Elementen hat 2Ω genau 2k viele Elemente. Beispiel: Potenzmenge 2Ω , die Menge aller Teilmengen von Ω. Eigenschaften der Potenzmenge: Sei Ω eine beliebige Menge. Wenn Ω die Ergebnismenge eines Zufallsexperiments beschreibt, werden wir nun überlegen, welche Teilmengen von Ω Wahrscheinlichkeiten“ zugeordnet werden sollen. ” 1.2.1. σ-Algebren 1.2. Maßräume • Man verbindet die Wahrscheinlichkeitstheorie mit der Maßtheorie. • Es wird keine allgemeine Additivität vorausgesetzt. • Die Wahrscheinlichkeiten werden nicht für alle Teilmengen definiert. Um diese Probleme zu lösen, verwendet man folgende Lösungsstrategien: c) Es lassen sich nicht immer allen Teilmengen Wahrscheinlichkeiten zuordnen. Beispiel: p([b − a]) = b − a für 0 ≤ a ≤ b ≤ 1. Dann gibt es für einige E ⊂ [0, 1] keine widerspruchsfreie“ Definitionen von p(E) mehr (Beweis später). ” b) Übertragung auf stetige“ Situationen ist problematisch. ” Beispiel: Beim Glücksrad (r = 1 m) ist die Wahrscheinlichkeit, daß der Zeiger in einem Kreissegment anhält: Bogenlänge des Segments p(Segment) = . 2π Im Grenzfall gilt für jede Halbsehne p(x) = 0, aber für ein Segment mit Bogenlänge > 0 gilt: p(A) > 0. 1. Grundlegendes 7 ⇒ ⇒ A ∈ A, n∈N [ An ∈ A. Sei Ω eine Menge, A ⊂ 2Ω ein System von Teilmengen von Ω. A heißt 0 \ A ist σ−Algebra auf Ω, die E umfaßt A. Dann ist σ(E) eine σ-Algebra, E ⊂ σ(E). σ(E) ist eindeutig bestimmt. σ(E) := Beweis: Mit 2Ω existiert eine σ-Algebra, die E umfaßt. Sei nun Satz 1: Seien Ω eine Menge und E ein System von Teilmengen von Ω. Dann gibt es eine kleinste E umfassende σ-Algebra σ(E) auf Ω, die von E erzeugte σ-Algebra (E ist Erzeugendensystem von σ(E)). eine σ-Algebra auf Ω. c) Seien Ω und Ω0 Mengen und A0 eine σ-Algebra auf Ω0 , sowie T : Ω → Ω0 eine Abbildung von Ω nach Ω0 . Dann ist T −1 (A0 ) := {T −1 (A0 ) | A0 ∈ A} eine σ-Algebra auf Ω0 (gilt auch für Ω0 ∈ / A). A0 heißt Spur von A auf Ω0 . A0 := Ω0 ∩ A := {Ω0 ∩ A | A ∈ A} b) Sei A eine σ-Algebra auf Ω und Ω ⊂ Ω. Dann ist a) 2Ω ist die größte σ-Algebra auf Ω, A = {Ω, ∅} die kleinste. Beispiele für σ-Algebren: a) Es ist ∅ ∈ A und Ω ∈ A. b) A ∈ A ⇒ A ∈ A. c) Additivität: Seien A1 , A2 ∈ A. Sind A1 und A2 endlich, folgt: A1 ∪ A2 ∈ A. Ist A1 unendlich, dann ist A1 endlich und ebenso A1 ∪ A2 = A1 ∩ A2 ⊂ A1 ∈ A, also ist A eine Algebra. Ist Ω endlich, so ist A = 2Ω auch eine σ-Algebra. Ist Ω unendlich, so existiert eine Folge S (ωn )n∈N ⊂ Ω von verschiedenen Elementen. Also ist {ωn } ∈ A für alle n ∈ N und somit A = n∈N {ω2n } ∈ / A, S da weder A noch A ⊃ n∈N {ω2n−1 } endlich ist. Somit ist A keine σ-Algebra. Beweis: Bemerkung 2: Ist Ω eine Menge, so kann es sein, daß ein Mengensystem A eine Algebra, aber keine σ-Algebra auf Ω ist. Sei zum Beispiel A = {A ⊂ Ω | A oder A ist endlich}. Für A gilt: A ist eine Algebra. A ist genau dann eine σ-Algebra, wenn Ω endlich ist. d) ω ∈ Ω Ergebnisse oder Elementarereignisse. c) A ∈ A Ereignisse und b) Ω Ergebnismenge, a) (Ω, A) einen meßbaren Raum, Bezeichnungen: Ist A eine σ-Algebra auf Ω, so nennen wir c) {An }n∈N ⊂ A b) A ∈ A a) Ω ∈ A, Definition 2 (σ-Algebra): σ-Algebra auf Ω, falls gilt: 1. Grundlegendes i = 1, . . . , d ª 8 i=1 4 Paul n∈N Borel (1871-1956) Kolmogoroff (1903-1987) Dirac (1902-1984) 3 Andrey 2 Emile n∈N xn ∈A c) Abzählbarer Wahrscheinlichkeitsraum Sei Ω = {xn }n∈N eine abzählbare Menge mit xn 6= xm für n 6= m, A = 2Ω , und sei {pn }n∈N eine ∞ X reelle Folge mit 0 ≤ pn ≤ 1 für n ∈ N und pn = 1. Dann ist P mit P ({xn }) = pn für n ∈ N und n=1 X X pn = pn Ixn (A) ein Wahrscheinlichkeitsmaß auf (Ω, A). P (A) = als Einpunktmaß oder Diracmaß 4 bezeichnet. Übrigens gilt Iω (A) = IA (ω), wenn IA : Ω → {0, 1} die Indikatorfunktion von A bezeichnet (,→ Übung). b) Sei Ω eine beliebige nicht-leere Menge und A eine σ-Algebra auf Ω. Für ω ∈ Ω wird Iω mit ½ 1 falls ω ∈ A Iω (A) = 0 sonst a) Laplace-Wahrscheinlichkeiten Sei Ω = {1, . . . , k} und A = 2Ω . Dann ist P mit P ({i}) = k1 für i = 1, . . . , k und P (A) = #A k für alle A ∈ A. P ist ein Wahrscheinlichkeitsmaß auf (Ω, A). Zum Beispiel ein Münzwurf: Ω = {1, 2}, 1 1 A = {∅, {1}, {2}, {1, 2}} mit den Wahrscheinlichkeiten P (∅) = 0, P ({1}) = 2 , P ({2}) = 2 und P ({1, 2}) = 1. Das Maß µ mit µ(A) = #A nennt man Zählmaß. Beispiele: Diese Eigenschaften eines Wahrscheinlichkeitsraums werden auch als Kolmogoroffsche Axiome 3 bezeichnet. Ist µ ein Maß auf (Ω, A), so heißt (Ω, A, µ) Maßraum. P ist ein Wahrscheinlichkeitsmaß auf (Ω, A), falls P ein Maß auf (Ω, A) mit P (Ω) = 1 ist. Dann heißt (Ω, A, P ) ein Wahrscheinlichkeitsraum. i=1 b) µ(∅) = 0 und Ã∞ ! ∞ [ X c) µ Ai = µ(Ai ) für alle Folgen {An }n∈N paarweise disjunkter Mengen aus A (σ-Additivität). a) µ(A) ≥ 0 für alle A ∈ A, Definition: Es sei (Ω, A) ein meßbarer Raum. Ein Maß auf (Ω, A) ist eine Abbildung µ : A → R ∪ {∞} mit den Eigenschaften 1.2.2. Wahrscheinlichkeitsmaße Beweis: Siehe Bauer, Seite 33/34. Bemerkung 3: Es seien Od , Cd , Kd die Systeme aller offenen, abgeschlossenen bzw. kompakten Teilmengen von Rd . Dann ist Bd = σ(Od ) = σ(Cd ) = σ(Kd ). die Menge aller halboffenen Quader von Rd . Dann heißt Bd = σ(I d ) Borelsche σ-Algebra auf Rd . Beispiel (Borelsche2 σ-Algebra): Es sei ¯ © I d := [a1 , b1 ) × . . . × [ad , bd ) ¯ − ∞ < ai ≤ bi < ∞, 1. Grundlegendes ⇒ ⇒ µ à i=1 n [ Ai ! = i=1 n X µ(Ai ). µ(B \ A) = µ(B) − µ(A). µ(A) ≤ µ(B). ⇒ 1. Grundlegendes n→∞ à i=1 n [ ≤ =µ ! ! n∈N [ An à i=1 Ai ! = µ(An ). Ã∞ [ n∈N X i=1 ∞ X µ(Ai ) = i=1 n X µ(Ai ). n=1 n=1 n=1 n=1 b) (siehe c)) c) B = A ∪ (B \ A). Dann folgt: µ(B) = µ(A ∪ (B \ A)) = µ(A) + µ(B \ A) ≥ µ(A). Falls µ(A) < ∞, so gilt: µ(B) − µ(A) = µ(B \ A). d) Der erste Teil folgt aus c). Setze B = Ω, dann folgt p(B) = 1 und damit der zweite Teil. e) (,→ Übung) ! à ∞ ∞ [ [ [ Ai für n > 1 und sei B1 = A1 . Dann folgt: An = Bn . Da die Bn f) Setze Bn = An \ n=1 n=1 i<n ! Ã∞ ! Ã∞ ∞ ∞ [ [ X X paarweise disjunkt sind, folgt: µ An = µ Bn = µ(Bn ) ≤ µ(An ). a) Setze Am = ∅ für m > n, so folgt: µ Beweis: Sei {An }n∈N eine beliebige Folge, so gilt: µ f) Sub-σ-Additivität n∈N e) Ist {An }Ãn∈N ⊂ A! eine aufsteigende Folge von Mengen aus A, d.h. An ⊂ An+1 für alle n ∈ N, so [ An = lim µ(An ). folgt: µ i) p(B \ A) = p(B) − p(A). ii) 0 ≤ p(A) ≤ 1. iii) p(A) = 1 − p(A). d) Falls µ = p ein Wahrscheinlichkeitsmaß auf (Ω, A) ist, dann folgt aus A, B ∈ A, A ⊂ B: c) A, B ∈ A, A ⊂ B, µ(A) < ∞ b) Isotonie: A, B ∈ A, A ⊂ B A1 , . . . , An ∈ A paarweise disjunkt a) Endliche Additivität Satz 2: Sei (Ω, A, µ) ein Maßraum. Dann gilt: n=1 Beweis: Siehe Bauer, Maß- und Integrationstheorie, Satz 5.6. Dann existiert ein eindeutiges Maß µ e auf (Ω, σ(A)) mit µ e(A) = µ(A) für alle A ∈ A. n=1 b) µ sei σ-additiv, d.h. für Folgen {An }n∈N ⊂ A, die paarweise disjunkt sind, und für ! Ã∞ ∞ [ X An = µ(An ). µ a) µ(A) ≥ 0 für alle A ∈ A. n∈N [ An ⊂ A gilt: Satz 3: Sei Ω ein Ergebnisraum (oder Ereignisraum) und A eine Algebra auf Ω. Außerdem sei µ : A → R ∪ {∞} eine Mengenfunktion auf A mit folgenden Eigenschaften: In diesem Abschnitt wird gezeigt, daß sich ein Wahrscheinlichkeitsmaß bereits durch Festlegung von Wahrscheinlichkeiten auf einzelnen, überschaubaren Mengensystemen auf den gesamten Raum (Ω, Bd ) eindeutig festlegen läßt. 1.2.3. Festlegung eines Wahrscheinlichkeitsmaßes auf dem Maßraum R d , Ld 9 i=1 k [ Ai ! = i=1 µ(Ai ). i=1 k X n=1 ∞ [ µ(Ai ).6 An auch A1 ⊂ A2 ⊂ . . . ⊂ A und A ∈ Bd0 gilt, so i=1 n X n→∞ i=1 n X i=1 µ(Ai ). Somit läßt sich Satz 3 anwenden. i=1 d Y (bi − ai ) 7 Henri 6 Diese 5 Folgt bereits, wenn es für alle A ∈ I d erfüllt ist. Bedingung ist bereits erfüllt, wenn sie für disjunkte Mengen A1 , . . . , An ∈ I d gilt. Lebesgue (1875-1941) Das Lebesque-Maß liefert eine natürliche Beschreibung des Flächeninhaltes“ auf Bd . Auf I d und Bd0 ist ” es offensichtlich translationsinvariant. Diese Eigenschaft läßt sich auch für Bd nachweisen. für −∞ < ai ≤ bi ≤ ∞ (i = 1, . . . , n) heißt d-dimensionales Lebesgue-Maß. λd ([a1 , b1 ) × . . . , ×[ad , bd )) = Definition (Lebesgue-Maß7 ): Das eindeutig bestimmte Maß λd auf (Rd , Bd ) mit n→∞ n ∈ N. Dann gilt nach c): µ(A) = lim µ(Bn ) = lim b) Beweis: Bd0 ist eine Algebra. Falls auch die σ-Additivität erfüllt ist, läßt sich Satz 3 anwenden. Wir n [ zeigen also die σ-Additivität: {An }n∈N ⊂ Bd0 sind paarweise disjunkt und Bn = Ai ∈ Bd0 für alle e(A) für alle A ∈ Bd0 . Dann existiert ein eindeutig bestimmtes Maß µ e auf (Rd , Bd ) mit µ(A) = µ n→∞ folgt: lim µ(An ) = µ(A). c) Falls für eine Folge {An }n∈N ∈ Bd0 mit A = b) Für disjunkte Teilmengen A1 , . . . , An ∈ Bd0 gilt: µ(A1 ∪ . . . ∪ An ) = a) µ(A) ≥ 0 für alle A ∈ Bd0 .5 Satz 5: Sei µ eine Mengenfunktion auf Bd0 mit folgenden Eigenschaften: a) Rd = (−∞, ∞) × . . . × (−∞, ∞) ∈ Bd0 . b) A ∈ Bd0 ⇒ A ∈ Bd0 . Sn c) A1 , . . . , An ∈ Bd0 , dann folgt k=1 Ai ∈ Bd0 sofort, da man jede Vereinigung von Quadern als Vereinigung von disjunkten Quadern schreiben kann, und jede endliche Vereinigung von endlichen Vereinigungen wieder eine endliche Vereinigung ist. Beweis: Lemma 4: Bd0 ist eine Algebra auf Rd . fortsetzt: µ à festgelegt wird. Zunächst ist klar, wie sich die Mengenfunktion (additiv) auf ( k ) [ Bd0 = Ai | Ai ∈ I d , A1 , . . . , An paarweise disjunkt für k ∈ N 10 Nun betrachten wir die Fortsetzung einer Mengenfunktion zu einem Maß auf (R d , Bd ), wenn sie zunächst nur auf ¯ © ª I d := [a1 , b1 ) × . . . × [ad , bd ) ¯ − ∞ ≤ ai ≤ bi ≤ ∞, i = 1, . . . , d Bemerkung: σ-Additivität einer solchen Mengenfunktion folgt nicht aus endlicher Additivität. 1. Grundlegendes 11 8 Friedrich Gauß (1777-1855) e f (x) = √ 2πσ 2 1 − 12 ( x−µ σ ) 2 Abbildung 1: Exponentialverteilung (Verteilungsfunktion) b) Normal- oder Gaußverteilung Für die Gaußsche Glockenkurve f : R → R mit 8 Carl für t ≥ 0. Es gilt dann auch: P ([t0 , t1 ]) = F (t1 ) − F (t0 ) = e−λt0 − e−λt1 für 0 ≤ t0 ≤ t1 . P ([0, t]) = P ((−∞, t]) = 1 − e−λt = F (t) a) Exponentialverteilung Die Lebensdauer eines technischen Bauteils, zum Beispiel einer Glühbirne, kann oft gut durch eine Exponentialverteilung beschrieben werden: Beispiele: Die genauen Eigenschaften, die eine Verteilungsfunktion besitzt, werden wir später charakterisieren. b) P ([a, b)) = P ((−∞, b)) − P ((−∞, a)) für alle a, b ∈ R mit a ≤ b. a→b a<b a) P ((−∞, b)) = lim F (a) = F (b−), Nach Satz 4 kann eine Verteilung durch Angabe der Wahrscheinlichkeiten auf I 1 eindeutig festgelegt werden, sogar durch Angabe einer Funktion F : R → [0, 1] mit F (x) = P ((−∞, x]), einer Verteilungsfunktion des Wahrscheinlichkeitsmaßes P auf (R, B). Es gilt: Definition 5: Gegeben sei der meßbare Raum (R, B). Ein Wahrscheinlichkeitsmaß auf (R, B) bezeichnen wir auch als (Wahrscheinlichkeits)-Verteilung. für alle r1 , r2 ∈ Q mit |r1 | < 1 und |r2 | < 1, gilt λ(E + r1 ) = 0 und damit λ(S) = 0. Aber: 1 = λ([0, 1]) ≤ λ(S) = 0, was offensichtlich ein Widerspruch ist. r∈Q |r|<1 a) S ⊂ [−1, 2]. b) [0, 1] ⊂ S, da jedes x ∈ [0, 1] für ein r ∈ Q mit |r| ≤ 1 in E + r enthalten ist. X λ(E + r) ≤ λ([−1, 2]) = 3. Da λ(E + r1 ) = λ(E + r2 ) Wegen der σ-Additivität folgt: λ(S) = r∈Q |r|<1 Beweis: Wir definieren auf R eine Äquivalenzrelation x ∼ y ⇐⇒ x − y ∈ Q. Sei E ein Repräsentantensystem mit E ⊂ [0, 1]. Gelte nun λ(E) = λ(E[+ r) für alle r ∈ R. Dann folgt für die abzählbare Vereinigung paarweise disjunkter Mengen S := E + r: Bemerkung 4: Das Lebesgue-Maß λ = λd kann nicht so auf 2R fortgesetzt werden, daß die Translationsinvarianz erhalten bleibt: λ(E + r) = λ(E) ist also nicht für alle E ⊂ R, r ∈ R möglich. 1. Grundlegendes a Abbildung 2: Normalverteilung (Dichtefunktion) P (A ∩ B) P (A) n n+m und ε→0 λ(t) = lim 1 P ([t, t + ε] | [t, ∞)), ε c) Gegeben sei eine Verteilung auf (R, B) zur Lebensdauer eines technischen Bauteils. Unter der Ausfallrate λ(t) zu einem Zeitpunkt t ≥ 0 versteht man n b) Entsprechendes gilt für die relativen Häufigkeiten. Sei n die Gesamtzahl der Schulkinder, n1 die Anzahl der achtjährigen Mädchen und m1 die Anzahl der achtjährigen Mädchen, die kleiner als m1 1 1.20 m sind. Für die relative Häufigkeit gilt dann: hn = nn1 = m n1 . rote Kugel“ und B: Nummer 1“ die beiden Ereignisse. Dann gilt: P (A) = ” ” 1 1 P (A ∩ B) = n+m , also insgesamt: P (B | A) = P P(A∩B) (A) = n . a) Seien A: Beispiele: die bedingte Wahrscheinlichkeit von B gegeben A. P (B | A) = Definition 6: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, seien A, B ∈ A und P (A) > 0. Dann heißt Jeweils ist eigentlich ein komplexeres Modell gegeben, wir suchen aber nach Wahrscheinlichkeiten in einem eingeschränkten Modell, das durch eine zusätzliche Bedingung (rote Kugel, achtjährige Mädchen) beschrieben wird. b) Angenommen, wir suchen nach der Wahrscheinlichkeit, daß achtjährige Mädchen kleiner als 1.20 m sind, so können wir als Näherungswert Meßwerte von Schulärzten analysieren und unter ihnen die relative Häufigkeit, daß die Größe kleiner als 1.20 m ist, auszählen. a) Gegeben sei eine Urne mit n ≥ 1 roten Kugeln und m ≥ 0 weißen Kugeln, die jeweils von 1 bis n bzw. m durchnumeriert sind. Angenommen, eine rote Kugel wird gezogen. Wie groß ist dann die Wahrscheinlichkeit, daß sie die Nummer 1 hat? Zur Lösung: Betrachten wir als günstiges Ergebnis, die rote 1 zu ziehen, als mögliche Ergebnisse, die n roten Kugeln zu ziehen, so gilt: p = n1 . Beispiele: 1.3. Elementare bedingte Wahrscheinlichkeiten Solche Verteilungen eignen sich oft gut (zumindest näherungsweise) zur Beschreibung der Verteilung von Größen-, Längen- oder Gewichtsmessungen. teilung bezeichnet. 12 für alle x ∈ R mit einem mittleren Wert“ µ ∈ R und einer Skalierung σ > 0 wird eine WahrscheinZ b ” f (t) dt bestimmt und als Normal- oder Gaußverlichkeitsverteilung auf (R, B) mit P ([a, b]) = 1. Grundlegendes 13 e−λt − e−λ(t+ε) = lim ε→0 ε(1 − (1 − e−λt )) 1 − e−λε = lim ε→0 ε = f 0 (0) = λ = = P ([t, t + ε] | [t, ∞)) lim ε→0 ε P ([t, t + ε]) lim ε→0 εP ([t, ∞)) n∈N 9 Thomas Bayes (1702-1761) P (Ak | B) (∗) da B ∩ An paarweise disjunkt sind b) Es gilt: = = (∗) = a) = P (B | An ) · P (An ). P (B ∩ An ) n∈N n∈N P (Ak ∩ B) P (B) P (B | Ak ) · P (Ak ) X P (B | An ) · P (An ) n∈N X n∈N X Beweis: a) Für alle A, B ∈ A gilt: P (A ∩ B) = P (B | A) · P (A) = P (A | B) · P (B), also folgt: ! à [ (B ∩ An ) P (B) = P P (Ak ) · P (B | Ak ) . P (Ak | B) = X P (An ) · P (B | An ) b) Außerdem folgt die Formel von Bayes 9 : n∈N a) Es gilt der Satz von der totalen Wahrscheinlichkeit: X P (B | An ) · P (An ). P (B) = P (B) > 0. Dann folgt: n∈N Satz [ 5: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und {An }n∈N ∈ A mit Ai ∩ Aj = ∅ für i 6= j. Sei Ω= An eine Zerlegung von Ω (bzw. eine meßbare, abzählbare Partition von Ω) und sei B ∈ A mit Oft ist auch die Beziehung P (A ∩ B) = P (A | B) · P (B) = P (B | A) · P (A), falls P (A) 6= 0 6= P (B), interessant. Für P (B) = 0 (bzw. P (A) = 0) würde natürlich auch P (A ∩ B) = 0 folgen, deshalb setzen wir P (A | B) = 0, falls P (B) = 0. für f : R → R mit f (t) = −e−λt und f 0 (t) = λe−λt . Hier ist die Ausfallrate für alle t ≥ 0 gleich und entspricht dem Parameter λ der Exponentialverteilung. λ(t) Für eine Exponentialverteilung folgt: also die bedingte Wahrscheinlichkeit, mit der in der nächsten Zeit mit einem Ausfall gerechnet werden muß (pro Zeiteinheit, Zeitintervall → 0), gegeben, daß das Bauteil zum Zeitpunkt t noch intakt war. Analog definiert man die Begriffe Geburtsrate oder Sterberate einer Population. 1. Grundlegendes 14 = = IV P (Bn | B1 ∩ . . . ∩ Bn−1 ) · P (Bn−1 | B1 ∩ . . . ∩ Bn−2 ) · P (B1 ). P (B1 | B1 ∩ . . . ∩ Bn−1 ) · P (B1 ∩ . . . ∩ Bn−1 ) = = = = 3 2 · 2 . 3 1 3 0· 1 3 1 3 i=0 1 · 13 + 12 · 13 + 1 · 1 3 P (G | K2 ) · P (K2 ) 2 X P (G | Ki ) · P (Ki ) 1 4 1 2 c) A = {1, 2}, B = {1, 3} ({1}) = ⇒ P (B | A) = PP({1,2}) 1 4 1 2 b) A = {1, 2, 3}, B = {1, 2, 4} ({1,2}) ⇒ P (B | A) = PP({1,2,3}) = a) A = {1, 2}, B = {1} ({1}) = ⇒ P (B | A) = PP({1,2}) 1 2 1 2 = = 1 2 3 4 = < 1 4 3 4 = P (B) = P (B) = P (B) 2 3 > Beispiel: Ω = {1, 2, 3, 4}, A = 2Ω und P ({i}) = 14 . Sind zwei Ereignisse A, B ∈ A gegeben, so kann A das Eintreten von B begünstigen, benachteiligen oder gar nicht beeinflussen. Für beliebige Ereignisse B1 , . . . , Bk gilt das nicht. gilt, falls zum Beispiel B1 , . . . , Bk Ereignisse von verschiedenen (sich nicht beeinflussenden) Spielzügen sind. Somit gilt P (B1 ∩B2 ) = P (B1 | B2 )·P (B2 ) als auch P (B1 ∩B2 ) = P (B1 )·P (B2 ), also: P (B1 | B2 ) = P (B1 ). P (B1 ∩ . . . ∩ Bk ) = P (B1 ) · . . . · P (Bk ) Bereits in der Diskussion zur Laplace-Wahrscheinlichkeit haben wir erkannt, daß 1.4. Stochastische Unabhängigkeit Die gesuchte Wahrscheinlichkeit beträgt damit zwei Drittel und ist größer als 50%. P (K2 | G) Ki bezeichne die Auswahl der Kommode mit i Goldmünzen (i = 0, 1, 2), G sei das Ereignis ein Fach ” enthält eine Goldmünze“. Dann gilt: Beispiel zur Formel von Bayes: Gegeben seien drei Kommoden mit jeweils zwei Schubladen. Eine Kommode hat in jedem Fach eine Goldmünze, eine in genau einem Fach, die letzte in keinem. Eine Kommode wird zufällig ausgewählt und ein Fach geöffnet: Es enthält eine Goldmünze. Wie groß ist die Wahrscheinlichkeit, daß das andere Fach auch eine Goldmünze enthält? P (B1 ∩ . . . ∩ Bn ) Beweis: mit vollständiger Induktion n = 2: P (B1 ∩ B2 ) = P (B1 ) · P (B2 | B1 ) Gilt nun P (B1 ∩ . . . ∩ Bn−1 ) = P (B1 ) · . . . · P (Bn−1 | B1 ∩ . . . ∩ Bn−2 ), so folgt auch: P (B1 ∩ . . . ∩ Bn ) = P (B1 ) · P (B2 | B1 ) · . . . · P (Bn | B1 ∩ . . . ∩ Bn−1 ) Satz 6 (Multiplikationssatz): Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und B 1 , . . . , Bn ∈ A beliebige Mengen aus A. Dann gilt: 1. Grundlegendes 15 P (A) · P (B) P (A ∩ B) = = P (B). P (A) P (A) i=1 P (Ak ) = µ n k ¶ ½ i=1 i=1 Pn pωi (1 − p)1−ωi = = p i=1 Pn ωi i=1 falls ωi = 0 falls ωi = 1 (1 − p)n− 1−p p ωi P ({(ω1 , . . . , ωn }) n Y pωi (1 − p)1−ωi = = , pk (1 − p)n−k für 0 ≤ k ≤ n, n ≥ 1. µ n k ¶ verschiedene ω ∈ Ω i∈I0 Bemerkung 6: Es sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und A1 , . . . , An ∈ A. Dann gilt: Die Ereignisse A1 , . . . , An sind genau dann stochastisch unabhängig im Sinne von Definition 7, wenn die Mengensysteme {A1 }, . . . , {An } stochastisch unabhängig im Sinne von Definition 8 sind. i∈I0 Definition 8: Es sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und sei {Ai }i∈I eine Familie von Mengensystemen, wobei I eine beliebige Indexmenge ist und Ai ⊂ A für alle i ∈ I gilt. Dann heißen die Mengensysteme {Ai }i∈I (stochastisch) unabhängig, falls für jedes I0 ⊂ I und für alle Ai ∈ Ai (i ∈ I0 ) gilt: ! à Y \ Ai = P (Ai ). P k= ωi ist die Anzahl, wie oft das Ergebnis für ω ∈ Ω eintritt. Es gibt i=1 ) ( n n X X ¯ mit k = ωi , also folgt für Ak ∈ 2Ω , Ak = ω ∈ Ω ¯ k = ωi : n X denn es gilt: P ({w}) Ω = {0, 1} × . . . × {0, 1}, A = 2Ω 1: gewünschtes Ereignis eingetreten“, 0: gewünschtes Ereignis nicht eingetreten“ ” ” Sei p die Wahrscheinlichkeit, daß bei einer einzelnen Beobachtung das Ergebnis auftritt (zum Beispiel 1 p = 4 beim Multiple-Choice-Test), dann gilt: Beispiel: Wir beobachten n-mal, ob ein bestimmtes Ereignis – unabhängig voneinander – auftritt und zählen insbesondere, wieviele der n Wiederholungen dieses Ergebnis zeigen. Zum Beispiel: Wir werfen n-mal eine Münze und zählen, wie oft die Würfe Zahl“ zeigen; wir zählen, wieviele von n zufällig aus” gewählten Familien ein niedrigeres Pro-Kopf-Nettoeinkommen als 2000 DM haben oder zählen, wieviele von n Aufgaben eines Multiple-Choice-Tests (immer vier Antworten, von denen genau eine richtig ist) richtig angekreuzt wurden, wenn nur geraten wird. b) Sind zumindest immer zwei Ereignisse Ai1 , Ai2 von (A1 , . . . , An ) unabhängig (für alle 1 ≤ i1 < i2 ≤ n), so heißen A1 , . . . , An paarweise unabhängig. Aus der paarweisen Unabhängigkeit folgt aber noch nicht die (vollständige) Unabhängigkeit (,→ Übung). P (B | A) = a) Ist P (A) > 0, so folgt aus der Unabhängigkeit von A und B auch: Bemerkung 5: Definition: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann heißen endlich viele Ereignisse A 1 , . . . , An ∈ A (stochastisch) unabhängig, falls P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · . . . · P (Aik ) für alle 1 ≤ k ≤ n, 1 ≤ i1 < . . . < ik ≤ n gilt. 1. Grundlegendes 16 {i|ωi ∈A} i=1 n Y pωi (1 − p)1−ωi = p i=1 Pn ωi (1 − p)n− i=1 Pn ωi = = P (E1 ) · P (E2 ). P (A1 ×Ω2 ) P (Ω1 ×A2 ) P1 (A1 ) · P2 (Ω2 ) · P1 (Ω1 ) · P2 (A2 ) {z } | {z } | = P (A1 × A2 ) = P1 (A1 ) · P2 (A2 ) und Mit Hilfe von Zufallsvariablen lassen sich Teilprobleme oder Teilaspekte eines komplexen Wahrscheinlichkeitsraumes effizient betrachten. Definition 3: Ist (Ω, A, P ) ein endlicher Wahrscheinlichkeitsraum, so heißt jede Funktion X : Ω → R eine Zufallsvariable auf (Ω, A, P ). 2.1. Zufallsvariablen auf endlichen Wahrscheinlichkeitsräumen P (E1 ∩ E2 ) Beweis: Seien E1 ∈ ξ1 und E2 ∈ ξ2 , so folgt: stochastisch unabhängig. ξ1 = {A1 × Ω2 | A1 ∈ A1 } ξ2 = {Ω1 × A2 | A2 ∈ A2 } Satz 1: Ist (Ω, A, P ) ein Produktraum von zwei endlichen Wahrscheinlichkeitsräumen (Ω1 , A1 , P1 ) und (Ω2 , A2 , P2 ), so sind die Mengensysteme sowie Ωi = {0, 1}, pi ({0}) = 1 − p und pi ({1}) = p für alle i = 1, . . . , n. P ({ω}) = Beispiel: Das (letzte) Beispiel aus Abschnitt 1.4. (wir betrachten bei n Wiederholungen, ob ein bestimmtes Ergebnis eintritt) paßt zu einem n-fachen Produktraum: Ω = {0, 1} n , A = 2Ω mit x∈A1 y∈A2 für A ∈ Ω und insbesondere für A = A1 × A2 : X X P (A1 × A2 ) = P1 ({x})P2 ({y}) = P1 (A1 ) · P2 (A2 ). x∈Ω1 y∈Ω2 Definition 2: Seien (Ω1 , A1 , P1 ) und (Ω2 , A2 , P2 ) zwei endliche Wahrscheinlichkeitsräume. Ein Produktwahrscheinlichkeitsraum (Ω, A, P ) mit Ω = Ω1 × Ω2 , A = 2Ω , P = P1 ⊗ P2 ist definiert durch X X P1 ({x})P2 ({y})I{(x,y)} (A) P (A) = i=1 Viele bisher betrachteten Beispiele waren endliche Wahrscheinlichkeitsräume. Für Ω = {ω1 , . . . , ωn } läßt n X X sich P durch P ({ωi }) = pi für i = 1, . . . , n mit P (A) = pi · Iωi (A) = pi charakterisieren. Definition 1: Ein Wahrscheinlichkeitsraum (Ω, A, P ) heißt endlicher Wahrscheinlichkeitsraum, falls Ω nur endlich viele Elemente besitzt und A = 2Ω gilt. 2. Endliche Wahrscheinlichkeitsräume 2. Endliche Wahrscheinlichkeitsräume 17 n i=1 Pn Pn Ã∞ [ i=1 Bi ! = = = Ã( i=1 n i=1 Pn ωi Bi ¶ ωi pk (1 − p)n−k und X = X(ω) = ! )! i=1 n X ωi . Dann gilt: {i|ωi ∈Ω, S(ωi )=k} b) Da die Bildmenge von der Scorefunktion S in der Regel deutlich kleiner als Ω ist, werden auch hier Werte zusammengefaßt: X pi . P S ({k}) = P (S = k) = für 0 ≤ k ≤ n. Diese Verteilung von X heißt Binomialverteilung und die Zufallsvariable X binomialverteilt. Oder kürzer: X ist B(n, p)-verteilt oder X ∼ B(n, p). n k i=1 Pn µ (1 − p)n− P X ({k}) = P (X = k) = a) ({0, 1}n , 2{0,1} , P ) mit P ({ω}) = p P X (Bi ). i=1 i=1 ∞ [ {ω ∈ Ω | X(ω) ∈ Bi } ω ∈ Ω | X(ω) ∈ Ã∞ [ ∞ X P P Beispiele: Nochmals zu den Beispielen von oben: PX a) P X (B) ≥ 0 für alle B ∈ B. b) P X (∅) = P ({ω ∈ Ω | X(ω) ∈ ∅}) = P (∅) = 0. c) σ-Additivität. Seien {Bn }n∈N ⊂ B disjunkte Borelmengen, so gilt: Beweis: Bemerkung 1: P X ist ein Wahrscheinlichkeitsmaß auf (R, B). Eine solche Verteilung läßt sich auch auf (R, 2R ) definieren. für alle B ∈ B die Verteilung von X (unter P). P X (B) := P (X ∈ B) := P ({ω ∈ Ω | X(ω) ∈ B}) Definition 4: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann heißt das Wahrscheinlichkeitsmaß (bzw. die Verteilung) P X auf (R, B) mit P X : B → [0, 1] und c) Sei (Ω, A, P ) ein endlicher Wahrscheinlichkeitsraum. Dann ist auch die Indikatorfunktion I A für A ∈ A eine Zufallsvariable auf (Ω, A, P ). b) Wird ein Fragebogen ausgewertet, so kann das zugrundeliegende Zufallsexperiment über einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ) beschrieben werden. Dabei gibt Ω die verschiedenen Antwortmöglichkeiten an, P ist ein geeignetes Wahrscheinlichkeitsmaß. Zur Vereinfachung wird aber nur ein geeigneter Score S : Ω → R betrachtet, welcher eine Zufallsvariable ist. eine Zufallsvariable. a) Noch einmal: ({0, 1}n , 2{0,1} , P ) mit P ({ω}) = p i=1 ωi (1 − p)n− i=1 ωi und 0 ≤ p ≤ 1. Hier n X ωi , wie oft ein bestimmtes Ereignis auftritt. X ist interessiert oft nur die Anzahl X = X(ω) = Beispiele: 2. Endliche Wahrscheinlichkeitsräume = = P ({ω ∈ Ω | IA (ω) = 0}) P ({ω ∈ Ω | IA (ω) = 1}) = = P (A) P (A). = 1 − P (A), 18 1 0.395 2 0.296 3 0.099 i=1 i=1 Beispiel: E(X 2 ) = 12 · 0.1 + 22 · 0.2 + 32 · 0.3 + 42 · 0.2 + 52 · 0.2 = 11.8. ω∈Ω Dann gilt: E(X) = 1 · 0.1 + 2 · 0.2 + 3 · 0.3 + 4 · 0.2 + 5 · 0.2 = 3.2. b) Mit dem Erwartungswert von X kann auch der Erwartungswert von Transformationen g(X) berechnet werden, da hier eine neue Zufallsvariable Y auf (Ω, A, P ) mit Y (ω) = g(X(ω)) zugrunde liegt. Es gilt dann: k X X E(g(X)) = g(X(ω))P ({ω}) = g(xi )P X ({xi }). a) Der Erwartungswert charakterisiert einen mittleren“ Wert, den Schwerpunkt“ der Verteilung. ” ” Beispiel: i 1 2 3 4 5 xi 1 2 3 4 5 P (xi ) 0.1 0.2 0.3 0.2 0.2 Bemerkung 3: ω∈Ω 4 0.012 Definition 5: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann heißt k X X E(X) = X(ω)P ({ω}) = xi P X ({xi }) Erwartungswert von X. 0 0.198 Abbildung 3: B(4, 13 )-Verteilung k P(X=k) Beispielsweise die B(4, 13 )-Verteilung: Bemerkung 2: Da die Verteilung P X einer Zufallsvariablen X auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ) nur durch endlich viele Elementarereignisse beschrieben wird, kann sie häufig durch ein Stabdiagramm übersichtlich dargestellt werden. IA ist also B(1, P (A))-verteilt. P IA ({0}) P IA ({1}) c) Für die Indikatorvariable gilt: 2. Endliche Wahrscheinlichkeitsräume 19 ⇒ a ≤ E(X) ≤ b. für alle α, β, γ ∈ R. à αE(X) + βE(Y ) + γ. X(ω)P ({ω}) = ω∈Ω X α ! ω∈Ω X Y (ω)P ({ω}) ! +γ ω∈Ω X P ({ω}) besitzt {ω ∈ Ω | X(ω) = xi } als Elementarereignisse für i = 1, . . . , k. j=1 P (Xij ∈ Bij ) Satz 3: Sei (Ω, A, P ) = (Ω1 , A1 , P1 ) × (Ω2 , A2 , P2 ) das Produkt zweier endlicher Wahrscheinlichkeitsräume. Sind X und Y Zufallsvariablen auf Ω, so daß X(ω1 , ω2 ) = ξ(ω1 ) und Y (ω1 , ω2 ) = η(ω2 ) für alle (ω1 , ω2 ) ∈ Ω, dann sind X und Y stochastisch unabhängig. Der folgende Satz zeigt u.a. die stochastische Unabhängigkeit von Zufallsvariablen, die auf verschiedenen Spielzügen bei Glücksspielen beruhen. für alle Bi1 , . . . , Bik ∈ B, 1 ≤ i1 < . . . < ik ≤ n mit 2 ≤ k ≤ n. P ({Xi1 ∈ Bi1 } ∩ . . . ∩ {Xik ∈ Bik }) = k Y Die stochastische Unabhängigkeit entspricht somit der Eigenschaft Definition 7: Seien X1 , . . . , Xn Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ), so heißen X1 , . . . , Xn (stochastisch) unabhängig, wenn die von ihnen erzeugten σ-Algebren AX1 , . . . , AXn stochastisch unabhängig sind. A X Definition 6: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ), so heißt AX := X −1 (A) die von X erzeugte σ-Algebra auf Ω. (vgl. Beispiel von Satz 1.1.) E(X) = E(Z1 + . . . + Zn ) = E(Z1 ) + . . . + E(Zn ) = n · p. Bemerkung 4: Da eine B(n, p)-verteilte Zufallsvariable X genauso verteilt ist wie die Summe von n B(1, p)-verteilten Zufallsvariablen Z1 , . . . , Zn , gilt: Allgemein gilt für eine B(1, p)-verteilte Zufallsvariable X: E(X) = p. +β à (αX(ω) + βY (ω) + γ)P ({ω}) ω∈Ω = = X xi P (X = xi ) ∈ [a, b], falls x1 , . . . , xk ∈ [a, b]. E(αX + βY + γ) i=1 k X für alle A ∈ A. c) E(IA ) = 0 · P (A) + 1 · P (A) = P (A). b) a) E(X) = Beweis: c) E(IA ) = P (A) b) E(αX + βY + γ) = αE(X) + βE(Y ) + γ a) a ≤ X ≤ b Satz 2 (Eigenschaften von Erwartungswerten): Seien X und Y Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt: 2. Endliche Wahrscheinlichkeitsräume = = (∗) = = = 1 3 1 6 1 2 1 4 1 8 3 8 3 4 1 12 1 24 1 8 1 4 0 1 3 0 1 6 1 2 1 2 1 1 3 1 6 1 2 1 2 1 Hier gilt analog: P (X = 0, Y = 1) = 0 6= P (X = 0) · P (Y = 1) und außerdem Y = (3 − X) 2 . 0 0 0 0 j=9 P (X = i) 1 3 1 6 1 2 1 3 j=4 P (Y = j) i=2 1 6 i=1 0 i=0 0 P (X = i, Y = j) j=1 Hier gilt zum Beispiel: P (X = 0, Y = 2) = 0 6= 16 = P (X = 0) · P (Y = 2), also sind X und Y abhängig. Es gilt sogar Y = 2 · (3 − X) und X = 3 − 12 Y . Jeder Wert von X bestimmt sich hier eindeutig aus dem von Y und umgekehrt. j=6 P (X = i) 1 3 1 6 1 2 0 1 6 1 3 0 P (Y = j) i=2 j=4 i=1 0 i=0 0 P (X = i, Y = j) j=2 1 P (Y = j) i=1 i=0 Hier sind X und Y unabhängig. j=6 P (X = i) j=4 P (X = i, Y = j) j=2 P (X ∈ B) · P (Y ∈ C). P (ξ −1 (B) × Ω2 ) · P (Ω1 × η −1 (C)) P ({(ω1 , ω2 ) | ξ(ω1 ) ∈ B} ∩ {(ω1 , ω2 ) | η(ω2 ) ∈ C}) P ({ξ −1 (B) × Ω2 } ∩ {Ω1 × η −1 (C)}) P ({(ω1 , ω2 ) | ξ(ω1 ) ∈ B, η(ω2 ) ∈ C}) 20 das absolute k-te Moment von X, das zentrale k-te Moment von X. i=1 i i p Var(X) a) Die Standardabweichung gibt einen mittleren“ Abstand von µ an, allerdings werden durch Qua” drieren und Wurzelziehen die größeren Abstände etwas stärker berücksichtigt: p E((X − E(X))2 ) σ(X) = v u k uX = t (x − µ)2 P (X = x ). Bemerkung 5: Das zweite zentrale Moment von X heißt Varianz von X: Var(X) = E((X − E(X))2 ). σ(X) = heißt auch Standardabweichung von X. E(|X|k ) E((X − µ)k ) Definition 8: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ) mit µ = E(X). Dann heißt für k ∈ N c) b) a) Beispiele: (∗): Eigenschaft des Produktmaßes P (X ∈ B, Y ∈ C) Beweis: Seien B, C ∈ B. Dann folgt: 2. Endliche Wahrscheinlichkeitsräume 21 E((αX + β − E(αX + β))2 ) α2 Var(X). = = E((α(X − E(X)) + β − β)2 ) = α2 E((X − E(X))2 ) = 1 3 +4· 1 3 + 4 6 + 9 2 = 11 2 1 1 13 6 +6· 2 = 3 1 1 3 +1·4· 6 +0 ·6· 1 2 = 2 6= E(X) · E(Y ) = E((X − E(X)) · (Y − E(Y ))) = E(X · Y ) − E(X) · E(Y ) Var(X) · Var(Y ) 29 9 29 29 36 53 4 %(X, Y ) ≈ −0.9948 Var(Y ) = Var(X) = c) Cov(X, Y ) = − 13 4 36 · 9 − %(X, Y ) = √ 291829 = −1 Var(Y ) = a) Sind X und Y unabhängig, so folgt: Cov(X, Y ) = 0 und %(X, Y ) = 0. 29 b) Cov(X, Y ) = 2 − 56 · 13 3 = − 18 ¡ ¢2 Var(X) = E(X 2 ) − (E(X))2 = 02 · 12 + 12 · 16 + 22 · 13 − 56 = 29 36 Beispiele (Fortsetzung): als Korrelation von X und Y bezeichnet. %(X, Y ) = p Cov(X, Y ) definiert. Falls außerdem Var(X) · Var(Y ) 6= 0 gilt, wird Cov(X, Y ) Definition 9: Sind X und Y Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann ist die Kovarianz von X und Y durch E(X · Y ) = 2 · 1 · 13 + 1 · 4 · 14 = 43 6= E(X) · E(Y ) d) Ein Beispiel mit E(X · Y ) = E(X) · E(Y ), obwohl X und Y abhängig sind, befindet sich auf Übungsblatt 5 (Aufgabe 5). E(Y ) = E(X · Y ) = 2 · 2 · c) E(X) = 56 E(Y ) = 2 · a) Da die Zufallsvariablen unabhängig sind, folgt: E(X · Y ) = E(X) · E(Y ). b) E(X) = 0 · 12 + 1 · 16 + 2 · 13 = 56 Beispiele (Fortsetzung): Beweis: ,→ Übung. Satz 4: Es seien X und Y stochastisch unabhängige Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt: E(X · Y ) = E(X) · E(Y ). ii) σ(αX + β) = |α| σ(X). 2 Var(αX + β) b) Sei Var(X) = σ 2 ∈ [0, ∞). Dann gilt für alle α, β ∈ R: i) Var(αX + β) = α2 Var(X). Beweis: 2. Endliche Wahrscheinlichkeitsräume 22 ∈ R. 11 Hermann 10 Augustin = = = p Cov(αX + β, γY + δ) Var(αX + β)Var(γY + δ) αCov(X, γY + δ) = p α2 Var(X)γ 2 Var(Y ) αγCov(X, Y ) p = αγ Var(X)Var(Y ) = ±%(X, Y ). = E((α(X − E(X)) + β(Y − E(Y ))) · (Z − E(Z))) α · Cov(X, Z) + β · Cov(Y, Z). E((αX + βY + γ − E(αX + βY + γ)) · (Z − E(Z))) %(αX + β, γY + δ) Louis Cauchy (1789-1857) Schwarz (1843-1921) f) Es gilt: E(Y ) = E((X − E(X))2 + 2(X − E(X))(Y − E(Y )) + (Y − E(Y ))2 ) = Var(X) + 2Cov(X, Y ) + Var(Y ). = E((X + Y − E(X + Y ))2 ) = E(((X − E(X)) + (Y − E(Y )))2 ) Cov(αX + βY + γ, Z) e) Es gilt für α, β, γ ∈ R: Var(X + Y ) c) Cov(X, X) = E((X − E(X))2 ) = Var(X). d) Es gilt: E(X·Y ) E(Y 2 ) = E(Y 2 ) · E(X 2 ) − (E(X · Y ))2 p E(X·Y ) zu ii) (E(X · Y ))2 = E(Y 2 ) · E(X 2 ), falls E(Y 2 )X = √ Y . Also X = αY mit α = 2 a) Klar. Gegenbeispiel: Übungsblatt 5, Aufgabe 5. b) Zunächst Nachweis der Cauchy10 -Schwarz11 -Ungleichung für Erwartungswerte: i) (E(X · Y ))2 ≤ E(X 2 ) · E(Y 2 ), ii) (E(X · Y ))2 = E(X 2 ) · E(Y 2 ) genau dann, wenn X = αY oder Y = αX für ein α ∈ R. zu i) Sei E(Y 2 ) = 0. Dann folgt: P (Y = 0) = 1 und damit (E(X · Y ))2 = 0 = E(X 2 ) · E(Y 2 ). Sei also E(Y 2 ) > 0. Dann gilt: à !2 p E(X · Y ) 2 E(Y ) · X − p ·Y 0 ≤ E E(Y 2 ) µ ¶ (E(X · Y ))2 = E(E(Y 2 ) · X 2 ) − 2E(E(X · Y ) · X · Y ) + E ·Y2 2 E(Y ) (E(X · Y ))2 2 2 = E(Y ) · E(X ) − 2E(X · Y ) · E(X · Y ) + · E(Y 2 ) E(Y 2 ) Beweis: f) |%(αX + β, γY + δ)| = |%(X, Y )| für alle α, β, γ, δ ∈ R mit α · γ 6= 0. e) Cov(αX + βY + γ, Z) = α · Cov(X, Z) + β · Cov(Y, Z) für alle α, β, γ ∈ R. d) Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ). c) Cov(X, X) = Var(X). b) |%(X, Y )| ≤ 1 und |%(X, Y )| = 1 genau dann, wenn Y = αX + β oder X = αY + β für geeignete α, β ∈ R. a) Sind X und Y unabhängig, so folgt: Cov(X, Y ) = 0, aber nicht umgekehrt. Satz 5: Seien X, Y und Z Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). 2. Endliche Wahrscheinlichkeitsräume 2. Endliche Wahrscheinlichkeitsräume 1 E((X − E(X))2 ). ε2 n Xn ¡1 ¢ = ≤ = = ≤ Satz 6 = Folgende Ungleichung gilt dann für alle ε > 0: lim n→∞ Var(Sn ) ε2 1 p(1 − p) lim n n→∞ ε2 0. lim P (|Sn − p| ≥ ε) n→∞ 1 n p(1−p). = n · (p − p2 ) = n · p · (1 − p). 1 n2 Var(Xn ) 0 Var(Y1 + . . . + Yn ) = n · Var(Y1 ) = n · E(E(Y12 ) − (E(Y1 ))2 ) = 13 max = 0. 13 James Tschebyscheff (1821-1894) Stirling (1692-1770) 12 Pafnuty √ ¡ ¢n a) Wir verwenden die Stirlingsche Formel : n! = 2πn ne e%(n) mit Beweis: lim √ |rn (kn )| n→∞ |kn −µn |≤αn n 1 12n+1 < %(n) < 1 12n . Nun mit µn = n · p = E(Xn ), σn2 = np(1 − p) = Var(Xn ) (Glockenkurve der Normal- oder Gauß-Verteilung), 1 wobei für eine Folge {αn } mit αn · n− 6 → 0, αn > 0, gilt: 1 kn −µn 2 1 P (Xn = kn ) = p · e− 2 ( σn ) · (1 + rn (kn )) 2πσn2 Satz 8: Sei {Xn }n∈N eine Folge von B(n, p)-verteilten Zufallsvariablen mit 0 < p < 1. Dann gilt: Also: Var(Sn ) = Var Var(Xn ) Beweis: Es gelte E(Xn ) = n · p und damit E(Sn ) = p. Xn ist verteilt wie die Summe von n unabhängigen B(1, p)-verteilten Zufallsvariablen Y1 , . . . , Yn . Damit gilt: n→∞ Satz 7 (Schwaches Gesetz der großen Zahlen): Sei {Xn } mit Xn ∼ B(n, p) eine Folge von Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt für Sn = n1 Xn und alle ε > 0: lim P (|Sn − p| ≥ ε) = 0. P (|X − E(X)| ≥ ε) ≤ Satz 6: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt für jedes ε > 0 die Tschebyscheffsche Ungleichung 12 : Ist X B(n, p)-verteilt, so entspricht X der Anzahl, wie oft bei n Wiederholungen ein Ereignis eingetreten ist. Sn = n1 X entspricht der relativen Häufigkeit für das Eintreten des Ereignisses. Eine Beobachtung entspricht der relativen Häufigkeit für eine Meßreihe. Wir erwarten, daß Sn für n → ∞ gegen p konvergiert“. ” 2.2. Grenzwertsätze zur Binomialverteilung 23 = g 000 (t) = = g 00 (p) 1 (1−t)2 t2 −(1−t)2 2 t (1−t)2 − t12 + + 1 1−t 1 t(1−t) 1 p(1−p) 1 t = ln t + t 1t − ln p − ln(1 − t) − 1−t 1−t + ln(1 − p) = ln t − ln p − ln(1 − t) + ln(1 − p) = 0 = t ln t − t ln p + (1 − t) ln(1 − t) − (1 − t) ln(1 − p) = 0 = = = g 00 (t) g 0 (p) g 0 (t) g(p) 1− 1− = 1− = = = s − 12 µ kn n p · n−kn n 1−p ·e 1 2 µ np(1−p) 1 n |kn − np| ≤ √ αn n n = αn √ , n 1 1 2p(1−p) 2 e−n 6 ( knn −p) 3 e . 24 g 000 (ξkn ) %(n)−%(kn )−%(n−kn ) ) e%(n)−%(kn )−%(n−kn ) αn n − (1 − p)| = | knn − p| ≤ √ = α n n− 6 n− 3 , ii) | n−k n n √ 1 1 iii) kn ≥ np − αn n = n(p − αn n− 6 n− 3 ) und √ 1 1 iv) n − kn ≥ n − (np + αn n) = n(1 − p − αn n− 6 n− 3 ). i) | knn − p| ≤ kn n ( knn −p) e−ng( e−n ¶2 ¶2 np(1−p) √kn −np ¶2 √kn −np µ np(1−p) √kn −np 2πnp(1 − p) 12 ·e n 2πn knn n−k n ·e P (Xn = kn ) 1 2πnp(1−p) s 1 (t − p)3 000 (t − p)2 · + · g (ξt ) 2 p(1 − p) 6 2 3 (t − p) (t − p) + · g 000 (ξt ). 2p(1 − p) 6 = 0 + (t − p) · 0 + Betrachte folgende vier Ungleichungen: rn (kn ) c) Aus a) und b) folgt: g(t) g 000 ist also für jedes δ > 0 auf (δ, 1 − δ) beschränkt. Somit gilt für die Taylorentwicklung: =⇒ =⇒ =⇒ b) Wir führen eine Taylorentwicklung von g um den Punkt t0 = p durch: µ³ ´ ³ ´1−t ¶ t t 1−t g(t) = ln p 1−p P (Xn = kn ) n! pkn (1 − p)n−kn kn !(n − kn )! √ ¡ ¢kn ¡ n ¢n−kn %(n) 2πn ne e e = √ pkn (1 − p)n−kn p ¡ ¢kn ¡ n−k ¢n−kn n 2πkn 2π(n − kn ) ken e%(kn ) e%(n−kn ) e "µ ¶ kn µ #n n ¶ n−k n 1 np n n(1 − p) = q e%(n)−%(kn )−%(n−kn ) kn n − kn n 2πn knn n−k n | {z } k −ng ( n ) n e µ ¶ ¡ ¢t ³ 1−p ´1−t mit g(t) = − ln pt . 1−t √ √ folgt für µn − αn n ≤ kn ≤ µn + αn n: 2. Endliche Wahrscheinlichkeitsräume → 0 2. Endliche Wahrscheinlichkeitsräume 14 = = k+ 12 p ! 1 k−µn 2 1 p e− 2 ( σn ) (1 + rn (k)). 2πσn2 k− 12 1 k−µn 2 1 e− 2 ( σn ) dt (1 + rn (k)) 2πσn2 "Z # k+ 12 1 t−µn 2 1 p e− 2 ( σn ) dt (1 + rn (k)) 2πσn2 k− 12 ³ ´ Z k+ 12 −(t − k) ξt −µn 1 σn σn − 1 ( ξt −µn )2 2 σ n p + e dt (1 + rn (k)) 2πσn2 k− 12 ÃZ k=An Bn X ≤ µn + bσn − µn + aσn + 1 p np(1 − p)(b − a) + 1. = 15 Wir de Moivre (1667-1754) 2 )-Verteilung: approximieren die Verteilungsfunktion von Xn durch die Verteilungsfunktion einer N (µ, σn µ ¶ An − µ n Xn − µ n Bn − µn ≤ ≤ P (An ≤ Xn ≤ Bn ) = P σn σn σn ¶ µ ¶ µ An − 0.5 − µn Bn + 0.5 − µn −Φ ≈ Φ σn σn für An , Bn ∈ Z. Bn − A n + 1 mit ξt ∈ [k − 12 , k + 12 ] für t ∈ [k − 12 , k + 12 ] und 1 k−µn 2 1 p e− 2 ( σn ) (1 + rn (k)) 2πσn2 Dabei gilt: = wobei An die kleinste ganze Zahl ist, die größer oder gleich µn + aσn ist, und Bn die größte ganze Zahl, die kleiner oder gleich µn + bσn ist. 1 Sei√{αn } eine Folge mit αn > 0 und αn n− 6 → 0. Gelte weiterhin An , Bn ∈ {kn ∈ Z | |kn − µn | ≤ αn n}, so können wir Satz 8 anwenden: µ ¶ Xn − µ n P a≤ ≤b = P (An ≤ Xn ≤ Bn ) σn Satz 9 (Grenzwertsatz von de Moivre und Laplace): Sei {Xn }n∈N eine Folge von B(n, p)verteilten Zufallsvariablen mit 0 < p < 1. Dann folgt für a, b ∈ R, a < b, mit µn = np und σn = p np(1 − p): µ ¶ Xn − µ n lim P a ≤ ≤ b = Φ(b) − Φ(a), n→∞ σn Z x 1 2 1 √ e− 2 t dt für x ∈ R die Verteilungsfunktion einer N (0, 1)-Verteilung angibt.15 wobei Φ(x) = 2π −∞ Beweis: ¶ µ Xn − µ n ≤b = P (µn + aσn ≤ Xn ≤ µn + bσn ) P a≤ σn = P (An ≤ Xn ≤ Bn ), Daraus folgt die Behauptung. (gleichmäßig). →0 Die rechte Seite von i) und ii) konvergiert gleichmäßig gegen 0, die von iii) und iv) gleichmäßig gegen ∞. Außerdem gilt: ¯ ¯ ¡ ¢3 kn ¯ ³ ´¯ ´¯ −p 1 3 − 3 ¯¯ 000 ³ ¯ ¯ ¯ ξ kn ¯ · g 000 ξ kn ¯ ≤ nαn n 2 ¯g ¯−n n n n ¯ ¯ 6 6 ´3 ¯ ³ ´¯ 1 1³ ¯ ¯ αn n− 6 ¯g 000 ξ kn ¯ = n 6 | {z } 14 Abraham 25 k=An Bn Z X k− 12 k+ 12 p 1 t−µn 2 1 e− 2 ( σn ) dt 2πσn2 = ≤ 1 Z −∞ ∞ 1 t−µn 2 1 p e− 2 ( σn ) dt 2πσn2 √ ξt −µn 1 σn σn 2 2πσn −(t−k) : 2 µ a≤ = = = = p Bn + 1 −µn 2 σn An − 12 Bn − 12 k− 12 p 1 t−µn 2 1 e− 2 ( σn ) dt + Rn 2πσn2 1 t−µn 2 1 e− 2 ( σn ) dt + Rn 2πσn2 k+ 12 An − 1 −µn 2 σn 1 2 1 √ e− 2 s ds + Rn 2π µ ¶ µ ¶ Bn + 12 − µn An − 12 − µn Φ −Φ + Rn . σn σn Z Z k=An Bn Z X k=0 16 Siméon Denis Poisson (1781-1840) Die bisherigen Grenzwertaussagen untersuchten die Konvergenz der Verteilungsfunktion bzw. von einzelnen Wahrscheinlichkeiten, nicht aber eine punktweise oder gleichmäßige Konvergenz der Zufallsvariablen Hinweis: Ist p nahe an 0 oder 1, so läßt sich die Binomialverteilung besser durch eine Poisson- statt einer Normalverteilung approximieren. k=0 Satz 10: Seien X1 , . . . , Xn unabhängige Zufallsvariablen mit Xi ∼ B(1, pi ) für i = 1, . . . , n. Dann folgt für λ = p1 + . . . + pn : ¯ ∞ ¯ n k¯ X X ¯ ¯P (X1 + . . . + Xn = k) − e−λ λ ¯ ≤ 2 p2k . ¯ ¯ k! k Bn + 12 − µn An − 12 − µn = b, lim = a gilt, folgt die Behauptung. n→∞ σn σn ¶ k+ 12 26 Definition 10: Eine Verteilung auf (R, B) mit P ({k}) = e−λ λk! für alle k ∈ Z, k ≥ 0 und ein λ > 0 heißt Poisson16 -Verteilung. n→∞ Xn − µ n ≤b σn Da Φ stetig ist und lim P t−µn σn : 0. n→∞ = 1 ÃZ lim αn n− 2 n→∞ Bn X ¯ ¯! ¯ ξt − µ n ¯ ¯ ¯ ¯ σ 3 ¯ (1 + rn (k)) n→∞ k− 12 n k=An ¡ ¢ √ lim (σn (b − a) + 1)αn nσn−3 lim = ≤ ≤ Also ergibt sich mit einer Nullfolge Rn und der Substitution s = k=An ¯ ¯ B Z n ¯ ¯X k+ 12 1 ξt −µn 2 ¯ ¯ Γe− 2 ( σn ) dt · (1 + rn (k))¯ lim ¯ n→∞ ¯ ¯ k− 1 gegen 0. Außerdem folgt mit Γ := gilt, und die Summanden jeweils nicht negativ sind, konvergiert ! ! ÃZ ÃZ Bn Bn k+ 12 k+ 12 X X 1 t−µn 2 1 t−µn 2 1 1 p p e− 2 ( σn ) dt (1 + rn (k)) − e− 2 ( σn ) dt 2πσn2 2πσn2 k− 12 k− 12 k=An k=An Da 2. Endliche Wahrscheinlichkeitsräume P∞ (A1 × . . . × An × Ωn+1 × . . .) = P1 (A1 ) · . . . · Pn (An ). A∞ = σ({A1 × . . . × An × Ωn+1 × . . . | n ∈ N, Ai ∈ Ωi }) Beweis: Auf den Beweis verzichten wir hier, da wir diesen Satz später allgemeiner beweisen werden. Satz 11 (Starkes Gesetz der großen Zahlen für binomialverteilte Zufallsvariablen): Sei {Xn } eine Folge unabhängiger B(1, p)-verteilter Zufallsvariablen. Dann gilt für die B(n, p)-verteilten Zufallsvariablen Yn = X1 + . . . + Xn die folgende starke Konvergenz: µ ¶ Yn = p = 1. P∞ lim n→∞ n Dies liefert eine σ-additive Mengenfunktion P∞ auf der durch {A1 × . . . × An × Ωn+1 × . . .} definierten Algebra, so daß der Maßfortsetzungssatz 1.3. ein eindeutig bestimmtes Wahrscheinlichkeitsmaß P ∞ auf (Ω∞ , A∞ ) ergibt. und Wir definieren also: P∞ (A1 × . . . × An × Ωn+1 × . . .) = P1 (A1 ) · . . . · Pn (An ). mit Ai ∈ Ai ∈ 2Ω für jedes n ∈ N und A1 × . . . × An × Ωn+1 × . . . ∈ A∞ Gegeben seien endliche Q∞ Wahrscheinlichkeitsräume (Ωn , An , Pn ) mit n ∈ N. Für einen Produktraum wählen wir Ω∞ = n=1 Ωn als Ergebnis- bzw. Ereignisräume, d.h. Elemente von Ω∞ sind Folgen {ωn }n∈N mit ωn ∈ Ωn . Zur Definition eines Produktmaßes und A∞ sollte mindestens gelten: selber. Um hierüber Aussagen zu erhalten, benötigen wir ein Wahrscheinlichkeitsmaß für Folgen von Zufallsvariablen. 2. Endliche Wahrscheinlichkeitsräume ⇒ ⇒ X −1 (B) ∈ Bd X −1 (B) ∈ Bd 28 ⇒“: ” ⇐“: ” n∈N n∈N n∈N klar, da (−∞, t] ∈ B für t ∈ R. Dies folgt direkt aus B = σ({(−∞, t] | t ∈ R}). Sei nämlich E = {B ∈ B | X −1 (B) ∈ A}, so folgt (−∞, t] ∈ E für alle t ∈ R. Außerdem ist E eine σ-Algebra. Also folgt E = B. a) Alle offenen Mengen sind in E enthalten: Sei O ∈ R eine offene Menge, dann folgt aus der Stetigkeit von X, daß X −1 (O) auch offen in Rd ist, d.h. X −1 (O) ∈ Bd . Also gilt: O ∈ E. Beweis: Wir betrachten das Mengensystem E = {B ∈ B | X −1 (B) ∈ Bd }, welches System der lieben ” Mengen“ genannt wird, und zeigen, daß E alle Borelmengen umfaßt. Bemerkung: Für einen Wahrscheinlichkeitsraum (Ω, A, P ) mit Ω = Rd und A = Bd ist jede stetige Funktion X : Rd → R eine Zufallsvariable. b) Gegeben sei ein Wahrscheinlichkeitsraum (Ω, A, P ) mit Ω = [0, 1] und A = {∅, [0, 12 ], ( 12 , 1], Ω}. Eine Abbildung X : [0, 1] → R mit X(ω) = ω ist keine Zufallsvariable auf ([0, 1], A, P ), da X −1 ([0, 14 ]) = [0, 14 ] ∈ / A, obwohl [0, 14 ] ∈ B erfüllt ist. a) Eine Zufallsvariable X auf einem endlichen Wahrscheinlichkeitsraum ist eine Zufallsvariable im Sinne von Definition 11, da offensichtlich X −1 (B) ⊂ Ω und X −1 (B) ∈ 2Ω für alle B ∈ B gilt. t→∞ a) i) Sei t < s. Dann gilt: F (t) = P ((−∞, t]) ≤ P ((−∞, s]) = F (s). Beweis: b) Ist umgekehrt F : R → [0, 1] eine Funktion mit den Eigenschaften i), ii) und iii), so gibt es genau ein Wahrscheinlichkeitsmaß P auf (R, B) mit der Verteilungsfunktion F . t→−∞ i) F ist monoton und nicht fallend. ii) F ist rechtsseitig stetig. iii) lim F (t) = 0 und lim F (t) = 1. a) Dann hat die Verteilungsfunktion F von P folgende Eigenschaften: Satz 13: Gegeben sei eine Verteilung P auf (R, B). c) Die Verteilungsfunktion F : R → R des Bildmaßes P X , d.h. F (t) = P X ((−∞, t]) = P (X ≤ t) für t ∈ R, heißt auch Verteilungsfunktion von X. Beispiele: b) σ(X) = AX := {X −1 (B) | B ∈ B} ⊂ A heißt die von X erzeugte σ-Algebra auf Ω. a) Das Bildmaß P X auf (R, B) mit P X (B) = P (X −1 (B)) für alle B ∈ B heißt Verteilung von X. Definition 12: Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ). b) ,→ Übung. a) Beweis: n∈N lim inf Xn und lim sup Zufallsvariablen auf (Ω, A, P ). b) Sind {Xn }n∈N mit Xn : Ω → R eine Folge von Zufallsvariablen, so sind auch sup Xn , inf Xn , a) X : Ω → R ist genau dann eine Zufallsvariable, wenn X −1 ((−∞, t]) ∈ A für alle t ∈ R. Satz 12: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann gilt: Hinweis zur Beweistechnik: Um zu zeigen, daß eine Eigenschaft für alle Elemente einer σ-Algebra erfüllt ist, reicht es zu zeigen, daß die Eigenschaft für ein Erzeugendensystem erfüllt ist, und daß das Mengensystem, das die Eigenschaft erfüllt, eine σ-Algebra ist. S Also: B ∈ E für alle n∈N An ∈ B. c) B ist die kleinste, alle offenen Mengen von R umfassende σ-Algebra. E umfaßt laut Teil a) alle offenen Mengen, und ist nach b) eine σ-Algebra. Also gilt: E ⊃ B bzw. E = B. X ist also eine Zufallsvariable. X −1 (B) ∈ Bd X −1 (B) = X −1 (B) ∈ Bd i) ∅ ∈ E, da X −1 (∅) = ∅ ∈ Bd gilt. ii) Sei B ∈ E. Dann gilt: b) E ist eine σ-Algebra: 2. Endliche Wahrscheinlichkeitsräume Definition 11: Eine Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω, A, P ) ist eine Funktion X : Ω → R, so daß X −1 (B) ∈ A für alle B ∈ B gilt. Diese Eigenschaft einer Funktion Ω nach R bezeichnet man als Borel-meßbar bzw. A-B-meßbar. Für die allgemeine Definition von Zufallsvariablen spielt der meßbare Raum (R, B) mit der Borelschen σ-Algebra B eine wichtige Rolle. B kann durch die Menge der halboffenen Intervalle I 1 , aber auch durch die Menge aller offenen Mengen oder durch die Menge der abgeschlossenen Mengen von R erzeugt werden. Insbesondere enthält B auch alle einpunktigen Mengen {x}, x ∈ R, und alle abzählbaren Mengen (zum Beispiel N, Z und Q) sind in B enthalten. 2.3. Zufallsvariablen und ihre Verteilungen auf allgemeinen Wahrscheinlichkeitsräumen 27 29 n→∞ = = Satz 1.2 = = lim P ((−∞, tn ]) n→∞ lim F (tn ). n→∞ n∈N P ((−∞, t]) à ! \ P (−∞, tn ] n→∞ n∈N t→−∞ n→∞ lim F (t) = P (∅) = 0. Analog folgt lim F (t) = P (R) = 1 für eine monoton (−∞, tn ] = ∅. n∈N pn = 1 gilt. n∈N X pn Ixn für eine Folge {xn } ⊂ R und 2πσ 2 b) Eine stetige Zufallsvariable mit Dichte f : R → [0, ∞) mit ½ λe−λx für x ≥ 0 f (x) = 0 sonst x ∈ R (etwa Meßfehler X einer Waage). Normalverteilungen eignen sich häufig zur Beschreibung von Meßgrößen, wenn eine homogene Population zugrunde liegt. a) Eine Zufallsvariable mit der normalverteilten Verteilung P X und den Parametern µ und σ 2 heißt 1 x−µ 2 N (µ, σ 2 )-verteilt, ist stetig und besitzt als Dichte f : R → [0, ∞) mit f (x) = √ 1 e− 2 ( σ ) für Beispiele für stetige Zufallsvariablen: c) Eine Zufallsvariable X auf (Ω, A, P ), deren Verteilung poissonverteilt ist, heißt poissonverteilt und ist diskret. Beispiel: Die Anzahl der Lackflecken auf der Karosserie eines frisch lackierten Autos oder die Anzahl von seltenen Ereignissen, wie etwa die Anzahl Erkrankungen an einer seltenen Krankheit. b) Zufallsvariablen, deren Verteilungen sich aus Laplacewahrscheinlichkeiten bestimmen, sind diskret, etwa die Summe der Augenzahlen von drei Würfeln. a) Zufallsvariablen auf endlichen Wahrscheinlichkeitsräumen sind diskret mit xn ∈ {X(ω) | ω ∈ Ω}, also etwa binomialverteilte Zufallsvariablen, zum Beispiel die Anzahl der Studentinnen und Studenten, die eine Klausur bestehen (bei Unabhängigkeitsannahme). Beispiele für diskrete Zufallsvariablen: läßt. Die Funktion f wird dann als Dichte zu P bezeichnet. Eine Zufallsvariable X heißt (absolut) stetig, wenn die Verteilung von X (absolut) stetig ist. −∞ b) Eine Verteilung P auf (R, B) heißt (absolut) stetig, wenn sich die Verteilungsfunktion F zu P in der Z t f (s) ds für alle t ∈ R mit einer nicht-negativen Funktion f : R → [0, ∞) schreiben Form F (t) = pn ∈ [0, 1] für n ∈ N mit X a) Eine Verteilung P auf (R, B) heißt diskret, falls P = Definition 13: wachsende Folge. b) Da durch die Verteilungsfunktion eine σ-additive Mengenfunktion auf der Algebra I 1 der halboffenen Intervalle bestimmt wird, läßt sich mit dem Maßfortsetzungssatz 1.3 die Behauptung zeigen. Also folgt: \ iii) Analog folgt mit Satz 1.2 für eine monoton fallende Folge {tn } mit lim tn = −∞: F (t) ii) Sei {tn } eine Folge mit lim tn = t und tn > tn+1 > t für alle n ∈ N und ein t ∈ R. Dann gilt: 2. Endliche Wahrscheinlichkeitsräume ½ 1 − e−λx 0 für x ≥ 0 . sonst 30 {n | xn >0} X Z pn xn < ∞ oder X pn |xn | < ∞. pn xn ∈ R ∪ {−∞, ∞}, X n∈N {n | xn <0} E(X) = −∞ |x|f (x) dx < ∞ oder 0 ∞ xf (x) dx < ∞. −∞ ⇒ E(X) ≥ 0. als Korrelation von X und Y . %(X, Y ) = p Var(X) · Var(Y ) Cov(X, Y ) e) Gilt außerdem 0 < Var(X) < ∞ und 0 < Var(Y ) < ∞, so bezeichnen wir d) Cov(X, Y ) = E((X − E(X)) · (Y − E(Y ))) als Kovarianz von X und Y . c) Var(X) = E((X − E(X))2 ) als Varianz von X und b) E((X − E(X))k ) für k ≥ 1 als k-tes zentrales Moment von X, a) E(|X|k ) für k ≥ 1 als k-tes absolutes Moment von X, Definition 15: Seien X und Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Wenn die folgenden Erwartungswerte existieren, bezeichnen wir Beweis: a), b) und c) folgen direkt aus der Definition. c) E(IA ) = P (A) für alle A ∈ A. b) Falls E(X) und E(Y ) endlich sind, folgt für α, β, γ ∈ R: E(αX + βY + γ) = αE(X) + βE(Y ) + γ. a) X ≥ 0 Bemerkung: Sind X und Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt: Analog zu Zufallsvariablen auf endlichen Wahrscheinlichkeitsräumen gibt der Erwartungswert die Mitte“ ” bzw. den Schwerpunkt“ der Verteilung an. ” falls 0 b) Ist X stetig und die Dichte f gegeben, so definieren wir den Erwartungswert von X über Z ∞ E(X) = xf (x) dx ∈ R ∪ {−∞, ∞}, Z falls entweder n∈N Definition 14: X sei eine diskrete oder stetige Zufallsvariable auf einem Wahrscheinlichkeitsraum. X a) Ist X diskret mit P X = pn Ixn , so definieren wir den Erwartungswert von X über für a, b ∈ R mit a < b heißt gleichverteilt auf [a, b]. Die Wartezeit an einer Bushaltestelle bei unbekanntem Fahrplan ist gleichverteilt in [0, 20], wenn der Bus eigentlich alle 20 Minuten kommt. c) Eine stetige Zufallsvariable X mit Dichte f : R → [0, ∞) mit ½ 1 für x ∈ [a, b] b−a f (x) = 0 sonst Die Exponentialverteilung eignet sich beispielsweise für die Lebensdauer eines Gerätes oder für die Ankunftszwischenzeiten bei Warteschlangen (konstante Ausfallrate, konstante Ankunftsrate). F (x) = heißt exponentialverteilt, und es gilt: 2. Endliche Wahrscheinlichkeitsräume 31 }i∈I = = {σ(Xi )}i∈I {{Xi−1 (B) | B ∈ B}}i∈I P (Xi ∈ Bi i∈I0 ∀ i ∈ I0 ) = i∈I0 Y i∈I0 P (Xi ∈ Bi ). i=1 P (Xi = xiji ) −∞ i=1 n Y F (ti ) B i=1 n Y = = = ·... · xn jn ∈Bn X xn jn ∈Bn X {Xn = xnjn } ¡ ¢ ¡ ¢ P X1 = x1j1 · . . . · P Xn = xnjn xn jn ∈B1 [ P (Xi ∈ Bi ), insbesondere ¡ ¢ P (X1 = x1j1 ) ∩ . . . ∩ (Xn = xnjn ) P (X1 ∈ B1 ) · . . . · P (Xn ∈ Bn ). x1j1 ∈B1 X ·... · x1j1 ∈B1 x1j1 ∈B1 X für Bi = {xiji } gilt. Für die Rückrichtung gilt: [ P (X1 ∈ B1 , . . . , Xn ∈ Bn ) = P {X1 = x1j1 } ∩ . . . ∩ a) Die Hinrichtung ist offensichtlich, da P (X1 ∈ B1 , . . . , Xn ∈ Bn ) = Beweis: mengen B. für alle t1 , . . . , tn ∈ R. Z Z ii) wenn P (X1 ∈ B1 , . . . , Xn ∈ Bn ) = ··· f1 (x1 ) · · · fn (xn ) dxn · · · dx1 für B1 , . . . , Bn ∈ B. B1 Bn Z iii) wenn P ((X1 , . . . , Xn ) ∈ B) = f1 (x1 ) · · · fn (xn ) d(x1 , . . . , xn ) für alle n-dimensionalen Borel- F (t1 , . . . , tn ) = −∞ für alle j1 ∈ I1 , . . . , jn ∈ In . b) Sind X1 , . . . , Xn alle stetig mit Dichten f1 , . . . , fn , so sind X1 , . . . , Xn stochastisch unabhängig genau dann, Z t1 Z tn i) wenn P (X1 ≤ t1 , . . . , Xn ≤ tn ) = ··· f1 (x1 ) · · · fn (xn ) dxn · · · dx1 bzw. P (X1 = x1j1 , . . . , Xn = xnjn ) = n Y a) Sind X1 , . . . , Xn alle diskret mit Werten (x1j1 )j1 ∈I1 , . . . , (xnjn )jn ∈In , so sind X1 , . . . , Xn stochastisch unabhängig genau dann, wenn Satz 14: X1 , . . . , Xn seien Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). bzw. der erzeugten σ-Algebren stochastisch unabhängig ist, d.h. falls für alle endlichen I0 ⊂ I und für alle Bi ∈ B (i ∈ I0 ) gilt: ! à Y \ Xi−1 (Bi ) = P (Xi−1 (Bi )) P {A Xi Definition 16: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und sei {Xi }i∈I eine Familie von Zufallsvariablen auf (Ω, A, P ). Dann heißen {Xi }i∈I (stochastisch) unabhängig, falls die Familie Beweis: Diese Eigenschaft folgt analog zum Nachweis für endliche Wahrscheinlichkeitsräume. Var(αX + βY + γ) = α2 Var(X) + β 2 Var(Y ) + 2αβCov(X, Y ). Bemerkung: Sind X und Y Zufallsvariablen auf (Ω, A, P ) mit endlichem Erwartungswert und Varianz, so folgt für alle α, β, γ ∈ R: 2. Endliche Wahrscheinlichkeitsräume 32 i=1 i=1 n X E E Z S dµ = i=1 n X αi µ(E ∩ Ai ) αi IAi und E ∈ A sei n→∞ Ω =:S1 =:S2 {S | 0 ≤ S ≤ f, S einfach} ⊂ {S | 0 ≤ S ≤ g, S einfach} . {z } | {z } | Beweis: b) bis e) gelten offensichtlich für einfache Funktionen, somit auch allgemein. Wir zeigen folglich nur a). Es gilt: E Satz 16: Seien f und g Borel-meßbare Funktion von Ω nach R. Dann folgt für Ereignisse A, B, E ∈ A: Z Z f dµ ≤ g dµ. a) 0 ≤ f ≤ g ⇒ 0 ≤ E E Z Z b) A ⊂ B, f ≥ 0 ⇒ f dµ ≤ f dµ. A B Z Z αf dµ = α f dµ. c) f ≥ 0, α ∈ [0, ∞) ⇒ E E Z d) f (ω) = 0 für alle ω ∈ Ω. ⇒ f dµ = 0. E Z Z e) f ≥ 0 ⇒ f dµ = f · IE dµ. das µ-Integral von f über E. E b) Sei f : Ω → [0, ∞) meßbar. Dann ist für E ∈ A ½Z ¾ Z ¯ f dµ = sup S dµ ¯ 0 ≤ S ≤ f, S einfache Funktion das µ-Integral von S über E. a) Für eine einfache Funktion S = Definition 18: Beweis: ,→ Übungsaufgabe 2 auf Blatt 7. Satz 15: Sei f : Ω → [0, ∞) eine Borel-meßbare Funktion. Dann gibt es eine Folge von einfachen Funktionen {Sn }n∈N mit 0 ≤ S1 ≤ S2 ≤ . . . ≤ f und lim Sn (x) = f (x) für alle x ∈ R. eine einfache Funktion auf Ω (vgl. Blatt 7, Aufgabe 2). Definition 17: Seien α1 , . . . , αn ∈ [0, ∞) und A1 , . . . , An ∈ A mit αi 6= αj und Ai ∩ Aj = ∅ für i 6= j. Dann heißt S : Ω → R mit n X α i I Ai S= Sei im folgenden (Ω, A, µ) ein Maßraum. 2.4. Einführung in die Integrationstheorie b) Es gilt offensichtlich: iii) ⇒ ii) ⇒ i). Gilt jedoch i), so folgt nach dem Maßfortsetzungssatz Satz 1.3, daß ein Maß durch die Werte auf (−∞, t1 ] × . . . × (−∞, tn ], und somit I n , eindeutig festgelegt wird, und es folgt iii). 2. Endliche Wahrscheinlichkeitsräume f. Ω E Z Z f dµ = ≤ = sup Z E S dµ Ω E Ω sup S dµ E Z g dµ. S∈ S2 S∈S1 Z 2. Endliche Wahrscheinlichkeitsräume α i I Ai , t = j=1 m X Ai = j=1 m [ Ω (s + t) dµ = = = = = = i) %(E) ≥ 0 für alle E ∈ A. ii) Z Z Ω B Z = = = t dµ. j=1 0. i=1 j=1 m X i=1 n X Ãà i=1 n [ Ai µ(Ai ∩ Bj ) βj µ αi µ(∅ ∩ Ai ) s dµ n X ∅ βj µ(Bj ) Z βj B j + j=1 m X ∩ Bj ! f (x) dx für eine stetige Wahrscheinlichkeitsverteilung P mit Dichte %(∅) Ω Z αi µ(Ai ) + m X j=1 m [ µ(Ai ∩ Bj ) + αi µ Ai ∩ j=1 m X s dµ + i=1 n X i=1 n X i=1 αi i=1 j=1 n X (αi + βj )IAi ∩Bj dµ (αi + βj )µ(Ai ∩ Bj ) Ω i=1 j=1 n X m X Z X m n X ! Bj = Ω. Dann ist {Ai ∩ Bj | i = 1, . . . , n, j = 1, . . . , m} i=1 n [ s dµ für alle E ∈ A und einer einfachen Funktion s ist ein βj IBj und gelte o.B.d.A. b) ist die Übertragung der Darstellung P (B) = b) i=1 n X E eine Zerlegung von Ω mit paarweise disjunkten Mengen. Es gilt: a) Sei s = Beweis: Maß auf (Ω, A).17 b) Die Abbildung % : A → R mit %(E) = a) Seien s und t einfache Funktionen. Dann folgt: Z Z Z (s + t) dµ = s dµ + t dµ. Satz 17: Daraus folgt: 17 Teil 33 = = σ−Additivität von µ i=1 k∈N X k∈N αi µ(Ai ∩ Ek ) E %(Ek ). k∈N i=1 n XX 34 αi IAi gilt: Z R s dλ = i=1 n X αi λ(Ai ). Ω Ω Ω Ω n→∞ Ω 0 ≤ αs(ω) ≤ f (ω) = 0 n∈N einfache Funktion mit 0 ≤ s ≤ f und sei α ∈ [0, 1). Definiere En := {ω ∈ Ω | fn (ω) ≥ αs(ω)}. Dann ist E1 ⊂ E2 eine aufsteigende Folge von Ereignissen aus A. Für ω ∈ Ω mit f (ω) > 0 folgt: αs(ω) ≤ αf (ω) < f (ω) und somit auch αs(ω) ≤ fn (ω) für n ≥ N (ω). [ Daraus folgt: ω ∈ En für n ≥ N (ω) und ω ∈ En . Für ω ∈ Ω mit f (ω) = 0 folgt Ω Beweis: f = sup fn ist meßbar nach Satz 12 bzw. Übungsblatt 7, Aufgabe 2. n∈N Z Z Z Aus fn ≤ fn+1 folgt: fn dµ ≤ fn+1 dµ und somit lim fn dµ ≤ ∞. Sei nun s eine beliebige n→∞ Ω Satz 18 (Satz von der monotonen Konvergenz): Es sei {fn } eine Folge (Borel-)meßbarer Funktionen fn : Ω → [0, ∞] mit 0 ≤ f1 (ω) ≤ f2 (ω) ≤ . . . ≤ ∞ und f (ω) := lim fn (ω) für alle ω ∈ Ω. Dann n→∞ Z Z gilt: f ist meßbar und lim fn dµ = f dµ. Ω Folgerung: Für meßbare Funktionen f und g mit f , g : Ω → [0, ∞) folgt für α, β ∈ [0, ∞): Z Z Z (αf + βg) dµ = α f dµ + β g dµ. e) Gilt eine Eigenschaft (zum Beispiel, daß zwei Funktionen gleich sind) für alle ω ∈ Ω außer ω ∈ A, wobei A eine µ-Nullmenge ist, dann sagt man, daß diese Eigenschaft µ-fast-sicher oder µ-fast-überall gilt. d) Sei µ ein beliebiges Maß auf (Ω, A). Jede Menge A mit µ(A) = 0 heißt µ-Nullmenge. Beim Lebesgue-Maß sind alle abzählbaren Mengen Nullmengen. c) Für stetige Funktionen f sind Lebesgue- und Riemann-Integral identisch. Dies gilt insbesondere, wenn s eine Treppenfunktion ist, zum Beispiel die Untersummen von Riemann-Integralen. i=1 n X a) Sei λ das Lebesgue-Maß auf (R, B) gemäß Definition 1.4. Für Intervalle oder endliche Vereinigungen von Intervallen entspricht λ den Intervallängen. Z b) Das Lebesgue-Integral berechnet sich mittels der Formel f dλ. Für einfache Funktionen s = Bemerkungen: % ist also ein Maß auf (Ω, A). k∈N iii) Sei {Ek } eine Folge paarweise disjunkter Mengen aus A. Dann gilt: à à à ! !! n [ X [ Ek αi µ A i ∩ Ek % = 2. Endliche Wahrscheinlichkeitsräume lim lim =⇒ Z Ω Ω Ω fn dµ fn dµ ≥ ≥ ≥ = Ω fn dµ Z Ω Ω Ω f dµ s dµ lim α%(En ) Z n→∞ α%(Ω) Z ≥ = = = ≥ ≥ = En n→∞ Ω Ω lim α Z fn dµ s dµ fn dµ Ek Z Ω ! fn dµ. s dµ α%(En ). Z α s dµ, Z En k∈N S α Z Z n∈N [ En = Ω. n Z X mit 0 ≤ s ≤ f, für alle einfachen Funktionen s für alle α ∈ [0, 1), En . Somit: n=1 Ω fn dµ = = Ω = Ω Ω n∈N fn dµ. fk dµ fk dµ k=1 ! Ω k=1 Z X n k=1 n Z X dµ = Z ÃX n→∞ lim n→∞ fk lim k=1 Z ÃX n Satz 18 fk meßbar und ∞ Z X k=1 n X n∈N Ω fk dµ, also: Ω k≥n n→∞ Ω Ω n→∞ Joseph Louis Fatou (1878-1929) n→∞ n→∞ Setze gn = inf fk für n ∈ N. Dann gilt: lim inf fn = lim gn . Daraus folgt: gn ≤ fn und n→∞ 0 ≤ g1 ≤ g2 ≤ . . . Folgende beide Aussagen ergeben sich daraus: Z Z a) gn dµ ≤ fn dµ, Ω Ω Z Z gn dµ = lim inf fn dµ. b) lim Beweis: Ω n→∞ Satz 19 (Lemma von Fatou18 ): Für alle n ∈ N seien fn : Ω → [0, ∞] Borel-meßbar. Dann gilt: Z Z lim inf fn dµ ≤ lim inf fn dµ. Beweis: Mit fn sind auch n∈N Borel-meßbaren Funktionen fn : Ω → [0, ∞] für n ∈ N und sei Folgerung: Sei {fn } Zeine Folge von X XZ f= fn . Dann gilt: f dµ = fn dµ. n→∞ n→∞ fn dµ =⇒ n→∞ Ω lim =⇒ Z Z n→∞ n∈N [ 2. Endliche Wahrscheinlichkeitsräume s dµ für alle E ∈ A (% ist ein Maß). Es gilt: lim α%(En ) E =⇒ Betrachte %(E) = Z und 0 = fn (ω). Also ist ω ∈ En für n ∈ N und ω ∈ 18 Pierre 35 Ω Z Ω n→∞ lim inf fn dµ ≤ = n→∞ Z lim inf n→∞ lim Z Ω Ω fn dµ. gn dµ n∈N 36 n=1 ∞ X ½Z Z Ω Ω n=1 n=1 ∞ X Ω Z Ω sf dµ. Z E IEn f dµ ϕ(En ). ∞ Z X s dϕ = Ω n=1 f dµ f dµ = f · IE dµ Ω ! Z ÃX ∞ IEn f dµ ZE Z IE dϕ = ϕ(E) = = = = = = Z Ω ¾ f IE dµ. Also folgt auch und Ω g dµ = ≥ = n→∞ lim Ω Z Ω sn dϕ = = Ω Z lim sn f dµ n→∞ Ω Z gf dµ, ¯ s dϕ ¯ 0 ≤ s ≤ g, s einfache Funktion ZΩ sn dϕ lim n→∞ Ω Z g dµ sup n→∞ Somit folgt mit dem Satz über monotone Konvergenz: Für eine aufsteigende Folge von einfachen Funktionen {sn } mit s1 ≤ s2 ≤ . . . und lim sn (ω) = g(ω) für alle ω ∈ Ω gilt: Z für eine einfache Funktion s: b) Sei g = IE für ein E ∈ A. Dann folgt: Z ϕ(E) IEn · f . Aufgrund der Folgerungen zu Satz 18 erhalten wir: Damit ist ϕ ein Maß auf (Ω, A). gilt: IE · f = Beweis: a) i) ϕ(E) ≥ 0 ist klar, da f ≥ 0 für alle E ∈ A. ii) ϕ(∅) = 0 ist ebenfalls klar, da die Bedingung für einfache Funktionen gilt und damit auch für das Supremum. [ iii) σ-Additivität. Sei {En } eine Folge paarweise disjunkter Mengen in A mit E = En . Dann Satz 20: Seien f , g : R → [0, ∞] Borel-meßbare Funktionen. Dann gilt: Z a) ϕ(E) = f dµ mit E ∈ A ist ein Maß auf (Ω, A), E Z Z b) g dϕ = gf dµ mit ϕ aus a). Ω Insgesamt: 2. Endliche Wahrscheinlichkeitsräume 37 Ω = = Z Z R gf dλ. g dP X E E E E f − dµ < ∞ für ein E ∈ A. Sei außerdem E 1 Ω Ω Beweis: Ω Ω Ω ¯Z ¯ ¯ ¯ ¯ f dµ¯ ¯ ¯ = = ≤ = Ω ¯Z ¯ Z ¯ ¯ ¯ f + dµ − f − dµ¯¯ ¯ Ω Ω Z Z f + dµ + f − dµ Ω ZΩ (f + + f − ) dµ ZΩ |f | dµ. ¯Z ¯ Z ¯ ¯ |f | dµ. Satz 22: Sei f ∈ L1 (µ). Dann folgt: ¯¯ f dµ¯¯ ≤ Beweis: ,→ Übung. Ω a) αf + βg ∈ L1 (µ). Z Z Z b) (αf + βg) dµ = α f dµ + β g dµ. Satz 21 (Rechenregeln): Seien f , g ∈ L1 (µ) und α, β ∈ R, dann gilt: Ω ½ ¾ Z ¯ L (µ) := f : Ω → R ¯ f Borel-meßbar und |f | dµ < ∞ f + dµ < ∞ oder Z die Menge der µ-integrierbaren Funktionen. falls Z und f − (ω) := f + − f . Dann definieren wir das µ-Integral von f über E mit Z Z Z f dµ := f + dµ − f − dµ, Definition 19: Sei f : Ω → R eine Borel-meßbare Funktion. Weiterhin sei ½ f (ω) falls f (ω) ≥ 0 f + (ω) := 0 sonst E(g(X)) c) Also folgt für den Erwartungswert einer Funktion g: für A ∈ B. b) Für eine stetige Zufallsvariable mit der Lebesgue-Dichte f gilt für das Bildmaß: P X (A) = schreiben wir dϕ = f dµ. Ω Z A f dλ Bemerkungen zu Satz 20: Z Z a) Gilt g dϕ = gf dµ für alle meßbaren Funktion g ≥ 0 für Maße ϕ und µ auf (Ω, A), dann da sn f monoton gegen f wächst. 2. Endliche Wahrscheinlichkeitsräume 38 Ω Ω Z Ω n→∞ Ω Ω n=1 µ i=1 n Y µi (Ai ) für alle A1 ∈ Ai , i = 1, . . . , n. = Ω1 × . . . × Ω n , = σ{A1 × . . . × An | Ai ∈ Ai , i = 1, . . . , n} =: A1 ⊗ . . . ⊗ An , =: µ1 ⊗ . . . ⊗ µn das Maß auf (Ω, A) mit µ(A1 × . . . × An ) = und Ω A Definition 21: Seien (Ω1 , A1 , µ1 ), . . . , (Ωn , An , µn ) Maßräume mit σ-endlichen Maßen µ1 , . . . , µn . Dann definieren wir den Produktraum (Ω, A, µ) über n=1 c) Das Zählmaß µ mit µ(A) = #A ist ein σ-endliches Maß auf (N, 2N ), aber nicht auf (R, B). Die Variante des Zählmaßes µ e mit µ e(A) = #(A ∩ Z) ist auch auf (R, B) σ-endlich, wähle wieder An = ∞ [ An = R. [−n, n] und µ e(An ) = 2n + 1 < ∞ mit n=1 a) Alle endlichen Maße µ mit µ(Ω) < ∞ sind σ-endlich. b) Das Lebesgue-Maß λd auf (Rd , Bd ) ist σ-endlich. Wähle etwa An = [−n, n] × . . . × [−n, n] ⊂ Rd , ∞ [ An = R d . An ∈ Bd , λd (An ) = (2n)d und Beispiele: Folge {An }n∈N Ω Ein Maß µ auf einem meßbaren Raum (Ω, A) heißt σ-endlich, falls eine aufsteigende ∞ [ ⊂ A mit µ(An ) < ∞ für alle n ∈ N, A1 ⊂ A2 ⊂ . . . und An = Ωn existiert. Definition 20: n→∞ Also gilt: 0 ≤ − lim sup ¯Z ¯ ¯ ¯ |fn − f | dµ ≤ 0, da ¯¯ 2g dµ¯¯ < ∞. a) Die Meßbarkeit von f wurde bereits bewiesen. Da |fn (ω)| ≤ g(ω) gilt: folgt: |f (ω)| ≤ g(ω). Also: f ∈ L1 (µ). b) Da |fn − f | ≤ |fn | + |f | ≤ 2g, folgt: 2g − |fn − f | ≥ 0. c) Es gilt: Z Z 2g dµ = lim inf (2g − |fn − f |) dµ Ω Ω n→∞ Z Fatou ≤ lim inf (2g − |fn − f |) dµ n→∞ Ω Z Z = 2g dµ + lim inf −|fn − f | dµ n→∞ ZΩ ZΩ 2g dµ − lim sup |fn − f | dµ. = Beweis: n→∞ a) f ∈ L1 (µ). Z |fn − f | dµ = 0. b) lim n→∞ Ω Z Z fn dµ = f dµ. c) lim Satz 23 (Satz von der majorisierten Konvergenz): Es sei {fn } eine Folge meßbarer Funktionen auf (Ω, A) und f (ω) = lim fn (ω) für ω ∈ Ω. Weiterhin existiere ein g ∈ L1 (µ) mit |fn (ω)| ≤ g(ω) für n→∞ alle n ∈ N, ω ∈ Ω. Dann folgt: 2. Endliche Wahrscheinlichkeitsräume 2. Endliche Wahrscheinlichkeitsräume Z Ω1 ×Ω2 f d(µ1 ⊗ µ2 ) Ω2 =: = 0 Z g1 (ω1 ) = Z Z Ω1 Ω1 Ω2 sonst / L (µ2 ) falls fω1 ∈ 1 g1 dµ1 ·Z ¸ f (ω1 , ω2 )µ2 (dω2 ) µ1 (dω1 ). fω1 dµ2 Ω Ω R R 20 Das Fubini (1879-1943) heißt: µ e(B) = #(B ∩ I) für alle B ∈ B. = x∈I X x∈I g(x)P (X = x). c) Ist X diskret und I eine abzählbare Menge aus B mit P (X ∈ I) = 1, so wird zu dem Zählmaß µ e zu e-Dichte I auf (R, B)20 durch die Funktion f : R → [0, ∞) mit f (x) = P (X = x) für alle x ∈ R eine µ von X angegeben. Für den Erwartungswert von g(X) gilt dann beispielsweise: Z g(x)f (x)e µ (dx) E(g(X)) = R X = g(x)f (x) b) Ist X stetig mit Borel-meßbarer Dichtefunktion f , dann ist f auch eine Lebesgue-Dichte von X. a) Da P X selber ein σ-endliches Maß ist, besitzt P X insbesondere die Dichtefunktion f : R → R mit f (x) = 1 für alle x ∈ R bzgl. P X = µ. Bemerkungen: als Erwartungswert von g(X) für eine Borel-meßbare Funktion g : R → R. R als (allgemeinen) Erwartungswert von X und Z Z g(x)P X (dx) = g(x)f (x)µ (dx) E(g(X)) = R Definition 22: Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und besitze die Verteilung P X mit der µ-Dichte f : R → [0, ∞) bzgl. eines σ-endlichen Maßes µ auf (R, B). Dann bezeichnen wir Z Z E(X) = xP X (dx) = xf (x)µ (dx) eine Integrationsvariable. Bemerkung: Für eine Borel-meßbare Funktion f : Ω → R auf (Ω, A, µ) charakterisieren wir durch die Schreibweise Z Z f (ω)µ (dω) := f dµ Beweis: Siehe Bauer, Maß- und Integrationstheorie, Kapitel 23. definiert, so folgt: b) Sei g1 : Ω1 → R mit d.h. µ1 -fast-alle fω1 sind µ2 -integrierbar. µ1 (ω1 ∈ Ω1 | fω1 ∈ / L1 (µ2 )) = 0, a) Die Funktionen fω1 für ein ω1 ∈ Ω1 mit fω1 : Ω2 → R und fω1 (ω2 ) = f (ω1 , ω2 ) erfüllen Satz 24 (Satz von Fubini19 ): Seien (Ω1 , A1 , µ1 ) und (Ω2 , A2 , µ2 ) zwei Maßräume mit σ-endlichen Maßen µ1 und µ2 . Weiterhin sei f ∈ L1 (µ1 ⊗ µ2 ). Dann gilt: 19 Guido 39 40 n∈N i=1 n [ Bi ! = 1, und ist f eineindeutig, = i=1 f −1 (B)∩Bi i=1 n X gX (z) dz. ≤P (X∈B0 )=0 n Z X P (X ∈ f −1 (B) ∩ B0 ) + {z } | = P (X ∈ f −1 (B) ∩ Bi ) ¯ µ −1 ¶¯ ¯ ∂f (y) ¯¯ gX (f −1 (y)) · ¯¯det ¯ dy. ∂y B f −1 (B) P (X ∈ f −1 (B)) = Z = P (f (X) ∈ B) = P (X ∈ f −1 (B)) Z = gX (z) dz = Bi , so folgt: P (Y ∈ B) P (Y ∈ B) b) Setze B0 = Rd \ Beweis: a) i=1 n [ für fi := f |Bi diffenzierbar sind, so besitzt das Bildmaß von Y die Dichte ¯ µ −1 ¶¯ n X ¯ ∂fi (z) ¯¯ gY (z) = gX (fi−1 (z)) · ¯¯det ¯. ∂z i=1 X∈ Die Komponenten von Y sind dabei stetige Zufallsvariablen. wobei die Funktionen fi−1 b) Existieren disjunkte Mengen B1 , . . . , Bn ∈ Bd mit P wobei die Komponenten von Y stetige Zufallsvariablen sind. à a) Ist f eineindeutig und f −1 differenzierbar, so besitzt das Bildmaß von Y die Dichte ¯ µ −1 ¶¯ ¯ ∂f (z) ¯¯ gY (z) = gX (f −1 (z)) · ¯¯det ¯, ∂z Satz 26 (Transformationssatz für Dichten): Seien X1 , . . . , Xd stetige Zufallsvariablen auf (Ω, A, P ). Weiterhin besitze das Bildmaß der Abbildung X : Ω → Rd eine Dichte gX : Rd → R. X = (X1 , . . . , Xd ) ist dabei eine d-dimensionale Zufallsvariable. Sei Y = f (X) mit einer (R d , Bd )-(Rd , Bd )-meßbaren Abbildung f . Aus a) und b) folgt die Behauptung. n∈N Beweis: Den Beweis führen wir mit der Methode der lieben Mengen (siehe auch Seite 27). Sei E = {B ∈ B | Z −1 (B) ∈ A} ein Teilsystem von B. a) B sei eine offene Teilmenge von R. Da ψ stetig ist, ist ψ −1 (B) eine offene Menge im R2 und somit Element von B2 . Insgesamt ist Z −1 (B) ∈ A. Also liegen alle offenen Mengen in E. b) Zu zeigen: E ist eine σ-Algebra. i) Z −1 (∅) = ∅ ∈ A. Also ist ∅ ∈ E. −1 ii) Z −1 (B) à = Z !(B) ∈ A. Also: B ∈ E, falls B ∈ E. [ [ Bn = Z −1 (Bn ) ∈ A für eine Folge disjunkter Mengen Bn aus E. iii) Z −1 Satz 25: Seien X und Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und sei ψ : R 2 → R eine stetige Funktion. Dann ist Z = ψ(X, Y ) wiederum eine Zufallsvariable. 2.5. Transformationsformeln und Stichprobentheorie d) Für allgemeine Zufallsvariablen werden Momente und Varianz wie in Definition 15 definiert. 2. Endliche Wahrscheinlichkeitsräume 41 σf (µ + σy) 1 µ+σy−µ 2 σ √ e− 2 ( σ ) 2πσ 2 1 2 1 = √ e− 2 y . 2π = = X−µ σ (d.h. E(Y ) = 0, Var(Y ) = 1): R c) Es gilt E(X · Y ) = E(X) · E(Y ), falls E(X) und E(Y ) endlich sind. b) Sind X und Y stetig mit den Dichten fX und fY , so folgt für die Dichte fZ von Z = X · Y : Z ³z ´ 1 fX (s)fY ds fZ (z) = |s| s R\{0} Z ³ ´ z 1 = fX fY (s) ds s R\{0} |s| a) Sind sowohl X als auch Y diskrete Zufallsvariablen mit P (X ∈ {xn | n ∈ N}) = P (Y ∈ {xn | n ∈ N}) für eine Folge {xn }n∈N ⊂ R, so folgt für die Verteilung von Z = X · Y : µ ¶ X Z P (X = xn )P Y = falls z 6= 0 xn n∈N xn 6=0 P (Z = z) = P (X = 0) + P (Y = 0, X 6= 0) falls z = 0 = 1 − P (X 6= 0, Y 6= 0) Satz 28: Seien X und Y unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Bemerkung: Die Aussage von Satz 27 läßt sich auf mehrdimensionale Zufallsvariablen X = (X1 , . . . , Xd ) und Y = (Y1 , . . . , Yd ) übertragen. Beweis: ,→ Übung. c) Sind X und Y stetig mit Dichten fX und fY , so folgt für die Dichten Z = X + Y : Z fZ (z) = fX (x)fY (z − x) dx. x∈Z b) Sind X und Y diskret auf der Menge der ganzen Zahlen, so folgt: X P X ({x})P Y ({z − x}). P X ∗ P Y ({z}) = R a) Dann gilt für die Verteilung von Z = X + Y , die sogenannte Faltung, von P X und P Y : Z P X (B − y)P Y (dy). P Z := P X ∗ P Y := Satz 27: Seien X und Y unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit den Verteilungen P X und P Y . Also: Y ∼ N (0, 1). g(y) Ist insbesondere X ∼ N (µ, σ 2 ) mit σ > 0, so folgt für die Y = Bemerkung: Sei X eine stetige Zufallsvariable und Y = aX + b mit a 6= 0. Falls X die Dichte f besitzt, folgt für die Dichte von Y : µ ¶ y−b 1 g(y) = f für y ∈ R. · a a 2. Endliche Wahrscheinlichkeitsräume 42 = P (X · Y ≤ z, X ∈ R) = P (U ≤ z, V ∈ R) Z z Z ∞¯ ¯ ³ ´ ¯1¯ ¯ ¯ fX u fY (v) dv du. = ¯v¯ v −∞ −∞ R R E(X) · E(Y ). R\{0} −∞ −∞ Daraus folgt für alle z ∈ R: µ ¶ µ ¶ X X P ≤z = P ≤ z, X ∈ R Y Y = P (U ≤ z, V ∈ R) Z z Z ∞ |v|fX (u · v)fY (v) dv du. = ³ ´ Beweis: Setze ψ : R2 → R2 mit ψ(x, y) = xy , y und ψ −1 (u, v) = (u · v, v). Dann folgt mit der Dichtetransformationsformel: ¯ ¯ µ ¶¯ µ ¶¯ ¯ ¯ ¯ ∂ v 0 ¯¯ ¯det ψ −1 (u, v) ¯¯ = ¯¯det ¯ u 1 ¯ ∂(u, v) = |v|. für alle z ∈ R. Satz 29: Seien X und Y unabhängige, stetige Zufallsvariablen mit den Dichten fX und fY auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Dann ist Z = X Y eine stetige Zufallsvariable mit der Dichte Z fZ (z) = |s|fX (z · s)fY (s) ds Folgerung: Für allgemeine unabhängige Zufallsvariablen X und Y mit endlichen Varianzen, die von 0 verschieden sind, gilt: Cov(X, Y ) = 0 und %(X, Y ) = 0. = Fubini c) Sei µ ein σ-endliches Maß und X habe eine µ-Dichte fX und Y die µ-Dichte fY . Dann folgt mit der Übertragung von Satz 14 auf allgemeine Integrale: Z Z xyfX (x)fY (y) µ(dy) µ(dx) E(X · Y ) = P (X · Y ≤ z) Daraus folgt für alle z ∈ R: a) Klar. b) Wir nutzen die Dichtetransformationsformel für die Abbildung ψ : R2 → R2 mit ψ(x, y) = (x·y, y) ¡ ¢ für (x, y) ∈ R2 und ψ −1 (u, v) = uv , v . Dann gilt: ¯ ¯ µ 1 ¶¯ ¶¯ µ ¯ ¯ ¯ ∂ 0 ¯¯ v ¯det ψ −1 (u, v) ¯¯ = ¯¯det u ¯ − v2 1 ¯ ∂(u, v) 1 = . |v| Beweis: 2. Endliche Wahrscheinlichkeitsräume 43 e y −y x−1 dy für x ≥ 0. 0 n 22 y n 1 y 2 −1 e− 2 Γ( n 2) für y ≤ 0 für y > 0 (n − 1)s̃2 1 = 2 σ2 σ i=1 n X ∼ χ2n−1 gezeigt. (Xi − X)2 ∼ χ2n−1 . Vorlesung Stochastik II wird die Beziehung (n−1)s̃2 σ2 a) Der Beweis läßt sich mit vollständiger Induktion und Satz 27 führen (,→ Übung). ¶2 n µ ³ ´ X 2 Xi − µ ∼ χ2n mit Xiσ−µ ∼ N (0, 1) wegen der Standardisierung. In der b) Es gilt: ns σ2 = σ i=1 Beweis: und n ns2 1 X = 2 (Xi − µ)2 ∼ χ2n σ2 σ i=1 b) Sei X1 , . . . , Xn eine Stichprobe unabhängiger N (µ, σ 2 )-verteilter Zufallsvariablen, so folgt 0 ∞ fY (y) = Dann besitzt Y die Dichte ( Z χ2n . mit Γ(x) = a) Sei Y ∼ Satz 30: heitsgraden oder χ2n -Verteilung. i=1 Definition 23: χ2 -Verteilung: Sei X1 , . . . , Xn eine Stichprobe unabhängiger und identisch N (0, 1)n X Xi2 (zentrale) χ2 -Verteilung mit n Freiverteilter Zufallsvariablen. Dann heißt die Verteilung von Typische Verteilungsfamilien von Stichprobenkennwerten werden nun vorgestellt. Im statistischen Modell werden X und s2 als Zufallsvariablen und damit als Stichprobenkennwerte interpretiert. Die (Verfahrens-)Eigenschaften von X und s2 werden als Eigenschaft der Stichprobenkennwerteverteilungen untersucht. entspricht der Varianz Var(X) = E((X − E(X))2 ) der empirischen Verteilung. Das arithmetische Mittel entspricht dem Erwartungswert der empirischen Verteilung der Meßwerte. Die empirische Varianz n 1X s2 = (Xi − X)2 n i=1 Die empirische Verteilung der Meßwerte kann durch Kennwerte charakterisiert werden, zum Beispiel durch das arithmetische Mittel 100 1 X X= Xi . 100 i=1 Einschub: Gegeben sei beispielsweise eine Meßreihe zu 100 Preisen eines Rohstoffes, also unabhängige Messungen zu einer homogenen Verteilung. Im statistischen Modell interpretiert man diese Meßreihe als eine Beobachtung von einer Stichprobe X1 , . . . , X100 von unabhängigen, identisch verteilten Zufallsvariablen mit Xi ∼ X ∼ N (µ, σ 2 ). 2. Endliche Wahrscheinlichkeitsräume 44 i=1 Xi2 für x ∈ R. ¢ µ ¡ ¶ n+1 2 Γ n+1 x2 ¡ n ¢ 2√ 1+ n Γ 2 nπ 21 William gilt: n fY (y) = Xi2 gilt: 2 ³ n ´−1 e− Z 0 ∞ 2 ∞ I=2 0 ∞ 2 µ z2 2 +n . Also folgt: n 2 e− 2 y y n−1 I(0,∞) (y). ¶ n+1 2 s ds und u = e−u ´ 12 +n)s2 n Z n u n−1 2 1 2 2 (z 1 du. z2 + n + n)s2 . Damit ist ³ n ´−1 n 2 1 2 2 n n 1 √ e− 2 z s |s|n 2 2− 2 Γ e− 2 s sn−1 ds. 2 2π 2 z 2 +n u 1 0 e− 2 (z ³ Z n : du ds = (z 2 + n)s, S. Gosset (1876-1937), Angestellter der Guinness-Brauerei, publizierte unter dem Pseudonym Student“. ” du = (z 2 + n)s ds und s = Definiere nun I := 2 fT (z) = 2 Aus Satz 29 folgt dann: n f√ 1 Y (y) = n 2 2− 2 +1 Γ ³ n ´−1 1 nY n (ny) 2 −1 I(0,∞) (y). q ny 2 y n 1 ¡ ¢ e− 2 y 2 −1 I(0,∞) (y), n 2 2 Γ n2 f n1 Y (y) = n2− 2 +1 Γ 1 nY i=1 n X Nach der Transformationsformel lautet die Dichte von und für die Dichte von für die Dichte von Y = 1 2 1 fX (x) = √ e− 2 x , 2π X −µ X −µ q =q ∼ tn−1 . Pn 1 1 2 2 i=1 (Xi − X) n(n−1) n s̃ a) Für die Dichte von X0 gilt: Beweis: und X −µ q ∼ N (0, 1) 1 2 nσ b) Ist X1 , . . . , Xn eine Stichprobe unabhängiger N (µ, σ 2 )-verteilter Zufallsvariablen, so ist fT (x) = a) Ist T eine tn -verteilte Zufallsvariable, so besitzt T die Dichte Satz 31: eine t-Verteilung, Studentsche Verteilung mit n Freiheitsgraden oder auch t n -Verteilung. n X0 T = q P n 1 Definition 24: t-Verteilung, Studentsche21 Verteilung: Sei X0 , X1 , . . . , Xn eine Stichprobe unabhängiger, identisch N (0, 1)-verteilter Zufallsvariablen, so heißt die Verteilung von 2. Endliche Wahrscheinlichkeitsräume 45 fT (z) = = = n+1 2 2 n+1 2 + n) 2 (z 2 + n) (z 2 n+1 2 n+1 2 Γ Z 0 n+1 . n+1 2 −1 ¶ e−u u n+1 2 ∞ µ du n+1 2 ¶ e−u ux−1 du für x > 0 folgt: µ 0 ∞ ³ n ´−1 n n 2 2 1 √ n 2 2− 2 Γ n+1 Γ 2 2π (z 2 + n) 2 ¡ n+1 ¢ n n2Γ 2 √ ¡ ¢ n+1 1 2 n+1 2π2− 2 Γ n2 n 2 (1 + zn ) 2 ¡ n+1 ¢ Γ 2 . ¡ ¢ √ 2 n+1 nπΓ n2 (1 + zn ) 2 = = Z n s̃ 1 m i=n+1 Xi2 Xi2 i=1 n+m X n X a) Sei Z ∼ Fn,m , so besitzt Z die Dichte ¡ ¢ n Γ m+n n m z 2 −1 fZ (z) = ¡ n ¢ 2 ¡ m ¢ n 2 m 2 m+n I(0,∞) (z). Γ 2 Γ 2 (m + nz) 2 Satz 31: (zentrale) F -Verteilung mit n und m Freiheitsgraden oder kurz Fn,m -Verteilung. F = 1 n Definition 25: Sei X1 , . . . , Xn+m mit n, m ≥ 1 eine Stichprobe unabhängiger N (0, 1)-verteilter Zufallsvariablen. Dann heißt die Verteilung von nσ X−µ X−µ ∼ N (0, 1). Die Beziehung √ ∼ tn−1 wird in Stochastik II bewiesen. Also gilt: √ 1 2 1 2 b) Es ist X ∼ N (µ, n1 σ 2 ), da die Summe von normalverteilten Zufallsvariablen wieder normalverteilt ist und auch die Multiplikation mit n1 wieder zu einer Normalverteilung führt. Also: µ ¶ 1 (X1 + . . . + Xn ) E(X) = E n 1 = (E(X1 ) + . . . + E(Xn )) n 1 nµ = n = µ. µ ¶ 1 (X1 + . . . + Xn ) = Var Var(X) n 1 unabh. = (Var(X1 ) + . . . + Var(Xn )) n2 1 nσ 2 = n2 1 2 σ . = n Also folgt: I Mit Verwendung der Gamma-Funktion Γ(x) = 2. Endliche Wahrscheinlichkeitsräume 46 1 n−1 1 m−1 i=1 (Yi − Y )2 (Xi − X)2 i=1 n X m X ∼ Fm−1,n−1 . a) Der Beweis sei dem Leser zur Übung überlassen. b) Nach Satz 30 ist (m − 1)s2X ∼ χ2m−1 und (n − 1)s2Y ∼ χ2n−1 . Außerdem sind sie unabhängig, woraus die Behauptung folgt. Beweis: s2 F = X = s2Y b) Ist X1 , . . . , Xm eine Stichprobe unabhängiger N (µ1 , σ12 )-verteilter Zufallsvariablen sowie Y1 , . . . , Yn eine davon unabhängige Stichprobe unabhängiger N (µ2 , σ22 )-verteilter Zufallsvariablen, so ist 2. Endliche Wahrscheinlichkeitsräume 3. Allgemeine Grenzwertsätze = := n→∞ n=1 ∞ X n=1 ∞ X n→∞ n≥k An k=1 n≥k P (An ) = 0, folgt die Behauptung. [ k=1 n≥k ∞ \ ≤ n≥k An P (An ). [ k=1 n≥k n≥k X ≤ P 22 Francesco Paolo Cantelli (1875-1966) lim lim lim lim lim lim e 0. ≤ = = k→∞ N →∞ k→∞ N →∞ k→∞ N →∞ e−P (An ) (1 − P (An )) P (An ) An n=k P − N n=k P (An ) N Y n=k N Y n=k = k→∞ N →∞ \ k≤n≤N N Y lim lim k→∞ N →∞ n≥k An lim lim P lim P k→∞ \ = = (∗∗) = (∗) b) Wir verwenden die Abschätzung 1 − t ≤ e−t für alle t ≥ 0 und beweisen die Behauptung über das Gegenereignis: ∞ [ ∞ \ \ [ = P An An 1−P k→∞ Da lim X P P (An ) = ∞ und unabhängigen Ereignissen {An } folgt: P (lim sup An ) = 1. n→∞ P (An ) < ∞ folgt P (lim sup An ) = 0. a) Es gilt: Beweis: b) Für a) Aus Lemma 1 (Borel-Cantelli22 ): Sei {An }n∈N eine Folge von Ereignissen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt: n→∞ An {ω | ω ∈ An für unendliche viele n}. k=1 n≥k Insbesondere gilt: Ilim sup An = lim sup IAn . n→∞ lim sup An ∞ [ \ Zunächst betrachten wir eine Folge {An }n∈N von Ereignissen eines meßbaren Raumes (Ω, A). Sei 3.1. Null-Eins-Gesetze 3. Allgemeine Grenzwertsätze 47 48 ⇒ B \ A ∈ D. \ ⇒ n=1 ∞ [ An ∈ D. {D ⊂ 2Ω | D Dynkin-System und E ⊂ D} 23 Eugene à (B \ A) ∩ Borisovich Dynkin (geb. 1924) Also: B \ A ∈ %i0 . P à i∈I1 \ Ai !! = = = = a) Ei0 ∈ %i0 nach Voraussetzung. b) Zu zeigen: %i0 ist ein Dynkin-System. i) Ω ∈ %i0 ist klar. ii) Seien A, B ∈ %i0 mit A ⊂ B. Dann folgt: Zu zeigen ist also λ(Ei0 ) ⊂ %i0 . B∩ Y i∈I1 i∈I1 Y !! −P à i∈I1 P (Ai ) · P (B \ A). i∈I1 \ Ai P (Ai ) à Y A∩ P (Ai ) · (P (B) − P (A)) i∈I1 Ai P (Ai ) − P (A) · i∈I1 \ Y à P (B) · à %i0 := {A ∈ A | {A} und Ei für i ∈ I1 stochastisch unabhängig}. !! Beweis: Es reicht nachzuweisen, daß λ(Ei0 ) und Ei für i ∈ I1 mit i0 ∈ I \ I1 stochastisch unabhängig sind (I1 endlich). Wir verwenden wieder das Beweisprinzip der lieben Mengen. Sei Lemma 2: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und Ei ⊂ A stochastisch unabhängige Mengensysteme (i ∈ I). Dann sind auch λ(Ei ) für i ∈ I stochastisch unabhängig. das von E erzeugte Dynkin-System. λ(E) = b) Sei Ω eine Menge und E ⊂ 2Ω . Dann ist iii) An ∈ D für n ∈ N und An paarweise disjunkt. i) Ω ∈ D. ii) A, B ∈ D, A ⊂ B a) Sei Ω eine Menge und D ⊂ 2Ω ein System von Teilmengen. D heißt Dynkin-System, falls Definition 1 (Dynkin23 -Systeme): Im folgenden wollen wir Mengensysteme von unabhängigen Ereignissen betrachten: E1 , E2 ∈ A unabhängig. Dann folgt nicht, daß σ(E1 ) und σ(E2 ) unabhängig sind. Deshalb betrachten wir Erweiterungen von E1 und E2 , die die Unabhängigkeitseigenschaft erhalten. Beispiel: Angenommen, ¢ wir betrachten (Ω∞ , A∞ , P∞ ) als abzählbaren Produktraum von (Ωi , Ai , Pi ) = ¡ {1, . . . , 6}, 2{1,...,6} , Pi mit Pi ({k}) = 16 für k ∈ {1, . . . , 6}, wir würfeln quasi unendlich oft. Das Ereignis, unendlich oft eine 6 zu würfeln, hat die Wahrscheinlichkeit 1, das Ereignis, nur endlich oft eine 1 zu würfeln, dagegen die Wahrscheinlichkeit 0. (∗) wegen der Stetigkeit von unten (∗∗) wegen der Stetigkeit von oben 3. Allgemeine Grenzwertsätze i=1 Bi ∈ % i0 . i=1 Bi ! ∩ Insgesamt ergibt sich: λ(ξi0 ) ⊂ %i0 . Also: ∞ [ P Ãà ∞ [ à i∈I1 \ Ai !! = = = = P i=1 Bi j∈I1 Aj j∈I1 A j P (Aj ). P (Bi ) Y i=1 ! P (Aj ) ∞ X P (Bi ) · P \ j∈I1 \ P B i ∩ Ã∞ [ j∈I1 Y i=1 ∞ X i=1 ∞ X iii) Seien (Bn )n∈N disjunkte Mengen aus %i0 . Dann gilt: 3. Allgemeine Grenzwertsätze MD = {A ⊂ Ω | A ∩ D ∈ λ(E)} ME = {A ⊂ Ω | A ∩ E ∈ λ(E)} ∈ = λ(E). ∈λ(E) ∈λ(E) (B ∩ D) \ (A ∩ D) | {z } | {z } n∈N [ An ∈ MD . ∈ n∈N λ(E). ∈λ(E) für für für für alle alle alle alle E ∈ E, A ∈ λ(E), D ∈ λ(E), D ∈ λ(E). Mengensystem M heißt durchschnittsstabil, wenn für je zwei Mengen aus M auch ihr Durchschnitt zu M gehört. Somit ist auch λ(E) durchschnittsstabil. λ(E) ⊂ ME =⇒ A ∩ E ∈ λ(E) =⇒ E ⊂ MD =⇒ λ(E) ⊂ MD Folglich ist E ⊂ ME für alle E ∈ E, da E durchschnittsstabil ist. Es ergibt sich: Also: n∈N Also: B \ A ∈ MD . c) Seien (An )n∈N ⊂ MD disjunkte Mengen. Dann gilt: ! à [ [ An ∩ D = (An ∩ D) | {z } (B \ A) ∩ D a) Ω ∩ D = D ∈ λ(E), also: Ω ∈ MD . b) Seien A, B ∈ MD mit A ⊂ B. Dann folgt: für ein D ∈ λ(E). Zunächst einmal sind MD und damit auch ME Dynkinsysteme, denn: für ein E ∈ E und Beweis: Sei Lemma 3: Sei E ein durchschnittsstabiles24 Mengensystem zu (Ω, A, P ). Dann ist λ(E) ebenfalls durchschnittsstabil. 24 Ein 49 50 An λ(E). ∈ = Bn λ(E). n=1 ∞ [ Ai \ (A1 ∩ . . . ∩ Ai−1 ) Ai ∩ A1 ∩ . . . ∩ Ai−1 n=1 ∞ [ ∈ = = m≥n D = {D ∈ A | P (A ∩ D) = P (A) · P (D)} e n . Da A en e durchschnittsstabil ist: Seien E, F ∈ A, e so existiert ein n0 mit E, F ∈ A Zeige nun, daß A 0 0 e n ⊂ A, e d.h. A e ist durchschnittsstabil. durchschnittsstabil ist, folgt E ∩ F ∈ A 0 n=1 die Menge der von A unabhängigen Ereignisse. Es gilt nun A∞ ⊂ D, denn: e n unabhängig von σ(An+1 ∪An+2 ∪. . .). Da A ∈ σ(An+1 ∪An+2 ∪. . .) e n = σ(A1 ∪. . .∪An ), so ist A Sei A ∞ [ e n ⊂ D für alle n ∈ N und A e= e n ⊂ D. gilt, folgt A A Beweis: Seien A ∈ A∞ und Satz 6 (Null-Eins-Gesetz von Kolmogoroff ): Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und sei (An )n∈N eine Folge von unabhängigen σ-Algebren An ⊂ A. Dann gilt für jedes terminale Ereignis A ∈ A∞ : P (A) ∈ {0, 1}. Wir werden A∞ insbesondere für die von einer Folge von Zufallsvariablen Xn auf (Ω, A, P ) erzeugten σ-Algebren An (n ∈ N) betrachten. die σ-Algebra der terminalen Ereignisse zur Folge (An )n∈N . n∈N Definition 2: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und sei (An )n∈N eine Folge von σ-Algebren auf Ω mit An ⊂ A. Dann heißt \ [ A∞ := σ Am (Aj )j∈J stochastisch unabhängig. e j das System aller Mengen Ei ∩ . . . ∩ Ei mit Ei ∈ Ei und {i1 , . . . , ik } ∈ Ij . Nun ist Beweis: Sei E 1 n k ³k´ e j durchschnittsstabil, stochastisch unabhängig und es gilt: Aj = σ E e j . Also folgt die Behauptung. E Satz 5: Sei (Ei )i∈I eine Familie von stochastisch unabhängigen und durchschnittsstabilen Mengensystemen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Sei (Ij )j∈J eine Zerlegung von I in disjunkte Mengen ³S ´ Ij und sei Aj = σ i∈Ij Ei die von allen Ei erzeugte σ-Algebra (mit i ∈ Ij ), so ist auch die Familie Beweis: Die Behauptung folgt sofort aus Lemma 2 und Lemma 4. Satz 4: Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum sowie Ei ⊂ A durchschnittsstabile und stochastisch unabhängige Mengensysteme für i ∈ I. Dann sind σ(Ei ) für i ∈ I stochastisch unabhängig. für i ≥ 2. Dann folgt: Bi a) ∅ ∈ λ(E), da Ω ∈ λ(E) und somit ∅ = Ω \ Ω ∈ λ(E). b) A ∈ λ(E) ⇒ A = Ω \ A ∈ λ(E). c) Sei An ∈ λ(E) für alle n ∈ N. Definiere B1 = A1 und Beweis: Nach Lemma 3 folgt bereits, daß λ(E) durchschnittsstabil ist. Nun weisen wir noch die σ-Algebra-Eigenschaften nach: Lemma 4: Sei Ω eine Menge und E ⊂ 2Ω . Ist E durchschnittsstabil, so gilt: λ(E) = σ(E). 3. Allgemeine Grenzwertsätze m≥n [ P (A) = P (A ∩ A) = P (A) · P (A) = ∈ [P (A)]2 {0, 1}, ³ ´ ³ ´ e für alle n ∈ N, folgt A∞ ⊂ σ A e ⊂ D. Für A ∈ D gilt aber Am ⊂ σ A 3. Allgemeine Grenzwertsätze n→∞ n=1 ∞ [ Fn erzeugt mit Fn = σ(Π1 , . . . , Πn ). Nun kann A ∈ B∞ = n + 1, = 1, τn (2) = n + 2, τn (n + 2) = 2, ..., ..., τn (n) τn (2n) = = Jimmie Savage (1917-1971) {ω | X(ω) ∈ Cn } = {ω | (X1 (ω), . . . , Xn (ω)) ∈ Bn }. Da Cn ∈ σ(Π1 , . . . , Πn ), so existiert ein Bn ∈ Bn mit τn (1) τn (n + 1) b) Sei nun τn die endliche Permutation von N mit τn (k) = k für k > 2n und n→∞ 2n n. sowie durch C ∈ A0 , mit P X (A M C) beliebig klein, approximiert werden. Wegen F1 ⊂ . . . ⊂ Fn ⊂ Fn+1 ⊂ . . . gibt es eine Folge Cn ∈ Fn mit lim P X (A M Cn ) = 0. auf Rn wird von der Algebra A0 = B∞ = σ(Π1 , . . . , Πn , n ∈ N) a) Sei Πn : RN → R die n-te kanonische Projektion, d.h. Πn (x) = xn für x = (xn )n∈N . Die σ-Algebra Beweis: Satz 7 (Null-Eins-Gesetz von Hewitt-Savage25 ): Es sei X = (Xn )n∈N eine Folge unabhängig identisch verteilter Zufallsvariablen auf (Ω, A, P ). Dann gilt für jede bzgl. X permutierbare Menge A ∈ B∞ : P (X ∈ A) = P X (A) ∈ {0, 1}. tierbar. n→∞ Beispiel: Die Funktionen X → lim sup(X1 + . . . + Xn ) oder X → lim inf (X1 + . . . + Xn ) sind permu- {ω | τ X(ω) ∈ A} = {ω | X(ω) ∈ A}. für alle ω ∈ Ω und alle endlichen Permutationen τ von N. Analog heißt eine Menge A ∈ B ∞ permutierbar, wenn IA permutierbar ist, d.h. wenn gilt: g(τ X(ω)) = g(X(ω)) Definition 3: Sei X = (Xn )n∈N eine Folge von Zufallsvariablen auf (Ω, A, P ), d.h. X ist eine meßbare Funktion bzgl. (RN , B∞ ). Eine meßbare Funktion g : RN → R heißt (endlich) permutierbar , wenn Im folgenden betrachten wir eine Folge X = (Xn )n∈N von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Außerdem betrachten wir Umordnungen (τ X) = (Xτ (n) )n∈N der Folge von Zufallsvariablen, wobei τ : N → N eine endliche Permutation von N ist, d.h. τ ist eine Bijektion und es existiert ein n0 ∈ N mit τ (n) = n für alle n ≥ n0 . da nur Ereignisse mit Wahrscheinlichkeit 0 oder 1 zu sich selber unabhängig sind. Da aber σ 25 Leonard 51 = P (X ∈ Mn ). = P ((Xn+1 , . . . , X2n ) ∈ Bn ) = P (τn X ∈ Cn ) = P ((X1 , . . . , Xn ) ∈ Bn ) 52 = = [P X (Cn )]2 . P X (Cn ) · P X (Mn ) P X (A ∩ Cn ) = P X (A ∩ Mn ), {τn X ∈ A ∩ Cn } = {X ∈ A ∩ Mn }. lim [P X (Cn )]2 [P (A)]2 . = = n→∞ X lim P X (Cn ∩ Mn ) = n→∞ 0. P X (A M Cn ) + P X (A M Mn ) 2P X (A M Cn ) n→∞ n→∞ n→∞ n→∞ Somit folgt γ = X1 + γ P -fast-sicher und damit γ = ±∞, da X1 6= 0. Analoges folgt für lim sup Sn . n→∞ lim inf Sn = γ = lim inf (X2 + . . . + Xn+1 ). Beweis: Nach der vorhergehenden Folgerung gilt lim inf Sn = γ ∈ R. Also folgt aus der Annahme n→∞ identisch verteilter Zufallsvariablen: n→∞ c) lim inf Sn = −∞ und lim sup Sn = ∞. n→∞ b) lim Sn = −∞ oder n→∞ a) lim Sn = ∞, Satz 8: Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen auf (Ω, A, P ) mit P (Xn = 0) < 1 für alle n ∈ N, so gilt für Sn = X1 + . . . + Xn entweder n→∞ Beispiel: Zu einer Folge X = (Xn )n∈N unabhängiger und identisch verteilter Zufallsvariablen auf (Ω, A, P ) gilt: lim sup(X1 + . . . + Xn ) und lim inf (X1 + . . . + Xn ) sind P -fast-sicher konstant. Beweis: Für jede Zahl γ ∈ R = R ∪ {−∞} ∪ {∞} ist die Menge A = {g ≤ γ} bzgl. X permutierbar. Also folgt: P X (g ≤ γ) = P X (A) ∈ {0, 1}. P X (A) = n→∞ ≤ = Folgerung: Sei X = (Xn )n∈N eine Folge unabhängiger identisch verteilter Zufallsvariablen auf (Ω, A, P ). Ist g : RN → R eine B∞ -B-meßbare Funktion, welche bzgl. der Folge X permutierbar ist, so ist die Zufallsvariable g P X -fast-sicher konstant, d.h. g ◦ X ist P -fast-sicher konstant. d) Also folgt aus a), b) und c): P X (A M (Cn ∩ Mn )) da X und τn X gleich verteilt sind. Da A M (Cn ∩ Mn ) ⊂ (A M Cn ) ∪ (A M Mn ), erhalten wir Außerdem gilt c) Nun gilt {τn X ∈ Cn } = {X ∈ Mn } nach Definition von Mn und {τn X ∈ A} = {X ∈ A}, da A permutierbar ist. Also folgt: P X (Cn ∩ Mn ) Wegen Cn ∈ σ(Π1 , . . . , Πn ) und Mn ∈ σ(Πk , k ≥ n + 1) sind Cn und Mn bzgl. P X unabhängig, d.h.: P (X ∈ Cn ) Sei nun Mn = {X ∈ RN | τn X ∈ Cn }. Da die Xn unabhängig und identisch verteilt sind, gilt: 3. Allgemeine Grenzwertsätze 26 3. Allgemeine Grenzwertsätze f (X(ω))− = ≤ max{0, −f (X(ω))} max{0, −f (E(X)) − df (E(X) + 0)(X(ω) − E(X))}. X i=1 (∗) ergibt sich: erhalten wir 1 n n n i=1 yi yiαi ≤ qQ i=1 n Y ≤ n αi yi . 1X yi n i=1 i=1 n X (∗∗) 27 Eine Ludwig Jensen (1859-1925) Funktion heißt konvex , wenn für alle x, y ∈ R und α ∈ (0, 1) gilt: f (αx + (1 − α)y) ≤ αf (x) + (1 − α)f (y). 26 Johan für alle y1 , . . . , yn > 0. Diese Ungleichung wird auch als Ungleichung zwischen geometrischem und arithmetischem Mittel bezeichnet. Für αi = Mit yi = e xi ≤ E(e ). Für eine Zufallsvariable X auf einem endlichen Folgerung: Es gilt insbesondere e Wahrscheinlichkeitsraum (Ω, A, P ) mit Ω = {ω1 , . . . , ωn }, αi = P (ωi ) und xi = X(ωi ) für i = 1, . . . , n gilt: n X Pn α i ex i . eE(X) = e i=1 αi xi ≤ E(X) E(f (X)) ≥ f (E(X)). E(f (X)) ≥ f (E(X)) + df (E(X) + 0)(E(X − E(X))). Da aber E(X − E(X)) = 0, gilt: und somit: f (X(ω)) − f (E(X)) − df (E(X) + 0)(X(ω) − E(X)) ≥ 0, Somit gilt: E(f (X(ω))− ) < ∞. Aus (∗) folgt dann: Daraus folgt: f (X(ω)) ≥ f (E(X)) + df (E(X) + 0)(X(ω) − E(X)). für alle x, y ∈ R. Folglich gilt für alle ω ∈ Ω: f (y) ≥ f (x) + (df (x + 0))(y − x) Beweis: Als konvexe Funktion auf R ist f stetig und somit meßbar. Y ist also eine Zufallsvariable. Weiterhin besitzt f in allen Punkten eine rechtsseitige Ableitung df (x + 0) und es gilt Satz 9 (Jensensche Ungleichung ): Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit |E(X)| < ∞. Sei f : R → R eine konvexe Funktion27 . Dann ist Y = f (X) eine Zufallsvariable mit E(f (X)) < ∞ und es gilt f (E(X)) ≤ E(f (X)). 3.2. Gesetze der großen Zahlen 53 54 1 1 E(|X · Y |) ≤ (E(|X|p )) p · (E(|Y |q )) q . 1 1 E à 1 p |X| 1 (E(|Y |q )) |Y | (E(|X|p )) p · · 1 q 1 ! = ≤ 1. 1 1 ·1+ ·1 p q ¶ p1 µ ¶ q1 |X|p |Y |q · p q E(|X|) E(|Y |) µ ¶ µ ¶ 1 |X|p |Y |q 1 + . p E(|X|p ) q E(|Y |q ) µ (E(|Y |q )) q |Y | ≤ (∗∗) = + 1 q 1 q ) ≤ ¢1 1 ¡ (E(|X|p )) p E((X + Y )(p−1)q ) q , ¢1 1 ¡ p p (p−1)q q (E(|Y | )) E((X + Y ) ) . = p1 , folgt Teil b). (E(|X + Y |p )) 1− q1 ´ ³ 1 1 ≤ (E(|X|p )) p + (E(|Y |p )) p . ´ ³ 1 1 1 E(|X + Y |p ) ≤ (E (|X + Y |p )) q · (E(|X|p )) p + (E(|Y |p )) p . 30 Dies 1 ε2 i=1 Var(Xi ). falls g(ε) 6= 0.30 Hölder (1859-1937) Minkowski (1864-1909) ist die Tschebyscheffsche Ungleichung für g mit g(x) = x2 und X0 = Y − E(Y ). 29 Hermann 28 Otto i=1 n X 1 ε2 E(|X0 |). 1 g(ε) E(g(|X0 |)), b) P (|X0 | ≥ ε) ≤ ¯ ï n ! ¯X ¯ ¯ ¯ c) P ¯ Xi ¯ ≥ ε ≤ ¯ ¯ a) P (|X0 | ≥ ε) ≤ Satz 11: Seien X0 , X1 , . . . , Xn Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und g : [0, ∞) → [0, ∞) eine streng monoton wachsende Funktion. Es gelte außerdem E(X i ) = 0 für i = 1, . . . , n, d.h. die Zufallsvariablen sind zentriert, und E(Xi · Xj ) = 0 für i, j = 1, . . . , n, i 6= j, d.h. X1 , . . . , Xn sind unkorreliert. Dann folgt für alle ε > 0: Da 1 − E(Y (X + Y ) ≤ = 1, folgt pq = p + q und damit auch (p − 1)q = p. Also gilt: Somit folgt: Da 1 p p−1 E(X(X + Y )p−1 ) Daraus folgt die Behauptung. b) Sei ohne Beschränkung der Allgemeinheit X, Y > 0, E((X+Y )p ) > 0 und E(|X|p )+E(|Y |p ) < ∞. Weiter gilt (X + Y )p = X(X + Y )p−1 + Y (X + Y )p−1 . Mit der Hölder-Ungleichung folgt: Also folgt: (E(|X|p )) |X| a) Ohne Beschränkung der Allgemeinheit sei 0 < E(|X|p ) < ∞ und 0 < E(|Y |p ) < ∞. Dann folgt: Beweis: 1 (E(|X + Y |p )) p ≤ (E(|X|p )) p + (E(|Y |p )) p . b) Die Minkowski-Ungleichung: Im Fall p = q = 2 nennt man die Hölder-Ungleichung auch Cauchy-Schwarz-Ungleichung. a) Die Hölder-Ungleichung: Satz 10 (Ungleichungen von Hölder28 , Cauchy-Schwarz und Minkowski29 ): Seien X und Y zwei Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und p, q ∈ (1, ∞) mit p1 + 1q = 1. Dann gelten folgende Ungleichungen: 3. Allgemeine Grenzwertsätze 55 ω| Z g(|X0 |) ≥1 g(ε)≥1 o i=1 = = = ≤ 1 g(|X0 |) dP g(ε) Ω 1 E(g(|X0 |)). g(ε) n g(|X0 |) ≥1} g(ε) n ω| n 1 X Var(Xi ). 2 ε i=1 n 1 X E(Xi2 ) 2 ε i=1 n n 1 XX E(Xi · Xj ) 2 ε i=1 j=1 !2 g(|X0 |) <1 g(ε) n 1 X E Xi ε2 i=1 à Z 1 dP g(|X0 |) dP + g(ε) {ω|X0 (ω)≥ε}={ω| ¯ ! ï n ¯X ¯ ¯ ¯ Xi ¯ ≥ ε P ¯ ¯ ¯ = = ≤ Z P (g(|X0 |) ≥ g(ε)) ¶ µ g(|X0 |) ≥1 = P g(ε) Z = = o g(|X0 |) dP g(ε) n 1 X P Xi → 0. an i=1 Satz 13 (Schwaches Gesetz der großen Zahlen): Sei (Xn )n∈N eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit E(Xn ) = 0, E(Xn2 ) < ∞ und E(Xn · Xm ) = 0 für n, m ∈ N n 1 X E(Xi2 ) = 0 erhalten wir: mit n 6= m. Für jede Folge (an )n∈N von reellen Zahlen mit lim 2 n→∞ an i=1 Beweis: ,→ Übung. Lemma 12: Seien (Xn )n∈N und X Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), so P folgt aus Xn → X f.s. auch Xn → X, aber nicht umgekehrt. b) Wir sagen, (Xn )n∈N konvergiert P -fast-sicher oder konvergiert stark gegen X (Xn → X f.s.), falls P ({ω | Xn (ω) → X(ω), n → ∞}) = 1. a) Wir sagen, (Xn )n∈N konvergiert P -stochastisch oder konvergiert schwach gegen X (X n → X), falls P (|Xn − X| > ε) → 0 (n → ∞) für alle ε > 0 gilt. P Definition 4: Sei (Xn )n∈N eine Folge von Zufallsvariablen und X eine Zufallsvariable auf (Ω, A, P ). c) P (|X0 | ≥ ε) b) Wir unterscheiden zwischen ω mit X0 (ω) ≥ ε und ω mit X0 (ω) < ε: a) Ist ein Spezialfall von b). Beweis: 3. Allgemeine Grenzwertsätze → = ≤ 0. (n → ∞) n 1 X E(Xi2 ) ε2 a2n i=1 µ ¶ n Xi 1 X Var ε2 i=1 an n n 1X P Yi → E(Y1 ). n i=1 1 n i=1 n X f.s. (Xi − E(Xi )) → 0. i=1 (n) i=1 kn 1 X f.s. X + → E(Xi+ ). kn i=1 i iv) Ersetze nun Yi durch Xi+ , weise also nach: kn 1 X f.s. Yi → E(Xi+ ). kn i=1 iii) Ersetze nun E(Yi ) durch E(Xi+ ), weise also nach: ii) Für α > 1 sei kn = [αn ] ∈ N und Yi = Xi+ · I(Xi+ < n) gekappte“ Zufallsvariablen. Nach ” einiger Rechnung erhält man: ¯ ¯ kn ¯ 1 X ¯ ¯ ¯ f.s. (Yi − E(Yi ))¯ → 0. ¯ ¯ kn ¯ i=1 Beweis: a) ,→ Übung. b) Siehe Bauer, Maß- und Integrationstheorie, für die ausführliche Fassung des Beweises. Hier eine Beweisskizze: n n X X f.s. f.s. i) Es reicht zu zeigen, daß n1 Xi+ → E(X1+ ) und n1 Xi− → E(X1+ ). Dann folgt: a) Var(Xn ) ≤ m < ∞ für alle n ∈ N erfüllen oder b) integrierbar und identisch verteilt sind. Satz 14 (Starkes Gesetz der großen Zahlen): Sei (Xn )n∈N eine Folge von paarweisen unabhängigen Zufallsvariablen, die entweder Außerdem folgt sofort das Bernoullische schwache Gesetz der großen Zahlen für binomialverteilte Zufallsvariablen (siehe Seite 23). 1X P (Yi − E(Yi )) → 0 n i=1 ⇐⇒ n 1 X 1 Var(Yi ) = lim Var(Y1 ) = 0 2 n→∞ n n i=1 die Voraussetzungen erfüllt sind, gilt: lim n→∞ Da für Xn = Yn − E(Y1 ), n ∈ N, an = n wegen i=1 ¯ ï ! n ¯ ¯ 1 X ¯ ¯ Xi ¯ ≥ ε ¯ ¯ ¯ an 56 Insbesondere folgt für eine Folge unabhängiger und identisch verteilter Zufallsvariablen (Yn )n∈N mit Var(Yn ) < ∞: n 1X P Yn = Yi → E(Y1 ). n i=1 P Beweis: Sei ε > 0, so folgt: 3. Allgemeine Grenzwertsätze 3. Allgemeine Grenzwertsätze 1 #{i ∈ {1, . . . , n} | Xi ≤ t} =: Fn (t). n t∈R sup |Fn (t) − F (t)| → 0. f.s. n 1X f.s. I(−∞,t] (Xi ) → F (t), n i=1 = = ≤ t ≤ F (t) < tjk +1,k ≤ F (tjk +1,k − 0). j,k∈N und Aj,k ∩ Bj,k = 1. Sei nun ω ∈ j,k∈N EP0 (f (X0 )) für alle stetigen und beschränkten reellen Funktionen f : R → R gilt. EPn (f (Xn )) Wahrscheinlichkeitsraum (Ω0 , A0 , P0 ). Wir sagen, (Xn ) konvergiert in Verteilung gegen X0 (Xn → X0 ), falls Z Z f (Xn (ω)) dPn (ω) = f (X0 (ω)) dP0 (ω) lim n→∞ Ω Ω | n {z } | 0 {z } für Wahrscheinlichkeitsräume (Ωn , An , Pn ), n ∈ N. Sei außerdem X0 eine Zufallsvariable auf einem Xn : (Ωn , An , Pn ) → (R, B) Definition 5 (Verteilungskonvergenz): Sei (Xn )n∈N eine Folge von Zufallsvariablen 3.4. Verteilungskonvergenz und zentraler Grenzwertsatz d Aj,k ∩Bj,k Aus Fn (ω, tjk ,k ) → F (tjk ,k ) und Fn (ω, tjk +1,k − 0) → F (tjk +1,k − 0) folgt Fn (t) → F (t). tjk ,k F (tjk ,k ) und t ∈ R. Dann existieren k und jk mit \ {ω | Fn (tj,k ) → F (tj,k )}, {ω | Fn (tj,k − 0) → F (tj,k − 0)}. Dann folgt mit a): P (Aj,k ∩Bj,k ) = 1 und P Aj,k Bj,k b) Gleichmäßige Konvergenz. Seien tj,k = inf{t ∈ R | F (t) ≥ kj } und 1 f.s. Fn (t − 0) = I(−∞,t) (Xi ) → F (t − 0). n ¡ ¢ da E I(−∞,t] (Xi ) = F (t) ist. Damit gilt: Fn (t) = \ Für die Folge (Xn )n∈N unabhängiger und identisch verteilter Zufalls- a) Punktweise Konvergenz. Nach dem starken Gesetz der großen Zahlen gilt für alle t ∈ R Beweis: Satz 15 (Glivenko-Cantelli): variablen gilt: Fn ist (für jedes ω ∈ Ω) eine Treppenfunktion. Fn (t) ist für jedes t ∈ R eine Zufallsvariable. F (t) = P (X ≤ t) ≈ In diesem Abschnitt betrachten wir eine Folge (Xn )n∈N von unabhängigen und identisch wie X verteilten Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Als Approximation der Verteilungsfunktion von X kann die empirische Verteilungsfunktion Fn der Stichprobe X1 , . . . , Xn betrachtet werden: 3.3. Die empirische Verteilungsfunktion 57 58 d ≤ I1 = = = {ω | |X0 | > Mε }, {ω | |X0 | ≤ Mε , |Xn − X0 | ≤ ε0 }, {ω | |X0 | ≤ Mε , |Xn − X0 | > ε0 }. I3 Ωn 31 Wir n→∞ schreiben auch kurz: f ∈ C (r) (R). n→∞ Analog folgt: lim inf Fn (t) ≥ F0 (t) − ε. Insgesamt gilt dann: lim Fn (t) = F0 (t). F0 (t + δ) F0 (t) + ε. = ≤ a) ⇒ b)“: Klar, da alle Funktionen f ∈ C (r) (R) auch stetig und beschränkt sind. ” b) ⇒ c)“: Sei t ein Stetigkeitspunkt von F0 und ε > 0. Dann existiert ein δ > 0, so daß |F0 (t) − ” F0 (s)| ≤ ε für alle |t − s| ≤ δ. Seien nun f und f aus C (r) (R) mit f (s) = f (s) = 1 für s < t − δ und f (s) = f (s) = 0 für s > t + δ. Weiterhin gelte f (t) = 0 und f (t) = 1. f und f sind monoton fallend. Es folgt: Z lim sup Fn (t) = lim sup I(−∞,t] (x) dFn (x) n→∞ n→∞ Z ≤ lim sup f (x) dFn (x) n→∞ Z = f (x) dF0 (x) Z ≤ I(−∞,t+δ] (x) dF0 (x) Beweis: c) Fn (t) → F0 (t) für alle Stetigkeitspunkte t von F0 . bis r-te Ableitung auf R gleichmäßig stetig und beschränkt sind31 für r ∈ N. n→∞ a) Xn → X0 . Z Z f (Xn ) dPn = f (X0 ) dP0 für alle r-mal differenzierbaren Funktionen f : R → R, deren 0-te b) lim d Satz 17: Sei (Xn )n∈N∪{0} eine Folge von Zufallsvariablen mit Xn : (Ωn , An , Pn ) → (R, B), wobei (Ωn , An , Pn ) Wahrscheinlichkeitsräume für n ∈ N ∪ {0} sind. Dann sind äquivalent: Ω0 DieZUmkehrung ist im Z Allgemeinen falsch. Sei zum BeispielPX n = −X0 ∼ N (0, 1) für d f (Xn ) dPn = f (X0 ) dP0 und Xn → X0 , aber Xn 6→ X0 . n ∈ N. Dann folgt: Bemerkung: ≤ 2kf k∞ ε + ε + 2kf k∞ ε = ε(4kf k∞ + 1). 2kf k∞ P (|X0 | > Mε ) + εP (|X0 | ≤ Mε , |Xn − X0 | ≤ ε0 ) +2kf k∞ P (|Xn − X0 | > ε0 ) I2 Es folgt dann mit einem genügend großen n, so daß P (|Xn − X0 | > ε0 ) ≤ ε gilt: ¯Z ¯Z ¯ ¯ ¯Z ¯ ¯Z ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ g(ω) dP (ω)¯ ≤ ¯ g(ω) dP (ω)¯¯ + ¯¯ g(ω) dP (ω)¯¯ + ¯¯ g(ω) dP (ω)¯¯ ¯ ¯ ¯ Ω I1 I2 I3 Beweis: Sei ε > 0 beliebig. Dann existiert ein Mε < ∞ mit P (|X0 | ≤ Mε ) ≥ 1 − ε. Sei nun f eine beliebige stetige und beschränkte Funktion. Dann ist f auf [−2Mε , 2Mε ] gleichmäßig stetig, d.h. es existiert ein δ > 0 mit |f (x) − f (y)| ≤ ε für x ∈ [−2Mε , 2Mε ] und |x − y| ≤ δ. Definiere nun g(ω) = f (Xn (ω)) − f (X0 (ω)), ε0 = min(Mε , δ) und Xn → X0 , so gilt auch Xn → X0 . P Satz 16: Sei (Xn )n∈N eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit 3. Allgemeine Grenzwertsätze 59 ≤ → ≤ c), n→∞ 2kf k∞ · [F0 (−M ) + 1 − F0 (M )] 4kf k∞ ε. Sj (kf k∞ + ε) j=1 m X |Fn (tj ) − F0 (tj ) − Fn (tj−1 ) + F0 (tj−1 )| n→∞ n→∞ d Somit gilt: Xn → δ{x0 } . n→∞ f ür x < x0 , f ür x > x0 . lim Fn (x) = 1 n→∞ n→∞ lim Fn (x) = 0 b) Es gelte Xn → δ{x0 } mit einer reellen Zahlenfolge {xn }n∈N , wobei δ das Einpunktmaß bezeichnet, und lim xn = x0 ∈ R. Dann folgt: gilt: Xn → X0 . d a) Seien Xn ∼ N (µn , σn2 ), X0 ∼ N (µ0 , σ02 ), σn2 > 0, σ02 > 0, lim µn = µ0 und lim σn2 = σ02 . Dann Beispiele: Nun einige Beispiele für in Verteilung konvergente Folgen von Zufallsvariablen (Xn )n∈N . n→∞ ≤ c) ≤ (kf k∞ + ε)ε. Z Z f (Xn ) dPn = f (X0 ) dP0 . Insgesamt ergibt sich: lim j=1 m X Für hinreichend große n folgt: ¯ ¯ Sj ≤ (|f (tn )| + ε) · ¯[Fn (tj ) − Fn (tj−1 )] − [F0 (tj ) − F0 (tj−1 )]¯. kf k∞ · [Fn (−M ) + 1 − Fn (M ) + F0 (−M ) + 1 − F0 (M )] Nun eine Abschätzung für Sj : Γ Zunächst gilt: Γ Es gilt dann: ¯Z ¯ Z Z Z m X ¯ ¯ ¯ f (Xn ) dPn − f (X0 ) dP0 ¯ ≤ |f (Xn )| dPn + |f (X0 )| dP0 + Sj . ¯ ¯ {|X |≥M } {|X0 |≥M } | n {z } j=1 für alle i = 1, . . . , m. Definiere ¯Z ¯ Z ¯ ¯ ¯ ¯ f (Xn ) dPn − f (X0 ) dP0 ¯ Sj := ¯ ¯ {tj−1 ≤Xn ≤tj } ¯ {tj−1 <X0 <tj } c) ⇒ a)“: Sei f : R → R eine beschränkte und stetige Funktion. Da F0 monoton ist, hat F0 höchstens ” abzählbar viele Unstetigkeitsstellen UF0 . Wähle wieder zu ε > 0 ein M < ∞ mit −M, M ∈ / U F0 , F0 (−M ) ≤ ε und F0 (M ) ≥ 1 − ε. Auf dem kompakten Intervall [−M, M ] ist f gleichmäßig stetig. Wähle t0 , . . . , tm ∈ R \ UF0 mit −M = t0 < t1 < . . . < tm = M und ¯ sup{|f (x) − f (y)| ¯ x, y ∈ [ti−1 , ti ]} ≤ ε 3. Allgemeine Grenzwertsätze 60 = Ωn Ωn kn Sn d 1 X Xn,j = → N (0, 1). sn j=1 sn ∃δ > 0 : kn 1 X s2+δ n j=1 max 2 σn,j → 0. s2n b) 33 William kn Z 1 X X 2 dPn s2n j=1 {|Xn,j |>εsn } n,j Lyapunov (1857-1918) Feller (1906-1970) 32 Aleksandr a) Es gilt: Beweis: → = ≤ kn X 0. E(|Xn,j |2+δ ) (n → ∞) εδ s2+δ n j=1 1 ¶δ kn Z µ |Xn,j | 1 X 2 Xn,j dPn s2n j=1 εsn Es gilt also: Lyapunov-Bedingung =⇒ Lindeberg-Bedingung =⇒ Feller-Bedingung. a) Die Feller-Bedingung sagt aus, daß einzelne Summanden durch das Standardisieren an Bedeutung verlieren. 1≤j≤kn ∞ (n → ∞) < EPn (|Xn,j |2+δ ) → 0 b) Die Lindeberg-Bedingung impliziert die Feller33 -Bedingung impliziert die Lindeberg-Bedingung. a) Die Lyapunov32 -Bedingung Bemerkung: Beweis: Der Beweis erfolgt nach der nächsten Bemerkung. für alle ε > 0 erfüllt, so folgt: Ist nur die Lindeberg-Bedingung n Z 1 X X 2 (ω) dPn (ω) → 0 s2n j=1 {ω | |Xn,j (ω)|>εsn } n,j j=1 kn X 2 σn,j > 0. 2 Xn,j (ω) dPn (ω) Xn,j gelte auch = Z s2n = VarPn (Sn ) = j=1 kn X 2 E(Xn,j ) für alle j = 1, . . . , kn , n ∈ N. Für Sn = 2 σn,j Satz 18: Gegeben sei ein Dreiecksschema“ von Zufallsvariablen Xn,1 , . . . , Xn,kn : (Ωn , An , Pn ) → ” (R, B) mit kn ∈ N. Xn,1 , . . . , Xn,kn sind stochastisch unabhängig für jedes n ∈ N. Gilt außerdem Z E(Xn,j ) = Xn,j (ω) dPn (ω) = 0, Nun die allgemeine Grenzwertaussage zu Satz 2.9. von de Moivre und Laplace (siehe auch Seite 25). 3. Allgemeine Grenzwertsätze 61 2 σn,j s2n Sn sn d ε2 . → 0 nach Lindeberg → N (0, 1) bzw. für alle f ∈ C (3) (R) gilt: Z µ ¶ Z Sn dPn → f dN (0, 1). f sn ≤ ≤ = h∈Q = ¯ ¯ 2 ¯ ¯h sup ¯¯ (f 00 (x + ϑh) − f 00 (x))¯¯ x∈R 2 h 00 f (x + ϑh), 2 2 j=1 kn X j=1 kn X j=1 ηn,j ηn,j ∼ N (0, 1). Um Unabhängig- kn X j=1 Qnn,j η = 2 N (0, σn,j ). Mit Hilfe der kanonischen Projektionen ξn,1 , . . . , ξn,kn und ηn,1 , . . . , ηn,kn (alle unabhängig) erhalten wir dann für j = 1, . . . , kn : ξ X Qnn,j = Pn n,j , j=1 geeigneten¢ keitsaussagen treffen zu können, müssen Xn,j und ηn,j für j = 1, . . . , kn auf einem ¡ Wahrscheinlichkeitsraum definiert sein. Dazu betrachten wir den Produktraum R2kn , B2kn , Qn mit kn kn O O 2 PnXn,j ⊗ N (0, σn,j ) . Qn = 1 s2n Xn,j mit der Summe von normalverteilten Zufallsvariablen ≤ 2 mit ηn,j ∼ N (0, σn,j ). Wir verwenden die Tatsache, daß b) Wir vergleichen jetzt Sn = ½ K · min{h2 , h3 }, ¯¾ 1 1 ¯¯ ¯ wobei K = max sup |f 00 (x) − f 00 (y)|, sup ¯f (3) (x)¯ < ∞. Nun folgt: x,y∈R 2 x∈R 2 ¯ ¯ ¯ ¯ ¯f (x + h1 ) − f (x + h2 ) − (h1 − h2 )f 0 (x) − 1 (h21 − h22 )f 00 (x)¯ ≤ g(h1 ) + g(h2 ). ¯ ¯ 2 g(h) wobei ϑ = ϑ(x, h) ∈ (0, 1). Es folgt dann: f (x + h) = f (x) + hf 0 (x) + Mit dem Satz von Taylor folgt: h∈R sup |g(h)| = sup |g(h)|. Dann ist g stetig, beschränkt und meßbar. Es gilt: ≤ε sn 1 max |Xn,j |2 dPn 1≤j≤kn s2 n Z kn Z 1 X 1 |Xn,j |2 dPn + 2 max |Xn,j |2 dPn 2 sn j=1 {|Xn,j |>εsn } sn 1≤j≤kn {|Xn,j |≤εsn } | {z } | {z } 2 2 Z Sei also f ∈ C (3) (R). Definiere g : R → R durch ¯ ¯ ¯ ¯ h2 g(h) := sup ¯¯f (x + h) − f (x) − hf 0 (x) − f 00 (x)¯¯ . 2 x∈R a) Zu zeigen: Beweis zu Satz 18: 1≤j≤kn max b) Es gilt: 3. Allgemeine Grenzwertsätze j=1 kn X S0 i<j X ξn,i + i>j X j=1 Pk n ηn,j = N (0, 1). h³ Das heißt: ≤ = θn,j sn ´i = 0. 0 und j=1 j=1 ¯ · µ ¶ µ ¶ ¯ ¯E f θn,j + ξn,j − f θn,j + ηn,j ¯ sn sn µ ¶ µ ¶#¯¯ 2 2 − ηn,j θn,j 1 ξn,j ξn,j − ηn,j 0 θn,j ¯ 00 f f − − ¯ ¯ sn sn 2 s2n sn µ µ ¶¶ µ µ ¶¶ ξn,j ηn,j E g +E g . sn sn · f 00 ³ ¯ X ¯ µ µ ¶¶ Z µ µ µ µ ¶¶ X ¶¶ kn kn ¯ ¯ ξn,j ηn,j ¯E f S n E g E g − f dN (0, 1)¯¯ ≤ + . ¯ sn sn sn Also folgt aus a): ¯ · µ ¶ µ ¶¸¯ ¯ ¯ ¯E f θn,j + ξn,j − f θn,j + ηn,j ¯ ¯ ¯ sn sn 2 2 ξn,j −ηn,j 2sn ´ d) Da θn,j , ξn,j und ηn,j stochastisch unabhängig sind, folgt: ´ ³ ´i h³ ξn,j −ηn,j θ · f 0 sn,j = E sn n ≤ = ¯ ¯ ¯X · µ ¶ µ ¶¸¯ ¯ kn ¯ 1 1 ¯ E f (θn,j + ξn,j ) − f (θn,j + ηn,j ) ¯¯ ¯ s s n n ¯ j=1 ¯ ¶ µ ¶¸¯ kn ¯ · µ X ¯ ¯ 1 1 ¯E f (θn,j + ξn,j ) − f (θn,j + ηn,j ) ¯¯ . ¯ s s n n j=1 ηn,i für j = 1, . . . , kn folgt somit: E 62 ¶ µ ¶¸ · µ 1 1 (ξn,1 + . . . + ξn,kn ) − f (ηn,1 + . . . + ηn,kn ) E f sn sn · µ ¶ 1 = E f (ξn,1 + . . . + ξn,kn ) sn µ ¶¸ 1 −f (ξn,1 + . . . + ξn,kn −1 + ηn,kn ) sn · µ ¶ 1 +E f (ξn,1 + . . . + ξn,kn −1 + ηn,kn ) sn ¶¸ µ 1 (ξn,1 + . . . + ηn,kn −1 + ηn,kn ) −f sn +... · µ ¶ 1 +E f (ξn,1 + ηn,2 + . . . + ηn,kn ) sn µ ¶¸ 1 −f (ηn,1 + . . . + ηn,kn ) . sn = ¯ ¯ µ µ 0 ¶¶ Z ¯ ¯ ¯ ¯E f Sn − f dN (0, 1) ¯ ¯ sn Mit θn,j := 1 ξn,j gilt dann Qnn = PnSn und Qnsn c) Wir vergleichen nun: µ µ 0 ¶¶ Z Sn − f dN (0, 1) E f sn Mit Sn0 = 3. Allgemeine Grenzwertsätze σ2 n,j s2 n 3. Allgemeine Grenzwertsätze ≤ ≤ ¶ 0 µ µ ¶¶ ηn,j E g →0 s n j=1 kn X K0 ≤ n =1 n 2 σn,j σn,j X max . 2 j=1,...,kn sn s | {z } j=1 n | {z } → 0 nach Feller j=1 sn ¶3 kn µ X σn,j (n → ∞). K0 k µ µ ¶¶ ηn,j E g sn j=1 ï ¯ ! kn X ¯ ηn,j ¯3 ¯ K E ¯¯ sn ¯ j=1 kn X ≤ ≤ ≤ Pierre Lévy (1886-1971) Beweis: ,→ Übung. 1 X d √ (Xj − µ) → N (0, 1). σ n j=1 Satz von Lindeberg-Lévy34 : Es seien (Xn )n∈N : (Ω, A, P ) → (R, B) unabhängig und identisch verteilte Zufallsvariablen mit E(Xi ) = µ und Var(Xi ) = σ 2 ∈ (0, ∞) für alle i ∈ N. Dann folgt: Es ergibt sich diese Folgerung: Somit gilt: f) Es gilt: → 0 nach Lindeberg kn Z 1 X ξ 2 dQn . s2n j=1 {|ξn,j |>εsn } n,j | {z } ξn,j sn Kε + K j=1 g µ µ µ ¶¶ kn X ξn,j E g Somit ergibt sich: lim = 0. n→∞ sn j=1 0 kn X Summierung über j = 1, . . . , kn ergibt: e) Sei nun ε > 0. Da g(h) ≤ K · min{h2 , h3 }, gilt: µ µ ¶¶ ξn,j 0 ≤ E g sn ¶ ¶ µ µ Z Z ξn,j ξn,j dQn + dQn g g = sn sn {|ξn,j |≤εsn } {|ξn,j |>εsn } ¯ ¯3 Z Z 2 ¯ ξn,j ¯ ξn,j ¯ dQn + ≤ K ¯¯ K 2 dQn sn ¯ sn {|ξn,j |≤εsn } {|ξn,j |>εsn } Z Z 2 ξn,j K ≤ Kε dQn + 2 ξ 2 dQn . 2 sn {|ξn,j |>εsn } n,j {|ξn,j |≤εsn } sn | {z } 34 Paul 63 64 (Nullhypothese) (Alternativhypothese) ϕ : Ω → {[0, 1], B ∩ [0, 1]} θ ∈ Θ0 θ ∈ Θ1 oder ⇐⇒ ¢ ¡ P |Tn−1 | > tn−1;1− α2 = α. Diesen Test nennt man auch t-Test. Wähle nun einen nicht-randomisierten Test ϕ mit ½ 1 falls |T | > tn−1;1− α2 . ϕ= 0 sonst ¡ ¢ α P Tn−1 ≤ tn−1;1− α2 = 1 − 2 n Sn theorie, daß T ∼ tn−1 , falls θ = θ0 . Die Dichte von T nähert sich mit wachsendem n immer mehr der Gaußschen Glockenkurve an. Gegen H0 spricht, daß |T | besonders groß ist. Sei tn−1;1− α2 das 1 − α2 -Quantil, d.h. es gilt: X−θ0 mit Θ0 = {θ0 } und Θ1 = R \ {θ0 }. Sei α = 5% und T = √ . Wir wissen aus der Stichproben1 2 b) Gegeben sei eine Stichprobe X1 , . . . , Xn unabhängig und identisch N (θ, σ 2 )-verteilter Zufallsvariablen und die Hypothese gegen H1 : θ 6= θ0 H0 : θ = θ 0 a) Kolmogoroff-Smirnov-Test. Siehe Übungsblatt 13, Aufgabe 2b). Beispiele: d) Ein Test, dessen α-Fehler für alle θ ∈ Θ0 höchstens gleich α ∈ [0, 1] ist, heißt Signifikanz-Test zum (Signifikanz-)Niveau α oder kurz α-Test. In der Regel wird α = 0.05 verwendet. c) Eθ (ϕ) für θ ∈ Θ0 heißt α-Fehler oder Fehler 1. Art. 1 − Eθ (ϕ) für θ ∈ Θ1 heißt β-Fehler oder Fehler 2. Art. b) Ein Test mit ϕ(ω) ∈ {0, 1} für alle ω ∈ Ω heißt nicht-randomisiert, ansonsten heißt er randomisiert. heißt ein (statistischer) Test. Dabei gibt ϕ(ω) die Wahrscheinlichkeit dafür an, daß H0 abgelehnt (oder verworfen) wird. a) Jede meßbare Funktion Definition 1: zutrifft. H0 : H1 : Sei nun Θ = Θ0 + Θ1 mit Θ0 , Θ1 6= ∅ und Θ0 ∩ Θ1 = ∅. Wir suchen Entscheidungsverfahren, ob für das Wahrscheinlichkeitsmaß zu einer Realisierung Im folgenden betrachten wir einen meßbaren Raum (Ω, A) und eine Familie von Wahrscheinlichkeitsmaßen {Pθ | θ ∈ Θ} mit Θ 6= ∅ auf (Ω, A). In der Regel ist Ω = Rn , A = Bn und Pθ die Verteilung einer Stichprobe unabhängiger und identisch verteilter Zufallsvariablen X1 , . . . , Xn auf einem Wahrscheinlichkeitsraum (Ω0 , A0 , Pθ0 ) mit Pθ0 = {Pθ | θ ∈ Θ}. 4. Testen statistischer Hypothesen 4. Testen statistischer Hypothesen 4. Testen statistischer Hypothesen H0 : P = P 0 gegen H 1 : P = P1 , ϕ∗ (ω) = ½ H 1 : P = P1 , 1 f1 (ω) > C · f0 (ω) . 0 f1 (ω) < C · f0 (ω) gegen ϕ∗ dP0 . 1 γα 0 = = = 0 0 (θ0 e−θ x1 ) · . . . · (θ 0 e−θ xn ) (θe−θx1 ) · . . . · (θe−θxn ) µ 0 ¶n 0 θ e−θ (x1 +...+xn )+θ(x1 +...xn ) θ µ 0 ¶n 0 θ e−(θ −θ)(x1 +...+xn ) . θ gegen H1 : θ > θ0 ∗ ϕ dP0 = α für den NP-Test falls f1 (ω) > Cα · f0 (ω) falls f1 (ω) = Cα · f0 (ω) . falls f1 (ω) < Cα · f0 (ω) Z H0 : θ ≤ θ 0 H1 : θ > θ0 zum Signifikanzniveau α0 = Eθ0 (ϕα ). H0 : θ ≤ θ 0 gegen H1 : θ > θ 0 b) Für alle θ 0 ∈ Θ ist ϕα ein gleichmäßig bester Test für die Hypothesen mit geeigneten Cα ∈ R, γα ∈ [0, 1], die durch Eθ0 (ϕα ) = α bestimmt sind. falls t(x) > Cα falls t(x) = Cα falls t(x) < Cα gegen existiert ein gleichmäßig bester Test ϕα mit 1 γα ϕα (x) = 0 a) Zum Testen von Satz 2: Sei Θ ⊂ R und die Zufallsvariable X (bzw. X = (X1 , . . . , Xn )) habe eine µ-Dichte fθ für ein θ ∈ Θ. Die Familie von Verteilungen {Pθ | θ ∈ Θ} habe einen monotonen LQ in t. Sei α ∈ (0, 1). Dann gilt: H0 : θ ≤ θ 0 (größerer β-Fehler), zu den Hypothesen Eine Verallgemeinerung des NP-Testes für zusammengesetzte Hypothesen, falls ein monotoner LikelihoodQuotient existiert, ist gegeben durch falls t(x) > Cα 1 γα falls t(x) = Cα ϕ(x) = 0 falls t(x) < Cα Es existiert also ein monotoner Likelihood-Quotient in t mit t(x1 , . . . , xn ) = −(x1 + . . . + xn ). fθ 0 fθ Beispiel: Seien X1 , . . . , Xn unabhängig Exp(θ)-verteilt. Dann gilt für die Dichten des auf [0, ∞) eingeschränkten Lebesguemaßes: für geeignete Cα ∈ R, γα ∈ [0, 1]. Beweis: Der Beweis wird später in Abschnitt 4.3. nachgeholt. ϕ∗ (ω) = 66 Definition 3: Sei {Pθ | θ ∈ Θ} mit Θ ⊂ R eine Familie von Verteilungen für eine Zufallsvariable X (evtl. X = (X1 , . . . , Xn )) und sei µ ein σ-endliches Maß auf (R, B) (bzw. (Rn , Bn )). Seien fθ : R → R (bzw. fθ : Rn → R) µ-Dichten von Pθ für alle θ ∈ Θ. Dann existiert ein monotoner Likelihood-Quotient LQ in t : R → R (bzw. t : Rn → R), wenn für alle θ, θ 0 ∈ Θ mit θ 0 > 0 der Dichtequotient ffθθ0 eine in t monoton nicht fallende Funktion ist. 4.2. Testen zusammengesetzter Hypothesen 4. Testen statistischer Hypothesen (kleinerer α-Fehler) Zu jedem α ∈ [0, 1] existiert ein Cα ∈ [0, ∞] und γα ∈ [0, 1], so daß b) Existenz d.h. ϕ∗ ist bester α∗ -Test mit α∗ = Z a) Optimalität Ist ϕ∗ ein NP-Test, so gilt für jeden Test ϕ mit Z Z ϕ∗ dP0 ϕ dP0 ≤ Z Z auch ϕ dP1 ≤ ϕ∗ dP1 Satz 1 (Neyman-Pearson-Lemma): Unter den angegebenen Voraussetzungen gilt: falls es ein C ∈ [0, ∞] gibt mit H0 : P = P 0 b) Ein Test ϕ∗ heißt Neyman-Pearson-Test (NP-Test) für das Problem falls gilt: Z i) ϕ b P0 (dω) ≤ α, ½Z ¾ Z ¯Z ¯ ϕ P1 (dω) ¯ ϕ P0 (dω) ≤ α . ii) ϕ b P1 (dω) = sup a) Ein Test ϕ b heißt bester α-Test für das Problem Definition 2: Wir betrachten den Fall Θ0 = {0} und Θ1 = {1} für eine Familie {P0 , P1 } von Wahrscheinlichkeitsmaßen. Seien f0 und f1 µ-Dichten bzgl. eines σ-endlichen Maßes auf (Ω, A). 4.1. Einfache Hypothesen 65 35 g Z ϕ dP1 ≤ Z Z Z + {x | f1 (x)<Cf0 (x)} {x | f1 (x)=Cf0 (x)} ∗ ϕ∗ (x) = ≥0 ½ 0 1 ∗ <f1 ϕ∗ dP0 folgt: =f1 Z ≤0 >f1 (ϕ − ϕ) Cf0 dµ | {z } |{z} ∗ (ϕ − ϕ) Cf0 dµ |{z} (ϕ − ϕ)f1 dµ Z ϕ∗ dP1 − ϕ dP1 . Z Z ϕ dP0 ¶ ϕ dP0 ≤ (ϕ∗ − ϕ) Cf0 dµ | {z } |{z} (ϕ∗ − ϕ)Cf0 dµ ϕ∗ dP0 − {x | f1 (x)>Cf0 (x)} + Z C Z ϕ∗ dP1 , was zu zeigen war. = ≤ = = ≤ Z Z Z ϕ∗ dP0 . Dann gilt: (ϕ∗ − ϕ) dP1 ≥ = ≥0 entspricht dem α-Fehler des NP-Tests mit C und γ = 1. {x | f1 ≥0} Offensichtlich ist g monoton fallend und linksstetig mit Z g(∞) = f0 dµ Z{x | f0 =0} g(0) = f0 dµ {x | f1 (x)≥Cf (x)} {x | f0 >0} 0, 1. = = f0 dµ.35 (ϕ∗ − ϕ) f1 (x) dµ + {x | f0 =0} | {z } 0. Z b) Existenz Sei α ∈ [0, 1]. Betrachte g : [0, ∞) ∪ {∞} → R mit Z g(C) = Z = 0 µ−fast−überall (ϕ∗ − ϕ) | {z } f1 (x) dµ 4. Testen statistischer Hypothesen falls f0 > 0 (Cf0 > f1 ) . falls f0 = 0 Z Z Z Daraus folgt ϕ∗ dP0 = ϕ∗ f0 dµ = 0 und somit ϕ dP0 = 0. Es gilt also: 2. Fall: Sei nun C = ∞, also Somit gilt Z 0 µZ Z ϕ dP1 . ∗ ϕ dP0 ≤ ϕ dP1 ≥ 1 − Z 1. Fall: Die Konstante C von ϕ∗ erfüllt 0 ≤ C < ∞. Aus 1− Z Sei ϕ∗ ein NP-Test und ϕ ein beliebiger Test mit a) Optimalität Beweis von Satz 1: 4.3. Ergänzende Beweise 67 E(ϕ∗ ) γα = {x | f1 =Cf0 } = = = = ( {x | f1 >Cα f0 } ϕ∗ dP0 + Z {x | f1 =Cα f0 } =g(Cα )−g(Cα +0) g(Cα + 0) + α − g(Cα + 0) α. Z ϕα dP0 dP0 + γ0 Z {t=Cα } dα fθ0 (x) dα fθ0 (x) ≤ ≥ fθ0 (x) fθ0 (x) für t(x) > Cα , für t(x) < Cα . Eθ0 (ϕ) ≤ Eθ0 (ϕα ). b) Dies folgt analog zu a) aus der NP-Eigenschaft. und es folgt: Eθ0 (ϕ) ≤ Eθ0 (ϕα ). Die Existenz von dα folgt aus der Monotonie der Dichtequotienten, also ist ϕα auch ein NP-Test für gegen H1 : θ = θ 0 , H0 : θ = θ0 Sei dα ∈ [0, ∞) ∪ {∞} mit dP0 Pθ0 (t > Cα ) + α − Pθ0 (t > Cα ) α. = = {t>Cα } Z = Optimalität: Sei θ 0 > θ0 und ϕ ein beliebiger α-Test, so ist zu zeigen: dann folgt: 0 68 Dies ist möglich, da Pθ0 (t(x) > C) als Funktion von C monoton fallend ist, mit den Grenzwerten 1 und 0 für C → ±∞. Setze nun ( 0 falls Pθ0 (t(x) = Cα ) = 0 , γα = α−Pθ0 (t(x)>Cα ) sonst Pθ Cα = inf{C | Pθ0 (t(x) > C) ≤ α}. Existenz: Das Verfahren ist analog zum Beweis von Satz 1, Abschnitt b). Setze hier ϕ∗ dP falls g(Cα ) = g(Cα + 0) . sonst g(Cα + 0) + γα P (f1 = Cα f0 ) {z } | Z α−g(Cα +0) g(Cα )−g(Cα +0) 0 a) Wir zeigen die Existenz und die Optimalität. Beweis von Satz 2: Es folgt: Definiere Setze Cα = sup{C | g(C) > α}. Dann gilt: g(Cα − 0) ≥ α und g(Cα + 0) ≤ α. Es folgt: Z dP0 = g(Cα ) − g(Cα + 0). 4. Testen statistischer Hypothesen Anhang Z P (X = k) = (1 − p)pk−1 −∞ fX (x) dx fX (t) = fX (t) = fX (t) = fX (t) = fX (t) = Normalverteilung Cauchy-Verteilung χ2n -Verteilung tn -Verteilung Fn,m -Verteilung 1 t−µ σ ) n 1+ n m+n 2 t 2 −1 (m+nt) ´ n+1 2 m t2 n n2m 2 ³ m Γ( n 2 )Γ( 2 ) Γ( m+n 2 ) Γ( n+1 2 ) √ Γ( n 2 ) nπ n t 1 t 2 −1 e− 2 n 2 2 Γ( n 2) 1 π(1+t2 ) √ 1 e− 2 ( 2πσ 2 I(0,∞) (t) FX (t) = 1 − e−λt fX (t) = λe−λt Exponentialverteilung 2 Verteilungsfunktion t−a FX (t) = b−a Dichtefunktion 1 fX (t) = b−a Bezeichnung gleichmäßig stetige Verteilung darstellen läßt. Die Funktion fX (x) bezeichnen wir als Dichtefunktion von X. FX (t) = t Bekanntlich nennt man eine Zufallsgröße X stetig, wenn es eine integrierbare Funktion fX (x) ≥ 0 (−∞ < x < ∞) derart gibt, daß sich die Verteilungsfunktion FX (t) = P (X ≤ t) für alle reellen t in der Form A.2. Wichtige stetige Zufallsgrößen Geometrische Verteilung Hypergeometrische Verteilung Poissonverteilung λk −λ e k! M N − M k n−k P (X = k) = N n P (X = k) = Binomialverteilung Bezeichnung Einzelwahrscheinlichkeiten µ ¶ n P (X = k) = pk (1 − p)n−k k {i | xi ≤t} als Einzelwahrscheinlichkeiten der Zufallsgröße X. Durch Vorgabe der Einzelwahrscheinlichkeiten ist die Verteilungsfunktion einer diskreten Zufallsgröße eindeutig bestimmt: X FX (t) = P (X ≤ t) = P (X = xi ). pi = P (X = xi ) Ist X eine diskrete Zufallsgröße mit den Werten x1 , x2 , . . . , so bezeichnen wir A.1. Wichtige diskrete Zufallsgrößen Anhang 69 X n → X0 d L Xn → X p P Xn → X Xn → X f.s. n→∞ lim EPn (f (Xn )) = EP0 (f (X0 )) E(|Xn − X|p ) → 0 P (|Xn − X| > ε) → 0 ∀ ε > 0 P ({ω | Xn (ω) → X(ω), n → ∞}) = 1 70 i=1 1≤i<j≤n 1≤i<j<k≤n E(|X − E(X)|) ε ∀ ε > 0. B f dµ für alle B ∈ B gilt. Ist zusätzlich Wahrscheinlichkeitsdichte bezüglich µ. %(B) = Ω f dµ = 1, so ist % eine Verteilung und f eine • Blatt 9, Aufgabe 3 Sei (Ω, A, µ) ein Maßraum mit einem σ-endlichen Maß µ. Eine meßbare Funktion f : (Ω, A) → (R, B) heißt µ-Dichte eines Maßes % auf (R, B), falls f (ω) Z ≥ 0 für alle ω ∈ A ∈ A mit µ(A) = 0 und Z • Blatt 8, Aufgabe 4 Sei X eine reellwertige Zufallsvariable mit Verteilungsfunktion F . Die Pseudoinverse F −1 : (0, 1) → R sei erklärt durch F −1 (u) := inf{x ∈ R | F (x) ≥ u} mit 0 < u < 1. • Blatt 7, Aufgabe 1 Eine Abbildung X : Ω1 → Ω2 (Ωi jeweils mit einer σ-Algebra Ai versehen) heißt meßbar, falls X −1 (A2 ) ∈ A1 für alle A2 ∈ A2 . Wir schreiben dann verkürzt: X : (Ω1 , A1 ) → (Ω2 , A2 ). • Blatt 6, Aufgabe 1 Seien Zufallsvariablen Xn ∼ Bin(n, pn ) gegeben (n ∈ N) mit lim npn = λ ∈ [0, ∞). Dann gilt der n→∞ Poissonscher Grenzwertsatz : k λ lim P (Xn = k) = e−λ . n→∞ k! P (|X − E(X)| ≥ ε) ≤ • Blatt 5, Aufgabe 2 Sei X eine reellwertige Zufallsvariable, so gilt die Markov-Ungleichung: i=1 • Blatt 3, Aufgabe 2 Ist (Ω, A, P ) ein Wahrscheinlichkeitsraum, und sind A1 , . . . , An ∈ A, so gilt die Siebformel von Sylvester-Poincaré: à n ! n [ X X X P = Ai P (Ai ) − P (Ai ∩ Aj ) + P (Ai ∩ Aj ∩ Ak ) − + . . . • Blatt 3, Aufgabe 1 Sei (Ω, A) ein meßbarer Raum. Ein Maß P auf (Ω, A) heißt vollständig, falls jede Teilmenge B einer Menge A in A mit P (A) = 0 bereits in A liegt. A.4. Nützliches aus den Übungen ®¶ Konvergenz in Verteilung Satz 16 Konvergenz in Lp fast-sichere Konvergenz VVV i VVVV V iiii i i V VV i i VVVV iiii Tschebyscheff i Lemma 12 VVV &. i i px stochastische Konvergenz Zwischen den einzelnen Konvergenzen gelten folgende Implikationen: Konvergenz in Verteilung Konvergenz in Lp Stochastische (schwache) Konvergenz Fast-sichere (starke) Konvergenz A.3. Übersicht und Implikationen der Konvergenzen Anhang Literaturverzeichnis [9] Pfanzagl, J. Elementare Wahrscheinlichkeitsrechnung, W. de Gruyter, 1988. [8] Krickeberg, K. und Ziezold, H. Stochastische Methoden, Springer Hochschultext, 1988. [7] Krengel, U. Einführung in die Wahrscheinlichkeitsrechnung und Statistik, Vieweg Studium, Aufbaukurs Mathematik, 1988. [6] Chung, K. L. Elementare Wahrscheinlichkeitstheorie und stochastische Prozesse, Springer Hochschultext, 1985. [5] Brémaud, P. An Introduction to Probabilistic Modeling, Springer, 1988. [4] Breiman, L. Probability, Addison-Wesley, 1968. [3] Behnen, K. und Neuhaus, G. Grundkurs Stochastik, Teubner, 1995. [2] Bauer, H. Wahrscheinlichkeitstheorie, W. de Gruyter, 1991. [1] Bauer, H. Maß- und Integrationstheorie, W. de Gruyter, 1990. Literaturverzeichnis 71 1 2 3 Exponentialverteilung (Verteilungsfunktion) . . . . . . . . . . . . . . . . . . . . . . . . . . . . Normalverteilung (Dichtefunktion) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B(4, 13 )-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abbildungsverzeichnis Abbildungsverzeichnis 11 12 18 72 Häufigkeit relative, 4 Hypothese Gaußsche Glockenkurve, 11 Grenzwertsatz Poissonscher, 70 von de Moivre und Laplace, 25 Faltung, 41 Fehler 1. Art, 64 2. Art, 64 Feller-Bedingung, 60 einfache Funktion, 32 Elementarereignis, 7 Ereignis, 7 terminales, 50 Ergebnis, 7 Ergebnismenge, 7 Erwartungswert, 18 allgemeiner, 39 Cauchy-Schwarz-Ungleichung, 22 Erzeugendensystem, 7 Dichte, 29 Transformationssatz, 40 durchschnittsstabil, 49 Dynkin-System, 48 Cauchy-Schwarz-Ungleichung, 22 Bayes Formel von, 13 β-Fehler, 64 Abbildung meßbare, 70 Algebra, 6 Borelsche σ-, 8 erzeugte σ-, 19 Mengen-, 6 σ-, 7 σ- der terminalen Ereignisse, 50 α-Fehler, 64 α-Test, 64 bester, 65 Alternativhypothese, 64 Ausfallrate, 12 Index 73 Neyman-Pearson-Lemma, 65 Neyman-Pearson-Test, 65 nicht-randomiserter Test, 64 Niveau, 64 Null-Eins-Gesetz, 50 von Hewitt-Savage, 51 Markov-Ungleichung, 70 Maß, 8 Dirac-, 8 Einpunkt-, 8 Lebesgue-, 10 µ-Dichte, 70 σ-endlich, 38 vollständig, 70 Maßraum, 8 meßbar Borel-, 27 meßbarer Raum, 7 Mittel arithmetisches, 43 Moment absolutes k-tes, 20, 30 zentrales k-tes, 20, 30 monotoner Likelihood-Quotient, 66 µ-Dichte, 70 µ-fast-sicher, 34 µ-fast-überall, 34 Multiplikationssatz, 14 Laplace-Wahrscheinlichkeiten, 8 Lemma von Fatou, 35 Lindeberg-Bedingung, 60 Lyapunov-Bedingung, 60 Kennwerte, 43 Kolmogoroff-Smirnov-Test, 64 Kolmogoroffsche Axiome, 8 konvex, 53 Korrelation, 21, 30 Kovarianz, 21, 30 Jensensche Ungleichung, 53 Indikatorfunktion, 8 Integral µ-, 32, 37 Alternativ-, 64 Null-, 64 Index Varianz, 20, 30 empirische, 43 Verteilung, 11 (absolut) stetige, 29 Binomial-, 17 unabhängig paarweise, 15 stochastisch, 15, 19, 31 Ungleichung Cauchy-Schwarz-, 22, 54 Hölder-, 54 Jensensche, 53 Markov-, 70 Minkowski-, 54 Tschebyscheffsche, 23 zwischen geometrischem und arithmetischem Mittel, 53 t-Test, 64 Test, 64 α-, 64 Kolmogoroff-Smirnov-, 64 Neyman-Pearson, 65 nicht-randomisierter, 64 randomisierter, 64 Signifikanz-, 64 t-, 64 Transformationssatz für Dichten, 40 Tschebyscheffsche Ungleichung, 23 Satz von der majorisierten Konvergenz, 38 Satz von Fubini, 39 Schwaches Gesetz der großen Zahlen, 55 für binomialverteilte Zufallsvariablen, 23 Score, 17 Siebformel von Sylvester-Poincaré, 70 σ-Additivität, 8 Signifikanz-Niveau, 64 Signifikanz-Test, 64 Spur, 7 Standardabweichung, 20 Standardisierung, 41 Starkes Gesetz der großen Zahlen, 56 für binomialverteilte Zufallsvariablen, 27 Stirlingsche Formel, 23 System der lieben Mengen“, 27 ” randomisierter Test, 64 Permutation endliche, 51 permutierbar, 51 Poissonscher Grenzwertsatz, 70 Produktraum, 38 Pseudoinverse, 70 Nullhypothese, 64 Nullmenge, 34 Index Zählmaß, 8 Zufallsvariable, 16, 27 (absolut) stetige, 29 konvergiert P -fast-sicher, 55 konvergiert P -stochastisch, 55 konvergiert schwach, 55 konvergiert stark, 55 Wahrscheinlichkeit bedingte, 12 Laplace-, 4 subjektive, 4 totale, 13 Wahrscheinlichkeitsmaß, 8 Wahrscheinlichkeitsraum, 8 abzählbarer, 8 endlicher, 16 Produkt-, 16 Wahrscheinlichkeitsverteilung, 11 χ2 -, 43 diskrete, 29 einer Zufallsvariablen, 17, 28 Exponential-, 11 F-, 45 Gauß, 11 Normal-, 11 Poisson-, 26 Studentsche, 44 t-, 44 Verteilungsfunktion, 11 empirische, 57 Pseudoinverse einer, 70 Verteilungskonvergenz, 57 74