Einführung in die Wahrscheinlichkeitstheorie und die Statistik Sommersemester 2016 Vorläufige Version 18. April 2016 Karl Oelschläger Institut für Angewandte Mathematik Universität Heidelberg 1 Inhaltsverzeichnis Kapitel 1. Einleitung und Überblick 1.1. Konzepte und Methoden in Wahrscheinlichkeitstheorie und Statistik 1.1.1. Einfache Modellannahmen 1.1.2. Ein wahrscheinlichkeitstheoretisches Modell 1.1.3. Wahrscheinlichkeitstheoretische Untersuchungen 1.1.4. Ein statistisches Modell 1.1.5. Statistische Untersuchungen 1.1.6. Zusammenfassung und Ausblick 1.2. (∗) Geschichte der Wahrscheinlichkeitstheorie und der Statistik 7 8 8 9 12 16 17 20 21 Kapitel 2. Wahrscheinlichkeitsräume 2.1. Elementare wahrscheinlichkeitstheoretische Modelle 2.2. Diskrete Wahrscheinlichkeitsmaße 2.3. Konsequenzen aus den Kolmogorovschen Axiomen 2.3.1. Weitere Eigenschaften von σ-Algebren 2.3.2. Weitere Eigenschaften von Wahrscheinlichkeitsmaßen 2.4. Konstruktion von σ-Algebren und Wahrscheinlichkeitsmaßen 2.4.1. Gleichverteilung auf [0, 1] 2.4.2. ∞-facher, unabhängiger Münzwurf 2.4.3. Lebesguemaß in Rd , d = 1, 2, . . . 2.5. Satz von Vitali 2.6. Wahrscheinlichkeitsmaße mit einer Dichte bzgl. des Lebesguemaßes 2.6.1. (∗) Anwendung“ der Gleichverteilung ” 2.7. Poissonapproximation der Binomialverteilung 2.7.1. Anwendung der Poissonapproximation 23 24 28 30 30 31 32 33 34 36 37 38 40 41 42 Kapitel 3. Zufallsvariablen 3.1. Verteilung von Zufallsvariablen 3.1.1. Konstruktion und Simulation diskreter Zufallsvariablen 3.2. Familien von Zufallsvariablen und deren gemeinsame Verteilung 3.2.1. Gemeinsame Verteilung endlich vieler diskreter Zufallsvariablen 3.2.2. Unabhängige Zufallsvariablen mit einer Dichte 3.2.3. Unabhängigkeit von Ereignissen 3.2.4. Verteilung von Summen unabhängiger Zufallsvariablen 3.2.5. Gleichheitsbegriffe für Zufallsvariablen 3.3. Verteilungsfunktionen reellwertiger Zufallsvariablen 3.3.1. Eigenschaften von Verteilungsfunktionen 3.3.2. Beispiele für Verteilungsfunktionen 3.3.3. Simulation einer Folge von i.i.d. Zufallsvariablen mit einer Dichte 3.3.4. Quantile reellwertiger Zufallsvariablen 3.4. Stochastische Prozesse 3.4.1. Stationäre stochastische Prozesse 3.5. Wahrscheinlichkeitsräume und Zufallsvariablen in der Modellbildung 45 46 48 51 53 55 56 58 60 61 62 63 65 67 69 70 71 3 4 Kapitel 4.1. 4.2. 4.3. 4. Schätztheorie Statistische Modelle Maximum-Likelihood-Schätzer Konfidenzbereiche 75 75 76 82 Kapitel 5. Laplacesche Wahrscheinlichkeitsräume und Kombinatorik 5.1. Urnenmodelle 5.1.1. Darstellung der Mengen Wk (N, n), k = 1, . . . , 4 5.1.2. Berechnung von |Wk (N, n)|, k = 1, . . . , 4 5.2. Anwendungen von Urnenmodellen 5.3. Eine Alternative zu den Urnenmodellen 5.4. Multinomialverteilung und hypergeometrische Verteilung 87 88 89 89 91 95 96 Kapitel 6. Erwartungswert und Varianz 6.1. Erwartungswert für diskrete Zufallsvariablen 6.2. Eigenschaften der Abbildung X → E[X] 6.3. Erwartungswert für allgemeine, reellwertige Zufallsvariablen 6.4. Varianz und verwandte Begriffe 6.4.1. Rechenregeln für Varianz und Kovarianz 6.5. Beispiele zum Erwartungswert und zur Varianz 6.6. Erwartungstreue Schätzer 6.6.1. Mittlerer quadratischer Fehler eines Schätzers 6.7. Elementare Ungleichungen in der Wahrscheinlichkeitstheorie 6.8. Konvergenzbegriffe in der Wahrscheinlichkeitstheorie 101 101 102 105 108 112 113 116 119 120 121 Kapitel 7. Gesetz der großen Zahlen 7.1. Ein schwaches Gesetz der großen Zahlen 7.2. Anwendungen des schwachen Gesetzes der großen Zahlen 7.2.1. Monte-Carlo-Integration 7.2.2. (∗) Bernstein-Polynome und Approximationssatz von Weierstraß 125 125 126 126 127 Kapitel 8. Bedingte Wahrscheinlichkeiten 8.1. Bestimmung bedingter Wahrscheinlichkeiten 8.1.1. Rechenregeln für bedingte Wahrscheinlichkeiten 8.2. Markovketten 8.3. Modellbildung mit Markovketten 131 132 135 138 141 Kapitel 9.1. 9.2. 9.3. 9.4. 9.5. 145 145 147 149 151 152 9. Zentraler Grenzwertsatz (∗) Konvergenzgeschwindigkeit beim Gesetz der großen Zahlen Eigenschaften charakteristischer Funktionen Zentraler Grenzwertsatz für i.i.d. Zufallsvariablen (∗) Lokale Normalapproximation Bestimmung von Konfidenzintervallen Anhang A.1. Ergänzungen zu Kapitel 1 A.1.1. Deskriptive Statistik A.2. Ergänzungen zu Kapitel 2 A.2.1. Beweis des Satzes von Vitali 157 157 157 162 162 Literaturverzeichnis 163 18. April 2016 5 Anmerkungen zu den Fußnoten Die folgenden Seiten enthalten zahlreiche Fußnoten. Diese Fußnoten enthalten: • Querverweise, Referenzen, • Ergänzungen, • Präzisierungen, Erläuterungen, • Hinweise auf weiterführende Resultate oder Begriffe, • Beweise und • Definitionen. Sie sind gedacht • nicht als Haupttext, • aber als Hilfestellung zum Verständnis des Haupttextes, • zur Verdeutlichung von Verbindungen innerhalb der Vorlesung und • für Ausblicke auf Resultate im späteren Verlauf der Vorlesung, bzw. in weiterführenden Veranstaltungen. 18. April 2016 6 18. April 2016 KAPITEL 1 Einleitung und Überblick Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik 1.1 zusammengefaßt werden, sind Disziplinen der Mathematik, die der Beschreibung und der Untersuchung von Gesetzmäßigkeiten, die durch den 1.2 Zufall“ beeinflußt werden, gewidmet sind. ” Beispiel 1.1 (Gesetzmäßigkeit in einem zufälligen Geschehen). Eine sehr oft geworfene faire Münze zeigt in etwa der Hälfte aller Fälle Kopf“. Diese Gesetzmä” ßigkeit wird im sog. Gesetz der großen Zahlen, einem zentralen Resultat der Wahrscheinlichkeitstheorie, mathematisch gefaßt 1.3. Beispiel 1.2 (Auswertung zufälliger Beobachtungen). Eine nicht notwendigerweise faire Münze werde mehrmals geworfen. Mit Hilfe der konkreten Wurfergebnisse soll entschieden werden, ob • die Münze fair ist, bzw. • wie groß die Wahrscheinlichkeit 1.4 p ist, daß bei einem einzigen Wurf Zahl“ erscheint 1.5. ” Methoden zur Beantwortung solcher Fragen werden durch die Statistik bereitgestellt. Beispielsweise können Schätzer oder Konfidenzintervalle für p bestimmt werden. Es besteht auch die Möglichkeit, durch einen Test zu prüfen, ob die Münze fair ist 1.6. Beispiel 1.3 (Zufälliges Geschehen ohne eine erkennbare Gesetzmäßigkeit). 1.7 Öffentliche Diskussionsbeiträge von Politikern und Funktionären zur Steuer- oder 1.1In der Einleitung zu [5] findet sich eine Deutung des Wortes Stochastik aus Ursprüngen im Altgriechischen. 1.2Ein fundamentaler Beitrag der Wahrscheinlichkeitstheorie ist insbesondere eine Beantwortung der Frage, wie Zufall“ mathematisch überhaupt beschrieben werden soll. Die Antwort wird ” durch die Kolmogorovschen Axiome (2.1) und (2.2) gegeben. 1.3Das Gesetz der großen Zahlen exisitiert in vielen Variationen. Im vorliegenden Fall beschreibt es die Asymptotik bei Wurfanzahl N → ∞ der relativen Anzahl von Kopf“, d.h. des ” Quotienten (Anzahl von Kopf“)/N . Insbesondere wird die Konvergenz dieses Quotienten gegen ” seinen Erwartungswert, der bei einer fairen Münze 1/2 ist, festgehalten. Eine vergleichbar grundlegende Bedeutung hat der Zentrale Grenzwertsatz, der im Zusammenhang dieses Beispiels die Asymptotik der zufälligen√Fluktuationen der relativen Anzahl von Kopf“ um den Erwartungswert 1/2, d.h. genauer von N ((Anzahl von Kopf“)/N − 1/2), ” ” charakterisiert. 1.4Dieser zentrale Begriff ist zunächst formal zu verstehen. Später wird genauer erläutert werden, wie Ereignissen gewisse Wahrscheinlichkeiten ∈ [0, 1] zugeordnet werden. Es gilt: Ein Ereignis mit Wahrscheinlichkeit 0 tritt (fast) sicher nicht ein, ein Ereignis mit Wahrscheinlichkeit 1 tritt (fast) sicher ein. Allgemein tritt ein Ereignis mit größerer Sicherheit ein, je höher seine Wahrscheinlichkeit ist. 1.5Die zu bestimmende Wahrscheinlichkeit ist 1/2, falls die Münze fair ist. 1.6Die Begriffe Schätzer, Konfidenzintervall und Test sind in der Statistik grundlegend. Sie beschreiben spezielle Methoden, beobachtete Daten auszuwerten. 1.7Solche Phänomene, denen keine Gesetzmäßigkeit zugrundeliegt oder zugrunde zu liegen scheint, werden in der Stochastik nicht behandelt. 7 8 Rentengesetzgebung sind gelegentlich durch undurchschaubare Einflüsse wie Wahlkampfvorbereitungen, Profilierungssucht, Lobbytätigkeit, . . . bestimmt. Eine Bearbeitung derartiger Äußerungen mit Methoden der Stochastik scheint nicht möglich zu sein. Mathematische Gesetzmäßigkeiten z.B. in der Natur, der Technik oder der Wirtschaft 1.8 werden mit Hilfe von Modellen formuliert 1.9 und untersucht 1.10. Daher ist das zentrale Thema dieser Vorlesung die Bildung und Untersuchung von Modellen in der Wahrscheinlichkeitstheorie und der Statistik 1.11. 1.1. Konzepte und Methoden in Wahrscheinlichkeitstheorie und Statistik Im Rahmen einer speziellen Anwendung werden in diesem Abschnitt 1.1 einige typische Fragestellungen und übliche Vorgehensweisen in der Wahrscheinlichkeitstheorie und der Statistik erläutert 1.12. Es sei angenommen, daß in einem Industriebetrieb N gleichartige Produktionsstücke 1.13 zufällig ausgewählt und auf ihre Fehlerfreiheit getestet werden. • Zunächst soll die Gesamtheit der möglichen Prüfungsdaten für die verschiedenen Produktionsstücke, d.h. die Struktur und die Eigenschaften dieser Daten, analysiert werden 1.14. • Weiterhin soll untersucht werden, wie aus konkreten Prüfungsergebnissen Rückschlüsse auf die Verarbeitungsqualität des Betriebs gezogen werden können 1.15. 1.1.1. Einfache Modellannahmen. 1.16 Es sei angenommen, daß (i) ein einzelnes Produktionsstück mit einer vorerst noch unbekannten Wahrscheinlichkeit p ∈ [0, 1] fehlerhaft ist 1.17, und daß (ii) die Qualitätseigenschaften der jeweiligen Produktionsstücke voneinander unabhängig 1.18 sind. 1.8Dies betrifft alle Arten von Anwendungen, auch solche in denen kein Zufall involviert ist. 1.9Bei der Formulierung eines Modells werden alle bekannten, für wichtig erachteten Merkma- le der jeweiligen Anwendung mathematisch formuliert. Vermeintlich unwesentliche Details werden ignoriert, wie z.B. bei der Modellierung des Wurfs eines Würfels dessen Farbe. 1.10Nicht offensichtliche, sich als Konsequenzen spezieller Voraussetzungen, bzw. Modellannahmen ergebende Eigenschaften werden bewiesen. 1.11Eine mathematische Behandlung von Beispiel 1.3 scheitert an der Schwierigkeit, bzw. Unmöglichkeit ein vernünftiges Modell für die dort angesprochenen Diskussionsbeiträge zu entwerfen. 1.12Damit ist dieser Abschnitt 1.1 ein Ausblick auf die folgenden Kapitel 2 - 9. 1.13Je nach Branche könnten dies Glühlampen, Speicherchips oder auch PKW’s sein. 1.14In diesem Kontext werden insbesondere Methoden der Wahrscheinlichkeitstheorie angewandt. 1.15Bei diesem Vorhaben kommen Methoden der Statistik zum Einsatz. 1.16Die nun vorgestellten Modellannahmen bilden die Basis der in den Abschnitten 1.1.2 und 1.1.4 eingeführten mathematischen Modelle für wahrscheinlichkeitstheoretische, bzw. statistische Untersuchungen. Derartige mathematische Modelle gehen immer von Annahmen aus, die plausibel, widerspruchsfrei und mit der zugrundeliegenden Realität verträglich sein sollen. Zur Klärung der Frage, ob diese Annahmen ausreichend sind oder aber verändert bzw. ergänzt werden sollten, müssen vorhandene Daten und Fakten berücksichtigt, evtl. weitere Messungen und Experimente vorgenommen und auch die mathematischen Konsequenzen des Modells mit der Realität verglichen werden. 1.17Mit dieser Annahme wird u.a. auch zum Ausdruck gebracht, daß die Qualität des Herstellungsprozesses keinen Schwankungen unterliegt: Jedes Produktionsstück besitzt die gleiche ” Chance“, fehlerfrei zu sein. 1.18Der Begriff der Unabhängigkeit oder auch stochastischen Unabhängigkeit, der in der Umgangssprache eine klare Bedeutung hat, bzw. seine mathematisch präzisierte Formulierung wird 18. April 2016 9 Bemerkung 1.4. Völlig analoge Modellannahmen machen auch in anderen Situationen einen Sinn, z.B. bei Alkoholkontrollen im Straßenverkehr, beim Prüfen der Wirksamkeit eines neuen Medikaments durch seine Verabreichung an Testpersonen oder bei der Untersuchung von Schlachtvieh auf eine spezielle Krankheit. In diesen Fällen wären die Produktionsstücke durch Autofahrer, Testpersonen, bzw. Schlachttiere zu ersetzen. Außerdem wäre dann p die Wahrscheinlichkeit für einen festgestellten Alkoholkonsum, eine positive Wirkung des Medikaments, bzw. das Vorliegen einer Erkrankung 1.19. Die Modellannahmen (i) und (ii) kann man zunächst • innerhalb der Wahrscheinlichkeitstheorie in ein mathematisches Modell der Gesamtheit der möglichen Prüfungsdaten für die verschiedenen Produktionsstücke umsetzen. Für dieses wahrscheinlichkeitstheoretische Modell lassen sich mathematische Resultate herleiten, beispielsweise über Erwartungswerte oder die Asymptotik bei N → ∞ 1.20. Aufbauend auf dem wahrscheinlichkeitstheoretischen Modell und den hierzu gewonnenen Erkenntnissen kann in einem weiteren Schritt • innerhalb der Statistik 1.21 ein mathematisches Modell zur Auswertung real vorliegender Prüfungsergebnisse entwickelt werden. Im Rahmen dieses statistischen Modells können z.B. Verfahren erarbeitet werden, die eine Schätzung des wahren“ Parameters p = pw 1.22 aus konkret erhobenen ” Daten 1.23 ermöglichen. 1.1.2. Ein wahrscheinlichkeitstheoretisches Modell. Die Annahmen (i) und (ii) in Abschnitt 1.1.1 können in einer mathematischen Struktur (ΩN , FN , PN,p ) zusammengefaßt werden 1.24: • ΩN = {0, 1}N = (ω1 , ω2 , . . . , ωN ) : ωk ∈ {0, 1}, k = 1, . . . , N beschreibt die Menge der möglichen Stichproben. ωk = 1, bzw. ωk = 0, bedeutet, daß das k-te Produktionsstück 1.25 defekt, bzw. nicht defekt ist. ΩN wird Stichprobenraum genannt. in der Stochastik außerordentlich oft verwendet. Die Unabhängigkeit von zwei Ereignissen A und B besagt, daß die Wahrscheinlichkeit, mit der A eintritt, sich nicht ändert, wenn bekannt wird, daß B eingetreten ist. Hier beschreibt die Unabhängigkeit der . . . Produktionsstücke“ eine gewisse Optimalität“ ” ” des Herstellungsprozesses: Auch wenn ein defektes Produktionsstück gefunden wird, so hat dennoch das nächste wieder alle Chancen“, fehlerfrei zu sein. ” 1.19Um alle diese möglichen unterschiedlichen Situationen gleichzeitig behandeln zu können und um irrelevante, spezielle Details aus dem Blickfeld zu drängen, wird in der Stochastik oft der mehrmalige, unabhängige Wurf einer Münze betrachtet, die mit Wahrscheinlichkeit p Zahl“ ” zeigt. Wenn p = 1/2 ist, nennt man diese Münze fair, sonst wird sie als unfair bezeichnet. 1.20In jenen Überlegungen nimmt die Fehlerwahrscheinlichkeit p einen fest vorgegebenen Wert an. 1.21Genaugenommen ist hier die mathematische, induktive oder schließende Statistik gemeint. Im Gegensatz dazu werden in der deskriptiven, beschreibenden oder empirischen Statistik die Prüfungsdaten nur geeignet zusammengefaßt, beispielsweise in graphischen Darstellungen oder Kennzahlen. 1.22Hiermit ist dasjenige unbekannte p gemeint, das dem speziellen Produktionsprozeß, für den die Prüfungen durchgeführt werden, zugeordnet ist. 1.23 D.h. aus den Prüfungsergebnissen für N ausgewählte Produktionsstücke. 1.24Mit der Struktur (Ω , F , P N N N,p ) und den Eigenschaften ihrer Komponenten werden auf eine elementare Weise die Kolmogorovschen Axiome erfüllt. Insbesondere erlaubt diese Struktur, ein sog. Wahrscheinlichkeitsraum, die Modellannahmen (i) und (ii) aus Abschnitt 1.1.1 und die dadurch ausgedrückten Zufallsmechanismen“ im Rahmen der Mathematik zu realisieren. ” 1.25Hier wird implizit angenommen, daß die geprüften Produktionsstücke durchnummeriert werden. 18. April 2016 10 • Die Menge 1.26 FN = {A : A ⊆ ΩN } = Pot(ΩN ) beschreibt die Familie aller Ereignisse. Beispielsweise sind N X ωi = r , r = 0, . . . , N, Ar = ω ∈ ΩN : (1.1) i=1 die Ereignisse, daß jeweils genau r der getesteten Produktionsstücke defekt sind 1.27. • Jedem Ereignis A ∈ FN wird durch PN,p [A] ∈ [0, 1] seine Wahrscheinlichkeit zugeordnet 1.28. In Übereinstimmung mit der Modellannahme (i) wird beispielsweise 1.29 PN,p {ω ∈ ΩN : ωi = 1} = p, PN,p {ω ∈ ΩN : ωi = 0} = 1 − p, i = 1, . . . , N, (1.2) (1.3a) festgesetzt. Weiterhin ist " PN,p [Ar ] = PN,p [ ω∈Ar # {ω} = 1.30 X PN,p [{ω}], ω∈Ar wobei (1.3b) PN,p [{ω}] = 1.31 N Y i=1 = p PN pωi (1 − p)1−ωi {z } | ( p, falls ωi = 1, = 1 − p, falls ωi = 0, i=1 ωi (1 − p)N − = pr (1 − p)N −r , PN i=1 ωi ω ∈ Ar . 1.26Pot(S) bezeichnet die Potenzmenge, d.h. die Menge aller Teilmengen einer Menge S. 1.27In einer anderen Sprechweise ist A das Ereignis, daß die gezogene Stichprobe genau r r ” defekte Produktionsstücke umfaßt“. 1.28Bei einem festen N hängt die Wahrscheinlichkeit eines Ereignisses von dem zwar innerhalb dieses wahrscheinlichkeitstheoretischen Modells als fest, sonst aber als beliebig betrachteten Parameter p ab. ΩN und FN hingegen sind von p unabhängig. 1.29 Für i = 1, . . . , N ist {ω ∈ ΩN : ωi = 1} ({ω ∈ ΩN : ωi = 0}) das Ereignis, daß das i-te Produktionsstück defekt (nicht defekt) ist. 1.30Die Wahrscheinlichkeiten disjunkter Mengen addieren sich, d.h., wenn Ereignisse A und B aufgrund von A ∩ B = ∅ sich gegenseitig ausschließen, gilt (∗) PN,p [A oder B] = PN,p [{ω ∈ ΩN : ω ∈ A oder ω ∈ B}] = PN,p [{ω ∈ ΩN : ω ∈ A ∪ B}] = PN,p [A ∪ B] = PN,p [A] + PN,p [B]. Somit addieren sich in diesem Fall die Einzelwahrscheinlichkeiten. Die Beziehung (∗) entspricht der Anschauung, d.h., dem intuitiven Verständnis des Begriffs Wahrscheinlichkeit“. Man betrachte ” z.B. den Wurf eines fairen Würfels. Dann ist 1 = Wahrscheinlichkeit[es wird 3 oder 4 geworfen] 3 = Wahrscheinlichkeit[es wird 3 oder geworfen] + Wahrscheinlichkeit[es wird 4 geworfen] = 1 1 + . 6 6 Im Rahmen der Wahrscheinlichkeitstheorie wird (∗) als ein Bestandteil der Kolmogorovschen Axiome gefordert. Im hier betrachteten konkreten Fall muß berücksichtigt werden, daß Ar aus den disjunkten Mengen {ω} : ω ∈ Ar besteht. 18. April 2016 11 (1.3c) Es gibt Nr Möglichkeiten für die Einordnung“ von r defekten Produkti” onsstücken in die Folge aller N geprüften Produktionsstücke 1.32, d.h. 1.33 |Ar | = Nr . Mit (1.3a) und (1.3b) folgt daher N r PN,p [Ar ] = p (1 − p)N −r , r = 0, . . . , N. r Somit ist die Anzahl der defekten Produktionsstücke binomialverteilt mit den Parametern N und p 1.34. Die nun konstruierte Struktur (ΩN , FN , PN,p ) ist ein einfaches Beispiel eines Wahrscheinlichkeitsraums. Mit ihm liegt ein wahrscheinlichkeitstheoretisches Modell für die hier behandelte Qualitätsprüfung von Produktionsstücken vor 1.35. Mit dem Wahrscheinlichkeitsraum (ΩN , FN , PN,p ) sind auch Zufallsvariablen, d.h. gewisse reellwertige Funktionen auf ΩN , gegeben 1.36, wie z.B.: • Yi : ΩN → R, i = 1, . . . , N , mit (1.4) Yi (ω) = ωi , ω = (ω1 , . . . , ωN ) ∈ ΩN , i = 1, . . . , N. Yi gibt das Testergebnis für das i-te Produktionsstück an 1.37 . 1.31Wenn allgemein zwei Ereignisse A und B stochastisch unabhängig sind, gilt die Beziehung (∗1 ) PN,p [A und B] = PN,p [{ω ∈ ΩN : ω ∈ A und ω ∈ B}] = PN,p [{ω ∈ ΩN : ω ∈ A ∩ B}] = PN,p [A ∩ B] = PN,p [A]PN,p [B], d.h. die Einzelwahrscheinlichkeiten werden multipliziert. (∗1 ) entspricht der Anschauung, d.h., dem intuitiven Verständnis von Unabhängigkeit“. Da nach der Modellannahme (ii) die Qua” litätseigenschaften der Produktionsstücke unabhängig sind, gilt beispielsweise PN,p [1. Produktionsstück defekt, 2. Produktionsstück nicht defekt] = PN,p [{ω ∈ ΩN : ω1 = 1, ω2 = 0}] = PN,p [{ω ∈ ΩN : ω1 = 1} ∩ {ω ∈ ΩN : ω2 = 0}] = PN,p [{ω ∈ ΩN : ω1 = 1}] · PN,p [{ω ∈ ΩN : ω2 = 0}] = p(1 − p) (vgl. (1.2)). Im Rahmen der Wahrscheinlichkeitstheorie wird (∗1 ) als Definition der Unabhängigkeit von zwei Ereignissen benutzt, vgl. (3.16). 1.32Die Anzahl der Möglichkeiten für die Einordnung“ . . . kann mit kombinatorischen Me” thoden bestimmt werden, vgl. Abschnitt 5.1 und insbesondere (5.4). 1.33Mit |M | wird die Mächtigkeit einer endlichen Menge M bezeichnet. 1.34Die Binomialverteilung ist eine der klassischen Wahrscheinlichlichkeitsmaße oder -verteilungen, die in der Stochastik häufig betrachtet werden. 1.35Nach der axiomatischen Begründung der Wahrscheinlichkeitstheorie u.a. durch A.N. Kolmogorov liegt jedem wahrscheinlichkeitstheoretischen Modell ein Wahrscheinlichkeitsraum zugrunde. Für einen allgemeinen Wahrscheinlichkeitsraum (Ω, F, P) ist nach den Kolmogorovschen Axiomen, vgl. (2.1), (2.2), Ω eine Menge, F eine σ-Algebra bestehend aus der Menge aller Ereignisse, d.h. einer geeigneten Menge von Teilmengen von Ω, und P ein Wahrscheinlichkeitsmaß, das jedem A ∈ F eine Wahrscheinlichkeit P[A] ∈ [0, 1] zuweist. Ein Wahrscheinlichkeitsraum (Ω, F, P) kann auch betrachtet werden als ein meßbarer Raum (Ω, F), der durch ein Wahrscheinlichkeitsmaß P eine Gewichtung der meßbaren Mengen F erhält. Im allgemeinen ist F 6= Pot(Ω), da andernfalls eine vernünftige Definition von P nicht möglich zu sein braucht, vgl. Abschnitt 2.5. 1.36Allgemein müssen diese Funktionen meßbar sein, vgl. (3.1), und damit eine in der Stochastik übliche Minimalforderung für Funktionen erfüllen. Da im vorliegenden Fall die σ-Algebra FN alle Teilmengen von ΩN umfaßt, sind automatisch alle reellwertigen Funktionen auf ΩN meßbar. 1.37Wenn man die Zufallsvariablen Y , i = 1, . . . , N , als eine Gesamtheit (Y ) i i i=1,...,N betrachtet, erhält man ein einfaches Beispiel eines stochastischen Prozesses. Im allgemeinen sind stochastische Prozesse (Yt )t∈T Familien Yt , t ∈ T, von Zufallsvariablen, die durch eine Menge T ⊆ R indiziert sind, welche als ein Bereich von Zeitpunkten betrachtet werden kann. Stochastische Prozesse dienen u.a. der Modellierung vom Zufall beeinflußter, dynamischer Vorgänge. 18. April 2016 12 • ZN : ΩN → R mit (1.5) ZN (ω) = N 1 X ω i , ω ∈ ΩN , N i=1 d.h., ZN = N 1 X Yi . N i=1 ZN gibt die relative Anzahl defekter Produktionsstücke an. • TN : ΩN → R mit ( PN inf i ∈ {1, ..., N } : ωi = 1 , falls i=1 ωi > 0, TN (ω) = ω ∈ ΩN . N + 1, sonst, TN modelliert den Zeitpunkt Produktionsstücks. 1.38 der ersten Beobachtung eines defekten Solche Zufallsvariablen können als Darstellungen von Verfahren zur Erhebung, bzw. Zusammenfassung von Daten betrachtet werden 1.39 1.40. Vor allem auch durch das Studium von Zufallsvariablen kann das durch (ΩN , FN , PN,p ) gegebene wahrscheinlichkeitstheoretische Modell genauer untersucht werden 1.41. 1.1.3. Wahrscheinlichkeitstheoretische Untersuchungen. In der Wahrscheinlichkeitstheorie werden primär für einen gegebenen Wahrscheinlichkeitsraum darauf definierte Zufallsvariablen mathematisch studiert 1.42. Detaillierte Überlegungen, die reale Meßwerte einschließen, treten in den Hintergrund. Für das in Abschnitt 1.1.2 beschriebene mathematische Modell können in der Wahrscheinlichkeitstheorie beispielsweise Kenngrößen wie Erwartungswerte oder Varianzen spezieller auf dem Wahrscheinlichkeitsraum (ΩN , FN , PN,p ) definierter Zufallsvariablen berechnet werden. Man kann auch die Fälle N → ∞ und / oder p → 0 betrachten und Resultate ableiten, die das asymptotische Verhalten charakterisieren. In den folgenden Beispielen 1.5 - 1.8 werden insbesondere die Zufallsvariablen 1.43 ZN , N ∈ N, untersucht. Beispiel 1.5 (Erwartungswert). Allgemein ist der Erwartungswert E[X] einer reellwertigen Zufallsvariable X definiert als ein gewichtetes Mittel über den Wertebereich von X. Die Gewichte sind hierbei gegeben durch die Wahrscheinlichkeiten, mit der die jeweiligen Werte von X angenommen werden, d.h. durch die Verteilung 1.38Es sei angenommen, daß die Tests in aufeinanderfolgenden Zeitpunkten durchgeführt werden. In diesem Fall ist die Identifizierung der Folge der Zufallsvariablen Yi , i = 1, . . . , N , mit dem stochastischen Prozeß (Yi )i=1,...,N naheliegend, vgl. Fußnote 1.37. Aufgrund von (1.4) kann dann insbesondere ( PN inf i ∈ {1, ..., N } : Yi = 1 , falls i=1 Yi > 0, TN = N + 1, sonst, geschrieben werden. 1.39 Für jede mögliche Stichprobe ω ∈ ΩN ist z.B. mit ZN (ω) die relative Anzahl der defekten Produktionsstücke in dieser Stichprobe gegeben. 1.40 Im mathematischen Gebiet der Statistik werden Zufallsvariablen auch als Statistiken bezeichnet. 1.41Aus diesem Grund ist es oft auch sinnvoll, alle oder zumindest eine als wichtig erachtete Familie von Zufallsvariablen zusammen mit dem Wahrscheinlichkeitsraum (ΩN , FN , PN,p ) als wahrscheinlichkeitstheoretisches Modell zu bezeichnen. 1.42 Beispielsweise werden Sätze bewiesen, Verbesserungen und Verallgemeinerungen bekannter Resultate gesucht oder Verbindungen zu anderen Teilgebieten der Mathematik hergestellt. 1.43Vgl. (1.5). 18. April 2016 13 von X (1.6) 1.44 1.45 1.46 . EN,p [ZN ] = N hn X k oi k PN,p ω ∈ ΩN : ZN (ω) = N | N } {z k=0 = 1.47 PN,p [ZN = k/N ] N 1 X kPN,p [Ak ] N k=0 N N 1 X pk (1 − p)N −k k = 1.49 N k k=1 | {z } N −1 N! =N =k k!(N − k)! k−1 N X N −1 =p pk−1 (1 − p)N −1−(k−1) k−1 k=1 | {z } N −1 X N −1 l = p (1−p)N −1−l = (p + (1−p))N −1 = 1 l = 1.48 = 1.50 l=0 p. Beispiel 1.6 (Varianz). Die Varianz Var(X) einer reellwertigen Zufallsvariable X ist definiert als der Erwartungswert der quadratischen Abweichung von X von 1.44Der Erwartungswert entspricht somit dem intuitiven Begriff des Mittelwerts“. ” 1.45Der Erwartungswert existiert, wenn jenes gewichtete Mittel wohldefiniert ist. Das ist z.B. für integrable, bzw. für nicht-negative Zufallsvariablen der Fall. 1.46Um die zugrundeliegenden Parameter N und p und damit den Bezug zum Wahrscheinlichkeitsmaß PN,p hervorzuheben, wird im folgenden die Notation EN,p [. . . ] benutzt. Allgemein wird der Erwartungswert einer reellwertigen Zufallsvariable X mit E[X] bezeichnet. 1.47 Dies ist eine abkürzende Schreibweise. 1.48 Vgl. (1.1) und (1.5). Insbesondere ist {ω ∈ ΩN : ZN (ω) = k/N } = Ak , k = 0, 1, . . . , N . 1.49 Vgl. (1.3c). 1.50Eine einfachere Begründung von (1.6) wäre folgende: (a) Die Zuordnung X → E[X], die jeder reellwertigen Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω, F, P), die einen Erwartungswert besitzt, diesen Erwartungswert E[X] zuordnet, ist ein linearer Operator, d.h., es gilt X, Y Zufallsvariablen, α, β ∈ R. E[αX + βY ] = αE[X] + βE[Y ], (b) Bei Berücksichtigung von (1.5) folgt somit EN,p [ZN ] = N 1 X EN,p [Yi ], N i=1 wobei die Zufallsvariablen Yi , i = 1, . . . , N , in (1.4) eingeführt wurden. (c) Aufgrund von (1.2) und (1.4) ist EN,p [Yi ] = PN,p [Yi = 1] · 1 + PN,p [Yi = 0] · 0 = p, i = 1, . . . , N. (d) Zusammenfassend folgt nun EN,p [ZN ] = N 1 X p = p. N i=1 Durch wenige simple Berechnungen wie in (b), (c) und (d) und ein allgemeines Resultat der Stochastik, genauer der Maß- und Integrationstheorie, wie in (a) erübrigen sich somit aufwendigere, langweilige und auch fehleranfällige Berechnungen wie bei der obigen Herleitung von (1.6). 18. April 2016 14 ihrem Erwartungswert E[X], d.h., Var(X) = E[(X − E[X])2 ]. Sie charakterisiert die Größe der Schwankungen von X um E[X] 1.51. (1.7) VarN,p (ZN ) = EN,p (ZN − EN,p [ZN ])2 = 1.52 N 2 X k − p PN,p [ZN = k/N ] N k=0 = ... = 1.53 1 p(1 − p). N Beispiel 1.7 (Gesetz der großen Zahlen). 1.54 Die Beziehungen (1.6) und (1.7) besagen, daß die Schwankungen der Zufallsvariablen ZN um ihren Erwartungswert p mit wachsendem N immer kleiner werden. Mit Hilfe eines allgemeinen Resultats aus der Wahrscheinlichkeitstheorie, der Čebyšev’schen Ungleichung 1.55 1 P |X − E[X]| ≥ ǫ ≤ 2 Var(X), X Zufallsvariable, ǫ > 0, ǫ läßt sich diese Aussage genauer fassen. Es ergibt sich die Konvergenz von ZN gegen p bei N → ∞ in der Form (1.8) (1.9) 1 PN,p |ZN − p| ≥ ǫ ≤ 2 VarN,p (ZN ) ǫ 1 N →∞ = 2 p(1 − p) −−−−→ 0, ǫ N ǫ > 0. 1.51Nicht für alle Zufallsvariablen X ist Var(X) < ∞. Eine Zufallsvariable X mit Var(X) = 0 nimmt fast-sicher nur den Wert E[X] an, d.h., X ist deterministisch. 1.52Man beachte, daß die Zufallsvariable (Z − E 2 N N,p [ZN ]) für k = 0, 1, . . . , N den Wert ((k/N ) − p)2 mit Wahrscheinlichkeit PN,p [ZN = k/N ] annimmt. 1.53 Zur Begründung von (1.7) könnte man detaillierte Berechnungen wie bei der Herleitung von (1.6) in Beispiel 1.5 durchführen. Andererseits könnte mit Hilfe allgemeiner Zusammenhänge der Wahrscheinlichkeitstheorie auch wie folgt argumentiert werden. P (a) Gemäß (1.5) ist ZN = (1/N ) N i=1 Yi eine gewichtete Summe der Zufallsvariablen Yi , i = 1, . . . , N . In Übereinstimmung mit der Modellannahme (ii) in Abschnitt 1.1.1 sind diese Zufallsvariablen (stochastisch) unabhängig. (b) Für unabhängige Zufallsvariablen X und Y auf einem Wahrscheinlichkeitsraum (Ω, F, P) und α, β ∈ R gilt allgemein die Beziehung: Var(αX + βY ) = α2 Var(X) + β 2 Var(Y ), vgl. Abschnitt 6.4.1. (c) Wegen (1.2), (1.4), weil EN,p [Yi ] = p, i = 1, . . . , N , vgl. Fußnote 1.50(c), und wegen der Linearität des Operators EN,p [ . ], vgl. Fußnote 1.50(a), ergibt sich: VarN,p (Yi ) = EN,p [(Yi − p)2 ] = EN,p [Yi2 ] − 2EN,p [Yi ]p + p2 = p − p2 = p(1 − p), i = 1, . . . , N. (d) Zusammenfassend folgt (1.7), d.h., VarN,p (ZN ) = N N 1 X 1 1 X VarN,p (Yi ) = 2 p(1 − p) = p(1 − p). 2 N i=1 N i=1 N 1.54 In diesem Beispiel 1.7 ist N nicht mehr fest, sondern kann beliebige Werte in N annehmen. Um insbesondere große N zu behandeln, wird der Grenzübergang N → ∞ diskutiert. 1.55Damit (1.8) eine brauchbare Information liefert, sollte Var(X) < ∞ vorausgesetzt werden. Die Čebyšev’sche Ungleichung, vgl. Satz 6.18, bzw. (6.40), ist eine der vielen Ungleichungen, die in den mathematischen Untersuchungen in der Stochastik unverzichtbar sind. 18. April 2016 15 Das in (1.9) beschriebene Konvergenzresultat ist auch als schwaches Gesetz der großen Zahlen bekannt 1.56 1.57. Beispiel 1.8 (Zentraler Grenzwertsatz). Eine Präzisierung der durch (1.9) beschriebenen Konvergenz von ZN wird durch den Zentralen Grenzwertsatz gegeben. Während das Gesetz der großen Zahlen ohne Angabe einer KonvergenzgeschwinN →∞ digkeit nur besagt, daß ZN − p −−−−→ 0 bzgl. eines geeigneten Konvergenzbegriffs,√identifiziert der Zentrale Grenzwertsatz diese Konvergenzgeschwindigkeit als √ ∼ 1/ N . In einer genauen Formulierung wird festgestellt, daß die mit N skalierten Fluktuationen von ZN um den Erwartungswert p für N → ∞ normalverteilt sind, d.h. 1.58 1.59 1.60 1.61 p (1.10) lim PN,p N/p(1 − p)(ZN − p) ∈ [a, b] N →∞ Z b 1 dx exp(−x2 /2), a, b ∈ R, a < b. = √ 2π a 1.56Es gibt auch ein starkes Gesetz der großen Zahlen für Z , N ∈ N. Die beiden VariN anten des Gesetzes der großen Zahlen unterscheiden sich durch den jeweils zur Feststellung der Konvergenz von ZN gegen p verwendeten Konvergenzbegriff. Während bei der Formulierung des schwachen Gesetzes der großen Zahlen wie in (1.9) die stochastische Konvergenz benutzt wird, findet beim starken Gesetz der großen Zahlen die fast-sichere Konvergenz Verwendung. Die hier genannten und auch andere Konvergenzbegriffe werden in der Maß- und Integrationstheorie genauer untersucht. U.a. werden dort die Beziehungen zwischen den unterschiedlichen Konvergenzkonzepten verdeutlicht. So folgt beispielsweise die stochastische Konvergenz aus der fast-sicheren, vgl. Satz 6.20. Daher impliziert das starke Gesetz der großen Zahlen das schwache, wodurch insbesondere die gewählte Namensgebung gerechtfertigt wird. 1.57 In einer allgemeineren Form wird beim Gesetz der großen Zahlen die Konvergenz N 1 X N→∞ Xk −−−−→ E[X1 ] N k=1 für unabhängige, identisch verteilte, integrable Zufallsvariablen X1 , X2 , . . . festgestellt. Weitere Varianten des Gesetzes der großen Zahlen werden in Satz 7.1 und Bemerkung 7.2 vorgestellt. 1.58Die Normalverteilung N(µ, σ2 ) mit Erwartungswert µ und Varianz σ2 ist ein Wahrscheinlichkeitsmaß auf R, das einem Intervall [a, b], −∞ ≤ a < b ≤ ∞, jeweils die Wahrscheinlichkeit R (2πσ2 )−1/2 ab dx exp(−(x − µ)2 /2σ2 ) zuordnet. Die Verteilung N(0, 1), die auf der rechten Seite von (1.10) auftaucht, wird als standard Normalverteilung bezeichnet. 1.59 Mit (1.10) wird ein weiterer, in der Stochastik üblicher Konvergenzbegriff vorgestellt, nämlich die sog. Konvergenz in Verteilung. Diese Namensgebung wird verständlich, wenn beachtet wird, daß die Größen P[X ∈ [a, b]] = P[{ω ∈ Ω : X(ω) ∈ [a, b]}], a, b ∈ R, a < b, die Verteilung einer reellwertigen Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω, pF, P) kennzeichnen. Insbesondere wird durch (1.10) festgehalten, daß die Zufallsvariablen N/p(1 − p)(ZN − p) bei N → ∞ in Verteilung gegen eine standard normalverteilte Zufallvariable konvergieren. Die standard Normalverteilung N(0, 1) wird in Fußnote 1.58 beschrieben. 1.60 In einer allgemeineren Form besagt der Zentrale Grenzwertsatz, daß für unabhängige, identisch verteilte, quadratintegrable Zufallsvariablen X1 , X2 , . . . mit Varianz σ2 ∈ (0, ∞) die Zufallsvariablen ! r N N 1 X Xk − E[X1 ] , N = 1, 2, . . . , ηN = σ2 N k=1 bei N → ∞ in Verteilung gegen eine standard normalverteilte Zufallsvariable konvergieren, vgl. Satz 9.3. 1.61 Als Präzisierung des Gesetzes der großen Zahlen (1.9) besagt der Zentrale Grenzwertsatz p p N→∞ N→∞ (1.10) zumindest formal, daß N/p(1 − p)(ZN − p) ∼ Z, bzw. ZN ∼ p + p(1 − p)/N Z, wobei Z eine normalverteilte Zufallsvariable mit Erwartungswert √ 0 und Varianz 1 ist. Insbesondere tendiert der Abstand zwischen ZN und p bei N → ∞ wie 1/ N gegen 0. 18. April 2016 16 1.1.4. Ein statistisches Modell. Die Aufgabe, die Qualität des Produktionsverfahrens zu prüfen 1.62, soll nun mit Methoden der Statistik bearbeitet werden. Basierend auf dem in Abschnitt 1.1.2 eingeführten und in Abschnitt 1.1.3 untersuchten wahrscheinlichkeitstheoretischen Modell der Gesamtheit der möglichen Prüfungsdaten für die Menge der Produktionsstücke sei angenommen 1.63, daß • diesem Produktionsprozeß eine wahre“, allerdings unbekannte Fehler” wahrscheinlichkeit pw zugeordnet ist, und daß somit • aufgrund von Qualitätskontrollen vorliegende Prüfungsergebnisse y1 , . . . , yN mit ( 1, falls das i-te Produktionsstück fehlerhaft ist, yi = i = 1, ..., N, 0, sonst, Realisierungen 1.64 der Zufallsvariablen Yi , i = 1, . . . , N , auf dem Wahrscheinlichkeitsraum (ΩN , FN , PN,pw ) sind. Die Aufgabe besteht nun darin, Informationen über pw zu gewinnen, wobei nur die empirisch bestimmten Daten y1 , . . . , yN den Überlegungen zugrundegelegt werden können. Vor der Lösung der Aufgabe kann ein Statistiker seine Situation folgendermaßen zusammenfassen 1.65: • Es gibt eine Menge XN = {0, 1, 2, . . . , N }, die die möglichen Werte für die Anzahl der fehlerhaften Produktionsstücke umfaßt. XN wird Stichprobenraum genannt 1.66. • Die σ-Algebra GN = Pot(XN ) der Teilmengen von XN repräsentiert die Menge der Ereignisse, auf denen der Statistiker seine Entscheidungen aufbauen kann. • Auf dem meßbaren Raum (XN , GN ) gibt es mit (QN,p )p∈[0,1] eine Familie von Wahrscheinlichkeitsmaßen, so daß für eine zugrundeliegende Fehlerwahrscheinlichkeit p durch QN,p die zugehörige Wahrscheinlichkeitsverteilung der Anzahl fehlerhafter Produktionsstücke bei N Stichproben beschrieben wird. Aufgrund von (1.3c) gilt (1.11) QN,p = B(N, p), p ∈ [0, 1], wobei B(N, p) die Binomialverteilung mit den Parametern N und p ist. 1.62Diese Aufgabe war eine Motivation für die Überlegungen dieses Abschnitts 1.1. 1.63Sobald ein mit der Lösung der Aufgabe der Qualitätsprüfung betrauter Statistiker auf- grund der Auskünfte der am Produktionsprozeß beteiligten Personen mit den Modellannahmen (i) und (ii) in Abschnitt 1.1.1 einverstanden ist, kann er bei seinen Überlegungen das genannte wahrscheinlichkeitstheoretische Modell akzeptieren und sich auf die daraus folgenden mathematischen Konsequenzen verlassen. In den Beispielen 1.5 - 1.8 werden einige solcher Konsequenzen vorgestellt. 1.64Eine Realisierung einer Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω, F, P) ergibt sich als X(ω) nach Auswahl eines zufälligen, dann aber als fest betrachteten ω ∈ Ω. 1.65Offensichtlich reicht nach der Prüfung einer festen Anzahl N von Produktionsstücken zur Einschätzung der Verarbeitungsqualität, d.h. zu einer vernünftigen Schätzung pc w von pw , allein die Kenntnis der Anzahl fehlerhafter Produktionsstücke. Weitere Details wie die genaue Reihenfolge ihres Auftretens, sind nicht notwendig. 1.66Da in der hier betrachteten speziellen Situation nur die Anzahl der fehlerhaften geprüften Produktionsstücke von Interesse ist, vgl. Fußnote 1.65, wird es sinnvoll, mit XN einen Stichprobenraum zu wählen, der übersichtlicher“ ist als der in den Abschnitten 1.1.2 und 1.1.3 benutzte ” Stichprobenraum ΩN . 18. April 2016 17 Die Struktur (XN , GN , (QN,p )p∈[0,1] ) ist ein Beispiel eines statistischen Modells 1.67. In jeder Anwendungssituation ist die Bestimmung eines derartigen statistischen Modells die erste Aufgabe eines Statistikers. Seine mathematischen Überlegungen kann er dann im Rahmen dieses statistischen Modells ausführen. 1.1.5. Statistische Untersuchungen. 1.68 In der Realität sind die Ziele und die Methoden statistischer Überlegungen stark von der konkreten Anwendungssituation abhängig. Für den vorliegenden Fall einer Prüfung der Verarbeitungsqualität sollen drei typische Fragestellungen und ihre jeweilige Lösung durch Methoden der Statistik vorgestellt werden. Beispiel 1.9 (Maximum-Likelihood-Schätzer). Ein mögliches Verfahren zur Bestimmung eines Schätzers 1.69 pc w für pw basiert auf dem sog. Maximum-Likelihood-Prinzip: Für eine beobachtete Anzahl x fehlerhafter Produktionsstücke wird pc w dadurch charakterisiert, daß unter der zugehörigen Verteilung, d.h. unter der Binomialverteilung 1.70 QN,b c w ), jener Wert x die maximale Wahrscheinpw = B(N, p 1.72 lichkeit hat 1.71. pc w löst somit N x N −x QN,b (1.12) c pc w) w (1 − p pw [{x}] = x N x = sup p (1 − p)N −x = sup QN,p [{x}]. x p∈[0,1] p∈[0,1] Als Maximum-Likelihood-Schätzer, d.h. als Lösung von (1.12), ergibt sich mit x (1.13) pc w = N die relative Anzahl der defekten Produktionsstücke in der auszuwertenden Stichprobe vom Umfang N 1.73. 1.67Genaugenommen liegt hier ein parametrisches Modell mit dem Parameterbereich Θ = [0, 1] vor. Θ parametrisiert die unterschiedlichen Wahrscheinlichkeitsverteilungen QN,p , p ∈ [0, 1], die als mögliche Kandidaten für die real zugrundeliegende Wahrscheinlichkeitsverteilung QN,pw der Daten, d.h. der Anzahl der defekten unter den geprüften Produktionsstücken, in Frage kommen. 1.68 In diesem Abschnitt 1.1.5 sei die Anzahl N der geprüften Produktionsstücke fest. 1.69 Mit pc w soll die wahre Fehlerwahrscheinlichkeit pw des Produktionsverfahrens geschätzt werden. 1.70Vgl. (1.11). 1.71Unter allen möglichen p ∈ [0, 1] ist also der beobachtete Wert x für jenes pc am wahrw ” scheinlichsten“. 1.72Für ein etwas allgemeineres statistisches Modell (X, G, (Q ) p p∈Θ ), wobei X höchstens abzählbar, G = Pot(X) und Qp , p ∈ Θ, eine Familie von Wahrscheinlichkeitsmaßen auf (X, G) sei, ist bei einer Anwendung des Maximum-Likelihood-Prinzips zu x ∈ X eine Lösung pb = pb(x) von (∗) Qpb[{x}] = sup Qp [{x}] p∈Θ zu suchen. Für ein festes x ∈ X bezeichnet man übrigens die Funktion Θ ∋ p → Qp [{x}] = Lx (p) ∈ [0, 1] als Likelihood-Funktion zum Beobachtungswert x. Aufgrund von (∗) ist zur Bestimmung von pb(x) ein p ∈ Θ, an dem die Likelihood-Funktion Lx ein globales Maximum besitzt, zu suchen. 1.73Zur Lösung von (1.12) ist für x ∈ X N zu klären, wo die Likelihood-Funktion p → N x p (1 − p)N−x = Lx (p), bzw. in einer äquivalenten Formulierung, wo die Log-Likelihoodx Funktion x p → log(Lx (p)) = log N p (1 − p)N−x = log N + x log(p) + (N − x) log(1 − p) = ℓx (p) x x maximal wird. Für x = 1, 2, . . . , N − 1 ergibt sich nun (1.13) aus x N −x x ℓ′x (p) = − = 0 ⇐⇒ p = , p 1−p N N −x x < 0, p ∈ (0, 1), ℓ′′ x (p) = − 2 − p (1 − p)2 18. April 2016 18 Der Schätzer pc w ist zunächst unbefriedigend, da mit ihm keine Angabe über seine Genauigkeit, bzw. seine Zuverlässigkeit verbunden ist. Beispiel 1.10 (Konfidenzbereich). 1.74 Eine vertrauenswürdige, bzw. zuverlässige Schätzung für pw liegt dann vor, wenn ein möglichst kleiner sog. Konfidenzbereich angegeben wird, innerhalb dessen mit einer vorgegebenen hinreichend großen Si” cherheit“ 1.75 dieses pw erwartet werden kann. Eine sinnvolle Vorgehensweise besteht darin, • zunächst ein Irrtumsniveau s ∈ (0, 1) 1.76 zu wählen und dann • eine Zuordnung XN ∋ x → C(x) = [pu (x), po (x)] ⊆ [0, 1] so zu bestimmen, daß für alle x das jeweilige Intervall C(x) möglichst klein ist und • für jedes mögliche pw ∈ [0, 1] bzgl. des zugehörigen Wahrscheinlichkeitsmaßes QN,pw solche x, für die C(x) 6∋ pw gilt, höchstens mit Wahrscheinlichkeit s beobachtet werden. Wegen (1.11) sollte daher (1.14) sup QN,p [{x ∈ XN : C(x) 6∋ p}] p∈[0,1] = sup X p∈[0,1] x=0,1,...,N C(x)6∋p N x p (1 − p)N −x ≤ s x gelten. Man bezeichnet in diesem Fall die Abbildung XN ∋ x → C(x) ⊆ [0, 1] als Konfidenzbereich zum Irrtumsniveau s 1.77 1.78. Für einen festen Beobachtungswert x und nach der Bestimmung von C(x) kann nun der Statistiker sein Ergebnis in der folgenden Form präsentieren: Mit einer ” Sicherheit von mindestens (1 − s) · 100 % liegt pw in dem Intervall C(x)“ 1.79, bzw., das Risiko für die Gültigkeit von pw 6∈ C(x) ist höchstens s · 100 %. ” und lim ℓx (p) = lim ℓx (p) = −∞. pց0 pր1 Abschließend beachte man, daß L0 (p) = (1 − p)N , bzw. LN (p) = pN , p ∈ [0, 1]. Somit ist es offensichtlich, daß die Likelihood-Funktion Lx auch für x = 0 und x = N an der durch (1.13) gegebenen Stelle ein globales Maximum hat. 1.74In den Überlegungen dieses Beispiels wird auf den möglichen Wunsch des Herstellers, die Einschätzung der Verarbeitungsqualität seines Produkts mit einer Angabe zur Genauigkeit jener Einschätzung zu verbinden, eingegangen. 1.75Eine derartige Phrase muß natürlich mathematisch gefaßt werden. 1.76Man könnte auch von einem Sicherheitsniveau 1 − s sprechen. 1.77Für C(x) = [0, 1], x ∈ X , ist {x ∈ X : C(x) 6∋ p} = ∅, p ∈ [0, 1]. Da Q N N N,p [∅] = 0, vgl. (2.8), ist somit (1.14) erfüllt. Allerdings liefert ein solcher Konfidenzbereich offensichtlich keine brauchbare Information und sollte daher verkleinert werden. Die Bestimmung eines solchen kleineren“ Konfidenzbereichs wird z.B. in Beispiel 4.8 vorgenommen. ” 1.78 In einer allgemeineren, im Rahmen eines statistischen Modells (X, G, (Qp )p∈Θ ) gewählten Formulierung sollte der Konfidenzbereich, d.h. die Zuordnung X ∋ x → C(x) ⊆ Θ so bestimmt werden, daß sup Qp {x ∈ X : C(x) 6∋ p} ≤ s. p∈Θ 1.79Die häufig umgangssprachlich verwendete Aussage Mit einer Wahrscheinlichkeit von ” mindestens (1 − s) · 100 % liegt pw in dem Intervall C(x)“ ist unpräzise und irreführend, da sie suggeriert, daß pw zufällig ist, was nicht der Fall ist. 18. April 2016 19 Beispiel 1.11 (Testen einer Hypothese). 1.80 Durch einen Vertrag sei der Hersteller der Produktionsstücke zur Zahlung einer Konventionalstrafe verpflichtet, wenn bei einer Lieferung eine Fehlerquote 1.81 pf ∈ [0, 1] überschritten wird. Das Risiko, jene maximale Fehlerwahrscheinlichkeit pf unbemerkt 1.82 zu überschreiten, soll für den Hersteller unter einem vorgegebenen, gerade noch akzeptablen Niveau bleiben 1.83. In einem systematischen statistischen Verfahren zur Risikobegrenzung besteht • ein erster Schritt darin, ein Irrtumsniveau t ∈ (0, 1) und • eine Nullhypothese 1.84 Θ0 = {p ∈ [0, 1] : p ≥ pf } (1.15) festzulegen. • Für das noch genauer zu bestimmende Entscheidungsschema, einen sog. Test φ, mit 1.85 ( 0, falls p ∈ Θ0 vermutet wird 1.86, XN ∋ x → φ(x) = (1.16) 1, falls p 6∈ Θ0 angenommen wird 1.87, sollte dann einerseits die maximale Irrtumswahrscheinlichkeit bei einer zu großen Fehlerquote, d.h. bei Gültigkeit der Nullhypothese Θ0 , nicht größer als t sein 1.88, d.h., es sollte (1.17) sup QN,p [{x ∈ XN : φ(x) = 1}] p∈Θ0 = sup p∈Θ0 gelten X {x∈XN :φ(x)=1} N x p (1 − p)N −x ≤ t x 1.89 . 1.80Die Anwendung des nun diskutierten Verfahrens kann für den Hersteller dann interessant werden, wenn er beim Unterschreiten einer vorher vereinbarten Qualitätsgrenze, d.h. beim Überschreiten einer vorgegebenen Fehlerwahrscheinlichkeit, zur Vermeidung von Regressforderungen der Kunden informiert werden will. 1.81Die Fehlerquote“ p sei der relative Anteil der defekten Produktionsstücke in einer f ” Lieferung an einen Kunden. Nach dem Gesetz der großen Zahlen, vgl. Beispiel 1.7, wird für große Liefermengen diese Fehlerquote durch die Fehlerwahrscheinlichkeit p, d.h. die Wahrscheinlichkeit, daß ein beliebiges einzelnes Produktionsstück defekt ist, approximiert. 1.82Wenn die Fehlerwahrscheinlichkeit p f unbemerkt “ überschritten wird, kann die Auslie” ferung der Ware nicht verhindert werden, d.h., der Eingang einer Regressforderung ist zu erwarten. 1.83 Ein akzeptables Niveau“ ist im folgenden bestimmt durch die für den Hersteller noch ” vertretbare Wahrscheinlichkeit“, mit der die Zahlung der Konventionalstrafe fällig wird. ” 1.84Das Risiko, die Gültigkeit der Nullhypothese Θ zu übersehen, sollte durch das vorgege0 bene Irrtumsniveau begrenzt sein, da ein solches Versäumnis mit hohen Kosten verbunden sein kann. 1.85Bei der genauen Bestimmung von φ(.) werden die Mengen A = {x ∈ X : φ(x) = 0} 0 N und A1 = {x ∈ XN : φ(x) = 1} = XN \ A0 spezifiziert. 1.86Der Statistiker, der die Datenauswertung vornimmt, kommt zum Ergebnis, daß die Fehlerwahrscheinlichkeit pf überschritten wird. Er schlägt nun dem Betrieb vor, Verbesserungen im Produktionsprozeß vorzunehmen. 1.87 Der Statistiker kommt zum Schluß, daß die Fehlerwahrscheinlichkeit pf nicht erreicht wird. Er empfiehlt nun, den Produktionsprozeß nicht zu verändern. 1.88Die maximale Wahrscheinlichkeit für einen sog. Fehler 1. Art sollte das Niveau t nicht überschreiten. 1.89In einem allgemeineren, im Rahmen eines statistischen Modells (X, G, (Q ) p p∈Θ ) formulierten Testproblem sollte für eine gegebene Nullhypothese Θ0 ⊆ Θ der Test φ : X → {0, 1} so bestimmt werden, daß sup Qp [{x ∈ X : φ(x) = 1}] ≤ t p∈Θ0 18. April 2016 20 • Andererseits sollte auch im Fall einer eigentlich akzeptablen Fehlerquote p < pf die entsprechende Irrtumswahrscheinlichkeit möglichst klein sein 1.90, d.h. 1.91 X N x (1.18) p (1 − p)N −x QN,p [{x ∈ XN : φ(x) = 0}] = x {x∈XN :φ(x)=0} !! = minimal für den zu suchenden Test φ, falls p 6∈ Θ0 . Nach der Bestimmung eines Tests φ, der (1.16) - (1.18) zu vorgegebenem Irrtumsniveau t und Nullhypothese Θ0 löst, kann ein Statistiker dessen Wirkungsweise folgendermaßen charakterisieren: Die Nullhypothese Θ0 wird in höchstens t · 100 % ” aller Fälle übersehen“ oder auch die Nullhypothese wird mit einer Sicherheit von ” mindestens (1−t)·100 % erkannt“ 1.92. Zusätzlich wird auf das eventuelle Vorliegen ” der Alternative p < pf mit maximaler Zuverlässigkeit hingewiesen“ 1.93. 1.1.6. Zusammenfassung und Ausblick. In der Stochastik werden Gesetzmäßigkeiten in zufälligen Vorgängen mathematisch beschrieben. Hierbei wird mit mathematischen Modellen gearbeitet. Im Teilgebiet der Wahrscheinlichkeitstheorie werden die Eigenschaften fest vorgegebener wahrscheinlichkeitstheoretischer Modelle studiert 1.94. Im Teilgebiet der Statistik werden im Rahmen statistischer Modelle reale Beobachtungsdaten interpretiert. In diesem Abschnitt 1.1 wurden u.a. folgende Begriffe, Konzepte und Resultate der Stochastik vorgestellt 1.95: • Wahrscheinlichkeitsraum (Stichprobenraum, σ-Algebra der Ereignisse, Wahrscheinlichkeitsmaß) • Zufallsvariable, Verteilung einer Zufallsvariable, stochastischer Prozeß • Unabhängigkeit • Erwartungswert, Varianz • (schwaches bzw. starkes) Gesetz der großen Zahlen • Zentraler Grenzwertsatz • Čebyšev’sche Ungleichung • stochastische bzw. fast-sichere Konvergenz, Konvergenz in Verteilung • Binomialverteilung, Normalverteilung gilt. Analog zu (1.16) hat auch hier φ die Bedeutung ( 0, falls Θ0 akzeptiert wird, φ(x) = 1, falls Θ0 verworfen wird, x ∈ X. 1.90Durch diese Forderung soll der sog. Fehler 2. Art möglichst unwahrscheinlich“ werden, ” d.h., die Gefahr eines falschen Alarms soll möglichst klein werden. Damit soll eine evtl. kostenintensive, aber überflüssige Änderung des Produktionsprozesses vermieden werden. Insbesondere soll die Verwendung des trivialen Tests φ ≡ 0 ausgeschlossen werden. Bei Anwendung dieses Tests, einer offensichtlichen Lösung von (1.17), wird ohne Berücksichtigung der Prüfergebnisse vorgeschlagen, den Produktionsprozeß zu verbessern. 1.91 Für alle p < pf soll in der Klasse aller Tests, die (1.17) erfüllen, das Minimum der linken Seite von (1.18) durch den zu suchenden Test φ angenommen werden. 1.92Eine Verwendung des Wortes Wahrscheinlichkeit“ anstelle von Sicherheit“ wäre un” ” präzise, da sie eine nicht vorhandene Zufälligkeit von p suggerieren würde. 1.93Wenn φ : X → {0, 1} die Bedingung (1.17) erfüllt, nennt man φ einen Test zum IrrtumsN niveau t. Wenn zusätzlich (1.18) gilt, wird φ als ein gleichmäßig bester Test zum Irrtumsniveau t bezeichnet. 1.94 Insbesondere werden Wahrscheinlichkeitsräume und darauf definierte Zufallsvariablen untersucht. 1.95 Zum Teil wurden diese Begriffe nur in Fußnoten erwähnt. 18. April 2016 21 • • • • • • deskriptive und mathematische Statistik (parametrisches) statistisches Modell Maximum-Likelihood-Prinzip, Schätzer Konfidenzbereich Testen einer Hypothese Maß- und Integrationstheorie Diese Begriffe spielen zentrale Rollen in den mathematischen Disziplinen Wahrscheinlichkeitstheorie und Statistik. Sie werden im weiteren Verlauf der Vorlesung immer wieder auftauchen und dann auch mathematisch präzisiert und in Anwendungen und Beispielen erläutert werden. 1.2. (∗) Geschichte der Wahrscheinlichkeitstheorie und der Statistik Um die Einordnung der Wahrscheinlichkeitstheorie und der Statistik in den allgemeinen Rahmen der Mathematik und ihre außermathematische Bedeutung anzudeuten, werden in diesem Abschnitt 1.2 einige wenige Entwicklungsphasen und markante Zeitpunkte festgehalten. Antike und Mittelalter. Da völlig unklar ist, wie Begriffe wie Zufall oder Wahrscheinlichkeit mathematisch faßbar sind, kann sich noch keine Wahrscheinlichkeitstheorie entwickeln. Einzelne Abhandlungen über Glücksspiele sind bekannt. ca. 1655. Ein Briefwechsel zwischen B. Pascal und P. de Fermat u.a. über kombinatorische Probleme bei Glücksspielen wird als Beginn der mathematischen Disziplin Wahrscheinlichkeitstheorie betrachtet. In einer Abhandlung ebenfalls über Glücksspiele führt Ch. Huygens den Erwartungswert ein. ca. 1710. U.a. durch Arbeiten von J. Bernoulli (Gesetz der großen Zahlen) und A. de Moivre (Zentraler Grenzwertsatz) gibt es Fortschritte in der elementaren“ ” Stochastik. Es entwickelt sich das Gebiet der Statistik. 18. und Beginn des 19. Jahrhunderts. In den mathematischen Auseinandersetzungen mit der Stochastik bleiben große Probleme mit kontinuierlichen Wahrscheinlichkeitsverteilungen bestehen. In philosphischen Überlegungen wird u.a. von J.B. d’Alembert und P.S. Laplace versucht, den Zufall“ zu verste” hen. T. Bayes (bedingte Wahrscheinlichkeit) begründet die angelsächsische ” Schule“ der mathematischen Statistik. C.F. Gauß und A.M. Legendre erarbeiten die Methode der kleinsten Quadrate. Ende des 19. Jahrhunderts. Die Mengenlehre (G. Cantor) und die Maß- und Integrationstheorie (E. Borel, H. Lebesgue) werden entwickelt. Sie erweisen sich später als die Basis der modernen“ Stochastik. ” Beginn des 20. Jahrhunderts. Vielfältige theoretische Untersuchungen und Anwendungen konvergieren“ letztendlich zum noch heute akzeptierten Gebäude“ ” ” der Wahrscheinlichkeitstheorie. Durch Arbeiten von L. Bachelier (Modellierung von Aktienkursen, 1900) und A. Einstein (Molekularbewegung, 1905) findet mit der Brownschen Bewegung ein stochastischer Prozeß erste wichtige Anwendungen. 1933. A.N. Kolmogorov veröffentlicht das Axiomensystem der Wahrscheinlichkeitstheorie. In den folgenden zwei Jahrzehnten sind schnelle Fortschritte möglich (Stochastische Prozesse, Stochastische Differentialgleichungen, Martingale). 2. Hälfte des 20. Jahrhunderts. Erst durch Anwendungen von Resultaten der modernen Wahrscheinlichkeitstheorie werden viele technische oder wirtschaftliche Entwicklungen möglich, wie z.B. • Manhattan-Projekt, Entwicklung der H-Bombe (Monte-Carlo Simulationen u.a. von S. Ulam, E. Fermi, J. v. Neumann), 18. April 2016 22 • Steuerung von Satelliten und Raketen, bzw. Satellitennavigationssysteme (Kalman-Bucy Filter), • Bestimmung des Preises für gewisse Finanzderivate (z.B. Terminkontrakte, Aktienoptionen) (u.a. Black-Scholes Modell). 18. April 2016 KAPITEL 2 Wahrscheinlichkeitsräume Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, F, P), wobei • Ω eine Menge, • F eine σ-Algebra 2.1, d.h. eine spezielle Familie von Teilmengen von Ω und • P ein Wahrscheinlichkeitsmaß 2.3 auf (Ω, F) ist. 2.2 , Ω heißt Stichprobenraum. Die Elemente 2.4 A ∈ F beschreiben Ereignisse, welchen durch P eine Wahrscheinlichkeit P[A] ∈ [0, 1] zugewiesen wird. Während Stichprobenräume keinerlei Einschränkungen unterliegen 2.5, müssen σ-Algebren und Wahrscheinlichkeitsmaße den im folgenden beschriebenen Kolmogorovschen Axiomen (2.1) und (2.2) genügen. Sei Ω 6= ∅ eine Menge. Eine Familie F ⊆ Pot(Ω) heißt σ-Algebra, wenn Ω ∈ F, (2.1a) (2.1b) A∈F (2.1c) A1 , A2 , · · · ∈ F Ω \ A ∈ F, =⇒ =⇒ ∞ [ k=1 Ak ∈ F. Nun wird (Ω, F) als meßbarer Raum bezeichnet. Die Elemente von F heißen auch meßbare Mengen. Im Rahmen eines wahrscheinlichkeitstheoretischen Modells lassen sich die Bedingungen (2.1) wie folgt interpretieren. • Mit (2.1a) wird festgehalten, daß durch Ω ein Ereignis, nämlich irgend” etwas geschieht“ beschrieben wird. • (2.1b) besagt, daß mit A auch A geschieht nicht“ ein Ereignis ist. ” • Aufgrund von (2.1c) ist mit A1 , A2 , . . . auch A1 oder A2 oder . . .“ ein ” Ereignis 2.6 2.7. Beispiel 2.1. (i) Für eine beliebige Menge Ω ist F = {∅, Ω} eine σ-Algebra. Man bezeichnet F als triviale σ-Algebra. 2.1Die genaue Definition von σ-Algebren folgt in (2.1). 2.2I. allg. ist F eine echte Teilmenge der Potenzmenge Pot(Ω) von Ω, vgl. Abschnitt 2.5. 2.3Die genaue Definition von Wahrscheinlichkeitsmaßen folgt in (2.2). 2.4Die Elemente A ∈ F sind Teilmengen von Ω. 2.5In konkreten Anwendungen sollten Stichprobenräume einfach nur groß genug“ sein, d.h., ” eine hinreichend detaillierte Struktur besitzen. 2.6Man beachte, daß in (2.1c) nur abzählbare Vereinigungen betrachtet werden. 2.7Aus (2.1) können weitere Eigenschaften von σ-Algebren, wie z.B. A1 , A2 , · · · ∈ F abgeleitet werden, vgl. Abschnitt 2.3.1. T∞ k=1 =⇒ ∞ \ k=1 Ak ∈ F, Ak entspricht dem Ereignis A1 und A2 und . . . “. ” 23 24 ′ (ii) Sei Ω′ eine Menge mit einer SDarstellung Ω = A1 ∪· · ·∪An, wobei Ak′ ∩Al = 2.8 ′ ∅, k 6= l . Weiterhin sei F = l∈Λ Al : Λ ∈ Pot({1, . . . , n}) , d.h., F ist die Menge aller Vereinigungen der Elemente von Teilmengen von {A1 , . . . , An } 2.9. F′ ist eine σ-Algebra. Für einen meßbaren Raum (Ω, F) heißt eine Funktion P : F → [0, 1] Wahrscheinlichkeitsmaß, wenn (2.2a) " (2.2b) P ∞ [ k=1 Ak # P[Ω] = 1, 2.10 = ∞ X P[Ak ], k=1 A1 , A2 , · · · ∈ F, Ak ∩ Al = ∅, k, l ∈ N, k 6= l. Die Eigenschaft (2.2b) wird als σ-Additivität von P bezeichnet. Man beachte, daß die Gültigkeit dieser Beziehung nur für abzählbar viele, paarweise disjunkte A1 , A2 , · · · ∈ F gefordert wird 2.11. Die Eigenschaften (2.2) sind mit einem anschaulichen Begriff der Wahrschein” lichkeit“ vereinbar 2.12. • Beispielsweise besagt (2.2a), daß mit Wahrscheinlichkeit 1 “irgendetwas geschieht“ 2.13. • Mit der σ-Additivität (2.2b) von P wird verlangt, daß sich die Wahrscheinlichkeiten abzählbar vieler, sich gegenseitig ausschließender Ereignisse addieren 2.14 2.15. Beispiel 2.2. In der in Beispiel 2.1(ii) beschriebenen Situation seien pk , k = P 1, . . . , n, mit pk ∈ [0, 1], kS= 1, . . . , n,P und nk=1 pk = 1 gegeben. Durch P′ [Ak ] := pk , k = 1, . . . , n, und P′ [ l∈Λ Al ] := l∈Λ pl , Λ ∈ Pot({1, . . . , n}), wird ein Wahrscheinlichkeitsmaß P′ [ · ] auf dem meßbaren Raum (Ω′ , F′ ) definiert. 2.1. Elementare wahrscheinlichkeitstheoretische Modelle Die Bildung einfacher wahrscheinlichkeitstheoretischer Modelle wird in diesem Abschnitt mit einigen Beispielen für unterschiedliche Varianten des Wurfs einer Münze, bzw. eines Würfels erläutert 2.16. 2.8Um anzudeuten, daß die Mengen A , . . . , A paarweise disjunkt sind, schreibt man auch 1 N · · · · Ω′ = A1 ∪ · · · ∪ An und bezeichnet A1 ∪ · · · ∪ An als Zerlegung von Ω′ . 2.9Man betrachtet Teilmengen A = {A , . . . , A } ⊆ {A , . . . , A } und dann die Vereinigung n 1 l1 lr Al1 ∪ · · · ∪ Alr der Elemente Al1 , . . . , Alr von A. 2.10Als Folge von (2.1c) ist mit A , A , · · · ∈ F auch S∞ A ∈ F, d.h., die linke Seite von 1 2 k=1 k (2.2b) ist wohldefiniert. 2.11Für beliebige, nicht notwendigerweise paarweise disjunkte A , A , · · · ∈ F gilt (2.2b) 1 2 i. allg. nicht. Vielmehr liegt dann σ-Subadditivität vor, vgl. (2.13). 2.12 Es ist bemerkenswert, daß (2.2a) und (2.2b), d.h., nur zwei Eigenschaften, ausreichen, um auf eine eindeutige Weise Wahrscheinlichkeitsmaße auf einem meßbaren Raum (Ω, F) zu charakterisieren. 2.13Das Ereignis Ω umfaßt “alles mögliche, das eintreten kann“. Man beachte, daß P[Ω] aufgrund von (2.1a) wohldefiniert ist. 2.14Sich ausschließende Ereignisse entsprechen disjunkten Mengen. 2.15Es ist wesentlich, daß (2.2b) für abzählbar viele und nicht nur für endliche viele disjunkte A1 , . . . , AN ∈ F, N ∈ N, gefordert wird. Jene endliche Additivität von P kann als Konsequenz von (2.2) bewiesen werden, vgl. (2.9). Zusammen mit (2.9) werden weitere Konsequenzen aus (2.2) in Abschnitt 2.3.2 zusammengestellt. 2.16Insbesondere wird beschrieben, wie in diesen Fällen zur Modellierung geeignete Wahrscheinlichkeitsräume angegeben werden können. 18. April 2016 25 Beispiel 2.3 (Wurf einer fairen Münze). Bei einem Wurf einer fairen Münze kann sich Kopf oder Zahl ergeben, wobei diese beiden Möglichkeiten die gleiche Wahrscheinlichkeit besitzen. Zur mathematischen Modellierung dieses Vorgangs kann Kopf“ mit der Zahl 0 und Zahl“ mit 1 identifiziert werden und dann ” ” Ω = {0, 1}, F = ∅, {0}, {1}, Ω = Pot(Ω), 1 1 P[∅] = 0, P[{0}] = , P[{1}] = , P[Ω] = 1 2 2 gewählt werden. Die Menge Ω faßt die möglichen Ausgänge des Münzwurfs zusammen. Mit diesen Ausgängen sind die durch F beschriebenen Ereignisse ∅ , Es wird weder Kopf noch Zahl geworfen“ 2.17, ” {0} , Es wird Kopf geworfen“, ” {1} , Es wird Zahl geworfen“, ” Ω , Es wird Kopf oder Zahl geworfen“ ” verbunden. Da die Münze als fair vorausgesetzt wurde, besitzen diese Ereignisse offensichtlich“ 2.18 die durch P angegebenen Wahrscheinlichkeiten. ” Mit dem hier beschriebenen wahrscheinlichkeitstheoretischen Modell (Ω, F, P) kann offenbar auch jedes andere Experiment“ mit zwei möglichen, gleichwahr” scheinlichen Ausgängen beschrieben werden 2.19. Beispiel 2.4 (Wurf einer unfairen Münze). Bei einem Wurf einer Münze, die bevorzugt auf eine der beiden Seiten fällt, d.h. einer unfairen Münze, können Ω und F wie in Beispiel 2.3 gewählt werden. Mit einem geeigneten p ∈ [0, 1] 2.20 ist dann allerdings P gemäß P[∅] = 0, P[{0}] = 1 − p, P[{1}] = p, P[Ω] = 1 zu modifizieren. Mit einem derartigen Wahrscheinlichkeitsraum (Ω, F, P) können Experimente mit zwei möglichen, unterschiedlich wahrscheinlichen Ausgängen modelliert werden 2.21. Beispiel 2.5 (Wurf eines fairen Würfels). Anders als in den Beispielen 2.3 und 2.4 sind in diesem Fall sechs Ausgänge möglich, wobei diese wie in Beispiel 2.3 gleichwahrscheinlich sind. Nun kann durch Ω = {1, 2, . . . , 6}, F = Pot(Ω), 2.17Mit ∅ ∈ F werden hier auch unwahrscheinliche“ Ereignisse wie die Münze bleibt in der ” ” Luft hängen“ oder im Zeitpunkt ihres Wurfs schlägt ein Blitz in die Münze ein und sie verdampft“ ” modelliert. 2.18 Hier wird auf die menschliche Erfahrung Bezug genommen. In mathematischen Modellen realer Phänomene geht diese menschliche Erfahrung immer ein. 2.19Beispiele sind ein Wurf eines fairen Würfels, bei dem gefragt wird, ob eine gerade oder ” eine ungerade Augenzahl auftritt“ oder eine Ultraschalluntersuchung eines Embryos zur Feststel” lung seines Geschlechts“. 2.20p = 0 oder p = 1 wird dann benutzt, wenn die Münze so präpariert ist, daß sie immer auf die gleiche Seite fällt. 2.21Weitere Beispiele wären der Wurf eines Reißnagels“, bei dem die glatte Seite, bzw. ” der Stift nach oben zeigen kann, die Frage an einen zufällig ausgewählten Passanten, ob er im ” kommenden Sommer Urlaub machen wird oder nicht“ oder die Untersuchung einer Blutkonserve, ” ob diese HIV-positiv ist oder nicht“. 18. April 2016 26 1 , k = 1, . . . , 6, 6 [ X |A| |A| P[A] = P = , {k} = 2.22 P[{k}] = 6 |Ω| P[{k}] = k∈A k∈A A ∈ F, ein zur Modellierung geeigneter Wahrscheinlichkeitsraum (Ω, F, P) definiert werden. Beispiel 2.6 (Wurf eines unfairen Würfels). Ein Würfel sei so manipuliert, daß die sechs Seiten mit unterschiedlichen Wahrscheinlichkeiten pk , k = 1, . . . , 6, geworfen werden. Hierbei sollte pk ∈ [0, 1], k = 1, . . . , 6, 6 X pk = 1 k=1 gelten. Zur Modellierung kann in diesem Fall (Ω, F) wie in Beispiel 2.5 gewählt und das Wahrscheinlichkeitsmaß P durch X X P[A] = P[{k}] = pk , A ∈ F, k∈A k∈A definiert werden. Beispiel 2.7 (Mehrmaliger, unabhängiger Wurf einer fairen Münze). 2.23 Ausgehend von den Überlegungen in Beispiel 2.3 kann die Menge der Sequenzen von N Würfen der Münze durch Ω = {0, 1}N = {(ω1 , . . . , ωN ) : ωk ∈ {0, 1}, k = 1, . . . , N } beschrieben werden. Wie in den Beispielen 2.3 - 2.6 ist weiterhin die Wahl F = Pot(Ω) sinnvoll 2.24. Bei der Bestimmung der Wahrscheinlichkeit P[{ω}] für das Werfen einer einzelnen festen Sequenz ω = (ω1 , . . . , ωN ) ∈ Ω muß beachtet werden, daß für alle k = 1, . . . , N die Wahrscheinlichkeit für den Wurf von 0, bzw. 1 beim k-ten Wurf unabhängig von den Resultaten der restlichen Würfe l 6= k jeweils 1/2 ist. Somit folgt zunächst (2.3a) P[{ω}] = P[1. Wurf , ω1 , 2. Wurf , ω2 , . . . , N . Wurf , ωN ] 2.25 P[1. Wurf , ω1 ]P[2. Wurf , ω2 ] · · · P[N . Wurf , ωN ] 1 N 1 = 2.26 , ω = (ω1 , . . . , ωN ) ∈ Ω, = 2 |Ω| = 2.22Hier wird benutzt, daß sich die Wahrscheinlichkeiten endlich vieler, sich gegenseitig ausschließender, d.h. disjunkter Ereignisse zu ihrer Gesamtwahrscheinlichkeit addieren, vgl. Fußnote 1.30, bzw. (2.2b) oder (2.9). 2.23Der Begriff der Unabhängigkeit in der Wahrscheinlichkeitstheorie wird noch erläutert werden. Analog zu den zu (1.3b) führenden Überlegungen, vgl. insbesondere Fußnote 1.31, sei vorerst damit gemeint, daß die Augenzahlen der einzelnen Würfe nicht durch die Ausgänge der ” anderen Würfe beeinflußt werden“. Bei der rigorosen Definition der Unabhängigkeit zweier Ereignisse wird die intuitiv einleuchtende Beziehung P[A und B] = P[A ∩ B] = P[A]P[B] für unabhängige“ Ereignisse A und B benutzt, vgl. Abschnitt 3.2.3. ”2.24 Einer Menge A von Wurfsequenzen entspricht das Ereignis, daß die geworfene Wurfse” quenz in A enthalten ist“. 18. April 2016 27 und dann als Ergänzung (2.3b) P[A] = X P[{ω}] = ω∈A |A| , |Ω| A ∈ F. Beispiel 2.8 (Mehrmaliger, unabhängiger Wurf einer unfairen Münze). 2.27 Die Menge der möglichen Wurfsequenzen ist offensichtlich die gleiche wie in Beispiel 2.7, d.h., wenn die Münze N mal geworfen wird, kann Ω = {0, 1}N gewählt werden. Ebenso können die gleichen Ereignisse wie in Beispiel 2.7 betrachtet werden, so daß F = Pot(Ω) definiert werden sollte. Wenn allerdings 2.28 p 6= 1/2 ist, so besitzen jene Ereignisse nun andere Wahrscheinlichkeiten als in Beispiel 2.7, d.h., P ist zu modifizieren. Wenn die Unabhängigkeit der einzelnen Würfe berücksichtigt wird, führt die in Beispiel 2.4 festgehaltene Wahrscheinlichkeitsverteilung 2.29 für das Ergebnis eines einzelnen Wurfs zu 2.30 (2.4a) P[{ω}] = 2.31 N Y i=1 bzw., pωi (1 − p)1−ωi = p PN i=1 ωi (1 − p)N − PN i=1 ωi , ω ∈ Ω, 2.32 (2.4b) P[A] = X P[{ω}], ω∈A A ∈ F. Bemerkungen 2.9. (i) Wie in den Beispielen 2.3 - 2.8 ist i. allg. bei endlichen oder abzählbar unendlichen Stichprobenräumen Ω die Wahl F = Pot(Ω) üblich. Wenn aber Ω überabzählbar unendlich ist, kann eine derartige Wahl von F zu einem Widerspruch führen 2.33. (ii) Wenn |Ω| < ∞ und P[{ω}] = 1/|Ω|, ω ∈ Ω, wie in den Beispielen 2.3, 2.5 und 2.7, wird P als Gleichverteilung auf Ω bezeichnet 2.34. Nun ist (Ω, F, P) ein Laplacescher Wahrscheinlichkeitsraum. 2.25Wegen der Unabhängigkeit der Würfe, vgl. Fußnote 2.23. 2.26Dieser Zusammenhang ergibt sich aus der Tatsache, daß Ω insgesamt 2N Elemente enthält, d.h., |Ω| = 2N . 2.27Das nun vorgestellte wahrscheinlichkeitstheoretische Modell wurde schon bei der Untersuchung einer anderen Fragestellung (Prüfung der Qualität von Produktionsstücken) in Abschnitt 1.1.2 eingeführt. 2.28p ∈ [0, 1] ist die Wahrscheinlichkeit für den Wurf von 1 , Zahl“ bei einem einzelnen ” Wurf der Münze, vgl. Beispiel 2.4. 2.29Wahrscheinlichkeitsverteilung ist ein Synonym für Wahrscheinlichkeitsmaß. 2.30Vgl. die entsprechende Bestimmung von P N,p in Abschnitt 1.1.2 und insbesondere auch die Herleitung von (1.3b). ( falls ωi = 1, 2.31Man beachte, daß pωi (1 − p)1−ωi = p, , i = 1, . . . , N . 1 − p, falls ωi = 0, 2.32 Wenn p 6= 1/2, sind in (2.4) anders als in (2.3) die Wahrscheinlichkeiten P[{ω}], ω ∈ Ω, unterschiedlich. 2.33Vgl. Abschnitt 2.5. 2.34In diesen Fällen hat jedes einpunktige Elementarereignis“ {ω}, ω ∈ Ω, die gleiche Wahr” scheinlichkeit. 18. April 2016 28 2.2. Diskrete Wahrscheinlichkeitsmaße Die in diesem Abschnitt 2.2 vorgestellten Wahrscheinlichkeitsmaße tauchen sehr oft in den klassischen Beispielen der elementaren Wahrscheinlichkeitstheorie auf. Sei zunächst allgemein • Ω eine endliche oder abzählbar unendliche Menge, • F = Pot(Ω) P und • P[A] = a∈A pa , A ∈ F, wobei X pa = P[{a}] ∈ [0, 1], a ∈ Ω, mit pa = 1. a∈Ω In einem solchen Fall wird (Ω, F, P) als diskreter Wahrscheinlichkeitsraum und P als diskretes Wahrscheinlichkeitsmaß bezeichnet 2.35. Spezielle Beispiele sind in folgender Liste zusammengestellt: Bernoulli-Verteilung mit Parameter p ∈ [0, 1]: Ω = {0, 1}; p0 = 1 − p, p1 = p. Anwendung: Modellierung eines Münzwurfs (fair, wenn p = 1/2, sonst unfair) 2.36. Binomial-Verteilung B(N, p) mit Parametern N ∈ N und p ∈ [0, 1]: N k Ω = {0, 1, . . . , N }; pk = p (1 − p)N −k , k ∈ Ω. k Anwendung: Mit B(N, p) kann die Anzahl der Erfolge beim N -maligen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit p modelliert werden 2.37. Geometrische Verteilung (auf N) mit Parameter p ∈ (0, 1) 2.38: Ω = N = {1, 2, . . . }; pk = (1 − p)k−1 p, k ∈ Ω. Anwendung: Modellierung des Zeitpunkts des ersten Wurfs von Zahl“ bei ” dem ∞-fachen, unabhängigen Wurf einer Münze mit Wahrscheinlichkeit p 2.39 2.40 für Zahl“ beim einmaligen Wurf . ” Negative Binomial-Verteilung mit Parametern r ∈ N und p ∈ (0, 1): k+r−1 r Ω = N0 = {0, 1, 2, . . . }; pk = p (1 − p)k , k ∈ Ω. k 2.35Die in Abschnitt 2.1 beschriebenen Wahrscheinlichkeitsräume sind alle diskret. 2.36Vgl. Beispiele 2.3 und 2.4. Auch andere Experimente“ mit zwei möglichen Ausgängen ” können mit Hilfe einer Bernoulli-Verteilung modelliert werden. Beispiele wären der Test einer Person auf eine HIV-Infektion oder eine Funktionsprüfung einer Glühbirne. 2.37Vgl. auch Abschnitt 1.1.2, insbesondere (1.3c). Die Anzahl der defekten Produktionsstücke bei N unabhängigen Prüfungen ist binomialverteilt mit den Parametern N und der Fehlerwahrscheinlichkeit p. 2.38In [5] wird auch die Wahrscheinlichkeitsverteilung auf N = {0, 1, 2, . . . } mit p = (1 − 0 k p)k p, k ∈ N0 , als geometrische Verteilung bezeichnet. Die beiden geometrischen Verteilungen gehen durch eine Verschiebung um 1“ auseinander hervor. ” 2.39Wegen der Unabhängigkeit der Würfe, vgl. Fußnote 2.23, gilt insbesondere P zum Zeitpunkt n wird das erste Mal Zahl“ geworfen ” = P 1. Wurf , Kopf“, . . . , (n − 1)-ter Wurf , Kopf“, n-ter Wurf , Zahl“ ” ” ” = P[1. Wurf , Kopf“] · · · P[(n − 1)-ter Wurf , Kopf“]P[n-ter Wurf , Zahl“] ” ” ” = (1 − p)n−1 p, n ∈ N. 2.40 Die Modellierung des ∞-fachen, unabhängigen Wurf einer Münze wird ausführlich in Abschnitt 2.4.2 erläutert. 18. April 2016 29 Anwendung: Modellierung der Anzahl der Mißerfolge vor dem r-ten Erfolg bei einem beliebig oft unabhängig wiederholten Bernoulli-Experiment“ mit ” Erfolgswahrscheinlichkeit p 2.41 2.42. Die Negative Binomial-Verteilung, die auch als Pascal-Verteilung bezeichnet wird, ist eine Verallgemeinerung der sich für r = 1 ergebenden geometrischen Verteilung 2.43 2.44. Laplacesche Verteilung (Gleichverteilung) auf einer endlichen Menge M 2.45: Ω = M; pm = 1 , m ∈ Ω. |M | Anwendung: Modellierung von Experimenten mit einer endlichen Anzahl möglicher Ausgänge, die gleichwahrscheinlich sind, bzw. evtl. aufgrund eingeschränkter Vorkenntnisse als gleichwahrscheinlich betrachtet werden. Poissonverteilung P (λ) mit Parameter λ > 0: Ω = N0 = {0, 1, 2, . . . }; pk = λk exp(−λ), k ∈ Ω. k! Anwendung: Modellierung der Anzahl von total zufälligen“ Zeitpunkten 2.46 ” in einem Zeitintervall [0, T ], z.B. der Anzahl eingehender Anrufe in einer Telefonzentrale 2.47. 2.41Bei einem Bernoulli-Experiment“ denke man nicht nur an einen Wurf einer Münze. ” 2.42Das Ereignis, daß k (durch 0“ beschriebene) Mißerfolge vor dem r-ten (durch 1“ be” ” schriebenen) Erfolg eintreten, wird repräsentiert durch die Menge der Sequenzen der Länge k + r mit Werten in {0, 1}, die mit einer 1 enden und in den vorangehenden k + r − 1 Stellen genau k mal eine 0 und r − 1 mal eine 1 haben. Somit zeigt sich, wenn wie bei der Herleitung von (1.3c) argumentiert wird, daß die Wahrscheinlichkeit für dieses Ereignis k + r − 1 pr (1 − p)k k ist. 2.43Mit geometrischer Verteilung ist hier die in Fußnote 2.38 beschriebene Variante auf N 0 gemeint. 2.44 Der Name negative Binomial-Verteilung“ bezieht sich auf die Darstellung ” −r k + r − 1 (−1)k pr (1 − p)k , k ∈ N0 , r ∈ N, pr (1 − p)k = k k die sich ergibt, wenn m = 1, 0 m m(m − 1) · · · (m − l + 1) = , l l! l = 1, 2, . . . , für beliebige m ∈ Z definiert wird. 2.45In den Beispielen 2.3, 2.5 und 2.7 wurden Laplacesche Verteilungen betrachtet. Später, vgl. Abschnitte 2.4.1 und 2.6, wird auch die Gleichverteilung auf [0, 1], bzw. einem beschränkten Gebiet G ⊆ Rd eingeführt werden. 2.46Sowohl die Anzahl als auch die Lage jener Zeitpunkte innerhalb von [0, T ] seien zufällig“. ” Insbesondere seien keine Wechselwirkungen zwischen den einzelnen Zeitpunkten vorhanden. Eine Präzisierung des Ausdrucks total zufällig“ wird durch die Ausführungen in Abschnitt 2.7 gegeben. ” 2.47Weitere Beispiele wären jeweils in einem Zeitintervall [0, T ] die Anzahl der bei einem EMailserver eingehenden E-Mails, die Anzahl der Verkehrsunfälle auf einem festen Straßenabschnitt, der Vulkaneruptionen auf der Erde, der von Astronomen beobachteten Supernova-Explosionen, .... Die Tatsache, daß in derartigen Situationen mit Hilfe der Poissonverteilung eine vernünftige mathematische Modellierung vorgenommen werden kann, ergibt sich aus der Gültigkeit der Poisson-Approximation der Binomialverteilung. Dieses Resultat besagt, daß bei N → ∞ die Binomialverteilung B(N, pN ) gegen die Poissonverteilung P (λ) konvergiert“, falls N pN → λ, ” vgl. Abschnitt 2.7. Die Entwicklung eines Poissonschen Modells in einem konkreten Beispiel wird in Abschnitt 2.7.1 diskutiert. 18. April 2016 30 Multinomialverteilung und hypergeometrische Verteilung 2.48 sind weitere diskrete Wahrscheinlichkeitsmaße, die auf speziellen endlichen Teilmengen eines Zd , d = 2, 3, . . . , konzentriert sind. Sie treten auf bei der Modellierung der Resultate von mehrmaligen Ziehungen aus einer Urne, die endlich viele Kugeln mit teilweise unterschiedlichen Farben enthält. Verschiedenartige Situationen ergeben sich, je nachdem ob die gezogenen Kugeln zurückgelegt oder nicht zurückgelegt werden. Bemerkung 2.10. (i) Sei Ω ⊂ Rd höchstens abzählbar. Ein diskretes Wahrscheinlichkeitsmaß P auf Ω kann auch als ein Wahrscheinlichkeitsmaß auf 2.49 (Rd , B(Rd )) betrachtet werden. Man definiert dann X P[A] = P[{a}], A ∈ B(Rd ). a∈Ω∩A (ii) Für ein allgemeines Wahrscheinlichkeitsmaß P 2.50 auf (Rd , B(Rd )) bezeichnet man Punkte a ∈ Rd mit P[{a}] > 0 auch als Atome von P. Offensichtlich ist ein diskretes Wahrscheinlichkeitsmaß auf seinen Atomen konzentriert 2.51. 2.3. Konsequenzen aus den Kolmogorovschen Axiomen In diesem Abschnitt 2.3 wird die Struktur allgemeiner σ-Algebren und Wahrscheinlichkeitsmaße ein wenig detaillierter betrachtet 2.52. 2.3.1. Weitere Eigenschaften von σ-Algebren. Sei (Ω, F) ein meßbarer Raum. Unmittelbar aus (2.1) folgt zunächst 2.53 ∅ ∈ F. (2.5) Weiterhin ist F auch unter endlichen Vereinigungen abgeschlossen, d.h., A1 , . . . , AN ∈ F, N ∈ N (2.6) 2.48 =⇒ N [ k=1 2.54 Ak ∈ F. Vgl. Abschnitt 5.4. 2.49Die Borelsche σ-Algebra B(Rd ) ist die kleinste σ-Algebra in Rd , die alle d-dimensionalen Rechtecke in Rd enthält, vgl. Abschnitt 2.4.3. 2.50P muß insbesondere nicht diskret sein. 2.51Für ein Wahrscheinlichkeitsmaß P auf (Rd , B(Rd )) mit einer Dichte f , vgl. Abschnitt 2.6, R R gilt P[A] = A dx f (x), A ∈ B(Rd ), und somit P[{a}] = {a} dx f (x) = 0, a ∈ Rd . Ein solches Wahrscheinlichkeitsmaß hat daher keine Atome. 2.52Insbesondere werden einfache Folgerungen aus (2.1) und (2.2), welche σ-Algebren und Wahrscheinlichkeitsmaße eindeutig charakterisieren, zusammengestellt. 2.53Zum Beweis von (2.5) beachte man ∅ = Ω \ Ω ∈ F (vgl. (2.1b)). |{z} ∈ F (vgl. (2.1a)) 2.54Aufgrund von (2.1c) scheint (2.6) offensichtlich“ zu sein. Diese Beziehung sollte aber ” dennoch einmal präzise bewiesen werden. Wenn hierzu ( Ak , k = 1, . . . , N, A′k = ∅, k = N + 1, N + 2, . . . , gesetzt wird, folgt N [ k=1 Ak = ∞ [ k=1 A′k ∈ F (aufgrund von (2.5) und (2.1c)). 18. April 2016 31 Schließlich läßt sich (2.1c) auf eine natürliche Weise durch 2.55 ∞ \ (2.7) A1 , A2 , · · · ∈ F =⇒ Ak ∈ F k=1 ergänzen. 2.3.2. Weitere Eigenschaften von Wahrscheinlichkeitsmaßen. Sei ein allgemeiner Wahrscheinlichkeitsraum (Ω, F, P) gegeben. Komplementär zu (2.2a) ist 2.56 2.57 (2.8) P[∅] = 0. Natürlich ist neben der σ-Additivität d.h., 2.59 # "N N X [ (2.9) P P[Ak ], Ak = 2.58 auch die endliche Additivität von P, k=1 k=1 A1 , . . . , AN ∈ F, Ak ∩Al = ∅, k, l = 1, . . . , N, k 6= l, N ∈ N, zu erwarten. Für sich nicht gegenseitig ausschließende Ereignisse kann (2.9) beispielsweise durch 2.60 (2.10) P[A ∪ B] = P[A] + P[B] − P[A ∩ B], A, B ∈ F, 2.55(2.7) folgt aus ∞ \ k=1 Ak = Ω \ ( Ω \ Ak ) ∈ F (vgl. (2.1b)). | {z } k=1 ∈ F (vgl. (2.1b)) | {z } ∈ F (vgl. (2.1c)) [ ∞ 2.56(2.8) besagt, daß die Wahrscheinlichkeit, daß nichts geschieht“ 0 ist. 2.57 (∗) ” Man beachte, daß ∅ ∈ F, vgl. (2.5). Damit ist P[∅] wohldefiniert. Nun gilt 1 = P[Ω] (vgl. (2.2a)) . . . = P[ Ω ∪ ∅ ∪ ∅ ∪ . . . ] | {z } disjunkte Vereinigung ∞ X = P[Ω] + P[∅] (vgl. (2.2b)). | {z } k=2 = 1 (vgl. (2.2a)) (∗) kann nur gelten, wenn (2.8) richtig ist. 2.58Vgl. (2.2b). 2.59Zum Beweis von (2.9) beachte man " N # " N [ [ Ak = P Ak ∪ P k=1 k=1 ∞ [ k=N+1 ∅ # | {z } disjunkte Vereinigung = N X k=1 P[Ak ] + ∞ X k=N+1 P[∅] (vgl. (2.2b)). |{z} = 0 (vgl. (2.8)) . . 2.60Zum Beweis von (2.10) beachte man, daß A ∪ B = (A \ B) ∪ (B \ A) ∪ (A ∩ B) eine disjunkte Vereinigung ist. Mit (2.9) folgt nun P[A ∪ B] + P[A ∩ B] = (P[A \ B] + P[A ∩ B]) + (P[B \ A] + P[A ∩ B]), | {z } {z } | = P[A] = P[B] womit (2.10) bewiesen ist. 18. April 2016 32 ergänzt werden. Als Konsequenzen von (2.10) ergeben sich mit P[A ∪ B] ≤ P[A] + P[B], (2.11) P[A] ≤ P[B], (2.12) A, B ∈ F, 2.62 die Subadditivität von P und mit 2.61 A, B ∈ F, A ⊆ B, die Monotonie von P. Die Beziehung (2.11) bleibt auch für abzählbar viele, nicht notwendigerweise paarweise disjunkte Ereignisse bestehen, d.h., es gilt die σ-Subadditivität 2.63 # "∞ ∞ X [ P[Ak ], A1 , A2 , · · · ∈ F, (2.13) P Ak ≤ k=1 k=1 von P. 2.4. Konstruktion von σ-Algebren und Wahrscheinlichkeitsmaßen In diesem Abschnitt 2.4 wird erläutert, wie in komplexen Situationen, wenn mit sehr großen Stichprobenräumen Ω zu arbeiten ist, geeignete σ-Algebren F und Wahrscheinlichkeitsmaße P konstruiert werden können 2.64. Wenn insbesondere Ω überabzählbar unendlich ist und daher i. allg. die Wahl F = Pot(Ω) nicht sinnvoll ist 2.65, bietet sich die folgende Vorgehensweise an 2.66: (i) Angabe einer Menge F∗ von elementaren“, dem menschlichen Verständnis ” leicht zugänglichen, wichtigen“ Ereignissen 2.67. ” (ii) Angabe einer Funktion P∗ : F∗ → [0, 1] mit den Eigenschaften (2.2a) und (2.2b) 2.68. In dieser Vorlesung wird im wesentlichen im Rahmen von (i) und (ii) gearbeitet. Dies ist gerechtfertigt, falls der nächste Schritt (iii) gelingt. 2.61Da P[A ∩ B] ≥ 0, folgt (2.11) aus (2.10). 2.62(2.12) folgt aus P[B] = P[A] + P[B \ A] ≥ P[A] (vgl. (2.9)) (da P[B \ A] ≥ 0). 2.63Die Abschätzung (2.13) ist eine Konsequenz aus " P ∞ [ k=1 # " Ak = P ∞ [ k=1 = ≤ ∞ X k=1 ∞ X Ak \ " k−1 [ Al l=1 !# # P Ak \ k−1 [ P[Ak ] (vgl. (2.12)). l=1 Al (Darstellung von S∞ k=1 Ak als disjunkte Vereinigung) (vgl. (2.2b)) k=1 2.64Hierbei ist beispielsweise die Modellierung von vielschichtigen realen Geschehnissen gemeint, wenn die Verwendung von endlichen oder abzählbar unendlichen Stichprobenräumen ausgeschlossen ist. 2.65Vgl. Abschnitt 2.5. Der dort vorgestellte Satz von Vitali verdeutlicht, wie in dem in Abschnitt 2.4.2 entworfenen Modell für den ∞-fachen, unabhängigen, fairen Münzwurf die Wahl F = Pot(Ω) zu einem Widerspruch führen würde. 2.66 Diese allgemeine Vorgehensweise wird in den in den Abschnitten 2.4.1 - 2.4.3 behandelten Beispielen konkretisiert werden. 2.67F ∗ braucht keine σ-Algebra zu sein. Im Rahmen einer Modellbildung sollten die Wahrscheinlichkeiten der Ereignisse in F∗ bekannt, bzw. einfach zu berechnen sein. 2.68 (2.2b) muß bei P∗ nur für paarweise disjunkte Mengen A1 , A2 , · · · ∈ F∗ S∞ Die Bedingung ∗ mit k=1 Ak ∈ F gelten. 18. April 2016 33 (iii) Nachweis der eindeutigen Fortsetzbarkeit von P∗ zu einem Wahrscheinlichkeitsmaß P : F → [0, 1], wobei F = σ(F∗ ) die kleinste, F∗ umfassende σ-Algebra, d.h. die von F∗ erzeugte σ-Algebra ist 2.69. Der Schritt (iii) wird in weiterführenden Vorlesungen behandelt 2.70. Letztendlich ist dann (Ω, F, P) der Wahrscheinlichkeitsraum, mit dem mathematisch rigoros für wahrscheinlichkeitstheoretische Untersuchungen gearbeitet wird. 2.4.1. Gleichverteilung auf [0, 1]. Sei Ω = [0, 1], F∗ = {[a, b] : 0 ≤ a ≤ b ≤ 1} 2.71 und P∗ : F∗ → [0, 1] mit P∗ [[a, b]] = b − a, 0 ≤ a ≤ b ≤ 1. σ(F∗ ) =: B([0, 1]) 2.72 ist die Borelsche σ-Algebra in [0, 1]. P∗ besitzt eine eindeutige Fortsetzung 2.73 λ = λ[0,1] auf B([0, 1]), das sog. Lebesguemaß auf [0, 1]. λ[0,1] wird auch als Gleichverteilung auf [0, 1] bezeichnet 2.74. Beispiel 2.11. In B([0, 1]) sind u.a. einpunktige Mengen 2.75 {a}, a ∈ [0, 1], oder auch abzählbare Teilmengen 2.76 {ak : k ∈ N}, ak ∈ [0, 1], k ∈ N, von [0, 1] enthalten. Weil "∞ # [ λ[{ak : k ∈ N}] = λ {ak } = k=1 ∞ X 2.77 k=1 λ[{ak }] = 0, ak ∈ [0, 1], k ∈ N, | {z } = |ak − ak | = 0 2.69σ(F ∗ ) existiert immer auf eine eindeutige Weise. Insbesondere kann nachgewiesen werden, T daß σ(F∗ ) = G∈F∗ G, wobei F∗ die Menge alle σ-Algebren G mit G ⊇ F∗ ist. Die Fortsetzung P ∗ von P auf σ(F∗ ) braucht jedoch nicht immer zu existieren, bzw. eindeutig zu sein. 2.70 Die eindeutige Existenz eines Wahrscheinlicheitsmaßes P, das P∗ fortsetzt, wird z.B. mit dem Satz von Carathéodory gesichert, vgl. [3], Appendix A.1. Jenes Resultat besagt, daß eine Funktion P∗ : F∗ → [0, 1], welche die in (2.2) angegebenen Eigenschaften besitzt, vgl. dazu Fußnote 2.68, sich u.a. dann auf eine eindeutige Weise zu einem Wahrscheinlichkeitsmaß auf (Ω, σ(F∗ )) fortsetzen läßt, wenn F∗ eine Algebra ist. Hierbei wird eine Familie F∗ von Teilmengen von Ω als Algebra bezeichnet, wenn F∗ die Eigenschaften (2.1a) und (2.1b) besitzt und wenn für A, B ∈ F∗ auch A ∪ B ∈ F∗ gilt. 2.71F ∗ ist die Menge der abgeschlossenen Intervalle in [0, 1]. 2.72B([0, 1]) ist die kleinste σ-Algebra, die alle abgeschlossenen Intervalle in [0, 1] umfaßt. B([0, 1]) ist ebenso die kleinste σ-Algebra, die alle offenen, bzw. halboffenen Intervalle in [0, 1] enthält. 2.73Zum Nachweis der eindeutigen Existenz von λ kann der in Fußnote 2.70 beschriebene Satz von Carathéodory nicht direkt angewandt werden, da F∗ keine Algebra ist. Allerdings könnte man e ∗ der endlichen Vereinigungen beliebiger, d.h. auch offener oder halboffener F∗ durch die Menge F disjunkter Intervalle in [0, 1], d.h. durch die Menge e ∗ = I1 ∪ I2 ∪ · · · ∪ In : Ik ⊆ [0, 1] Intervall, Ik ∩ Il = ∅, k, l = 1, . . . , n, k 6= l, n ∈ N F ersetzen. Bezeichnet man mit |I| die Länge eines Intervalls I kann nun mit n X e ∗ I1 ∪ · · · ∪ In = P |Ir |, r=1 Ik ⊆ [0, 1] Intervall, Ik ∩ Il = ∅, k, l = 1, . . . , n, k 6= l, n ∈ N, e ∗ fortgesetzt werden. F e ∗ ist eine Algebra und in der Tat ist es mit dem Satz von CaP∗ auf F e ∗ definierten rathéodory möglich, zu zeigen, daß auf B([0, 1]) eine eindeutige Fortsetzung λ der auf F e ∗ existiert. Funktion P 2.74In Abschnitt 2.2 war die Gleichverteilung auf einer endlichen Menge beschrieben worden. Die beiden Gleichverteilungen besitzen aus offensichtlichen Gründen den gleichen Namen, sind aber völlig unterschiedlich strukturierte Wahrscheinlichkeitsmaße. 2.75Da {a} = [a, a] ∈ F ∗ . 2.76Da {a } ∈ B([0, 1]), k = 1, 2, . . . , ist wegen (2.1c) auch {a : k ∈ N} = S∞ {a } ∈ k k k k=1 B([0, 1]). 18. April 2016 34 besitzen alle abzählbaren Teilmengen von [0, 1] das Lebesguemaß 0 2.78 . 2.4.2. ∞-facher, unabhängiger Münzwurf. Bei manchen Experimenten mit vielen unabhängigen Würfen einer Münze, wie z.B. beim Bestimmen des ersten Zeitpunkts, an dem Kopf“ geworfen wird, steht anfangs nicht fest, wie oft ” die Münze überhaupt geworfen werden muß 2.79. Um derartige Situationen zu untersuchen, ist es sinnvoll, zu p ∈ [0, 1] den ∞-fachen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit p zu modellieren 2.80. Wenn die Überlegungen in den Beispielen 2.7 und 2.8 als Ausgangspunkt genommen werden, ist es naheliegend, als Stichprobenraum 2.81 (2.14) Ω = {0, 1}N := (ω1 , ω2 , . . . ) : ωk ∈ {0, 1}, k ∈ N zu wählen. Ω ist insbesondere überabzählbar unendlich 2.82. Mit einem vernünftigen Modell für den ∞-fachen, unabhängigen Münzwurf sollte es insbesondere möglich sein, jede endliche Folge von Würfen zu beschreiben. Aus diesem Grund wird F∗ als eine Menge von Ereignissen, die durch Würfe der Münze an endlich vielen festen Zeitpunkten bestimmt sind, gewählt, d.h., (2.15) F∗ = {ω ∈ Ω : ωk1 = ηk1 , . . . , ωkn = ηkn } 2.83 : k1 , . . . , kn ∈ N, 1 ≤ k1 < . . . < kn , ηk1 , . . . , ηkn ∈ {0, 1}, n ∈ N . Um eine Funktion P∗ : F∗ → [0, 1] zur Angabe von Wahrscheinlichkeiten P∗ [A] für Ereignisse A ∈ F∗ zu definieren, können die Überlegungen in Beispiel 2.8 herangezogen werden. Daher setzt man 2.84 (2.16) P∗ [{ω ∈ Ω : ωk1 = ηk1 , . . . , ωkn = ηkn }] = n Y l=1 pηkl (1 − p)1−ηkl = p Pn l=1 ηkl (1 − p)n− Pn l=1 ηkl , k1 , . . . , kn ∈ N, 1 ≤ k1 < . . .< kn , ηk1 , . . . , ηkn ∈ {0, 1}, n ∈ N. Zu dieser Funktion P∗ : F∗ → [0, 1] existiert als eindeutig bestimmte Fortsetzung ein Wahrscheinlichkeitsmaß P auf (Ω, F), wobei F = σ(F∗ ). 2.77Wegen der σ-Additivität von λ, vgl. (2.2b). O.E.d.A. sei hierzu angenommen, daß alle ak , k ∈ N, verschieden sind. 2.78Es gibt auch Mengen M ∈ B([0, 1]), die die gleiche Mächtigkeit wie R haben und damit überabzählbar sind, mit λ[M ] = 0, z.B. gewisse Cantormengen. 2.79Andere Beispiele sind die Bestimmung des ersten Zeitpunkts, an dem insgesamt 104 mal Zahl“ geworfen wurde, die Bestimmung des ersten Zeitpunkts, an dem eine ununterbrochene ” Sequenz von mehr als 105 Würfen von Kopf“ beendet wird, oder auch die Beantwortung der ” Frage, mit welcher Wahrscheinlichkeit, zumindest einmal Zahl“ geworfen wird. Bei der Lösung ” dieser Probleme muß man bereit sein, die Münze evtl. unendlich oft zu werfen. 2.80Mit einem Modell“ ist hier ein Wahrscheinlichkeitsraum (Ω, F, P) gemeint, so daß ins” besondere abzählbar unendlich lange Wurfsequenzen der Münze durch die Elemente ω von Ω repräsentiert werden. 2.81 {0, 1}N ist die Menge der {0, 1}-wertigen Folgen. Für ein ω ∈ Ω und k ∈ N beschreibt ωk das Ergebnis des k-ten Wurfs. 2.82Zur Begründung sei daraufhingewiesen, daß durch die Abbildung Ω ∋ (ωk )k∈N → ∞ X k=1 ωk 2−k ∈ [0, 1] Ω surjektiv auf [0, 1] abgebildet werden kann. 2.83Hier wird das Ereignis, daß beim k -ten Wurf η , . . . und beim k -ten Wurf η n 1 k1 kn geworfen wird, betrachtet. 2.84Während Ω und F ∗ und somit auch F = σ(F ∗ ) von p ∈ [0, 1] unabhängig sind, hängt P∗ und folglich auch P von p ab. 18. April 2016 35 Beispiel 2.12. Für den ∞-fachen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit p ∈ (0, 1) ist die Wahrscheinlichkeit q1 , daß der erste Wurf von Kopf“ in ” einem geraden“ Zeitpunkt, d.h. zu einem Zeitpunkt 2k mit k ∈ N eintritt, zu ” bestimmen 2.85. Es gilt: q1 = P erster Wurf von Kopf“ in einem der Zeitpunkte 2k, k ∈ N ” = P ω ∈ Ω : ωl = 1, l = 1, . . . , 2k − 1; ω2k = 0 für ein k ∈ N " # ∞ [ N 2.86 =P {ω ∈ {0, 1} : ωl = 1, l = 1, . . . , 2k − 1; ω2k = 0} k=1 ∞ X P {ω ∈ {0, 1}N : ωl = 1, l = 1, . . . , 2k − 1; ω2k = 0} {z } | k=1 ∈ F∗ 2.88 ∞ ∞ X 1−p X 2 k p2k−1 (1 − p) = (p ) p k=1 k=1 | {z } 1 p2 p2 = − 1 = = 1 − p2 1 − p2 (1 − p)(1 + p) = 2.87 = 2.89 = p . 1+p Speziell ergibt sich q1 = 1/3 für p = 1/2, d.h. für den ∞-fachen, unabhängigen, fairen Münzwurf 2.90. Beispiel 2.13. Für den ∞-fachen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit p ∈ [0, 1) ist die Wahrscheinlichkeit q2 , daß nur endlich oft Kopf“ geworfen ” wird, zu bestimmen 2.91. 2.85Für den ∞-fachen, unabhängigen, fairen Münzwurf, d.h., für p = 1/2, mag eine sehr naive Vorgehensweise mit dem Argument genau die Hälfte der Zeitpunkte ist gerade“ zu q1 = 1/2 ” führen. Da aber zunächst in dem ungeraden“ Zeitpunkt 1, dann erst in dem geraden“ Zeitpunkt 2 ” ” . . . Kopf“ oder Zahl“ geworfen wird, zeigt sich bald, daß q1 < 1/2 sein muß. ”2.86 ” Hier liegt eine Zerlegung in disjunkte, d.h. sich ausschließende Ereignisse vor. 2.87Wegen der σ-Additivität von P, vgl. (2.2b). 2.88 Vgl. (2.15). Da dieses Ereignis durch die ersten 2k Würfe der Münze bestimmt wird, kann seine Wahrscheinlichkeit in einem Modell für den 2k-fachen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit p berechnet werden, vgl. Beispiel 2.8 bzw. (2.16). 2.89 Vgl. (2.16). 2.90In vielen wahrscheinlichkeitstheoretischen Untersuchungen wird die Asymptotik von Modellen betrachtet. In diesem Beispiel ist evtl. das Verhalten von q1 = q1 (p) für p → 0, bzw. für p → 1 interessant. Zunächst gilt limp→0 q1 (p) = 0. Dies ist plausibel, da bei p → 0 mit gegen 1 strebender Wahrscheinlichkeit gleich beim 1. Wurf, d.h. in einem ungeraden Zeitpunkt, Kopf“ geworfen ” wird. Weiterhin ist limp→1 q1 (p) = 1/2. Da bei p → 1 bei jedem einzelnen Wurf mit nahe bei 1 liegender Wahrscheinlichkeit Zahl“ geworfen wird, dauert es i. allg. extrem lang, bis irgendwann ” mal Kopf“ erscheint. Die Tatsache, daß in dem ungeraden Zeitpunkt 1 mit dem Werfen begonnen ” wurde, ist dann längst vergessen“. In dieser fernen Zukunft wird dann jeweils mit Wahrschein” lichkeit 1/2 Kopf“ erstmals in einem geraden, bzw. einem ungeraden Zeitpunkt geworfen. ” Im Fall p = 1 wird immer Zahl“ geworfen, so daß q1 (1) = 0 definiert werden sollte. Dann ” ist limp→1 q1 (p) = 1/2 6= 0 = q1 (1), d.h., die Funktion [0, 1] ∋ p → q1 (p) ∈ [0, 1] ist unstetig für p = 1. 2.91Da p < 1, ist insbesondere für jeden einzelnen Wurf die Wahrscheinlichkeit 1 − p, daß Kopf“ geworfen wird, von 0 verschieden. ” 18. April 2016 36 Die gesuchte Wahrscheinlichkeit q2 könnte zunächst auch experimentell durch wiederholtes Werfen einer realen Münze oder auch mit Hilfe einer Computersimulation 2.92 bestimmt“ werden 2.93. Es würde sich andeuten, daß 2.94 q2 = 0 ist. ” Bei einem mathematisch präzisen Vorgehen ergibt sich # "∞ [ N 2.95 (2.17) q2 = P ω ∈ {0, 1} : ωk = ωk+1 = · · · = 1 k=1 ∞ X ≤ P ω ∈ Ω : ωk = ωk+1 = · · · = 1 , {z } | k=1 = 2.96 Bk wobei die σ-Subadditivität (2.13) von P benutzt wird. Weiterhin folgt P[Bk ] ≤ 2.97 P ω ∈ Ω : ωk = · · · = ωk+N = 1 = d.h., 2.99 P[Bk ] = 0, k ∈ N. Aus (2.17) ergibt sich somit 2.100 2.98 pN +1 , k, N ∈ N, q2 = 0. 2.4.3. Lebesguemaß in Rd , d = 1, 2, . . . . Sei Ω = Rd , F∗ = [a1 , b1 ] × · · · × [ad , bd ] : −∞ < ak ≤ bk < ∞, k = 1, . . . , d und 2.101 λ∗ : F∗ → [0, ∞) mit Qd λ∗ [a1 , b1 ] × · · · × [ad , bd ] = k=1 (bk − ak ), −∞ < ak ≤ bk < ∞, k = 1, . . . , d. σ(F∗ ) =: B(Rd ) ist die Borelsche σ-Algebra in Rd 2.102. Die eindeutig existierende Fortsetzung λ(= λRd ) : B(Rd ) → [0, ∞] von λ∗ auf den meßbaren Raum (Rd , B(Rd )) ist das Lebesguemaß auf Rd . λRd ist kein Wahrscheinlichkeitsmaß, da offensichtlich (2.2a) nicht gilt. Allerdings wird das Maß λRd bei der Arbeit mit Wahrscheinlichkeitsmaßen mit einer Dichte (bzgl. des Lebesguemaßes), wie z.B. der Normalverteilung oder der Exponentialverteilung benötigt 2.103. 2.92Es ist eine beliebig lange Folge von unabhängigen, {0, 1}-wertigen Zufallszahlen“, die ” mit Wahrscheinlichkeit p den Wert 1 und mit Wahrscheinlichkeit 1 − p den Wert 0 annehmen, zu simulieren. Hinweise zur Durchführung einer solchen Simulation finden sich in Beispiel 3.4. 2.93 Eine mathematisch korrekte Aussage kann mit derartigen Mitteln natürlich nicht gewonnen werden. 2.94 Wenn die Münze lange genug geworfen wird, erscheint immer wieder irgendwann mal“ ” Kopf“. ” 2.95Es wird nur endlich oft Kopf“ geworfen“ genau dann, wenn ein k ∈ N existiert, so daß ” ” nach dem Zeitpunkt k nur noch Zahl“ geworfen wird. ” 2.96 Bk ist das Ereignis, daß zum Zeitpunkt k und danach nur Zahl“ geworfen wird. 2.97Wegen der Monotonie von P, vgl. (2.12). Man beachte, daß”B = ω ∈ Ω : ω = ω k k k+1 = · · · = 1 ⊆ ω ∈ Ω : ωk = ωk+1 = · · · =ωk+N = 1 . 2.98 Vgl. (2.16). Man beachte, daß ω ∈ Ω : ωk = ωk+1 = · · · = ωk+N = 1 ∈ F∗ und daß die Einschränkung von P auf F∗ mit P∗ übereinstimmt. 2.99 Man beachte, daß p < 1 und daß N ∈ N beliebig ist. 2.100Damit wäre eine experimentelle“ Bestimmung von q bestätigt. 2 ” 2.101λ∗ weist jedem beschränkten d-dimensionalen Rechteck A in Rd sein Volumen Vol(A) zu. 2.102Für ein Gebiet G in Rd definiert man auf analoge Weise B(G) als die kleinste σ-Algebra, die alle in G enthaltenen Rechtecke umfaßt. 2.103Vgl. Abschnitt 2.6. Eine hinreichend reguläre Funktion f : Rd → [0, ∞) ist eine WahrR scheinlichkeitsdichte, wenn Rd dx f (x) = 1. Durch Z dx f (x), A ∈ B(Rd ), P[A] = A definiert f ein Wahrscheinlichkeitsmaß P auf (Rd , B(Rd )). Jenes P wird als das Wahrscheinlichkeitsmaß mit der Dichte f bzgl. des Lebesguemaßes auf Rd bezeichnet. 18. April 2016 37 2.5. Satz von Vitali Das in diesem Abschnitt 2.5 vorgestellte Resultat deutet an, daß in überabzählbaren Stichprobenräumen Ω die Verwendung der σ-Algebra Pot(Ω) im allgemeinen nicht sinnvoll ist 2.104. Wie in Abschnitt 2.4.2 sei zur Modellierung des ∞-fachen, unabhängigen Wurfs einer fairen Münze der Stichprobenraum Ω = {0, 1}N = {ω = (ωi )i∈N : ωi ∈ {0, 1}, i ∈ N} 2.105 gewählt. Mit Tn ω = (ω1 , . . . , ωn−1 , 1 − ωn , ωn+1 , . . . ), (2.18a) sei 2.106 Tn A = {Tn ω : ω ∈ A}, (2.18b) ω ∈ Ω, n ∈ N, A ⊆ Ω, n ∈ N. Auf Ω sei weiterhin eine σ-Algebra F von Ereignissen gegeben 2.107. Wegen der Fairness der Münze sollte ein vernünftiges Wahrscheinlichkeitsmaß P auf (Ω, F) insbesondere die Invarianzeigenschaft 2.108 (2.18c) besitzen P[A] = P[Tn A], 2.109 . A ∈ F, n ∈ N, Satz 2.14 (Vitali). 2.110 Für F = Pot({0, 1}N ) kann kein Wahrscheinlichkeitsmaß auf dem meßbaren Raum ({0, 1}N , F) existieren, das neben den üblichen, in (2.2) geforderten Eigenschaften eines Wahrscheinlichkeitsmaßes auch die bei der Modellierung des ∞-fachen, unabhängigen Wurfs einer fairen Münze erwartete Invarianzeigenschaft (2.18) besitzt. Zum Beweis dieses Satzes kann mit Hilfe des Auswahlaxioms 2.111 eine Menge A1 ∈ Pot({0, 1}N) konstruiert werden, die sich dadurch auszeichnet, daß jeder mögliche Wert für P[A1 ] zu einem Widerspruch führt. Beispiele für Wahrscheinlichkeitsdichten auf R sind 1 (x − µ)2 fµ,σ 2 : x → √ exp − , 2σ2 2πσ2 µ ∈ R, σ2 > 0. fµ,σ 2 ist die Dichte der Normalverteilung mit Erwartungswert µ und Varianz σ2 , vgl. Beispiel 1.8. Weitere Wahrscheinlichkeitsdichten sind beispielsweise ( λ exp(−λx), x ≥ 0, , λ > 0. fλ : x → 0, x < 0, fλ ist die Dichte der Exponentialverteilung mit Parameter λ > 0. 2.104Die Einführung von σ-Algebren durch (2.1) und auch die Überlegungen in Abschnitt 2.4 zur Konstruktion von σ-Algebren werden letztendlich erst aufgrund jenes Resultats notwendig. 2.105Ω ist die Menge aller {0, 1}-wertigen Folgen. Dieser Raum ist überabzählbar unendlich, vgl. Fußnote 2.82. 2.106Für ω ∈ Ω beschreibt T ω eine Wurfsequenz, bei der im Vergleich zu ω beim n-ten Wurf n das Ergebnis von 0 nach 1, bzw. von 1 nach 0 verändert ist. Für A ⊆ Ω geht Tn A aus A durch Änderung des n-ten Wurfergebnisses für alle ω ∈ A hervor. 2.107In diesem Moment sei die σ-Algebra F noch nicht festgelegt. Es folgen nun Überlegungen zur Wahl von F. 2.108Mit (2.18c) wird implizit auch gefordert, daß aus A ∈ F die Beziehungen T A ∈ F, n n ∈ N, folgen. 2.109(2.18c) besagt, daß bei einer Modellierung des ∞-fachen, unabhängigen Wurf einer fairen Münze die Wahrscheinlichkeit eines Ereignisses sich nicht ändern sollte, wenn man in einem festgelegten Wurfzeitpunkt die Rollen von Kopf“ und Zahl“ vertauscht. ” ” 2.110 Vgl. [5], Satz (1.5). Ein Beweis von Satz 2.14 findet sich in Anhang A.2.1. 2.111Sei M eine Menge von nichtleeren Mengen. Das Auswahlaxiom besagt, daß es eine Funktion F mit Definitionsbereich M und F (ξ) ∈ ξ, ξ ∈ M, gibt. F wählt also aus jeder Menge ξ ∈ M genau ein Element aus. 18. April 2016 38 Auf Ω = {0, 1}N muß folglich zur Beschreibung des ∞-fachen, unabhängigen Wurfs einer fairen Münze mit einer σ-Algebra F gearbeitet werden, die kleiner als Pot(Ω) ist, d.h. weniger Elemente enthält 2.112 2.113. 2.6. Wahrscheinlichkeitsmaße mit einer Dichte bzgl. des Lebesguemaßes Eine hinreichend reguläre f : Rd → [0, ∞) mit (2.19) 2.114 , z.B. stetige oder stückweise stetige Funktion Z dx f (x) = 1 Rd heißt Wahrscheinlichkeitsdichte. Sei 2.115 Ω = Rd , F∗ = 2.116 [a1 , b1 ] × · · · × [ad , bd ] : −∞ < ak ≤ bk < ∞, k = 1, . . . , d und Z ∗ dx f (x), A ∈ F∗ . (2.20) P [A] = A Wenn f stetig oder stückweise stetig ist, können die Integrale in (2.19) und (2.20) als Riemann-Integrale aufgefaßt werden. Wenn allgemeiner f nur eine meßbare 2.117 Funktion ist, so sind jene Integrale als Lebesgue-Integrale zu betrachten 2.118. Die eindeutig existierende Fortsetzung P von P∗ auf 2.119 B(Rd ) ist das Wahrscheinlichkeitsmaß mit der Dichte f (bzgl. des Lebesguemaßes auf Rd ) 2.120. Es folgt eine Zusammenstellung einiger wichtiger Wahrscheinlichkeitsmaße mit einer Dichte auf R, bzw. Rd . 2.112Damit der obengenannte Widerspruch nicht auftritt, darf F insbesondere nicht die Menge A1 enthalten. Durch die in Abschnitt 2.4.2 vorgestellte σ-Algebra F = σ(F∗ ), wobei F∗ in (2.15) definiert ist, ist eine geeignete σ-Algebra gegeben. 2.113 Um den Widerspruch zu vermeiden, könnte auch die Invarianzeigenschaft (2.18) fallen gelassen werden. Damit wäre der Versuch, den ∞-fachen, unabhängigen Wurf einer fairen Münze zu modellieren, aufgegeben. In der Folge wäre die Konstruktion einer symmetrischen Irrfahrt, vgl. Beispiel 3.21, und weiterhin der Brownschen Bewegung, die aus der symmetrischen Irrfahrt durch eine Reskalierung hervorgeht, und letztendlich das mathematische Gebiet der stochastischen Analysis (inkl. stochastische Differentialgleichungen, Martingale, . . . ) fraglich. Eine Aufgabe von (2.18) würde das somit das Gebäude der modernen Wahrscheinlichkeitstheorie ins Wanken bringen und sollte aus praktischen Gründen vermieden werden. 2.114 Im allgemeinen Fall wird als Regularität“ die Meßbarkeit der Abbildung f : (Rd , B(Rd )) ” → ([0, ∞), B([0, ∞))) benötigt, vgl. (3.1). Die Meßbarkeit ist der in der Stochastik übliche Regularitätsbegriff für Funktionen oder Zufallsvariablen. Borelsche σ-Algebren wie hier B(Rd ), bzw. B([0, ∞)) werden in den Abschnitten 2.4.1 und 2.4.3 vorgestellt. 2.115Nun wird ausgehend von einer Wahrscheinlichkeitsdichte f gemäß der in Abschnitt 2.4 beschriebenen Vorgehensweise ein Wahrscheinlichkeitsmaß konstruiert. 2.116F ∗ ist die Menge der abgeschlossenen, beschränkten Rechtecke in Ω = Rd . 2.117Vgl. Fußnote 2.114. 2.118Eine Einführung des abstrakten Lebesgue-Integrals wird in [8], § 12, gegeben. Das dort beschriebene Verfahren entspricht der in den Abschnitten 6.1 - 6.3 vorgestellten Einführung des Erwartungswerts reellwertiger Zufallsvariablen. R Für eine meßbare, reellwertige Funktion f auf [0, 1], vgl. Fußnote 2.114, gilt beispielsweise 01 dx f (x) = E[f ], wobei auf der rechten Seite f als eine Zufallsvariable auf dem in Abschnitt 2.4.1 eingeführten Wahrscheinlichkeitsraum ([0, 1], B([0, 1]), λ[0,1] ) zu betrachten ist. 2.119Die Borelsche σ-Algebra B(Rd ) ist die kleinste σ-Algebra, die F ∗ enthält, vgl. Abschnitt 2.4.3. 2.120Wie in den Ausführungen am Anfang von Abschnitt 2.4 angedeutet, wird in dieser Vorlesung im wesentlichen nur mit P∗ , d.h. mit (2.20) gearbeitet, wenn Wahrscheinlichkeitsmaße mit einer Dichte betrachtet werden. Darüberhinaus sind im folgenden alle Wahrscheinlichkeitsdichten stetig, bzw. stückweise stetig. 18. April 2016 39 Normalverteilung N(µ, σ 2 ) mit Erwartungswert 2.121 µ ∈ R und Varianz σ 2 > 0: (x − µ)2 1 , x ∈ R. fµ,σ2 (x) = √ exp − 2σ 2 2πσ 2 N(0, 1) wird auch als standard Normalverteilung bezeichnet. Anwendung: Modellierung vom Meßfehlern, bzw. von Beobachtungen“, die ” durch Rauschen“ gestört sind. Der Hintergrund solcher Anwendungen ist die ” Tatsache, daß die Normalverteilung die Asymptotik beim Zentralen Grenzwertsatz 2.122 beschreibt. Exponentialverteilung mit Parameter λ > 0: ( λ exp(−λx), x ≥ 0, fλ (x) = 0, x < 0. Anwendung: Modellierung von Wartezeiten in kontinuierlicher Zeit 2.123. Der Hintergrund solcher Anwendungen ist die Gedächtnislosigkeit der Exponentialverteilung 2.124 2.125. Gleichverteilung 2.126 auf einem beschränkten Gebiet 2.127 G ⊆ Rd : ( 1/Vol(G) 2.128, x ∈ G, fG (x) = 0, x 6∈ G. Anwendung: Modellierung einer zufälligen Position in einem beschränkten Bereich des Rd , wenn z. B. aufgrund eingeschränkter Vorkenntnisse kein Teilbereich als bevorzugt erscheint. Cauchy-Verteilung mit Parameter a > 0 2.129 2.130: a , x ∈ R. fa (x) = 2 π(a + x2 ) 2.121Die Begriffe Erwartungswert und Varianz wurden in Abschnitt 1.1.3 kurz angesprochen, vgl. Beispiele 1.5 und 1.6. Detaillierte Erläuterungen folgen in Kapitel 6. Zunächst genügt es, µ und σ2 als Parameter zu betrachten. Später in Beispiel 6.12 werden µ und σ2 als Erwartungswert, bzw. Varianz des Wahrscheinlichkeitsmaßes auf R mit der Dichte fµ,σ 2 identifiziert. 2.122Vgl. Beispiel 1.8 und insbesondere Abschnitt 9.3. 2.123Man nehme an, daß ein Anfangszeitpunkt festgelegt wird. Nun eignet sich die Exponentialverteilung mit einem jeweils geeignet zu wählenden λ > 0, um die Wartezeit bis zum ersten Telefonanruf, zum Eingang der ersten E-Mail, zum ersten Vulkanausbruch, zum ersten Einschlag eines Asteroiden, . . . zu modellieren. 2.124 Vgl. Beispiel 8.3. Die Gedächtnislosigkeit einer Wartezeit besagt, daß die Wahrschein” lichkeitsverteilung“ der verbleibenden Wartezeit nicht davon abhängt, wie lang man schon wartet. Mit anderen Worten, die Wartezeit bis zu einem Hauptgewinn beim Zahlenlotto wird nicht kürzer, wenn man jahrelang keinen Gewinn erzielt hat. 2.125 Die Exponentialverteilung ist ein kontinuierliches“ Analogon zur geometrischen Vertei” lung, die zur Modellierung von Wartezeiten in diskreter Zeit geeignet ist, vgl. Abschnitt 2.2 und insbesondere Fußnote 2.39. 2.126 Ein Spezialfall der nun beschriebenen Wahrscheinlichkeitsmaße mit G = [0, 1] wird in Abschnitt 2.4.1 betrachtet. Diskrete Gleichverteilungen werden in Abschnitt 2.2 vorgestellt. 2.127 Ein Gebiet ist eine einfach zusammenhängende Teilmenge des Rd mit einem glatten“ ” Rand. 2.128Vol(G) bezeichnet das Volumen von G. 2.129Die Cauchy-Verteilung ist ein Spezialfall der Student’schen t-Verteilung, vgl. [10], Definition 14.2, ff. Um unabhängig von diesem Zusammenhang nachzuweisen, daß fa eine WahrR∞ scheinlichkeitsdichte auf R ist, d.h., daß insbesondere −∞ dx fa (x) = 1, kann der Residuensatz aus der Funktionentheorie verwendet werden, vgl. [1], Chapter 4, Section 5.3, Part 2. 2.130 Die Graphen der Dichten der Normalverteilung und der Cauchy-Verteilung haben beide eine glockenförmige“ Gestalt. Jedoch fällt der Graph der Dichte der Cauchy-Verteilung im ” Unendlichen wesentlich langsamer ab als der Graph der Dichte der Normalverteilung. Als Konsequenz zeichnet sich die Cauchy-Verteilung dadurch aus, daß Zufallsvariablen mit dieser Verteilung keinen Erwartungswert besitzen, vgl. Beispiel 6.11. 18. April 2016 40 Gamma-Verteilung mit Parametern α, r > 0 2.131: r α xr−1 exp(−αx), Γ(r) fα,r (x) = 2.132 0, x ≥ 0, x < 0. Für n ∈ N heißt die Gamma-Verteilung mit den Parametern α = 1/2 und r = n/2 auch χ2 -Verteilung mit n Freiheitsgraden oder auch kurz χ2n Verteilung. Anwendung: Die χ2 -Verteilungen werden sehr häufig in der Statistik benötigt 2.133. 2.6.1. (∗) Anwendung“ der Gleichverteilung. 2.134 Es ist die Wahr” scheinlichkeit pM zu bestimmen, daß der nächste Meteorit mit einem Durchmesser größer als 100 m, der auf Deutschland stürzt, Baden-Württemberg trifft. Eine Standardvorgehensweise zur Lösung wäre: Modellierung des Einschlagspunktes des Meteoriten durch die Gleichverteilung auf Deutschland 2.135. Lösung: 35.752 km2 Fläche von Baden-Württemberg = = 0,1 Fläche von Deutschland 357.050 km2 Bei einer Diskussion der Fragestellung und ihrer Lösung ergeben sich folgende Aspekte 2.136. • Meteorite mit einem Durchmesser größer als 100 m schlagen sehr selten in Deutschland ein. Mit dem nächsten Einschlag ist im Mittel“ erst ” in mehreren Millionen Jahren zu rechnen 2.137. Es kann nicht angenommen werden, daß nach Ablauf dieser Zeit Baden-Württemberg oder auch Deutschland noch existieren, bzw. überhaupt noch bekannt sind. • Jeder Einschlag eines Meteoriten mit einem Durchmesser größer als 100 m hat katastrophale Auswirkungen, die i. allg. weit über Deutschlands Grenzen hinaus reichen 2.138. Allerdings hängt das Ausmaß der Katastrophe pM = 2.131Offensichtlich sind die Gamma-Verteilungen mit r = 1 Exponentialverteilungen. 2.132Γ : (0, ∞) → (0, ∞) mit Γ(r) = R ∞ ds sr−1 exp(−s), r > 0, ist die Eulersche Gamma0 Funktion. 2.133Für n ∈ N besitzt die Summe Pn X 2 der Quadrate von unabhängigen, standard nori=1 i malverteilten Zufallsvariablen X1 , . . . , Xn eine χ2n -Verteilung, vgl. [5], Satz (9.11). Daher spielen χ2 -Verteilungen eine große Rolle sowohl bei der Untersuchung normalverteilter Daten, als auch in einigen Situationen, wo große Datenmengen als Folge des Zentralen Grenzwertsatzes auf normalverteilte Größen reduziert werden können. Beispiele derartiger Anwendungen werden in [5], Abschnitt 11.1 - 11.3, vorgestellt. 2.134Die Anführungszeichen deuten an, daß der Sinn dieser zunächst vernünftig erscheinenden Anwendung letztendlich fraglich ist. 2.135Kleine Meteorite haben in dünn besiedelten Gegenden eine geringere Chance, entdeckt zu werden. Bei einer Berücksichtigung aller Objekte, die auch beobachtet werden, wäre somit die Gleichverteilung keine gute Wahl. Da Meteorite mit einem Durchmesser größer als 100 m sicherlich immer bemerkt werden, ist für solche Objekte die Annahme einer räumlichen Gleichverteilung sinnvoll. 2.136Die folgenden Überlegungen basieren auf teilweise unsicheren Schätzungen, die aus dem Internet entnommen wurden. 2.137Beispielsweise wird die durchschnittliche Zeit bis zum nächsten Einschlag eines Meteoriten mit einem Durchmesser größer als 75 m auf der Erdoberfläche auf 1000 Jahre geschätzt. Da die Fläche Deutschlands nur 0, 07 % der Erdoberfläche beträgt, ergeben sich 1428571 Jahre für die mittlere Zeit bis zum nächsten Einschlag eines solchen Meteoriten in Deutschland. Meteorite mit einem Durchmesser größer als 100 m kommen natürlich noch seltener vor. 2.138Einige Beispiele derartiger Einschläge von Meteoriten: 18. April 2016 41 stark von der Zusammensetzung und nicht nur von der Größe des Meteoriten ab. Die Größe der Wahrscheinlichkeit pM wird dann interessant, wenn das Ereignis E, daß ein Meteorit mit einem Durchmesser größer als 100 m auf Deutschland stürzt, eintritt. Mit dem Eintreten von E in nächster Zeit sollte man aber nicht rechnen 2.139. Wenn allerdings E wirklich eingetreten sein wird, wird das Wissen um den Wert von pM relativ nutzlos sein, da es dann für die meisten Bewohner Deutschlands, wenn es überhaupt noch exisitieren sollte, keine Rolle spielen wird, wo genau der Meteorit aufgetroffen ist. Die Berechnung von pM beantwortet eine oberflächlich vielleicht interessant“ ” erscheinende Frage, ist aber genaugenommen völlig nutzlos und gleicht hierin vielen 2.140 anderen Modellen“ und Studien“, die durch die Medien geistern . ” ” 2.7. Poissonapproximation der Binomialverteilung In diesem Abschnitt 2.7 wird nachgewiesen, daß unter gewissen Voraussetzungen die für explizite Berechnungen schwer zugängliche Binomialverteilung durch die leichter handhabbare Poissonverteilung 2.141 approximiert werden kann. Diese Approximation ist der Hintergrund der vielfältigen Anwendungsmöglichkeiten der Poissonverteilung. Satz 2.15. Sei pn , n ∈ N, eine Folge in (0, 1) mit (2.21) lim npn = λ ∈ (0, ∞). n→∞ – Tscheljabinsk-Meteorit (Februar 2013, Ural). Durchmesser des Meteoriten ca. 17 m, Masse 7000 - 10000 t, flacher Eintrittswinkel in die Atmosphäre, Geschwindigkeit ca. 64000km/h; Explosion in 15 - 20 km Höhe, 500 Kilotonnen TNT Sprengkraft; 1200 Verletzte, tausende zersplitterte Fensterscheiben. – Tunguska-Einschlag (1908, westl. Sibirien). Durchmesser des Meteoriten ca. 60 m, lose zusammengepreßtes Material; Zerstörung des Objekts in ca. 8 km Höhe; kein Krater; 10 - 15 Megatonnen TNT Sprengkraft; massive Verwüstungen im Umkreis von 30 km; Lärm der Explosion war in London zu hören. – Barringer-Krater (vor ca. 50000 Jahren, Arizona). 50 m Durchmesser, 300000 t Gewicht, im wesentlichen aus Eisen; Krater ursprünglich mit 1200 m Durchmesser und 170 m Tiefe; Feuerball bis 10 km Entfernung, Schockwelle mit 2000 km/h bis 40 km Entfernung. – Chiemgau-Impakt (vor ca. 2500 Jahren, Chiemgau). Ca. 1 km Durchmesser, geringe Dichte; Explosion in 70 km Höhe, Zerfall in kleinere Objekte; viele Krater mit bis zu 370 m Durchmesser in einem Bereich von 27 km Breite und 70 km Länge. Wahrscheinlich seit dem Einschlag dieses Meteoriten hatten die sonst furchtlosen Kelten Angst, daß ihnen der ” Himmel auf den Kopf fällt“ (Bericht eines Chronisten Alexanders des Großen). – Nördlinger Ries (vor 15 Millionen Jahren, Bayern). Ca. 1 km Durchmesser, 70000 km/h Einschlagsgeschwindigkeit; Krater mit 25 km Durchmesser und 4 km Tiefe; 140000 Megatonnen TNT Sprengkraft; Auslöschung allen Lebens im Umkreis von 100 km. – Chicxulub-Impakt (vor 65 Millionen Jahren, Yukatán-Halbinsel in Mexiko). 10 - 15 km Durchmesser; Krater mit 190 km Durchmesser; 100 Millionen Megatonnen TNT Sprengkraft; vermutlich verantwortlich für weltweite Auslöschung der Dinosaurier. Zur besseren Einschätzung der Sprengkraft jener Meteoriten sei erwähnt, daß die stärkste jemals gezündete Wasserstoffbombe ein Sprengkraft von ca. 57 Megatonnen TNT hatte. 2.139Man hätte dann viele schlaflose Nächte vor sich, da die mittlere Zeit“ bis zum nächsten ” Einschlag recht groß ist. 2.140Oft wird wahrscheinlich der Wert derartiger Studien“ aber erst durch ihre oberflächliche ” Darstellung in den Medien gemindert. 2.141Die Poissonverteilung wurde in Abschnitt 2.2 vorgestellt. 18. April 2016 42 Dann gilt: λk exp(−λ) , lim B(n, pn )[{k}] = n→∞ | {z } |k! {z } n k n−k = P (λ)[{k}] = p (1 − pn ) k n (2.22) k = 0, 1, 2, . . . Beweis. Sei k = 0, 1, 2, . . . fest. Dann ist zunächst n −k n(n − 1) · · · (n − k + 1) 1 (2.23) lim n = lim = n→∞ k n→∞ k! nk k! und weiterhin (2.24) npn = lim (1 − pn )n = lim (1 − pn )1/pn n→∞ | {z } → 2.142 exp(−1) n→∞ Somit folgt: 2.143 exp(−λ). lim B(n, pn )[{k}] n→∞ → 2.146 exp(−λ) z }| { n −k = lim n (npn )k (1 − pn )n (1 − pn )−k n→∞ k | {z } | {z } | {z } 2.145 k → 2.147 1 → λ → 2.144 1/k! = λk exp(−λ). k! 2.7.1. Anwendung der Poissonapproximation. 2.148 In einer Steppe 2.149 wird eine rechteckige Versuchsfläche A betrachtet. Gesucht ist ein mathematisches Modell für die Anzahl der Bäume in A. Zu diesem Zweck ist das folgende Vorgehen sinnvoll: • In einem Diskretisierungsschritt wird für jedes n ∈ N die Versuchsfläche A in kleine Rechtecke Rkn , k = 1, . . . , n, mit der Fläche αn 2.150 aufgeteilt, d.h., nαn = |A| = Fläche von A. n sei so groß, d.h., αn sei so klein, daß unter den gegebenen Bedingungen (Bodenbeschaffenheit, Klima, . . . ) in jedem Rechteck Rkn , k = 1, . . . , n, i. allg. höchstens ein Baum steht. • In einem vorläufigen Modell 2.151 sei 2.142Aufgrund der Definition der Zahl e. Man beachte, daß (2.21) zu p → 0 bei n → ∞ n führt. 2.143 Da npn → λ bei n → ∞, vgl. (2.21). 2.144Wegen (2.23). 2.145Wegen (2.21). 2.146Wegen (2.24). 2.147Da p → 0 bei n → ∞. n 2.148 In diesem Abschnitt 2.7.1 wird eine typische Anwendung der Poissonverteilung bei der mathematischen Modellierung beschrieben. 2.149 Eine Steppe ist durch eine spärliche Vegetation charakterisiert. Insbesondere wachsen dort nur sehr wenige, vereinzelt stehende Bäume. 2.150Alle kleinen Rechtecke sollen die gleiche Fläche α haben. Da letztendlich sehr große n n betrachtet werden, ist αn im Verhältnis zur Gesamtfläche |A| sehr klein. 2.151In den später folgenden Überlegungen wird aus diesem vorläufigen Modell ein end” gültiges“ Modell hergeleitet. 18. April 2016 43 – für k = 1, . . . , n die Wahrscheinlichkeit für einen Baum in Rkn proportional zur Fläche |Rkn | = αn , d.h., P[ein Baum in Rkn ] = µαn , P[kein Baum in Rkn ] = 1 − µαn , k = 1, . . . , n, für ein µ > 0 2.152. – Die Baumbestände in den verschiedenen Rechtecken Rkn , k = 1, . . . , n, seien stochastisch unabhängig. Als Konsequenz besitzt in diesem vorläufigen Modell die Anzahl der Bäume in A eine Binomialverteilung B(n, µαn ) 2.153. • Wenn die Diskretisierung von A immer feiner wird, d.h. bei n → ∞, folgt: n P[k Bäume in A] = (µαn )k (1 − µαn )n−k = B(n, µαn )[{k}] k n→∞ 2.154 ≈ P (µ|A|)[{k}] = (µ|A|)k exp(−µ|A|), k! k = 0, 1, 2, . . . • Obige Überlegungen führen zu einem endgültigen Modell und zeigen, daß die Wahl der Poissonverteilung P (µ|A|) zur Modellierung der Anzahl der in A wachsenden Bäume sinnvoll ist 2.155. Das soeben beschriebene Verfahren ist auch in vielen ähnlichen Situationen anwendbar. Beispiele für solche Anwendungen der Poissonverteilung sind 2.156: • Modellierung der Anzahl der Zerfälle eines radioaktiven Präparats in einem festen Zeitintervall [0, t] durch eine Poissonverteilung mit einem Parameter µt 2.157. 2.152Da α = |A|/n, ist µα < 1, wenn n hinreichend groß ist. n n 2.153Die Anzahl der Bäume in A bestimmt sich im vorliegenden Modell genauso wie die Anzahl der Erfolge bei einem n-fachen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit µαn , vgl. Abschnitt 2.2 und insbesondere auch die Herleitung von (1.3c) in Abschnitt 1.1.2. 2.154Mit der Poissonapproximation der Binomialverteilung, vgl. Satz 2.15. Man beachte hierbei, daß nµαn = µ|A| für alle n ∈ N. 2.155In diesem endgültigen Modell ist die zwar hilfreiche, aber dennoch künstliche Einteilung der Fläche A in kleine Rechtecke nicht mehr vorhanden. 2.156 In jedem der folgenden Beispiele kann wie bei der obigen Modellierung der Anzahl der Bäume in einem beschränkten Gebiet einer Steppe • zunächst durch Einteilung des jeweiligen Bereichs von Raum oder Zeit in sehr kleine Teilbereiche ein vorläufiges“ diskretes Modell entworfen werden. ” • Es zeigt sich, daß in dem jeweiligen diskreten Modell die Anzahl von Punkten“ ” binomialverteilt ist. • Nach einer Anwendung der Poissonapproximation der Binomialverteilung wird deutlich, daß • in dem endgültigen“ Modell, wenn die Diskretisierung immer feiner wird und dann ” ganz verschwindet, die Anzahl der Punkte“ eine Poissonverteilung besitzt. ” 2.157Damit die obigen Überlegungen auf die hier vorliegende Situation übertragen werden können, müssen die physikalischen Bedingungen innerhalb des Zeitintervalls [0, t] im wesentlichen konstant bleiben. Insbesondere sollte t kleiner als die Halbwertszeit des radioaktiven Materials sein. Weiterhin dürfen die Zerfälle möglicher kurzlebiger Zerfallsprodukte nicht berücksichtigt werden. 18. April 2016 44 • Modellierung der Anzahl der Anfragen an einen E-Mail-Server 2.158 in einem vorgegebenen Zeitintervall [s, t] durch eine Poissonverteilung mit einem Parameter µ(t − s) 2.159. • Modellierung der Anzahl der Sterne in einem hinreichend großen Bereich A des Weltalls 2.160 durch eine Poissonverteilung mit einem Parameter µ|A| 2.161. In diesen verschiedenen Situationen ist jeweils ein geeigneter Parameter µ > 0 zu verwenden 2.162. Allgemein findet die Poissonverteilung Anwendungen bei der Modellierung der Anzahl von zufälligen, sich gegenseitig nicht beeinflußenden Punkten“ in einem ” festen Bereich von Raum oder Zeit 2.163 2.164. 2.158Ein E-Mail-Server ist ein Rechner, der E-Mails verwaltet, d.h. entgegennimmt, speichert, verschickt, weiterleitet, usw. Anfragen“ beziehen sich auf das Verschicken oder Entgegennehmen ” von E-Mails durch einzelne User, oder auch auf Aktionen zur Verwaltung des jeweiligen E-MailAccounts. 2.159In einem präziseren Modell sollte µ abhängig von der Tageszeit sein. Evtl. sollte auch ein deterministischer Beitrag in das Modell hinzugenommen werden, um regelmäßige, automatische Anfragen zu modellieren. 2.160Damit in dem Bereich A räumlich homogene Bedingungen“ vorliegen, sollte ” Durchmesser eines Sonnensystems ≪ Durchmesser von A ≪ Durchmesser einer Galaxie angenommen werden. 2.161Hier bezeichnet |A| das Volumen von A. 2.162Gegebenenfalls kann µ ausgehend von einigen Beobachtungen geschätzt werden, vgl. Beispiel 4.2. 2.163 Die Modellierung der genauen Lage dieser Punkte“ steht hier nicht zur Debatte. Hierzu ” werden sog. Poissonprozesse verwendet. Ein Teilproblem in diesem Zusammenhang (Lage des ersten Punktes“) wird in Beispiel 8.3 angesprochen. ” 2.164 Aufgrund ihrer breiten Anwendungspalette ist die Poissonverteilung eine der wichtigsten Wahrscheinlichkeitsverteilungen. 18. April 2016 KAPITEL 3 Zufallsvariablen Mit Zufallsvariablen können Beobachtungsgrößen“, die zufällige Werte anneh” men, modelliert werden. Der für die Modellierung benötigte Zufall“ wird durch ” einen Wahrscheinlichkeitsraum, auf dem diese Zufallsvariablen als Funktionen 3.1 3.2 definiert sind, erzeugt“ . ” Zunächst seien (Ω, F) und (Ω′ , F′ ) meßbare Räume 3.3. Weiterhin sei 3.4 X : ′ (Ω, F) → (Ω , F′ ) eine Funktion. X wird meßbar genannt, wenn (3.1) X −1 (A′ ) := 3.5 {ω ∈ Ω : X(ω) ∈ A′ } =: 3.6 {X ∈ A′ } ∈ F, A′ ∈ F′ . Wenn P ein Wahrscheinlichkeitsmaß auf dem Definitionsbereich (Ω, F) von X ist, schreibt man X : (Ω, F, P) → (Ω′ , F′ ) und bezeichnet X als (Ω′ - oder auch (Ω′ , F′ )wertige) Zufallsvariable, wenn (3.1) gilt 3.7 3.8 3.9. 3.1 Funktionen, die eine Zufallsvariable darstellen, müssen mit der Meßbarkeit, vgl. (3.1), eine spezielle Eigenschaft besitzen. 3.2 Jener Wahrscheinlichkeitsraum dient als Zufallsgenerator“. ” 3.3Vgl. (2.1). 3.4Die Schreibweise X : (Ω, F) → (Ω′ , F ′ ) ist im Vergleich zu X : Ω → Ω′ vorzuziehen, da die für das folgende wesentlichen σ-Algebren F und F′ hervorgehoben werden. 3.5X −1 (A′ ) ist das Urbild von A′ unter X. X muß keine invertierbare Funktion sein. 3.6 Diese Abkürzung wird im folgenden häufig verwendet werden. 3.7In der Definition des Begriffs Zufallsvariable ist das Wahrscheinlichkeitsmaß P noch bedeutungslos. Es wird allerdings wesentlich, wenn mit X gearbeitet wird. 3.8 Bei den in dieser Vorlesung in Erscheinung tretenden Zufallsvariablen X ist oft • der Definitionsbereich (Ω, F, P) ein anonymer Zufallsgenerator“, der im Hintergrund ” bleibt, während • der Wertebereich (Ω′ , F′ ) und insbesondere die Verteilung PX von X, vgl. Abschnitt 3.1, im Zentrum des Interesses steht. PX ist ein Wahrscheinlichkeitsmaß auf (Ω′ , F′ ), welches angibt, mit welchen Wahrscheinlichkeiten die Zufallsvariable X ihre ” verschiedenen Werte annimmt“. • In den allermeisten konkreten Fällen ist (Ω′ , F′ ) = (G, B(G)) oder (Ω′ , F′ ) = (M, Pot(M )), wobei G ein Gebiet in einem Rd , d = 1, 2, . . . , und M höchstens abzählbar unendlich ist. 3.9 Die Begriffe meßbarer Raum und Zufallsvariable, die fundamental für die Stochastik sind, erinnern an die ähnlich erscheinenden Begriffe topologischer Raum, bzw. stetige Funktion, die grundlegend für viele mathematische Disziplinen sind. Ein topologischer Raum (M, O) besteht aus einer Menge M und einer Topologie O auf M . Hierbei ist O eine Familie von Teilmengen von M , die die Bedingungen ∅, M ∈ O, Oi ∈ O, i ∈ I O1 , . . . , On ∈ O =⇒ =⇒ [ Oi ∈ O, i∈I n \ i=1 Oi ∈ O mit jeder beliebigen Menge I und n ∈ N erfüllt. Die Mengen O ∈ O werden offene Mengen genannt. Während σ-Algebren abzählbare Vereinigungen und abzählbare Durchschnitte ihrer Elemente enthalten, vgl. (2.1c) und (2.7), sind in Topologien beliebige Vereinigungen, aber nur endliche Durchschnitte von Elementen enthalten. 45 46 Wenn Ω höchstens abzählbar unendlich und F = Pot(Ω) ist, gilt die Meßbarkeitsbedingung (3.1) immer 3.10. Wenn andererseits Ω′ höchstens abzählbar unendlich ist, ist eine Funktion X : (Ω, F) → (Ω′ , Pot(Ω′ )) genau dann meßbar, wenn 3.11 (3.2) X −1 ({ω ′ }) = {ω ∈ Ω : X(ω) = ω ′ } = {X = ω ′ } ∈ F, ω ′ ∈ Ω′ . In diesem Fall wird X als diskrete meßbare Funktion bezeichnet. Beispiel 3.1. Um den Begriff der Meßbarkeit näher zu beleuchten, werden nun nicht-meßbare Funktionen vorgestellt 3.12. Seien (Ω, F) und (Ω′ , F′ ) meßbare Räume. Weiterhin sei X : (Ω, F) → (Ω′ , F′ ) eine Funktion. Offensichtlich kann die Meßbarkeit (3.1) von X verloren gehen, wenn F zu klein ist. In einem ersten Beispiel sei Ω = {0, 1} und F = {∅, Ω} 3.13. Weiterhin sei ′ Ω = {0, 1} = Ω, F′ = Pot(Ω′ ) und X : Ω → Ω′ die Identität, d.h., X(ω) = ω, ω ∈ Ω. Da {1} ∈ F′ und X −1 ({1}) = {1} ∈ / F, ist Xnicht meßbar. In einem zweiten Beispiel sei Ω = [0, 1] und F = ∅, Ω, [0, 1/2], (1/2, 1] 3.14. Sei außerdem Ω′ = R, F′ = B(R) 3.15 und X wiederum die Identität, d.h., X(ω) = ω, ω ∈ Ω. Da [1/4, 3/4] ∈ F′ und X −1 ([1/4, 3/4]) = [1/4, 3/4] ∈ / F, ist auch in diesem Fall X nicht meßbar. Hätte man in den beiden Situationen in Ω die jeweils übliche σ-Algebra, d.h., F = Pot({0, 1}), bzw. F = B([0, 1]), gewählt, wären die Funktionen X natürlich meßbar gewesen. 3.1. Verteilung von Zufallsvariablen Sei X : (Ω, F, P) → (Ω′ , F′ ) eine Zufallsvariable 3.16. Die Meßbarkeitsbedingung (3.1) besagt, daß die X zugeordneten Mengen X −1 (A′ ), A′ ∈ F′ , Elemente von F sind, d.h. Ereignisse 3.17, die jeweils eine durch P bestimmte Wahrscheinlichkeit besitzen. Man faßt diese Wahrscheinlichkeiten in der Verteilung PX von X mit (3.3) PX [A′ ] := P[{ω ∈ Ω : X(ω) ∈ A′ }] {z } | = X −1 (A′ ) ∈ 3.18 F Die zur Meßbarkeit (3.1) analoge Bedingung f −1 (O ′ ) = {m ∈ M : f (m) ∈ O ′ } ∈ O, O ′ ∈ O′ , zeichnet stetige Funktionen f : (M, O) → (M ′ , O′ ) eines topologischen Raums (M, O) in einen weiteren topologischen Raum (M ′ , O′ ) aus. 3.10Zur Begründung beachte man, daß für alle Mengen Ω′ , alle A′ ⊆ Ω′ und alle Funktionen X : Ω → Ω′ immer X −1 (A′ ) ∈ Pot(Ω) = F gilt. 3.11Aus der Meßbarkeit von X : (Ω, F) → (Ω′ , Pot(Ω′ )) ergibt sich natürlich (3.2). Andererseits folgt offensichtlich aus (2.1c), (3.2) und der Tatsache, daß A′ ⊆ Ω′ höchstens abzählbar unendlich ist, insbesondere [ X −1 (A′ ) = {ω ∈ Ω : X(ω) ∈ A′ } = {ω ∈ Ω : X(ω) = ω ′ } ∈ F, A′ ∈ Pot(Ω′ ). {z } | ′ ′ ω ∈A = X −1 ({ω ′ }) ∈ F 3.12In der Mathematik sollte man immer auch versuchen, die Bedeutung neu eingeführter Begriffe durch Gegenbeispiele zu erhellen. 3.13Für dieses triviale Mengensystem sind die Eigenschaften einer σ-Algebra, vgl. (2.1), offensichtlich erfüllt. 3.14Diese σ-Algebra in [0, 1] wird üblicherweise natürlich nicht betrachtet. 3.15Die Wahl der Borelschen σ-Algebra, d.h. der kleinsten σ-Algebra, die alle Intervalle enthält, ist für R üblich. 3.16In den nun folgenden Überlegungen wird insbesondere das Wahrscheinlichkeitsmaß P eine entscheidende Rolle spielen. 3.17Diese Ereignisse beschreiben das Verhalten der Zufallsvariable X. 18. April 2016 47 =: 3.19 P[X ∈ A′ ], A′ ∈ F′ , zusammen. PX ist ein Wahrscheinlichkeitsmaß auf (Ω′ , F′ ) 3.20, d.h., (Ω′ , F′ , PX ) ist ein Wahrscheinlichkeitsraum. Dieses Wahrscheinlichkeitsmaß PX beschreibt, mit ” welchen Wahrscheinlichkeiten die Zufallsvariable X ihre verschiedenen möglichen Werte in Ω′ annimmt“. Bemerkung 3.2. Sei X : (Ω, F, P) → (Ω′ , F′ ) eine Zufallsvariable, wobei Ω′ höchstens abzählbar und F′ = Pot(Ω′ ) ist 3.21. Die Verteilung PX ist dann eindeutig bestimmt durch 3.22 PX [{η}] = P[{ω ∈ Ω : X(ω) = η}] = P[X = η], Insbesondere gilt: ′ PX [A ] = PX "• [ η∈A′ # 3.23 {η} = X PX [{η}], η∈A′ η ∈ Ω′ . A′ ∈ F′ . Beispiel 3.3. Zur Modellierung des ∞-fachen, unabhängigen Münzwurfs mit Erfolgswahrscheinlichkeit p ∈ (0, 1) wird der in Abschnitt 2.4.2 eingeführte Wahrscheinlichkeitsraum (Ω, F, P) benutzt. Insbesondere ist Ω = {0, 1}N und 3.24 F = σ(F∗ ). Außerdem ist das Wahrscheinlichkeitsmaß P durch seine durch (2.16) beschriebene Einschränkung P∗ auf F∗ bestimmt. 3.18Da X meßbar ist, vgl. (3.1). 3.19 P[X ∈ A′ ] ist eine Abkürzung für P[{ω ∈ Ω : X(ω) ∈ A′ }]. 3.20Zur Begründung ist zu zeigen, daß P X die Eigenschaften (2.2) erfüllt. Zunächst folgt (2.2a) aus PX [Ω′ ] = P[{ω ∈ Ω : X(ω) ∈ Ω′ }] {z } | =Ω = 1 (da (2.2a) für P gilt). Zum Nachweis der σ-Additivität (2.2b) von PX seien A′1 , A′2 , · · · ∈ F′ mit A′k ∩ A′l = ∅, k, l ∈ N, k 6= l. Dann gilt: "•∞ # [ •∞ A′k (die Notation ∪k=1 . . . bezeichnet eine disjunkte Vereinigung) PX k=1 "( =P | = = = ∞ X k=1 ∞ X ω ∈ Ω : X(ω) ∈ • ∞ [ k=1 {z • ∞ [ k=1 A′k )# } {ω ∈ Ω : X(ω) ∈ A′k } (da für k 6= l und ω ∈ Ω nicht gleichzeitig X(ω) ∈ A′k und X(ω) ∈ A′l ) P[{ω ∈ Ω : X(ω) ∈ A′k }] (wegen (2.2b) für P) PX [A′k ] (wegen (3.3)). k=1 3.21X ist somit eine diskrete Zufallsvariable. 3.22P ist in diesem Fall durch seine Einschränkung auf die einpunktigen Teilmengen von X Ω′ charakterisiert. 3.23Wegen der σ-Additivität von P . X 3.24Ω ist der Raum der {0, 1}-wertigen Folgen und F die kleinste σ-Algebra, die die Menge F∗ enthält, d.h., jene Ereignisse, die durch endlich viele Würfe der Münze bestimmt sind, vgl. (2.15). 18. April 2016 48 Zunächst sind Xk : (Ω, F, P) → ({0, 1}, Pot({0, 1})), k ∈ N, mit 3.25 Xk (ω) = ωk , ω ∈ Ω, k ∈ N, Zufallsvariablen. Offensichtlich modelliert für k ∈ N die Zufallsvariable Xk das Ergebnis des k-ten Wurfs der Münze 3.26. Durch T (ω) := inf{k ∈ N : Xk (ω) = 1}, ω ∈ Ω, wird nun eine (N, Pot(N))wertige Funktion T auf (Ω, F, P) definiert. Da (3.4) {T = n} = {ω ∈ Ω : T (ω) = n} = {ω ∈ Ω : X1 (ω) = · · · = Xn−1 (ω) = 0, Xn (ω) = 1} = {ω ∈ Ω : ω1 = · · · = ωn−1 = 0, ωn = 1} ∈ F∗ ⊂ F, n ∈ N, 3.27 ist T eine diskrete Zufallsvariable . Diese Zufallsvariable modelliert den Zeitpunkt des ersten Wurfs von Zahl“. Ihre Verteilung PT ist eindeutig bestimmt ” durch 3.28 PT [{n}] = P[T = n], n ∈ N. Weil P[T = n] = 3.29 = 3.30 P[{ω ∈ Ω : ω1 = · · · = ωn−1 = 0, ωn = 1}] (1 − p)n−1 p, n ∈ N, ist T geometrisch verteilt mit Parameter p 3.31. Auch bei anderen, beliebig oft unabhängig wiederholten, identischen Experi” menten“ mit zwei möglichen Ausgängen Erfolg“, bzw. Mißerfolg“ ist der Zeit” 3.32 ” punkt des ersten Erfolgs geometrisch verteilt . 3.1.1. Konstruktion und Simulation diskreter Zufallsvariablen. 3.33 Auf 3.34 N sei ein Wahrscheinlichkeitsmaß 3.35 µ = (µn )n∈N gegeben. Gesucht ist eine N-wertige Zufallsvariable mit der Verteilung µ. Damit ist insbesondere ein Wahrscheinlichkeitsraum (Ω, F, P) und eine meßbare 3.36 (N, Pot(N))-wertige Funktion X auf (Ω, F, P) anzugeben, d.h. zu konstruieren, so daß PX [{n}] = P[X = n] = µn , n ∈ N. 3.25Beachte, daß ω = (ω , ω , . . . ), ω ∈ Ω. X ist somit die Projektion auf die k-te Koordinate 1 2 k von Ω. 3.26Wenn die Familie der Zufallsvariablen X , k ∈ N, zu einem Objekt (X ) k k k∈N zusammengefaßt wird, ergibt sich ein einfaches Beispiel eines stochastischen Prozesses. Insbesondere liegt hier ein Bernoulli-Prozeß vor. Allgemein sind bei einem Bernoulli-Prozeß Y = (Yk )k∈N die Zufallsvariablen Yk , k ∈ N, unabhängig und identisch verteilt. 3.27Man beachte, daß die Funktion T die Bedingung (3.2) erfüllt. 3.28Vgl. Bemerkung 3.2. 3.29Wegen (3.4). 3.30Aufgrund von (2.16). 3.31Mit den hier durchgeführten Überlegungen sind die eher formal einzuschätzenden Ausführungen in Fußnote 2.39 auf eine mathematisch korrekte Basis gestellt. 3.32Der Parameter dieser geometrischen Verteilung stimmt mit der Erfolgswahrscheinlichkeit bei der einmaligen Durchführung des Experiments überein. Beispielsweise ist beim ∞-fachen, unabhängigen Wurf eines fairen Würfels der Zeitpunkt des ersten Wurfs einer 5 geometrisch mit Parameter 1/6 verteilt. 3.33 Zum besseren Verständnis mathematischer Objekte ist es hilfreich, wenn geklärt wird, wie derartige Strukturen konkret erzeugt“, bzw. konstruiert werden können. Hierbei kann diese ” Konstruktion rein abstrakt in einem mathematischen Umfeld oder auch real“ mit Hilfe eines ” Computers vorgenommen werden. In diesem Abschnitt 3.1.1 sollen auf diese Weise speziell diskrete Zufallsvariablen, d.h. Zufallsvariablen, deren Wertebereich höchstens abzählbar ist, erzeugt“ ” werden. Als Ausgangspunkt ist die Verteilung der zu konstruierenden Zufallsvariable fest vorgegeben. A priori ist übrigens nicht klar, ob es zu jedem Wahrscheinlichkeitsmaß µ auch eine Zufallsvariable X gibt, deren Verteilung PX gleich µ ist. 3.34 Die folgenden Überlegungen lassen sich leicht modifizieren, wenn N durch eine beliebige, höchstens abzählbare Menge Ω′ ersetzt wird. 3.35Insbesondere ist µ ≥ 0, n ∈ N, und P n n∈N µn = 1. 3.36Auf der abzählbaren Menge N wird üblicherweise die σ-Algebra Pot(N) verwendet. 18. April 2016 49 Eine erste Möglichkeit besteht darin, zunächst Ω = N, F = Pot(N) und P = µ zu wählen und anschließend X : (Ω, F, P) → (N, Pot(N)) durch 3.37 X(ω) = ω, ω ∈ Ω, zu definieren. Da PX [{n}] = 3.38 = 3.39 P[{ω ∈ Ω : X(ω) = n}] P[{ω ∈ Ω : ω = n}] = P[{n}] = 3.40 µn , n ∈ N, wird damit das Konstruktionsproblem gelöst. Es 3.41 wäre auch möglich, 3.42 (Ω, F, P) = ([0, 1], B([0, 1]), λ[0,1] ) zu wählen und X1 durch 3.43 Pn−1 Pn (3.5) X1 (ω) = n, ω ∈ k=1 µk , k=1 µk , n ∈ N, zu definieren. Da (3.6) PX1 [{n}] = 3.44 = 3.45 = 3.46 λ[0,1] [{ω ∈ [0, 1] : X1 (ω) = n}] Pn Pn−1 λ[0,1] ω ∈ [0, 1] : k=1 µk ≤ ω < k=1 µk Pn−1 Pn | k=1 µk − k=1 µk | = µn , n ∈ N, löst auch dieser Ansatz mit der Zufallsvariablen X1 das vorgegebene Konstruktionsproblem 3.47. 3.37X ist die Identität auf Ω = N. 3.38Aufgrund der Definition (3.3) der Verteilung P einer Zufallsvariable X. X 3.39 Wegen der speziellen Definition der Zufallsvariable X als Identität auf Ω = N. Da P = µ gewählt wird. 3.41 Es folgt nun eine zweite Konstruktion einer N-wertigen Zufallsvariable X1 mit der vorgegebenen Verteilung µ. Diese zweite Konstruktion wird sich in Beispiel 3.4 als nützlich herausstellen, wenn die Zufallsvariable X1 mit Hilfe eines Computers simuliert werden soll. 3.42 Vgl. Abschnitt 2.4.1 3.43Der Funktion X sollte auch ein Wert X (ω) für ω = 1 zugewiesen werden. Da 1 1 λ[0,1] [{1}] = 0, ist der genaue Wert X1 (1) allerdings irrelevant. Allgemein werden zwei auf einem Wahrscheinlichkeitsraum (Ω, F, P) definierte Zufallsvariablen X und Y als identisch betrachtet, d.h. miteinander identifiziert, wenn 3.40 P[{ω ∈ Ω : X(ω) = Y (ω)}] = P[X = Y ] = 1. In diesem Fall schreibt man X = Y , f.s. (fast-sicher). Verschiedene Gleichheitsbegriffe für Zufallsvariablen werden in Abschnitt 3.2.5 diskutiert. 3.44Weil die Zufallsvariable X auf dem Wahrscheinlichkeitsraum ([0, 1], B([0, 1]), λ 1 [0,1] ) definiert ist. 3.45 Aufgrund von (3.5). 3.46 Da das Lebesguemaß eines Intervalls dessen Länge ist, vgl. Abschnitt 2.4.1 3.47Ist (Ω, F, P) ein Wahrscheinlichkeitsraum und X : (Ω, F, P) → ([0, 1], B([0, 1])) eine Zufallsvariable mit PX = λ[0,1] , so folgt wie in (3.6), daß PX1 (X) [{n}] = P[{ω ∈ Ω : X1 (X(ω)) = n}] Pn−1 Pn (wegen (3.5)) = P ω ∈ Ω : X(ω) ∈ k=1 µk k=1 µk , Pn−1 Pn = λ[0,1] µ (da P = λ µ , X [0,1] ) k=1 k k=1 k = µn , n ∈ N. Insbesondere besitzt die transformierte Zufallsvariable X1 (X) = X1 ◦ X : (Ω, F, P) → (N, Pot(N)) die Verteilung PX1 (X) = µ. Von dieser Beobachtung ausgehend wird im folgenden Beispiel 3.4 die Zufallsvariable X durch eine Simulation x einer in [0, 1] gleichverteilten Zufallsvariable ersetzt, um mit X1 (x) eine Simulation einer Zufallsvariable mit der Verteilung µ zu erhalten. 18. April 2016 50 Beispiel 3.4 (Simulation einer Folge unabhängiger 3.48, N-wertiger Zufallsvariablen mit einer vorgegebenen Verteilung). Als Basis zur Verwendung von Statistik-Software erzeugen Computer, bzw. sog. Zufallsgeneratoren, die auf diesen Computern implementiert sind, üblicherweise Folgen von unabhängigen“ Zufallszah” len x1 , x2 , . . . , die in [0, 1] gleichverteilt“ sind, d.h., mit den Zahlen x1 , x2 , . . . ” wird eine 3.49 Realisierung einer Folge unabhängiger, in [0, 1] gleichverteilter 3.50 Zufallsvariablen simuliert. Genaugenommen sind diese Zahlen aber in keiner Weise zufällig oder unabhängig, da sie durch spezielle, i. allg. rekursive Algorithmen berechnet werden und somit völlig deterministisch sind. Nur aufgrund ihrer Komplexität scheinen sie jene Eigenschaften zu besitzen. Sie werden daher auch als Pseudozufallszahlen bezeichnet 3.51. Die Überlegungen zu (3.6) demonstrieren 3.52, daß durch die transformierten Zufallszahlen 3.53 X1 (x1 ), X1 (x2 ), . . . unabhängige, N-wertige Zufallsvariablen mit der Verteilung µ simuliert werden können. Bemerkung 3.5. Auf den üblichen Computern sind Zufallsgeneratoren und auch Befehle zur Simulation von unabhängigen Zufallsvariablen mit einer vorgegebenen Verteilung meistens direkt verfügbar, evtl. als Teil des Betriebssystems oder im Rahmen von Softwarepaketen wie Maple, Mathematica, Scilab oder R 3.54. In R können beispielsweise unabhängige, geometrisch verteilte Zufallsvariaben 3.55 mit dem Befehl rgeom simuliert werden. Wenn R interaktiv genutzt wird, 3.48Der Begriff der Unabhängigkeit von Zufallsvariablen wird erst in Abschnitt 3.2 eingeführt werden, vgl. (3.8). Zum Verständnis der Überlegungen in diesem Beispiel sollte allerdings ein intuitives Verständnis der Unabhängigkeit ausreichen. 3.49Eine Realisierung einer Familie X , X , . . . von Zufallsvariablen, die auf einem Wahr1 2 scheinlichkeitsraum (Ω, F, P) definiert sind, ergibt sich, wenn eine Folge X1 (ω), X2 (ω), . . . für ein festes, aber beliebiges ω ∈ Ω betrachtet wird. 3.50Die Gleichverteilung in [0, 1] wird in Abschnitt 2.4.1 eingeführt. 3.51 Ein bekanntes Verfahren zur Erzeugung von Pseudozufallszahlen ist die lineare Kongruenzmethode, vgl. z.B. [7], Abschnitt 10.2. Zu vorgegebenen Parametern m ∈ N, a = 1, . . . , m − 1, c = 0, 1, . . . , m − 1 und einem Startwert y0 = 0, 1, . . . , m − 1 betrachtet man zunächst die Folge yn , n ∈ N0 , mit (∗) yn+1 = (ayn + c) mod m, n = 0, 1, 2, . . . , und bildet diese anschließend mit xn = yn /m, n = 0, 1, 2, . . . , in das Intervall [0, 1] ab. Wenn m, a, c und y0 geschickt“ gewählt werden, hat die Folge xn , n = 0, 1, 2, . . . , ein Erscheinungsbild wie ” eine typische“ Realisierung einer Folge unabhängiger, in [0, 1] gleichverteilter Zufallsvariablen. ” Bei einer unglücklichen Wahl der Parameter erhält man aber u.U. eine sehr regelmäßige Folge y0 , y1 , y2 , . . . . Beispielsweise ergibt sich 5, 0, 5, 0, . . . für a = c = y0 = 5, m = 10. Allgemein besitzt eine durch eine Relation wie (∗) bestimmte Zahlenfolge immer eine endliche Periode, die höchstens gleich m ist. Etliche klassische, ältere Zufallsgeneratoren basieren auf der linearen Kongruenzmethode. Oft hat sich allerdings im Lauf der Zeit herausgestellt, daß jene oft benutzten Zufallsgeneratoren, deren Perioden zwischen 230 und 248 liegen, eine nur geringe Qualität besitzen. Hingegen gibt es mit dem Mersenne Twister einen modernen Zufallsgenerator, der in einer gut bewährten Variante mit 219937 − 1 eine extrem große Mersennesche Primzahl als Periode besitzt, vgl. z.B. [11]. 3.52 Vgl. insbesondere auch Fußnote 3.47. 3.53 Die Funktion X1 wird in (3.5) definiert. 3.54Vgl. z.B. http://www.maplesoft.com/products/Maple/index.aspx, http://www.wolfram.com/mathematica/, http://www.scilab.org/, bzw. http://www.r-project.org. Auch einige wissenschaftliche Software-Bibliotheken, wie beispielsweise die GNU Scientific Library (GSL), vgl. http://www.gnu.org/software/gsl/, enthalten derartige Software zur Simulation von Zufallsvariaben mit gegebener Verteilung. 3.55Mit geometrischer Verteilung ist hier die in Fußnote 2.38 beschriebene Verteilung auf N 0 gemeint. 18. April 2016 51 ergibt sich z.B. 3.56 : > rgeom(60,0.3) [1] 0 0 1 0 3 2 3 0 3 3 1 1 3 2 1 10 1 7 3 18 2 0 0 0 1 [26] 1 2 0 2 1 2 2 3 5 0 0 5 13 0 0 8 1 0 0 20 2 1 3 2 8 [51] 0 4 5 3 7 1 0 2 1 7 3.2. Familien von Zufallsvariablen und deren gemeinsame Verteilung In diesem Abschnitt 3.2 wird insbesondere dargelegt, wie sich Zusammen” hänge“ 3.57 zwischen mehreren Zufallsvariablen und auch deren Unabhängigkeit 3.58 mathematisch beschreiben lassen. Beispiel 3.6 (Abhängige Zufallsvariablen). Für k = 1, 2, . . . sei Tk der Tip eines Lottospielers 3.59 in der k-ten Woche. Insbesondere seien Tk , k = 1, 2, . . . , auf einem Wahrscheinlichkeitsraum (Ω, F, P) definierte Zufallsvariablen mit Werten in 3.60 Ω′ = {M ⊂ {1, . . . , 49} : |M | = 6}. Wie es für einen endlichen Stichprobenraum üblich ist, wird Ω′ mit der σ-Algebra F′ = Pot(Ω′ ) versehen 3.61. Für ein p ∈ [0, 1] habe der Lottospieler folgendes spezielle Tip-Verfahren: • T1 sei gleichverteilt auf Ω′ , d.h., P[T1 = ν] = 1/|Ω′ |, ν ∈ Ω′ 3.62. • Die Tips Tk für k = 2, 3, . . . werden sukzessive folgendermaßen bestimmt: – Sei Tk−1 = µ für ein µ ∈ Ω′ . – Mit Wahrscheinlichkeit 1 − p sei Tk = µ. – Mit Wahrscheinlichkeit p werde ein · l ∈ µ 3.63 gemäß der Gleichverteilung auf 3.64 µ und ein · l′ ∈ {1, . . . , 49} \ µ gemäß der Gleichverteilung auf 3.65 {1, . . . , 49} \ µ ausgewählt 3.66. 3.56 Mit dem R-Befehl rgeom(n, p) werden n unabhängige, geometrisch mit Parameter p verteilte Zufallsvariaben simuliert, vgl. Fußnote 3.55. 3.57Dieser vage Begriff wird durch das Konzept der gemeinsamen Verteilung von Zufallsvariablen präzisiert. 3.58Unabhängigkeit liegt vor, wenn sich Zufallsvariablen nicht gegenseitig beeinflussen“. Der ” bisher verwendete intuitive Zugang zu diesem Begriff muß nun in eine mathematisch korrekte Form gebracht werden. 3.59Es sei das Spiel 6 aus 49“ gemeint. ” 3.60|A| bezeichnet die Mächtigkeit einer Menge A. 3.61(Ω′ , F ′ ) ist somit ein meßbarer Raum. In dieser Situation ist es bemerkenswert, daß Ω′ eine Menge von Mengen und daher Pot(Ω′ ) die Menge aller Teilmengen einer Menge von Mengen ist. 3.62|Ω′ | ist die Anzahl der Möglichkeiten, aus einer Menge mit 49 Elementen eine 6-elementige Teilmenge auszuwählen, d.h., |Ω′ | = 49 , vgl. Abschnitt 5.1, insbesondere (5.4). 6 3.63Man beachte, daß µ als Element von Ω′ eine Teilmenge von {1, . . . , 49} mit 6 Elementen ist. 3.64 An diese Stelle wird mit dem Wahrscheinlichkeitsraum (µ, Pot(µ), Pµ ) gearbeitet, wobei Pµ die Gleichverteilung auf der Menge µ ist. 3.65An diese Stelle wird mit dem Wahrscheinlichkeitsraum ({1, . . . , 49} \ µ, Pot({1, . . . , 49} \ µ), P{1,...,49}\µ ) gearbeitet, wobei P{1,...,49}\µ die Gleichverteilung auf der Menge {1, . . . , 49} \ µ ist. 3.66Die Wahrscheinlichkeitsräume (µ, Pot(µ), P ) und ({1, . . . , 49} \ µ, Pot({1, . . . , 49} \ µ), µ P{1,...,49}\µ ), die bei der Wahl von l und l′ verwendet werden, sind nur Hilfsmittel bei der Beschreibung der Zufallsvariablen Tk , k = 1, 2, . . . . Der eigentliche“ Wahrscheinlichkeitsraum, auf ” dem die Zufallsvariablen Tk , k = 1, 2, . . . , definiert sind, ist der eingangs genannte (Ω, F, P), der nicht näher spezifiziert wird, allerdings groß genug“ sein muß, damit die beschriebene Konstruk” tion der Zufallsvariablen Tk , k = 1, 2, . . . , durchführbar wird. 18. April 2016 52 – Nun sei Tk = (µ \ {l}) ∪ {l′ } 3.67. Man beobachtet, daß −1 • P[Tk = ν] = 1/|Ω′ | = 3.68 49 , ν ∈ Ω′ , für alle k = 1, 2, . . . . Die 6 Zufallsvariablen Tk , k = 1, 2, . . . , besitzen daher die gleiche Verteilung 3.69. • Wenn p = 0 3.70, so ist Tk = T1 für alle k = 2, 3, . . . , d.h., die Zufallsvariablen Tk , k = 1, 2, . . . , sind stark voneinander abhängig“. Diese ” Abhängigkeit sinkt“ mit wachsendem p 3.71. ” Die Basis einer quantitativen Beschreibung der Abhängigkeit von Zufallsvariablen ist deren gemeinsame Verteilung 3.72. Es wäre übrigens zweckmäßig die Familie der Zufallsvariablen Tk , k = 1, 2, . . . , zusammenzufassen und als als einen stochastischen Prozeß 3.73 (Tk )k∈N zu betrachten 3.74. Sei nun (Ω, F, P) ein Wahrscheinlichkeitsraum und (Ω′λ , Fλ′ ), λ ∈ Λ, eine Familie meßbarer Räume 3.75. Außerdem seien Xλ : (Ω, F, P) → (Ω′λ , Fλ′ ), λ ∈ Λ, Zufallsvariablen 3.76. Die gemeinsame Verteilung der Zufallsvariablen Xλ , λ ∈ Λ, ist charakterisiert durch die Größen 3.77 3.78 (3.7) P Xλ1 ∈ A′λ1 , Xλ2 ∈ A′λ2 , . . . , Xλm ∈ A′λm = P ω ∈ Ω : Xλ1 (ω) ∈ A′λ1 , . . . , Xλm (ω) ∈ A′λm , 3.67Mit Wahrscheinlichkeit p wird also bei der Bestimmung des zukünftigen Tips eine Zahl des aktuellen Tips zufällig ausgewählt und durch eine aktuell nicht getippte Zahl ersetzt. Hierbei werden die zu ersetzende und die neue Zahl jeweils gemäß einer Gleichverteilung ausgewählt. 3.68Vgl. Fußnote 3.62. 3.69Die Zufallsvariablen T , k = 1, 2, . . . , sind somit identisch verteilt. k 3.70In diesem Fall wird zu keinem Zeitpunkt eine der aktuell getippten Zahlen modifiziert. 3.71Mit wachsendem p steigt die Wahrscheinlichkeit, daß beim Zusammenstellen eines neuen Tips eine der zuletzt getippten Zahlen verändert wird. Allerdings besteht auch für p = 1, wenn mit Sicherheit genau eine der Zahlen des aktuellen Tips geändert wird, eine gewisse Abhängigkeit zwischen aufeinanderfolgenden Tips Tk und Tk+1 . 3.72 Der Begriff der gemeinsamen Verteilung einer Familie von Zufallsvariablen wird in diesem Abschnitt 3.2 eingeführt, vgl. (3.7). 3.73Vgl. Abschnitt 3.4. Ein stochastischer Prozeß ist eine durch Zeitpunkte“ indizierte Fa” milie von Zufallsvariablen. 3.74Offensichtlich ermöglicht bei gegebenem gegenwärtigen Tip T die zusätzliche Kenntnis k der Tips Tk−1 , Tk−2 , . . . in der Vergangenheit keine präzisere Beschreibung des zukünftigen Tips Tk+1 . Daher ist (Tk )k∈N sogar ein Markovprozeß, vgl. Abschnitt 8.2. 3.75Λ ist eine beliebige Menge, die auch überabzählbar sein kann. Die meßbaren Räume ′ ), λ ∈ Λ, können durchaus verschieden sein. (Ω′λ , Fλ 3.76Um die nun folgenden Erläuterungen der Begriffe gemeinsame Verteilung und Unabhängigkeit in (3.7), bzw. in (3.8) besser zu verstehen, kann man zuerst |Λ| = 2, 3, . . . und ′ ) = (R, B(R)), λ ∈ Λ, annehmen. Insbesondere sollte man auch den folgenden Ab(Ω′λ , Fλ schnitt 3.2.1, in dem eine endliche Menge diskreter Zufallsvariablen betrachtet wird, beachten. 3.77Für alle endlichen Teilmengen Λ = {λ , . . . , λ } ⊆ Λ geben die entsprechenden Terme in e m 1 Q ′ (3.7) an, mit welchen Wahrscheinlichkeiten die m k=1 Ωλ -wertige Zufallsvariable (Xλ1 , . . . , Xλm ) k ′ ′ , . . . , A′ ihre Werte in den Mengen A′λ1 × · · · × A′λm , A′λ1 ∈ Fλ λm ∈ Fλm , annimmt. 1 3.78 Charakterisiert durch . . . “ heißt nicht definiert durch . . . “. In (3.7) wird nur eine Familie ” ” von Wahrscheinlichkeiten angegeben. Die vollständige Definition der gemeinsamen Q Verteilung der Zufallsvariablen Xλ , λ ∈ Λ, als ein Wahrscheinlichkeitsmaß auf dem Produktraum λ∈Λ Ω′λ wird in weiterführenden Vorlesungen vorgestellt. Es sei nur erwähnt, daß für ein beliebiges Λ die gemeinsame Verteilung der Zufallsvaria′ ), λ ∈ Λ, ein Wahrscheinlichkeitsmaß auf dem meßbaren Raum blen Xλ : (Ω, F, P) → (Ω′λ , Fλ N Q ′ ′ ′ ′ λ∈Λ Ωλ ,N λ∈Λ Fλ , dem Produkt der meßbaren Räume (Ωλ , Fλ ), λ ∈ Λ, ist. Die Produkt′ ist hierbei die kleinste σ-Algebra, die die endlich-dimensionalen Rechtecke σ-Algebra F λ∈Λ λ ′ ′ , . . . , A′ {ω = (ωλ )λ∈Λ : ωλ1 ∈ A′λ1 , . . . , ωλm ∈ A′λm }, {λ1 , . . . , λm } ⊆ Λ, A′λ1 ∈ Fλ λm ∈ Fλm , 1 m ∈ N, enthält. 18. April 2016 53 {λ1 , . . . , λm } ⊆ Λ, A′λ1 ∈ Fλ′ 1 , . . . , A′λm ∈ Fλ′ m , m ∈ N. Falls die gemeinsame Verteilung der Zufallsvariablen Xλ , λ ∈ Λ, faktorisiert, d.h., wenn 3.79 P Xλ1 ∈ A′λ1 , Xλ2 ∈ A′λ2 , . . . , Xλm ∈ A′λm (3.8) = P[Xλ1 ∈ A′λ1 ] P[Xλ2 ∈ A′λ2 ] · · · P[Xλm ∈ A′λm ], {λ1 , . . . , λm } ⊆ Λ, A′λ1 ∈ Fλ′ 1 , . . . , A′λm ∈ Fλ′ m , m ∈ N, werden diese Zufallsvariablen unabhängig genannt 3.80 3.81. In den einfachsten Varianten vieler klassischer Resultate der Wahrscheinlichkeitstheorie, z.B. dem Gesetz der großen Zahlen oder dem Zentralen Grenzwertsatz 3.82, wird mit Folgen 3.83 Xk , k ∈ N, unabhängiger, identisch verteilter Zufallsvariablen gearbeitet. Hierbei sind Zufallsvariablen Xλ , λ ∈ Λ, identisch verteilt, wenn sie die gleiche Verteilung besitzen, d.h., wenn 3.84 PXλ1 = PXλ2 , λ1 , λ2 ∈ Λ 3.85. Als Abkürzung für unabhängig, identisch verteilt “ benutzt man häufig auch ” i.i.d. 3.86. Mit i.i.d. Zufallsvariablen kann ein mehrmals unabhängig unter gleichbleibenden Bedingungen wiederholtes Experiment modelliert werden 3.87. 3.2.1. Gemeinsame Verteilung endlich vieler diskreter Zufallsvariablen. 3.88 Seien Xk : (Ω, F, P) → (Mk , Pot(Mk )), k = 1, . . . , n, Zufallsvariablen, wobei Mk , k = 1, . . . , n, höchstens abzählbare Mengen sind. Die gemeinsame Verteilung der Zufallsvariablen X1 , . . . , Xn wird eindeutig charakterisiert durch 3.89 (3.9) P {ω ∈ Ω : X1 (ω) = m1 , . . . , Xn (ω) = mn } = P[X1 = m1 , . . . , Xn = mn ], Durch Addition solcher Terme, d.h., mit m1 ∈ M 1 , . . . , mn ∈ M n . (3.10) PX1 ,...,Xn [A] := P[(X1 , . . . , Xn ) ∈ A] [ • =P {X1 = m1 , . . . , Xn = mn } (m1 ,...,mn )∈A X 3.90 P[X1 = m1 , . . . , Xn = mn ], A ∈ Pot(M1 ×. . .×Mn ), = (m1 ,...,mn )∈A 3.79Genaugenommen wird in (3.8) verlangt, daß alle gemeinsamen Verteilungen von jeweils endlich vielen der Zufallsvariablen Xλ , λ ∈ Λ, faktorisieren. 3.80Um den Unterschied zur linearen Unabhängigkeit zu betonen, bezeichnet man die Zufallsvariablen Xλ , λ ∈ Λ, auch als stochastisch unabhängig. 3.81 Neben der Unabhängigkeit von Zufallsvariablen gibt es auch den Begriff der Unabhängigkeit von Ereignissen, mit dem auf einem intuitiven Niveau schon gearbeitet wurde, vgl. z.B. Fußnote 1.31 oder (2.3a). Die Unabhängigkeit von Ereignissen wird in Abschnitt 3.2.3 erläutert werden. Sie kann als ein Spezialfall der Unabhängigkeit von Zufallsvariablen betrachtet werden. 3.82 Diese beiden Resultate werden in den Beispielen 1.7 und 1.8 vorgestellt. Ausführlichere Diskussionen folgen in den Kapiteln 7 und 9. 3.83 Somit ist Λ = N. 3.84P bezeichnet die Verteilung einer Zufallsvariablen X, vgl. (3.3). X 3.85Man beachte: Zufallsvariablen, die die gleiche Verteilung besitzen, müssen nicht, aber können gleichverteilt sein! Zufallsvariablen X werden gleichverteilt genannt, wenn ihre Verteilung PX die Gleichverteilung auf einer endlichen Menge, vgl. Abschnitt 2.2, oder die Gleichverteilung in einem beschränkten Gebiet eines Rd , vgl. Abschnitt 2.6, ist. 3.86 i.i.d. bedeutet independent, identically distributed“. ” 3.87 Ein Beispiel ist der ∞-fache, unabhängige Münzwurf mit einer festen Erfolgswahrscheinlichkeit. 3.88 Zur Illustration der allgemeinen in (3.7), bzw. (3.8) betrachteten Situation wird nun ein übersichtlicher“ Spezialfall vorgestellt. ” 3.89Vgl. (3.7). Dort werden in einer allgemeinen Situation analoge Wahrscheinlichkeiten betrachtet. 18. April 2016 54 erhält man ein Wahrscheinlichkeitsmaß 3.91 PX1 ,...,Xn auf (M1 × · · ·× Mn , Pot(M1 × · · · × Mn )). Dieses Wahrscheinlichkeitsmaß PX1 ,...,Xn ist die (gemeinsame) Verteilung von X1 , . . . , Xn 3.92. Faßt man übrigens die Zufallsvariablen X1 , . . . , Xn zu einer einzigen n-dimensionalen Zufallsvariable X = (X1 , . . . , Xn ) zusammen, so ist PX1 ,...,Xn = PX , wobei PX die mit (3.3) eingeführte Verteilung von X ist. Die Zufallsvariablen X1 , . . . , Xn sind unabhängig, genau dann wenn die Terme in (3.9) faktorisieren 3.93, d.h., wenn (3.11) P[X1 = m1 , . . . , Xn = mn ] = P[X1 = m1 ] · · · P[Xn = mn ], m1 ∈ M 1 , . . . , mn ∈ M n . Beispiel 3.7 (Gemeinsame Verteilung von zwei Zufallsvariablen). Wie in Beispiel 2.8 wird der N -fache, unabhängige Wurf einer Münze mit der Wahrscheinlichkeit p für den Wurf von Zahl“ , 1 betrachtet 3.94. ” Gesucht ist die gemeinsame Verteilung der Zufallsvariablen Z und T mit 3.95 Z(ω) = ω1 + · · · + ωN , bzw. ( inf{i ∈ {1, . . . , N } : ωi = 1}, falls Z(ω) > 0, T (ω) = N + 1, falls Z(ω) = 0, für ω = (ω1 , . . . , ωN ) ∈ Ω = {0, 1}N . Dazu ist P[Z = k, T = n], zu bestimmen (3.12) k = 0, 1, . . . , N, n = 1, . . . , N + 1, 3.96 . Zunächst gilt: P[Z = 0, T = N + 1] = 3.97 P[Z = 0, T = n] = 3.98 P[Z = k, T = N + 1] = 3.99 P[Z = k, T = n] = (1 − p)N , 0, n = 1, . . . , N, 0, k = 1, . . . , N, 3.100 0, n = 1, . . . , N, k = N − n + 2, . . . , N. Wenn für ein ω ∈ Ω weiterhin T (ω) = n und Z(ω) = k für n = 1, . . . , N und k = 1, . . . , N − n + 1 ist, so folgt • ωi = 0, i = 1, . . . , n − 1, • ωn = 1, 3.90Aufgrund der σ-Additivität von P. 3.91 Wie in den Überlegungen in Fußnote 3.20 beim Nachweis, daß die Verteilung PX einer einzelnen Zufallsvariable X ein Wahrscheinlichkeitsmaß ist, kann gezeigt werden, daß die Eigenschaften (2.2) für PX1 ,...,Xn gelten. 3.92Zumindest für eine endliche Menge diskreter Zufallsvariablen X , . . . , X wird hier die n 1 gemeinsame Verteilung PX1 ,...,Xn definiert. In (3.7) wird diese gemeinsame Verteilung nur charakterisiert. Vgl. hierzu Fußnote 3.78. 3.93Vgl. (3.8). 3.94Insbesondere wird nun auch mit dem in Beispiel 2.8 betrachteten Wahrscheinlichkeitsraum (Ω, F, P), wobei Ω = {0, 1}N , F = Pot(Ω) und P durch (2.4) definiert ist, gearbeitet. 3.95Z beschreibt die Anzahl der Würfe von Zahl“, während T den Zeitpunkt des ersten ” Wurfs von Zahl“ modelliert. ” 3.96Nach (3.9) und (3.10) ist die gemeinsame Verteilung von Z und T durch diese Größen eindeutig bestimmt. 3.97Hier wird nach der Wahrscheinlichkeit für N Würfe von Kopf“ gefragt. ” 3.98 Wenn Z = 0 ist, so kann nicht T ≤ N sein. 3.99 Wenn Z > 0 ist, so ist T ≤ N . 3.100 Wenn T = n, können in den nachfolgenden Zeitpunkten n, n+1, . . . , N höchstens N −n+1 Würfe von Zahl“ auftreten. ” 18. April 2016 55 • ωl = 1 für genau k − 1 verschiedene l ∈ {n + 1, . . . , N }. −n Es gibt 3.101 Nk−1 derartige ω ∈ Ω, wobei jedes die Wahrscheinlichkeit pk (1−p)N −k besitzt. Somit ist N −n k (3.13) P[Z = k, T = n] = p (1 − p)N −k , k−1 n = 1, . . . , N, k = 1, . . . , N − n + 1. Durch (3.12) - (3.13) ist die gemeinsame Verteilung der Zufallsvariablen Z und T bestimmt 3.102. 3.2.2. Unabhängige Zufallsvariablen mit einer Dichte. Für ein N ∈ N seien X1 , . . . , XN unabhängige 3.103, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Für k = 1, . . . , N habe die Verteilung PXk von Xk die Dichte 3.104 fk bzgl. des Lebesguemaßes auf (R, B(R)). Dann hat die gemeinsame Verteilung PX1 ,...,XN von X1 , . . . , XN die Dichte Q N N R ∋ (y1 , . . . , yN ) → N k=1 fk (yk ) ∈ [0, ∞) bzgl. des Lebesguemaßes auf (R , 3.105 3.106 N B(R )) . Zur Begründung dieser Behauptung beachte man, daß (3.14) P[(X1 , . . . , XN ) ∈ A1 × · · · × AN ] = = 3.108 = 3.110 = 3.111 3.107 P[X1 ∈ A1 , . . . , XN ∈ AN ] P[X1 ∈ A1 ] · · · P[XN ∈ AN ] = 3.109 PX1 [A1 ] · · · PXn [An ] Z Z dy1 f1 (y1 ) · · · dyN fN (yN ) A AN Z 1 dy1 · · · dyN f1 (y1 ) · · · fN (yN ), A1 , . . . , AN ∈ B(R). A1 ×···×AN Da in einem weiteren Schritt gefolgert werden kann 3.112, daß (3.14) nicht nur für Rechtecke“ A1 × · · · × AN = {y = (y1 , . . . , yN ) ∈ RN : y1 ∈ A1 , . . . , yN ∈ AN } ∈ ” N B(R ), sondern für beliebige A ∈ B(RN ) gilt, ist die Behauptung bewiesen. 3.101Die Anzahl dieser ω’s ist gleich der Anzahl der Möglichkeiten aus einer Menge mit N − n Elementen eine Teilmenge mit k−1 Elementen auszuwählen, vgl. Abschnitt 5.1, insbesondere (5.4). 3.102Zur Kontrolle der obigen Ausführungen kann nachgewiesen werden, daß die in (3.12) (3.13) berechneten Koeffizienten νk,n = P[Z = k, T = n], k = 0, 1, . . . , N , n = 1, . . . , N + 1, in der Tat in Übereinstimmung mit den Überlegungen zu (3.9) und (3.10) ein Wahrscheinlichkeitsmaß auf {0, 1, . . . , N } × {1, . . . , N + 1} beschreiben. Offensichtlich ist νk,n ≥ 0, k = 0, 1, . . . , N , n = P PN+1 1, . . . , N + 1. Weiterhin zeigt sich, daß N k=0 n=1 νk,n = 1. 3.103Vgl. (3.8). 3.104Für alle k = 1, . . . , N sei P Xk ein Wahrscheinlichkeitsmaß auf (R, B(R)) mit der Dichte fk , vgl. Abschnitt 2.6. 3.105Somit hat die gemeinsame Verteilung endlich vieler, unabhängiger Zufallsvariablen mit einer Dichte ebenfalls eine Dichte. Jene gemeinsame Dichte ist das Produkt der einzelnen Dichten. 3.106Wenn zwei reellwertige Zufallsvariablen X und Y zwar Dichten f bzw. g besitzen, jedoch nicht unabhängig sind, braucht keine Dichte für ihre gemeinsame Verteilung PX,Y zu existieren. Ist beispielsweise X = Y , so konzentriert sich PX,Y auf die Diagonale D = {(x, y) ∈ R2 : x = y}. R Da D dx dy ψ(x, y) = 0 für alle meßbaren ψ : (R2 , B(R2 )) → ([0, ∞), B([0, ∞))), kann PX,Y keine Dichte besitzen. 3.107Hier wird nur die Schreibweise geändert. 3.108Da die Zufallsvariablen X , . . . , X unabhängig sind, vgl. (3.8). 1 N 3.109 Vgl. (3.3). 3.110 Da für k = 1, . . . , N die Verteilung PXk der Zufallsvariable Xk die Dichte fk besitzt. 3.111 Die Darstellung eines Produkts eindimensionaler Integrale als ein mehrdimensionales Integral kann mit dem Satz von Fubini, vgl. [3], Appendix A.6, Theorem (6.2), begründet werden. 3.112 Hierzu kann Satz (1.12) in [5] benutzt werden. 18. April 2016 56 Beispiel 3.8 (Unabhängige, normalverteilte Zufallsvariablen). Seien X1 , . . . , XN unabhängige, normalverteilte Zufallsvariablen mit den Dichten 3.113 (x − µk )2 1 , x ∈ R, k = 1, . . . , N, exp − fk (x) = p 2σk2 2πσk2 2 wobei µ1 , . . . , µN ∈ R und σ12 , . . . , σN > 0. Um die Dichte f : RN → [0, ∞) der gemeinsamen Verteilung PX1 ,...,XN von X1 , . . . , XN mit f (x) = f (x1 , . . . , xN ) = N Y fk (xk ) k=1 = N Y k=1 (xk − µk )2 1 p , exp − 2σk2 2πσk2 x = (x1 , . . . , xN ) ∈ RN , in einer kompakten“ Form darstellen zu können, wird der Vektor µ = (µ1 , . . . , µN ) ” ∈ RN und die N × N -Matrix σ 2 = (σk2 δk,l )k,l=1,...,N 3.114 eingeführt. Nun ist die Dichte f von PX1 ,...,XN darstellbar in der Form 3.115 3.116 (3.15) N 1 1X 2 −1 f (x) = q exp − (x − µ )(σ ) (x − µ ) k k k k k Q 2 2 k=1 (2π)N N k=1 σk 1 1 exp − (x − µ)(σ 2 )−1 (x − µ)T , x ∈ RN , = p 2 (2π)N det(σ 2 ) d.h., die Zufallsvariablen X1 , . . . , XN sind gemeinsam normalverteilt mit Erwartungswert µ und Kovarianzmatrix σ 2 3.117. Man schreibt PX1 ,...,XN = N(µ, σ 2 ). 3.2.3. Unabhängigkeit von Ereignissen. 3.118 Mit (Ω, F, P) sei ein Wahrscheinlichkeitsraum und mit Aλ , λ ∈ Λ, eine Menge von Ereignissen gegeben. Diese 3.113Vgl. Abschnitt 2.6. 3.114 δk,l = ( 1, 0, falls k = l, falls k 6= l, ist das Kronecker-Symbol. Somit ist σ 2 eine Diagonalmatrix, deren Diagonalelemente durch die Varianzen σk2 , k = 1, . . . , N , der Zufallsvariablen X1 , . . . , XN gegeben sind. QN 3.115Da (σ 2 )−1 = ((σ2 )−1 δ ) 2 2 k,l k,l=1,...,N und weil det(σ ) = k=1 σk . k 3.116 N N x − µ wird als Zeilenvektor in R betrachtet. Zu y ∈ R bezeichnet y T den zu y transponierten Vektor. Für einen Zeilenvektor y ist insbesondere y T der entsprechende Spaltenvektor. 3.117Wenn eine allgemeine N -dimensionale Normalverteilung eine Dichte f besitzt, so hat diese die Gestalt 1 1 exp − (x − ν)(A)−1 (x − ν)T , x ∈ RN , (∗) f (x) = fν,A (x) = p N 2 (2π) det(A) wobei ν ∈ RN der Erwartungswert und A die Kovarianzmatrix ist. A ist eine positiv-definite, symmetrische N × N -Matrix. Es gibt zu jedem ν ∈ RN und jeder positiv-semidefiniten, symmetrischen N × N -Matrix A eine Normalverteilung N(ν, A) auf RN mit dem Erwartungswert ν und der Kovarianzmatrix A. Diese besitzt genau dann eine Dichte fν,A : RN → [0, ∞), wenn A positiv-definit ist. fν,A ist in diesem Fall durch (∗) gegeben. Wenn eine Normalverteilung im RN eine nur positiv-semidefinite, nicht aber positiv-definite Kovarianzmatrix besitzt, ist sie auf einer niederdimensionalen, linearen Untermannigfaltigkeit des RN konzentriert“ und besitzt somit keine Dichte. ”3.118 Die Unabhängigkeit von Ereignissen, mit der auf eine formale Weise schon mehrfach gearbeitet wurde, z.B. in den Fußnoten 1.31 und 2.39, ist ein Spezialfall der Unabhängigkeit von Zufallsvariablen, vgl. (3.8). 18. April 2016 57 heißen unabhängig, wenn 3.119 # " Y \ (3.16) P P[Aλ ], Aλ = λ∈∆ λ∈∆ ∆ ⊆ Λ, |∆| < ∞. Wenn Ereignisse A und B unabhängig sind, so sind auch A und Ω \ B, bzw. Ω \ A und B, bzw. Ω \ A und Ω \ B unabhängig 3.120. Daher folgt insbesondere, daß die Unabhängigkeit der Ereignisse Aλ , λ ∈ Λ, gleichbedeutend mit der Unabhängigkeit der ({0, 1}, Pot({0, 1}))-wertigen Zufallsvariablen 3.121 IAλ , λ ∈ Λ, ist. Beispiel 3.9 (Paarweise Unabhängigkeit von Ereignissen). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum. Ereignisse A1 , A2 , . . . ∈ F sind paarweise (stochastisch) unabhängig, wenn (3.17) P[Ak1 ∩ Ak2 ] = P[Ak1 ] · P[Ak2 ], 1 ≤ k1 < k2 < ∞. Offensichtlich impliziert die Unabhängigkeit von Ereignissen ihre paarweise Unabhängigkeit. Wie nun gezeigt wird, gilt der umgekehrte Schluß nicht 3.122. Wir betrachten den 2-fachen, unabhängigen Wurf einer fairen Münze, d.h., wir arbeiten mit dem Wahrscheinlichkeitsraum (Ω, F, P) mit 3.123 Ω = {0, 1}2 , 1 P[{ω}] = , 4 F = Pot(Ω), ω ∈ Ω. Für die Ereignisse A= 3.124 B= 3.125 C= 3.126 {(1, 0), (1, 1)}, {(0, 1), (1, 1)}, {(0, 0), (1, 1)} 3.119T λ∈∆ Aλ , Aλ1 und . . . und Aλm , falls ∆ = {λ1 , . . . , λm }. Die Faktorisierungseigenschaft (3.16) muß für alle endlichen Teilmengen ∆ der beliebigen Menge Λ gelten. 3.120Beispielsweise gilt P[A ∩ (Ω \ B) ] = P[A] − P[A ∩ B] (Additivität von P) {z } | {z } | = A \ (A ∩ B) = P[A] · P[B] (Unabhängigkeit von A und B) = P[A](1 − P[B]). | {z } = P[Ω \ B] 3.121Für A ⊆ Ω bezeichnet I mit A IA (ω) = ( 1, 0, ω ∈ A, ω ∈ Ω \ A, die Indikatorfunktion von A. Die Äquivalenz der Unabhängigkeit der Ereignisse Aλ , λ ∈ Λ, und der Unabhängigkeit der Zufallsvariablen IAλ , λ ∈ Λ, folgt aus Beziehungen wie z.B. P[A ∩ B] = P[IA = 1, IB = 1] oder P[A ∩ (Ω \ B)] = P[IA = 1, IB = 0]. 3.122Beachte, daß die Ereignisse A , A , . . . unabhängig sind, wenn die in (3.17) beschriebene 1 2 Faktorisierungseigenschaft nicht nur für zwei sondern für jeweils endlich viele A... ’s gilt, vgl. (3.16). 3.123Vgl. Beispiel 2.7. 18. April 2016 58 gilt (3.18a) (3.18b) (3.18c) (3.18d) (3.18e) P[A] = P[B] = P[C] = 1 4 1 P[A ∩ C] = P[{(1, 1)}] = 4 1 P[B ∩ C] = P[{(1, 1)}] = 4 1 P[A ∩ B ∩ C] = P[{(1, 1)}] = 4 P[A ∩ B] = P[{(1, 1)}] = 1 , 2 = P[A] · P[B], = P[A] · P[C], = P[B] · P[C], 6= 1 = P[A] · P[B] · P[C]. 8 Die Beziehungen (3.18b) - (3.18d) zeigen, daß die Ereignisse A, B und C paarweise unabhängig sind. Aufgrund von (3.18e) sind sie allerdings nicht unabhängig. Die Unabhängigkeit zweier Ereignisse bedeutet nicht, daß sie nichts miteinan” der zu tun haben“. So sind wegen (3.18c) die Ereignisse A und C zwar unabhängig, allerdings kann, wenn bekannt ist, daß A geschieht, das Ereignis C nur eintreten, wenn der zweite Wurf Zahl“ , 1 ergibt 3.127. ” 3.2.4. Verteilung von Summen unabhängiger Zufallsvariablen. 3.128 Für unabhängige, reellwertige Zufallsvariablen X und Y ist die Verteilung der Summe X + Y zu bestimmen 3.129. Zur Vereinfachung der Berechnungen werden im folgenden zwei Spezialfälle betrachtet, wobei sowohl X als auch Y Zufallsvariablen mit Werten in Z 3.130, bzw. Zufallsvariablen mit einer Dichte bzgl. des Lebesguemaßes auf R sind. Falls die unabhängigen Zufallsvariablen X und Y Werte in Z annehmen, gilt: "•∞ # [ 3.131 P[X + Y = m] = P (3.19) {X = n, Y = m − n} n=−∞ = = ∞ X 3.132 3.133 n=−∞ ∞ X n=−∞ P[X = n, Y = m − n] P[X = n]P[Y = m − n], m ∈ Z. 3.124A beschreibt das Ereignis, daß der erste Wurf Zahl“ , 1 ergibt. ” B beschreibt das Ereignis, daß der zweite Wurf Zahl“ ergibt. ” C beschreibt das Ereignis, daß die Ergebnisse der beiden Würfe übereinstimmen. 3.127Von einem intuitiven Standpunkt aus sind zwei Ereignisse D und E stochastisch unabhängig, wenn das Wissen über das Eintreten von D (bzw. E) die Wahrscheinlichkeit für das Eintreten von E (bzw. D) nicht ändert. Mathematisch rigoros bedeutet dies, daß 3.125 3.126 P[E|D] = P[E] (bzw. P[D|E] = P[D]), wobei P[E|D] die bedingte Wahrscheinlichkeit des Ereignisses E unter der Bedingung D bezeichnet, vgl. Abschnitt 8.1. 3.128 In vielen Anwendungen ist eine zufällige Beobachtungsgröße, d.h. eine reellwertige Zufallsvariable X, eine Summe von mehreren unabhängigen, kleineren Beiträgen X1 , . . . , Xn . Oft treten diese nicht als individuelle Größen, sondern nur als Bestandteil von X in Erscheinung. Beispielsweise kann X ein Gesamtertrag (eine Gesamtwartezeit) sein, der (die) als Summe X = X1 + · · · + Xn einzelner Erträge (Wartezeiten) darstellbar ist. In diesem Abschnitt 3.2.4 soll geklärt werden, wie aus den Verteilungen von X1 , . . . , Xn die Verteilung von X berechnet werden kann. 3.129Die Verteilung beliebiger endlicher Summen unabhängiger, reellwertiger Zufallsvariablen kann anschließend mit einem Iterationsverfahren bestimmt werden. 3.130Somit sind in diesem Fall X und Y diskrete Zufallsvariablen. 18. April 2016 59 Die Faltung p ∗ q zweier reellwertiger Sequenzen p = (pn )n∈Z und q = (qn )n∈Z ist durch (p ∗ q)m := (3.20) = ∞ X pn qm−n n=−∞ 3.134 ∞ X pm−l ql = 3.135 l=−∞ (q ∗ p)m , m ∈ Z, definiert. Daher zeigt (3.19), daß die Verteilung PX+Y der Summe zweier unabhängiger, Z-wertiger Zufallsvariablen X und Y die Faltung von PX und PY ist. Beispiel 3.10. Wenn Folgen führt (3.20) zu (p ∗ q)m = (3.21) ∞ X n=−∞ 3.136 p = (pn )n∈N0 und q = (qn )n∈N0 gefaltet werden, pn qm−n IN0 (n)IN0 (m − n) = m X pn qm−n , n=0 m ∈ N0 . Für die Verteilung der Summe X + Y zweier unabhängiger, geometrisch 3.137 mit Parameter p ∈ (0, 1) verteilter Zufallsvariablen X und Y ergibt sich daher insbesondere P[X + Y = m] = 3.138 m X n=0 P[X = n] P[Y = m − n] | {z } = 3.139 (1 − p)n p = (m + 1) p2 (1 − p)m , | {z } m+1 = m m ∈ N0 . Somit ist die Verteilung von X + Y eine negative Binomialverteilung Parametern r = 2 und p. 3.140 mit den Falls die Verteilungen unabhängiger, reellwertiger Zufallsvariablen X und Y Dichten f , bzw. g bzgl. des Lebesguemaßes besitzen, so ist Z ∞ Z ∞ P[X + Y ≤ z] = 3.141 dx (3.22) dy I(−∞,z] (x + y)f (x)g(y) −∞ −∞ Z z Z ∞ = 3.142 du dv f (v)g(u − v) −∞ −∞ Z z = du (f ∗ g)(u), z ∈ R, −∞ •∞ 3.131S n=−∞ {X = n, Y = m − n} ist eine disjunkte Zerlegung des Ereignisses {X + Y = m}. Wegen der σ-Additivität von P. 3.133 Da X und Y unabhängig sind. 3.134Mit der Substitution l = m − n. 3.135 Die Faltung ist somit kommutativ, d.h., p ∗ q = q ∗ p. 3.136Durch solche Folgen sind z.B. die Verteilungen N -wertiger Zufallsvariablen bestimmt. 0 3.137Hier ist die in Fußnote 2.38 beschriebene Variante der geometrischen Verteilung gemeint. 3.138Vgl. (3.19) und (3.21). 3.139Vgl. Fußnote 2.38. 3.140Vgl. Abschnitt 2.2. 3.132 18. April 2016 60 wobei (3.23) (f ∗ g)(u) = Z ∞ −∞ dv f (v)g(u − v) = (g ∗ f )(u), u ∈ R, die Faltung der Wahrscheinlichkeitsdichten f und g bezeichnet. Aus (3.22) und (3.23) kann geschlossen werden, daß die Summe X + Y zweier unabhängiger, reellwertiger Zufallsvariablen X und Y mit Dichten f , bzw. g ebenfalls eine Dichte besitzt, nämlich f ∗ g 3.143 3.144 3.145. Beispiel 3.11. Die Zufallsvariablen X1 und X2 seien unabhängig mit den Verteilungen 3.146 N(µi , σi2 ), i = 1, 2. Dann besitzt X1 + X2 die Verteilung N(µ1 + µ2 , σ12 + σ22 ) 3.147. 3.2.5. Gleichheitsbegriffe für Zufallsvariablen. 3.148 In diesem Abschnitt werden zwei verschiedene Gleichheitsbegriffe für Zufallsvariablen vorgestellt. 3.141Da die gemeinsame Verteilung von X und Y die Dichte R2 ∋ (x, y) → f (x)·g(y) ∈ [0, ∞) hat, vgl. Abschnitt 3.2.2. 3.142 Mit der Substitution x = v, y = u − v. An dieser Stelle kann der Transformationssatz für höherdimensionale Integrale angewandt werden. Für einen Diffeomorphismus φ : Rd → Rd und eine integrable Funktion h : Rd → R besagt dieses Resultat, daß Z Z dw | det Dφ(w)|h(φ(w)), dz h(z) = Rd Rd wobei Dφ(·) die Jacobi-Matrix von φ ist. 3.143In (3.22) wird die Verteilungsfunktion F X+Y der Zufallsvariable X + Y berechnet. Allgemein ist die Verteilungsfunktion FZ : R → [0, 1] einer reellwertigen Zufallsvariable Z durch FZ (ζ) = P[Z ≤ ζ] = PZ [(−∞, ζ]], ζ ∈ R, definiert, vgl. Abschnitt 3.3. Durch FZ ist die Verteilung PZ von Z eindeutig bestimmt. 3.144 Die in (3.20), (3.21) oder (3.23) beschriebenen Faltungen sind Spezialfälle der Faltung von Wahrscheinlichkeitsmaßen auf R, die durch Z P(dx)Q[A − x], A ∈ B(R), P, Q Wahrscheinlichkeitsmaße auf (R, B(R)), (P ∗ Q)[A] = R mit A − x = {y ∈ R : y = a − x für ein a ∈ A} definiert ist. Allgemein ist die Verteilung PX+Y einer Summe X + Y unabhängiger, reellwertiger Zufallsvariablen X und Y mit den Verteilungen PX , bzw. PY durch deren Faltung gegeben, d.h., PX+Y = PX ∗ PY . 3.145 Die Berechnung von Faltungen wie in (3.20), (3.21), (3.23) oder auch im allgemeinen, in Fußnote 3.144 betrachteten Fall kann wesentlich vereinfacht werden, wenn erzeugende bzw. charakteristische Funktionen verwendet werden. Insbesondere ist die charakteristische Funktion ψZ : R → C einer reellwertigen Zufallsvariable Z durch ψZ (λ) = E[exp(iλZ)], λ ∈ R, definiert. Durch ψZ ist die Verteilung PZ von Z eindeutig bestimmt. Für unabhängige Zufallsvariablen X und Y gilt außerdem die Faktorisierungseigenschaft ψX+Y (λ) = ψX (λ) · ψY (λ), λ ∈ R, vgl. (9.3). Somit brauchen in einem solchen Fall zur Identifizierung der Verteilung PX+Y von X + Y nur die charakteristischen Funktionen ψX und ψY multipliziert werden. 3.146N(µ, σ2 ) ist die Normalverteilung mit Erwartungswert µ ∈ R und Varianz σ2 > 0, vgl. Abschnitt 2.6. 3.147Ein Beweis dieser Aussage mit der Berechnung eines Integrals wie in (3.23) findet sich in [10], Satz 11.9. Wenn allerdings charakteristische Funktionen, vgl. Fußnote 3.145, benutzt werden, wird die Folgerung dieses Beispiels 3.11 trivial“. Da als Folge von (9.5) und (9.6) eine Zufallsvariable Z mit ” PZ = N(µ, σ2 ) die charakteristische Funktion ψZ (λ) = exp(iλµ − λ2 σ2 /2), λ ∈ R, besitzt, folgt mit der Unabhängigkeit von X1 und X2 und (9.3) die Beziehung ψX1 +X2 (λ) = ψX1 (λ)ψX2 (λ) = exp(iλ(µ1 + µ2 ) − λ2 (σ12 + σ22 )/2), λ ∈ R, d.h., PX1 +X2 = N(µ1 + µ2 , σ12 + σ22 ). 3.148 Die Zufallsvariablen Tk , k = 1, 2, . . . , in Beispiel 3.6 sind identisch verteilt, d.h., sie besitzen die gleiche Verteilung und sind daher in einem speziellen Sinn gleich“. Andererseits sind ” sie zumindest für p > 0 natürlich unterschiedliche Zufallsvariablen. Nur für p = 0 gilt Tk = T1 für alle k ∈ N. Somit gibt es verschiedene Möglichkeiten, die Gleichheit zwischen zwei Zufallsvariablen zu definieren. 18. April 2016 61 Gleichheit in Verteilung. Seien X : (Ω, F, P) → (Ω′ , F′ ) und Y : (Ω1 , F1 , P1 ) → (Ω′ , F′ ) Zufallsvariablen 3.149. Wenn X und Y die gleiche Verteilung besitzen, d.h., wenn 3.150 PX = PY , bzw. PX [A′ ] = P[X ∈ A′ ] = 3.151 P1 [Y ∈ A′ ] = PY [A′ ], A′ ∈ F′ , so bezeichnet man X und Y als gleich in Verteilung oder identisch verteilt. Man schreibt 3.152 L d X = Y oder X = Y. Fast-sichere Gleichheit. Seien X, Y : (Ω, F, P) → (Ω′ , F′ ) Zufallsvariablen 3.153. Man bezeichnet X und Y als fast-sicher gleich und schreibt X = Y, f.s., wenn 3.154 3.155 P[X = Y ] = P[{ω ∈ Ω : X(ω) = Y (ω)}] = 1. Zwei Zufallsvariablen, die auf dem gleichen Wahrscheinlichkeitsraum definiert sind und fast-sicher gleich sind, werden üblicherweise miteinander identifiziert, d.h. als identisch betrachtet. d Bemerkungen 3.12. (i) Wenn X = Y , f.s., so folgt X = Y . Wenn umgekehrt d X = Y , so braucht X = Y , f.s., nicht zu gelten 3.156. (ii) Die unterschiedlichen Gleichheitsbegriffe deuten an, daß es auch verschiedene Konvergenzbegriffe für Zufallsvariablen gibt 3.157. 3.3. Verteilungsfunktionen reellwertiger Zufallsvariablen Die Verteilung 3.158 einer Zufallsvariable X : (Ω, F, P) → (R, B(R)) ist eindeutig bestimmt durch die Größen 3.159 PX [A′ ] = P[X ∈ A′ ], A′ ⊆ R, A′ Intervall 3.160 . Insbesondere ist es ausreichend, die Einschränkung des Wahrscheinlichkeitsmaßes PX auf die Intervalle (−∞, y], y ∈ R, zu betrachten. 3.149Die Definitionsbereiche (Ω, F, P), bzw. (Ω , F , P ) der Zufallsvariablen X und Y 1 1 1 können verschieden sein. Allerdings besitzen X und Y den gleichen Wertebereich (Ω′ , F′ ). 3.150Die Verteilung P einer Zufallsvariable X wird in (3.3) definiert. X 3.151Es ist hier zu beachten, daß die Zufallsvariable Y eine Funktion auf dem Wahrscheinlichkeitsraum (Ω1 , F1 , P1 ) ist. L d 3.152Die Notationen = und = erinnern an die englischen Bezeichnungen law und distribution für Verteilung. 3.153Nun sind X und Y auf dem gleichen Wahrscheinlichkeitsraum (Ω, F, P) definiert. 3.154Die Menge A = {ω ∈ Ω : X(ω) 6= Y (ω)} braucht nicht leer zu sein. Allerdings muß P[A] = 0 sein, wenn X = Y , f.s. 3.155 Auf eine analoge Weise ist die Bedeutung von Ausdrücken wie X 6= Y , f.s., oder X ≤ Y , f.s., definiert. 3.156Diese Aussage kann z.B. mit Hilfe der Zufallsvariablen T , k = 1, 2, . . . , in Beispiel 3.6 k im Fall p > 0 begründet werden. Wenn X und Y auf verschiedenen Wahrscheinlichkeitsräumen definiert sind, so macht es sowieso überhaupt keinen Sinn zu fragen, ob X = Y , f.s. 3.157 Beim schwachen Gesetz der großen Zahlen, beim starken Gesetz der großen Zahlen und beim Zentralen Grenzwertsatz, drei Hauptresultaten der Wahrscheinlichkeitstheorie, werden in der Tat die unterschiedlichen Konvergenzbegriffe der stochastischen Konvergenz, der fast-sicheren Konvergenz, bzw. der Konvergenz in Verteilung verwendet, vgl. Beispiel 1.7 und 1.8 und insbesondere Satz 7.1, Bemerkung 7.2 und Satz 9.3. Die genannten drei Konvergenzbegriffe werden in Abschnitt 6.8 gegenübergestellt. 3.158 Vgl. (3.3). 3.159Vgl. [5], Satz (1.12). Man beachte, daß die Menge der offenen (oder abgeschlossenen oder . . . ) Intervalle durchschnittsstabil ist. 3.160Es reicht, offene, bzw. abgeschlossene, bzw. halboffene Intervalle zu betrachten. 18. April 2016 62 Dementsprechend führt man zur eindeutigen Charakterisierung der Verteilung einer (R, B(R))-wertigen Zufallsvariable X deren Verteilungsfunktion FX : R → [0, 1] mit (3.24) FX (y) = PX [(−∞, y]] = P[X ≤ y], y ∈ R, ein. 3.3.1. Eigenschaften von Verteilungsfunktionen. Die Verteilungsfunktion FX einer reellwertigen Zufallsvariable X zeichnet sich durch die folgenden Eigenschaften aus: (i) Es gilt (3.25) PX [(a, b]] = 3.161 = 3.162 P[X ∈ (a, b]] P[X ≤ b] − P[X ≤ a] = FX (b) − FX (a), (ii) FX ist monoton wachsend, d.h., 3.163 FX (a) ≤ FX (b), (3.26) −∞ < a < b < ∞. −∞ < a < b < ∞. (iii) Das Verhalten der Funktion FX an den Rändern ihres Definitionsbereichs R wird durch 3.164 (3.27) lim FX (y) = 0, y→−∞ beschrieben. (iv) FX ist rechtsstetig, d.h., 3.165 lim FX (y) (3.28) yցy0 lim FX (y) = 1 y→∞ 3.166 = FX (y0 ), (v) FX besitzt linksseitige Grenzwerte, d.h., (3.29) lim FX (y) 3.168 yրy0 y0 ∈ R. 3.167 − (y0 ), = P[X < y0 ] =: FX y0 ∈ R. Es gilt: (3.30) FX (y0 ) − − FX (y0 ) ≤ FX (y0 ), − FX (y0 ) y0 ∈ R, = P[X = y0 ] = PX [{y0 }], y0 ∈ R. Somit ist FX in y0 ∈ R genau dann stetig, wenn y0 kein Atom 3.169 von PX ist 3.170. 3.161Es werden hier spezielle, halboffene Intervalle betrachtet. 3.162Da sich aus der Additivität von P, vgl. (2.9), P[X ≤ a] + P[X ∈ (a, b]] = P[X ≤ b] ergibt. 3.163Zur Begründung beachte man, daß die linke Seite von (3.25) immer ≥ 0 ist. 3.164Die Eigenschaften (3.27), (3.28) und (3.29) von Verteilungsfunktionen können aus gewissen Stetigkeitseigenschaften von Wahrscheinlichkeitsmaßen abgeleitet werden, vgl. [5], Satz (1.11)(e). 3.165Vgl. Fußnote 3.164. 3.166Mit lim yցy0 . . .“ wird der Grenzwert bei monoton gegen y0 fallenden y beschrieben. 3.167Vgl. ”Fußnote 3.164. 3.168Mit lim yրy0 . . .“ wird der Grenzwert bei monoton gegen y0 steigenden y beschrieben. 3.169Der ” Begriff Atom wird in Bemerkung 2.10(ii) eingeführt. 3.170M.a.W., F hat genau in den Atomen von P Sprungstellen. Die Wahrscheinlichkeit X X PX [{a}] gibt für ein Atom a von PX die Größe des Sprungs von FX an der Stelle a an. 18. April 2016 63 (vi) Besitzt PX eine stetige Dichte folgt (3.31) 3.171 FX (y) = PX [(−∞, y]] = Z f bzgl. des Lebesguemaßes auf R, so y dx f (x), −∞ y ∈ R, ′ d.h., 3.172 f = FX . Wenn umgekehrt FX eine stetige Ableitung f besitzt, so hat FX die Darstellung (3.31) und folglich PX die Dichte f bzgl. des Lebesguemaßes 3.173 3.174. 3.3.2. Beispiele für Verteilungsfunktionen. Die Struktur und die Anwendungsmöglichkeiten von Verteilungsfunktionen reellwertiger Zufallsvariablen werden in diesem Abschnitt 3.3.2 anhand einiger Beispiele erläutert. Beispiel 3.13. Sei X eine in [a, b] gleichverteilte Zufallsvariable 3.175. PX besitzt somit die Dichte f (y) = (b − a)−1 I[a,b] (y), y ∈ R. In diesem Fall ist FX (y) = 3.176 PX (−∞, y] 0, y < a, Z y y − a , y ∈ [a, b), = 3.177 dz f (z) = 3.178 b−a −∞ 1, y ≥ b. Beispiel 3.14. SeiP A eine höchstens abzählbare Teilmenge von R und seien pa ∈ (0, 1], a ∈ A, mit a∈A pa = 1. Sei außerdem X eine A-wertige Zufallsvariable mit 3.179 3.180 (3.32) P[X = a] = 3.181 PX [{a}] = 3.182 pa , a ∈ A. 3.171Vgl. Abschnitt 2.6. 3.172Nach dem Hauptsatz der Differential- und Integralrechnung. 3.173Man beachte, daß f = F ′ ≥ 0 wegen der Monotonie von F , vgl. (3.26), und daß X X Z ∞ −∞ dx f (x) = lim y→∞ Z y dx f (x) = lim FX (y) = 1, −∞ y→∞ ′ eine Wahrscheinlichkeitsdichte. vgl. (3.27). Somit ist in der Tat f = FX 3.174 Die Verteilungsfunktion FX ist immer stetig, wenn PX eine Dichte bzgl. des Lebesguemaßes auf R hat. Umgekehrt gibt es allerdings auch Zufallsvariablen X mit einer stetigen Verteilungsfunktion FX , deren Verteilung PX weder eine Dichte besitzt noch diskret ist. In solchen Fällen ist FX nicht absolutstetig. Allgemein besitzt die Verteilung PX einer reellwertigen Zufallsvariable X genau dann eine Dichte bzgl. des Lebesguemaßes auf R, wenn die Verteilungsfunktion FX absolutstetig ist. Hierbei heißt eine P Funktion h : R → R absolutstetig, wenn für alle K > 0 zu ε > 0 ein n δ > 0 existiert, so daß < ε für jede endliche Menge (ck , dk ), k = 1, . . . , n, k=1 |h(dk ) − h(ck )|P disjunkter, offener Intervalle in [−K, K] mit n k=1 |dk − ck | < δ. Der Hauptsatz der Differentialund Integralrechnung besagt, daß zu jeder absolutstetigen Funktion h : R → R eine Funktion R R h′ : R → R mit ab dx |h′ (x)| < ∞ und h(b) = h(a) + ab dx h′ (x), −∞ < a < b < ∞, existiert. Für weitere Informationen zu absolutstetigen Funktionen sei auf [8], § 18, verwiesen. Für eine reellwertige Zufallsvariable X mit absolutstetiger Verteilungsfunktion FX ist somit ′ die Dichte der Verteilung P FX X von X bzgl. des Lebesguemaßes. 3.175D.h., P ist die Gleichverteilung auf [a, b], vgl. Abschnitte 2.4.1 und 2.6. X 3.176Nach der Definition (3.24) der Verteilungsfunktion F einer reellwertigen ZufallsvariaX ble X. 3.177 Da PX die Dichte f besitzt. 3.178 Links von a ist FX ≡ 0, während FX ≡ 1 rechts von b. Zwischen a und b steigt FX linear an. 3.179X ist eine diskrete, reellwertige Zufallsvariable. Ihre Verteilung P ist auf der Menge X A ihrer Atome konzentriert, vgl. Bemerkung 2.10(ii). 3.180 Man könnte sich hier wie in Abschnitt 3.1.1 die Frage stellen, ob eine derartige Zufallsvariable X überhaupt existiert. Um diese Frage mit ja“ beantworten zu können, kann man ” 18. April 2016 64 Es folgt nun 3.183 : FX (y) = PX (−∞, y] X = 3.184 PX [{a}] = a∈A∩(−∞,y] X a∈A∩(−∞,y] pa , y ∈ R. Beispiel 3.15. Sei zunächst X eine reellwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P). Die Verteilung von X habe eine stetige Dichte ψ. Nun ist Z = X 2 eine positive reellwertige Zufallsvariable auf (Ω, F, P) 3.185. Es zeigt sich, daß FZ (y) = 0, y ≤ 0, FZ (y) = P[Z ≤ y] = P X 2 ∈ [0, y] Z √y √ √ = P X ∈ [− y, y] = √ dζ ψ(ζ), y > 0. − y Insbesondere besitzt auch die Verteilung PZ von Z eine Dichte, nämlich ϕ mit 0, y ≤ 0, 1 √ √ ϕ(y) = 3.186 FZ′ (y) = √ ψ(− y) + ψ( y) , y > 0. 2 y Beispiel 3.16 (Dichtetransformation 3.187). Sei X eine reellwertige Zufallsvariable, deren Verteilung eine stetige Dichte ψ hat. Weiterhin sei H : R → R stetig differenzierbar und streng monoton steigend mit H ′ (x) > 0, x ∈ R, und beispielsweise durch Modifikation der ersten in Abschnitt 3.1.1 beschriebenen Methode folgendermaßen eine solche Zufallsvariable konstruieren: Man betrachtet den diskreten WahrscheinlichkeitsP raum (A, Pot(A), P1 ), wobei P1 [A′ ] = a∈A′ pa , A′ ∈ Pot(A), und definiert X durch X(ω) = ω, ω ∈ A. 3.181Aufgrund der Definition (3.3) der Verteilung P von X. X 3.182 Dies ist eine Annahme, die in diesem Beispiel gemacht wird. 3.183 Wenn beispielsweise A = {ak : k ∈ N} mit −∞ < a1 < a2 < · · · < ∞, kann FX auch in der Form y < a1 , 0, P FX (y) = , y ∈ [am−1 , am ), m = 2, 3, . . . , p a k k≤m−1 1, y ≥ sup{ak : k ∈ N}, geschrieben werden. Eine derart übersichtliche Struktur hat die Verteilungsfunktion FX natürlich nicht für jede diskrete reellwertige Zufallsvariable X. Wenn z.B. X eine Q-wertige Zufallsvariable ist und wenn P[X = q] > 0 für alle q ∈ Q, liegen die Sprungstellen von FX dicht in R und es gibt kein nichtleeres offenes Intervall, in dem FX konstant ist. 3.184Vgl. Bemerkung 2.10(i). 3.185Die Meßbarkeitsbedingung (3.1) läßt sich für die reellwertige Funktion Z auf (Ω, F, P) leicht nachprüfen. 3.186Vgl. Abschnitt 3.3.1(vi). Die Tatsache, daß F ′ (y) für y = 0 nicht existiert, ist letztZ endlich nicht problematisch, da die Funktion FZ absolutstetig ist und daher dem Hauptsatz der Differential- und Integralrechnung genügt, vgl. Fußnote 3.174. R √ Man beachte hier, daß FZ (y) = G(A(y), B(y)), wobei G(a, b) = ab dζ ψ(ζ), A(y) = − y und √ B(y) = y für a, b ∈ R, a < b und y > 0. Somit ist ∂ ∂ FZ′ (y) = G(a, b) G(a, b) A′ (y) + B ′ (y) a=A(y),b=B(y) a=A(y),b=B(y) ∂a ∂b 1 √ √ (−1) = − ψ(− y) √ + ψ( y) √ , y > 0. 2 y 2 y 3.187 In diesem Beispiel wird erläutert, wie die Dichte einer Zufallsvariable X transformiert wird, wenn X durch H(X) ersetzt wird, wobei H eine glatte“, evtl. nichtlineare Abbildung ist. ” 18. April 2016 65 limx→−∞ H(x) = −∞, bzw. limx→∞ H(x) = ∞. Somit besitzt die Funktion H eine streng monoton steigende und stetig differenzierbare Inverse H −1 : R → R mit 3.188 1 , x ∈ R. (3.33) (H −1 )′ (x) = ′ −1 H (H (x)) Die Verteilungsfunktion FZ der Zufallsvariable die Darstellung FZ (y) = P[H(X) ≤ y] = P[X ≤ H −1 (y)] = Z 3.189 Z = H(X) hat in diesem Fall H −1 (y) y ∈ R. dx ψ(x), −∞ Da FZ′ (y) = ψ(H −1 (y))(H −1 )′ (y) = 3.190 ψ(H −1 (y)) besitzt die Verteilung PZ von Z die Dichte ψH mit (3.34) ψH (y) = ψ(H −1 (y)) , H ′ (H −1 (y)) Für a > 0 und b ∈ R ist insbesondere (3.35) 1 H ′ (H −1 (y)) , y ∈ R, 3.191 y ∈ R. 3.192 y−b 1 , ψH (y) = ψ a a y ∈ R, die Dichte der Zufallsvariable H(X) = aX + b. Die in Abschnitt 3.3.1 aufgeführten Eigenschaften einer Verteilungsfunktion lassen sich in den in den Beispielen 3.13 - 3.16 vorgestellten Fällen leicht nachprüfen. Insbesondere ist in Beispiel 3.14 die Verteilungsfunktion FX rechtsstetig und besitzt linksseitige Grenzwerte, ist aber nicht stetig 3.193. Hingegen sind die Verteilungsfunktionen FX und FZ in den Beispielen 3.13, 3.15 und 3.16 stetig. 3.3.3. Simulation einer Folge von i.i.d. Zufallsvariablen mit einer Dichte. 3.194 Es sei mit Hilfe eines Computers eine Folge X1 , X2 , . . . von unabhängigen, reellwertigen Zufallsvariablen, die die Verteilung µ = PX1 = PX2 = . . . besitzen, zu simulieren. Hierbei sei angenommen, daß µ eine Dichte f > 0 3.188Wenn die Identität H(H −1 (x)) = x, x ∈ R, auf beiden Seiten differenziert wird, folgt H ′ (H −1 (x))(H −1 )′ (x) = 1, x ∈ R, woraus (3.33) geschlossen werden kann. 3.189Wenn X : (Ω, F, P) → (Ω′ , F ′ ) eine Zufallsvariable und ϕ : (Ω′ , F ′ ) → (Ω′′ , F ′′ ) meßbar ist, so ist auch ϕ ◦ X = ϕ(X) : (Ω, F, P) → (Ω′′ , F′′ ) eine Zufallsvariable. 3.190Wegen (3.33). 3.191Vgl. Abschnitt 3.3.1(vi). Wenn nur |H ′ (x)| = 6 0, x ∈ R, verlangt wird, ergibt sich ψH (y) = ψ(H −1 (y)) , |H ′ (H −1 (y))| y ∈ R, als Dichte der Verteilung der Zufallsvariable Z = H(X). 3.192Nun ist H(x) = ax + b, x ∈ R, bzw. H −1 (y) = (y − b)/a, y ∈ R. 3.193In jedem a ∈ A besitzt F einen Sprung der Größe p . a X 3.194Zufallsvariablen X , X , . . . , die alle die gleiche Verteilung besitzen, werden als identisch 1 2 verteilt bezeichnet. Wenn solche Zufallsvariablen auch unabhängig sind, wird die Notation i.i.d. benutzt, vgl. die Ausführungen nach (3.8). Während die Simulation von diskreten i.i.d. Zufallsvariablen in Beispiel 3.4 diskutiert wird, sollen nun die zu simulierenden Zufallsvariablen eine Dichte bzgl. des Lebesguemaßes auf R besitzen, vgl. Abschnitt 2.6. 18. April 2016 66 besitzt. Damit ist die Verteilungsfunktion 3.195 3.196 Fµ : R → (0, 1) von µ stetig und streng monoton steigend. Als Konsequenz besitzt Fµ eine stetige und streng monoton steigende Umkehrfunktion Fµ−1 : (0, 1) → R. Seien nun U1 , U2 , . . . unabhängige, (0, 1)-wertige, gleichverteilte 3.197 Zufallsvariablen. Dann sind Fµ−1 (U1 ), Fµ−1 (U2 ), . . . unabhängige, identisch verteilte Zufallsvariablen. Da (3.36) P[Fµ−1 (Uk ) ≤ y] = 3.198 = 3.199 P[Uk ≤ Fµ (y)] Z Fµ (y) dx = Fµ (y), 0 y ∈ R, k = 1, 2, . . . , besitzen diese Zufallsvariablen die Verteilungsfunktion Fµ und somit die Verteilung µ 3.200 3.201 3.202. Wie in Beispiel 3.4 sei jetzt x1 , x2 , . . . eine durch einen Computer erzeugte unabhängige Folge in [0, 1] gleichverteilter“ Pseudozufallszahlen. Die Überlegungen ” in (3.36) deuten an, daß durch die transformierten Zufallszahlen Fµ−1 (x1 ), Fµ−1 (x2 ), . . . unabhängige Zufallsvariablen mit der Verteilung µ simuliert werden können. Die vorgestellte Simulationsmethode wird aufgrund der Verwendung der Inversen der Verteilungsfunktion als Inversionsmethode bezeichnet 3.203. 3.195Die Verteilungsfunktion F eines Wahrscheinlichkeitsmaßes µ ist analog zur Verteiµ lungsfunktion einer Zufallsvariable zu definieren, d.h., Fµ (x) = µ[(−∞, x]], x ∈ R. Insbesondere ist unter der Verteilungsfunktion Fµ eines Wahrscheinlichkeitsmaßes µ die Verteilungsfunktion einer Zufallsvariable X mit der Verteilung R x PX = µ zu verstehen. 3.196 dy f (y) = Fµ (x) < 1, x ∈ R, vgl. Abschnitt 3.3.1(vi). Da f (y) > 0, y ∈ R, ist 0 < −∞ Die Werte 1 und 0 werden durch Fµ asymptotisch bei x → ±∞ angenommen, vgl. Abschnitt 3.3.1(iii). 3.197Die Zufallsvariablen U , U , . . . sind somit i.i.d. und in (0, 1) gleichverteilt. 1 2 3.198Da F streng monoton steigend ist. µ 3.199 Vgl. Abschnitt 3.3.1(vi). Hier wird benutzt, daß die Gleichverteilung auf (0, 1) die Dichte I(0,1) (.) hat. 3.200Da die Verteilung einer reellwertigen Zufallsvariablen durch ihre Verteilungsfunktion eindeutig bestimmt ist. 3.201Die bisher in diesem Abschnitt 3.3.3 präsentierten Überlegungen zeigen, wie eine i.i.d. Folge von Zufallsvariablen mit einer vorgegebenen, strikt positiven Dichte mit Hilfe einer i.i.d. Folge von in (0, 1) gleichverteilten Zufallsvariablen konstruiert werden kann. 3.202 (3.36) zeigt, daß die Zufallsvariablen Fµ−1 (Uk ), k = 1, 2, . . . , die Verteilung µ und daher die Dichte f haben. Dieses Resultat kann auch mit Hilfe von Beispiel 3.16 begründet werden. Allerdings ist diese Begründung nur formal, da die in Beispiel 3.16 angegebenen Voraussetzungen nicht alle erfüllt sind. Zu dieser Begründung von (3.36) sei H = Fµ−1 und U eine in (0, 1) gleichverteilte Zufallsvariable. U hat somit die Dichte ψ = I(0,1) . Da nun H −1 = Fµ und 1 (vgl. (3.33)) (Fµ )′ (Fµ−1 (x)) 1 , x ∈ (0, 1), (da (Fµ )′ = f ) = f (Fµ−1 (x)) H ′ (x) = (Fµ−1 )′ (x) = führen (3.34), Fµ−1 (Fµ (y)) = y, y ∈ R, und Fµ (.) ∈ (0, 1) zu ψH (y) = I(0,1) (Fµ (y)) ψ(H −1 (y)) = = f (Fµ−1 (Fµ (y))) = f (y), ′ −1 H (H (y)) (Fµ−1 )′ (Fµ (y)) y ∈ R, d.h., H(U ) = Fµ−1 (U ) hat die Dichte f . 3.203Eine Diskussion dieser und anderer Verfahren zur Simulation von Zufallsvariablen findet sich in [7], Abschnitt 10.2. Dort wird insbesondere auch eine allgemeinere Form der Inversionsmethode betrachtet, mit welcher die Simulation von reellwertigen Zufallsvariablen mit beliebiger Verteilung möglich ist. Die in Beispiel 3.4 vorgestellte Methode zur Simulation diskreter, N-wertiger Zufallsvariablen ist übrigens auch eine Variante jener allgemeinen Inversionsmethode. 18. April 2016 67 3.3.4. Quantile reellwertiger Zufallsvariablen. 3.204 Sei X eine (R, B(R))wertige Zufallsvariable 3.205 und α ∈ (0, 1). Ein qα ∈ R mit 3.206 (3.37) P[X ≤ qα ] ≥ α | {z } = FX (qα ) und P[X ≥ qα ] ≥ 1 − α wird als α-Quantil von X bezeichnet 3.207. Ein 1/2-Quantil wird auch Median genannt. Ein α-Quantil qα einer Zufallsvariable X ist dadurch gekennzeichnet, daß X mit mindestens der Wahrscheinlichkeit α (1 − α) einen Wert ≤ qα (≥ qα ) annimmt 3.208. Quantile sind i. allg. nicht eindeutig. Wenn z.B. P[X ≤ a] = α′ und P[X ∈ (a, b]] = 0 für −∞ < a < b < ∞, so sind alle q ∈ [a, b] offensichtlich α′ -Quantile von X. Andererseits, wenn die Verteilungsfunktion FX von X streng monoton wachsend ist 3.209, so sind alle Quantile eindeutig bestimmt. Beispiel 3.17. Sei X eine exponentiell mit Parameter λ > 0 verteilte Zufallsvariable 3.210, d.h., 0, Z FX (y) = λ 0 y ≤ 0, y dx exp(−λx) = 1 − exp(−λy), y > 0. Da FX stetig ist und in [0, ∞) streng monoton von 0 nach 1 anwächst, ist für jedes α ∈ (0, 1) das α-Quantil qα von X eindeutig bestimmt und erfüllt α = FX (qα ) = 1 − exp(−λqα ), d.h., 1 1 1 , qα = − log(1 − α) = log λ λ 1−α α ∈ (0, 1). Beispiel 3.18. Sei X eine reellwertige Zufallsvariable und α ∈ (0, 1). Dann ist 3.211 (3.38) qf α := inf y ∈ R : P[X ≤ y] = FX (y) ≥ α 3.204 Quantile werden in der Statistik, insbesondere auch zur Bestimmung von Konfidenzintervallen benötigt, vgl. z.B. Beispiel 4.7. 3.205Wie häufig in der Wahrscheinlichkeitstheorie findet der Wahrscheinlichkeitsraum (Ω, F, P), auf dem eine Zufallsvariable X definiert ist, keine Beachtung. 3.206Wenn die Verteilung P einer Zufallsvariable X in einem α-Quantil q ein Atom besitzt, α X so ist P[X ≤ qα ] > α oder P[X ≥ qα ] > 1 − α. 3.207Auf eine analoge Weise definiert man α-Quantile von Wahrscheinlichkeitsmaßen. 3.208Ein Median wird von X mit mindestens der Wahrscheinlichkeit 1/2 unter-, bzw. überschritten. Daher kann ein Median von X auch als eine Art mittlerer Wert von X“ betrachtet ” werden. 3.209Dies ist z.B. der Fall, wenn X eine strikt positive Dichte hat. In diesem Fall ist F auch X stetig und in (3.37) gilt FX (qα ) = P[X ≤ qα ] = α und P[X ≥ qα ] = 1 − α für alle α ∈ (0, 1). 3.210Vgl. Abschnitt 2.6. 3.211Wenn die Rechtsstetigkeit von F berücksichtigt wird, wird deutlich, daß q f α die kleinste X Stelle ist, an der FX den Wert α erreicht oder überschreitet, d.h., es gilt FX (f qα ) ≥ α und FX (y) < α für alle y < qf α , vgl. Fußnote 3.212. 18. April 2016 68 das kleinste α-Quantil von X 3.212 3.213 . Beispiel 3.19 (∗) (Quantile einer diskreten Gleichverteilung 3.214). Für L ∈ Z und M ∈ N sei PL,M die Gleichverteilung auf {L, L + 1, . . . , L + M } 3.215. Zur Bestimmung der α-Quantile von PL,M reicht es, den Fall L = 0 zu behandeln, denn qα ist genau dann ein α-Quantil von P0,M auf {0, 1, . . . , M }, wenn qα + L ein α-Quantil von PL,M auf {L, L + 1, . . . , L + M } ist 3.216. Zunächst ist 0, x < 0, (3.39) P0,M (−∞, x] = k/(M + 1), x ∈ [k − 1, k), k = 1, 2, . . . , M, 1, x ≥ M, und 1, x ≤ 0, (3.40) P0,M [x, ∞) = (M +1−k)/(M +1), x ∈ (k − 1, k], k = 1, 2, . . . , M, 0, x > M. Bei der Bestimmung der α-Quantile qα , α ∈ (0, 1), von P0,M muß im folgenden unterschieden werden, ob α ein Vielfaches von 1/(M + 1) ist oder nicht. (a) Sei α = m/(M + 1) für ein m = 1, . . . , M . In dieser Situation gilt (3.41a) P0,M (−∞, q] ≥ α ⇐⇒ 3.217 q ≥ m − 1 und M +1−m P0,M [q, ∞) ≥ 1 − α = M +1 (3.41b) ⇐⇒ 3.218 q ≤ m. 3.212Zur Begründung betrachte man zunächst y > y > · · · > qf mit lim f α n→∞ yn = q α. 1 2 Dann gilt: (∗1 ) P[X ≤ qf α] | {z } = FX (f qα ) = lim FX (yn ) (da FX rechtsstetig ist, vgl. Abschnitt 3.3.1(iv)) n→∞ | {z } = P[X ≤ yn ] ≥ α ≥ α. (da yn > qf α und weil FX monoton steigend ist, vgl. Abschnitt 3.3.1(ii)) Nun sei y1 < y2 < · · · < qf f α mit limn→∞ yn = q α . Es ergibt sich zuerst − P[X < qf qα ) = lim P[X ≤ yn ] (vgl. Abschnitt 3.3.1(v)) α ] = FX (f n→∞ | {z } < α (da yn < qf α und wegen (3.38)) ≤α und anschließend (∗2 ) P[X ≥ qf f α ] = 1 − P[X < q α ] ≥ 1 − α. Wegen (∗1 ) und (∗2 ) ist (3.37) für qf f α erfüllt, d.h., q α ist in der Tat ein α-Quantil. Aufgrund von (3.38) ist es jetzt offensichtlich, daß qf α das kleinste α-Quantil ist. 3.213 Da limy→−∞ FX (y) = 0, bzw. limy→∞ FX (y) = 1, vgl. Abschnitt 3.3.1(iii), ist für alle α ∈ (0, 1) durch (3.38) ein qf α wohldefiniert. Damit ist insbesondere für alle α ∈ (0, 1) die Existenz eines α-Quantils bewiesen. 3.214In einer anderen Formulierung sind die Quantile einer Zufallsvariablen, die auf einer endlichen Menge äquidistanter Punkte in R gleichverteilt ist, zu berechnen. 3.215Vgl. Abschnitt 2.2. Jeder der M + 1 Punkte in {L, L + 1, . . . , L + M } hat unter P L,M die gleiche Wahrscheinlichkeit 1/(M + 1). 3.216Im folgenden wird P 0,M als ein Wahrscheinlichkeitsmaß auf R betrachtet, vgl. Bemerkung 2.10(i) 18. April 2016 69 Als Konsequenz von (3.41) zeigt sich, daß für α = m/(M + 1) jedes q ∈ [m − 1, m] ein α-Quantil von P0,M ist 3.219. (b) Sei 3.220 α(M + 1) ∈ / {1, . . . , M } und seien 3.221 m′ = ⌈α(M + 1)⌉, bzw. ′ ′ α = m /(M + 1). In diesem Fall ist P0,M (−∞, q] ≥ α ⇐⇒ 3.222 P0,M (−∞, q] ≥ α′ ⇐⇒ 3.223 q ≥ m′ − 1 und P0,M [q, ∞) ≥ 1 − α ⇐⇒ 3.224 ⇐⇒ 3.226 ⌈(1 − α)(M + 1)⌉ = P0,M [q, ∞) ≥ M +1 q ≤ m′ − 1. 3.225 M + 2 − m′ M +1 Nun kann gefolgert werden, daß das α-Quantil eindeutig bestimmt und durch m′ − 1 = ⌈α(M + 1)⌉ − 1 = ⌊α(M + 1)⌋ gegeben ist. 3.227 3.4. Stochastische Prozesse Mit stochastischen oder zufälligen Prozessen können zeitliche Entwicklungen modelliert werden, die vom Zufall beeinflußt sind“. ” Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, (Ω′ , F′ ) ein meßbarer Raum und 3.228 T ⊆ R eine Menge von Zeitpunkten. Für alle t ∈ T sei Xt : (Ω, F, P) → (Ω′ , F′ ) eine Zufallsvariable. Ein stochastischer Prozeß X = (Xt )t∈T ergibt sich, wenn die Familie {Xt : t ∈ T} dieser Zufallsvariablen zu einem Objekt zusammengefaßt wird. Der gemeinsame Wertebereich (Ω′ , F′ ) der Zufallsvariablen Xt , t ∈ T, wird auch als Zustandsraum von X bezeichnet. Unter der Verteilung eines stochastischen Prozesses X = (Xt )t∈T versteht man die gemeinsame Verteilung der Zufallsvariablen {Xt : t ∈ T} 3.229. Beispiel 3.20 (Bernoulli-Prozeß 3.230). Zu p ∈ [0, 1] seien Yn , n ∈ N, unabhängige, {−1, 1}-wertige Zufallsvariablen mit P[Yn = 1] = p = 1 − P[Yn = −1], (3.42) n ∈ N. Der stochastische Prozeß Y = (Yn )n∈N wird als Bernoulli-Prozeß (mit Parameter p) bezeichnet. Mit einem derartigen Prozeß kann z.B. der zeitliche Verlauf eines 3.217Wegen (3.39). 3.218Wegen (3.40). 3.219Vgl. die Definition der Quantile in (3.37). 3.220α hat nicht die Gestalt α = m/(M + 1) für ein m = 1, . . . , M . 3.221⌈x⌉ = inf{n ∈ Z : n ≥ x}, x ∈ R. Für x ∈ R ist ⌈x⌉ die kleinste ganze Zahl, die ≥ x ist. 3.222Da P [ . ] nur Werte der Form k/(M + 1), k = 0, 1, . . . , M + 1, annehmen kann, gilt 0,M für ein A ∈ B(R) und y ∈ [0, 1] genau dann P0,M [A] ≥ y, wenn P0,M [A] ≥ ⌈y(M + 1)⌉/(M + 1). Hierbei ist zu beachten, daß ⌈y(M + 1)⌉/(M + 1) die kleinste Zahl der Form k/(M + 1), k = 0, 1, . . . , M + 1, ist, welche größer oder gleich y ist. 3.223 Aufgrund der Überlegungen in (3.41a). 3.224Vgl. Fußnote 3.222. 3.225Da α(M + 1) ∈ / {1, . . . , M }, gilt ⌈(1 − α)(M + 1)⌉ ⌈M + 1 − α(M + 1)⌉ M + 1 − ⌈α(M + 1)⌉ + 1 M + 2 − m′ = = = . M +1 M +1 M +1 M +1 3.226 Aufgrund der Überlegungen in (3.41b). 3.227⌊x⌋ = sup{n ∈ Z : n ≤ x}, x ∈ R. Für x ∈ R ist ⌊x⌋ die größte ganze Zahl, die ≤ x ist. 3.228In den konkreten Beispielen dieser Vorlesung ist üblicherweise T = N oder N oder Z. 0 3.229Die gemeinsame Verteilung einer Familie von Zufallsvariablen ist durch Terme wie in (3.7) charakterisiert. 3.230Dieser spezielle Typ eines stochastischen Prozesses wurde bereits in Fußnote 3.26 angesprochen. 18. April 2016 70 beliebig oft unabhängig wiederholten Münzwurfs mit Erfolgswahrscheinlichkeit p modelliert werden 3.231. Die Verteilung von Y wird durch die Größen 3.232 (3.43) P[Yk1 = ηk1 , . . . , Ykn = ηkn ] = 3.233 n Y P[Ykl = ηkl ] l=1 = 3.234 = 3.235 n Y p(1+ηkl )/2 (1 − p)(1−ηkl )/2 l=1 Pn p l=1 (1+ηkl )/2 Pn (1 − p) l=1 (1−ηkl )/2 , k1 , . . . , kn ∈ N, 1 ≤ k1 < . . . < kn , ηk1 , . . . , ηkn ∈ {−1, 1}, n ∈ N, charakterisiert 3.236. Beispiel 3.21 (Irrfahrt). Sei Y = (Yn )n∈N der Bernoulli-Prozeß zum Parameter p ∈ [0, 1] aus Beispiel 3.20. Weiterhin sei ( 0, k = 0, (3.44) Xk = P Xk−1 + Yk = kl=1 Yl , k = 1, 2, . . . . Der stochastische Prozeß X = (Xk )k∈N0 wird als Irrfahrt (auf Z) bezeichnet. Für p = 1/2 ergibt sich die symmetrische Irrfahrt. Auf eine anschauliche Weise läßt sich die Irrfahrt X folgendermaßen beschreiben: • X startet zum Zeitpunkt 0 im Ursprung 0. • Zu jedem späteren Zeitpunkt k = 1, 2, . . . springt X mit Wahrscheinlichkeit p nach rechts, bzw. mit Wahrscheinlichkeit 1 − p nach links 3.237. • Zwischen zwei aufeinanderfolgenden Zeitpunkten in N0 bewegt sich X nicht. Für p ∈ (0, 1) kann die Irrfahrt als ein einfaches Modell für ein eindimensiona” les diffundierendes Teilchen“ betrachtet werden. In den Fällen p 6= 1/2 hat dieses Teilchen eine Drift“. ” 3.4.1. Stationäre stochastische Prozesse. 3.238 Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und (Ω′ , F′ ) ein meßbarer Raum. Weiterhin sei Xn : (Ω, F, P) → (Ω′ , F′ ), n ∈ N0 , eine Familie von Zufallsvariablen. Der stochastische Prozeß X = (Xn )n∈N0 heißt stationär, wenn für alle m ∈ N und alle k1 , . . . , km ∈ N0 mit 3.231Vgl. hierzu Abschnitt 2.4.2. Im hier beschriebenen Modellierungsansatz kann −1 mit Mißerfolg“ und 1 mit Erfolg“ identifiziert werden. ” 3.232(3.43) ergibt ”sich aus (2.16), wenn berücksichtigt wird, daß {−1, 1} der Wertebereich der Zufallsvariablen Yn , n ∈ N, ist. 3.233Da die Zufallsvariablen Y , n ∈ N, unabhängig sind. n 3.234 Man beachte, daß (1 + η)/2 = 1 und (1 − η)/2 = 0, falls η = 1, bzw. (1 + η)/2 = 0 und (1 − η)/2 P = 1, falls η = −1. Pn n 3.235 l=1 (1− l=1 (1+ηkl )/2 ist die Anzahl der l’s mit ηkl = 1, d.h. die Anzahl der Erfolge; ηkl )/2 ist die Anzahl der l’s mit ηkl = −1, d.h. die Anzahl der Mißerfolge. 3.236 Allgemein wird ein (Ω′ , F′ )-wertiger stochastischer Prozeß ζ = (ζt )t∈T als BernoulliProzeß bezeichnet, wenn die Zufallsvariablen ζt , t ∈ T, i.i.d. sind. 3.237Im Zeitpunkt n ∈ N beschreibt die Bernoulli-verteilte Zufallsvariable Y 0 n+1 , wie die unmittelbar folgende Bewegung von X verläuft. 3.238Stationäre stochastische Prozesse bilden eine spezielle Klasse stochastischer Prozesse. Andere solcher Klassen sind Markovprozesse, Diffusionsprozesse, Martingale, . . . . Markovprozesse in diskreter Zeit mit diskretem Zustandsraum werden in den Abschnitten 8.2 und 8.3 etwas ausführlicher behandelt. 18. April 2016 71 0 ≤ k1 < · · · < km < ∞ die gemeinsame Verteilung von Xk+k1 , . . . , Xk+km unabhängig von k ∈ N0 ist 3.239, d.h., wenn (3.45) P Xk+k1 ∈ A′k1 , . . . , Xk+km ∈ A′km = P Xk1 ∈ A′k1 , . . . , Xkm ∈ A′km , 0 ≤ k1 < · · · < km < ∞, A′k1 , . . . , A′km ∈ F′ , m ∈ N, k ∈ N0 . Ein stochastischer Prozeß ist somit stationär, wenn sein Verhalten in einem end” lichen Zeitintervall“ 3.240 nicht von der genauen Lage dieses Zeitintervalls auf der Zeitachse abhängt. Beispiel 3.22. Der in Beispiel 3.20 vorgestellte Bernoulli-Prozess Y = (Yn )n∈N mit Parameter p ∈ [0, 1] ist stationär. In der Tat sind die Größen P Yk+k1 = ηk1 , . . . , Yk+km = ηkm = 3.241 p Pm r=1 (1+ηkr )/2 Pm (1 − p) r=1 (1−ηkr )/2 , 1 ≤ k1 < · · · < km < ∞, ηk1 , . . . , ηkm ∈ {−1, 1}, m ∈ N, k ∈ N0 , welche die endlich-dimensionalen Verteilungen von Y charakterisieren, von k unabhängig. Beispiel 3.23. Die in Beispiel 3.21 beschriebene Irrfahrt X = (Xn )n∈N0 ist nicht stationär, da z.B. P[X0 = 0] = 1 6= 0 = P[X1 = 0] gilt. Beispiel 3.24. An einem festen äquatornahen Ort werde an jedem Tag k = 1, 2, . . . zur Mittagszeit die Temperatur und die Luftfeuchtigkeit gemessen. In einem vernünftigen Modell der Meßreihe scheint die Verwendung eines stationären Prozesses Y = (Yn )n∈N sinnvoll zu sein 3.242. 3.5. Wahrscheinlichkeitsräume und Zufallsvariablen in der Modellbildung 3.243 In Anwendungen der Wahrscheinlichkeitstheorie bei der Bildung von Modellen für vom Zufall beeinflußte Phänomene dient typischerweise ein allgemeiner Wahrscheinlichkeitsraum (Ω, F, P) als ein Zufallsgenerator“, während Zufallsvaria” blen, die auf (Ω, F, P) definiert sind, Messungen oder Beobachtungen mit zufälligem Ausgang modellieren. (Ω, F, P) muß so groß“ sein, daß alle benötigten Zufallsvaria” blen mit den von ihnen erwarteten Eigenschaften konstruiert werden können. Insbesondere muß die gemeinsame Verteilung dieser Zufallsvariablen 3.244 den Wünschen und Vorstellungen des modellbildenden Mathematikers gerecht werden. Beim Entwurf eines mathematischen Modells für einen physikalischen oder technischen Vorgang ist nur die realistische Nachbildung“ der möglichen Beob” achtungsergebnisse wesentlich. Dies bedeutet, daß der zugrundeliegende allgemeine 3.239Auf die gleiche Weise lassen sich natürlich auch stationäre stochastische Prozesse wie (Xn )n∈N , (Xn )n∈Z oder (Xn )n∈Zd mit N, Z oder Zd , wobei d = 2, 3, . . . , als Indexmenge charakterisieren. 3.240Dies ist (3.45) entsprechend in einem speziellen wahrscheinlichkeitstheoretischen Sinn gemeint. Insbesondere wird die zeitliche Invarianz des Verhaltens des Prozesses“ mit Hilfe des ” Begriffs der Verteilung von Zufallsvariablen formuliert. 3.241Vgl. (3.43). 3.242Der in Beispiel 3.6 betrachtete Prozeß T = (T ) k k∈N , der die Tips eines eine spezielle Strategie anwendenden Lotto-Spielers beschreibt, ist auch ein Beispiel eines stationären Prozesses. 3.243 In diesem Abschnitt 3.5 sind einige Bemerkungen über allgemeine Prinzipien zur Struktur mathematischer Modelle, die auf der Wahrscheinlichkeitstheorie aufbauen, zu finden. 3.244Vgl. (3.7). Durch ihre gemeinsame Verteilung werden die Abhängigkeiten“ zwischen ” verschiedenen Zufallsvariablen Xλ , λ ∈ Λ, ausgedrückt. 18. April 2016 72 Wahrscheinlichkeitsraum (Ω, F, P) in den Hintergrund tritt, d.h. sein detaillierter Aufbau irrelevant bleibt, solange nur die für die Modellbildung benutzten Zufallsvariablen die richtige Verteilung besitzen 3.245. Beispiel 3.25. Zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen Münze könnte anstelle des in Beispiel 2.7 vorgestellten Wahrscheinlichkeitsraums (Ω, F, P) mit Ω = {0, 1}N , e P) e F, e mit ebenso (Ω, e = {0, 1, . . . , 2N − 1}, Ω F = Pot(Ω), P[{ω}] = 2−N , ω ∈ Ω, e = Pot(Ω), e F e ω}] = 2−N , ω e 3.246 P[{e e ∈ Ω, ei , i = 1, . . . , N , benutzt werden. Nun sind z.B. die {0, 1}-wertigen Zufallsvariablen X 3.247 3.248 mit ω e e i = 1, . . . , N, e e ∈ Ω, Xi (e ω ) = i−1 mod 2, ω 2 unabhängig 3.249 mit der Verteilung eX eX ei = 1] = P e [{1}], i = 1, . . . , N, ei = 0] = 1 = P[ PXei [{0}] = P[ Xi 2 ei das Ergebnis des i-ten Wurfs der Münze. d.h., für i = 1, . . . , N modelliert X Bei Anwendungen der Wahrscheinlichkeitstheorie treten spezielle Wahrscheinlichkeitsräume meistens dann in Erscheinung, wenn letztendlich die Verteilungen von Zufallsvariablen untersucht werden sollen 3.250. Wenn diese beispielsweise nur endlich viele Werte annehmen können und wenn außerdem diese Werte alle die gleiche Wahrscheinlichkeit besitzen 3.251, kann man mit den Laplaceschen Wahrscheinlichkeitsräumen 3.252 arbeiten 3.253 3.254. 3.245Diese Tatsache äußert sich u.a. durch die übliche Verwendung der Phrase Sei (Ω, F, P) ” ein Wahrscheinlichkeitsraum . . . “ am Anfang vieler mathematischer Beiträge zur wahrscheinlichkeitstheoretischen Modellbildung. Auf die genaue Struktur von (Ω, F, P) wird dann in keiner Weise eingegangen. 3.246Für beliebige A e folgt P[ e A] e∈F e = |A|2 e −N aus der σ-Additivität von Wahrscheinlichkeitsmaßen, vgl. (2.2b). 3.247⌊x⌋ = sup{n ∈ Z : n ≤ x}, x ∈ R. PN−1 3.248 e in der Dualdarstellung ω Schreibt man ω e ∈ Ω e = ek 2k mit ω ek ∈ {0, 1} für k=0 ω k = 0, 1, . . . , N − 1, folgt N−1 N−1 X X ω e ω e k−i+1 ω e 2 , d.h., = ω ek 2k−i+1 . = k i−1 i−1 2 2 k=0 k=i−1 ei (e Für i = 1, . . . , N ist damit X ω ) = ⌊e ω /2i−1 ⌋ mod 2 = ω ei−1 die i-te Stelle in der Entwicklung von ω e im Dualsystem. 3.249D.h., man kann (3.8) nachweisen. 3.250Für eine Zufallsvariable X : (Ω, F, P) → (Ω′ , F ′ ) ist die Verteilung P ein WahrscheinX lichkeitsmaß auf dem meßbaren Raum (Ω′ , F′ ), vgl. Abschnitt 3.1 und insbesondere Fußnote 3.20. Damit ist (Ω′ , F′ , PX ) ein Wahrscheinlichkeitsraum. 3.251 Man denke z.B. an den Wurf einer fairen Münze oder eines fairen Würfels. 3.252 Vgl. Abschnitt 2.2. 3.253 Insbesondere in der Statistik wird mit speziellen Wahrscheinlichkeitsräumen gearbeitet. In klassischen Anwendungen ist dann • Ω = M , wobei M höchstens abzählbar ist, und F = Pot(M ), bzw. • Ω ∈ B(Rn ) für ein n ∈ N und F = B(Ω) = {A ∩ Ω : A ∈ B(Rn )}. In (Ω, F) ist weiterhin eine Familie Pλ , λ ∈ Λ, von Wahrscheinlichkeitsmaßen, die geeignet sind, ein zu untersuchendes zufallsbeeinflußtes Phänomen zu charakterisieren, gegeben. Mit der Struktur (Ω, F, (Pλ )λ∈Λ ) liegt ein statistisches Modell vor, vgl. Abschnitte 1.1.4 und 4.1. Ziel statistischer Überlegungen könnte nun die Identifizierung eines wahren“ Wahrscheinlichkeitsmaßes Pλw sein. ” 3.254 Gelegentlich wird in der Wahrscheinlichkeitstheorie eine spezielle Wahl eines Wahrscheinlichkeitsraums auch durch dessen Brauchbarkeit für die notwendigen mathematischen 18. April 2016 73 Überlegungen oder die Beweise der Resultate bestimmt. Es ist dann zu prüfen, ob die Zufallsvariablen, mit denen gearbeitet werden muß, auf diesem Wahrscheinlichkeitsraums auch wirklich konstruiert werden können. 18. April 2016 KAPITEL 4 Schätztheorie 4.1 Bei vielen zufallsbeeinflußten Phänomenen im menschlichen Umfeld 4.2 wird aufgrund von logischen Überlegungen schnell deutlich, daß ein gewisser Typ wahrscheinlichkeitstheoretischer Modelle, z.B. eine besondere Klasse von Zufallsvariablen oder stochastischen Prozessen, zu einer mathematischen Beschreibung, d.h. Modellierung, jenes Phänomens in Frage kommt. Allerdings ist oft der genaue Wert gewisser Parameter, die innerhalb der Klasse von möglichen Modellen das am besten geeignete charakterisieren, unklar. Beispiel 4.1. Eine Reihe gleichartiger Produktionsstücke, die unabhängig voneinander mit einer Wahrscheinlichkeit p ∈ (0, 1) defekt sind, wird solange geprüft, bis zu einem Zeitpunkt n ∈ N das erste fehlerhafte Produktionsstück beobachtet wird 4.3. Ausgehend von dem beobachteten Zeitpunkt n ist die Fehlerwahrscheinlichkeit p zu bestimmen, d.h. zu schätzen. Aufgrund der Analogie zum ∞-fachen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit p ∈ (0, 1) 4.4 ist die Annahme, daß die zufällige Größe n durch eine geometrisch mit Parameter p verteilte Zufallsvariable modelliert werden kann, naheliegend. Das ursprüngliche Problem kann nun folgendermaßen umformuliert werden: Eine geometrisch mit Parameter p ∈ (0, 1) verteilte Zufallsvariable X ist zu beobachten. Basierend auf dieser Beobachtung 4.5 ist anschließend p zu schätzen. Die Statistik stellt vernünftige“ Methoden zur Lösung solcher Schätzprobleme ” zur Verfügung, z.B. das Maximum-Likelihood-Prinzip 4.6 oder die Methode der Konfidenzbereiche 4.7. Diese und andere Methoden der Statistik werden in einem speziellen Arbeitsumfeld, einem statistischen Modell benutzt. 4.1. Statistische Modelle Wenn ein Statistiker mathematische Schlüsse aus vorliegenden Daten 4.8 zieht, arbeitet er üblicherweise im Rahmen eines statistischen Modells 4.9. Ein derartiges statistisches Modell ist ein Tripel (X, G, (Pλ )λ∈Λ ), wobei (X, G) ein meßbarer Raum und (Pλ )λ∈Λ eine Familie von Wahrscheinlichkeitsmaßen auf (X, G) ist. Für Λ ⊆ Rd , d = 1, 2, . . . , liegt ein parametrisches Modell vor 4.10. In dieser Vorlesung wird speziell mit zwei Standardmodellen gearbeitet, d.h. mit 4.1 Dieses Kapitel ist ein Abstecher in die mathematische Statistik. Als Vorbereitung können die Abschnitte 1.1.4 und 1.1.5 betrachtet werden. 4.2 Es könnte ein technischer Vorgang, ein Phänomen in der Natur oder auch in der Wirtschafts- oder Arbeitswelt sein. 4.3Es sei angenommen, daß zu jedem Zeitpunkt genau ein Produktionsstück untersucht wird. 4.4Vgl. Beispiel 3.3. 4.5Insbesondere werden keine weiteren Informationen eingeholt. 4.6Vgl. Beispiel 1.9 und Abschnitt 4.2. 4.7Vgl. Beispiel 1.10 und Abschnitt 4.3. 4.8Diese Daten können beispielsweise Meßwerte oder Umfrageergebnisse sein. 4.9Ein einfaches statistisches Modell wurde in Abschnitt 1.1.4 vorgestellt. 4.10Für d = 1 ergeben sich eindimensionale oder einparametrige Modelle. 75 76 • diskreten Modellen, wenn X diskret und G = Pot(X) ist, bzw. mit • kontinuierlichen Modellen, wenn X eine Borelsche Teilmenge eines Rn und G = B(X) ist und alle Wahrscheinlichkeitsmaße Pλ , λ ∈ Λ, eine Dichte bzgl. des Lebesguemaßes auf X besitzen. Entscheidungsverfahren eines Statistikers, der mit einem statistischen Modell (X, G, (Pλ )λ∈Λ ) arbeitet, werden durch Statistiken beschrieben. Hierbei wird als Statistik jede meßbare Funktion S : (X, G) → (Σ, S) mit einem geeigneten meßbaren Raum (Σ, S) bezeichnet. Der Aufbau von wahrscheinlichkeitstheoretischen und statistischen Modellen, weiterhin deren Interpretation und dann die Arbeit mit ihnen kann nun folgendermaßen zusammengefaßt werden: Wahrscheinlichkeitstheoretische Modelle. Als ein Zufallsmechanismus im Hinter” grund“ dient ein Wahrscheinlichkeitsraum (Ω, F, P) 4.11. Durch Zufallsvariablen X auf (Ω, F, P) werden zufällige, gemäß PX verteilte Beobachtungswerte modelliert. Bei der Untersuchung eines solchen wahrscheinlichkeitstheoretischen Modells versucht ein Wahrscheinlichkeitstheoretiker Eigenschaften verschiedener gegebener Zufallsvariablen und Zusammenhänge zwischen diesen zu ermitteln. Statistische Modelle. Eine Menge X beschreibt die möglichen Beobachtungswerte, bzw. Ausgänge eines Experiments“ und eine σ-Algebra G in X die Menge der ” Ereignisse, die mit diesen Beobachtungswerten verbunden sind 4.12. I. allg. gibt es viele mögliche Wahrscheinlichkeitsmaße Pλ , λ ∈ Λ, auf (X, G), die zunächst zur Beschreibung der Verteilung der Beobachtungswerte in Frage kommen 4.13. Auf Beobachtungsdaten basierende Schlüsse, z.B. Schätzungen für den wahren“ Parameter λw ∈ Λ, werden durch Statistiken auf (X, G) re” präsentiert. Beim Entwurf seiner Statistiken, d.h. seiner Entscheidungsschemata, nutzt ein Statistiker aus, daß unter verschiedenen Pλ ’s die möglichen ” Beobachtungswerte unterschiedlich häufig“ 4.14 auftreten 4.15. 4.2. Maximum-Likelihood-Schätzer b Sei zunächst (X, G, (Pλ )λ∈Λ ) ein diskretes statistisches Modell. Als Schätzer λ für den wahren“ Parameter λw ∈ Λ ist das nach einer Beobachtung plausibelste“ ” ” b ∈ Λ als λ eine sinnvolle Wahl. Insbesondere wird für x ∈ X ein λ MaximumLikelihood-Schätzer (zum Beobachtungswert x) bezeichnet, wenn (4.1) Pλb [{x}] = sup Pλ [{x}] λ∈Λ gilt 4.16. Die in (4.1) zu maximierende Funktion Λ ∋ λ → Pλ [{x}] =: Lx (λ) wird Likelihood-Funktion (zum Beobachtungswert x) genannt. 4.11Vgl. Abschnitt 3.5 zur Wahl von (Ω, F, P). Im Prinzip könnte (Ω, F, P) so groß sein, daß hiermit aller Zufall dieser Welt“ repräsentiert wird. 4.12”Auf den Beobachtungswerten, bzw. den zugehörigen Ereignissen sollte ein Statistiker seine Entscheidungen, d.h., seine Schätzungen, Vorhersagen, . . . aufbauen. 4.13Durch logische Überlegungen mit wahrscheinlichkeitstheoretischen Methoden kann evtl. gefolgert werden, daß die Pλ , λ ∈ Λ, zu einer speziellen Klasse von Wahrscheinlichkeitsmaßen, z.B. Normalverteilungen, geometrischen Verteilungen, . . . gehören. 4.14D.h. mit unterschiedlichen Wahrscheinlichkeiten. 4.15Beim Maximum-Likelihood-Schätzer, vgl. Abschnitt 4.2, wird z.B. das wahre“ λ durch w ” b ein λ geschätzt, das sich unter allen λ ∈ Λ dadurch auszeichnet, daß unter dem zugehörigen Wahrscheinlichkeitsmaß Pλ b der vorliegende Beobachtungswert am wahrscheinlichsten“ ist. ” 4.16λ b zeichnet sich dadurch aus, daß unter Pb der Beobachtungswert x maximale Wahrλ scheinlichkeit hat. 18. April 2016 77 Beispiel 4.2. Die Anzahl der Anfragen an einer Telefonhotline innerhalb eines Tages besitze eine Poissonverteilung P (λ) mit einem Parameter λ > 0 4.17. Aus der Anzahl k der eingegangenen Anrufe ist λ zu schätzen. Hierbei empfiehlt es sich, mit dem statistischen Modell (N0 , Pot(N0 ), (P (λ))λ>0 ) zu arbeiten. Es sei k > 0 angenommen 4.18. Die zu maximierende Likelihood-Funktion 4.19 b genau dann ist (0, ∞) ∋ λ → λk exp(−λ)/k! = Lk (λ). Offensichtlich wird Lk in λ maximal, wenn die Funktion (0, ∞) ∋ λ → log Lk (λ) = k log λ − λ − log k! =: ℓk (λ) dort maximal wird. Da 4.20 k ℓ′k (λ) = − 1 = 0 ⇐⇒ λ = k, λ k ′′ ℓk (λ) = − 2 < 0, λ > 0, λ und lim ℓk (λ) = lim ℓk (λ) = −∞, λց0 λր∞ b = k ein globales Maximum der Likelihood-Funktion Lk , d.h., λ b = k ist der ist λ Maximum-Likelihood-Schätzer für λ. Wie in Beispiel 4.2 ist es zur Bestimmung eines Maximum-Likelihood-Schätzers häufig zweckmäßig, anstelle der Likelihood-Funktion Lx ( . ) mit der Log-LikelihoodFunktion ℓx ( . ) = log Lx ( . ) (zum Beobachtungswert x) zu arbeiten 4.21. Für alle x ∈ X werden beide Funktionen für die gleichen Parameter maximal. Sei nun (X, G, (Pλ )λ∈Λ ) ein kontinuierliches statistisches Modell 4.22. Somit ist X ∈ B(Rn ) für ein n = 1, 2, . . . . Außerdem besitzt Pλ für alle λ ∈ Λ eine Dichte ρλ bzgl. des Lebesguemaßes auf X 4.23. In diesem Fall ist ein Maximum-Likelihoodb zum Beobachtungswert x ∈ X als Lösung von Schätzer λ (4.2) ρλb (x) = sup ρλ (x) λ∈Λ definiert. Analog zum diskreten Fall bezeichnet man nun für x ∈ X die Funktion Λ ∋ λ → ρλ (x) =: Lx (λ) als Likelihood-Funktion (zum Beobachtungswert x). Weiterhin ist ℓx ( . ) = log Lx ( . ) die Log-Likelihood-Funktion (zum Beobachtungswert x). Beispiel 4.3. Die Zufallsvariablen X1 , . . . , Xn seien unabhängig und exponentiell mit Parameter λ > 0 verteilt 4.24. Ausgehend von einer Beobachtung (x1 , . . . , xn ) ∈ [0, ∞)n dieser Zufallsvariablen ist λ zu schätzen. Als statistisches Modell kann man (X, G, (Pλ )λ>0 ) wählen, wobei X = [0, ∞)n , G = B([0, ∞)n ) und Pλ das Wahrscheinlichkeitsmaß auf ([0, ∞)n , B([0, ∞)n )) mit 4.17Aufgrund von Überlegungen wie sie in Abschnitt 2.7.1 vorgestellt werden ist diese Annahme gerechtfertigt, falls angenommen werden kann, daß die Telefonanrufe unabhängig voneinander sind und gleichmäßig über den Tag verteilt eingehen. 4.18Aus wirtschaftlichen Gründen wird eine Telefonhotline, bei der es möglich ist, daß während eines ganzen Tages niemand anruft, nicht existieren. 4.19Zum Beobachtungswert k. 4.20Eine ähnliche Argumentation ist in Beispiel 1.9, vgl. insbesondere Fußnote 1.73, bei der Bestimmung eines anderen Maximum-Likelihood-Schätzers zu finden. 4.21In vielen Fällen ist L ( . ) ein Produkt relativ komplizierter Funktionen, während ℓ ( . ) x x eine Summe einfacherer Terme ist. 4.22Vgl. Abschnitt 4.1. Bisher wurden in diesem Abschnitt 4.2 nur diskrete statistische Modelle betrachtet. 4.23D.h., P [A] = R dx ρ (x), A ∈ B(Rn ), A ⊆ X. λ λ A 4.24Die Zufallsvariablen X , . . . , X könnten bei einer Modellierung unabhängiger Wartezein 1 ten auftauchen, vgl. Abschnitt 2.6 und insbesondere Fußnote 2.123, bzw. Beispiel 8.3. 18. April 2016 78 Qn der Dichte [0, ∞)n ∋ (y1 , . . . , yn ) → k=1 (λ exp(−λyk )) = λn exp(−λ(y1 +· · ·+yn )) ist 4.25. Die Likelihood-Funktion zum Beobachtungswert (x1 , . . . , xn ) ∈ [0, ∞)n ist daher (0, ∞) ∋ λ → λn exp(−λ(x1 + · · · + xn )). Für die Log-Likelihood-Funktion (0, ∞) ∋ λ → n log λ − λ(x1 + · · · + xn ) = ℓx1 ,...,xn (λ) gilt nun 4.26: n n , ℓ′x1 ,...,xn (λ) = − (x1 + · · · + xn ) = 0 ⇐⇒ λ = λ x1 + · · · + xn n ℓ′′x1 ,...,xn (λ) = − 2 < 0, λ ∈ (0, ∞), λ lim ℓx1 ,...,xn (λ) = lim ℓx1 ,...,xn (λ) = −∞. λց0 λ→∞ b = n/(x1 + · · · + xn ) der gesuchte Maximum-Likelihood-Schätzer für λ. Somit ist λ Beispiel 4.4 (Regressionsgerade). Es sei angenommen, daß der Ausgabewert y einer Meßapparatur linear abhängig von der Eingabe x und zusätzlich durch einen additiven Rauschterm gestört ist 4.27. Um das System quantitativ genau zu charakterisieren 4.28, wird für n Eingaben x1 , . . . , xn , von denen zumindest zwei verschieden sein sollen 4.29, der zugehörige Ausgabewert y1 , . . . , yn gemessen. Wenn der jeweilige Wert des Rauschens durch z1 , . . . , zn beschrieben wird, ist somit 4.30 (4.3) yk = α + βxk + zk , k = 1, . . . , n. Anschließend sind die Systemparameter α, β ∈ R zu schätzen 4.31. Im folgenden sei angenommen, daß für ein festes σ 2 > 0 die Rauschterme zk , k = 1, . . . , n, Realisierungen 4.32 von unabhängigen, N(0, σ 2 )-verteilten Zufallsvariablen Zk , k = 1, . . . , n, sind 4.33 4.34. In diesem Fall sind die Ausgabewerte yk , k = 1, . . . , n, Realisierungen der Zufallsvariablen 4.35 Yk = α + βxk + Zk , k = 1, . . . , n. Insbesondere besitzt für k = 1, . . . , n die Zufallsvariable Yk bzgl. des Lebesguemaßes auf R die Dichte 4.36 fk : R → [0, ∞) mit fk (y) = (2πσ 2 )−1/2 exp(−(y − 4.25Nach Abschnitt 3.2.2 ist die Dichte der gemeinsamen Verteilung von unabhängigen Zufallsvariablen mit einer Dichte bzgl. des Lebesguemaßes das Produkt der jeweiligen Dichten. 4.26Da exponentiell verteilte Zufallsvariablen f.s. strikt positiv sind, kann x + · · · + x > 0 n 1 angenommen werden. 4.27Unter Rauschen versteht man eine zufällige Größe Z, die symmetrisch um 0 verteilt ist und somit keinen systematischen Anteil mehr enthält. Mathematisch präziser charakterisieren kann man Z als eine Zufallsvariable mit Erwartungswert E[Z] = 0. Eine kurze Beschreibung des Erwartungswerts einer Zufallsvariable findet sich in Beispiel 1.5. Detailliert wird dieser Begriff in den Abschnitten 6.1 bis 6.3 eingeführt. 4.28 D.h. zur Schätzung der Koeffizienten, die die lineare Abhängigkeit bestimmen. Damit sind α und β in (4.3) gemeint. 4.29Durch diese Forderung wird letztendlich sichergestellt, daß (4.7) eine eindeutige Lösung b hat. Hierzu beachte man insbesondere auch Fußnote 4.43. (b α, β) 4.30In (4.3) könnte x beispielsweise auch die Menge des auf einer landwirtschaftlich genutzk ten Fläche Ak verteilten Düngers und yk der Ernteertrag sein. zk kann eine Schwankung des Ernteertrags repräsentieren, der auf unvorhersehbare Witterungs- oder Bodeneinflüsse zurückzuführen ist. Damit die Ergebnisse vergleichbar sind, sollten die Größen |Ak |, k = 1, . . . , n, der verschiedenen Flächen alle gleich groß sein. 4.31Nur wenn die Rauschterme z , . . . , z verschwinden und die angenommene Linearität des n 1 Systems genau der Realität entspricht, können α und β exakt berechnet werden. 4.32Vgl. Fußnote 1.64. 4.33Es stellt sich heraus, vgl. (4.6), daß der genaue Wert von σ2 die Schätzung von α und β nicht beeinflußt. Daher wird hier auch nicht versucht, ein unbekanntes σ2 zu schätzen. 4.34 Die Annahme, daß das Rauschen normalverteilt ist, kann in vielen Anwendungen mit dem Zentralen Grenzwertsatz, vgl. Abschnitt 9.3, begründet werden. 4.35α, β und x , k = 1, . . . , n, sind nicht zufällig. Allerdings sind α und β unbekannt. k 4.36Zur Bestimmung der Dichte von Y = α + βx + Z kann zurückgegriffen werden auf k k k (3.35), wobei a = 1, b = α + βxk und X = Zk zu wählen ist. 18. April 2016 79 α − βxk )2 /2σ 2 ), y ∈ R, und somit die Verteilung N(α + βxk , σ 2 ). Aus der Unabhängigkeit der Zk , k = 1, . . . , n, folgt die Unabhängigkeit der Zufallsvariablen Yk , k = 1, . . . , n. Daher besitzt deren gemeinsame Verteilung die Dichte 4.37 (4.4) fα,β (y) = fα,β (y1 , . . . , yn ) = n Y fk (yk ) k=1 (yk − α − βxk )2 √ exp − = 2σ 2 2πσ 2 k=1 n 1 1 X 2 , = (y −α−βx ) exp − k k 2σ 2 (2πσ 2 )n/2 n Y 1 y = (y1 , . . . , yn ) ∈ Rn , k=1 bzgl. des Lebesguemaßes auf Rn . fα,β ist die Dichte der n-dimensionalen Normalverteilung 4.38 N(µα,β , σ 2 ) mit dem Erwartungswert µα,β = (α + βx1 , . . . , α + βxn ) und der Kovarianzmatrix σ 2 = (σ 2 δk,l )k,l=1,...,n . Somit kann als Basis der sich anschließenden Überlegungen das kontinuierliche statistische Modell (Rn , B(Rn ), (N(µα,β , σ 2 ))α,β∈R ) betrachtet werden. Aus (4.4) ergibt sich zum Beobachtungswert y = (y1 , . . . , yn ) ∈ Rn die LogLikelihood-Funktion 4.39 (4.5) ℓy (α, β) = − n 1 X n (yk − α − βxk )2 − log(2πσ 2 ), 2 2σ 2 k=1 Zur Bestimmung eines Maximum-Likelihood-Schätzers Konsequenz aus (4.5) das lineare Gleichungssystem (4.6) σ2 4.40 α, β ∈ R. b für (α, β) ist als (b α, β) n X ∂ ℓy (α, β) = (yk − α − βxk ) = 0, ∂α k=1 n X ∂ ℓy (α, β) = xk (yk − α − βxk ) = 0 σ2 ∂β k=1 4.41 n zu lösen. Wenn für M (v) = (1/n) Pnv, w ∈ R die Bezeichnungen M (v, w) = (1/n) k=1 vk wk eingeführt werden, führt (4.6) zu 4.42 (4.7) Pn k=1 vk und M (y) − α − βM (x) = 0, M (x, y) − αM (x) − βM (x, x) = 0. 4.37Vgl. Beispiel 3.8. 4.38Die Notation N(ν, A) für ν ∈ Rn und eine symmetrische, positiv-semidefinite n×n-Matrix A wird in Fußnote 3.117 erläutert. 4.39Da ℓ (α, β) = log f n y α,β (y), α, β ∈ R, y = (y1 , . . . , yn ) ∈ R . 4.40Es ist zu beachten, daß der zu schätzende Parameter (α, β) in diesem Beispiel 4.4 in R2 variiert. Daher wird in (4.6) mit partiellen Ableitungen gearbeitet. 4.41M (v) ist der Mittelwert der Komponenten v , . . . , v von v. n 1 4.42Wenn die beiden jeweils rechten Gleichungen in (4.6) durch n dividiert und anschließend die Summationen ausgeführt werden, folgt (4.7). 18. April 2016 80 Da 4.43 (4.8) b mit M (x, x) − M (x)2 > 0 hat (4.7) eine eindeutige Lösung (b α, β) α b= M (x, x)M (y) − M (x, y)M (x) , M (x, x) − M (x)2 4.44 M (x, y) − M (x)M (y) βb = . M (x, x) − M (x)2 Weil der Graph der in (4.5) angegebenen quadratischen Log-Likelihood-Funktion ℓy ein nach unten geöffnetes“ Paraboloid ist, zeigen die zu (4.8) führenden Überlegun” b ein eindeutig bestimmtes Maximum von ℓy vorliegt. gen, daß an der Stelle (b α, β) b Somit ist (b α, β) in der Tat ein Maximum-Likelihood-Schätzer für (α, β). b nennt man Regressionsgerade 4.45. βb wird Die Gerade R ∋ x → y = α b + βx auch als empirischer Regressionskoeffizient bezeichnet. Dieser Koeffizient gibt an, ob und wie stark die Ausgabewerte y typischerweise“ ansteigen oder abnehmen, ” wenn die Eingabewerte x erhöht werden 4.46. In dem nächsten Beispiel wird sich der Maximum-Likelihood-Schätzer als unbefriedigend herausstellen. Allerdings bieten sich sinnvolle Alternativen an. Beispiel 4.5 (Taxiproblem). In einer Stadt gebe es N Taxis mit den vom Straßenrand aus lesbaren Nummern 1, . . . , N . Ein Passant stehe eine gewisse Zeit lang an einer viel befahrenen Straße und notiere sich die Nummern x1 , . . . , xk der vorbeifahrenden Taxis. Es sei angenommen, daß 4.47 x1 < · · · < xk und daß der Passant ein mehrmals vorbeifahrendes Taxi nur einmal zählt. Unter der Annahme, daß im Beobachtungszeitraum alle Taxis in Betrieb und gleichmäßig in der ganzen Stadt eingesetzt sind, ist die Anzahl N aller Taxis der Stadt zu schätzen. 4.43Man kann zeigen, daß (∗) M (x, x) − M (x)2 = n 1 X 2 x − n k=1 k n 1 X xk n k=1 !2 = n 1 X (xk − M (x))2 . n k=1 Wenn mindestens zwei der xi , i = 1, . . . , n, verschieden sind, was in diesem Beispiel 4.4 vorausgesetzt wird, ist (xk − M (x))2 > 0 für zumindest ein k = 1, . . . , n. Somit ist M (x, x) − M (x)2 > 0. Aufgrund von (∗) kann M (x, x) − M (x)2 als empirische Varianz der Sequenz x1 , . . . , xn der Eingabedaten betrachtet werden. Die entsprechende Varianz Var(X) = E[(X − E[X])2 ] = E[X 2 ] − E[X]2 einer Zufallsvariable X wird in (6.20) eingeführt. 4.44(4.8) ergibt sich z.B. durch Anwendung der Cramerschen Regel. Alternativ kann einfach durch Einsetzen verifiziert werden, daß durch (4.8) die Lösung von (4.7) gegeben ist. 4.45Diese Regressionsgerade ergibt sich offensichtlich auch, wenn mit der Methode der kleinsten Quadrate die Meßpunkte“ (xk , yk ), k = 1, . . . , n, durch eine werden. P Gerade approximiert ” 2 In diesem Fall ist (α, β) ∈ R2 so zu bestimmen, daß Q(α, β) = n k=1 (yk − α − βxk ) minimiert wird. Die quadratische Funktion Q besitzt ein eindeutig bestimmtes Minimum, das aufgrund von −Q(α, β)/(2σ2 ) = ℓy (α, β) + n log(2πσ2 )/2, α, β ∈ R, ebenfalls als die eindeutige Lösung (4.8) von (4.6) bestimmt ist. 4.46Da der Nenner M (x, x) − M (x)2 > 0 ist, vgl. Fußnote 4.43, wird das Vorzeichen von β b durch den Zähler M (x, y) − M (x)M (y) bestimmt. Weil ! ! n n n 1 X 1X 1 X x k yk − xk yl (∗) M (x, y) − M (x)M (y) = n k=1 n k=1 n l=1 = n 1 X (xk − M (x))(yk − M (y)), n k=1 besitzen die Fluktuationen xk − M (x) der Eingabe und die Fluktuationen yk − M (y) der Ausgabe um den jeweiligen Mittelwert M (x), bzw. M (y) typischerweise“ genau dann das gleiche ” Vorzeichen, wenn βb > 0 ist. Aufgrund von (∗) kann man M (x, y) − M (x)M (y) auch als empirische Kovarianz der Datensequenzen x1 , . . . , xn und y1 , . . . , yn bezeichnen. Die entsprechende Kovarianz Cov(X,Y) = E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X]E[Y ] von zwei Zufallsvariablen X und Y wird in (6.23) eingeführt. 4.47Die Nummern der vorbeifahrenden Taxis werden in aufsteigender Reihenfolge notiert. 18. April 2016 81 Als statistisches Modell kann 4.48 (Xk , Gk , (Pk;N )N ∈N, N ≥k ) mit Xk = Menge der k-elementigen Teilmengen von N 4.49 , Gk = Pot(Xk ), Pk;N = Gleichverteilung auf der Menge der k-elementigen Teilmengen von {1, . . . , N }, N ∈ N, N ≥ k 4.50 , gewählt werden. Dieser Ansatz führt zur Likelihood-Funktion ( 4.51 N −1 , falls xk ≤ N, k L(k;x1 ,...,xk ) (N ) = Pk;N [{(x1 , . . . , xk )}] = 4.52 0, falls xk > N, zur Beobachtung von k Taxis mit den Nummern x1 < x2 < · · · < xk . Da für jedes −1 xk die Funktion {xk , xk + 1, . . . } ∋ N → N monoton fällt, ist 4.53 k S1 = xk der Maximum-Likelihood-Schätzer für die Gesamtzahl N der Taxis. Der Maximum-Likelihood-Schätzer S1 ist in der vorliegenden Situation unbefriedigend, da offensichtlich immer S1 ≤ N gilt, d.h., die wahre Anzahl aller Taxis wird systematisch unterschätzt. Mit heuristischen Argumenten können jedoch zwei weitere, evtl. 4.54 plausiblere Schätzer vorgeschlagen werden. • Aus Symmetriegründen“ sollte 4.55 x1 − 1 ≈ N − xk gelten. Als Schätzer ” für N ergibt sich dann: S2 = xk + x1 − 1. • Es wäre auch sinnvoll, den Ansatz N − xk ≈ 4.56 k 1 1X (xr − xr−1 − 1) = (xk − k), k r=1 k zu wählen. Diese Überlegung führt nun zu xk − k S3 = xk + k als Schätzer für N 4.58. 4.57 4.48Die Anzahl k der beobachteten Taxis wird nicht als eine Beobachtungsgröße, die zu den statistischen Schlußfolgerungen herangezogen wird, betrachtet. Nach dem Ende der Beobachtungen steht k fest und wird dann vor dem eigentlichen Beginn der statistischen Überlegungen als eine bekannte deterministische, d.h. nicht als zufällig oder unbekannt zu behandelnde Zahl festgehalten. 4.49Beachte, daß X abzählbar ist. k 4.50 Hier geht die Annahme ein, daß alle Taxis gleichmäßig im Stadtgebiet im Einsatz sind. 4.51In der Menge {1, . . . , N } existieren N Teilmengen mit k Elementen. Alle diese Teilmenk gen sind gleichwahrscheinlich. 4.52 Offensichtlich kann die Anzahl N aller Taxis nicht kleiner als die größte beobachtete Nummer xk sein. 4.53Der Maximum-Likelihood-Schätzer für die Gesamtzahl aller Taxis ist somit die größte der beobachteten Nummern. 4.54Dies ist natürlich Ansichtssache. 4.55Die Lücke bis zur kleinsten beobachteten Nummer x , bzw. die Lücke nach der größten 1 beobachteten Nummer xk sollten in etwa gleich sein. Diese Vermutung sollte zumindest im Mittel ” bei vielen Beobachtungsreihen“ gelten. 4.56In der Summe ist x = 0 zu setzen. Die Größe der Lücke nach der größten beobachteten 0 Nummer xk wird nun durch die mittlere Größe aller anderen Lücken“ geschätzt. Auch diese ” Vermutung sollte im Mittel bei vielen Beobachtungsreihen“ gelten. ” 4.57In der Praxis kann S3 durch die am nächsten an xk + (xk − k)/k liegende ganze Zahl S3′ ersetzt werden. 4.58Die drei Schätzer S , S und S für die Gesamtzahl N der Taxis besitzen unterschiedliche 1 2 3 Eigenschaften, vgl. [10], Abschnitte 4.2 - 4.4. Zunächst kann nachgewiesen werden, daß S2 und 18. April 2016 82 4.3. Konfidenzbereiche b eines Parameters λ gibt nur einen ersten Anhaltspunkt für den Ein Schätzwert λ wahren“ Wert λw . Eine Präzisierung ergibt sich mit der Angabe eines möglichst ” b ⊆ Λ, innerhalb dessen λw mit einer hinreichend großen Sicherkleinen Bereichs Λ ” heit“ erwartet werden kann 4.59. Sei (X, G, (Pλ )λ∈Λ ) ein statistisches Modell und α ∈ (0, 1). Eine Abbildung X ∋ x → C(x) ⊆ Λ heißt Konfidenzbereich zum Irrtumsniveau α, wenn 4.60 sup Pλ [{x ∈ X : C(x) 6∋ λ}] ≤ α. (4.9) λ∈Λ Die Bedingung (4.9) bedeutet, daß unabhängig vom real vorliegenden Wert von λ die unter Pλ bestimmte Wahrscheinlichkeit für das Ereignis, daß die Menge 4.61 C( . ) jenes λ nicht enthält 4.62, höchstens gleich α ist. Wenn (4.9) zutrifft, kann man sagen: Mit einer Sicherheit 4.63 von mindestens (1 − α) · 100% liegt (der wahre ” Parameter) λw in C( . )“. Beispiel 4.6. Falls C(x) = Λ, x ∈ X, folgt {x ∈ X : C(x) 6∋ λ} = ∅, d.h., (4.9) gilt für alle α ∈ (0, 1). Zu einem Erkenntnisgewinn führt diese Wahl eines Konfidenzbereichs allerdings nicht. Man sollte daher C( . ) immer möglichst klein“ ” wählen 4.64. S3 erwartungstreue Schätzer sind, d.h., für i = 2, 3 gilt: (∗) Ek;N [Si ] := ∞ X l=k l · Pk;N [Si = l] = N, N ∈ N, N ≥ k. Andererseits ist S1 nicht erwartungstreu, d.h., S1 erfüllt (∗) nicht. Im Mittel“ wird daher durch ” die Schätzer S2 und S3 der wahre Wert von N gefunden. Hingegen wird durch S1 im Mittel“ ein ” falscher Wert geschätzt. Beim Vergleich von S2 und S3 zeigt sich, daß der mittlere quadratische Fehler für S3 kleiner als für S2 ist, d.h., ∞ X Ek;N (S3 − N )2 = (l − N )2 · Pk;N [S3 = l] < Ek;N (S2 − N )2 , l=k N ∈ N, N ≥ k. Der Schätzer S3 schwankt daher im quadratischen Mittel“ weniger als S2 um den wahren Wert ” von N . Zusammenfassend ist also der Schätzer S3 gegenüber den beiden anderen Schätzern zu bevorzugen. Erwartungstreue und die Größe des mittleren quadratischen Fehlers sind spezielle Kriterien, mit denen die Qualitäten verschiedener Schätzer verglichen werden können. Auf diese Begriffe wird in den Abschnitten 6.6 und 6.6.1 eingegangen werden. 4.59Da die Angabe von Λ b mit einem Sicherheitsniveau“ verbunden wird, liegt eine vertrau” enswürdige Aussage vor. Die englische Bezeichnung für Vertrauen ist confidence. 4.60Die Meßbarkeit von {x ∈ X : C(x) 6∋ λ}, d.h. die Zugehörigkeit zu G sei stillschweigend vorausgesetzt. 4.61Der Bereich C(x) hängt vom Beobachtungswert x ab, ist also zufällig. 4.62D.h., daß ein Irrtum geschieht. 4.63Die Verwendung von Wahrscheinlichkeit“ anstelle von Sicherheit“ wäre irreführend, da ” ” λ nicht zufällig, sondern fest, aber unbekannt ist. 4.64Mit möglichst klein“ können unterschiedliche Bedeutungen verbunden sein, je nachdem ” welche Prioritäten bei der Suche nach dem wahren λw gesetzt werden. Man könnte einerseits an einer objektiven“ Bestimmung von λw interessiert sein. Andererseits sind z.B. Situationen ” vorstellbar, in denen ein Überschätzen, bzw. ein Unterschätzen von λw weitestgehend vermieden werden sollte. Auf diese Problematik wird in Beispiel 4.7 eingegangen 18. April 2016 83 Beispiel 4.7. Eine exponentiell mit einem zu schätzenden Parameter λ > 0 verteilte Zufallsvariable 4.65 X werde beobachtet. Anschließend sei zu α ∈ (0, 1) ein Konfidenzbereich zum Irrtumsniveau α zu bestimmen 4.66. Als statistisches Modell kann ((0, ∞), B((0, ∞)), (Pλ )λ>0 ) gewählt werden, wobei Pλ die Exponentialverteilung zum Parameter λ ist. Beim Entwurf eines Konfidenzbereichs soll zunächst gefordert werden, daß große Parameter λ nicht übersehen werden sollten 4.67. Somit sollte ein Konfidenzintervall der Gestalt X = (0, ∞) ∋ x → [k(x), ∞) = C(x) mit einer geeigneten Funktion k : (0, ∞) → (0, ∞) bestimmt werden. Sei qα (λ) das α-Quantil von Pλ , d.h. 4.68, (4.10) qα (λ) = inf y ∈ (0, ∞) : Pλ [[0, y]] ≥ α 1 = − log(1 − α), α ∈ (0, 1), λ ∈ (0, ∞). λ Für festes α ∈ (0, 1) ist die Funktion qα : (0, ∞) → (0, ∞) stetig und streng monoton fallend und hat somit eine stetige und streng monoton fallende Umkehrfunktion κα : (0, ∞) → (0, ∞) mit (4.11) κα (q) = inf λ ∈ (0, ∞) : qα (λ) ≤ q 1 = − log(1 − α), α ∈ (0, 1), q ∈ (0, ∞). q Zu einer Beobachtung 4.69 x ∈ (0, ∞) und dem Irrtumsniveau α ∈ (0, 1) sei nun Cα (x) = [κα (x), ∞). Aus (4.10) und (4.11) folgt λ ∈ Cα (x) bzw. (4.12) λ 6∈ Cα (x) Daher gilt ⇐⇒ λ ≥ κα (x) ⇐⇒ ⇐⇒ qα (λ) ≤ x, ⇐⇒ λ < κα (x) Pλ [{x ∈ (0, ∞) : Cα (x) 6∋ λ}] = 4.70 = 4.71 = 4.72 α ∈ (0, 1), λ ∈ (0, ∞), qα (λ) > x, α ∈ (0, 1), λ ∈ (0, ∞). Pλ [{x ∈ (0, ∞) : x < qα (λ)}] Pλ [{x ∈ (0, ∞) : x ≤ qα (λ)}] α, α ∈ (0, 1), λ ∈ (0, ∞), d.h., für α ∈ (0, 1) ist durch [0, ∞) ∋ x → Cα (x) = [κα (x), ∞) ein Konfidenzintervall zum Irrtumsniveau α gegeben. Wenn der Parameter λ zuverlässig sowohl nach oben als auch nach unten abgegrenzt werden soll, ist es naheliegend, Konfidenzintervalle der Gestalt X = (0, ∞) ∋ x → [k(x), k(x)] = C ′ (x) mit geeigneten Funktionen k, k : (0, ∞) → (0, ∞) zu suchen. Als Konfidenzintervall zum Irrtumsniveau α kann in diesem Fall beispielsweise Cα′ (x) = [κα/2 (x), κ1−(α/2) (x)], x ∈ (0, ∞), 4.65Vgl. Abschnitt 2.6. X könnte beispielsweise eine Wartezeit modellieren. Der mathematische Hintergrund solcher Anwendungen, d.h. die Gedächtnislosigkeit der Exponentialverteilung, wird in Beispiel 8.3 erklärt. 4.66Die Bestimmung eines Maximum-Likelihood-Schätzers für λ wird in Beispiel 4.3 diskutiert. 4.67Insbesondere sollte, falls ein großes λ zutrifft, dieses auch im Konfidenzbereich enthalten sein. Kleine λ’s dürfen mit einer Fehlerquote von höchstens α · 100% unerkannt bleiben. 4.68Vgl. Beispiele 3.17 und 3.18. Im vorliegenden Fall ist für alle α ∈ (0, 1) und alle λ > 0 das α-Quantil qα (λ) von Pλ eindeutig bestimmt. 4.69x ist als beobachtete Realisierung der Zufallsvariable X zu betrachten. 4.70Vgl. (4.12). 4.71Da P eine Dichte bzgl. des Lebesguemaßes hat. λ 4.72 Da qα (λ) ein α-Quantil von Pλ ist und weil Pλ eine Dichte bzgl. des Lebesguemaßes hat. 18. April 2016 84 gewählt werden 4.73. Da die Funktionen qα und κα streng monoton sind, können die in diesem Beispiel bestimmten Konfidenzintervalle Cα ( . ), bzw. Cα′ ( . ) nicht durch kleinere Konfidenzbereiche 4.74 in (0, ∞) ersetzt werden, d.h., diese Konfidenzbereiche können als optimal bezeichnet werden. Im nächsten Beispiel 4.8 wird gezeigt, wie auf eine zwar nicht optimale, allerdings einfache Weise Konfidenzintervalle bestimmt werden können. Beispiel 4.8. Ein zu einem Erfolg oder zu einem Mißerfolg führendes Experiment wird unter gleichbleibenden Bedingungen N mal unabhängig wiederholt 4.75. Ausgehend von der Anzahl der beobachteten Erfolge ist ein Konfidenzbereich für die Erfolgswahrscheinlichkeit p ∈ [0, 1] zu bestimmen. Sei Z die Anzahl der Erfolge in den N Experimenten. Z ist binomialverteilt mit den Parametern N und p 4.76. Man kann daher mit dem statistischen Modell (X, Pot(X), (Pp )p∈[0,1] ), wobei X = {0, 1, . . . , N } und Pp = B(N, p), p ∈ [0, 1], arbeiten. In dieser Situation ist Z die durch Z(x) = x, x ∈ X, gegebene Statistik. Ausgangspunkt der folgenden Überlegungen ist die sich als Konsequenz der Čebyšev’schen Ungleichung 4.77 ergebende Abschätzung Z 1 1 , ǫ > 0, p ∈ [0, 1]. (4.13) Pp − p ≥ ǫ ≤ 4.78 2 p(1 − p) ≤ 4.79 N ǫ N 4N ǫ2 Setzt man " x C(x) = − N r 1 x , + 4N α N r # 1 ∩ 4N α 4.80 [0, 1], x ∈ X, so folgt Pp [{x ∈ X : C(x) 6∋ p}] "( = Pp x x∈X:p> + N r 1 x oder p < − 4N α N r 1 4N α )# 4.73Weil die Funktionen q , κ : (0, ∞) → (0, ∞), α ∈ (0, 1), stetig und streng monoton α α fallend sind und weil qα (κα (x)) = x, x ∈ (0, ∞), α ∈ (0, 1), gilt: Pλ {x ∈ (0, ∞) : [κα/2 (x), κ1−(α/2) (x)] 6∋ λ} = Pλ {x ∈ (0, ∞) : κα/2 (x) > λ oder κ1−(α/2) (x) < λ} = Pλ {x ∈ (0, ∞) : x < qα/2 (λ) oder x > q1−(α/2) (λ)} = Pλ [(0, qα/2 (λ))] + Pλ [(q1−(α/2) (λ), ∞)] {z } | {z } | = α/2 = 1 − Pλ [(0, q1−(α/2) (λ)]] | {z } = 1 − (α/2) = α, λ > 0. 4.74Seien D( . ) und D ′ ( . ) Konfidenzbereiche zum Irrtumsniveau α. Wenn D(x) $ D ′ (x) für alle x ∈ (0, ∞) ist, kann man sagen, daß D( . ) kleiner als D ′ ( . ) ist. 4.75M.a.W., man betrachtet den N -fachen, unabhängigen Münzwurf mit einer Erfolgswahrscheinlichkeit p ∈ [0, 1]. 4.76Vgl. Abschnitt 1.1.2, insbesondere (1.3c). 4.77Vgl. (1.8) und Satz 6.18. Man beachte, daß E [Z/N ] = p, vgl. (1.6). p 4.78Vgl. (1.9). 4.79Da q(1 − q) ≤ 1/4, q ∈ [0, 1]. In den nun folgenden Überlegungen wird sich als hilfreich herausstellen, daß die rechte Seite von (4.13) von p unabhängig ist. 4.80Es sollte C(x) ⊆ [0, 1] sein. 18. April 2016 85 )# r x 1 = Pp x ∈ X : − p > N 4N α " # r Z 1 = Pp − p > ≤ 4.81 α, p ∈ [0, 1], N 4N α "( d.h., {0, 1, . . . , N } = X ∋ x → C(x) ist ein Konfidenzintervall zum Irrtumsniveau α 4.82 4.83. √ 4.81Zum Nachweis dieser Ungleichung setze ǫ = 1/ 4N α in (4.13). 4.82Zum Beobachtungswert x ist x/N der Maximum-Likelihood-Schätzer für p, vgl. Bei- spiel 1.9. Im vorliegenden Fall ist daher C(x) symmetrisch bzgl. des Maximum-LikelihoodSchätzers. 4.83 In Beispiel 4.7 wird sehr detailliert auf die spezielle Struktur des zugrundeliegenden statistischen Modells, insbesondere auf die Eigenschaften der Exponentialverteilung eingegangen. Hingegen wird in Beispiel 4.8 im Rahmen einer speziellen Anwendung eine allgemeine, auf der Čebyšev’schen Ungleichung basierende Methode zur Bestimmung von Konfidenzintervallen vorgestellt. Eine andere allgemeine Methode, die auf dem Zentralen Grenzwertsatz beruht, wird in Abschnitt 9.5 anhand von zwei Beispielen erläutert. 18. April 2016 KAPITEL 5 Laplacesche Wahrscheinlichkeitsräume und Kombinatorik Sei (Ω, F, P) ein Laplacescher Wahrscheinlichkeitsraum 5.1, d.h., 1 , ω ∈ Ω. |Ω| < ∞, F = Pot(Ω), P[{ω}] = |Ω| Zur genauen Bestimmung von 5.2 (5.1) P[A] = |A| , |Ω| A ∈ F, sind durch kombinatorische Überlegungen Abzählmethoden zu entwickeln. Beispiel 5.1. 5.3 Es sei angenommen, daß vier faire Würfel unabhängig voneinander geworfen werden. Zur Modellierung dieses Geschehens kann mit dem Wahrscheinlichkeitsraum (Ω, F, P), wobei Ω = {1, . . . , 6}4 5.4, F = Pot(Ω) und P die Gleichverteilung auf (Ω, F) ist, gearbeitet werden. Zu beantworten sei zunächst die Frage nach der Wahrscheinlichkeit p1 , daß alle vier Augenzahlen verschieden sind. Aufgrund von (5.1) ist |{ω ∈ Ω : ωi 6= ωj , falls i 6= j}| |Ω| Anzahl der Wurfsequenzen mit vier verschiedenen Augenzahlen = Anzahl aller Wurfsequenzen 6 · 5 · 4 · 3 5 = 5.5 = . 64 18 p1 = Die Würfel seien nun durchnummeriert 5.6. Bei der Klärung der Frage nach der Wahrscheinlichkeit p2 , daß die geworfenen Augenzahlen streng monoton steigend sind 5.7, führt (5.1) zu p2 = |{ω ∈ Ω : ω1 < ω2 < ω3 < ω4 }| |Ω| 5.1Vgl. Abschnitt 2.2. 5.2Für Terme wie auf der rechten Seite von (5.1) muß die Anzahl der Elemente in Ω, bzw. in A bestimmt werden. 5.3Auf die Fragestellungen dieses Beispiels wird unter leicht veränderten Blickwinkeln auch in den folgenden Beispielen 5.2, 5.3 und 5.7 eingegangen. 5.4Ω = {1, . . . , 6}4 = {(ω , . . . , ω ) : ω , . . . , ω = 1, 2, . . . , 6}. Für i = 1, . . . , 4 beschreibt ω 1 4 1 4 i die Augenzahl des i-ten Würfels. 5.5Der Zähler ergibt sich folgendermaßen: Für den ersten Wurf gibt es 6 Möglichkeiten, danach verbleiben für den zweiten Wurf noch 5 Möglichkeiten. Für den dritten und den vierten Wurf gibt es schließlich noch 4, bzw. 3 Möglichkeiten. 5.6Bei der Verwendung des Stichprobenraums Ω = {1, . . . , 6}4 ist durch die Reihenfolge der vier Koordinatenrichtungen“ natürlich auch eine Reihenfolge der Würfel gegeben. Insbesondere ” war bei der Lösung der ersten Frage, vgl. Fußnote 5.5, auch implizit angenommen worden, daß die Würfel nummeriert sind. 5.7D.h., daß ω < ω < ω < ω . 1 2 3 4 87 88 = 5.8 = 5.9 Anzahl der 4-elementigen Teilmengen von {1, . . . , 6} |Ω| 6 1 6! 5 4 = 4· = . 4 6 6 4! · 2! 432 Die Lösungen der Abzählprobleme in diesen und vielen anderen Beispielen der elementaren Wahrscheinlichkeitstheorie 5.10 können häufig mit Hilfe der im folgenden Abschnitt 5.1 eingeführten sog. Urnenmodelle bestimmt werden. 5.1. Urnenmodelle Einige Klassen von Abzählproblemen können gelöst werden durch die Bestimmung der Anzahl der Möglichkeiten, aus einer Urne, die N unterscheidbare Kugeln enthält, n Kugeln zu ziehen. Hierbei entsprechen die unterschiedlichen Klassen der Abzählprobleme verschiedenen Ziehungsstrategien. Es gibt: • zwei • zwei - Auswahlverfahren zum Ziehen der Kugeln: gezogene Kugeln werden nach ihrer Ziehung zurückgelegt, gezogene Kugeln werden nach ihrer Ziehung nicht zurückgelegt. Anordnungsverfahren für die gezogenen Kugeln: der Reihenfolge der gezogenen Kugeln wird Beachtung geschenkt 5.11, der Reihenfolge der gezogenen Kugeln wird keine Beachtung geschenkt 5.12. Damit ergeben sich vier verschiedene Ziehungsstrategien oder Urnenmodelle: (U1 ) Ziehung mit Zurücklegen und mit Berücksichtigung der Reihenfolge der gezogenen Kugeln, (U2 ) Ziehung ohne Zurücklegen und mit Berücksichtigung der Reihenfolge der gezogenen Kugeln, (U3 ) Ziehung mit Zurücklegen und ohne Berücksichtigung der Reihenfolge der gezogenen Kugeln, (U4 ) Ziehung ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge der gezogenen Kugeln. Für k = 1, 2, 3, 4 sei Wk (N, n) die Menge der für (Uk ) möglichen Ziehungsresultate 5.13. Während W1 (N, n) und W3 (N, n) für alle N, n ∈ N definiert sind, muß für W2 (N, n) und W4 (N, n) die Einschränkung n ≤ N berücksichtigt werden 5.14. 5.8Die Augenzahl des ersten Wurfs wird identifiziert mit dem kleinsten Element einer 4elementigen Teilmenge von {1, . . . , 6}, die Augenzahl des zweiten Wurfs mit dem zweitkleinsten Element . . . . 5.9 Details zur Berechnung der Anzahl r-elementiger Teilmengen einer N -elementigen Menge mit Hilfe des Binomialkoeffizienten N folgen in Abschnitt 5.1.2. Insbesondere wird in Beispiel 5.3 r ein weiteres Mal auf die Bestimmung von p2 eingegangen. 5.10 Ein solches Beispiel wäre die Frage nach der Wahrscheinlichkeit, daß in einer Gruppe von 100 Personen zwei am gleichen Tag Geburtstag haben, vgl. Beispiel 5.5. 5.11Beispielsweise wird die Ziehung der Kugeln 1, 4, 2, 7, . . . (in dieser Reihenfolge) von der Ziehung der Kugeln 1, 2, 7, 4, . . . (in dieser Reihenfolge) unterschieden. 5.12Beispielsweise wird die Ziehungssequenz 1, 4, 2, 7, . . . (in dieser Reihenfolge) mit der Ziehungssequenz 1, 2, 7, 4, . . . (in dieser Reihenfolge) identifiziert. 5.13In Abschnitt 5.1.2 wird |W (N, n)|, k = 1, 2, 3, 4, N, n ∈ N, d.h., die Anzahl der jeweils k möglichen, unterschiedlichen Ziehungsresultate berechnet. 5.14Offensichtlich können mit den Ziehungsstrategien (U ) und (U ) höchstens N Kugeln der 2 4 Urne entnommen werden. 18. April 2016 89 5.1.1. Darstellung der Mengen Wk (N, n), k = 1, . . . , 4. Die Elemente von Wk (N, n), k = 1 . . . , 4, besitzen eine Darstellung w = (w1 , . . . , wn ), wobei wl ∈ {1, . . . , N } 5.15. Allerdings sind für die verschiedenen Urnenmodelle 5.16 evtl. nicht alle w’s möglich 5.17, bzw. sind unterschiedliche w’s miteinander zu identifizieren 5.18. Insbesondere ergeben sich die folgenden Darstellungen: • W1 (N, n) = (w1 , . . . , wn ) : wl ∈ {1, . . . , N }, l = 1, . . . , n 5.19. • W2 (N, n) = (w1 , . . . , wn ) ∈ W1 (N, n) : wi 6= wj für i 6= j 5.20. • W3 (N, n) = (w1 , . . . , wn ) ∈ W1 (N, n) : 1 ≤ w1 ≤ w2 ≤ · · · ≤ wn ≤ N . Da die Reihenfolge der gezogenen Kugeln keine Rolle spielt, können o.E.d.A. die Ziehungszeitpunkte“ 5.21 so umgeordnet werden, daß die wl ’s monoton ” ansteigend sind. • W4 (N, n) = (w1 , . . . , wn ) ∈ W1 (N, n) : 1 ≤ w1 < w2 < . . . < wn ≤ N . Nach einer Umordnung der Ziehungszeitpunkte“ sind die wl ’s streng mo” noton ansteigend 5.22. 5.1.2. Berechnung von |Wk (N, n)|, k = 1, . . . , 4. 5.23 Zu |W1 (N, n)|: Es gibt • N Möglichkeiten für die Wahl der 1. Kugel, • N Möglichkeiten für die Wahl der 2. Kugel 5.24, • ... • N Möglichkeiten für die Wahl der n. Kugel. Somit ist (5.2) |W1 (N, n)| = N n , N, n ∈ N. Zu |W2 (N, n)|: Es gibt • N Möglichkeiten für die Wahl der 1. Kugel, • N − 1 Möglichkeiten für die Wahl der 2. Kugel 5.25, • ... • N − (n − 1) Möglichkeiten für die Wahl der n. Kugel 5.26. Somit ist N! , N, n ∈ N, n ≤ N. (5.3) |W2 (N, n)| = N (N − 1) · · · (N − (n − 1)) = (N − n)! Beispiel 5.2 (Rückblick auf Beispiel 5.1). Die Würfe des Würfels können modelliert werden als Ziehungen aus einer Urne mit 6 Kugeln, wobei nach jeder Ziehung die gezogene Kugel wieder zurückgelegt wird. Damit folgt p1 = |W2 (6, 4)| |W1 (6, 4)| 5.27 5.28 = 6! 1 5 = · . 2! 64 18 5.15w gibt die Nummer der im l-ten Zeitpunkt gezogenen Kugel an. Offensichtlich kann in l den hier vorgestellten Überlegungen angenommen werden, daß die Kugeln in aufeinanderfolgenden Zeitpunkten gezogen werden. 5.16 Damit sind die in Abschnitt 5.1 unter (U1 ) - (U4 ) aufgeführten Ziehungsvarianten gemeint. 5.17Beispielsweise, wenn die Kugeln nicht mehr zurückgelegt werden. 5.18Beispielsweise, wenn es auf die Reihenfolge der gezogenen Kugeln nicht ankommt. 5.19Für k 6= l kann w = w sein, da die Kugeln zurückgelegt werden. k l 5.20Man beachte, daß die Kugeln nicht zurückgelegt werden, und daher alle w ’s verschieden l sind. 5.21D.h. die Koordinaten von w = (w , . . . , w ). n 1 5.22Da die Kugeln nicht zurückgelegt werden, ist Gleichkeit zwischen zwei w ’s ausgeschlossen. l 5.23Nach der Bestimmung von |W (N, n)|, k = 1, . . . , 4, sind systematische Lösungen für k Abzählprobleme, wie sie beispielsweise in Beispiel 5.1 angesprochen wurden, möglich. 5.24Man beachte, daß die 1. Kugel wieder zurückgelegt wird. 5.25Nach der Entnahme der 1. Kugel verbleiben noch N − 1 Kugeln in der Urne. 5.26Nach dem Ziehen von n − 1 Kugeln sind noch N − (n − 1) Kugeln in der Urne. 18. April 2016 90 Zu |W4 (N, n)| 5.29 : Jedes w = (w1 , . . . , wn ) ∈ W4 (N, n) repräsentiert alle w′ = (w1′ , . . . , wn′ ) ∈ W2 (N, n), deren Komponenten w1′ , . . . , wn′ sich durch eine Permutation, d.h. Umordnung aus den Komponenten w1 , . . . , wn von w ergeben 5.30. Für alle w ∈ W4 (N, n) gibt es n! derartige Permutationen 5.31 5.32. Andererseits ergibt sich jedes w′ ∈ W2 (N, n) aus genau einem w ∈ W4 (N, n) durch eine Permutation 5.33. Folglich zerfällt W2 (N, n) in disjunkte Klassen mit jeweils n! Elementen. Jede Klasse entspricht genau einem Element in W4 (N, n). Daher ist |W2 (N, n)| = (5.4) |W4 (N, n)| = n! 5.34 N! 1 · =: (N −n)! n! N , n N, n ∈ N, n ≤ N. Beispiel 5.3 (Weiterer Rückblick auf Beispiel 5.1 5.35). Eine streng monoton ansteigende Folge von Augenzahlen bei 4 Würfen eines Würfels entspricht genau einer in aufsteigender Reihenfolge angeordneten, 4-elementigen Teilmenge von {1, . . . , 6}. Daher ist 1 6 5 |W4 (6, 4)| 5.36 = · 4 = . p2 = 4 6 432 |W1 (6, 4)| 5.37 Zu |W3 (N, n)|: Wenn die in Abschnitt 5.1.1 angegebenen Darstellungen der Mengen W3 (. . . ) und W4 (. . . ) benutzt werden, wird deutlich, daß die Abbildung W3 (N, n) ∋ (w1 , w2 , . . . , wn ) τ (N,n) → (w1 , w2 + 1, . . . , wn + n − 1) ∈ W4 (N + n − 1, n) 5.27Eine Wurfsequenz mit verschiedenen Augenzahlen entspricht einer Ziehungssequenz mit verschiedenen, d.h. nach ihrer Ziehung nicht zurückgelegten Kugeln, wobei in beiden Fällen die Reihenfolge beachtet wird. 5.28Jede Wurfsequenz entspricht genau einer Ziehungssequenz. 5.29Die etwas schwierigere Berechnung von |W (N, n)| wird zurückgestellt. 3 5.30In W (N, n) und W (N, n) werden Ziehungen ohne Zurücklegen betrachtet. In W (N, n) 2 4 4 wird allerdings die Reihenfolge nicht berücksichtigt, d.h., unterschiedliche Ziehungssequenzen aus W2 (N, n) können in W4 (N, n) zusammenfallen. 5.31w kann an n Stellen in w ′ eingeordnet werden. Anschließend kann w noch an n − 1 1 2 Positionen gebracht werden. . . . 5.32 Jede Permutation entspricht einer Möglichkeit, aus n Objekten (Kugeln) ohne Zurücklegen n Objekte (Kugeln) mit Berücksichtigung der Reihenfolge auszuwählen. Folglich ist Anzahl der Permutationen = |W2 (n, n)| = n! = n!, 0! vgl. (5.3). 5.33Wenn die in Abschnitt 5.1.1 angegebenen Darstellungen der W (N, n), k = 1, . . . , 4, k ′ in aufsteigender benutzt werden, entsteht jenes w ∈ W4 (N, n) durch Anordnung von w1′ , . . . , wn Reihenfolge. 5.34Vgl. (5.3). 5.35Vgl. auch Beispiel 5.2. 5.36|W (6, 4)| ist die Anzahl aller 4-elementigen Teilmengen von {1, . . . , 6}, d.h. aller Wurf4 sequenzen der Länge 4 mit streng monoton ansteigenden Augenzahlen. 5.37 |W1 (6, 4)| ist die Anzahl aller Wurfsequenzen der Länge 4. 18. April 2016 91 bijektiv ist 5.38 . Diese Beobachtung führt zu N +n−1 , |W3 (N, n)| = |W4 (N + n − 1, n)| = 5.39 n (5.5) N, n ∈ N. 5.2. Anwendungen von Urnenmodellen Vor allem in Beispielen der elementaren Wahrscheinlichkeitstheorie, wenn mit Laplaceschen Wahrscheinlichkeitsräumen gearbeitet und mit Hilfe von (5.1) Wahrscheinlichkeiten berechnet werden, finden die verschiedenen Urnenmodelle Anwendungen. Beispiel 5.4 (Ein Problem zum Skatspiel 5.40). Beim Skatspiel kann es für den Spieler, der das Spiel macht“ ein großer Vorteil sein, wenn zwei Buben im Skat“ ” ” sind. Es ist die Frage nach der Wahrscheinlichkeit p3 dieses Ereignisses zu beantworten 5.41. Bei der Berechnung von p3 ist zu beachten, daß • der Skat sich durch Auswahl von 2 aus 32 Karten ergibt und daß es somit |W4 (32, 2)| Möglichkeiten für seine Zusammensetzung gibt. Da alle Möglichkeiten die gleiche Wahrscheinlichkeit besitzen, kann mit einem Laplaceschen Wahrscheinlichkeitsraum mit |W4 (32, 2)| Elementen gearbeitet werden. • Da 4 Buben im Spiel enthalten sind, gibt es weiterhin |W4 (4, 2)| Möglichkeiten, einen Skat mit zwei Buben zusammenzustellen. Folglich ist 4 3 |W4 (4, 2)| 2 = = ≈ 0, 012. p3 = 32 |W4 (32, 2)| 248 2 Beispiel 5.5 (Zusammenfallen zweier Geburtstage). Es ist die Frage nach der Wahrscheinlichkeit p4,M , daß in einer zufällig zusammengestellten Gruppe von M Personen mindestens zwei am gleichen Tag des Jahres Geburtstag haben, zu beantworten 5.42. Der Fall M > 365 ist trivial. Dann ist p4,M = 1. Für M ≤ 365 gilt: p4,M = 1 − P[alle M Personen haben an verschiedenen Tagen Geburtstag] = 5.43 1− Anzahl der Möglichkeiten für M verschiedene Geburtstage 5.44 Anzahl aller Möglichkeiten für die Geburtstage von M Personen 5.45 5.38Wenn w ≤ w l l+1 für ein Element w ∈ W3 (N, n), so gilt wl +l−1 < wl +l ≤ wl+1 +l. Durch die Abbildung τ (N, n) wird Luft“ in die Sequenz (w1 , . . . , wn ) hineingeblasen“. Insbesondere ” ” wird eine monoton ansteigende Folge mit Werten in {1, . . . , N } in eine streng monoton ansteigende Folge mit Werten in {1, . . . , N + n − 1} abgebildet. Die Umkehrabbildung von τ (N, n) ist durch ′ W4 (N + n − 1, n) ∋ (w1′ , w2′ , . . . , wn ) τ (N,n)−1 → ′ (w1′ , w2′ − 1, . . . , wn − n + 1) ∈ W3 (N, n) gegeben. 5.39Vgl. (5.4). 5.40Es sei daran erinnert, daß 32 Karten (4 Asse, 4 Könige, . . . , 4 Buben,. . . , 4 Siebener) im Spiel sind. Diese werden gut gemischt. 3 Spieler erhalten dann jeweils 10 Karten. 2 Karten verbleiben im Skat“ und werden später demjenigen Spieler, der das Spiel macht“ zugeteilt. 5.41p ist ”unter der Voraussetzung, daß die Spieler die ihnen”jeweils zugeteilten Karten noch 3 nicht kennen, zu bestimmen. 5.42Es sei angenommen, daß für einen Geburtstag jeder Tag des Jahres gleichwahrscheinlich ist, d.h., ein Phänomen wie die Häufung von Geburtstagen im November im Rheinland als Folge des Karnevals sei nicht berücksichtigt. Außerdem seien Schaltjahre vernachlässigt. 18. April 2016 92 |W2 (365, M )| |W1 (365, M )| 365! = 5.46 1 − 365M · (365 − M )! 365 365 − 1 365 − 2 365 − M + 1 = 1− . · · ··· 365 365 365 365 | {z } 2 M − 1 1 · 1− ··· 1 − =1· 1− 365 365 365 Da 0 < 1 − x ≤ exp(−x), x ∈ [0, 1), ergibt sich M−1 k Y exp − p4,M ≥ 1 − 365 k=1 M−1 1 X M (M − 1) = 1 − exp − . k = 5.47 1 − exp − 365 730 = 1− k=1 Speziell für M = 100 ist somit p4,100 ≥ 0.9999987 5.48. Beispiel 5.6 (Gewinnchancen beim Zahlenlotto). Beim Zahlenlotto 6 aus 49“ ” werden aus 49 nummerierten Kugeln mit gleicher Wahrscheinlichkeit 6 Kugeln ausgewählt, d.h. gezogen. Für r = 1, . . . , 6, ist die Wahrscheinlichkeit p5,r , daß ein Tip mit 6 Zahlen genau r der gezogenen Zahlen, d.h. r Richtige“ enthält, zu berech” nen 5.49. Ein Tip mit genau r Richtigen“ enthält auch 6 − r falsch getippte Zahlen. ” Daher gilt: p5,r = (Anzahl aller Ziehungsmöglichkeiten)−1 ×(Anzahl aller Möglichkeiten, r der 6 getippten Zahlen zu ziehen) 5.43Es wird nun so getan, als würden die M Personen in einer festen Reihenfolge nach Ihrem Geburtstag gefragt. Diese Reihenfolge wird im folgenden berücksichtigt. Da es nun insbesondere |W1 (365, M )| Möglichkeiten gibt, die Geburtstage der M Personen festzulegen, wird letztendlich in einem Laplaceschen Wahrscheinlichkeitsraum mit |W1 (365, M )| Elementen gearbeitet. Wenn man sich auf den Standpunkt stellt, daß die Reihenfolge der Personen keine Rolle spielt, könnte man versucht sein, mit einem Wahrscheinlichkeitsraum mit |W3 (365, M )| Elementen zu arbeiten. Allerdings haben dann die 1-elementigen Ereignisse unterschiedliche Wahrscheinlichkeiten, d.h., die Arbeit mit einem Laplaceschen Wahrscheinlichkeitsraum wäre nun nicht möglich. Beispielsweise haben für M = 2 die Ereignisse E1 = {(w1 , w1 )} und E2 = {(w1 , w2 )} mit w1 < w2 die Wahrscheinlichkeiten P[E1 ] = 365−2 , bzw. P[E2 ] = 2 · 365−2 . Es ist zu beachten, daß E1 eintritt, wenn beide Personen am Tag w1 Geburtstag haben und daß E2 eintritt, wenn Person 1 am Tag w1 und Person 2 am Tag w2 oder wenn Person 1 am Tag w2 und Person 2 am Tag w1 Geburtstag haben. Auf die in dieser Fußnote 5.43 angesprochene Problematik, d.h. die Verwendung einer a priori nicht gegebenen Reihenfolge, wird im Rahmen einer Diskussion von Beispiel 5.1 ausführlicher in Beispiel 5.7 eingegangen. 5.44 Dies ist die Anzahl der Möglichkeiten, unter Berücksichtigung der Reihenfolge aus einer Menge von 365 Objekten (Tagen) M verschiedene auszuwählen. 5.45 Dies ist die Anzahl der Möglichkeiten, unter Berücksichtigung der Reihenfolge M mal jeweils eines (einen) von 365 Objekten (Tagen) auszuwählen. 5.46 Vgl. (5.2) und (5.3). 5.47Da PL l = L(L + 1)/2. l=1 5.48Selbst für kleinere M ist p 4,M nicht vernachlässigbar. Beispielsweise ist p4,50 ≥ 0.96513, p4,20 ≥ 0.4058, bzw. p4,10 ≥ 0.11599. 5.49Da es insgesamt |W (49, 6)| gleichwahrscheinliche Möglichkeiten gibt, aus 49 Kugeln 4 6 auszuwählen, kann mit einem Laplaceschen Wahrscheinlichkeitsraum mit |W4 (49, 6)| Elementen gearbeitet werden. 18. April 2016 93 ×(Anzahl aller Möglichkeiten, 6−r der 43 nicht getippten Zahlen zu ziehen) 6 43 · |W4 (6, r)| · |W4 (43, 6 − r)| r 6−r . = = 49 |W4 (49, 6)| 6 Insbesondere ist p5,3 p5,5 p5,6 6 43 · 3 3 = ≈ 1, 77 · 10−2 , 49 6 6 43 · 5 1 = ≈ 1, 845 · 10−5 , 49 6 6 43 · 1 6 0 = = ≈ 7, 15 · 10−8 . 49 49 6 6 Das nächste Beispiel demonstriert insbesondere, daß auch bei elementaren Fragen, die üblicherweise auf Abzählprobleme reduziert und mit kombinatorischen Methoden behandelt werden, Sorgfalt geboten ist, und daß eine leichtfertige Argumentation schnell zu falschen Resultaten führt. Beispiel 5.7 ((∗) Noch ein Rückblick auf Beispiel 5.1). Bei der Untersuchung des unabhängigen Wurfs von 4 Würfeln in Beispiel 5.1, bzw. in Beispiel 5.2 ergab sich 5.50 (5.6) |W2 (6, 4)| p1 = P1 alle Augenzahlen sind verschieden = |W1 (6, 4)| 5.51 5.52 = 5 . 18 Bei den Berechnungen in (5.6) wird in dem Wahrscheinlichkeitsraum (W1 (6, 4), Pot(W1 (6, 4)), P1 ) gearbeitet, wobei P1 die Gleichverteilung auf W1 (6, 4) ist 5.53. Durch die Verwendung von W1 (. . . ) wird stillschweigend für die Würfe eine Reihenfolge festgelegt, die zunächst bei der ursprünglichen Formulierung des Problems eigentlich nicht vorgesehen ist. Es ist daher naheliegend, auf die Festlegung der Reihenfolge der Würfe zu verzichten und die Menge der möglichen Wurfkombinationen durch den Stichprobenraum Ω = W3 (6, 4) 5.54 zu beschreiben. Wie die folgenden Überlegungen zeigen, kann dieser Stichprobenraum zur Bestimmung von p1 in der Tat zwar verwendet, dann allerdings nicht mehr mit der Struktur eines Laplaceschen Wahrscheinlichkeitsraums versehen werden 5.55. 5.50Bei der Argumentation in Beispiel 5.2 wurde der Wurf eines Würfels mit dem Ziehen einer Kugel aus einer Urne mit 6 unterscheidbaren Kugeln identifiziert. 5.51Anzahl der Wurfsequenzen mit 4 verschiedenen Augenzahlen. 5.52Anzahl aller Wurfsequenzen. 5.53Damit ist (W (6, 4), Pot(W (6, 4)), P ) ein Laplacescher Wahrscheinlichkeitsraum. 1 1 1 5.54W (6, 4) ist die Menge der möglichen Resultate bei 4 Ziehungen mit Zurücklegen aus 3 einer Urne mit 6 Kugeln (4 Würfe eines Würfels) ohne Berücksichtigung der Reihenfolge, vgl. Abschnitt 5.1. 5.55Die einzelnen Elemente ω ∈ Ω = W (6, 4) sind dann nicht gleichwahrscheinlich. 3 18. April 2016 94 Wenn zunächst auf Ω = W3 (6, 4) die Gleichverteilung P3 betrachtet werden würde, ergäbe sich die (5.6) widersprechende Beziehung 5.56 6 5.57 5 |W4 (6, 4)| 4 = 5.58 = . (5.7) p1 = 9 |W3 (6, 4)| 42 4 Zur Korrektur von (5.7) kann folgendermaßen vorgegangen werden. (a) Es sei angenommen, daß irgendeine Möglichkeit einer Unterscheidung der vier Würfel besteht 5.59. 6 (b) Die 4 paarweise verschiedenen Zustände ((1, 2, 3, 4)), ((1, 2, 3, 5)), ((1, 2, 3, 6)), . . . in Ω = W3 (6, 4) 5.60, die vier Würfe mit unterschiedlichen Augenzahlen beschreiben, sind Makrozustände 5.61, die jeweils 4! verschiedene Mikrozustände aus W1 (6, 4) 5.62 zusammenfassen. Diese Mikrozustände werden nur dann unterscheidbar, wenn die in (a) genannten feinen Unterschiede zwischen den Würfeln sichtbar werden 5.63. Beispielsweise faßt der Makrozustand ((1, 2, 3, 5)) solche Mikrozustände wie (1, 2, 3, 5), (1, 2, 5, 3), (1, 5, 2, 3), . . . zusammen, die im mit der Gleichverteilung P1 versehenen Raum W1 (6, 4) jeweils die Wahrscheinlichkeit 6−4 besitzen 5.64. (c) Einem Makrozustand wie ((1, 2, 3, 5)) muß damit in Ω = W3 (6, 4) die Wahrscheinlichkeit 5.65 P2 [{((1, 2, 3, 5))}] = 4! · 6−4 = 1/54 zugewiesen werden 5.66. (d) Alternativ kann nun p1 gemäß (5.8) p1 = 5.67 = 5.68 P2 [{((w1 , . . . , w4 )) ∈ W3 (6, 4) : 1 ≤ w1 < w2 < w3 < w4 ≤ 6}] X P2 [{((ω1 , . . . , ω4 ))}] ((w1 ,...,w4 ))∈W3 (6,4), 1≤w1 <w2 <w3 <w4 ≤6 6·5·4·3 6 5 = · 4! · 6−4 = = 4 4 6 18 5.56Es ist leicht einzusehen, daß die Annahme der Gleichverteilung auf W (6, 4) nicht 3 vernünftig ist. Beispielsweise ist es offensichtlich schwieriger“, d.h. unwahrscheinlicher“, vier ” ” mal eine 1 zu werfen als je zwei mal eine 1, bzw. eine 2 zu erhalten. Für den zweiten Fall ist die Wahrscheinlichkeit größer, da es mehr Möglichkeiten gibt, das beschriebene Resultat zu erzielen. Ein ähnliches Argument wird in Fußnote 5.43 vorgebracht. 5.57W (6, 4) ist die Teilmenge jener Elemente von W (6, 4), die eine Wurfsequenz mit 4 4 3 verschiedenen Augenzahlen darstellen. 5.58 Vgl. (5.4) und (5.5). 5.59 Beispielsweise bestehen die Würfel vermutlich aus unterschiedlich vielen Atomen. 5.60Die Notation ω = ((w , w , w , w )) für Elemente in Ω = W (6, 4) soll daraufhinweisen, 1 2 3 4 3 daß die Reihenfolge der Würfe nicht berücksichtigt zu werden braucht, d.h., daß o.E.d.A. 1 ≤ w1 ≤ w2 ≤ w3 ≤ w4 ≤ 6 angenommen werden kann, vgl. Abschnitt 5.1.1. 5.61 In den Makrozuständen ist keine Reihenfolge der Würfel ausgezeichnet. 5.62In den Mikrozuständen ist eine Reihenfolge der Würfel ausgezeichnet. Die Menge aller Mikrozustände wird durch W1 (6, 4) repräsentiert. 5.63 Makro- und Mikrozustände sind bildliche Begriffsbildungen zur Erleichterung der mathematischen Argumentation. 5.64Offensichtlich sind alle Mikrozustände gleichwahrscheinlich. 5.65Die Wahrscheinlichkeit eines Makrozustandes ist die Summe der Wahrscheinlichkeiten der durch ihn zusammengefaßten, sich gegenseitig ausschließenden Mikrozustände. 5.66Das Wahrscheinlichkeitsmaß P unterscheidet sich von der Gleichverteilung P auf 2 3 −1 = 1/126, ω ∈ W3 (6, 4). (W3 (6, 4), Pot(W3 (6, 4))). Z.B. gilt P3 [{ω}] = |W3 (6, 4)|−1 = 94 18. April 2016 95 berechnet werden, d.h., (5.6) wird bestätigt. Solche ω ∈ W3 (6, 4), über die in (5.8) nicht summiert wird, besitzen i. allg. von 4! · 6−4 verschiedene Wahrscheinlichkeiten unter P2 . Beispielsweise gilt: P2 [{((1, 1, 1, 1))}] = 5.69 6−4 = 1/1296, P2 [{((1, 2, 2, 4))}] = 5.70 4 · 3 · 6−4 = 1/108. Die Überlegungen dieses Beispiels verdeutlichen wieder einmal, daß in konkreten Anwendungen immer unterschiedliche Wahrscheinlichkeitsräume benutzt werden können 5.71. Die Kunst besteht dann darin, einen für das jeweilige mathematische Vorhaben optimal geeigneten Wahrscheinlichkeitsraum herauszufinden 5.72. 5.3. Eine Alternative zu den Urnenmodellen Die Urnenmodelle (U1 ) - (U4 ) 5.73 repräsentieren mathematische Modelle zur Lösung gewisser Abzählprobleme. Diese Lösungen können auch mit Hilfe der in diesem Abschnitt 5.3 vorgestellten und zu den Urnenmodellen äquivalenten Verteilungsmodelle gewonnen werden. Gegeben seien N unterscheidbare Zellen, auf welche n Murmeln 5.74 verteilt werden. Hierbei können die Zellen und die Murmeln folgende unterschiedliche physikalische Eigenschaften besitzen: • Die Zellen erlauben nur Einfach-, bzw. auch Mehrfachbesetzungen. • Die Murmeln sind unterscheidbar, bzw. nicht unterscheidbar. Entsprechend den vier Urnenmodellen gibt es nun vier Verteilungsvarianten: (V1 ) Für unterscheidbare Murmeln ist eine Mehrfachbelegung der Zellen erlaubt. (V2 ) Für unterscheidbare Murmeln ist eine Mehrfachbelegung der Zellen nicht erlaubt. (V3 ) Für nicht unterscheidbare Murmeln ist eine Mehrfachbelegung der Zellen erlaubt. (V4 ) Für nicht unterscheidbare Murmeln ist eine Mehrfachbelegung der Zellen nicht erlaubt. fk (N, n) der möglichen VerteilungsFür k = 1, . . . , 4 entspricht die Menge W resultate unter (Vk ) genau der Menge Wk (N, n) der möglichen Ziehungsresultate unter (Uk ). Dazu muß 5.67Es ist die Wahrscheinlichkeit der Menge der 6 4 unterschiedlichen Elemente ω von W3 (6, 4), deren Komponenten paarweise verschieden sind und die damit durch W4 (6, 4) beschrieben werden können, zu bestimmen. 5.68 Als Folge der Additivität von P2 . Im Gegensatz zu den zu (5.7) führenden Überlegungen haben aufgrund von (a) - (c) die ω’s, über die summiert wird, nicht mehr die Wahrscheinlichkeit |Ω3 (6, 4)|−1 sondern 4! · 6−4 . 5.69Dem Makrozustand ((1, 1, 1, 1)) entspricht nur der eine Mikrozustand (1, 1, 1, 1) in W1 (6, 4), der die Wahrscheinlichkeit 6−4 besitzt. 5.70 Dem Makrozustand ((1, 2, 2, 4)) entsprechen 4 · 3 verschiedene Mikrozustände (1, 2, 2, 4), (1, 2, 4, 2), (1, 4, 2, 2), . . . . Diese werden durch Wahl eines von 4 · 3 möglichen geordneten Würfelpaaren für die Augenzahlen 1 und 4 bestimmt. Die zwei restlichen Würfel zeigen dann automatisch 2. 5.71 Diese Beobachtung konnte auch in Beispiel 3.25 gemacht werden. 5.72 Zur Bestimmung von p1 ist offensichtlich die in Beispiel 5.1 oder Beispiel 5.2 vorgestellte Argumentation leichter nachvollziehbar und daher besser geeignet als die zu (5.8) führenden Überlegungen (a) - (d) dieses Beispiels. 5.73Vgl. Abschnitt 5.1 5.74Der Name Kugeln“ wird hier nicht gewählt, weil die nun benutzten Murmeln eine andere ” mathematische Bedeutung als die Kugeln in den Urnenmodellen haben. 18. April 2016 96 • jede der N Kugeln in den Urnenmodellen mit einer der N Zellen und • jede der n Ziehungen in den Urnenmodellen mit der Einordnung einer der n Murmeln identifiziert werden 5.75. Beispielsweise entspricht nun • das Ziehen der r-ten Kugel bei der k-ten Ziehung dem Einlegen der k-ten Murmel in die r-te Zelle, • das k-fache Ziehen einer bestimmten Kugel dem Einlegen von k Murmeln in die der Kugel zugeordnete Zelle, • das Nichtberücksichtigen der Reihenfolge der gezogenen Kugeln der Verwendung ununterscheidbarer Murmeln, • ... Beispiel 5.8. Das Zahlenlotto 5.76 6 aus 49 läßt sich auch darstellen als die Verteilung von 6 ununterscheidbaren Murmeln auf 49 Zellen, wobei eine Mehrfachbelegung der Zellen verboten ist. 5.4. Multinomialverteilung und hypergeometrische Verteilung Die in diesem Abschnitt 5.4 vorgestellten Wahrscheinlichkeitsmaße sind auf gewissen endlichen Teilmengen von Zn , n ∈ N, konzentriert. In ihren klassischen Anwendungen 5.77 dienen sie der Modellierung von Ziehungen aus einer Urne, die Gruppen von Kugeln verschiedener Farben enthält. Je nachdem, ob man gezogene Kugeln wieder zurücklegt oder nicht, beschreibt die Multinomialverteilung, bzw. die hypergeometrische Verteilung die Verteilung der möglichen Ziehungsresultate 5.78. Die Multinomialverteilung Pn Mn (N, q1 , . . . , qn ) ist durch Parameter n, N ∈ N und q1 , . . . , qn ∈ [0, 1] mit k=1 qk = 1 gekennzeichnet. Mn (N, q1 , . . . , qn ) ist ein diskretes Wahrscheinlichkeitsmaß 5.79 auf n X (5.9) Ωn,N = ω = (ω1 , . . . , ωn ) : ωk ∈ {0, 1, ..., N }, k = 1, . . . , n; ωk = N k=1 mit 5.80 (5.10) Mn (N, q1 , . . . , qn )[{ω}] = Die Größen N N! , (5.11) := l1 ! · · · ln ! l1 , . . . , ln N! q ω1 · · · qnωn , ω1 ! · · · ωn ! 1 l1 , . . . , ln = 0, 1, . . . , N, n X k=1 werden als Multinomialkoeffizienten bezeichnet. ω ∈ Ωn,N . lk = N, n, N ∈ N, 5.75Insbesondere haben die Murmeln in den Verteilungsmodellen die Bedeutung der Ziehungszeitpunkte in den Urnenmodellen. 5.76Vgl. Beispiel 5.6. 5.77Auf diese klassischen“ Anwendungen wird in den Beispielen 5.10 und 5.12 eingegangen. ” 5.78Ein Ziehungsresultat“ gibt für alle Farben die jeweilige Anzahl gezogener Kugeln an. ” Auf die Reihenfolge, in der die Kugeln mit den verschiedenen Farben gezogen werden, wird nicht eingegangen. 5.79Vgl. Abschnitt 2.2. 5.80Da N! ωn ≥ 0, ω ∈ Ωn,N , q ω1 · · · q n ω1 ! · · · ωn ! 1 und weil X N! ωn = (q1 + · · · + qn )N = 1, q ω1 · · · q n ω ! · · · ωn ! 1 1 ω∈Ω n,N ist durch (5.9) und (5.10) in der Tat ein Wahrscheinlichkeitsmaß definiert. 18. April 2016 97 Beispiel 5.9. Sei n = 2, q1 = q und q2 = 1 − q für ein q ∈ [0, 1]. Dann ist N! q k q N −k k!(N −k)! 1 2 N k = q (1−q)N −k = B(N, q)[{k}], k 5.81 M2 (N, q1 , q2 )[{(k, N −k)}] = k = 0, 1, . . . , N. Daher entspricht die Multinomialverteilung M2 (N, q, 1 − q) der Binomialverteilung B(N, q) 5.82. I. allg. ist die Multinomialverteilung eine Verallgemeinerung der Binomialverteilung. Beispiel 5.10. Gegeben sei eine Urne mit Kugeln der Farben 1, . . . , n. Für k = 1, . . . , n sei qk der Anteil der Kugeln der Farbe k. Aus der Urne wird N mal eine Kugel gezogen und anschließend wieder zurückgelegt 5.83. Es gilt wobei P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen] 5.84 ! n Y N − l1 − · · · − ln−2 N N − l1 lk = qk ··· , ln−1 l2 l1 k=1 {z } | {z } | {z } | {z } | ... = (∗ ) = (∗ ) 2 3 = (∗1 ) | {z } = (∗) • (∗1 ) die Wahrscheinlichkeit, in einer fest vorgegebenen Reihenfolge für k = 1, . . . , n jeweils lk Kugeln der Farbe k zu ziehen 5.85, • (∗2 ) die Anzahl der Möglichkeiten, l1 Zeitpunkte für das Ziehen einer Kugel der Farbe 1 aus der Menge aller N Ziehungszeitpunkte auszuwählen, • (∗3 ) die Anzahl der Möglichkeiten, l2 Zeitpunkte für das Ziehen einer Kugel der Farbe 2 aus der Menge der verbliebenen N − l1 Ziehungszeitpunkte 5.86 auszuwählen, . . . , ist 5.87. Da (N − l1 )! (N − l1 − · · · − ln−2 )! N! · ··· l1 !(N − l1 )! l2 !(N − l1 − l2 )! ln−1 !(N − (l1 + · · · + ln−1 ))! | {z } = ln N! = , l1 ! · · · ln ! (∗) = ist P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen] = Mn (N, q1 , . . . , qn )[{(l1 , . . . , ln )}], l1 , . . . , ln = 0, 1, . . . , N, n X lk = N, k=1 5.81Offensichtlich ist Ω 2,N = {(k, N − k) : k = 0, 1, . . . , N }, N ∈ N. 5.82Sicherlich wäre die Folgerung M (N, q, 1 − q) = B(N, q) falsch, da M (N, q, 1 − q) auf 2 2 einer Teilmenge von Z2 und B(N, q) auf einer Teilmenge von Z konzentriert ist. 5.83Für die hier behandelte Fragestellung ist die Zahl der Kugeln in der Urne irrelevant. Die Struktur des Urneninhalts wird durch die Anteile q1 , . . . , qn beschrieben. Für k = 1, . . . n entspricht qk der Wahrscheinlichkeit, beim einmaligen Ziehen einer Kugel die Farbe k zu erhalten. 5.84Die Reihenfolge, in der die Kugeln gezogen werden, spielt keine Rolle. 5.85P[Farbe der 1. Kugel = α, Farbe der 2. Kugel = β, . . . ] = q q · · · . α β 5.86Für das Ziehen einer Kugel der Farbe 1 waren schon vorher l Zeitpunkte gewählt worden. 1 5.87 Bei der Bestimmung der Anzahl der Möglichkeiten für die Wahl der Zeitpunkte zum Ziehen von Kugeln der verschiedenen Farben 1, 2, . . . , n wird iterativ das Urnenmodell (U4 ) angewandt. Insbesondere wird (5.4) benutzt. 18. April 2016 98 d.h., die Farbverteilung“ der gezogenen Kugeln ist durch die Multinomialverteilung ” Mn (N, q1 , . . . , qn ) gegeben. Die hypergeometrische Verteilung Hn,M (N, m1 , . . . , mn ) P mit den Parametern n, n M, N ∈ N, m1 , . . . , mn ∈ {1, . . . , M } mit n, N ≤ M und k=1 mk = M ist ein Wahrscheinlichkeitsmaß auf 5.88 1 ,...,mn (5.12) Ωm = ω = (ω1 , . . . , ωn ) : n,N ωk ∈ {0, 1, . . . , mk }, k = 1, . . . , n; n X k=1 ωk = N , mit (5.13) Hn,M (N, m1 , . . . , mn )[{(ω1 , . . . , ωn )}] mn m2 m1 ... ωn ω2 ω1 , = M N Beispiel 5.11. Beim Zahlenlotto 6 aus 49“ ist ” 6 43 r 6−r P[r Richtige] = 5.89 49 6 = 5.90 H2,49 (6, 6, 43)[{(r, 6 − r)}], 1 ,...,mn . ω ∈ Ωm n,N r = 0, 1, . . . , 6. Beispiel 5.12. Eine naheliegende Modifikation von Beispiel 5.10 ergibt sich nach der Forderung, die gezogenen Kugeln nicht wieder zurückzulegen 5.91. Gegeben sei daher eine Urne mit M Kugeln der Farben 1, . . . , n. Für k = 1, . . . , n sei mk die Anzahl der Kugeln der Farbe k 5.92. Aus der Urne wird N mal eine Kugel gezogen und anschließend nicht wieder zurückgelegt. Es gilt 5.93 P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen] 5.94 m1 ,...,mn 5.88Wenn die Stichprobenräume Ω der Multinomialvertein,N , vgl. (5.9), und Ωn,N lung Mn (N, q1 , . . . , qn ), bzw. der hypergeometrischen Verteilung Hn,M (N, m1 , . . . , mn ) verglichen werden, fällt auf, daß ω = (ω1 , . . . , ωn ) ∈ Ωn,N durch ωk ∈ {0, 1, ..., N }, k = 1, . . . , n, aber 1 ,...,mn durch ωk ∈ {0, 1, . . . , mk }, k = 1, . . . , n, eingeschränkt werden. ω ∈ Ωm n,N 5.89Vgl. Beispiel 5.6. 5.90Vgl. (5.12) und (5.13). 5.91Anders als in Beispiel 5.10 ist es nun unerläßlich, für die verschiedenen Farben die Anzahl der Kugeln in der Urne mit dieser Farbe festzulegen. 5.92Offensichtlich muß M = Pn k=1 mk gelten. 5.93Wenn die Kugeln nach dem Ziehen zurückgelegt werden würden, könnte P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen] mn m1 [{(l1 , . . . , ln )}], ,..., = Mn N, M M n X l1 , . . . , ln ∈ {0, 1, . . . , N }, lk = N, k=1 aus Beispiel 5.10 geschlossen werden. Es ist hierbei zu beachten, daß für alle k = 1, . . . , n durch qk = mk /M der Anteil der Kugeln der Farbe k gegeben ist. 18. April 2016 99 mn m2 m1 ... ln l l1 2 = 5.95 M N = Hn,M (N, m1 , . . . , mn )[{(l1 , . . . , ln )}], lk ∈ {0, 1, . . . , mk }, k = 1, . . . , n, n X lk = N. k=1 Beispiel 5.13 (Multinomialapproximation der hypergeometrischen Verteilung). 5.96 Wenn von jeder Farbe, verglichen mit der Anzahl der Ziehungen sehr viele“ ” Kugeln in der Urne sind, spielt es keine wesentliche Rolle, ob nach ihrem Ziehen die Kugeln wieder zurückgelegt werden oder nicht 5.97. Daher wird in diesem Grenzfall die hypergeometrische Verteilung durch die Multinomialverteilung approximiert. Sei n, N ∈ N. Für α ∈ N sei außerdem 5.98 N ≤ Mα ∈ N und α α mα 1 , . . . , mn ∈ {1, . . . , M } mit Es gelte n X α mα k = M . k=1 lim M α = ∞ α→∞ und lim mα k = ∞, k = 1, . . . , n, mα k = qk , α→∞ M α k = 1, . . . , n. α→∞ wobei 5.99 lim Dann folgt α lim Hn,M α (N, mα 1 , . . . , mn )[{(l1 , . . . , ln )}] α→∞ = Mn (N, q1 , . . . , qn )[{(l1 , . . . , ln )}], l1 , . . . , ln ∈ {0, 1, . . . , N }, n X lk = N. k=1 5.94Wie in Beispiel 5.10 spielt die Reihenfolge, in der die Kugeln gezogen werden, keine Rolle. 5.95= (Anzahl der Möglichkeiten, aus einer Menge von M Kugeln N zu entnehmen)−1 × (Anzahl der Möglichkeiten, aus einer Menge von m1 Kugeln der Farbe 1 genau l1 zu entnehmen)× ···. 5.96 Vgl. [5], Satz (2.14). 5.97 Beispielsweise ist es eine vernachlässigbare Änderung, wenn in einer Urne mit ursprünglich 106 Kugeln nach dem Ziehen einer Kugel nicht mehr 105 von 106 Kugeln sondern nur noch 105 − 1 von 106 − 1 Kugeln eine gegebene Farbe f besitzen. Da 105 /106 ≈ (105 − 1)/(106 − 1) ändert sich die Wahrscheinlichkeit, bei einer weiteren Ziehung eine Kugel mit der Farbe f zu ziehen, nicht merklich. 5.98Man betrachtet eine Folge (Uα ) α∈N von Urnen, die asymptotisch bei α → ∞ für jede Farbe eine unbeschränkt wachsende Anzahl von Kugeln enthalten. 5.99Bei α → ∞ stabilisiert“ sich für alle Farben k = 1, . . . , n der Anteil der Kugeln der ” Farbe k bei qk . 18. April 2016 KAPITEL 6 Erwartungswert und Varianz Beim üblichen Arbeiten mit zufälligen Meßwerten oder sonstigen, durch reelle Zahlen beschriebenen Beobachtungen werden Mittelwerte“ zur Beschreibung ty” ” pischer Beobachtungswerte“ verwendet. Dem Mittelwert“ entspricht in der Wahr” scheinlichkeitstheorie der Erwartungswert. Die Genauigkeit der Approximation eines zufälligen Werts durch seinen Mittelwert kann durch seine mittlere quadrierte ” Abweichung“ 6.1 von diesem Mittelwert charakterisiert werden. Diese Größe ent6.2 spricht der Varianz . In den folgenden Abschnitten 6.1 - 6.5 sei (Ω, F, P) ein gegebener Wahrscheinlichkeitsraum, auf dem alle Zufallsvariablen, mit denen gearbeitet wird, definiert sind. Diese Zufallsvariablen seien reellwertig 6.3. 6.1. Erwartungswert für diskrete Zufallsvariablen Sei X eine diskrete Zufallsvariable, d.h., ihr Wertebereich X(Ω) = {X(ω) : ω ∈ Ω} sei eine höchstens abzählbare Teilmenge von R 6.4. Dann besitzt X einen (endlichen) Erwartungswert, wenn 6.5 X |x| P[X = x] < ∞. (6.1) x∈X(Ω) Wenn (6.1) gilt, nennt man X auch integrabel. Man definiert nun den Erwartungswert von X durch X X x PX [{x}]. x P[X = x] = 6.7 (6.2) E[X] := 6.6 x∈X(Ω) x∈X(Ω) Der Erwartungswert E[X] ist damit eine gewichtete Summe über den Wertebereich X(Ω) von X, wobei die möglichen Werte von X mit den Wahrscheinlichkeiten, mit denen sie angenommen werden, gewichtet werden 6.8. 6.1Man betrachtet quadrierte Abweichungen, damit nicht beispielsweise große negative und große positive Abweichungen nach ihrer Mittelung ein geringe Ungenauigkeit bei der Approximation durch den Mittelwert vortäuschen. 6.2Erwartungswert und Varianz einer reellwertigen Zufallsvariable X wurden erstmals in den Beispielen 1.5 und 1.6 vorgestellt. 6.3D.h., ihr Wertebereich ist (R, B(R)). 6.4In diesem Abschnitt 6.1 wird der Erwartungswert nur für diskrete Zufallsvariablen definiert. Zur Erweiterung auf beliebige (R, B(R))-wertige Zufallsvariablen vgl. Abschnitt 6.3. 6.5In (6.1) muß P[X = x] wohldefiniert sein, d.h., {X = x} ∈ F, x ∈ X(Ω). Diese Eigenschaft folgt aus {x} = [x, x] ∈ B(R), x ∈ R, vgl. Abschnitt 2.4.3, und aus der Meßbarkeit von X : (Ω, F) → (R, B(R)), vgl. (3.1). 6.6Wenn (6.1) gilt, konvergiert diese Reihe absolut, d.h., E[X] ist wohldefiniert. 6.7 Die Verteilung PX einer Zufallsvariable X wird in Abschnitt 3.1 beschrieben. 6.8Offensichtlich hängt der Erwartungswert E[X] nur von der Verteilung P ab. Der WahrX scheinlichkeitsraum (Ω, F, P), auf dem die Zufallsvariable X definiert ist, tritt, wie insbesondere die zweite Summe in (6.2) andeutet, nur indirekt in Erscheinung. Allgemeinere Überlegungen in Abschnitt 3.5 zur Bedeutung von Wahrscheinlichkeitsräumen, auf denen zur Modellbildung benutzte Zufallsvariablen X definiert sind, und zur Verteilung PX jener Zufallsvariablen werden somit hier bestätigt. 101 102 Bemerkungen 6.1. (i) Für A ∈ F ist (6.3) E[IA ] 6.9 = 1 · P[IA = 1] + 0 · P[IA = 0] = 6.10 P[A]. (ii) Wenn 6.11 X ≥ 0, f.s., so ist die rechte Seite von (6.2) immer eindeutig definiert 6.12, d.h., für positive, diskrete Zufallsvariablen X kann immer durch (6.2) der Erwartungswert E[X] definiert werden. Allerdings kann in einem solchen Fall E[X] = ∞ sein 6.13. (iii) Da X X (6.4) y (P[X = −y] + P[X = y]) |x| P[X = x] = 6.14 y∈|X|(Ω) x∈X(Ω) = 6.15 X y∈|X|(Ω) = 6.16 E[|X|], y P[X ∈ {−y, y}] | {z } = P[|X| = y] ist eine Zufallsvariable X genau dann integrabel 6.17 , wenn E[|X|] < ∞ ist. Beispiel 6.2. Die Zufallsvariable X habe eine Poissonverteilung mit Parameter λ > 0. Dann folgt 6.18: E[X] = 6.19 ∞ X k P[X = k] = k=0 ∞ X k=0 k· λk exp(−λ) k! ∞ X λk−1 = λ. = λ exp(−λ) (k − 1)! k=1 | {z } ∞ n X λ = exp(λ) = n! n=0 6.20 6.2. Eigenschaften der Abbildung X → E[X] Seien X, Y , X1 , X2 , . . . , Y1 , Y2 , . . . diskrete, integrable, reellwertige Zufallsvariablen. 6.9I A ist die Indikatorfunktion von A, vgl. Fußnote 3.121. Man beachte, daß {IA = 1} = A. 6.11 Vgl. Abschnitt 3.2.5, insbesondere Fußnote 3.155. 6.12Höchstens abzählbare Summen positiver Zahlen sind immer wohldefiniert. 6.13Eine positive, diskrete Zufallsvariable X mit E[X] = ∞ kann beispielsweise mit den in Abschnitt 3.1.1 vorgestellten Methoden konstruiert werden. Insbesondere sei X eine N-wertige Zufallsvariable mit der Verteilung PX = µ = (µn )n∈N , wobei µn = cn−2 , n ∈ N, für c = P∞ P∞ P∞ −2 −1 . In diesem Fall ist E[X] = −1 = ∞. k=1 k n=1 nµn = c n=1 n 6.14|X|(Ω) ist der Wertebereich der Zufallsvariable |X|. 6.15 Für y ∈ |X|(Ω) mit y 6= 0 ist offensichtlich {|X| = y} = {X ∈ {−y, y}} = {X = . −y} ∪ {X = y}. 6.16 Vgl. die Definition des Erwartungswerts in (6.2). Diese Definition wird hier auf die Zufallsvariable |X| angewandt. Da |X| positiv ist, ist E[|X|] immer wohldefiniert, vgl. (ii). 6.17D.h., es gilt (6.1). 6.18Da X ≥ 0, f.s., ist E[X] wohldefiniert, vgl. Bemerkung 6.1(ii). 6.19Vgl. (6.2). 6.20Die Abbildung X → E[X] ist auf einer Teilmenge A der Menge aller reellwertigen Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P) definiert. A enthält zumindest die diskreten, integrablen und die diskreten, positiven Zufallsvariablen, vgl. Abschnitt 6.1 und dort insbesondere Bemerkung 6.1(ii). Weitere Zufallsvariablen in A werden in Abschnitt 6.3 vorgestellt. 6.10 18. April 2016 103 Monotonie des Erwartungswerts. Ist X ≤ Y , f.s. 6.22 E[X] ≤ (6.5) 6.21 , so folgt: E[Y ]. Linearität des Erwartungswerts. Die Zufallsvariablen 6.23 X +Y , bzw. cX mit c ∈ R sind integrabel. Es gilt: E[cX] = 6.24 cE[X], E[X + Y ] = 6.25 E[X] + E[Y ]. (6.6a) (6.6b) 6.21D.h., P[{ω ∈ Ω : X(ω) ≤ Y (ω)}] = 1. 6.22Es gilt: X E[X] = x∈X(Ω) X = (∗) x P[X = x] | {z } [ • = P[X = x, Y ∈ Y (Ω)] = P X x∈X(Ω) y∈Y (Ω) ≤ X X x P[X = x, Y = y] | {z } ( = 0, wenn x > y, ≥ 0, wenn x ≤ y, y∈Y (Ω) {X = x, Y = y} (σ-Additivität von P) (da X ≤ Y , f.s.) y P[X = x, Y = y] x∈X(Ω) y∈Y (Ω) = E[Y ]. Im letzten Schritt wird hier die zu (∗) führende Argumentation in umgekehrter Reihenfolge wiederholt. Da die Zufallsvariablen X und Y integrabel sind, konvergieren alle Reihen absolut, d.h., es ist gerechtfertigt, hierbei die Summationsreihenfolge zu vertauschen. 6.23 Die Zufallsvariable X + Y ist durch (X + Y )(ω) = X(ω) + Y (ω), ω ∈ Ω, definiert. 6.24O.E.d.A. sei c 6= 0. Da X X (∗1 ) |z| P[cX = z] = |cx| P[cX = cx] (man setze z = cx) {z } | z∈(cX)(Ω) x∈X(Ω) = P[X = x] X = |c| |x| P[X = x], x∈X(Ω) folgt die Integrabilität von cX aus der Integrabilität von X. Jetzt ist es gerechtfertigt, in (∗1 ) die Betragsstriche wegzulassen und damit (6.6a) nachzuweisen. 6.25Die Zufallsvariable X + Y ist diskret, da (X + Y )(Ω) ⊆ X(Ω) + Y (Ω) = {z ∈ R : z = x + y, x ∈ X(Ω), y ∈ Y (Ω)}. Weiterhin ist X E[|X + Y |] = |z| P[X + Y = z] (vgl. (6.4)) z∈(X+Y )(Ω) X = X z∈(X+Y )(Ω) x∈X(Ω),y∈Y (Ω) x+y=z (∗2 ) |x + y| P[X = x, Y = y] • S da {X + Y = z} = x∈X(Ω),y∈Y (Ω),x+y=z {X = x, Y = y} X ≤ (|x| + |y|) P[X = x, Y = y] x∈X(Ω),y∈Y (Ω) X = |x| P[X = x, Y = y] + x∈X(Ω),y∈Y (Ω) | = X x∈X(Ω) {z ... |x| P[X = x] + } X y∈Y (Ω) X x∈X(Ω),y∈Y (Ω) | = X y∈Y (Ω) |y| {z X x∈X(Ω) } P[X = x, Y = y] {z } | = P[X ∈ X(Ω), Y = y] = P[Y = y] |y| P[Y = y] < ∞ 18. April 2016 |y| P[X = x, Y = y] (da X und Y integrabel sind), 104 σ-Additivität des Erwartungswerts, bzw. Satz von der monotonen Konvergenz. Sei P∞ Xk ≥ 0, f.s., k ∈ N, und sei 6.26 X = k=1 Xk , f.s. In diesem Fall ist 6.27 (6.7) E[X] = ∞ X E[Xk ]. k=1 Wenn Yk ր Y , f.s., d.h., Y1 ≤ Y2 ≤ . . . , f.s., und so folgt 6.29 (6.8) 6.28 limk→∞ Yk = Y , f.s., lim E[Yk ] = E[Y ]. k→∞ Die beiden Beziehungen (6.7) und (6.8) gehören zu jener Klasse mathematischer Resultate, die die Vertauschbarkeit von Limiten, unendlichen Summen und Integralen beschreiben. Produktregel für unabhängige Zufallsvariablen. Die Zufallsvariablen X und Y seien unabhängig 6.30. Dann ist X · Y integrabel 6.31 mit 6.32 E[X · Y ] = (6.9) E[X] · E[Y ]. d.h., die Zufallsvariable X + Y ist integrabel. In den obigen Berechnungen ist es nun zulässig, alle Betragsstriche wegzulassen. Dann gilt überall Gleichheit, insbesondere auch in (∗2 ). Damit ist (6.6b) nachgewiesen. 6.26Diese Annahmen bedeuten, daß es ein Ω ∈ F mit P[Ω ] = 1 gibt, so daß X (ω) ≥ 0, 1 1 k P k ∈ N, und ∞ n=1 Xn (ω) = X(ω) für alle ω ∈ Ω1 . 6.27Vgl. [5], Satz (4.7)(c). 6.28Die fast-sichere Konvergenz wird in Abschnitt 6.8(b) genau beschrieben. 6.29Zum Beweis von (6.8) mit Hilfe von (6.7) definiere man X := Y und X := Y − Y n n 1 1 n−1 , n = 2, 3, . . . . Bei den nun folgenden Argumenten spielt es keinePRolle, daß Y1 = X1 nicht unbedingt f.s. nichtnegativ ist. Da Xk ≥ 0, f.s., k = 2, 3, . . . , und Yn = n k=1 Xk , f.s., n ∈ N, gilt zunächst (∗) Y = lim n→∞ Mit E[Y ] = ∞ X E[Xk ] n X Xk = k=1 ∞ X Xk , f.s. k=1 (vgl. (∗) und (6.7)) k=1 = lim n→∞ n X E[Xk ] k=1 = lim E[Yn ] n→∞ (da E[Xk ] ≥ 0, k = 2, 3, . . . ) (wegen (6.6b) und da Yn = Pn k=1 Xk ) ist dann (6.8) bewiesen. 6.30Vgl. (3.8). 6.31Die Integrabilität von X und Y war vorausgesetzt worden. Falls X und Y nicht unabhängig sind, braucht übrigens X · Y nicht integrabel zu sein. Wenn beispielsweise X integrabel mit E[X 2 ] = ∞ ist, so ist X · Y mit Y = X nicht integrabel. 6.32Zunächst ist es offensichtlich, daß mit X und Y auch XY eine diskrete Zufallsvariable ist. Da X X X E[|XY |] = |z| P[XY = z] = |z| P[X = x, Y = y] z∈(XY )(Ω) z∈(XY )(Ω) x∈X(Ω),y∈Y (Ω) xy=z • S (da {XY = z} = x∈X(Ω),y∈Y (Ω),xy=z {X = x, Y = y}) X = |xy| P[X = x, Y = y] {z } | x∈X(Ω),y∈Y (Ω) = P[X = x]P[Y = y] (X, Y unabhängig) ! ! X X = |x| P[X = x] |y| P[Y = y] x∈X(Ω) = E[|X|] · E[|Y |] y∈Y (Ω) (vgl. (6.4)), 18. April 2016 105 Normierung des Erwartungswerts. Die Zufallsvariable X mit X = 1, f.s., ist integrabel mit (6.10) E[X] = 6.33 1. 6.3. Erwartungswert für allgemeine, reellwertige Zufallsvariablen Zur Berechnung von E[X] wird eine allgemeine, nicht notwendigerweise diskrete, reellwertige Zufallsvariable X hinreichend fein diskretisiert“ und anschließend ” die Asymptotik für die Erwartungswerte der Diskretisierungen untersucht. Zu m ∈ N sei eine diskrete Zufallsvariable X(m) : (Ω, F, P) → (R, B(R)) gemäß 6.34 1 (6.11) X(m) (ω) = ⌊mX(ω)⌋, ω ∈ Ω, m definiert. X(m) ist die größte diskrete Zufallsvariable, die Werte k/m, k ∈ Z, annimmt und kleiner oder höchstens gleich X ist. Satz 6.3. (a) Bei n → ∞ konvergiert X(n) gegen die Zufallsvariable X. Insbesondere ist 1 (6.12) X(n) ≤ X ≤ X(n) + , n ∈ N. n (b) Wenn X(n0 ) für ein n0 ∈ N integrabel 6.35 ist, so sind alle Zufallsvariablen X(n) , n ∈ N, integrabel. In diesem Fall ist E[X(n) ], n ∈ N, eine Cauchy-Folge 6.36. Satz 6.3 legt nahe, die Zufallsvariable X als integrabel zu bezeichnen, wenn für ein n0 ∈ N ihre diskrete Approximation X(n0 ) integrabel ist. In diesem Fall kann (6.13) E[X] := lim E[X(n) ] n→∞ definiert werden. Beweis (von Satz 6.3). (a) Die Abschätzungen (6.12) folgen aus nX(n) (ω) = 6.37 ⌊nX(ω)⌋ ≤ nX(ω) ≤ ⌊nX(ω)⌋ + 1 = 6.37 nX(n) (ω) + 1, ω ∈ Ω, nach Division durch n. (b) Es sei nun angenommen, daß X(n0 ) integrabel ist, d.h., daß E[|X(n0 ) |] < ∞ 6.38. Aus (6.12) folgt für alle n ∈ N weiterhin 1 1 (6.14) ≤ |X(n0 ) | + , X(n) ≤ X ≤ X(n0 ) + n0 n0 1 1 1 −X(n) ≤ −X + ≤ −X(n0 ) + ≤ |X(n0 ) | + , n n n folgt die Integrabilität von XY aus der Integrabilität von X und Y . (6.9) ergibt sich nun, wenn in diesen Berechnungen auf die Betragsstriche verzichtet wird. 6.33Man beachte, daß E[|X|] = E[X] = 1 · P[X = 1] = 1. | {z } = P[Ω] = 1 6.34Für z ∈ R ist ⌊z⌋ = sup{n ∈ Z : n ≤ z}. ⌊z⌋ ist die größte ganze Zahl, die kleiner oder höchstens gleich z ist. 6.35Vgl. (6.1) und (6.4) zur Definition und Charakterisierung der Integrabilität einer diskreten Zufallsvariable. 6.36Damit existiert lim n→∞ E[X(n) ]. 6.37Vgl. (6.11). 6.38Vgl. Bemerkung 6.1(iii). 18. April 2016 106 d.h., |X(n) | ≤ |X(n0 ) | + max 1 o , n n0 n1 , n ∈ N. Wegen der Monotonie des Erwartungswerts für diskrete Zufallsvariablen somit ist n ∈ N. E[|X(n) |] ≤ E[|X(n0 ) |] + 1, Daher sind alle Zufallsvariablen X(n) , n ∈ N, integrabel 6.40. Wenn n0 in (6.14) durch m ∈ N ersetzt wird, ergibt sich E[X(n) ] ≤ E[X(m) ] + 6.39 6.41 1 , m −E[X(n) ] ≤ − E[X(m) ] + 1 , n n, m ∈ N, woraus n1 1 o , n, m ∈ N, |E[X(n) ] − E[X(m) ]| ≤ max , n m folgt. Somit ist gezeigt, daß E[X(n) ], n ∈ N, eine Cauchy-Folge ist. Bemerkungen 6.4. (i) Die in Abschnitt 6.2 zunächst nur für diskrete Zufallsvariablen vorgestellten Eigenschaften des Erwartungswerts gelten auch für allgemeine, integrable Zufallsvariablen mit Werten in (R, B(R)) 6.42. (ii) Den durch (6.5), (6.6) und (6.8) repräsentierten Eigenschaften 6.43 des Erwartungswerts, d.h., der reellwertigen Abbildung Y → E[Y ] auf dem Raum der reellwertigen, integrablen Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P) d entsprechen völlig R analoge Eigenschaften des Integrals auf R , d.h., der reellwertigen Abbildung f → Rd dx f (x) auf dem Raum der integrablen, reellwertigen Funktionen auf Rd 6.44. Insbesondere definiert die Zuordnung Y → E[Y ] ein abstraktes Integral 6.45. Wenn in der Stochastik in komplexen Situationen Erwartungswerte zu bearbeiten sind, wird somit die allgemeine Integrationstheorie oder Maßtheorie benötigt. (iii) Um die in (ii) genannte Integraleigenschaft des Erwartungswerts zu betonen, schreibt man für den Erwartungswert E[X] einer (R, B(R))-wertigen Zufallsvariablen X auf einem Wahrscheinlichkeitsraum (Ω, F, P) auch Z Z (6.15) E[X] = X(ω) P(dω) = X dP. Ω Ω 6.39Vgl. (6.5). Hier wird außerdem noch max{1/n, 1/n } ≤ 1, die Linearität des Erwartungs0 werts, vgl. (6.6), und die Normierung des Erwartungswerts, vgl. (6.10), berücksichtigt. 6.40Vgl. Bemerkung 6.1(iii). 6.41Insbesondere müssen hier noch die Monotonie, die Linearität und die Normierung des Erwartungswerts für diskrete Zufallsvariablen, vgl. (6.5), (6.6) und (6.10), benutzt werden. 6.42Zum Beweis vgl. [5], Satz (4.11). 6.43Damit sind die Monotonie, die Linearität und die Gültigkeit des Satzes von der monotonen Konvergenz gemeint. 6.44Die durch (6.9) beschriebene Faktorisierungseigenschaft des Erwartungswerts eines R R Produkts unabhängiger Zufallsvariablen entspricht der Beziehung Rd Rd dx dy f (x)g(y) = R R Rd dx f (x) · Rd dy g(y). Die Normierungseigenschaft (6.10) spiegelt die Tatsache wider, daß das zugrundeliegende Maß P, bzgl. dessen bei der Bestimmung des Erwartungswerts auf (Ω, F) integriert“ wird, vgl. ” (6.15), ein Wahrscheinlichkeitsmaß ist. 6.45Ein abstraktes Integral ist eine monotone, lineare Abbildung auf einem Stoneschen Vektorverband, für die eine geeignete Variante des Satzes von der monotonen Konvergenz gilt, vgl. [2], §39. 18. April 2016 107 Beispiel 6.5 (Erwartungswert für eine reellwertige Zufallsvariable mit Dichte). Die Verteilung PX einer reellwertigen Zufallsvariable X habe eine Dichte f bzgl. des Lebesguemaßes 6.46, d.h., Z dx f (x), A ∈ B(R). (6.16) PX [A] = P[X ∈ A] = A Es sei vorausgesetzt, daß X integrabel ist. Dies ist genau dann der Fall, wenn Z ∞ dx |x|f (x) < ∞. (6.17) 6.47 −∞ Nun folgt E[X] = 6.48 = 6.49 = 6.50 = 6.51 lim E[X(n) ] n→∞ ∞ X k k P X(n) = n→∞ n n k=−∞ | {z } = PX [k/n, (k + 1)/n) Z ∞ X k (k+1)/n dx f (x) lim n→∞ n k/n k=−∞ Z ∞ ∞ Z (k+1)/n X 1 1 lim dx ⌊xn⌋f (x) = lim dx ⌊xn⌋f (x). n→∞ n→∞ n n k/n −∞ lim k=−∞ Da 6.52 supx∈R |x − ⌊xn⌋/n| ≤ 1/n, n ∈ N, ergibt sich Z ∞ Z ∞ 1 dx ⌊xn⌋f (x) − dx xf (x) n −∞ −∞ Z Z ∞ 1 1 ∞ 1 dx f (x) = , ≤ dx ⌊xn⌋ − xf (x) ≤ n n n −∞ −∞ n ∈ N, 6.46Vgl. Abschnitt 2.6. 6.47Nach (6.1) und Satz 6.3 ist zu prüfen, ob (∗) ∞ > ∞ X k k P X(n0 ) = n0 n0 k=−∞ Z ∞ ∞ X X k k+1 |k| |k| (k+1)/n0 dx f (x) P X∈ , = = n n0 n0 n k=−∞ 0 k=−∞ 0 k/n0 Z (k+1)/n0 ∞ X |⌊xn0 ⌋| f (x) (da k = ⌊xn0 ⌋ für x ∈ [k/n0 , (k+1)/n0 )) = dx n0 k/n 0 k=−∞ Z ∞ |⌊xn0 ⌋| = dx f (x) n0 −∞ für ein n0 ∈ N. Da |⌊xn⌋| 1 1 ≤ ≤ |x| + , x ∈ R, n ∈ N, n n n gilt (∗) genau dann, wenn (6.17) zutrifft. 6.48Vgl. (6.13). Die Folge X , k ∈ N, diskreter Approximationen für die Zufallsvariable X (k) wird in (6.11) beschrieben. 6.49 Hier wird die Definition des Erwartungswerts für diskrete Zufallsvariablen benutzt, vgl. (6.2). Außerdem findet die Tatsache Verwendung, daß X(n) die Werte k/n, k ∈ Z, jeweils annimmt, wenn X ∈ [k/n, (k + 1)/n), d.h. mit der Wahrscheinlichkeit P[X ∈ [k/n, (k + 1)/n)] = PX [[k/n, (k + 1)/n)]. 6.50 Vgl. (6.16). 6.51 Beachte, daß k = ⌊xn⌋, falls x ∈ [k/n, (k + 1)/n). 6.52 Vgl. die zu (6.12) führenden Überlegungen. |x| − 18. April 2016 108 und damit E[X] = Z ∞ dx xf (x). −∞ Beispiel 6.6. Für eine Rd -wertige Zufallsvariable X mit Dichte f und eine meßbare Funktion H : (Rd , B(Rd )) → (R, B(R)) ist die Zufallsvariable H(X) integrabel, wenn Z dx |H(x)|f (x) < ∞. Rd In diesem Fall ist E[H(X)] = Z dx H(x)f (x). Rd Für eine beliebige 6.53 positive Zufallsvariable kann man die Definition E[X] := ∞ einführen, wenn E[X(n0 ) ] = ∞ 6.54 für ein n0 ∈ N 6.55. Eine beliebige reellwertige Zufallsvariable X hat die Zerlegung X = X+ − X− , wobei X+ = max{X, 0} und X− = max{−X, 0} 6.56. Der Erwartungswert E[X] ist nun auf eine eindeutige Weise durch 6.57 (6.18) definierbar 6.58 , wenn nicht E[X] = E[X+ ] − E[X− ] E[X+ ] = E[X− ] = ∞. (6.19) Wenn (6.19) zutrifft, existiert der Erwartungswert von X nicht 6.59. Eine Zufallsvariable X besitzt genau dann einen endlichen Erwartungswert E[X], wenn E[X+ ] + E[X− ] = E[|X|] < ∞, d.h., wenn X integrabel ist 6.60. 6.4. Varianz und verwandte Begriffe Neben dem Erwartungswert gibt es weitere Kenngrößen, die reellwertigen Zufallsvariablen, bzw. einer endlichen Menge X1 , . . . , Xn solcher Zufallsvariablen zu deren Charakterisierung zugeordnet werden können 6.61. Wenn für eine reellwertige Zufallsvariable X und ein r ∈ N die Zufallsvariable X r einen Erwartungswert besitzt 6.62, so bezeichnet man E[X r ] als das r-te Moment von X. Wenn |X|r integrabel 6.63 ist, d.h., wenn E[|X|r ] < ∞ ist, gilt E[X r ] ∈ (−∞, ∞), d.h., X besitzt eine endliches r-tes Moment. 6.53D.h. nicht notwendigerweise diskrete Zufallsvariable. 6.54In diesem Fall sollte also P x∈X (Ω) x P[X(n0 ) = x] = ∞ sein, vgl. Bemerkung 6.1(ii). (n0 ) Diese Summe ist wohldefiniert, weil X(n) (Ω) ⊂ [0, ∞), n ∈ N. P 6.55Nach Satz 6.3(b) ist dann E[X (n) ] = x∈X (Ω) x P[X(n) = x] = ∞ für alle n ∈ N. 6.56X (n) und X− , die als Positiv-, bzw. Negativteil von X bezeichnet werden können, sind positive Zufallsvariablen. 6.57Bei der Definition (6.18) wird die allgemeine Gültigkeit der Linearität des Erwartungswerts, vgl. (6.6) und Bemerkung 6.4(i), zugrundegelegt. 6.58Die Werte ∞ oder −∞ für E[X] sind nun möglich. 6.59In Beispiel 6.11 wird (6.19) nachgewiesen für eine Zufallsvariable X mit einer CauchyVerteilung, d.h. mit einer Dichte f (x) = a/(π(a2 + x2 )), x ∈ R, für ein a > 0, vgl. Abschnitt 2.6. 6.60Angeregt durch Satz 6.3 wurde eine Zufallsvariable X als integrabel bezeichnet, wenn eine diskrete Approximation X(n0 ) integrabel ist, d.h., wenn E[|X(n0 ) |] < ∞ für ein n0 ∈ N. Nun impliziert (6.12), daß |X(n0 ) | − 1/n0 ≤ |X| ≤ |X(n0 ) | + 1/n0 , d.h., es gilt E[|X(n0 ) |] < ∞, genau dann, wenn E[|X|] < ∞. 6.61Eine eindeutige Charakterisierung von X , . . . , X ist mit diesen Kenngrößen nicht n 1 möglich. Allerdings können sie über gewisse Eigenschaften jener Zufallsvariablen informieren. 6.62Die Existenz des Erwartungswerts einer beliebigen reellwertigen Zufallsvariable wird am Ende von Abschnitt 6.3 diskutiert. 6.63Die Integrabilität einer Zufallsvariable wird insbesondere am Anfang von Abschnitt 6.1, unmittelbar nach Satz 6.3, bzw. am Ende von Abschnitt 6.3 erläutert. + 18. April 2016 109 Bemerkungen 6.7. (i) Wenn eine Zufallsvariable X für ein r ∈ N ein endliches r-tes Moment besitzt, so besitzt X auch für alle s ∈ N mit s ≤ r ein endliches s-tes Moment 6.64. (ii) Für einen Wahrscheinlichkeitsraum (Ω, F, P) und p ∈ [1, ∞) ist Lp (Ω, F, P) die Menge der reellwertigen Zufallsvariablen mit E[|X|p ] < ∞. Hierbei werden zwei Zufallsvariablen X und X ′ mit X = X ′ , f.s., als identisch betrachtet. Ausgestattet mit der Norm kXkp := E[|X|p ]1/p bildet Lp (Ω, F, P) einen Banachraum 6.65. Der Raum 6.66 L2 (Ω, F, P) ist sogar ein Hilbertraum, wenn durch hX, Y i := E[XY ], X, Y ∈ L2 (Ω, F, P) ein Skalarprodukt definiert wird 6.67. Für X ∈ L2 (Ω, F, P) bezeichnet (6.20) Var(X) := E[(X − E[X])2 ] = 6.68 E[X 2 ] − E[X]2 dieVarianz von X. Offensichtlich ist Var(X) ≥ 0, X ∈ L2 (Ω, F, P). Daher folgt aus (6.20) die Cauchysche Ungleichung (6.21) E[X]2 ≤ E[X 2 ], X ∈ L2 (Ω, F, P). Weiterhin ist Var(X) = 0, genau dann, wenn X = E[X], f.s., d.h., wenn X deterministisch ist. (6.22) σX := p Var(X) heißt Standardabweichung oder Streuung von X. Sowohl Var(X) als auch σX charakterisieren die Größe der Abweichungen“ der Zufallsvariablen X von ihrem ” Erwartungswert E[X] 6.69. Im Gegensatz zu Var(X) ist σX von der “gleichen Größenordnung“ wie X − E[X]. Allerdings ist Var(X) in mathematischen Berechnungen leichter als σX zu bearbeiten. Für X, Y ∈ L2 (Ω, F, P) bezeichnet (6.23) Cov(X, Y ) := E[(X − E[X])(Y − E[Y ])] = 6.70 E[XY ] − E[X]E[Y ] 6.64Es gilt |X|s ≤ 1 + |X|r , 1 ≤ s ≤ r < ∞, d.h., die Monotonie des Erwartungswerts, vgl. (6.5), die Linearität des Erwartungswerts, vgl. (6.6), und die Normierung des Erwartungswerts, vgl. (6.10), ergeben E[|X|s ] ≤ 1 + E[|X|r ] < ∞, 1 ≤ s ≤ r < ∞. 6.65Ein Banachraum ist ein vollständiger, normierter Vektorraum. 6.66Eine Zufallsvariable X ∈ L2 (Ω, F, P) wird auch quadratintegrabel genannt. p 6.67Allgemein ist ein Hilbertraum H ein Banachraum, dessen Norm k.k durch kxk = hx, xi, x ∈ H, mit einem Skalarprodukt h., .i gegeben ist. 6.68Diese Gleichheit folgt aus E[(X − E[X])2 ] = E[X 2 − 2XE[X] + E[X]2 ] = E[X 2 ] − 2E[X]E[X] + E[X]2 (vgl. (6.6) und (6.10)) = E[X 2 ] − E[X]2 . 6.69Der Erwartungswert E[X] beschreibt einen typischen“ Wert von X. ” 18. April 2016 110 die Kovarianz von X und Y . Falls die Zufallsvariablen X, Y ∈ L2 (Ω, F, P) nichtdeterministisch sind 6.71, so ist (6.24) ρX,Y := Cov(X, Y ) σX · σY deren Korrelation. Zufallsvariablen X, Y ∈ L2 (Ω, F, P) mit Cov(X, Y ) = ρX,Y = 0 werden unkorreliert genannt. Andererseits sind X und Y positiv korreliert, wenn 6.72 ρX,Y > 0, d.h., wenn typischerweise“ X und Y gleichzeitig größer, bzw. kleiner als ihre Er” wartungswerte E[X] und E[Y ] sind. Negative Korrelation ρX,Y < 0 bedeutet, daß typischerweise“ X genau dann größer als E[X] ist, wenn Y kleiner als E[Y ] ist 6.73. ” In (6.24) werden durch die Division durch σX und σY die Abweichungen X − E[X], bzw. Y −E[Y ] der Zufallsvariablen X und Y von ihrem jeweiligen Erwartungswert normiert 6.74. Als Folge ist ρX,Y unabhängig“ 6.75 von den Größenordnungen ” von X − E[X] und Y − E[Y ] und damit gut zu einer quantitativen Charakterisierung der Abhängigkeiten zwischen diesen Fluktuationen von X und Y geeignet 6.76. Andererseits ist in mathematischen Berechnungen mit Cov(X, Y ) wesentlich besser zu arbeiten. Um Zusammenhänge“ in einer endlichen Menge X1 , . . . , Xn reellwertiger Zu” fallsvariablen darzustellen, können die Kovarianzen für Paare dieser Zufallsvariablen zu einer Kovarianzmatrix Cov(X1 , . . . , Xn ) := Cov(Xk , Xl ) k,l=1,...,n zusammengefaßt werden 6.77 . Beispiel 6.8 (Unkorreliertheit und Unabhängigkeit). Unkorreliertheit, bzw. Unabhängigkeit haben in anwendungsorientierten Überlegungen eine ähnliche Bedeutung. Als mathematische Begriffe betrachtet, sind sie jedoch sehr unterschiedlich. Seien zunächst X und Y zwei unabhängige, reellwertige Zufallsvariablen mit E[X 2 ], E[Y 2 ] < ∞. Dann ist ρX,Y = 0, d.h., X und Y sind unkorreliert 6.78. Wie das folgende Beispiel zeigt, folgt umgekehrt aus der Unkorreliertheit nicht die Unabhängigkeit. 6.70Diese Gleichheit folgt aus E[(X − E[X])(Y − E[Y ])] = E[XY − XE[Y ] − E[X]Y + E[X]E[Y ]] = E[XY ] − 2E[X]E[Y ] + E[X]E[Y ] (vgl. (6.6) und (6.10)) = E[XY ] − E[X]E[Y ]. 6.71D.h., falls σ > 0 und σ > 0. X Y 6.72Für nicht-deterministische Zufallsvariablen X, Y ∈ L2 (Ω, F, P) folgt aus (6.24) und der Positivität von σX und σY , daß ρX,Y > 0 genau dann, wenn Cov(X, Y ) > 0. 6.73Die hier beschriebene Interpretation der Korrelation zweier Zufallsvariablen wird in Beispiel 6.9 verdeutlicht werden. 6.74Beispielsweise ist (X −E[X])/σ ∼ 1, gleichgültig ob typischerweise“ (X −E[X]) ∼ 1010 X ” oder (X − E[X]) ∼ 10−10 . 6.75 Unabhängigkeit“ ist hier in einem umgangssprachlichen und nicht mathematisch rigo” rosen Sinn gemeint. 6.76Mit ρ X,Y können Zusammenhänge zwischen X und Y verdeutlicht werden, auch wenn die Werte jener Zufallsvariablen völlig unterschiedliche Größenordnungen besitzen, vgl. Fußnote 6.74. 6.77Für endlich viele gemeinsam normalverteilte, reellwertige Zufallsvariablen ist deren Kovarianzmatrix ein die gemeinsame Verteilung, eine mehrdimensionale Normalverteilung kennzeichnender Parameter, vgl. (3.15) und Fußnote 3.117. 6.78Nach der Produktregel für unabhängige, integrable Zufallsvariablen, vgl. (6.9), ist E[XY ] = E[X]E[Y ]. Somit ist Cov(X, Y ) = E[XY ] − E[X]E[Y ] = 0, vgl. (6.23). 18. April 2016 111 Sei Ω = {1, 2, 3}, F = Pot(Ω) und P die Gleichverteilung auf (Ω, F). Die reellwertigen Zufallsvariablen X und Y auf (Ω, F, P) seien durch X(1) = 1, X(2) = 0, Y (1) = 0, Y (2) = 1, X(3) = −1, Y (3) = 0, gegeben. Diese Zufallsvariablen sind unkorreliert, da E[XY ] = 0 = E[X] = E[X] · E[Y ], aber nicht unabhängig, denn P[X = 1, Y = 1] = 0 6= 1 = P[X = 1] · P[Y = 1]. 9 Beispiel 6.9 (Korrelationen in einem Populationsmodell). 6.79 Ein Modell für die zeitliche Entwicklung einer Population pflanzenfressender Tiere in einem abgeschlossenen Areal 6.80 ist zu entwerfen 6.81. Als Modell sei ein stochastischer Prozeß X = (Xn )n∈N0 mit Xn = (Pn , Nn , Vn , νn ), n ∈ N0 , zu bestimmen, wobei Pn die Populationsgröße, Nn das Nahrungsangebot, Vn der Nahrungsverbrauch und νn (≈ Nn /Pn ) das durchschnittliche Nahrungsangebot zur Zeit n ∈ N0 ist. Auf eine konkrete Beschreibung eines geeigneten Prozesses X soll hier nicht eingegangen werden. Allerdings sollen Eigenschaften festgehalten werden, die ein vernünftiges“, die Realität widerspiegelndes Modell evtl. besitzen könnte. Insbe” sondere sollen einige Korrelationen zwischen den einzelnen Zufallsvariablen Pn , Nn , Vn , νn , n ∈ N0 , diskutiert werden. 1. Fall. Für spezielle Populationen kann beispielsweise erwartet werden, daß 6.82 • ρPn ,Nn = 0 6.83 (Alternative: ρPn ,Nn+1 < 0 6.84), • ρPn ,Vn > 0 6.85, • ρPn ,νn < 0 6.86, • ρNn ,νn ≥ 0 6.87, . . . Wenn in einem vorgeschlagenen Modell eine dieser Beziehungen verletzt ist, könnte dies ein Grund sein, jenes Modell zu überdenken und evtl. zu modifizieren. 2. Fall. In anderen Situationen könnte die Populationsgröße z.B. aufgrund externer Einflüsse 6.88 ständig auf einem relativ niedrigen Niveau bleiben. Dann sollten die zeitlichen Entwicklungen der Tierpopulation und des Nahrungsangebots unabhängig werden und somit Korrelationen wie ρPn ,Nk oder ρPn ,νk 6.79In diesem Beispiel soll erläutert werden, wie heuristische Überlegungen Eigenschaften von Korrelationen zwischen zufälligen beobachtbaren Größen x1 , . . . , xn in einem realen Umfeld aufdecken können. Zur Überprüfung eines mathematischen Modells wäre es dann notwendig, diese Eigenschaften für jene Zufallsvariablen X1 , . . . , Xn , die x1 , . . . , xn modellieren, zu verifizieren. 6.80 Z.B. eine Insel. 6.81 Es sollen hier nur einige Gedankengänge vorgestellt werden, die bei der Entwicklung und der Überprüfung eines Modells brauchbar sein können, vgl. Fußnote 6.79. 6.82Diese Beziehungen sollten zumindest dann gelten, wenn sich ein gewisses Gleichgewicht“ ” in dem betrachteten System eingestellt hat, also für große Zeiten n. 6.83Die Anzahl der Tiere hat keinen Einfluß auf das Wachstum der Pflanzen. 6.84Ein negativer Einfluß einer großen Tierpopulation auf das zukünftige Nahrungsangebot kann dann eintreten, wenn die Tiere die Wurzeln der Pflanzen zerstören oder die jungen Triebe wegfressen. 6.85Viele Tiere fressen viel. 6.86In einer größeren Population steht den einzelnen Tieren ein kleinerer Anteil des gesamten Nahrungsangebots zur Verfügung. 6.87Wenn insgesamt ein größeres Nahrungsangebot zur Verfügung steht, fällt für jedes einzelne Tier mehr ab. 6.88Beispielsweise als Resultat der Verfolgung durch Raubtiere oder durch Stress, bzw. erhöhte Anfälligkeit gegenüber Krankheiten bei größeren Populationsdichten. 18. April 2016 112 für alle n, k ∈ N0 verschwinden. Es könnte nun ausreichen, ein Modell für die Dynamik von (Pn )n∈N0 allein zu entwerfen 6.89. 6.4.1. Rechenregeln für Varianz und Kovarianz. X, Y, X1 , . . . , Xn : (Ω, F, P) → (R, B(R)) seien Zufallsvariablen in L2 (Ω, F, P) 6.90. (a) Für a, b, c, d ∈ R gilt (6.25) Cov(aX + b, cY + d) = ac Cov(X, Y ). Insbesondere ist 6.91 Var(aX + b) = a2 Var(X). (6.26) Varianz und Kovarianz sind daher invariant unter der Addition von Konstanten 6.92. Beweis. Offensichtlich ist Cov(aX + b, cY + d) = E (aX + b − E[aX + b])(cY + d − E[cY + d]) = 6.93 E (aX − E[aX])(cY − E[cY ]) = 6.94 ac E (X − E[X])(Y − E[Y ]) = ac Cov(X, Y ). (b) Es gilt (6.27) n X Var(X1 + · · · + Xn ) = Var(Xk ) + k=1 X Cov(Xk , Xl ). k,l=1,...,n k6=l Insbesondere addieren sich für unkorrelierte Zufallsvariablen X1 , . . . , Xn ihre Varianzen, d.h., (6.28) Var(X1 + · · · + Xn ) = n X Var(Xk ), k=1 falls Cov(Xk , Xl ) = 0, k 6= l. Beweis. Einfache Überlegungen zeigen, daß 2 Var(X1 + · · · + Xn ) = E X1 + · · · + Xn − E[X1 + · · · + Xn ] | {z } = E[X1 ] + · · · + E[Xn ] " n # X =E (Xk − E[Xk ])(Xl − E[Xl ]) = k,l=1 n X 6.95 E (Xk − E[Xk ])(Xl − E[Xl ]) | {z } k,l=1 = Cov(Xk , Xl ) 6.89In einer derartigen Situation kann die das Nahrungsangebot bestimmende Umwelt als zeitlich konstant betrachtet werden. Somit kann angenommen werden, daß die zeitliche Entwicklung von (Pn )n∈N0 nicht durch äußere Kräfte“ beeinflußt ist, d.h. einer autonomen Dynamik ” unterliegt. 6.90Vgl. Bemerkung 6.7(ii). 6.91Man beachte, daß Var(Z) = Cov(Z, Z), Z ∈ L2 (Ω, F, P). 6.92Da Varianz und Kovarianz die Fluktuationen von Zufallsvariablen um ihren Erwartungswert beschreiben, ist dieses Verhalten auch zu erwarten. 6.93Wegen der Linearität des Erwartungswerts, vgl. (6.6), und der Normierung des Erwartungswerts, vgl. (6.10). 6.94Wegen der Linearität des Erwartungswerts, vgl. (6.6). 18. April 2016 113 n X = X Var(Xk ) + k=1 Cov(Xk , Xl ). k,l=1,...,n k6=l (c) Als Verallgemeinerung der Cauchyschen Ungleichung 6.96 gilt 2 Cov(X, Y ) ≤ Var(X) Var(Y ). (6.29) e = X − E[X] und Ye = Y − E[Y ] ergibt sich Beweis. Mit X Cov(X, Y )2 = ≤ 6.97 e Ye )2 = Cov(X, 6.100 6.98 e Ye ]2 = E[X 6.99 e Ye i2 hX, e 2 kYe k2 = E[X e 2 ]E[Ye 2 ] = Var(X) Var(Y ). kXk 2 2 (d) Als Anwendung von (6.29) folgt 6.101 |Cov(X, Y )| p |ρX,Y | = p ≤ 1, Var(X) Var(Y ) (6.30) d.h., für alle Zufallsvariablen X, Y mit E[X 2 ], E[Y 2 ] < ∞ ist ρX,Y ∈ [−1, 1]. 6.5. Beispiele zum Erwartungswert und zur Varianz Beispiel 6.10 (Exponentialverteilung). Sei X eine exponentiell verteilte Zufallsvariable 6.102, d.h., für ein λ > 0 besitze PX die Dichte f (x) = I[0,∞) (x)λ exp(−λx), Dann gilt 6.103 : E[X] = 6.104 λ Z ∞ x ∈ R. dx x exp(−λx) 0 6.95Aufgrund der Linearität des Erwartungswerts, vgl. (6.6). 6.96Vgl. (6.21). 6.97Wegen (6.25). 6.98Da E[X] e = E[Ye ] = 0. 6.99 Hier wird mit dem Skalarprodukt h., .i in L2 (Ω, F, P) gearbeitet, vgl. Bemerkung 6.7(ii). k.k2 bezeichnet die Norm in dem Hilbertraum L2 (Ω, F, P). Hier findet die CauchySchwarzsche Ungleichung, d.h., 6.100 |hU, V i| ≤ kU k2 kV k2 , U, V ∈ L2 (Ω, F, P), Verwendung. Diese folgt aus s s 2 kV k2 kU k2 0 ≤ U ±V kU k2 kV k2 2 s s s * s + kV k2 kU k2 kV k2 kU k2 ±V ,U ±V = U kU k2 kV k2 kU k2 kV k2 kU k2 kV k2 + kV k22 ± 2hU, V i kU k2 kV k2 = 2kU k2 kV k2 ± 2hU, V i. = kU k22 6.101 Die Korrelation ρX,Y zweier Zufallsvariablen X, Y ∈ L2 (Ω, F, P) ist in (6.24) definiert. 6.102Vgl. Abschnitt 2.6. Solche Zufallsvariablen können z.B. zur Modellierung des Zeitpunktes eines ersten Telefonanrufs verwendet werden. 6.103Als positive Zufallsvariable besitzt X auf jeden Fall einen Erwartungswert, der zunächst allerdings gleich ∞ sein könnte, vgl. die Erläuterungen am Ende von Abschnitt 6.3. 18. April 2016 114 = 6.105 = 1 , λ E[X 2 ] = 6.106 = 6.107 = 2 . λ2 ∞ Z ∞ −y exp(−λy) + dx exp(−λx) 0 y=0 {z } | {z } | = 1/λ =0 Z ∞ dx x2 exp(−λx) 0 ∞ Z ∞ −y 2 exp(−λy) +2 dx x exp(−λx) 0 y=0 {z } | | {z } = E[X]/λ = 1/λ2 =0 λ Folglich ist Var(X) = E[X 2 ] − E[X]2 = Beispiel 6.11 (Cauchy-Verteilung X besitze für ein a > 0 die Dichte Nun ist 6.108 ). Die Verteilung PX einer Zufallsvariable a , π(a2 + x2 ) f (x) = 1 . λ2 x ∈ R. 6.109 E[X+ ] = 6.110 Z 0 ∞ a dx xf (x) = π Z ∞ dx 0 x =∞ a2 + x2 und ebenso E[X− ] = ∞. Folglich besitzt X keinen Erwartungswert 6.111. Zur Beschreibung eines typischen, mittleren Werts“ bietet sich für Cauchy” verteilte Zufallsvariablen der Median 6.112 m = 0 an. Beispiel 6.12 (Normalverteilung besitze die Dichte 6.113 ). Die Verteilung PX der Zufallsvariable X (x − µ)2 1 exp − f (x) = √ , 2σ 2 2πσ 2 x ∈ R, wobei µ ∈ R und σ 2 > 0. 6.104Vgl. Beispiel 6.5. 6.105Mit Hilfe partieller Integration. 6.106Nach Beispiel 6.6. Im hier betrachteten Fall wird H(x) = x2 benutzt. 6.107 Mit Hilfe partieller Integration. 6.108Vgl. Abschnitt 2.6. 6.109X = max{X, 0}, bzw. X = max{−X, 0}, ist der Positivteil, bzw. der Negativteil einer + − Zufallsvariablen X. Da X+ und X− nichtnegative Zufallsvariablen sind, sind E[X+ ] und E[X− ] wohldefiniert, vgl. die Erläuterungen am Ende von Abschnitt 6.3. 6.110Hier wird Beispiel 6.6 mit H(x) = x = max{x, 0}, x ∈ R angewandt. + 6.111Man beachte, daß X 2 als nichtnegative Zufallsvariable sehr wohl einen Erwartungswert besitzt. Allerdings ist E[X 2 ] = ∞. 6.112 Vgl. Abschnitt 3.3.4. Im vorliegenden Fall ist der Median m eindeutig durch Z m Z ∞ 1 dx f (x) = dx f (x) = . 2 −∞ m bestimmt. Wegen der Symmetrie von f gilt m = 0. 6.113Vgl. Abschnitt 2.6. 18. April 2016 115 Existenz endlicher Momente. Für alle r ≥ 1 gilt: xµ x2 |x|r f (x) ≤ C|x|r exp − 2 exp 2 2σ | {zσ } 1 x2 + µ2 C1 exp 2 σ 4 x2 x2 ≤ C2 |x|r exp − 2 exp − 2 8σ {z 8σ } | ≤ 6.114 ≤ C3 , gleichmäßig in x ∈ R x2 ≤ C4 exp − 2 , x ∈ R, 8σ wobei von r, µ und σ 2 abhängige, positive Konstanten sind. Da R ∞ C, C1 , . . . nur 6.115 2 r . −∞ dx exp(−βx ) < ∞ für alle β > 0, ist |X| für alle r ≥ 1 integrabel Insbesondere besitzt eine normalverteilte Zufallsvariable X für alle r ∈ N ein endliches r-tes Moment. Erwartungswert der Normalverteilung. Z ∞ E[X] = (6.31) dx xf (x) −∞ Z (x − µ)2 dx (x − µ) exp − 2σ 2 −∞ | {z } = 6.116 0 Z ∞ (x − µ)2 1 dx exp − +µ√ 2σ 2 2πσ 2 −∞ {z } | = 6.117 1 = µ. 1 = √ 2πσ 2 ∞ Varianz der Normalverteilung. (6.32) Var(X) = E (X − E[X])2 Z ∞ (x − µ)2 1 = 6.118 √ dx (x − µ)2 exp − 2σ 2 2πσ 2 −∞ Z ∞ z2 σ2 dz z 2 exp − = 6.119 √ 2 2π −∞ Z ∞ z2 2 ∞ 2 y σ 1 2 √ = 6.120 − √ y exp − dz exp − +σ 2 y=−∞ 2 2π 2π −∞ | {z } | {z } =0 = 6.121 1 6.114Beachte die Abschätzung |ab| ≤ die aus der Beziehung 1 a2 + αb2 , 2 α a, b ∈ R, α > 0, 2 √ |a| a2 0 ≤ √ − α|b| + αb2 − 2|ab|, = α α a, b ∈ R, α > 0, folgt. Hier wird a = x, b = µ und α = 2 benutzt. 6.115Als Konsequenz aus Beispiel 6.6 folgt die Integrabilität der Zufallsvariable |X|r aus R∞ dx |x|r f (x) < ∞. −∞ 6.116Da der Integrand antisymmetrisch bzgl. µ ist. 6.117 Hier wird eine Wahrscheinlichkeitsdichte über den ganzen Raum R integriert. 18. April 2016 116 = σ2 . Die Parameter µ und σ 2 der Normalverteilung sind jetzt als Erwartungswert, bzw. Varianz identifiziert worden. Weiterhin ist nun das zweite Moment der Normalverteilung durch 6.122 E[X 2 ] = Var(X) + E[X]2 = σ 2 + µ2 gegeben. 6.6. Erwartungstreue Schätzer Sei (X, G, (Pλ )λ∈Λ ) ein statistisches Modell 6.123, wobei Λ ⊆ R 6.124. Sei außerdem T : (X, G) → (R, B(R)) eine Statistik 6.125, die zur Schätzung von λ dient 6.126. Z (6.33) Eλ [T ] 6.127 − λ = 6.128 Pλ (dx) T (x) − λ =: bλ (T ), λ ∈ Λ, X 6.129 wird als Bias 0, λ ∈ Λ 6.130. des Schätzers T bezeichnet. T heißt erwartungstreu, wenn bλ (T ) = Beispiel 6.13. Für N ∈ N 6.131 sei X = {0, 1, . . . , N } und G = Pot(X). Für q ∈ [0, 1] sei außerdem Pq die Binomialverteilung B(N, q) mit Parametern N und q 6.132. T : X → [0, 1] mit T (x) = x/N , x ∈ X, ist der Maximum-Likelihood-Schätzer für q 6.133. Da Eq [T ] = N X l N l q (1 − q)N −l = N l 6.134 l=0 q, q ∈ [0, 1], ist T erwartungstreu. 6.118Wegen (6.31) und Beispiel 6.6. Hier wird H mit H(x) = (x − µ)2 benutzt. √ Mit der Substitution z = (x − µ)/ σ2 . 6.120 Mit partieller Integration Z b b Z f ′ g = f g − 6.119 a a b f g′ . a Hier wird f (x) = − exp(−x2 /2) und g(x) = x benutzt. 6.121 Hier wird eine Wahrscheinlichkeitsdichte über den ganzen Raum integriert. 6.122Vgl. (6.20). 6.123Vgl. Abschnitt 4.1. 6.124Insbesondere liegt ein eindimensionales parametrisches statistisches Modell vor. 6.125Vgl. Abschnitt 4.1. 6.126T könnte z.B. ein Maximum-Likelihood-Schätzer, vgl. Abschnitt 4.2, sein. 6.127Für λ ∈ Λ bezeichnet E [T ] den Erwartungswert von T , falls auf (X, G) das Wahrscheinλ lichkeitsmaß Pλ zugrundegelegt wird. 6.128 Diese Notation wird in Bemerkung 6.4(iii) eingeführt. 6.129 Der Bias bλ (T ) ist der mittlere oder auch systematische Fehler des Schätzers T , wenn Pλ die zugrundeliegende Wahrscheinlichkeitsverteilung ist. 6.130Für einen erwartungstreuen Schätzer T von λ verschwindet für alle möglichen Parameter λ der mittlere Fehler. 6.131N wird in diesem Beispiel als fest betrachtet. 6.132In diesem Beispiel wird daher mit dem statistischen Modell (X, G, (P ) q q∈[0,1] ) gearbeitet. 6.133Vgl. Beispiel 1.9. 6.134Vgl. Beispiel 1.5. 18. April 2016 117 Beispiel 6.14. Sei X = N und G = Pot(X). Für M ∈ N sei PM die Gleichverteilung auf {1, . . . , M } 6.135. Durch T : X → N mit T (x) = x, x ∈ X, ist der MaximumLikelihood-Schätzer für M bestimmt 6.136. Da EM [T ] = M M M +1 1 X 1 M (M + 1) 1 X = , T (l) = l= M M M 2 2 l=1 l=1 ist T nicht erwartungstreu. Verwendet man andererseits T1 : X → N mit T1 (x) = 2x−1, x ∈ X, als Schätzer für M 6.137, so beobachtet man EM [T1 ] = M M 1 X 1 X 2 M (M + 1) − 1 = M. T1 (l) = (2l − 1) = M M M 2 l=1 l=1 T1 ist daher ein erwartungstreuer Schätzer für M . Beispiel 6.15. Nicht für alle Schätzprobleme existiert ein erwartungstreuer Schätzer. Gegeben sei beispielsweise das statistische Modell (X, G, (Pq )q∈[0,1] ), wobei 6.138 X = {0, 1, . . . , N }, G = Pot(X) und Pq die Binomialverteilung B(N, q) mit Parametern N und q ist. Dann Schätzer 6.139 T : X → R der Erwartungswert ist für jeden PN N l N −l Eq [T ] = l=0 T (l) l q (1 − q) ein Polynom in q ∈ [0, 1]. Da andererseits die p Standardabweichung 6.140 σq = N q(1 − q) von Pq kein Polynom in q ∈ [0, 1] ist, existiert für sie kein erwartungstreuer Schätzer 6.141. Beispiel 6.16 (Erwartungstreue Schätzung von Erwartungswert und Varianz von i.i.d. Zufallsvariablen). Eine zufällige reelle Größe G werde N mal unabhängig gemessen 6.142. Zu einer quantitativen Beurteilung von G ist es naheliegend, zunächst den Mittelwert“ und die Größe der Schwankungen“ der Messungen von G zu ” ” schätzen 6.143. 6.135Da {1, . . . , M } ⊆ X kann P M als ein Wahrscheinlichkeitsmaß auf (X, G) betrachtet werden. Dementsprechend wird in diesem Beispiel mit dem statistischen Modell (X, G, (PM )M ∈N ) gearbeitet. 6.136Wenn P M als ein Wahrscheinlichkeitsmaß auf X betrachtet wird, ist ( 1/M, falls y = 1, . . . , M, PM [{y}] = 0, falls y = M + 1, M + 2, . . . . Die Likelihood-Funktion zum Beobachtungswert x ist daher ( 0, falls M = 1, . . . , x − 1, Lx (M ) = PM [{x}] = 1/M, falls M = x, x + 1, . . . . c für M zu gegebenem Beobachtungswert x durch Somit ist der Maximum-Likelihood-Schätzer M c = x gegeben. M 6.137Dieser Schätzer ergibt sich aus der Vermutung, daß im Fall der Beobachtung von x die Lücke“ x − 1 zum kleinsten Element 1 ähnlich groß ist, wie die Lücke“ M − x zum größten ” c = 2x−1 als ”Schätzer. Beim Taxiproblem, Element M , d.h., daß x−1 ≈ M −x. Damit ergibt sich M vgl. Beispiel 4.5, wird übrigens mit einer ähnlichen Argumentation ebenfalls eine Alternative S2 zum Maximum-Likelihood-Schätzer S1 bestimmt. 6.138N ∈ N sei fest. 6.139D.h., für jede Statistik. 6.140Vgl. Beispiel 1.6 und (6.22). p 6.141In diesem Beispiel wird nicht direkt der Parameter q sondern mit N q(1 − q) eine Funktion dieses Parameters geschätzt. Damit liegt eine Verallgemeinerung der bisher behandelten Schätzprobleme vor. 6.142In einer konkreten Anwendung könnte G die Lebensdauer eines speziellen Gebrauchsgegenstandes, z.B. eines Autoreifens oder einer Kinderschaukel, oder die Hitzebeständigkeit einer Keramik sein. 6.143Dieses umgangssprachlich beschriebene Ziel muß jetzt mathematisch formuliert werden. 18. April 2016 118 In einer mathematisch präziseren Formulierung seien X1 , . . . , XN i.i.d. Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 6.144. Die Verteilung der Zufallsvariablen X1 , . . . , XN sei unbekannt, zu schätzen seien µ und σ 2 6.145. Als Schätzer von µ und σ 2 seien 6.146 µ e := (6.34) definiert. Da 6.147 N 1 X Xk N k=1 Eµ,σ2 [e µ] = 6.148 f2 := und σ k=1 N N 1 X 1 X Eµ,σ2 [Xk ] = µ=µ N N k=1 und N 1 X (Xk − µ e)2 N −1 k=1 N 1 X Eµ,σ2 [Xk2 ] − 2Eµ,σ2 [Xk µ e] + Eµ,σ2 [e µ2 ] N −1 k=1 N σ2 σ2 1 X 6.149 2 = + µ2 + 6.151 + µ2 (σ + µ2 ) − 6.150 2 N −1 N N f2 ] = Eµ,σ2 [σ 6.148 k=1 = N 1 2 1 X σ = σ2 , 1− N −1 N k=1 6.144Insbesondere sei angenommen, daß E[X 2 ] < ∞. 1 6.145Als statistisches Modell könnte hier (RN , B(RN ), (P ) R λ λ∈Λ ) benutzt werden, wobei Λ die Menge aller Wahrscheinlichkeitsmaße λ auf (R, B(R)) mit R λ(dx) |x|2 < ∞ und Pλ die gemeinsame Verteilung von unabhängigen, reellwertigen, identisch verteilten Zufallsvariablen Y1 , . . . , YN mit PY1 = λ ist. Zu schätzen ist nicht, wie dies in den meisten bisher behandelten Schätzproblemen üblich war, der wahre Parameter“ λw und damit ein Wahrscheinlichkeitsmaß auf (R, B(R)). HinR ” gegen sind mit dem wahren Erwartungswert“ µ = Eλw = R λw (dx) x, bzw. der wahren Varianz“ R ” ” σ2 = Vλw = R λw (dx) (x−Eλw )2 zwei spezielle Funktionale von λw zu bestimmen. Eine einfachere Variante eines solchen verallgemeinerten Schätzproblems wird auch in Beispiel 6.15 diskutiert. Man vergleiche hierzu insbesondere auch Fußnote 6.141. Um die im vorangehenden Absatz angedeutete komplizierte Formulierung des Schätzproblems dieses Beispiels zu umgehen, wird einfach das Ziel verfolgt, als Schätzer von µ und σ2 geeignete Funktionen T = T (X1 , . . . , XN ) (der beobachteten Realisierungen) der Zufallsvariablen X1 , . . . , XN zu bestimmen, bzw. zu untersuchen. 6.146Als empirischer Mittelwert ist µ e ein naheliegender Schätzer für µ. Ebenso ist der Mittelwert der quadrierten Schwankungen der Zufallsvariablen X1 , . . . , XN um den geschätzten ErwarP P tungswert µ e ein erster Kandidat als Schätzer für σ2 . Da aber N µ) = N e = 0, k=1 (Xk −e k=1 Xk −N µ sind die Zufallsvariablen X1 − µ e, . . . , XN − µ e nicht linear unabhängig. Beispielsweise ist X1 − µ e PN eine Linearkombination von Xk − µ e, k = 2, . . . , N . Somit besitzt e)2 nur N − 1 k=1 (Xk − µ Freiheitsgrade“. Dadurch wird die Normierung mit (N − 1)−1 anstelle von N −1 verständlich. ” 6.147Die Bezeichnung E µ,σ 2 [. . . ] deutet an, daß hier angenommen wird, daß die (unbekannte) Verteilung von X1 , . . . und XN den Erwartungswert µ und die Varianz σ2 hat. Bezüglich dieser Verteilung wird der Erwartungswert betrachtet. 6.148Wegen der Linearität des Erwartungswerts, vgl. (6.6). 6.149Da σ2 = Var 2 2 2 2 µ,σ 2 (Xk ) = Eµ,σ 2 [Xk ] − Eµ,σ 2 [Xk ] = Eµ,σ 2 [Xk ] − µ , k = 1, . . . , N . 6.150 Da Eµ,σ 2 [Xk µ e] = = N 1 X 1 1 E 2 [Xk Xl ] = E 2 [Xk2 ] + N l=1 µ,σ N µ,σ N X Eµ,σ 2 [Xk ]Eµ,σ 2 [Xl ] l=1,...,N l6=k 1 1 2 N −1 2 (Varµ,σ 2 (Xk ) + Eµ,σ 2 [Xk ]2 ) + µ = σ + µ2 , N N N k = 1, . . . , N, wobei die Überlegung in Fußnote 6.149 und die Unabhängigkeit der Zufallsvariablen X1 , . . . , XN benutzt werden. Insbesondere findet die Produktregel für unabhängige Zufallsvariablen, vgl. (6.9), Verwendung. 18. April 2016 119 f2 erwartungstreue Schätzer sind µ e und σ 6.152 . 6.6.1. Mittlerer quadratischer Fehler eines Schätzers. Ein statistisches Modell (X, G, (Pλ )λ∈Λ ) mit Λ ⊆ R sei gegeben. Außerdem sei T : (X, G) → (R, B(R)) eine Statistik, die zur Schätzung von λ dient. Die Genauigkeit dieses Schätzers kann durch den mittleren quadratischen Fehler Z Pλ (dx) (T (x) − λ)2 =: s2λ (T ), λ ∈ Λ, (6.35) Eλ (T − λ)2 = X ausgedrückt werden. Offensichtlich sollte von zwei sonst gleichwertigen“ Schätzern ” derjenige mit dem kleineren mittleren quadratischen Fehler als der bessere bewertet 6.153 werden . Da 2 (6.36) s2λ (T ) = Eλ (T − Eλ [T ]) + ( Eλ [T ] − λ ) | {z } = 6.154 bλ (T ) = Eλ (T − Eλ [T ])2 + 2bλ (T ) Eλ T − Eλ [T ] +bλ (T )2 | {z } = 6.155 0 2 = Varλ (T ) + bλ (T ) , λ ∈ Λ, fallen für erwartungstreue Schätzer mittlerer quadratischer Fehler und Varianz zusammen 6.156. Beispiel 6.17 (Untere Abschätzung des mittleren quadratischen Fehlers bei erwartungstreuen Schätzern 6.157). Sei (X, G, (Pλ )λ∈Λ ) ein diskretes statistisches Modell 6.158. Weiterhin sei Λ ein Intervall in R und T : X → Λ ein erwartungstreuer Schätzer für λ, d.h., X Eλ [T ] = T (x)Pλ [{x}] = λ, λ ∈ Λ. x∈X Zum Beobachtungswert x ∈ X ist die Likelihood-Funktion Lx durch Λ ∋ λ → Pλ [{x}] = Lx (λ) und weiterhin die Log-Likelihood-Funktion 6.159 ℓx ( . ) = log Lx ( . ) 6.151Aus Fußnote 6.149 und mit der Unabhängigkeit der Zufallsvariablen X , . . . , X ergibt 1 N sich N 1 X 1 Eµ,σ 2 [e µ ]= 2 E 2 [Xk Xl ] = 2 N k,l=1 µ,σ N 2 = N X Eµ,σ 2 [Xk2 ] k=1 + X k,l=1,...,N l6=k Eµ,σ 2 [Xk ]Eµ,σ 2 [Xl ] ! 1 2 1 2 σ + µ2 + (N − 1)µ2 = σ + µ2 . N N 6.152Durch die Überlegungen in diesem Beispiel werden letztendlich die Definitionen (A.1) und (A.2) von empirischem Mittelwert, bzw. empirischer Varianz reller Daten begründet. 6.153Eine Anwendung dieser Überlegungen wird im Rahmen des Taxiproblems in Fußnote 4.58 vorgestellt. 6.154b (T ) ist der Bias des Schätzers T , vgl. (6.33). λ 6.155 Aufgrund der Linearität des Erwartungswerts, vgl. (6.6), und der Normierung des Erwartungswerts, vgl. (6.10). 6.156 Man beachte, daß erwartungstreue Schätzer T durch bλ (T ) = 0, λ ∈ Λ, charakterisiert sind. 6.157 In diesem Beispiel soll erläutert werden, wie gut“ ein erwartungstreuer Schätzer sein ” kann. M.a.W., es soll untersucht werden, wie klein der mittlere quadratische Fehler eines solchen Schätzers werden kann. Eine detailliertere Darstellung findet sich in [10], Abschnitt 4.5. 6.158Vgl. Abschnitt 4.1. Diese einschränkende Annahme wird zur Vereinfachung der Notation gemacht. 6.159Damit ℓ ( . ) > −∞ sei P [{x}] = L (λ) > 0, x ∈ X, λ ∈ Λ, angenommen. x x λ 18. April 2016 120 gegeben 6.160. Betrachtet man nun für festes λ ∈ Λ die Log-Likelihood-Funktion ℓ. (λ) und auch deren Ableitung ℓ′. (λ) 6.161 als Funktionen von x ∈ X, so läßt sich mit X I(λ) = Eλ [ℓ′. (λ)2 ] = ℓ′x (λ)2 Pλ [{x}], λ ∈ Λ, x∈X die Fisher-Information einführen. Ist I(λ) ∈ (0, ∞), λ ∈ Λ, so gilt für jeden erwartungstreuen Schätzer T von λ die sog. Informationsungleichung 1 , λ ∈ Λ. (6.37) Varλ (T ) ≥ I(λ) Die Varianz und damit der mittlere quadratische Fehler eines erwartungstreuen Schätzers 6.162 des Parameters λ kann daher niemals kleiner als das Inverse der Fisher-Information sein. Die Informationsungleichung ist optimal, d.h., es gibt es Fälle mit Gleichheit. I. allg. kann daher die Abschätzung (6.37) nicht durch die Angabe einer größeren rechten Seite präzisiert werden. 6.7. Elementare Ungleichungen in der Wahrscheinlichkeitstheorie Oft werden in wahrscheinlichkeitstheoretischen Überlegungen keine exakten Wahrscheinlichkeiten oder Erwartungswerte benötigt, sondern nur evtl. relativ einfach zu bestimmende Abschätzungen. Aus diesem Grund sind in der Wahrscheinlichkeitstheorie viele verschiedene Ungleichungen abgeleitet worden. Speziell werden in diesem Abschnitt mit der Markov-Ungleichung und der daraus folgenden Čebyšev-Ungleichung zwei einfache, aber nützliche Ungleichungen eingeführt 6.163. Satz 6.18. (a) Markov-Ungleichung. Sei X eine reellwertige Zufallsvariable und f : [0, ∞) → [0, ∞) eine monoton wachsende Funktion mit f (x) > 0 für x > 0. Dann gilt 6.164: (6.38) P[|X| ≥ ǫ] ≤ E[f (|X|)] , f (ǫ) ǫ > 0. (b) Čebyšev-Ungleichung. Für jede reellwertige Zufallsvariable X gilt: (6.39) P[|X| ≥ ǫ] ≤ E[X 2 ] , ǫ2 ǫ > 0. Beweis. Offensichtlich folgt (b) aus (a), wenn f mit f (x) = x2 , x ∈ [0, ∞), verwendet wird. (a) ergibt sich aus f (ǫ)P[|X| ≥ ǫ] = 6.165 f (ǫ)E[I{|X|≥ǫ} ] 6.160Beim Bestimmen eines Maximum-Likelihood-Schätzers für λ betrachtet man L, bzw. ℓ zu einem festen x ∈ X als Funktion von λ ∈ Λ, vgl. Abschnitt 4.2. 6.161ℓ′ ist die Ableitung der Funktion ℓ : X × Λ ∋ (x, λ) → ℓ (λ) nach λ. In den hier x beschriebenen Ausführungen werden ℓ und ℓ′ für festes λ als Funktionen von x ∈ X betrachtet und dann mit ℓ. (λ), bzw. ℓ′. (λ) bezeichnet. 6.162Mit (6.36) wurde verdeutlicht, daß bei erwartungstreuen Schätzern Varianz und mittlerer quadratischer Fehler übereinstimmen. Für einen erwartungstreuen Schätzer T ist bλ (T ) = 0, λ ∈ Λ. 6.163Mit der Cauchyschen Ungleichung war eine weitere Ungleichung in (6.21), bzw. in (6.29) vorgestellt worden. 6.164Da f (|X|) ≥ 0, ist der Erwartungswert auf der rechten Seite von (6.38) immer definiert. Wenn allerdings E[f (|X|)] = ∞, ist diese Ungleichung nutzlos. 18. April 2016 121 = 6.166 ≤ 6.168 E[ f (ǫ)I{|X|≥ǫ} ] {z } | ≤ 6.167 f (|X|), f.s. E[f (|X|)]. Für eine reellwertige Zufallsvariable X ∈ L2 (Ω, F, P) gibt es mit P[|X − E[X]| ≥ ǫ] ≤ (6.40) eine Variante der Čebyšev-Ungleichung Var(X) , ǫ2 6.169 ǫ > 0, 6.170 . 6.8. Konvergenzbegriffe in der Wahrscheinlichkeitstheorie In der Wahrscheinlichkeitstheorie werden etliche unterschiedlich starke“ Kon” vergenzbegriffe benutzt. In diesem Abschnitt 6.8 werden die wichtigsten beschrieben 6.171. (a) Stochastische Konvergenz 6.172. Seien X und Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Die Folge Xn , n ∈ N, konvergiert stochastisch oder in Wahrscheinlichkeit gegen X, wenn (6.41) lim P[|Xn − X| > ǫ] = 0, n→∞ ǫ > 0. P Man schreibt dann auch 6.173 Xn → X. (b) Fast-sichere Konvergenz 6.174. Seien X und Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Die Folge Xn , n ∈ N, konvergiert fast sicher (f.s.) gegen X, wenn 6.175 hn oi h i (6.42) P ω ∈ Ω : lim Xn (ω) = X(ω) = P lim Xn = X = 1. n→∞ n→∞ f.s. Man schreibt dann auch Xn → X, f.s., oder Xn → X. Wie durch die beiden folgenden Resultate belegt wird, ist im Vergleich zum stochastischen der fast-sichere Konvergenzbegriff der stärkere 6.176. 6.165Vgl. (6.3). 6.166Wegen der Linearität des Erwartungswerts, vgl. (6.6). 6.167Da f eine monoton wachsende, positive Funktion ist. 6.168 Aufgrund der Monotonie des Erwartungswerts, vgl. (6.5). 6.169Zum Beweis ist (6.39) für die Zufallsvariable X−E[X] anzuwenden und E[(X−E[X])2 ] = Var(X), vgl. (6.20), zu beachten. 6.170Als wesentliches Hilfsmittel wird die Čebyšev-Ungleichung (6.39), bzw. (6.40) beim Beweis des schwachen Gesetzes der großen Zahlen, vgl. Beispiel 1.7 und Satz 7.1, und zur Bestimmung eines Konfidenzintervalls, vgl. Beispiel 4.8, angewandt. 6.171Die vorgestellten Konvergenzbegriffe sind genau diejenigen, die im schwachen Gesetz der großen Zahlen, beim starken Gesetz der großen Zahlen, bzw. im Zentralen Grenzwertsatz verwendet werden. 6.172Dieser Konvergenzbegriff wird z.B. beim schwachen Gesetz der großen Zahlen verwendet, vgl. Beispiel 1.7 und Abschnitt 7.1. 6.173Diese Notation erinnert an die englische Bezeichnung Convergence in Probability“. ” 6.174Dieser Konvergenzbegriff tritt u.a. beim starken Gesetz der großen Zahlen in Erscheinung, vgl. Bemerkung 7.2. 6.175Es kann nachgewiesen werden, daß die Menge {ω ∈ Ω : lim n→∞ Xn (ω) = X(ω)} meßbar ist. Damit ist insbesondere P ω ∈ Ω : limn→∞ Xn (ω) = X(ω) wohldefiniert. 6.176Damit sind die Bezeichnungen schwaches, bzw. starkes Gesetz der großen Zahlen gerechtfertigt, vgl. Fußnoten 6.172 und 6.174. 18. April 2016 122 Beispiel 6.19. Sei (Ω, F, P) = ([0, 1), B([0, 1)), λ), wobei λ das Lebesguemaß auf [0, 1) bezeichnet. Für k ∈ N mit der eindeutigen Darstellung k = 2n + m, wobei n ∈ N0 und m = 0, 1, . . . , 2n −1, sei Xk (ω) = I[m2−n ,(m+1)2−n ) (ω), ω ∈ [0, 1). Der Graph dieser Zufallsvariablen ist eine Rechtecksfunktion“, die mit wachsendem n immer ” enger“ wird und mit steigendem m von 0 nach rechts“ gegen 1 wandert und dann ” ” wieder nach 0 zurückspringt. Die Folge Xk , k ∈ N, konvergiert stochastisch 6.177 aber nicht f.s. 6.178 gegen 0, d.h. gegen die Zufallsvariable X mit X ≡ 0. Satz 6.20. 6.179 Eine f.s. gegen eine Zufallsvariable X konvergente Folge von Zufallsvariablen Xn , n ∈ N, konvergiert auch stochastisch gegen X. Umgekehrt existiert zu einer stochastisch gegen eine Zufallsvariable X konvergierenden Folge Xn , n ∈ N, von Zufallsvariablen eine Teilfolge Xnr , r ∈ N, die f.s. gegen X konvergiert 6.180. (c) Konvergenz in Verteilung 6.181. Die in (a) und (b) vorgestellten Konvergenzbegriffe beziehen sich auf Zufallsvariablen Xn , n ∈ N, die alle auf dem gleichen Wahrscheinlichkeitsraum (Ω, F, P) definiert sind. Wenn die Zufallsvariablen Xn , n ∈ N, verschiedene Wahrscheinlichkeitsräume als Definitionsbereiche besitzen, ist das Konzept der Konvergenz in Verteilung nützlich. Für n ∈ N sei Xn eine reellwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ωn , Fn , Pn ). Die Folge Xn , n ∈ N, konvergiert in Verteilung gegen eine Zufallsvariable X, wenn 6.182 6.183 (6.43) lim E[h(Xn )] = E[h(X)], n→∞ h ∈ Cb (R). d Man schreibt dann auch 6.184 Xn → X. Zur Verifizierung der Konvergenz in Verteilung kann in vielen Fällen der folgende Satz 6.21 verwendet werden. In jenem Resultat werden insbesondere auch charakteristische Funktionen benutzt, wobei für eine reellwertige Zufallsvariable Y deren charakteristische Funktion ψY : R → C durch 6.185 6.186 (6.44) ψY (z) = E[exp(izY )], z ∈ R, 6.177λ[{ω ∈ Ω : |X (ω) − X(ω)| > ǫ}] = λ[{ω ∈ [0, 1) : |X (ω)| = 1}] = 2−n , falls k = 2n + m k k mit m = 0, 1, . . . , 2n − 1 und ǫ ∈ (0, 1). 6.178 Zu jedem festen ω ∈ [0, 1) gibt es beliebig große k, so daß Xk (ω) = 1, nämlich k = 2n + ⌊ω2n ⌋, n ∈ N. Ebenso ist Xk (ω) = 0 für beliebig große k. Die Existenz von limk→∞ Xk bzgl. der fast-sicheren Konvergenz ist daher ausgeschlossen. 6.179Vgl. [9], Lemma 4.2. 6.180Für die in Beispiel 6.19 diskutierte Folge X , n ∈ N von Zufallsvariablen, erhält man n mit nr = 2r , r ∈ N, eine f.s. gegen X ≡ 0 konvergente Teilfolge Xnr = I[0,2−r ) , r ∈ N. 6.181 Dieser Konvergenzbegriff findet z.B. beim Zentralen Grenzwertsatz Verwendung, vgl. Beispiel 1.8 und Abschnitt 9.3. 6.182Mit C (R) wird der Raum der stetigen, beschränkten, reellwertigen Funktionen auf R b bezeichnet. Für eine nicht-stetige Funktion h braucht (6.43) nicht zu gelten. 6.183 Um anzudeuten, daß E[h(Xn )] einen Erwartungswert bzgl. des Wahrscheinlichkeitsmaßes Pn auf dem meßbaren Raum (Ωn , Fn ) bezeichnet, könnte auch die Notation En [h(Xn )] verwendet werden. 6.184Diese Notation erinnert an Convergence in Distribution“. 6.185Offensichtlich ist exp(izY ) ”= cos(zY ) + i sin(zY ) eine beschränkte, C-wertige Zufallsvariable. Für eine beliebige integrable, C-wertige Zufallsvariable Z = Z1 + iZ2 mit dem Realteil Z1 und dem Imaginärteil Z2 definiert man unter Verwendung der Linearität des Erwartungswerts E[Z] := E[Z1 ] + iE[Z2 ]. 6.186 Wenn die Verteilung PY der Zufallsvariable Y eine Dichte f bzgl. des Lebesguemaßes besitzt, so folgt aus Beispiel 6.6 die Darstellung Z dx exp(izx)f (x), z ∈ R, ψY (z) = R von ψY . Die charakteristische Funktion der Zufallsvariable Y entspricht somit der Fouriertransformierten der Dichte ihrer Verteilung. 18. April 2016 123 definiert ist 6.187 . 6.188 Satz 6.21. Für reellwertige Zufallsvariablen X, Xn , n ∈ N, sind die folgenden Aussagen äquivalent: d (1) Xn → X. (2) limn→∞ FXn (y) = FX (y), y ∈ R, FX stetig in y (3) limn→∞ ψXn (y) = ψX (y), y ∈ R. 6.189 . Das nächste Resultat verdeutlicht den Zusammenhang zwischen stochastischer Konvergenz und Konvergenz in Verteilung. Satz 6.22. 6.190. Eine stochastisch gegen eine Zufallsvariable X konvergente Folge von Zufallsvariablen Xn , n ∈ N, konvergiert auch in Verteilung gegen X. Satz 6.20 und Satz 6.22 lassen sich zusammenfassen in (6.45) f.s. Xn → X =⇒ P Xn → X =⇒ d Xn → X. 6.187In Abschnitt 9.3 werden charakteristische Funktionen als wesentliches Hilfsmittel beim Beweis des Zentralen Grenzwertsatzes in Erscheinung treten. Insbesondere wird die Äquivalenz zwischen (1) und (3) in Satz 6.21 verwendet werden. 6.188Vgl. [9], Theorem 4.25, und [6], Section 5.9, Theorem (5). 6.189F ist die Verteilungsfunktion der Zufallsvariable Y , vgl. Abschnitt 3.3. Die hier beY schriebene Konvergenz muß nur in den Stetigkeitspunkten von FX gelten. 6.190Vgl. [9], Lemma 4.7. 18. April 2016 KAPITEL 7 Gesetz der großen Zahlen Ein Hauptthema der Wahrscheinlichkeitstheorie ist die zusammenfassende Beschreibung einer großen Menge von Zufallsvariablen 7.1. In diesem Zusammenhang wird in diesem Kapitel mit einem schwachen Gesetz der großen Zahlen ein erstes Resultat vorgestellt 7.2. 7.1. Ein schwaches Gesetz der großen Zahlen Unter dem Begriff schwaches Gesetz der großen Zahlen“ kann man eine ganze ” Klasse von Resultaten zusammenfassen. In diesen Resultaten wird für eine Folge Xn , n ∈ N, von Zufallsvariablen die Asymptotik der empirischen Mittelwerte PN (1/N ) k=1 Xk bzgl. der stochastischen Konvergenz 7.3 bei N → ∞ untersucht. Daher sollte das nun vorgestellte Resultat nur als eine Variante des schwachen Gesetzes der großen Zahlen verstanden werden 7.4. Satz 7.1. 7.5 Seien X1 , X2 , . . . reellwertige, paarweise unkorrelierte 7.6 Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit E[Xk2 ] < ∞, k ∈ N. Sei 7.7 v := sup Var(Xn ) < ∞. (7.1) n∈N Dann gilt (7.2) 7.8 : # " N 1 X v Xk − E[Xk ] ≥ ǫ ≤ P N N ǫ2 k=1 N →∞ → 0, ǫ > 0. Wenn E[Xk ] = µ, k ∈ N, für ein µ ∈ R, so folgt insbesondere 7.9: " # N 1 X v N →∞ (7.3) P → 0, ǫ > 0. X k − µ ≥ ǫ ≤ N N ǫ2 k=1 7.1Das Ziel ist die Komprimierung von Informationen und damit auch die Herausarbeitung der wesentlichen Details. 7.2Vgl. Satz 7.1. Weitere Beiträge sind z.B. das starke Gesetz der großen Zahlen, vgl. (7.4), und der Zentrale Grenzwertsatz, vgl. Satz 9.3. 7.3Vgl. Abschnitt 6.8(a). 7.4Schon in Beispiel 1.7 wurde für i.i.d., {0, 1}-wertige Zufallsvariablen, d.h., in einem Spezialfall, das schwache Gesetz der großen Zahlen hergeleitet. Die dort angedeutete, auf der ČebyševUngleichung, vgl. Satz 6.18 und (6.40), basierende Methode eines Beweises ist auch in allgemeineren Fällen wie dem nun folgenden Satz 7.1 anwendbar. 7.5 Vgl. [5], Satz (5.6). 7.6Vgl. Abschnitt 6.4. Es wird gefordert, daß Cov(X , X ) = 0 für k, l ∈ N mit k 6= l. k l 7.7Da E[X 2 ] < ∞, k ∈ N, ist Var(X ) < ∞, k ∈ N. In (7.1) wird zusätzlich gefordert, daß k k die Varianzen der Zufallsvariablen Xk , k ∈ N, gleichmäßig beschränkt sind. 7.8(7.2) besagt, daß die Zufallsvariablen (1/N ) PN (X − E[X ]) bei N → ∞ stochastisch k k k=1 gegen 0 konvergieren. 7.9(7.3) besagt, daß die Zufallsvariablen (1/N ) PN X bei N → ∞ stochastisch gegen µ k=1 k konvergieren. 125 126 PN Beweis. Sei ZN = (1/N ) k=1 (Xk − E[Xk ]), N ∈ N. Offenbar ist L2 (Ω, F, P), N ∈ N, mit 7.11 E[ZN ] = 0, N ∈ N, und X N 1 2 Xk E[ZN ] = Var(ZN ) = 7.12 2 Var N 7.10 ZN ∈ k=1 = 7.13 1 N2 N X k=1 Var(Xk ) ≤ 7.14 v . N (7.2) folgt nun durch eine Anwendung der Čebyšev-Ungleichung (6.39) auf die Zufallsvariablen ZN , N ∈ N. Bemerkung 7.2. Unter den Voraussetzungen von Satz 7.1 gilt sogar das starke Gesetz der großen Zahlen, d.h., 7.15 N 1 X Xk − E[Xk ] = 0, f.s. lim N →∞ N (7.4) k=1 7.2. Anwendungen des schwachen Gesetzes der großen Zahlen In diesem Abschnitt werden zwei Anwendungen des Gesetzes der großen Zahlen beschrieben. Es wird mit der Berechnung des Integrals einer meßbaren Funktion ein Problem der Numerik und mit der Approximation einer stetigen Funktion durch Polynome ein Problem der Analysis mit Methoden der Wahrscheinlichkeitstheorie, genauer dem schwachen Gesetz der großen Zahlen, gelöst. Beide Probleme haben primär nichts mit Stochastik zu tun, d.h., der Zufall“ wird als ein mathematisches ” Hilfsmittel benutzt. 7.2.1. Monte-Carlo-Integration. Für eine meßbare Funktion 7.16 h : ([0, 1], B([0, 1])) → ([−c, c], B([−c, c])), wobei c ∈ (0, ∞) eine Konstante ist, soll 7.17 R1 0 dx h(x) berechnet werden. Hierzu seien Xk , k ∈ N, unabhängige, auf [0, 1] gleichverteilte Zufallsvariablen. In diesem Fall sind die Zufallsvariablen h(Xk ), k ∈ N, unabhängig und identisch verteilt 7.18 mit 7.19 Z 1 E[h(X1 )] = 7.20 (7.5) dx h(x) := µh , 0 Var(h(X1 )) = E[(h(X1 ) − µh )2 ] = E[h(X1 )2 ] − µ2h Z 1 2 Z 1 2 7.20 = dx h(x) − dx h(x) ≤ c2 . 0 0 7.10Weil E[X 2 ] < ∞, k ∈ N. k 7.11Aufgrund von (6.6) und (6.10). 7.12Wegen (6.26). 7.13Wegen (6.28). Man beachte, daß die Zufallsvariablen X , k ∈ N, unkorreliert sind. k 7.14 Aufgrund der Annahme (7.1). 7.15Vgl. [5], Satz (5.15). Die fast-sichere Konvergenz wird in Abschnitt 6.8(b) erläutert. Da die fast-sichere Konvergenz stärker“ als die stochastische Konvergenz ist, folgt (7.4) nicht aus ” Satz 7.1. 7.16Die Meßbarkeit einer Funktion wird in (3.1) definiert. 7.17R 1 dx h(x) ist als Lebesgue-Integral aufzufassen, vgl. Fußnote 2.118. Die Annahme, daß 0 h beschränkt ist, könnte abgeschwächt werden. Ebenso könnte auch mit einem allgemeineren Integrationsbereich gearbeitet werden. Darüberhinaus ist mit der hier vorgestellten Vorgehensweise auch die approximative Berechnung von speziellen Reihen möglich. 7.18I. allg. ist die Verteilung der Zufallsvariablen h(X ), k ∈ N, natürlich keine Gleichverk teilung. 7.19 Da die Zufallsvariablen h(Xk ), k ∈ N, identisch verteilt sind, reicht es, E[h(X1 )] und Var(h(X1 )) zu untersuchen. 18. April 2016 127 Somit sind für die Zufallsvariablen h(Xk ), k ∈ N, die Voraussetzungen von Satz 7.1 erfüllt und es folgt 7.21: # " Z 1 N 1 X c2 N →∞ → 0, ǫ > 0. h(Xk ) − dx h(x) ≥ ǫ ≤ (7.6) P N N ǫ2 0 k=1 Die zu (7.6) führenden Überlegungen können in einem Verfahren zur numeriR1 schen Bestimmung des Integrals 0 dx h(x) mit Hilfe von Simulationen zusammengefaßt werden. Dieses Verfahren wird als Monte-Carlo-Integration 7.22 bezeichnet. (1) Bestimmung einer Folge x1 , x2 , . . . unabhängiger, in [0, 1] gleichverteil” 7.23 ter“ Pseudozufallszahlen . R1 P (2) Approximation von 0 dx h(x) durch (1/N ) N k=1 h(xk ) mit einem ”hinreichend großen“ N ∈ N 7.24. Bemerkungen 7.3 (zur Qualität der Monte-Carlo-Integration). (i) Das MonteCarlo-Verfahren ist besser als es (7.6) erkennen läßt. Da unter den Voraussetzungen von Satz 7.1 auch das starke Gesetz der großen Zahlen gilt 7.25, ergibt sich sogar Z 1 N 1 X (7.7) lim h(Xk ) = dx h(x), f.s. N →∞ N 0 k=1 (ii) Die Konvergenzgeschwindigkeit kann mit Hilfe des Zentralen Grenzwertsatzes bestimmt werden 7.26. Es gilt: Z 1 N 1 X (7.8) dx h(x) = O(N −1/2 ), N → ∞. h(Xk ) − N 0 k=1 (iii) Das Monte-Carlo-Verfahren zur Integration ist sinnvoll, wenn h keine Regularitätseigenschaften besitzt und wenn Wert auf einfache Programmierbarkeit gelegt wird. Für reguläre (d.h., stetige, differenzierbare, . . . ) Integranden h stellt R1 die Numerik wesentlich bessere Methoden zur Bestimmung von 0 dx h(x) bereit. Insbesondere sind dann höhere Konvergenzgeschwindigkeiten als in (7.8) erreichbar 7.27. 7.2.2. (∗) Bernstein-Polynome und Approximationssatz von Weierstraß. 7.28 Eine stetige Funktion f : [0, 1] → R ist durch Polynome gleichmäßig in 7.20Vgl. Beispiel 6.6. Es ist zu beachten, daß die Gleichverteilung auf [0, 1] die Dichte f = I [0,1] besitzt. 7.21(7.6) ist eine Konsequenz von (7.3). 7.22Dieser Name verweist auf Monte Carlo mit seinem Casino. Dort werden am Roulette- Tisch insbesondere auch Zufallszahlen erzeugt. 7.23Vgl. Fußnote 3.51. 7.24Zur Wahl von N in einer konkreten Anwendung muß die Konvergenzgeschwindigkeit der Monte-Carlo-Integration bestimmt werden. Für eine vorgegebene Approximationsgenauigkeit kann dann N festgelegt werden. Vgl. hierzu (7.8). 7.25 Vgl. Bemerkung 7.2. 7.26Vgl. Beispiel 9.7. In jenem Beispiel werden mit Hilfe des Zentralen Grenzwertsatzes Konfidenzintervalle für die Monte-Carlo-Integration bestimmt. 7.27Die Theorie hinter diesen Methoden aus der Numerik ist allerdings ebenso wie der Programmieraufwand zu ihrer Implementierung i. allg. wesentlich aufwendiger. 7.28Der Weierstraß’sche Approximationssatz sichert zu jeder stetigen Funktion f : [0, 1] → R und jeder vorgegebenen Approximationsgenauigkeit ǫ > 0 die Existenz eines Polynoms fP,ǫ , so daß sup |f (x) − fP,ǫ (x)| ≤ ǫ. x∈[0,1] 18. April 2016 128 [0, 1] zu approximieren 7.29. Hierzu werden Methoden der Wahrscheinlichkeitstheorie und insbesondere das schwache Gesetz der großen Zahlen angewandt. 7.2.2.1. Ein wahrscheinlichkeitstheoretischer Rahmen. 7.30 Sei Ω = {0, 1}N 7.31 und sei außerdem Xn , n ∈ N, mit Xn (ω) = ωn , ω = (ωk )k∈N ∈ Ω, n ∈ N, die Familie der Projektionen von Ω auf die einzelnen Komponenten {0, 1}. Die übliche σ-Algebra F in Ω wird durch die Funktionen Xn , n ∈ N, erzeugt. Dies bedeutet, daß F die kleinste σ-Algebra ist, die die Mengen 7.32 e ∗ = {ω ∈ Ω : Xk (ω) = ηk , . . . , Xk (ω) = ηk } : F n n 1 1 k1 , . . . , kn ∈ N, 1 ≤ k1 < . . . < kn , ηk1 , . . . , ηkn ∈ {0, 1}, n ∈ N enthält. Insbesondere sind die Projektionen Xn , n ∈ N, meßbare, {0, 1}-wertige Funktionen auf (Ω, F). Auf dem meßbaren Raum (Ω, F) ist für jedes p ∈ [0, 1] ein Wahrscheinlichkeitsmaß Pp definiert, so daß der Wahrscheinlichkeitsraum (Ω, F, Pp ) den ∞-fachen, unabhängigen Wurf einer Münze mit Erfolgswahrscheinlichkeit“ p beschreibt 7.33. ” Die Funktionen Xn , n ∈ N, auf Ω sind von p unabhängig. Werden sie hingegen als Zufallsvariablen auf den Wahrscheinlichkeitsräumen (Ω, F, Pp ), p ∈ [0, 1], betrachtet, so hängt ihre Verteilung natürlich von p ab. Sie modellieren dann jeweils für die Erfolgswahrscheinlichkeit p die Ergebnisse der einzelnen Würfe der Münze 7.34. Im folgenden sei ein bzgl. des Wahrscheinlichkeitsmaßes Pp definierter Erwartungswert mit Ep [ . ] bezeichnet. 7.2.2.2. Anmerkungen zur Funktion f und Einführung der Bernstein-Polynome. Wenn der Wahrscheinlichkeitsraum (Ω, F, Pp ) zugrundegelegt wird, besitzt die ZuP 7.35 fallsvariable N . Insbesondere ist n=1 Xn die Binomialverteilung B(N, p) X N N k N X 1 (7.9) pk (1 − p)N −k = f Xn Ep f N n=1 N k k=0 = : fN (p), p ∈ [0, 1], N ∈ N. Die Funktionen [0, 1] ∋ p → fN (p), N ∈ N, sind Polynome. Man bezeichnet sie als Bernstein-Polynome 7.36. 7.29Da diese Polynome explizit angegeben werden, wird im folgenden sogar eine konstruktive Version des Weierstraß’schen Satzes behandelt. 7.30Zunächst werden für die spätere Arbeit in diesem Abschnitt 7.2.2 Wahrscheinlichkeitsräume (Ω, F, Pp ), p ∈ [0, 1], und Zufallsvariablen Xn , n ∈ N, vorgestellt. Die Wahrscheinlichkeitsräume wurden bereits in Abschnitt 2.4.2 betrachtet, um den ∞-fachen, unabhängigen Münzwurf zu beschreiben. Die Zufallsvariablen wurden hierzu passend in Beispiel 3.3 eingeführt, um die Ergebnisse der einzelnen Würfe der Münze zu modellieren. 7.31{0, 1}N = {(ω ) k k∈N : ωk ∈ {0, 1}, k ∈ N} ist die Menge der {0, 1}-wertigen Folgen. 7.32F e ∗ und das in (2.15) eingeführte Mengensystem F∗ sind identisch. 7.33Die Wahrscheinlichkeitsmaße P , p ∈ [0, 1], werden in Abschnitt 2.4.2 eingeführt. Sie sind p e ∗ = F∗ , vgl. (2.16), eindeutig charakterisert. durch ihre Einschränkung auf Ereignisse in F 7.34Vgl. Beispiel 3.3. 7.35Vgl. Abschnitt 1.1.2, insbesondere (1.3c). Die dort bestimmte Verteilung der Anzahl defekter Produktionsstücke ist gleich der Verteilung der Anzahl der Erfolge in der hier betrachteten Situation. 7.36Die Definition (7.9) von f läßt schon jetzt für jedes feste p ∈ [0, 1] die Konvergenz von N fN (p) gegen f (p) bei N → ∞ vermuten: P N→∞ • (1/N ) N n=1 Xn −−−−→ Ep [X1 ] = p aufgrund des Gesetzes der großen Zahlen (bzgl. (Ω, F, Pp )) und daher P N→∞ • fN (p) = Ep [f ((1/N ) N ∼ Ep [f (p)] = f (p). n=1 Xn )] Im folgenden werden diese formalen Argumente präzisiert. 18. April 2016 129 Auf dem kompakten Intervall [0, 1] ist die stetige Funktion f sogar gleichmäßig stetig, d.h., zu ǫ > 0 gibt ein δ > 0, so daß |f (x) − f (y)| ≤ ǫ, (7.10) Daher gilt: falls |x − y| ≤ δ. 7.37 7.38 N X f 1 Xn − f (p) ≤ ǫ + 2kf k∞I{|(1/N ) PN Xn −p|≥δ} . N n=1 (7.11) n=1 7.2.2.3. Anwendung des schwachen Gesetzes der großen Zahlen. Nun kann die gleichmäßige Konvergenz der Polynome fN gegen die Funktion f bei N → ∞, d.h., (7.12) lim sup |fN (p) − f (p)| = 0 N →∞ p∈[0,1] nachgewiesen werden. Hierzu ergibt sich zunächst |fN (p) − f (p)| = (7.13) = ≤ ≤ N X Ep f 1 − f (p) Xn N n=1 X N Ep f 1 Xn − f (p) N n=1 X N 1 7.40 Ep f Xn − f (p) N n=1 i h 7.41 ǫ + 2kf k∞ Ep I{|(1/N ) PN Xn −p|≥δ} n=1 | {z } X 1 N = Pp Xn − p ≥ δ N n=1 7.39 1 ǫ + 2kf k∞ Varp (X1 ) | {z } N δ 2 = p(1 − p) ≤ 1/4 kf k∞ ≤ ǫ+ , p ∈ [0, 1]. 2N δ 2 ≤ 7.42 7.37kf k 7.38 ∞ = sup{|f (x)| : x ∈ [0, 1]}. Die Beziehung (7.11) ist eine abgekürzte Version von N X f 1 Xn (ω) − f (p) ≤ ǫ + 2kf k∞ I{ω ′ ∈Ω:|(1/N) PN Xn (ω ′ )−p|≥δ} (ω), n=1 N n=1 ω ∈ Ω. P P Für jedes ω ∈ Ω ist entweder |(1/N ) N − p| < δ oder |(1/N ) N n=1 Xn (ω) n=1 Xn (ω) − p| ≥ δ. PN Aufgrund von (7.10) gilt im ersten Fall |f ((1/N ) n=1 Xn (ω)) − f (p)| ≤ ǫ, während im zweiten P Fall |f ((1/N ) N n=1 Xn (ω)) − f (p)| ≤ 2kf k∞ ist. 18. April 2016 130 Zu einer vorgegebenen Approximationsgenauigkeit η > 0 in (7.12) ist nun zuerst • ǫ = η/2 zu definieren, dann zu diesem ǫ ein • δ > 0 so zu bestimmen, daß (7.10) gilt, und letztendlich ein • N ≥ kf k∞ /(ηδ 2 ) zu wählen. Dann führt (7.13) zu |fN (p) − f (p)| ≤ η, p ∈ [0, 1]. Damit ist der Approximationssatz von Weierstraß bewiesen. (∗) 7.39Wegen (7.9). 7.40Für eine Zufallsvariable Z in L1 (Ω, F, P), d.h. mit E[|Z|] < ∞, gilt: |E[Z]| ≤ E[|Z|]. Beweis. Da Z ≤ |Z| und −Z ≤ |Z|, folgen aus der Monotonie und der Linearität des Erwartungswerts, vgl. (6.5), (6.6) und die Bemerkung 6.4(i), die Beziehungen E[Z] ≤ E[|Z|] und −E[Z] = E[−Z] ≤ E[|Z|]. Damit ist (∗) bewiesen. Bemerkung. Wie die Cauchysche Ungleichung (6.21) ist (∗) ein Spezialfall der Jensenschen Ungleichung, die besagt, daß ϕ(E[X]) ≤ E[ϕ(X)], falls ϕ : R → R konvex und X eine reellwertige, integrable Zufallsvariable mit E[|ϕ(X)|] < ∞ ist, vgl. [3], Appendix A.5, (5.1). 7.41 Wegen (7.11) und der Monotonie, der Linearität und der Normierung des Erwartungswerts, vgl. (6.5), (6.6) und (6.10). 7.42 Wegen des schwachen Gesetzes der großen Zahlen, vgl. (7.3). Beachte, daß auf dem Wahrscheinlichkeitsraum (Ω, F, Pp ) die Zufallsvariablen Xn , n ∈ N, unabhängig und identisch verteilt mit Ep [X1 ] = p und Varp (X1 ) = p(1 − p) sind. 18. April 2016 KAPITEL 8 Bedingte Wahrscheinlichkeiten I. allg. muß die Wahrscheinlichkeit eines Ereignisses A neu bewertet werden, wenn bekannt wird, daß ein anderes Ereignis B eingetreten ist. Dies ist insbesondere dann der Fall, wenn eine Abhängigkeit zwischen A und B besteht 8.1. Man bezeichnet mit P[A|B] die Wahrscheinlichkeit für A unter der Bedingung, daß B eingetreten ist 8.2. Beispiel 8.1. Für k = 1, . . . , N beschreibe die {0, 1}-wertige Zufallsvariable Xk das Ergebnis des k-ten Wurfs einer fairen Münze, wobei die einzelnen Würfe unabhängig sind. Sei 8.3 A = {X1 + · · · + XN = N } und 8.4 B = {X1 = 0}. Es gilt 8.5 P[A] = 2−N , aber 8.6 P[A|B] = 0. Es wird somit deutlich, daß i. allg. P[A] und P[A|B] verschieden sind. Beispiel 8.2. 8.7 Den Überlegungen in Abschnitt 2.1 folgend wird zur Modellierung des 2-maligen, unabhängen Wurfs eines fairen Würfels mit dem Wahrscheinlichkeitsraum (Ω, F, P), wobei Ω = {1, . . . , 6}2 , F = Pot(Ω) und P die Gleichverteilung auf (Ω, F) ist, gearbeitet. (Ω, F, P) ist ein Laplacescher Wahrscheinlichkeitsraum, d.h., (8.1) P[C] = |C| |C| = , |Ω| 36 C ∈ F. Sei A = {ω = (ω1 , ω2 ) ∈ Ω : ω1 + ω2 = 6} und B = {ω ∈ Ω : ω1 = 3}. In diesem Beispiel soll speziell P[A|B] und allgemeiner P[C|B], C ∈ F, bestimmt werden. Wenn der 1. Wurf durchgeführt worden ist und 3 ergeben hat, d.h., wenn B eingetreten ist, müssen, wenn die dann gewonnene Information nicht ignoriert werden soll, die Wahrscheinlichkeiten der Ereignisse in F neu bestimmt werden. Es ergibt sich ein Wahrscheinlichkeitsmaß PB = P[ . |B] auf dem meßbaren Raum (Ω, F) 8.8. Intuitiv wird beispielsweise erwartet, daß (i) PB [{ω ∈ Ω : ω1 6= 3}] = PB [Ω \ B] = 0 8.9, (ii) PB [{ω ∈ Ω : ω1 = 3}] = PB [B] = 1 8.10 und (iii) PB [{ω ∈ Ω : ω2 = k}] = 1/6, k = 1, . . . , 6 8.11. Als Präzisierung von (i) - (iii) kann (8.2) PB [{ω ∈ Ω : ω1 = l, ω2 = k}] = PB [{(l, k)}] 8.1D.h., wenn A und B nicht stochastisch unabhängig sind, vgl. Abschnitt 3.2.3. 8.2Ein erstes Problem ist die Bestimmung von P[A|B], d.h. die Angabe einer Formel“. ” 8.3A , es wird N mal Zahl“ geworfen“. ” ” beim ersten Wurf wird Kopf“ geworfen“. ” ” (2.3a). 8.6Wenn X = 0, kann niemals X + · · · + X = N sein. 1 1 N 8.7Mit diesem Beispiel soll die allgemeine Formel (8.4) zur Berechnung bedingter Wahrscheinlichkeiten motiviert werden. 8.8Man betrachtet hier die bedingten Wahrscheinlichkeiten P[C|B] simultan für alle C ∈ F. 8.9Die bedingte Wahrscheinlichkeit, daß B nicht eintritt unter der Bedingung, daß B eingetreten ist, sollte 0 sein. 8.10P ist daher auf B konzentriert. B 8.11Da die beiden Würfe unabhängig sind. 8.4B , 8.5Vgl. 131 132 = ( 0, falls l 6= 3, k = 1, . . . , 6, 1/6, falls l = 3, festgehalten werden. Aus (8.2) folgt zunächst " [ P[A|B] = PB [A] = PB k,l=1,...,6; l+k=6 X = k,l=1,...,6 l+k=6 {ω ∈ Ω : ω1 = l, ω2 = k} # PB [{ω ∈ Ω : ω1 = l, ω2 = k}] = PB [{ω ∈ Ω : ω1 = 3 = ω2 }] = 1 5 6= = 6 36 8.12 P[A] . Weiterhin bedeutet (8.2), daß die • ω∈B • ω∈ 6 B 8.13 8.14 unter PB gleichwahrscheinlich sind, und die unter PB die Wahrscheinlichkeit 0 besitzen. Somit gilt (8.3) P[C|B] = PB [C] = 8.15 = 8.16 |C ∩ B|/|Ω| |C ∩ B| = |B| |B|/|Ω| P[C ∩ B] , C ∈ F, P[B] für die bedingte Wahrscheinlichkeit von C ∈ F unter der Bedingung B 8.17 . 8.1. Bestimmung bedingter Wahrscheinlichkeiten 8.18 Sei (Ω, F, P) ein Wahrscheinlichkeitsraum. Allgemein ist für ein B ∈ F mit P[B] > 0 8.19 die unter B bedingte Wahrscheinlichkeit P[ . |B] ein Wahrscheinlichkeitsmaß auf dem meßbaren Raum (Ω, F) 8.20. Für dieses Wahrscheinlichkeitsmaß P[ . |B] sind außerdem folgende Eigenschaften zu erwarten: (i) P[B|B] = 1 8.21 . 8.12Vgl. (8.1). Es ist zu beachten, daß |A| = 5. 8.13Ein ω ∈ B zeichnet sich durch ω = 3 aus. 1 8.14Ein ω 6∈ B zeichnet sich durch ω 6= 3 aus. 1 8.15Nur die ω ∈ B besitzen unter P eine positive Wahrscheinlichkeit. Diese ist 1/|B|, da B unter PB alle solchen ω’s gleichwahrscheinlich sind. Man beachte hier auch, daß genau |C ∩ B| Elemente von C auch in B enthalten sind. 8.16 Vgl. (8.1). 8.17Im nächsten Abschnitt 8.1 wird demonstriert, daß die Darstellung (8.3) der bedingten Wahrscheinlichkeit allgemeingültig ist. 8.18In diesem Abschnitt werden die Überlegungen aus Beispiel 8.2 in einem allgemeinen Rahmen wiederholt. Insbesondere wird die Allgemeingültigkeit von (8.3) nachgewiesen. 8.19Die Notwendigkeit dieser Bedingung ergibt sich aus der letztendlich P[ . |B] charakterisierenden Beziehung (8.4). Darüberhinaus scheint die Bestimmung von unter einem Ereignis B bedingten Wahrscheinlichkeiten nicht notwendig zu sein, falls B mit Wahrscheinlichkeit 1 nicht eintritt. 8.20Insbesondere erfüllt P[ . |B] die Beziehungen (2.2). 8.21Wenn B eingetreten ist, ist B ein sicheres Ereignis. 18. April 2016 133 (ii) Es gibt eine Konstante cB > 0, so daß P[A|B] = cB P[A], falls A ∈ F, A ⊆ B 8.22 8.23. Aus (i) und (ii) für A = B folgt 1 = P[B|B] = cB P[B], d.h., cB = 1/P[B]. Damit ergibt sich (8.4) 8.24 P[A ∩ B|B] + P[A ∩ (Ω \ B)|B] {z } | = 8.25 0 = cB P[A ∩ B] P[A|B] = = P[A ∩ B] , P[B] A ∈ F. Diese Überlegungen zeigen, daß für B ∈ F mit P[B] > 0 durch (i) und (ii) ein eindeutiges Wahrscheinlichkeitsmaß P[ . |B] auf (Ω, F) bestimmt wird. Dieses Wahrscheinlichkeitsmaß genügt der Beziehung (8.4). Es wird die unter B bedingte Wahrscheinlichkeit genannt 8.26. Beispiel 8.3 (Gedächtnislose Wartezeiten). Gewisse regelmäßig wiederkehrende Ereignisse können jederzeit eintreten, unabhängig davon, welche Zeitspanne seit ihrem letzten Auftreten schon verstrichen ist 8.27. Somit ist die verbleibende Wartezeit T bis zum nächsten Eintreten eines derartigen Ereignisses gedächtnislos. Diese Gedächtnislosigkeit bedeutet, daß P[T > t + s|T > t] = P[T > s], 0 < s, t < ∞, und folglich P[T > t + s] = 8.28 P[T > t]P[T > t + s|T > t] = P[T > t]P[T > s], 0 < s, t < ∞. 8.22Mit dem Beobachten, daß B eingetreten ist, sind keine weiteren Erkenntnisse über tiefergehende Details, d.h. Ereignisse A ⊆ B, verbunden. Für A, A′ ∈ F mit A, A′ ⊆ B sollte folglich das Verhältnis der Wahrscheinlichkeiten vor und nach dem Gewinn des Wissens um das Eintreten von B gleich sein, d.h., P[A|B] P[A] = , P[A′ ] P[A′ |B] A, A′ ∈ F, A, A′ ⊆ B, P[A′ ] > 0. Diese Relation ist gleichbedeutend mit (ii), wobei cB = P[A′ |B]/P[A′ ] für ein beliebiges, fest gewähltes A′ ⊆ B mit P[A′ ] > 0. 8.23 Im Rahmen von Beispiel 8.2 sind die dortigen vor (8.3) aufgeführten Eigenschaften äquivalent zu (i) und (ii). . 8.24Wegen der Additivität des Wahrscheinlichkeitsmaßes P[ . |B] und weil A = (A ∩ B) ∪ (A ∩ (Ω \ B)). 8.25 Wegen (i) ist die gesamte Masse“ des Wahrscheinlichkeitsmaßes P[ . |B] auf B konzen” triert, d.h., P[C|B] = 0, falls C ⊆ Ω \ B. 8.26Gelegentlich wird auch einfach (8.4) als Definition der unter B bedingten Wahrscheinlichkeit P[ . |B] benutzt. 8.27 Beispiele wären Telefonanrufe, Zerfälle in einem radioaktiven Präparat, Meteoriteneinschläge, . . . 18. April 2016 134 Daher ist die durch w(t) = P[T > t], t > 0, definierte Funktion w : (0, ∞) → [0, 1] eine rechtsstetige 8.29 und monoton fallende 8.30 Lösung der Funktionalgleichung (8.5) 0 < s, t < ∞. w(t + s) = w(t)w(s), w hat daher notwendigerweise die Darstellung (8.6) 8.31 w(t) = exp(−λt), t > 0, für ein λ > 0. Als Konsequenz hat die Verteilungsfunktion FT von T die Gestalt FT (t) = P[T ≤ t] = 1 − P[T > t] = 1 − exp(−λt), d.h., T ist exponentiell verteilt mit Parameter λ t > 0, 8.32 . 8.28Vgl. (8.4). Man beachte, daß {T > t + s} ⊆ {T > t} und damit P[T > t + s|T > t] = P[T > t + s] P[{T > t + s} ∩ {T > t}] = . P[T > t] P[T > t] 8.29Da w(t) = P[T > t] = 1 − P[T ≤ t] = 1 − FT (t), t > 0, mit der Verteilungsfunktion FT von T , ist die Rechtsstetigkeit von w eine Konsequenz der Rechtsstetigkeit beliebiger Verteilungsfunktionen, vgl. Abschnitt 3.3.1(iv). 8.30 Aus der Monotonie von P, vgl. (2.12), folgt w(t1 ) = P[T > t1 ] ≥ P[T > t2 ] = w(t2 ), 0 < t1 ≤ t2 < ∞. 8.31Für eine Lösung w von (8.5) führt zunächst eine Iteration zu (∗1 ) Insbesondere ist w(p/q) = w(1/q) · · · w(1/q) = w(1/q)p , | {z } p mal w(1) = w(q/q) = w(1/q)q , d.h., w(1/q) = w(1)1/q , (∗2 ) p, q ∈ N. q ∈ N, q ∈ N. Aus (∗1 ) ergibt sich ebenso (∗3 ) w(p) = w(1)p , p ∈ N. Ist w(1) = 0, bzw. w(1) = 1, so kann aus (∗2 ), bzw. (∗3 ), und der Monotonie von w gefolgert werden, daß w(s) = 0, s > 0, bzw. w(s) = 1, s > 0. Wenn w(s) = P[T > s] = 0, s > 0, ergibt sich aus der Rechtsstetigkeit der Verteilungsfunktion FT von T , vgl. Abschnitt 3.3.1(iv), weiterhin (∗4 ) P[T = 0] = P[T ≤ 0] = FT (0) = lim FT (s) = lim (1 − P[T > s]) = 1. sց0 sց0 Andererseits, wenn w(s) = P[T > s] = 1, s > 0, wird aufgrund der σ-Subadditivität von P, vgl. (2.13), deutlich, daß " ∞ # [ (∗5 ) P[T = ∞] = 1 − P[T < ∞] = 1 − P {T ≤ n} n=1 ≥ 1− ∞ X n=1 P[T ≤ n] = 1 − ∞ X n=1 (1 − P[T > n]) = 1. In real interessierenden Anwendungen trifft (∗4 ), bzw. (∗5 ), nicht zu. Somit ist w(1) ∈ (0, 1), d.h. λ := − log w(1) ∈ (0, ∞). Nun folgt w(p/q) = w(1)p/q = exp(−λ)p/q = exp(−λp/q), p, q ∈ N, aus (∗1 ) und (∗2 ). Somit ist (8.6) für t ∈ Q ∩ (0, ∞) nachgewiesen. Die Gültigkeit dieser Beziehung für alle t > 0 ist dann eine Konsequenz der Rechtsstetigkeit von w. 8.32Man beachte, daß F in (0, ∞) stetig differenzierbar mit F ′ (t) = λ exp(−λt), t > 0, ist, T T und berücksichtige Abschnitt 3.3.1(vi). 18. April 2016 135 8.1.1. Rechenregeln für bedingte Wahrscheinlichkeiten. Beim konkreten Arbeiten mit bedingten Wahrscheinlichkeiten kann häufig auf die im folgenden Satz zusammengefaßten Rechenregeln zurückgegriffen werden 8.33. • S Satz 8.4. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und Ω = i∈I Bi eine höchstens abzählbare Zerlegung von Ω in disjunkte Ereignisse Bi ∈ F mit P[Bi ] > 0, i ∈ I. Dann gilt die Fallunterscheidungsformel, d.h. 8.34, X (8.7) P[A] = P[Bi ]P[A|Bi ], A ∈ F, i∈I und die Formel von Bayes (1763), d.h., (8.8) P[Bk ]P[A|Bk ] P[A] P[Bk ]P[A|Bk ] , = P i∈I P[Bi ]P[A|Bi ] P[Bk |A] = 8.35 k ∈ I, A ∈ F, P[A] > 0. Beweis. (8.7) folgt aus X X P[Bi ] P[A|Bi ] = P[A ∩ Bi ] | {z } i∈I i∈I P[A ∩ Bi ] = 8.36 P[Bi ] # " • [ = 8.37 P (A ∩ Bi ) = } | i∈I {z [ • =A∩ Bi 8.38 P[A]. i∈I Die erste Beziehung in (8.8) ist eine Konsequenz aus P[Bk |A] = 8.39 P[Bk ∩ A] P[Bk ∩ A] P[Bk ] = . · P[A] P[Bk ] P[A] | {z } = 8.39 P[A|Bk ] Die zweite Identität in (8.8) ergibt sich nun mit (8.7). Beispiel 8.5 (Verwendung eines medizinischen Diagnoseverfahrens). 8.40 Eine spezielle Krankheit trete bei 4% der Bevölkerung auf. Ein auf diese Krankheit zugeschnittenes Diagnoseverfahren ergebe bei 90% (20%) der Erkrankten (Gesunden) ein positives Ergebnis. 8.33 In Beispiel 8.5 werden diese Regeln benutzt werden, um aus gegebenen bedingten Wahrscheinlichkeiten andere zunächst unbekannte, nützliche Informationen liefernde bedingte Wahrscheinlichkeiten zu berechnen. 8.34Man beachte, daß immer wenn das Ereignis A geschieht, auch genau ein B eintreten i muß. Daher ergibt sich P[A] durch Summation über alle i ∈ I der Wahrscheinlichkeiten P[Bi ] für das Eintreten von Bi jeweils multipliziert mit der Wahrscheinlichkeit P[A|Bi ] für A unter der Bedingung, daß Bi schon P eingetreten ist. M.a.W., da ”jeder Weg nach A durch genau ein Bi führt, ist P[A] die Summe i∈I P[Bi ]P[A|Bi ] der Wahrscheinlichkeiten für die verschiedenen möglichen Wege“. 8.35Hier wird ein Zusammenhang zwischen P[B |A] und P[A|B ] dargelegt. k k 8.36Vgl. (8.4). 8.37Da die Ereignisse B , i ∈ I, und daher auch A ∩ B , i ∈ I, disjunkt sind und aufgrund i i der σ-Additivität von P. • S 8.38 Da i∈I Bi = Ω. 8.39Vgl. (8.4). 8.40Das hier vorgestellte Beispiel ist eine etwas ausführlichere Version von Beispiel (3.4) in [5]. 18. April 2016 136 Wichtige Fragen zu diesem Verfahren sind beispielsweise: • Was ist die Bedeutung eines positiven (negativen) Befundes für einen Patienten? 8.41 • Was kann das Diagnoseverfahren in der Praxis leisten? Zu einer wissenschaftlich fundierten Beantwortung dieser Fragen werden die vorliegenden Kenntnisse zunächst in ein mathematisches, d.h. wahrscheinlichkeitstheoretisches Modell übersetzt. Anschließend werden die Fragen im Rahmen dieses Modells beantwortet. Wenn bei der Modellbildung Einfachheit“ 8.42 angestrebt wird, bietet es sich ” an, ein Laplacesches Modell mit der Gesamtbevölkerung als Stichprobenraum Ω zu verwenden. In diesem Rahmen werden Personen ω ∈ Ω gemäß der Gleichverteilung auf Ω ausgewählt und getestet 8.43. In Ω können die Ereignisse 8.44 Tk = 8.45 Tg = 8.46 T+ = 8.47 {ω ∈ Ω : ω krank}, {ω ∈ Ω : ω gesund} und {ω ∈ Ω : ω mit positivem Befund} beschrieben werden. Aufgrund der vorliegenden Informationen sind hierzu zunächst die folgenden bedingten, bzw. unbedingten Wahrscheinlichkeiten bekannt: P[Tk ] = 0.04, P[T+ |Tk ] = 0.9, P[Tg ] = 0.96, P[T+ |Tg ] = 0.2. Als Konsequenzen können darüberhinaus folgende Schlüsse gezogen werden 8.48: (8.9) P[Tk |T+ ] 8.49 P[Tk ]P[T+ |Tk ] P[Tk ]P[T+ |Tk ] + P[Tg ]P[T+ |Tg ] 0.04 · 0.9 = 0.04 · 0.9 + 0.96 · 0.2 ≈ 0.158, = 8.50 8.41Ein Arzt will wissen, was er einem Patienten bei einem positiven, bzw. einem negativen Befund mitteilen soll. Einerseits sollte er diesen Patienten beim Vorliegen einer Erkrankung aufklären, aber andererseits sollte er ihn auch nicht unnötig verunsichern. 8.42Bei der mathematischen Modellierung realer Vorgänge sollte man immer zuerst versuchen, mit möglichst elementaren Modellen zu arbeiten. Dadurch bleiben alle mathematischen Überlegungen und Berechnungen übersichtlicher“ und einfacher zu überprüfen. Insbesondere ” wird es dann auch leichter, einem Anwender“ die Ergebnisse der Modellierung zu vermitteln. ” Erst wenn ein elementares Modell nicht mehr mit der Realität in Einklang gebracht werden kann, sollten komplexere Modelle in Betracht gezogen werden. 8.43Diese Modellannahme ist dann vernünftig, wenn die zu testenden Patienten zufällig“ ” aus der Gesamtbevölkerung gewählt werden. Eine solche Situation kann vorliegen, wenn die zu untersuchende Krankheit vor ihrem endgültigen Ausbruch keine Symptome zeigt, auch keine Risikogruppen existieren und wenn nur Patienten getestet werden, die z.B. aufgrund von Ängsten eine Diagnose wünschen. Falls beispielsweise nur Patienten mit ersten Symptomen einer Krankheit getestet werden, sollte das einfache Laplacesche Modell evtl. modifiziert werden. Möglicherweise sind dann zusätzliche Studien notwendig, um weitere Daten wie z.B. die Häufigkeit einer Erkrankung, bzw. eines positiven Befundes für die Bevölkerungsgruppe der Personen mit ersten Symptomen zu bestimmen. 8.44Man beachte, daß wie üblich Ereignisse mit Teilmengen des Stichprobenraums identifiziert werden. 8.45T ist das Ereignis, daß eine zufällig ausgewählte Person krank ist. k 8.46 Tg ist das Ereignis, daß eine zufällig ausgewählte Person gesund ist. 8.47 T+ ist das Ereignis, daß sich für eine zufällig ausgewählte Person ein positiver Befund ergibt. 8.48Die nun berechneten bedingten Wahrscheinlichkeiten ergeben sich durch Anwendung der Formel von Bayes, vgl. (8.8). 18. April 2016 137 P[Tk |Ω \ T+ ] 8.51 P[Tk ]P[Ω \ T+ |Tk ] P[Tk ]P[Ω \ T+ |Tk ] + P[Tg ]P[Ω \ T+ |Tg ] 0.04 · 0.1 = 0.04 · 0.1 + 0.96 · 0.8 ≈ 0.0052. = Bei der Untersuchung beliebiger, zufällig ausgewählter Patienten bedeutet dies, daß • ein positiver Befund nur mit geringer Wahrscheinlichkeit 0.158 auf eine Erkrankung hindeutet 8.52, während • bei einem negativen Befund mit hoher Wahrscheinlichkeit 0.9948 = 1 − 0.0052 eine Erkrankung ausgeschlossen werden kann. Folglich eignet sich das vorliegende Diagnoseverfahren, um • bei einem negativen Befund eine Erkrankung auszuschließen, während • bei einem positiven Befund eine weitere Beobachtung des Patienten zu empfehlen ist. 8.49Dies ist die Wahrscheinlichkeit für das Vorliegen einer Erkrankung, falls sich ein positiver Befund ergeben hat. 8.50Setze hierzu B = T , B = T und A = T in (8.8). g 1 2 + k 8.51 Dies ist die Wahrscheinlichkeit für eine Erkrankung, falls ein negativer Befund vorliegt. 8.52Die Ursache für diese vielleicht überraschende Eigenschaft des Diagnoseverfahrens ist die Tatsache, daß ein relativ hoher Anteil der Bevölkerung gesund ist und daß bei diesen Gesunden mit einer nicht vernachlässigbaren Wahrscheinlichkeit 0.2 sich ein positiver Befund ergibt. Ein positiver Befund hat somit bei diesem Diagnoseverfahrens nur eine geringe Aussagekraft. 18. April 2016 138 8.2. Markovketten Ein stochastischer Prozeß 8.53 X = (Xt )0≤t<∞ wird Markovprozeß genannt, wenn in jedem Zeitpunkt s ≥ 0 die zukünftige Entwicklung, d.h., Xu , u > s, bei gegebenem gegenwärtigen Zustand Xs nicht von der Vergangenheit Xu , u < s, abhängt. Die elementarsten Beispiele für solche Prozesse sind Markovketten, d.h. Markovprozesse in diskreter Zeit mit Werten in einem diskreten, d.h., höchstens abzählbaren Raum. Ein stochastischer Prozeß 8.54 X = (Xn )n∈N0 in diskreter Zeit 8.55 mit Werten in einem höchstens abzählbaren Zustandsraum 8.56 S heißt Markovkette, falls 8.57 (8.10) P Xn+k = s′ | X0 = s0 , . . . , Xn−1 = sn−1 , Xn = sn {z } | {z } | {z } | Gegenwart Zukunft Vergangenheit ′ = P Xn+k = s |Xn = sn , n ∈ N0 , k ∈ N, s0 , . . . , sn−1 , sn , s′ ∈ S. Zur Charakterisierung der zukünftigen Entwicklung einer Markovkette reicht also die Kenntnis des gegenwärtigen Zustandes aus. Die zusätzliche Kenntnis der zeitlichen Entwicklung in der Vergangenheit bringt in diesem Fall keinen Informationsgewinn. Die Größen 8.58 (8.11) Pn (s1 , s2 ) = P Xn+1 = s2 |Xn = s1 , s1 , s2 ∈ S, n ∈ N0 , heißen (1-Schritt-)Übergangswahrscheinlichkeiten. Sie werden zu den (1-Schritt-) Übergangsmatrizen Pn = (Pn (s, s′ ))s,s′ ∈S , n ∈ N0 , zusammengefaßt. Eine Markovkette besitzt stationäre Übergangswahrscheinlichkeiten, falls Pn = P unabhängig von n ist 8.59. Im folgenden werden nur Markovketten mit stationären Übergangswahrscheinlichkeiten betrachtet werden. Beispiel 8.6. Zum Parameter p ∈ (0, 1) seien Yn , n ∈ N, unabhängige, Bernoulliverteilte Zufallsvariablen in {−1, 1}, d.h. mit P[Yn = 1] = 1 − P[Yn = −1] = p, n ∈ N. Der Bernoulli-Prozeß 8.60 Y = (Yn )n∈N (mit Parameter p) ist eine Markovkette mit Werten in S = {−1, 1}. Es gilt P (a, 1) = p, P (a, −1) = 1 − p, a ∈ S 8.61. 8.53Vgl. Abschnitt 3.4. 8.54Die Zufallsvariablen X , n ∈ N , seien auf einem Wahrscheinlichkeitsraum (Ω, F, P) n 0 definiert. 8.55Als Menge aller Zeitpunkte kommt oft auch N oder Z vor. 8.56 Als abzählbare Menge wird S natürlich mit der σ-Algebra Pot(S) versehen. 8.57Stillschweigend sei darüber hinweggesehen, daß aufgrund von (8.4) die linke Seite von (8.10) nur wohldefiniert ist, wenn P[X0 = s0 , . . . , Xn−1 = sn−1 , Xn = sn ] > 0. In diesem Fall ist auch die rechte Seite von (8.10) wohldefiniert und stimmt mit der linken Seite überein, wenn X eine Markovkette ist. 8.58P (s , s ) gibt die bedingte Wahrscheinlichkeit an, mit der sich der Prozeß X zum Zeitn 1 2 punkt n + 1 im Zustand s2 befindet, falls er im vorangegangenen Zeitpunkt n die Position s1 eingenommen hat. M.a.W., Pn (s1 , s2 ) ist die Wahrscheinlichkeit, mit der X zum Zeitpunkt n ” von s1 nach s2 springt“. 8.59In diesem Fall besitzt die Markovkette X eine zeitlich homogene Dynamik. Man beachte, daß eine Markovkette mit stationären Übergangswahrscheinlichkeiten kein stationärer stochastischer Prozeß, vgl. Abschnitt 3.4.1, zu sein braucht. Für die in Beispiel 3.21 und dem folgenden Beispiel 8.7 beschriebene Irrfahrt in Z wird dies in Beispiel 3.23 demonstriert. 8.60Vgl. Beispiel 3.20. 8.61Offensichtlich sind, wenn die anschauliche Beschreibung von Markovprozessen am Anfang dieses Abschnitts 8.2 zugrundegelegt wird, auch die in Fußnote 3.236 erwähnten verallgemeinerten Bernoulli-Prozesse markovsch. In diesen Fällen braucht weder die Menge der Zeitpunkte noch der Zustandsraum diskret zu sein. 18. April 2016 139 8.62 Beispiel X = (Xn )n∈N0 , wobei X0 = 0 und Xn = Xn−1 + Pn 8.7. Die Irrfahrt Yn = k=1 Yk , n ∈ N, für die Zufallsvariablen Yn , n ∈ N, aus Beispiel 8.6, ist eine Markovkette mit Werten in S = Z. Es gilt 8.63 falls k ∈ S, l = k + 1, p, P (k, l) = 1 − p, falls k ∈ S, l = k − 1, 0, sonst. Beispiel 8.8 (Verallgemeinerte Irrfahrt). Sei ζn , n ∈ N, eine Folge von unabhängigen, identisch verteilten Zufallsvariablen mit Werten in Z, wobei P[ζ1 = k] = ak , k ∈ Z. Weiterhin sei X = (Xn )n∈N0 durch X0 = 0, Xk = Xk−1 + ζk = k X ζl , k = 1, 2, . . . , l=1 definiert. X ist offensichtlich eine Verallgemeinerung der in Beispiel 8.7 beschriebenen Irrfahrt 8.64. Insbesondere ist X eine Markovkette mit dem Zustandsraum Z und der Übergangsmatrix 8.65 .. .. .. . . . . . . . . . . . . . . . . .. . a0 a1 a2 . . . . . . . a1 a2 . . . P = . . . a−1 a0 . . . . . . . . . . a−1 a0 a1 . . . . . . . . . . . . . . . . . . a−1 a0 . . . .. .. . . .................... Die Verteilung PX einer Markovkette 8.66 X = (Xn )n∈N0 ist durch ihre Übergangsmatrix und ihre Anfangsverteilung PX0 eindeutig bestimmt. Es gilt (8.12) P X0 = s0 , X1 = s1 , . . . , Xn−1 = sn−1 , Xn = sn = PX0 [{s0 }]P (s0 , s1 ) · · · P (sn−1 , sn ), s0 , s1 , . . . , sn ∈ S, n ∈ N0 . Diese Beziehung ergibt sich aus 8.67 P X0 = s0 , X1 = s1 , . . . , Xn−1 = sn−1 , Xn = sn = P X0 = s0 , . . . , Xn−1 = sn−1 P Xn = sn |X0 = s0 , . . . , Xn−1 = sn−1 8.62Vgl. Beispiel 3.21. 8.63Die Irrfahrt springt in ihrem Zustandsraum Z in jedem Zeitpunkt jeweils mit Wahrschein- lichkeit p um 1 nach rechts, bzw. mit Wahrscheinlichkeit 1 − p um 1 nach links. Andere Sprünge sind nicht möglich. 8.64Wie bei der Irrfahrt ergibt sich in jedem Zeitpunkt n ∈ N der zukünftige Zustand X 0 n+1 aus dem gegenwärtigen Zustand Xn durch Addieren eines Zuwachses ζn+1 , wobei diese Zuwächse ζn , n ∈ N, unabhängige, identisch verteilte Zufallsvariablen sind. 8.65Da P (k, k + l) = P[X n+1 = k + l|Xn = k] = P[ζn+1 = l] = P[Xn+1 = k + 1 + l|Xn = k + 1] = P (k + 1, k + l + 1), n ∈ N0 , k, l ∈ Z, entsteht die (k + 1)-te Zeile in der Matrix P aus der k-ten Zeile durch eine Verschiebung um 1 nach rechts“. ” 8.66Mit der Verteilung PX einer Markovkette oder allgemeiner der Verteilung eines stochastischen Prozesses X = (Xn )n∈N0 ist die gemeinsame Verteilung der Zufallsvariablen {Xn : n ∈ N0 }, vgl. (3.7), gemeint. Für ein festes n ∈ N0 beschreiben die Größen auf der linken Seite von (8.12) die gemeinsame Verteilung von X0 , X1 , . . . , Xn . Diese gemeinsamen Verteilungen werden als endlichdimensionale Verteilungen von X bezeichnet. Sie bestimmen eindeutig die Verteilung PX des stochastischen Prozesses X. 8.67Hier wird insbesondere mehrmals die bedingte Wahrscheinlichkeiten charakterisierende Relation (8.4) und die Markoveigenschaft (8.10) benutzt. 18. April 2016 140 = P X0 = s0 , . . . , Xn−2 = sn−2 P Xn−1 = sn−1 |X0 = s0 , . . . , Xn−2 = sn−2 P Xn = sn |Xn−1 = sn−1 = ... = P[X0 = s0 ]P X1 = s1 |X0 = s0 · · · P (sn−1 , sn ) = PX0 [{s0 }]P (s0 , s1 ) · · · P (sn−1 , sn ), s0 , s1 , . . . , sn ∈ S, n ∈ N0 . Als Verallgemeinerung der (1-Schritt-)Übergangswahrscheinlichkeiten werden die n-Schritt-Übergangswahrscheinlichkeiten durch 8.68 (8.13) P n (s1 , s2 ) = P[Xn+m = s2 |Xm = s1 ], m, n ∈ N0 , s1 , s2 ∈ S, definiert. Für n = 0 setzt man hierbei 8.69 P 0 (s1 , s2 ) = δs1 ,s2 , s1 , s2 ∈ S. Die n-Schritt-Übergangswahrscheinlichkeiten genügen der Chapman-Kolmogorov-Gleichung, d.h., 8.70 X (8.14) P k+l (s1 , s2 ) = P k (s1 , s)P l (s, s2 ), k, l ∈ N0 , s1 , s2 ∈ S. s∈S Bemerkungen 8.9. (i) Die Übergangsmatrix P = (P (s, s′ ))s,s′ ∈S einer S-wertigen Markovkette X = (Xn )n∈N0 ist eine stochastische Matrix, d.h., es gilt 8.71 ′ ′ (a) P P(s, s ) ≥ 0, ′s, s ∈ S, (b) s′ ∈S P (s, s ) = 1, s ∈ S 8.72 . n (ii) Für n ∈ N ist die Matrix P der n-Schritt-Übergangswahrscheinlichkeiten das n-fache Matrixprodukt der 1-Schritt-Übergangsmatrix P 8.73. (iii) Das zeitliche Verhalten einer S-wertigen Markovkette X = (Xn )n∈N0 wird durch die algebraischen Eigenschaften ihrer Übergangsmatrix P = (P (s, s′ ))s,s′ ∈S bestimmt. Sei beispielsweise µ = (µs )s∈S ein linker Eigenvektor von P mit Eigenwert 1, d.h. mit X (8.15) µs′ P (s′ , s) = µs , s ∈ S, s′ ∈S 8.68Da hier nur Markovketten mit stationären Übergangswahrscheinlichkeiten betrachtet werden, ist die rechte Seite von (8.13) von m unabhängig. 8.69δ bezeichnet das Kronecker-Symbol, d.h., .,. ( 1, falls s = s′ , δs,s′ = 0, sonst. 8.70Der Übergang von s nach s in k + l Schritten führt durch einen Zwischenzustand s ∈ S 1 2 nach k Schritten. Wegen (8.4) und der Markoveigenschaft (8.10) hat für alle m ∈ N0 bedingt unter k Schritte l Schritte Xm = s1 der Weg s1 −−−−−−−→ s −−−−−−→ s2 für ein festes s die Wahrscheinlichkeit P[Xm+k+l = s2 , Xm+k = s|Xm = s1 ] = P[Xm+k+l = s2 |Xm+k = s, Xm = s1 ] · P[Xm+k = s|Xm = s1 ] = P[Xm+k = s|Xm = s1 ] · P[Xm+k+l = s2 |Xm+k = s] = P k (s1 , s)P l (s, s2 ). Die Übergänge durch verschiedene Zwischenzustände s entsprechen disjunkten Ereignissen, d.h., ihre jeweiligen bedingten Wahrscheinlichkeiten addieren sich zur bedingten Gesamtwahrscheinlichkeit P k+l (s1 , s2 ). 8.71Die Komponenten von P sind nichtnegativ und ihre Zeilen addieren sich zu 1. P 8.72Weil P ′ ′ s′ ∈S P (s, s ) = s′ ∈S P[Xn+1 = s |Xn = s] = P[Xn+1 ∈ S|Xn = s] = 1 für alle s ∈ S und n ∈ N0 . 8.73Dies folgt durch vollständige Induktion aus (8.14). Offensichtlich zeigt (8.14), daß die Matrix P k+l das Produkt der Matrizen P k und P l ist. 18. April 2016 141 wobei außerdem 8.74 µs ≥ 0, s ∈ S, (8.16) und X µs = 1 s∈S gelte. Dann beschreibt µ eine invariante Verteilung von X, d.h., PX0 [{s}] = P[X0 = s] = µs , s ∈ S, impliziert 8.75 (8.17) PXn [{s}] = P[Xn = s] = µs , s ∈ S, n ∈ N0 . 8.3. Modellbildung mit Markovketten Anhand von drei Beispielen wird gezeigt, wie sich Markovketten bei der Bildung einfacher Modelle für zufällige, sich zeitlich entwickelnde Phänomene anwenden lassen. Beispiel 8.10 (Ehrenfestsches Modell für die Diffusion durch eine Membran). Es seien zwei durch eine durchlässige B2 B1 Membran getrennte Behälter gegeben. Diese enthalten zusammen 2N Teilchen (Moleküle), die zwischen den Boxen hin und her wechseln können. Zur Modellierung der Dynamik der Teilchenzahlen für B1 und B2 kann als Zustandsraum 8.76 S = {−N, −N +1, . . . , 0, 1, . . . , N −1, N } gewählt werden. k ∈ S beschreibt die Situation, in der N + k Teilchen in B1 enthalten sind 8.77. Eine einfache Dynamik kann folgendermaßen definiert werden: In jedem Zeitpunkt wird aus der Menge aller Teilchen gemäß der Gleichverteilung ein Teilchen zufällig ausgewählt. Dieses Teilchen wird in den jeweils anderen Behälter gebracht 8.78. Durch diese Beschreibung wird eine Markovkette X = (Xn )n∈N0 für die Anzahl der Teilchen in B1 charakterisiert. Deren Übergangswahrscheinlichkeiten sind: N +i , falls i = −N + 1, . . . , N, j = i − 1 8.79, 2N P[Xn+1 = j|Xn = i] = N − i , falls i = −N, . . . , N − 1, j = i + 1 8.80, 2N 0, sonst. 8.74µ entspricht damit einem Wahrscheinlichkeitsmaß auf S. 8.75(8.17) folgt zunächst für n = 1 aus PX1 [{s}] = P[X1 = s] = P[X0 ∈ S, X1 = s] = = X s′ ∈S PX0 [{s′ }]P (s′ , s) = X s′ ∈S X P[X0 = s′ , X1 = s] s′ ∈S µs′ P (s′ , s) = µs , s ∈ S, wobei u.a. (8.12) Verwendung findet. Durch Iteration dieser Argumente ergibt sich (8.17) schließlich für alle weiteren n = 2, 3, . . . . 8.76Da die Gesamtzahl 2N aller Teilchen fest ist, genügt es, die zeitliche Entwicklung der (Anzahl der Teilchen in B1 ) - N zu beschreiben. 8.77In diesem Fall ist die Anzahl der Teilchen in B gleich 2N − (N + k) = N − k. 2 8.78 Die räumliche Bewegung innerhalb der Behälter wird nicht modelliert. 8.79Ein Teilchen wird von B nach B gebracht. 1 2 8.80 Ein Teilchen wird von B2 nach B1 gebracht. 18. April 2016 142 Fragen 8.81. Stellt sich für große Zeiten ein Gleichgewicht ein? Was ist überhaupt ein Gleichgewicht“? 8.82 Konvergiert die Verteilung PXn von Xn bei n → ” ∞ gegen eine Grenzverteilung? Ist diese Grenzverteilung invariant 8.83 unter der Dynamik? Gibt es weitere invariante Verteilungen? Gibt es einen Zeitpunkt, in dem sich alle Teilchen in dem Behälter B1 befinden 8.84 ? Beispiel 8.11 (Ein Warteschlangenmodell). Es sei angenommen, daß an einem Servicepunkt (Postschalter, Internetserver, Telefon-Hotline, . . . ) - pro Zeiteinheit ein Kunde bedient werden kann und daß weiterhin - ständig neue Kunden ankommen, wobei ζn die Anzahl der neuen Kunden im Zeitintervall (n, n + 1] sei. ζn , n ∈ N0 , seien i.i.d. Zufallsvariablen mit Werten in N0 8.85. Sei nun Xn die Größe der Warteschlange zum Zeitpunkt n, n ∈ N0 . Offensichtlich gilt 8.86 8.87: (8.18) Xn+1 = (Xn − 1)+ + ζn , n ∈ N0 . Diese Beziehung verdeutlicht, daß X = (Xn )n∈N0 eine Markovkette mit dem Zustandsraum S = N0 ist. Falls P[ζ1 = l] = al , l ∈ N0 , ergibt sich aus (8.18) für die Übergangswahrscheinlichkeiten: ( al+1 8.88, falls k = 1, 2, . . . , l ∈ N0 ∪ {−1}, P[Xn+1 = k + l|Xn = k] = al , falls k = 0, l ∈ N0 . Fragen. Unter welchen Bedingungen wird die Warteschlange im Verlauf der Zeit immer länger? Mit anderen Worten, wann gilt limn→∞ Xn = ∞? Gilt diese Konvergenz f.s. oder nur mit positiver Wahrscheinlichkeit? In welchen Situationen stellt sich ein Gleichgewicht“ ein? Gibt es Zeitpunkte, in denen die Warteschlange ” leer ist? Beispiel 8.12 (Ein Verzweigungsprozeß). Zur Modellierung der zeitlichen Entwicklung einer Population sei angenommen, daß 8.81 Für die Beispiele dieses Abschnitts 8.3 werden jeweils Fragen formuliert, die mit Hilfe der in weiterführenden Veranstaltungen zu entwickelnden allgemeinen Resultate zur Theorie der Markovketten beantwortet werden können. 8.82 Offensichtlich kann dies kein fester, deterministischer Zustand sein. Vielmehr muß Gleich” gewicht“ in einem stochastischen Sinn definiert werden, d.h., zufällige Fluktuationen sollten möglich sein. 8.83Vgl. Bemerkung 8.9(iii). 8.84Offensichtlich ist in einem solchen Zeitpunkt das System weit entfernt von einem stabi” len“ oder invarianten“ Zustand. ” 8.85Insbesondere im Bereich der Informationstechnologie gibt es etliche Anwendungen für Warteschlangenmodelle. Das hier vorgestellte Modell beschreibt z.B. eine Warteschlange an einem Drucker, für den die Druckaufträge alle etwa gleich groß sind. Andere Modelle sind beispielsweise für solche FTP- oder HTTP-Server notwendig, die nur eine beschränkte Anzahl gleichzeitiger Zugriffe zulassen und darüberhinausgehende Anfragen abweisen. 8.86Beachte: Wenn kein Kunde wartet, d.h., wenn X = 0, wird auch keiner bedient. Aus n diesem Grund taucht der Beitrag (. . . )+ in (8.18) auf. 8.87 (8.18) kann in der Form Xn+1 − Xn = −I{1,2,... } (Xn ) + ζn , n ∈ N0 , geschrieben werden, d.h., (8.18) ist als eine stochastische Differenzengleichung eine zeitlich diskretisierte Version einer stochastischen Differentialgleichung. 8.88Wenn die Länge der Warteschlange k = 1, 2, . . . beträgt, wird in der nächsten Zeiteinheit ein Kunde bedient. Dieser scheidet anschließend aus der Warteschlange aus. Damit in dem betrachteten Zeitraum die Länge der Warteschlange um l anwächst, müssen daher l + 1 Neukunden hinzukommen. 18. April 2016 143 3000 2500 2000 1500 1000 500 0 0 20 60 40 80 100 Abbildung 8.1. 20 Simulationen eines Verzweigungsprozesses mit b0 = 0.25, b1 = 0.5, b2 = 0.2, b3 = 0.05 und X0 = 1. In 4 Fällen überlebt die Population bis zum Zeitpunkt 100 und scheint exponentiell zu wachsen. • • • • die Menge der Zeitpunkte diskret ist, daß es keine Unterschiede zwischen den einzelnen Individuen gibt die Individuen voneinander unabhängig sind und daß die Lebensdauer gleich 1 ist 8.90. 8.89 , daß Diese Annahmen werden mathematisch realisiert durch die Voraussetzung, daß zu jedem Zeitpunkt n ∈ N0 jedes dann lebende Individuum unabhängig von den anderen eine zufällige Anzahl von Nachkommen hat und dann stirbt. Die Anzahl der Nachkommen eines Individuums habe die Verteilung b = (bk )k∈N0 . Sei nun Xn die Größe der Population zum Zeitpunkt n ∈ N0 , und sei 8.91 ζnl , n ∈ N0 , l ∈ N, eine Familie von i.i.d. Zufallsvariablen mit der Verteilung b, d.h., P[ζnl = m] = bm , n, m ∈ N0 , l ∈ N. Der stochastische Prozeß X = (Xn )n∈N0 , dessen Dynamik durch die Beziehung 8.92 (8.19) Xn+1 = Xn X ζnl , l=1 n ∈ N, 8.89Insbesondere gibt es nur ein Geschlecht. 8.90Der auf diesen Modellannahmen basierende, hier vorgestellte einfache Verzweigungspro- zeß läßt sich zurückführen auf Bemühungen im 18. und 19. Jahrhundert, das Anwachsen und Aussterben von Adelsfamilien zu beschreiben. In einem solchen Zusammenhang entspricht eine Zeiteinheit einer Generation. 8.91Für n ∈ N und l ∈ N soll ζ l die Größe der Nachkommenschaft des l-ten der zur Zeit 0 n n lebenden Individuen modellieren. Da die Größe Xn der Population zum Zeitpunkt n a priori l für alle l ∈ N eingeführt. jeden Wert in N0 annehmen kann, werden die Zufallsvariablen ζn 8.92(8.19) verdeutlicht, daß die Größe X n+1 der Bevölkerung zum Zeitpunkt n+1 die Summe l , l = 1, . . . , X , der zum Zeitpunkt n lebenden Individuen der Größen der Nachkommenschaften ζn n ist. Insbesondere treten die zum Zeitpunkt n lebenden Individuen zum Zeitpunkt n+1 selbst nicht mehr in Erscheinung. 18. April 2016 144 repräsentiert werden kann, ist eine Markovkette mit Zustandsraum S = N0 und den Übergangswahrscheinlichkeiten (8.20) P[Xn+1 = k|Xn = j] = P[ζn1 + · · · + ζnj = k] X 8.93 bl1 · · · blj , j ∈ N, n, k ∈ N0 , l1 ,...,lj =0,1,...,k = l1 +···+lj =k 8.94 δ , j = 0, n, k ∈ N0 . k,0 Das durch (8.19) oder (8.20) zusammengefaßte Modell wird auch Galton-Watson-Prozeß genannt. Fragen. Unter welchen Bedingungen stirbt die Population f.s. aus, bzw., wann stirbt sie mit positiver Wahrscheinlichkeit nicht aus? 8.95 Wie sieht unter der Bedingung, daß die Population nicht ausstirbt, das asymptotische Verhalten von Xn bei n → ∞ aus 8.96 ? 8.93Die Wahrscheinlichkeit, daß das 1. Individuum l Nachkommen, das 2. Individuum l 1 2 Nachkommen, . . . und das j-te Individuum lj Nachkommen hat, ist aufgrund der Unabhängigkeit der Individuen gleich bl1 bl2 · · · blj . Die hier betrachteten Ereignisse sind für unterschiedliche Sequenzen l1 , l2 , . . . , lj disjunkt, so daß sich ihre jeweiligen Einzelwahrscheinlichkeiten addieren. 8.94 Wenn Xn = 0, so ist die Population zum Zeitpunkt n ausgestorben, d.h., es gilt insbesondere auch 0 = Xn+1 = Xn+2 = . . . . 8.95 Falls b0 > 0, hat eine vorgegebene Anzahl N von Individuen mit Wahrscheinlichkeit bN 0 > 0 keine Nachkommen. In diesem Fall stirbt die Population somit mit positiver Wahrscheinlichkeit aus. 8.96Abbildung 8.1 läßt im Fall des Nichtaussterbens der Population exponentielles“ Wachs” tum vermuten. 18. April 2016 KAPITEL 9 Zentraler Grenzwertsatz Ein Ziel dieses Kapitels ist die Präzisierung der im Gesetz der großen Zahlen formulierten Konvergenz. Insbesondere wird für i.i.d., reellwertige, quadratintegra√ ble Zufallsvariablen Xn , n ∈ N, gezeigt, daß der mit N multiplizierte Abstand P 9.1 zwischen dem empirischen Mittelwert (1/N ) N E[X1 ] k=1 Xk und dem Grenzwert 9.2 asymptotisch bei N → ∞ normalverteilt ist . 9.1. (∗) Konvergenzgeschwindigkeit beim Gesetz der großen Zahlen 9.3 Sei Xn , n ∈ N, eine Folge unabhängiger, {0, 1}-wertiger Zufallsvariablen mit Bernoulli-Verteilung zum Parameter 1/2. Damit gilt insbesondere 9.4 (9.1) E[Xn ] = 1 1 , Var(Xn ) = , 2 4 n ∈ N. In diesem Fall ist nach dem schwachen Gesetz der großen Zahlen " # N 1 X 1 lim P Xn − ≥ ǫ = 0, ǫ > 0. n→∞ N 2 n=1 9.5 Eine erste Antwort zur Frage nach der Geschwindigkeit der Konvergenz von (1/N ) PN n=1 Xn gegen 1/2 gibt das folgende Resultat. Satz 9.1. 9.6 Sei αN , N ∈ N, eine Folge reeller Zahlen mit αN > 0, N ∈ N, und limN →∞ αN = 0. Dann gilt für eine Folge Xn , n ∈ N, unabhängiger, {0, 1}-wertiger Zufallsvariablen mit Bernoulli-Verteilung zum Parameter 1/2: # ( " √ N 1 X 1, falls 9.7 αN N → ∞, 1 N →∞ √ → (9.2) P Xn − ≤ αN N 2 0, falls αN N → 0 9.8. n=1 9.1E[X ] wird im Gesetz der großen Zahlen als Grenzwert von (1/N ) PN X bei N → ∞ 1 k=1 k identifiziert, vgl. Satz 7.1. 9.2Vgl. Satz 9.3. Somit wird nachgewiesen, daß für i.i.d., reellwertige, quadratintegrable ZuP fallsvariablen Xn , n ∈ N, die Differenz zwischen dem empirischen Mittelwert (1/N ) N k=1 Xk und √ E[X1 ] bei N → ∞ wie 1/ N klein wird. √ P N 9.3In diesem Abschnitt soll u.a. die Wahl von N zur Skalierung von (1/N ) k=1 Xk −E[X1 ] beim Zentralen Grenzwertsatz motiviert werden. 9.4Vgl. Fußnoten 1.50(c) und 1.53(c). 9.5Vgl. Satz 7.1. 9.6Vgl. [5], Bemerkung (5.18). √ 9.7Hier wird angenommen, daß α bei N → ∞ langsamer als 1/ N gegen 0 strebt. N P 9.8 nichttrivialen Limes Wegen (9.2) kann P (1/N ) N n=1 Xn − (1/2) ≤ αN nur dann einen √ √ in (0, 1) bei N → ∞ haben, wenn αN N = O(1), d.h., wenn αN = O(1/ N ). 145 146 Bemerkung 9.2. Als Konsequenz aus (9.2) scheint es zur genaueren Untersuchung P der Fluktuationen von (1/N ) N X um den Grenzwert 1/2 bei N → ∞ sinnvoll √ n=1 n PN zu sein, die Asymptotik von N (1/N ) n=1 Xn − (1/2) zu betrachten 9.9. Beweis. Nach (9.1) und dem schwachen Gesetz der großen Zahlen # " N 1 X 1 1 , P Xn − > αN ≤ 2 N 2 4αN N n=1 d.h., " N 1 X Xn − P N n=1 # 1 1 ≤ αN ≥ 1 − 2 2 4αN N N →∞ → 1, 9.10 gilt: √ falls αN N → ∞. Damit ist der erste Teil von (9.2) bewiesen 9.11. PN Weil die Zufallsvariable n=1 Xn binomialverteilt mit den Parametern N und 1/2 ist 9.12, folgt: # " N # " N X 1 X N 1 Xn − ≤ αN N Xn − ≤ αN = P P N 2 2 n=1 n=1 X N 1 N 9.13 = 2 k {k:|k−(N/2)|≤N αN } N 1 N ≤ 9.14 (2N αN + 1) ⌊N/2⌋ 2 r r r √ 2 2 2 N →∞ 9.15 ∼ (2N αN + 1) =2 αN N + πN π πN √ N →∞ → 0, falls αN N → 0. Damit ist auch der zweite Teil von (9.2) verifiziert. 9.9Aufgrund von (9.2) kann erwartet werden, daß " P √ N N 1 1 X Xn − N n=1 2 ! # " ≤u =P N 1 X 1 Xn − N n=1 2 ! u ≤ √ N # bei N → ∞ für alle u ∈ (−∞, ∞) einen Grenzwert in (0, 1) besitzt. 9.10 Vgl. insbesondere (7.3). 9.11Offensichtlich gilt, falls 1/2 durch E[X ] ersetzt wird, dieser Teil von (9.2) für beliebige 1 i.i.d., reellwertige, quadratintegrable Zufallsvariablen Xn , n ∈ N. Sie brauchen keine BernoulliVerteilung zu besitzen. 9.12Vgl. Abschnitt 1.1.2, insbesondere (1.3c). 9.13Diese Summe enthält höchstens 2N α + 1 Summanden. N 9.14 Weil N N , k = 0, 1, . . . , N. ≤ (∗) ⌊N/2⌋ k Die Abschätzung (∗) ist eine Konsequenz aus der Symmetrie der Binomialkoeffizienten um N/2, d.h., N N , α ∈ R mit (N/2) ± α ∈ N0 , = (N/2) − α (N/2) + α und der Tatsache, daß {0, 1, . . . , ⌊n/2⌋} ∋ k → n für alle n ∈ N monoton steigend ist. Diese k Behauptung folgt aus n jnk n! (k + 1)!(n − k − 1)! k+1 k − 1. · = ≤ 1, k = 0, 1, . . . , n = k!(n − k)! n! n−k 2 k+1 9.15 Wegen der Stirling Formel lim n→∞ n n 1√ = 1. 2πn n! e 18. April 2016 147 9.2. Eigenschaften charakteristischer Funktionen Charakteristische Funktionen werden in (6.44) eingeführt. Insbesondere ist die charakteristische Funktion ψX einer reellwertigen Zufallsvariable X durch ψX (z) = E[exp(izX)], z ∈ R, definiert. Solche Funktionen werden im folgenden Abschnitt 9.3 beim Beweis des Zentralen Grenzwertsatzes für i.i.d., reellwertige, quadratintegrable Zufallsvariablen mit positiver Varianz benötigt. Zunächst werden jedoch in diesem Abschnitt 9.2 einige Eigenschaften von charakteristischen Funktionen vorgestellt 9.16. (i) Seien X und Y unabhängige, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Dann gilt 9.17 (9.3) ψX+Y (z) = ψX (z)ψY (z), z ∈ R. Beweis. (9.3) folgt aus ψX+Y (z) = E[exp(iz(X + Y ))] = E[exp(izX) exp(izY )] = 9.18 E[exp(izX)]E[exp(izY )] = ψX (z)ψY (z), z ∈ R. (ii) Sei X eine reellwertige Zufallsvariable mit E[|X|2 ] < ∞. Dann ist ψX ∈ und es gilt insbesondere Cb2 (R) (9.4) ψX (z) = 1 + izE[X] − z2 E[X 2 ] + o(|z|2 ), 2 bei |z| → 0. Begründung. Nach einem formalen Vertauschen von Differentiation und Erwartungswert folgt 9.19 ′ ′′ ψX (z) = iE[X exp(izX)], ψX (z) = −E[X 2 exp(izX)], z ∈ R, d.h., ′ ′′ ψX (0) = 1, ψX (0) = iE[X], ψX (0) = −E[X 2 ]. (9.4) ist damit die Taylorentwicklung der Ordnung 2 von ψX in 0. (iii) Sei X eine reellwertige Zufallsvariable. Weiterhin sei Y = aX + b für a, b ∈ R. Dann ist (9.5) ψY (z) = exp(izb)ψX (az), Insbesondere beachte man, daß N N gerade N! = ⌊N/2⌋ ((N/2)!)2 N→∞ ∼ z ∈ R. √ √ 2πN (N/e)N 2 N p 2 , = √ πN ( 2πN/2(N/(2e))N/2 )2 und daß für ungerade N analoge Überlegungen durchgeführt werden können. 9.16Eine weitere wesentliche Eigenschaft wird durch Satz 6.21 deutlich. Dieser Satz zeigt, daß für reellwertige Zufallsvariablen die Konvergenz in Verteilung mit Hilfe der Konvergenz ihrer charakteristischen Funktionen nachgewiesen werden kann. 9.17(9.3) besagt, daß die charakteristische Funktion einer Summe unabhängiger Zufallsvariablen faktorisiert. 9.18Wegen der Unabhängigkeit von X und Y , vgl. (6.9) und Bemerkung 6.4(i). Man beachte, daß für jedes feste z ∈ R mit X und Y auch die Zufallsvariablen exp(izX) und exp(izY ) unabhängig sind. 9.19Bei einem rigorosen Beweis kann der Satz von der dominierten Konvergenz, vgl. [3], Appendix A.5, Theorem (5.6), herangezogen werden. Insbesondere können die Resultate in [3], Appendix A.9, zum Vertauschen von Differentiation und Integration angewandt werden. 18. April 2016 148 Beweis. ψY (z) = E[exp(iz(aX + b))] = E[exp(izb) exp(izaX)] = exp(izb)E[exp(izaX)] = exp(izb)ψX (az), z ∈ R. (iv) Eine reellwertige Zufallsvariable X sei gemäß der standard Normalverteilung N(0, 1) verteilt. Dann gilt 9.20 ψX (z) = exp(−z 2 /2), (9.6) Begründung. z ∈ R. 9.21 1 √ 2π Z ∞ dx exp(izx) exp(−x2 /2) {z } | 2 = exp(izx − x /2) = exp((−(x − iz)2 − z 2 )/2) Z ∞ 1 = exp(−z 2 /2) √ dx exp(−(x − iz)2 /2) . 2π −∞ | {z } Z ∞−iz 1 dy exp(−y 2 /2) = 9.23 √ 2π −∞−iz | {z } Z ∞ 1 dy exp(−y 2 /2) = 1 = 9.24 √ 2π −∞ ψX (z) = 9.22 −∞ (v) Durch die charakteristische Funktion ψX ist die Verteilung PX einer reellwertigen Zufallsvariable X eindeutig bestimmt. Begründung. Schreibt man (9.7) ψX (z) = E[exp(izX)] Z 9.25 = PX (dx) exp(izx), R z ∈ R, so wird deutlich, daß die charakteristische Funktion ψX einer Zufallsvariable X der Fouriertransformierten ihrer Verteilung PX entspricht. Die Behauptung (v) folgt daher aus der Tatsache, daß ein endliches Maß auf (R, B(R)) durch seine Fouriertransformierte eindeutig charakterisiert ist. 9.20Wegen (9.6) haben für die standard Normalverteilung die Dichte und die charakteristische Funktion die gleiche Struktur. Aufgrund von (9.5) gilt dies auch für andere Normalverteilungen. Mit der hyperbolischen Cosinusverteilung wird in [4], Chapter XV, Section 2, ein weiteres Wahrscheinlichkeitsmaß mit dieser Eigenschaft angegeben. Es besitzt die Dichte R ∋ x → (π cosh(x))−1 und die charakteristische Funktion R ∋ z → (cosh(πz/2))−1 mit cosh(x) = (exp(x) + exp(−x))/2, x ∈ R. 9.21Ein mathematisch vollständiger Beweis von (9.6) findet sich z.B. in [3], Section 2.3, Example 3.3, mit Appendix A.9, Example 9.1. 9.22Diese Darstellung von ψ ergibt sich aus Beispiel 6.6. Vgl. dazu auch Fußnote 6.186. X 9.23 Mit der Variablentransformation y = x − iz. Nach dieser Transformation ist der Integrationsbereich die Gerade {ζ = η − iz : η ∈ R} in C. R ∞−iz 9.24 dy exp(−y 2 /2) von z ∈ R kann mit dem Die Unabhängigkeit des Integrals −∞−iz Cauchyschen Integralsatz, vgl. z.B. [1], Chapter 4, Section 1.4, bewiesen werden. 9.25Auf der rechten Seite von (9.7) ist der Erwartungswert E[W ] der Zufallsvariable W = exp(izX) als ein Integral bzgl. des Wahrscheinlichkeitsmaßes PX dargestellt. Diese Darstellung ergibt sich aus einer Verallgemeinerung von Beispiel 6.6. Falls PX eine Dichte bzgl. des Lebesguemaßes besitzt, so ist (9.7) äquivalent zu der in Fußnote 6.186 angegebenen Darstellung von ψX . 18. April 2016 149 Details zu den obigen Überlegungen und weitere Eigenschaften charakteristischer Funktionen finden sich beispielsweise in [6], Abschnitte 5.7 - 5.9. 9.3. Zentraler Grenzwertsatz für i.i.d. Zufallsvariablen Das am Anfang dieses Kapitels 9 angekündigte Resultat wird nun präzisiert. Satz 9.3. Seien Xn , n ∈ N, unabhängige, identisch verteilte, reellwertige Zufallsvariablen mit E[X1 ] = µ und Var(X1 ) = σ 2 ∈ (0, ∞). Sei weiter ZN = PN (1/N ) k=1 Xk , N ∈ N. Dann gilt r N (ZN − µ) = X in Verteilung, wobei PX = N(0, 1). (9.8) lim N →∞ σ2 Beweis. Im folgenden werden insbesondere verschiedene Eigenschaften von charakteristischen Funktionen 9.26 verwendet. Sei Yn = (Xn − µ)/σ, n ∈ N. Die Zufallsvariablen Yn , n ∈ N, sind i.i.d. und quadratintegrabel mit E[Y1 ] = 0 und Var(Y1 ) = 1. Weiterhin gilt 9.27 ! r r N N N 1 X N 1 X √ Yk = (9.9) (ZN − µ), N ∈ N, (Xk − µ) = 2 σ N σ2 N k=1 k=1 und (9.10) ψ(1/√N ) PN (z) k=1 Yk = 9.28 = 9.29 √ ψPN (z/ N ) k=1 Yk N Y √ ψYk (z/ N ) k=1 |z|2 N z2 9.30 1− = +o 2N N N 2 z N →∞ 9.31 1− ∼ 2N N →∞ 9.32 → exp(−z 2 /2), z ∈ R. p Mit (9.9) und (9.10) ist gezeigt, daß die charakteristische Funktion von N/σ 2 (ZN −µ) bei N → ∞ gegen die charakteristische Funktion einer gemäß N(0, 1) verteilten Zufallsvariablen X konvergiert 9.33, d.h., Satz 9.3 ist nun bewiesen 9.34. 9.26Die hier benutzten Eigenschaften von charakteristischen Funktionen werden in Satz 6.21 und in Abschnitt 9.2 erläutert. √ 9.27Zum Beweis von (9.8) muß somit die Asymptotik von (1/ N ) PN Y bei N → ∞ k=1 k untersucht werden. √ P N 9.28Hier wird (9.5) mit X = k=1 Yk , a = 1/ N und b = 0 angewandt. 9.29 Vgl. (9.3). Man beachte, daß ebenso wie Xn , n ∈ N, auch die Zufallsvariablen Yn , n ∈ N, unabhängig sind. 9.30 Aufgrund von (9.4). Hier ist zu beachten, daß E[Yn ] = 0, n ∈ N, und E[Yn2 ] = Var(Yn ) = 1, n ∈ N. 9.31 Man beachte, daß für festes z ∈ R und ǫ ∈ (0, 1) für hinreichend großes N ∈ N die Abschätzungen |z|2 z 2 (1 − ǫ) z2 z 2 (1 + ǫ) ≤1− ≤1− +o 1− 2N 2N N 2N gelten. Wenn außerdem mit x N = exp(x), x ∈ R, (∗) lim 1 + N→∞ N eine der möglichen Definitionen der Exponentialfunktion berücksichtigt wird, wird deutlich, daß für jedes feste z der Term o(|z|2 /N ) bei N → ∞ vernachlässigt werden kann. 9.32 Vgl. (∗) in Fußnote 9.31. 9.33Vgl. (9.6) und Abschnitt 9.2(v). 9.34Vgl. Satz 6.21. 18. April 2016 150 Bemerkungen 9.4. (i) Für eine Folge Xn , n ∈ N, paarweise unabhängiger 9.35, identisch verteilter, reellwertiger Zufallsvariablen braucht der Zentrale Grenzwertsatz, d.h. die Beziehung (9.8), nicht zu gelten 9.36. Andererseits gibt es unzählige Verallgemeinerungen von Satz 9.3. In jenen Resultaten werden gewisse Zufallsvariablen ζN , N ∈ N, die darstellbar sind als Summen vieler kleiner Beiträge, die hinreichend wenig voneinander abhängig sind, betrachtet. Unter geeigneten Bedingungen konvergieren diese Zufallsvariablen bei N → ∞ in Verteilung gegen eine normalverteilte Zufallsvariable ζ 9.37. (ii) Der Zentrale Grenzwertsatz ist ein herausragendes Resultat in der Mathematik: • Für eine Folge Xn , n ∈ N, recht allgemeiner Zufallsvariablen 9.38 wird mit der in (9.8) festgehaltenen Konvergenz gegen eine standard normalverteilte Zufallvariable die bemerkenswerte Konsequenz nachgewiesen, daß asymptotisch bei N → ∞ zur Beschreibung der Fluktuationen der empiPN rischen Mittelwerte (1/N ) k=1 Xk Details der Verteilung von Xn , n ∈ N, keine Rolle mehr spielen. • Mit einer geeigneten Methode 9.39, kann in überraschend wenigen, einfachen Schritten der Beweis dieses Resultats abgeschlossen werden 9.40. • Der Zentrale Grenzwertsatz besitzt vielfältige Anwendungsmöglichkeiten in zahlreichen Bereichen der menschlichen Erfahrung 9.41. 9.35Eine Folge Y , n ∈ N, von Zufallsvariablen heißt paarweise unabhängig, wenn Y und n k Yl für alle k, l ∈ N mit k 6= l (stochastisch) unabhängig sind. Der Begriff der paarweisen Unabhängigkeit von Ereignissen wurde in Beispiel 3.9 eingeführt. 9.36 Ein Gegenbeispiel wird in [3], Section 2.4, Example 4.5, angegeben. Es sei daran erinnert, daß für paarweise unkorrelierte, d.h., insbesondere für paarweise unabhängige, identisch verteilte, quadratintegrable Zufallsvariablen das starke und somit auch das schwache Gesetz der großen Zahlen gilt, vgl. Bemerkung 7.2. 9.37Vgl. z.B. [3], Section 2.4, Theorem (4.5). In komplexeren Verallgemeinerungen des hier vorgestellten Zentralen Grenzwertsatzes nehmen die Zufallsvariablen ζN , N ∈ N, und ζ Werte in hochdimensionalen Räumen wie z.B. in Funktionenräumen an, vgl. z.B. [3], Section 7.6, Theorem (6.6) oder [3], Section 7.7, Theorem (7.8). 9.38X , n ∈ N, ist in diesem Abschnitt 9.3 eine beliebige Folge von i.i.d., quadratintegrablen n Zufallsvariablen mit positiver Varianz. In allgemeineren Varianten des Zentralen Grenzwertsatzes wird diese Annahme beträchtlich abgeschwächt. 9.39Damit ist die Verwendung von charakteristischen Funktionen gemeint. 9.40Natürlich gibt es auch viele andere, i. allg. umfangreichere Beweise des Zentralen Grenzwertsatzes, vgl. z.B. [10], Abschnitt 12.3, oder den Beweis von Satz (5.28) in [5]. 9.41Wenn eine zufällige reellwertige Größe G die Summe vieler kleiner, wenig voneinander abhängiger Beiträge ist, können ihre Schwankungen um ihren mittleren Wert durch eine normalverteilte Zufallsvariable modelliert werden. Beispielsweise ist es gerechtfertigt, – für viele quantitative Merkmale der Mitglieder einer Bevölkerungsgruppe (Körpergröße, -gewicht, . . . von Männern, bzw. Frauen einer bestimmten Altersklasse) deren Schwankungen, – für die Meßwerte von Temperatur, Luftdruck, . . . an einer Wetterstation (in einem nicht zu großen Zeitraum des Kalenderjahres) deren Fluktuationen oder auch – für eine Aktie (in einem Zeitraum ohne Börsencrash, bzw. ohne gravierende wirtschaftliche Probleme des Unternehmens) deren Kursschwankungen durch normalverteilte Zufallsvariablen zu modellieren. 18. April 2016 151 (iii) Die Konvergenz in Verteilung kann auf unterschiedliche Weise formuliert werden 9.42. Insbesondere besagt (9.8), daß 9.43 9.44 # "r Z a N 1 √ (Z − µ) ≤ a = dx exp(−x2 /2), a ∈ R, (9.11) lim P N N →∞ σ2 2π −∞ bzw. 9.45 "r (9.12) P # Z b N 1 N →∞ √ dx exp(−x2 /2), (Z −µ) ∈ (a, b) ∼ N σ2 2π a −∞ < a < b < ∞. 9.4. (∗) Lokale Normalapproximation 9.46 In vielen Fällen gilt eine lokale Variante des Zentralen Grenzwertsatzes. Insbesondere bleibt√dann (9.12) auch gültig, wenn die Länge des Intervalls (a, b) bei N → ∞ wie 1/ N klein wird. Satz 9.5. 9.47 Seien Xn , n ∈ N, unabhängige, identisch verteilte, reellwertige Zufallsvariablen mit E[X1 ] = µ, Var(X1 ) = σ 2 ∈ (0, ∞) und 9.48 9.49 (9.13) PN |ψX1 (λ)| < 1, falls λ 6= 0. Sei weiter ZN = (1/N ) k=1 Xk , N ∈ N. Dann gilt "r # √ α β N (ZN − µ) ∈ x + √ , x + √ (9.14) lim N P N →∞ σ2 N N β−α exp(−x2 /2), = √ 2π x ∈ R, −∞ < α < β < ∞. Alternativ kann (9.14) in der an (9.12) erinnernden Form "r # α β N P (9.15) (ZN − µ) ∈ x + √ , x + √ σ2 N N 9.42 9.50 9.51 Vgl. Satz 6.21. Bei von Satz 6.21 beachte man, daß die Verteilungsfunktion R ∋ y → R y der Anwendung (2π)−1/2 −∞ dx exp(−x2 /2) der standard Normalverteilung in ganz R stetig ist. 9.44 Die Formulierung (9.11), bzw. (9.12) des Zentralen Grenzwertsatzes wurde auch schon in Beispiel 1.8 gewählt. 9.45Wie in Abschnitt 9.4 erläutert wird, gilt (9.12) auch für Intervalle (a, b) = (a , b ), deren N N √ Längen bei N → ∞ wie 1/ N immer kleiner werden. 9.46Das in diesem Abschnitt vorgestellte Resultat wird auch als Lokaler Zentraler Grenzwertsatz bezeichnet. 9.47Vgl. [3], Section 2.5, Theorem (5.4). 9.48ψ mit ψ (λ) = E[exp(iλY )], λ ∈ R, ist die charakteristische Funktion einer reellwerY Y tigen Zufallsvariable Y , vgl. (6.44) und insbesondere Abschnitt 9.2. Es sei daran erinnert, daß in Abschnitt 9.3 charakteristische Funktionen das wesentliche Hilfsmittel beim Beweis des Zentralen Grenzwertsatzes waren. 9.49 Nach Theorem (5.1) in [3], Section 2.5, besagt die Bedingung (9.13), daß die Zufallsvariable X1 nicht f.s. konstant ist und auch nicht auf einem Gitter in R konzentriert ist, d.h., es gibt kein b ∈ R und kein h > 0, so daß P[X1 ∈ {b + hk : k ∈ Z}] = 1. 9.50(9.14) zeigt, daß der Quotient der beiden Seiten von (9.15) bei N → ∞ gegen 1 konvergiert. √ √ 9.51 Wenn in (9.12) das Intervall (a, b) durch (x + (α/ N ), x + (β/ N )) ersetzt und die 2 Stetigkeit von R ∋ x → exp(−x /2) mit der Konsequenz Z x+(β/√N) 1 N→∞ β − α 1 √ √ √ dy exp(−y 2 /2) ∼ exp(−x2 /2) √ 2π x+(α/ N ) 2π N 9.43 berücksichtigt wird, ergibt sich (9.15) auf eine formale Weise. 18. April 2016 152 N →∞ ∼ präsentiert werden β−α 1 √ √ exp(−x2 /2), 2π N x ∈ R, −∞ < α < β < ∞, 9.52 . 9.5. Bestimmung von Konfidenzintervallen In diesem Abschnitt werden Anwendungen des Zentralen Grenzwertsatzes in der Statistik vorgestellt. Insbesondere werden in zwei Beispielen Situationen betrachtet, wo eine zufällige Größe N mal unabhängig gemessen und ein Parameter durch den empirischen Mittelwert dieser N Messungen geschätzt wird. Aufgrund √ des Zentralen Grenzwertsatzes sind die mit N reskalierten Fluktuationen jenes empirischen Mittelwerts für N → ∞ normalverteilt. Als Konsequenz können in diesem Grenzfall Konfidenzintervalle mit Hilfe der standard Normalverteilung bestimmt werden 9.53 9.54. Beispiel 9.6 (Konfidenzintervalle für den Erwartungswert von i.i.d. Zufallsvariablen). Eine zufällige reelle Größe werde wiederholt unabhängig gemessen. Die Meßwerte seien durch durch i.i.d. Zufallsvariablen X1 , X2 , . . . mit E[X1 ] = µ ∈ R und Var(X1 ) = σ 2 ∈ (0, ∞) modelliert. σ 2 sei bekannt 9.55, während µ durch Angabe eines Konfidenzintervalls zu schätzen sei. PN Nach N Messungen ist µ eN = (1/N ) k=1 Xk ein erwartungstreuer Schätzer für µ 9.56. Nun soll für große N zu α ∈ (0, 1) ein Konfidenzintervall zum Irrtumsniveau α für µ 9.57 bestimmt werden. Aus dem Zentralen Grenzwertsatz 9.58 folgt: "r # N P (9.16) (e µN − µ) ∈ (a, b) σ2 Z b 1 N →∞ dx exp(−x2 /2), −∞ < a < b < ∞. ∼ √ 2π a Wählt man zu α ∈ (0, 1) nun U (α) mit 9.59 Z U(α) 1 √ dx exp(−x2 /2) = 1 − α, (9.17) 2π −U(α) 9.52Wenn (9.13) nicht gilt und wenn X nicht f.s. konstant ist, gibt es ein Gitter G 1 b,h = {b + hk : k ∈ Z} ⊂ R mit b ∈ R und h > 0, so daß P[X1 ∈ Gb,h ] = 1, vgl. [3], Section 2.5, Theorem (5.1). Auch in diesem Fall gilt ein (9.14) entsprechendes Resultat, vgl. [3], Section 2.5, Theorem (5.2). Der Fall von i.i.d. Zufallsvariablen Xn , n ∈ N, die eine Bernoulli-Verteilung besitzen, wird auch in [5], Satz (5.19), betrachtet. 9.53Konfidenzbereiche wurden in Beispiel 1.10 erstmals vorgestellt und dann in Abschnitt 4.3 detaillierter betrachtet. 9.54Die Überlegungen in den folgenden Beispielen 9.6 und 9.7 ähneln jenen in Beispiel 4.8. Nun wird allerdings der Zentrale Grenzwertsatz und nicht die Čebyšev’sche Ungleichung als Basis benutzt. Als Konsequenz ergeben sich kleinere“ Konfidenzintervalle, d.h., die statistischen ” Aussagen werden präziser. 9.55Dies ist eine in vielen Fällen unrealistische Annahme, die jedoch die Überlegungen in diesem Beispiel wesentlich vereinfacht. In Fußnote 9.64 finden sich Hinweise zur Verallgemeinerung dieses Beispiels auf den Fall eines unbekannten Parameters σ2 . 9.56Vgl. Beispiel 6.16. 9.57Zur Erläuterung vgl. (4.9). Ein statistisches Modell, mit dem in diesem Beispiel 9.6 gearbeitet werden könnte, wird in Fußnote 6.145 beschrieben. Zur Vereinfachung der Argumentation wird allerdings wie schon in Beispiel 6.16 auch im folgenden ein derart komplexes statistisches Modell stillschweigend umgangen. 9.58Vgl. insbesondere (9.12). 9.59U (α) kann statistischen Tabellen entnommen, bzw. mit Hilfe von Statistik-Software ermittelt werden. 18. April 2016 153 und definiert dann (9.18) r r σ2 σ2 , ,µ eN + U (α) CN (e µN ) = µ eN − U (α) N N so ergibt sich (9.19) P[CN (e µN ) 6∋ µ] N ∈ N, r r σ2 σ2 = P µ≤µ eN −U (α) oder µ ≥ µ eN +U (α) N N r r σ2 σ2 , U (α) =P µ eN − µ 6∈ −U (α) N N r N =P (e µN − µ) 6∈ (−U (α), U (α)) σ2 Z U(α) 1 N →∞ 9.61 dx exp(−x2 /2) ∼ 1− √ 2π −U(α) 9.60 = 9.62 α. Für große N ist somit CN (e µN ) ein Konfidenzintervall zum Irrtumsniveau α für µ. Da in jeder Relation in (9.19) zumindest für N → ∞ Gleichheit gilt, ist CN (e µN ) sogar ein asymptotisch optimales Konfidenzintervall 9.63 9.64. Beispiel 9.7 (Konfidenzintervalle für die Monte-Carlo-Integration). In diesem Beispiel wird die Approximationsgenauigkeit des in Abschnitt 7.2.1 vorgestellten Monte-Carlo-Verfahrens zur numerischen Integration untersucht 9.65. Ra dx exp(−x2 /2), a ∈ R, der standard Oft ist die Verteilungsfunktion φ(a) = (2π)−1/2 −∞ Normalverteilung tabelliert, vgl. z.B. [10], Tabelle II. Da Z U 1 dx exp(−x2 /2) = φ(U ) − φ(−U ) = 2φ(U ) − 1, U > 0, √ | {z } 2π −U = 1 − φ(U ) (Symmetrie von x → exp(−x2 /2)) ist U (α) so zu bestimmen, daß 1 − α = 2φ(U (α)) − 1, d.h., φ(U (α)) = 1 − α , 2 gilt. Aus [10], Tabelle II, kann nun beispielsweise U (0.05) ≈ 1.96 geschlossen werden. 9.60Eigentlich könnte hier eine Notation wie P [ . ] benutzt werden, um anzudeuten, daß µ µ als wahrer“ Parameter zugrunde gelegt wird. ” 9.61 Vgl. (9.16). 9.62 Vgl. (9.17). 9.63Insbesondere kann C (e N µN ) bei N → ∞ nicht durch einen kleineren Konfidenzbereich ersetzt werden. Man vergleiche hierzu den letzten Abschnitt in Beispiel 4.7. 9.64 Für den Fall von i.i.d., normalverteilten Zufallsvariablen X1 , . . . , XN , wobei neben µ = E[X1 ] auch σ2 = Var(X1 ) unbekannt ist, wird in [5], Beispiel (8.4) und Satz (8.5), ein Konfidenzintervall für µ angegeben. Hierbei findet insbesondere auch der in Beispiel 6.16 eingeführte erwartungstreue Schätzer für die Varianz eine Anwendung. Wenn nun für allgemeinere, i.i.d., quadratintegrable Zufallsvariablen X1 , . . . , XN sowohl µ = E[X1 ] als auch σ2 = Var(X1 ) unbekannt sind, bleiben jene Überlegungen in [5] zur Bestimmung eines Konfidenzintervalls für µ zumindest bei N → ∞ anwendbar. Zur Begründung kann wie in diesem Beispiel 9.6 der Zentrale Grenzwertsatz herangezogen werden. Im folgenden Beispiel 9.7 wird außerdem erläutert, wie bei einer bekannten oberen Schranke für σ2 Konfidenzintervalle für µ, die i. allg. suboptimal sind, bestimmt werden können. Hierbei wird ein Konfidenzbereich als suboptimal bezeichnet, wenn er bei genauerer Kenntnis von σ2 verkleinert werden könnte. 9.65 In Abschnitt 7.2.1 wurde mit Hilfe des schwachen Gesetzes der großen Zahlen nachgewiesen, daß Z 1 N 1 X P (∗) h(Xk ) → dx h(x) bei N → ∞, N k=1 0 18. April 2016 154 Sei h : [0, 1] → R eine meßbare, beschränkte Funktion und Xn , n ∈ N, eine Folge unabhängiger, in [0, 1] gleichverteilter Zufallsvariablen. Die Zufallsvariablen h(Xn ), n ∈ N, sind dann i.i.d. mit 9.66 Z 1 (9.20) E[h(X1 )] = dx h(x) = µh , Var(h(X1 )) = Z 0 1 0 2 dx h(x) − Z 0 1 2 dx h(x) = σh2 ≤ 9.67 khk2∞ . R1 Genau wie in Beispiel 6.16 kann µh = 0 dx h(x) erwartungstreu durch µ eh,N = PN (1/N ) k=1 h(Xk ) geschätzt werden. Bei der Bestimmung eines Konfidenzintervalls zum Irrtumsniveau α ∈ (0, 1) für µh können allerdings die Überlegungen aus Beispiel 9.6 nicht direkt angewandt werden, da neben µh auch σh2 als unbekannt zu betrachten ist 9.68. Andererseits ist für σh2 die obere Schranke khk2∞ bekannt 9.69. Es gilt somit 9.70 9.71: khk∞ khk∞ (9.21) P µ 6∋ µh eh,N + U (α) √ eh,N − U (α) √ , µ N N khk∞ khk∞ oder µh ≥ µ eh,N + U (α) √ = P µh ≤ µ eh,N − U (α) √ N N khk∞ khk∞ =P µ eh,N − µh ∈ / −U (α) √ , U (α) √ N N " r r # σh2 σh2 9.72 ≤ P µ eh,N − µh ∈ / −U (α) , U (α) N N # "s N (e µh,N − µh ) ∈ / (−U (α), U (α)) =P σh2 Z U(α) 1 N →∞ 9.73 dx exp(−x2 /2) = 9.74 α. ∼ 1− √ 2π −U(α) Für N → ∞ kann daher CN (e µh,N ) = µ eh,N khk∞ khk∞ − U (α) √ , µ eh,N + U (α) √ N N als Konfidenzintervall zum Irrtumsniveau α für µh gewählt werden 9.75 . falls h : [0, 1] → R eine meßbare, beschränkte Funktion und Xn , n ∈ N, eine Folge unabhängiger, in [0, 1] gleichverteilter Zufallsvariablen ist. Im folgenden wird insbesondere als Anwendung der Überlegungen in Beispiel 9.6, d.h. durch Angabe von Konfidenzintervallen, die mit Hilfe des Zentralen Grenzwertsatzes bestimmt werden, √ die Geschwindigkeit der Konvergenz in (∗) durch C/ N abgeschätzt. 9.66Vgl. (7.5). 9.67khk = sup ∞ x∈[0,1] |h(x)|. 9.68Wenn µ = R 1 dx h(x) nicht direkt berechnet werden kann, so kann offensichtlich auch h 2 R01 R 2 = 1 dx h(x)2 − nicht exakt bestimmt werden. σh 0 dx h(x) 0 9.69Vgl. (9.20). khk2 wird in den Überlegungen dieses Beispiels als bekannt vorausgesetzt. ∞ 9.70 Für α ∈ (0, 1) ist U (α) durch (9.17) definiert. 9.71 In (9.21) bezeichnet P das Wahrscheinlichkeitsmaß auf dem Wahrscheinlichkeitsraum, auf welchem die Zufallsvariablen Xn , n ∈ N, definiert sind. 9.72Da σ2 ≤ khk2 , vgl. (9.20), und wegen der Monotonie von P, vgl. (2.12). ∞ h 9.73 Aufgrund des Zentralen Grenzwertsatzes für die Zufallsvariablen h(Xn ), n ∈ N, vgl. (9.12) und (9.20). 9.74 Wegen (9.17). 9.75Dieses Konfidenzintervall ist asymptotisch bei N → ∞ i. allg. größer als notwendig, d.h. suboptimal, weil in der dritten Zeile von (9.21) “ nicht auszuschließen ist. ” 18. April 2016 155 Bemerkungen 9.8. (i) Die Überlegungen dieses Beispiels deuten an, daß das Monte-Carlo-Verfahren zur numerischen Integration eine recht kleine Konvergenzgeschwindigkeit besitzt, da √der Approximationsfehler, d.h. die Länge des Konfidenzintervalls sich wie khk∞ / N verhält. Um den Approximationsfehler zu halbieren, muß daher der Stichprobenumfang N vervierfacht werden. Im Gegensatz dazu ist bei anderen klassischen“ numerischen Integrationsverfahren der Approximations” fehler ≃ kh(m) k∞ N −k für geeignete m = 1, 2, . . . und k ≥ 1 9.76. Solche Verfahren konvergieren schnell für glatte Integranden h, sind aber ungeeignet, wenn h irregulär wird. (ii) Um bessere, d.h., kleinere Konfidenzintervalle zu erhalten, kann auch die unbekannte Varianz σh2 geschätzt werden 9.77. 9.76Vgl. z.B. [12], Kapitel 3. Im Zusammenhang mit jenen numerischen Verfahren entspricht N der Größe ∆−1 , wobei ∆ die jeweilige Schrittweite ist. 9.77Ein erwartungstreuer Schätzer für σ2 wurde in Beispiel 6.16 vorgestellt. Hinweise zur h 2 Vorgehensweise bei der Bestimmung von Konfidenzintervallen für µh bei unbekannter Varianz σh finden sich in Fußnote 9.64. 18. April 2016 Anhang In diesem Anhang werden einige Ergänzungen zu den Kapiteln 1 - 9 zusammengestellt. A.1. Ergänzungen zu Kapitel 1 A.1.1. Deskriptive Statistik. In der deskriptiven, beschreibenden oder empirischen Statistik werden gegebene Daten in Tabellen, Graphiken oder Kennzahlen zusammengefaßt. Es wird versucht, die Daten auf eine übersichtliche Weise aufzubereiten, so daß interessante Strukturen und Zusammenhänge deutlich werden. Die Suche nach Mechanismen oder allgemeineren Gesetzen, welche in einer konkreten Situation zu den vorliegenden Daten geführt haben, und insbesondere auch die Entwicklung von Methoden zur Herleitung von mathematisch fundierten, quantitativen Folgerungen ist nicht die Aufgabe der deskriptiven, sondern der induktiven, mathematischen oder schließenden Statistik A.1.1, die neben der Wahrscheinlichkeitstheorie das Thema dieser Vorlesung ist. In empirischen Wissenschaften, wie z.B. den Sozial- oder den Wirtschaftswissenschaften liegen oft Daten vor, die nicht oder nur auf eine sehr aufwendige Weise durch ein statistisches Modell A.1.2 beschrieben werden können. Dann kommt die beschreibende Statistik zur Anwendung. Insbesondere auch in der öffentlichen Verwaltung stellt sie wichtige Methoden zum Ordnen und Auswerten großer Datenmengen zur Verfügung. Beispiele für Kennzahlen, die sich zur Charakterisierung einer Folge ξ = (x1 , . . . , xN ) reeller Daten anbieten, sind: Empirischer Mittelwert (A.1) A.1.3 . M (ξ) = N 1 X xk N k=1 Der empirische Mittelwert beschreibt den durchschnittlichen Wert der Folge ξ. Empirischer Median. Sei A.1.4 x1 ≤ · · · ≤ xN . ( (1/2)(XN/2 + X(N/2)+1 ), falls N gerade ist, Med(ξ) = X(N +1)/2 , falls N ungerade ist. A.1.1 Mit Methoden der mathematischen Statistik kann man versuchen, die gegebenen Daten durch ein statistisches Modell, vgl. Abschnitte 1.1.4 und 4.1, für alle in der speziellen vorliegenden Situation möglichen Daten zu erklären. Innerhalb dieses Modells können anschließend unter Zuhilfenahme der gegebenen Daten Schlüsse gezogen werden, beispielsweise Schätzer oder Konfidenzintervalle bestimmt werden. A.1.2 Vgl. z.B. Abschnitte 1.1.4 und 4.1. A.1.3Vgl. Fußnote 6.152. A.1.4Gegebenenfalls ist die Folge (x , . . . , x ) umzuordnen. 1 N 157 158 Der empirische Median liegt in der Mitte“ der Daten A.1.5. Im Vergleich zum ” Mittelwert hat er den Vorteil, robust, d.h. unempfindlich gegenüber extrem abweichenden Daten zu sein. Empirische Varianz. N (A.2) Var(ξ) = A.1.6 1 X (xk − M (ξ))2 N −1 k=1 Die empirische Varianz charakterisiert die Schwankungen der Daten ξ um ihren empirischen Mittelwert. Empirische Schiefe. N 1 1 X Schiefe(ξ) = (xk − M (ξ))3 Var(ξ)3/2 N k=1 Die empirische Schiefe beschreibt, wie unsymmetrisch die Daten ξ bzgl. ihres empirischen Mittelwerts verteilt sind A.1.7 A.1.8. Beispiel A.1.1. Die Noten der Hörer einer Vorlesung liegen zunächst in einer Tabelle vor A.1.9. Innerhalb der Gesamtheit aller Hörer werden zwei Teilgruppen A und B speziell untersucht A.1.10. Die jeweiligen Notenverteilungen können in Diagrammen A.1.11 graphisch dargestellt werden. Deren Informationsfülle umfaßt auch viele zum Teil irrelevante Details. Wesentliche Eigenschaften können allerdings durch Kennzahlen ausgedrückt werden A.1.12. Mit den Kennzahlen ist es insbesondere möglich, die Unterschiede zwischen den drei Gruppen quantitativ zu beschreiben. Beispielsweise erzielen die Hörer in Gruppe A sowohl im Vergleich zu allen Hörern und noch ausgeprägter im Vergleich mit den Hörern in Gruppe B im Mittel“ merklich schlechtere Noten A.1.13. Die ” Gruppe A ist außerdem recht heterogen A.1.14, d.h., die Notenverteilung streut sehr stark um den Mittelwert. Vergleicht man abschließend genauer die Diagramme für die verschiedenen Notenverteilungen, so zeigt sich, daß die Gruppe A einen überproportional hohen Anteil an Hörern mit guten, bzw. auch mit schlechten Noten hat A.1.15. Insgesamt scheint die Gruppe A neben etlichen Hörern mit überdurchschnittlichen Leistungen auch relativ viele untalentierte, bzw. uninteressierte Hörer zu enthalten. Die Gruppe B enthält geringere Anteile von Hörern mit sehr guten, bzw. sehr schlechten A.1.5Jeweils die Hälfte der Daten ist größer, bzw. kleiner als der Median. A.1.6Der Faktor 1/(N − 1) wird anstelle des zunächst evtl. zu erwartenden Faktors 1/N gewählt, weil nun, vom Standpunkt der mathematischen Statistik aus betrachtet, zumindest für unabhängige, identisch verteilte Daten durch (A.2) ein erwartungstreuer Schätzer für die Varianz definiert ist, vgl. Beispiel 6.16. A.1.7Wenn die Daten ξ symmetrisch bzgl. M (ξ) verteilt sind, ist Schiefe(ξ) = 0. Ansonsten wird Schiefe(ξ) mit wachsender Asymmetrie der Daten größer. A.1.8 Offensichtlich ist Schiefe(ξ) = Schiefe(ξα ), wobei ξα = (αx1 , . . . , αxN ) durch Reskalierung mit einem Faktor α > 0 aus ξ entsteht. Diese Skalierungsinvarianz kann als ein Grund für die Wahl von Var(ξ)−3/2 zur Normierung der Schiefe betrachtet werden. A.1.9 Vgl. Abbildung A.1.1. A.1.10 Insgesamt gibt es 138 Hörer. Die Gruppe A (B) umfaßt hierbei 35 (41) Hörer. A.1.11 Vgl. Abbildungen A.1.2 - A.1.4. A.1.12 Vgl. Abbildung A.1.5. A.1.13 Diese Aussage ergibt sich durch einen Vergleich der Mittelwerte und der Mediane. A.1.14 Man vergleiche die Varianzen. Die Notenverteilung der Gruppe A besitzt insbesondere eine wesentlich größere Varianz als die Notenverteilung der Gruppe B. A.1.15Die Gruppe A enthält 3 (5) von zusammengenommen 8 (12) Hörern mit der Note 1 (5). Im Gegensatz dazu sind 0 (1) solche Hörer in der Gruppe B zu finden. 18. April 2016 159 Name Vorname Matrikelnummer Abschluß Hauptfächer ... ... ... Diplom Diplom Diplom Lehramt Diplom LA Diplom Lehramt Diplom Diplom Lehramt Mathematik Mathematik Mathe Mathematik Mathe Mathe/Engl Physik Mathe Mathematik Physik Mathematik ... ... ... ... ... ... ... ... ... ... ... ... Diplom Mathematik Mathe Lehramt Lehramt Mathematik Mathe/Spanisch LA Bachelor Computer Linguistik Mathe Lehramt Diplom Mathematik Mathe Diplom Mathe/Biologie LA Mathe Lehramt Master Informatik Mathe Lehramt Mathe Lehramt Diplom Physik Lehramt Mathematik Mathe Lehramt Mathe/Chemie LA Mathe Lehramt Bachelor Informatik Mathe/Chemie LA Diplom Physik Lehramt Mathematik Lehramt Mathematik BachMast Mathe ... ... Punkte Übungen 110,5 100,5 119,5 78,0 83,5 72,5 85,5 102,0 69,0 67,5 114,5 72,0 126,5 127,5 121,0 113,5 75,5 100,0 120,5 103,0 106,0 90,5 124,0 48,0 62,0 105,0 111,0 128,0 111,0 77,5 84,0 91,5 85,0 97,0 100,0 113,0 ... Punkte Klausur 17,5 19,5 28,0 19,0 24,5 16,0 16,0 23,0 12,0 9,0 15,5 2,0 22,0 23,5 23,0 23,5 3,5 13,5 17,0 21,0 23,5 15,0 23,5 17,5 19,0 22,5 23,5 24,5 20,5 19,0 2,0 23,0 11,0 25,0 21,0 19,5 ... Note Übungen 1,84 2,26 1,45 3,23 2,99 3,46 2,91 2,20 3,61 3,68 1,66 3,49 1,15 1,11 1,39 1,71 3,34 2,29 1,41 2,16 2,03 2,69 1,26 4,51 3,91 2,07 1,81 1,09 1,81 3,25 2,97 2,65 2,93 2,41 2,29 1,73 ... Note Klausur 2,98 2,68 1,44 2,76 1,95 3,20 3,20 2,17 3,78 4,22 3,27 5,24 2,32 2,10 2,17 2,10 5,02 3,56 3,05 2,46 2,10 3,34 2,10 2,98 2,76 2,24 2,10 1,95 2,54 2,76 5,24 2,17 3,93 1,88 2,46 2,68 ... Vorläufige Note 2,60 2,54 1,44 2,91 2,30 3,28 3,10 2,18 4,00 5,00 2,73 5,00 1,93 1,77 1,91 1,97 5,00 3,14 2,50 2,36 2,07 3,13 1,82 3,49 3,14 2,19 2,00 1,66 2,30 2,92 5,00 2,33 4,00 2,06 2,40 2,36 ... Note 2,50 2,50 1,50 3,00 2,50 3,50 3,00 2,00 4,00 5,00 2,50 5,00 2,00 2,00 2,00 2,00 5,00 3,00 2,50 2,50 2,00 3,00 2,00 3,50 3,00 2,00 2,00 1,50 2,50 3,00 5,00 2,50 4,00 2,00 2,50 2,50 ... Abbildung A.1.1. Notenliste einer Vorlesung. Die persönlichen Daten sind gelöscht. Gesamtnotenverteilung 40 35 Häufigkeit 30 25 20 15 10 5 0 1,0 1,5 2,0 2,5 3,0 3,5 4,0 5,0 Noten Abbildung A.1.2. Notenverteilung aller Hörer der Vorlesung. 18. April 2016 6,0 160 Notenverteilung Gruppe A 10 9 8 Häufigkeit 7 6 5 4 3 2 1 0 1,0 1,5 2,0 2,5 3,0 3,5 4,0 5,0 6,0 Noten Abbildung A.1.3. Notenverteilung der Hörer der Gruppe A. Notenverteilung Gruppe B 16 14 Häufigkeit 12 10 8 6 4 2 0 1,0 1,5 2,0 2,5 3,0 3,5 4,0 5,0 6,0 Noten Abbildung A.1.4. Notenverteilung der Hörer der Gruppe B. Noten. Eine Tendenz zu guten Noten ist allerdings deutlich zu erkennen A.1.16 . Die A.1.16Diese Aussage wird auch durch den niedrigen Mittelwert und die geringe Varianz der Notenverteilung der Gruppe B deutlich. 18. April 2016 161 Alle Hörer Gruppe A Gruppe B Mittelwert Median Varianz Schiefe 2,66 2,50 1,09 0,74 2,97 3,00 1,40 0,17 2,52 2,50 0,56 1,27 Abbildung A.1.5. Kennzahlen für die einzelnen Gruppen von Hörern. Gruppe B scheint viele Hörer zu umfassen, denen es gelingt, durch konzentriertes Arbeiten ihre Leistung wesentlich zu verbessern. In den Diagrammen und den Kennzahlen wird die in der ursprünglichen Notenliste A.1.17 enthaltene Information komprimiert und daher verringert. Ein interessantes Detail, das nur dieser Gesamtliste entnommen werden kann, ist die Tatsache, daß die beiden leistungsstärksten Hörer der Vorlesung der Gruppe A angehören. Bei einer abschließenden Bewertung der in diesem Beispiel A.1.1 vorgestellten Daten und Überlegungen sollte auch berücksichtigt werden, daß die Klausur, deren Ergebnisse ganz wesentlich in die Notengebung einfließen, am Ende des Semesters, d.h. in einem Zeitraum, in dem die Belastung der Hörer besonders hoch ist, geschrieben wird. Welchen Wert die einzelnen Hörer der Scheinnote zugewiesen haben und welchen Aufwand zu ihrer Vorbereitung sie daher im Vergleich mit dem Aufwand für andere Prüfungen, bzw. ihre Freizeit als angemessen betrachtet haben, geht aus den vorliegenden Daten nicht hervor A.1.18. A.1.17Vgl. Abbildung A.1.1. A.1.18Der genannte Aufwand zur Vorbereitung der Klausur bestimmt natürlich ganz wesent- lich die Note. 18. April 2016 162 A.2. Ergänzungen zu Kapitel 2 A.2.1. Beweis des Satzes von Vitali. Zum Beweis von Satz 2.14 sei in Ω = {0, 1}N die Äquivalenzrelation ω ∼ ω′ :⇐⇒ ωn = ωn′ , n ≥ n0 für ein hinreichend großes n0 ∈ N, eingeführt. Nach dem Auswahlaxiom A.2.19 gibt es eine Menge A1 ⊆ Ω, die aus jeder Äquivalenzklasse bzgl. ∼ genau ein Element enthält. Sei nun S = {S ⊆ N : |S| < ∞} A.2.20. S ist abzählbar A.2.21. Für S = {n1 , . . . , nk } ∈ S sei TS := Tn1 ◦ · · · ◦ Tnk A.2.22. Falls ω ∼ ω ′ , gibt es offensichtlich ein S ∈ S, so daß ω = TS ω ′ . Nun gilt: [ Ω= (A.3) TS A1 A.2.23, S∈S TS A1 ∩ TS ′ A1 = ∅, falls S 6= S ′ A.2.24 . Falls P ein Wahrscheinlichkeitsmaß auf A.2.25 (Ω, F) ist, das (2.2) und (2.18) erfüllt und falls A.2.26 A1 ∈ F, folgt nun X X 1 = A.2.27 P[Ω] = A.2.28 P[TS A1 ] = A.2.29 P[A1 ]. S∈S S∈S Damit liegt ein Widerspruch vor, denn die Summe auf der rechten Seite ist entweder gleich 0, wenn P[A1 ] = 0, oder gleich ∞, wenn P[A1 ] > 0. Somit kann geschlossen werden, daß A1 ∈ / F, falls ({0, 1}N, F, P) ein Wahrscheinlichkeitsraum mit einem (2.2) und (2.18) erfüllenden Wahrscheinlichkeitsmaß P ist. Insbesondere ist die Wahl F = Pot({0, 1}N) nicht möglich. A.2.19Vgl. Fußnote 2.111. A.2.20S ist die Menge der endlichen Teilmengen von N. A.2.21Weil S = S∞ {S ⊆ N : max{k : k ∈ S} = m} sich als abzählbare Vereinigung von m=1 endlichen Mengen darstellen läßt, ist S abzählbar. A.2.22Die Funktionen T : Ω → Ω, n ∈ N, sind in (2.18a) definiert. Für eine Abbildung n TS , S = {n1 , . . . , nk } ∈ S, und ω ∈ Ω ist TS ω jene Folge in {0, 1}, die aus der Folge ω durch Vertauschen der Werte 0 und 1 in den Folgengliedern mit den Indizes n1 , . . . , nk hervorgeht. A.2.23T A = {T ω : ω ∈ A }. Zu jedem ω ∈ Ω gibt es ein ω ′ ∈ A mit ω ∼ ω ′ . Insbesondere 1 1 S 1 S ′ ist ω der Repräsentant in A1 jener Äquivalenzklasse, die ω enthält. Folglich gibt es ein S ∈ S mit ω = TS ω ′ ∈ TS A1 . A.2.24 Wäre TS A1 ∩TS ′ A1 6= ∅ für S, S ′ ∈ S, so gäbe es ω, ω ′ ∈ A1 mit ω ∼ TS ω = TS ′ ω ′ ∼ ω ′ . Da A1 keine zwei verschiedenen, äquivalenten Elemente enthalten kann, wäre dann ω = ω ′ und damit auch S = S ′ . A.2.25Die σ-Algebra F sei hier nicht festgelegt. A.2.26In diesem Fall ist auch T A ∈ F, S ∈ S, vgl. Fußnote 2.108. Insbesondere ist P[T A ] S 1 S 1 für alle S ∈ S definiert. A.2.27Wegen (2.2a). A.2.28Wegen (2.2b) und (A.3). A.2.29Wegen (2.18). 18. April 2016 Literaturverzeichnis [1] L.V. Ahlfors. Complex Analysis, 2nd Edition. McGraw-Hill, 1966. [2] H. Bauer. Wahrscheinlichkeitstheorie und Grundzüge der Maßtheorie, 2. Auflage. De Gruyter, 1974. [3] R. Durrett. Probability: Theory and Examples, 2nd Edition. Duxbury Press, 1995. [4] W. Feller. An Introduction to Probability Theory and its Applications, Volume II, 2nd Edition. Wiley, 1971. [5] H.-O. Georgii. Stochastik. De Gruyter, 2002. [6] G. Grimmett, D. Stirzaker. Probability and Random Processes, 3rd Edition. Oxford University Press, 2003. [7] C. Hesse. Angewandte Wahrscheinlichkeitstheorie. Vieweg 2003. [8] E. Hewitt, K. Stromberg. Real and Abstract Analysis, Springer Verlag, 1965. [9] O. Kallenberg. Foundations of Modern Probability, 2nd Edition. Springer, 2002. [10] U. Krengel. Einführung in die Wahrscheinlichkeitstheorie und Statistik, 7. Auflage. Vieweg Verlag, 2003. [11] M. Matsumoto, T. Nishimura. Mersenne twister: a 623-dimensionally equidistributed uniform pseudo-random number generator. ACM Transactions on Modeling and Computer Simulation 8 (Special issue on uniform random number generation), 3 - 30, 1998. [12] J. Stoer. Numerische Mathematik 1, 5. Auflage. Springer, 1989. 163