Wahrscheinlichkeitsrechnung 1 für Informatiker und Ingenieure Friedrich Graef Institut für Angewandte Mathematik der Universität Erlangen-Nürnberg Fassung vom 24.10.2003 Inhaltsverzeichnis 1 Zufallsexperimente 5 2 Wahrscheinlichkeitsräume 2.1 Die Ergebnismenge . . . . . . . . 2.2 Ereignisse . . . . . . . . . . . . . 2.3 Verbundereignisse . . . . . . . . . 2.4 Wahrscheinlichkeiten . . . . . . . 2.5 Monotone Folgen von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 . 8 . 9 . 10 . 12 . 15 3 Laplace-Experimente 3.1 Laplace-Experimente . . . . . . . . . . . . . . . . . . 3.2 Binomialkoeffizienten . . . . . . . . . . . . . . . . . . 3.3 Urnen- und Schubladenmodelle . . . . . . . . . . . . 3.4 Zufälliges Ziehen einer Kugel . . . . . . . . . . . . . 3.5 Zufälliges Ziehen mehrerer Kugeln . . . . . . . . . . 3.5.1 Ziehen mit Berücksichtigung der Reihenfolge 3.5.2 Ziehen ohne Berücksichtigung der Reihenfolge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 18 19 21 21 22 22 22 4 Bedingte Wahrscheinlichkeiten 25 4.1 Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.2 Die Formel von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 5 Stochastische Unabhängigkeit 32 5.1 Stochastische Unabhängigkeit von zwei Ereignissen . . . . . . . . . . . . 32 5.2 Globale stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . . . 33 5.3 Produktexperimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 1 6 Diskrete Wahrscheinlichkeitsräume 6.1 Diskrete Wahrscheinlichkeitsräume . . . . . . . . 6.2 Spezielle diskrete Wahrscheinlichkeitsverteilungen 6.2.1 Die Laplace-Verteilung . . . . . . . . . . . 6.2.2 Die hypergeometrische Verteilung . . . . . 6.2.3 Die Binomialverteilung . . . . . . . . . . . 6.2.4 Die geometrische Verteilung . . . . . . . . 6.2.5 Die Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 36 37 37 37 38 38 40 7 Die Momente diskreter Verteilungen 7.1 Der Mittelwert einer diskreten Verteilung . . . . . 7.1.1 Statistische Interpretation des Mittelwerts . 7.1.2 Beispiele . . . . . . . . . . . . . . . . . . . . 7.2 Die absoluten Momente einer diskreten Verteilung 7.2.1 Die momenterzeugende Funktion . . . . . . 7.3 Die Varianz einer diskreten Verteilung . . . . . . . 7.4 Die zentralen Momente einer diskreten Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 45 46 46 46 47 48 49 8 Zufallsvariable mit diskreter Verteilung 50 8.1 Die Verteilung einer diskreten Zufallsvariablen . . . . . . . . . . . . . . 51 8.2 Funktionen von diskreten Zufallsvariablen . . . . . . . . . . . . . . . . . 52 8.3 Der Erwartungswert einer diskreten Zufallsvariablen . . . . . . . . . . . 54 9 Geometrische Wahrscheinlichkeiten 56 10 Verteilungen 10.1 Intervalle . . . . . . . . . . . . . . . . . . 10.2 Borelsche Mengen und Lebesguesches Maß 10.3 Verteilungen auf dem Rn . . . . . . . . . 10.4 Das Lebesgue-Integral . . . . . . . . . . . 10.5 Absolutstetige Verteilungen . . . . . . . . 10.6 Zweistufige Experimente . . . . . . . . . . 10.6.1 Bedingte Dichten . . . . . . . . . . 10.6.2 Zweistufige Experimente . . . . . . 10.6.3 Fortsetzung des Beispiels . . . . . 10.6.4 Unabhängige Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 61 62 63 64 64 67 68 69 70 72 11 Eindimensionale Verteilungen 11.1 Die Verteilungsfunktion . . . . . . . . . . . . . . . . . . . 11.1.1 Berechnung von Intervallwahrscheinlichkeiten . . . 11.1.2 Verteilungsfunktionen und Dichten . . . . . . . . . 11.1.3 Die Verteilungsfunktion einer diskreten Verteilung 11.2 Die Momente einer eindimensionalen Verteilung . . . . . . 11.2.1 Mittelwert und Varianz der Normalverteilung . . . 11.2.2 Die momenterzeugende Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 73 76 77 77 78 79 80 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.3 Mittelwert und Varianz der Exponentialverteilung . . . . . . . . 80 12 Zufallsvariable 12.1 Zufallsgrößen . . . . . . . . . . . . . . . 12.1.1 Urbildmengen . . . . . . . . . . . 12.1.2 Zufallsgrößen . . . . . . . . . . . 12.1.3 Die Verteilung einer Zufallsgröße 12.2 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 81 81 82 82 83 13 Funktionen von Zufallsvariablen 13.1 Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . 13.2 Der Kompositionssatz für Zufallsvektoren . . . . . . . 13.3 Mehrdimensionale Verteilungen . . . . . . . . . . . . . 13.4 Marginalverteilungen . . . . . . . . . . . . . . . . . . . 13.5 Stochastische Unabhängigkeit von Zufallsvariablen . . 13.6 Der Transformationssatz für Dichten . . . . . . . . . . 13.6.1 Der Parametrisierungssatz für Bereichsintegrale 13.6.2 Der Transformationssatz für Dichten . . . . . . 13.6.3 Berechnung der Verteilung von Zufallsvariablen 13.6.4 Affin lineare Transformationen . . . . . . . . . 13.6.5 Faltungen . . . . . . . . . . . . . . . . . . . . . 13.7 Berechnungsmethoden . . . . . . . . . . . . . . . . . . 13.7.1 Berechnung der Verteilungsfunktion . . . . . . 13.7.2 Anwendung des Faltungsintegrals . . . . . . . . 13.7.3 Anwendung des Transformationssatzes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 86 87 88 89 90 92 93 94 97 98 99 100 101 101 102 14 Erwartungswert und Varianz 14.1 Das P-Integral einer Zufallsvariablen . . . . . . . . . . 14.1.1 Treppenfunktionen . . . . . . . . . . . . . . . . 14.1.2 Das P-Integral einer Treppenfunktion . . . . . 14.1.3 Rechenregeln . . . . . . . . . . . . . . . . . . . 14.1.4 Das P -Integral einer Zufallsvariablen. . . . . . 14.1.5 Zusammenhang mit dem Lebesgue-Integral . . 14.1.6 Komposition von Zufallsgrößen. . . . . . . . . . 14.1.7 Die Momente einer eindimensionalen Verteilung 14.2 Der Erwartungswert einer Zufallsvariablen . . . . . . . 14.2.1 Rechenregeln für den Erwartungswert . . . . . 14.2.2 Funktionen von Zufallsvariablen . . . . . . . . 14.3 Varianz und Kovarianz . . . . . . . . . . . . . . . . . . 14.3.1 Die Ungleichung von Tschebyscheff . . . . . . . 14.3.2 Rechenregeln für die Varianz . . . . . . . . . . 14.3.3 Die Kovarianz zweier Zufallsvariablen . . . . . 14.3.4 Die Kovarianzmatrix eines Zufallsvektors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 106 106 107 108 110 111 112 113 114 115 115 118 119 120 121 124 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Die Normalverteilung 15.1 Die eindimensionale Normalverteilung . . . . . . . . . . . . 15.2 Der Zentrale Grenzwertsatz. . . . . . . . . . . . . . . . . . . 15.3 Die mehrdimensionale Normalverteilung . . . . . . . . . . . 15.3.1 Die standardisierte Normalverteilung . . . . . . . . . 15.3.2 Die mehrdimensionale Normalverteilung . . . . . . . 15.3.3 Interpretation der Parameter . . . . . . . . . . . . . 15.3.4 Stochastische Unabhängigkeit bei Normalverteilung 15.3.5 Funktionen von normalverteilten Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 126 127 128 128 129 132 133 133 16 Grenzwertsätze 16.1 Unendliche Bernoulli-Versuchsreihen . . . . 16.2 Das Gesetz der Großen Zahlen . . . . . . . 16.3 Der Grenzwertsatz von Moivre und Laplace 16.4 Der Grenzwertsatz von Poisson . . . . . . . 16.5 Die eindimensionale Irrfahrt . . . . . . . . . 16.5.1 Gewinnchancen beim Roulette . . . 16.5.2 Die vorsichtige Strategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 137 138 140 142 145 146 146 Literatur Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 153 4 1 Zufallsexperimente Die Wahrscheinlichkeitsrechnung beschäftigt sich mit der mathematischen Analyse von Zufallsexperimenten. Als Ansatzpunkt für eine allgemeine Definition eines Zufallsexperiments und die Fragestellungen, die sich dabei ergeben und die man mit Hilfe der Mathematik behandeln möchte, betrachten wir das historische Beispiel, das üblicherweise als der Auslöser für die Entwicklung der Wahrscheinlichkeitsrechnung angesehen wird. Im Jahr 1654 beklagte sich der Chevalier de Méré (1607–1684), ein berufsmäßiger Spieler, bei Blaise Pascal (1623–1662) über die Mathematik, weil ihre Ergebnisse ihm nicht mit den Erfahrungen des praktischen Lebens übereinzustimmen schienen. Man wusste damals, dass es beim Spiel mit einem Würfel günstig ist, darauf zu setzen, bei vier Würfen wenigstens eine Sechs zu werfen. De Méré dachte, es müsste dasselbe sein, wenn man bei 24 Würfen mit zwei Würfeln darauf setzt, wenigstens eine Doppelsechs zu erhalten. Während im ersten Fall 6 Möglichkeiten 4 Würfe gegenüber stehen, stehen im zweiten 36 Möglichkeiten 24 Würfe gegenüber, das Verhältnis ist also in beiden Fällen 3:2. Entgegen seinen Erwartungen verlor aber Herr de Méré auf die Dauer beim zweiten Spiel und das muss ihn sehr verdrossen haben.1 Schon zu dieser Zeit war seit langem bekannt, dass der Prozentsatz gewonnener Runden bei langen Serien derartiger Glücksspiele nahezu konstant und stets in etwa gleich ist, woraus zwangsläufig die Frage erwuchs, wie man die Gewinnchancen solcher Spiele schon im voraus berechnen kann. Pascal führte über dieses Problem 1654 einen Briefwechsel mit Pierre Fermat (1601–1665), in dessen Verlauf sich schließlich eine Lösung ergab. Wir werden im ersten Teil dieser Vorlesung den Lösungsweg in einem etwas allgemeinerem Rahmen nachvollziehen und beginnen mit dem Begriff des Zufallsexperiments. Ein Zufallsexperiment wie im obigen Beispiel das viermalige Werfen eines Würfels ist zunächst ein Experiment im üblichen Sinne, d.h. ein konkreter oder auch nur in Gedanken durchgeführter Vorgang, der sich beliebig oft unter stets gleichen Rahmenbedingungen wiederholen lässt. Der wesentliche Unterschied zu dem klassischen naturwissenschaftlichen Konzept des Experiments besteht darin, dass ein Zufallsexperiment mehrere mögliche Ausgänge hat und trotz gleicher Ausgangslage bei keiner der Durchführungen mit Sicherheit vorhersehbar ist, welcher dieser Ausgänge sich einstellt. Die wesentliche Frage im Zusammenhang mit Zufallsexperimenten ist die nach den Chancen für das Eintreten bzw. Nichteintreten bestimmter Ereignisse. Bei den obigen Beispielen geht es dabei um das Ereignis Gewinn“, das dadurch charakterisiert ist, ” dass bei der Durchführung des Würfelexperiments eine Sechs bzw. eine Doppelsechs geworfen wird. Allgemein verstehen wir unter einem Ereignis eine Reihe von möglichen Merkmalen der Ausgänge des betreffenden Zufallsexperiments. Die Formulierung: Das Ereignis ” 1 Zitat aus [15] 5 tritt ein“ soll dementsprechend bedeuten, dass bei einer Durchführung des Experiments ein Ausgang zustande kommt, der alle diese Merkmale besitzt. Gemäß der Charakterisierung eines Zufallsexperiments ist es bei einem einzelnen Versuch, d.h. einer einmaligen Durchführung des Experiments, nicht mit Sicherheit vorhersagbar, ob ein Ereignis eintritt oder nicht. Sein Eintreten hängt vom Zufall ab. Führt man aber eine lange Versuchsreihe, d.h. eine ganze Serie von Versuchen durch und zählt, wie oft dabei dieses Ereignis eintritt, so beobachtet man wie schon Herr de Méré eine gewisse Gesetzmäßigkeit, die sich am einfachsten mit Hilfe mathematischer Formeln darstellen lässt: • E stehe für das beobachtete Ereignis, • n sei die Länge der Versuchsreihe, d.h. die Anzahl der durchgeführten Versuche, • Hn (E) sei die absolute Häufigkeit von E, d.h. die Anzahl der Versuche, bei denen das Ereignis E eingetreten ist, und • Rn (E) = Hn (E)/n die relative Häufigkeit des Ereignisses E, d.h. der relative Anteil oder — mit 100 multipliziert — der Prozentsatz der Versuche, bei denen das Ereignis E eingetreten ist. De Méré stellte fest, dass bei langen Versuchsreihen mit 4 Würfen eines Würfels das Ereignis Gewinn“ stets eine relative Häufigkeit von mehr als 50% und bei 24 Würfen ” eines Würfelpaars eine von weniger als 50% besitzt, die Anzahl der gewonnenen Spiele im ersten Fall also immer größer und im zweiten Fall immer kleiner ist als die Anzahl der verlorenen Spiele. Wie die Erfahrung mit Zufallsexperimenten zeigt, scheint eine noch stärkere Gesetzmäßigkeit vorzuliegen: Für sehr lange Versuchsreihen stabilisieren sich die relativen Häufigkeiten Rn (E) offenbar stets in der Nähe einer für das Experiment und das Ereignis E charakteristischen Zahl P (E) Rn (E) ≈ P (E) für große n (1.1) Dieses Phänomen nennt man das empirische Gesetz der großen Zahlen. Es handelt sich dabei nicht um einen Konvergenzsatz im mathematischen Sinne sondern um eine reine Erfahrungstatsache, auf deren Basis sich aber offenbar sicher kalkulieren lässt, wie die wirtschaftliche Situation von Spielbanken, Lotterien und Versicherungsunternehmen demonstriert. Als Grundlage für eine mathematische Analyse von Zufallsexperimenten gehen wir von der Hypothese aus, dass jedem Zufallsexperiment quasi als Naturgesetz eine Funktion P zugeordnet ist, die jedem an diesem Zufallsexperiment beobachtbaren Ereignis E eine Zahl P (E) zuordnet und die mit dem Ereignis über das empirische Gesetz der großen Zahlen (1.1) verbunden ist. Diese Zahl nennen wir die Wahrscheinlichkeit des Ereignisses E. Die Forderung (1.1) hat zur Konsequenz, dass die Funktion P nicht ganz willkürlich gewählt werden kann sondern im wesentlichen die gleichen Eigenschaften besitzen muss wie die relative Häufigkeit Rn . 6 Um diese Eigenschaften präzise formulieren zu können, benötigen wir ein mathematisches Modell eines Zufallsexperiments, mit dem wir uns im folgenden Abschnitt beschäftigen. 7 2 Wahrscheinlichkeitsräume Ein Wahrscheinlichkeitsraum ist ein mathematisches Modell bzw. ein abstraktes Schema zur Beschreibung eines Zufallsexperiments. Aus den Erläuterungen des vorhergehenden Abschnitts ergibt sich, dass eine solche Beschreibung die folgenden Bestandteile enthalten muss: • Eine Liste der möglichen Ausgänge des Experiments • Eine Aufstellung der interessierenden Ereignisse • Eine Beschreibung der Funktion P 2.1 Die Ergebnismenge Die Ausgänge eines Zufallsexperiments werden üblicherweise Ergebnisse genannt und die Menge der möglichen Ausgänge dementsprechend die Ergebnismenge oder der Ergebnisraum. Als Symbol für ein Ergebnis werden wir den griechischen Buchstaben ω benutzen und die Ergebnismenge wird durch den zugehörigen Großbuchstaben Ω gekennzeichnet. Die Menge der möglichen Ergebnisse kann man als Reduktion der allgemeinen Beschreibung des Experiments auf das mathematisch Wesentliche ansehen. Dabei gibt es aber je nach Fragestellung eventuell mehrere Möglichkeiten. Zur Veranschaulichung ziehen wir zwei klassische Beispiele für Zufallsexperimente heran: Das Werfen zweier Würfel und das Galton-Brett. Würfeln. Wirft man zwei Würfel und ist nur an der Summe der geworfenen Augenzahlen interessiert, so bietet sich als Ergebnismenge die Menge Ωw1 = {2, 3, 4, . . . 11, 12} (2.2) der natürlichen Zahlen von 2 bis 12 an. Kommt es wie etwa beim Backgammon-Spiel auf die tatsächlich geworfenen Augenzahlen an, muss man Paare von Augenzahlen notieren. Bei zwei nicht unterscheidbaren Würfeln kan man als Ergebnismenge zum Beispiel [1, 1] [1, 2] [1, 3] [1, 4] [1, 5] [1, 6] [2, 2] [2, 3] [2, 4] [2, 5] [2, 6] [3, 3] [3, 4] [3, 5] [3, 6] Ωw2 = [4, 4] [4, 5] [4, 6] [5, 5] [5, 6] [6, 6] ansetzen. Die Notation [i, k] steht für das Ergebnis, dass einer der Würfel die Augenzahl i und der andere die Augenzahl k zeigt, wobei an erster Stelle immer die kleinere der geworfenen Zahlen steht. Wirft man die beiden Würfel nicht gleichzeitig, sondern nacheinander und ist die Reihenfolge der geworfenen Augenzahlen von Bedeutung, so muss die Darstellung noch 8 einmal verfeinert werden, etwa (1, 1) (2, 1) (3, 1) Ωw3 = (4, 1) (5, 1) (6, 1) durch die Ergebnismenge (1, 2) (2, 2) (3, 2) (4, 2) (5, 2) (6, 2) (1, 3) (2, 3) (3, 3) (4, 3) (5, 3) (6, 3) (1, 4) (2, 4) (3, 4) (4, 4) (5, 4) (6, 4) (1, 5) (2, 5) (3, 5) (4, 5) (5, 5) (6, 5) (1, 6) (2, 6) (3, 6) (4, 6) (5, 6) (6, 6) (2.3) wobei (i, k) für das Ergebnis steht, dass i die erste und k die zweite geworfene Augenzahl ist. Das Galton-Brett. Ein Galton-Brett besteht aus einer schräg gestellten Platte, in die wie in Abbildung 1 skizziert Rinnen eingefräst sind. Eine Kugel wird in die Startrinne am oberen Rand gelegt und rollt nach unten, wobei sie an den Verzweigungspunkten zufällig nach links oder rechts abgelenkt wird. Abbildung 1: Ein Galton-Brett Die Ergebnisse sind entweder die in irgendeiner Form gekennzeichneten verschiedenen Ausgänge am unteren Ende des Bretts, an denen die Kugel schließlich landet, oder — wie in einem der nächsten Kapitel verwendet wird — die verschiedenen Wege, die die Kugel durchlaufen kann. 2.2 Ereignisse Ein Ereignis ist eine Charakterisierung des Ausgangs eines Zufallsexperiments durch ein oder mehrere Merkmale, so dass nach Durchführung des Experiments die Frage, ob diese Charakterisierung zutrifft, eindeutig mit ja“ oder nein“ beantwortet werden ” ” kann. Falls sie zutrifft, sagt man, das Ereignis sei eingetreten. Betrachtet man zum Beispiel beim Werfen zweier Würfel die Aussage Zwei ungerade Augenzahlen wurden geworfen“, ” 9 so ist dies bezogen auf die Ergebnismenge Ωw1 kein Ereignis im obigen Sinne, da sich nicht entscheiden lässt, ob sie zutrifft, wenn man nur die Augenzahlsumme als Ergebnis kennt. Bei den anderen beiden Ergebnismengen ist diese Frage entscheidbar. Offensichtlich kann man Ereignisse durch Teilmengen der Ergebnismenge repräsentieren. Da ein Ereignis genau dann eintritt, wenn die zugehörige Aussage auf das Ergebnis der Durchführung des Experiments zutrifft, entspricht einem Ereignis einfach die Menge aller Ergebnisse des Experiments, für die diese Aussage wahr ist. Bezogen auf die Ergebnismenge Ωw2 ist das in unserem Beispiel die Menge A2 = {[1, 1], [1, 3], [1, 5], [3, 3], [3, 5], [5, 5]} Die Charakterisierung von Ereignissen durch Mengen hängt natürlich von der gewählten Ergebnismenge ab. Je nach Auswahl wird die Aussage Die Augenzahlsumme 7 wurde geworfen“ ” durch die drei Mengen B1 B2 B3 = {7} = {[1, 6], [2, 5], [3, 4]} = {(1, 6), (6, 1), (2, 5), (5, 2), (3, 4), (4, 3)} repräsentiert. Auf dem Wege der mathematischen Abstraktion können wir jetzt noch einen Schritt weitergehen und die Differenzierung zwischen Aussage und repräsentierender Menge aufheben. Für unser mathematisches Modell legen wir fest: Ein Ereignis ist eine Teilmenge des Ergebnisraums. 2.3 Verbundereignisse Ereignisse können mittels der logischen Operatoren und, oder miteinander verknüpft und durch nicht negiert werden, wodurch sich neue Ereignisse ergeben, wie zum Beispiel Ungerade Augenzahlen“ und Augenzahlsumme größer als 4“ ” ” Augenzahlsumme 6“ oder Augenzahlsumme 7“ ” ” Die Augenzahlsumme ist nicht 7“ ” Geht man zur Mengendarstellung der Ereignisse über, so entsprechen diesen Verbundereignissen die Vereinigung, der Durchschnitt und das Komplement der Mengen, die die verknüpften Ereignisse repräsentieren: A∪B = {ω ∈ Ω ; ω ∈ A oder ω ∈ B} A ∩ B = {ω ∈ Ω ; ω ∈ A und ω ∈ B} A = {ω ∈ Ω ; ω ∈ / A} 10 Nach der Liste der möglichen Ergebnisse des Zufallsexperiments ist nach den obigen Überlegungen als zweiter Bestandteil eines mathematischen Modells eine Liste der interessanten Ereignisse bzw. die Auflistung der entsprechenden Teilmengen der Ergebnismenge Ω erforderlich. Da man zweifellos in eine solche Liste alle Verbundereignisse mit aufnehmen wird, ergibt sich die Forderung, dass die Menge der zugehörigen Teilmengen unter den Operationen Vereinigung, Durchschnitt und Komplementbildung abgeschlossen sein muss. Ein derartiges Mengensystem heißt in der Mathematik eine Mengenalgebra. Definition 2.1 Eine Menge A von Teilmengen einer nichtleeren Menge Ω heißt eine Mengenalgebra (über Ω), wenn gilt: Ω∈A A∈A⇒A∈A A, B ∈ A ⇒ A ∪ B ∈ A Beispiele für Mengenalgebren sind die Mengensysteme {∅, Ω} als die kleinstmögliche Algebra, {∅, A, A, Ω} als die kleinste Algebra, die das Ereignis A enthält und die Menge aller Teilmengen von Ω, die wir im folgenden mit 2Ω bezeichnen. Bemerkungen und Bezeichnungen 1. Da jedes ω in dem Ereignis Ω liegt, tritt dieses Ereignis bei jeder Durchführung des Experiments ein. Es heißt daher auch das sichere Ereignis. 2. Sein Komplement Ω = ∅ , die leere Menge, tritt nie ein und heißt daher das unmögliche Ereignis. 3. Eine einelementige Menge {ω} heißt ein Elementarereignis. 4. Morgansche Regeln: Man kann leicht nachvollziehen, dass für beliebige Mengen die Gleichungen A =A und A∩B =A∪B gelten. Mit diesen Regeln ergibt sich, dass Mengenalgebren auch unter der Durchschnittsbildung abgeschlossen sind. Aus den Eigenschaften einer Mengenalgebra folgt nämlich, dass A, B ∈ A ⇒ ⇒ ⇒ A, B ∈ A A∩B =A∪B ∈A A∩B = A∩B ∈A 5. Anstelle von A ∩ B schreiben wir auch kurz AB. 6. Zwei Mengen A, B heißen disjunkt, falls A ∩ B = ∅. In diesem Fall schreiben wir A + B anstelle von A ∪ B. 11 2.4 Wahrscheinlichkeiten Im Hinblick auf das empirische Gesetz der großen Zahlen sollten die wesentlichen Eigenschaften der relativen Häufigkeit Rn (s. Seite 6) auf die Funktion P übertragen werden. Dazu betrachten wir die Situation, dass ein Zufallsexperiment mit der Ergebnismenge Ω n-mal durchgeführt und dabei gezählt wurde, wie oft ein Ereignis A ⊂ Ω eingetreten ist. Da die absolute Häufigkeit Hn (A) des Ereignisses nicht größer sein kann als die Anzahl n der Versuche insgesamt, muss für den Quotienten Rn (A) = Hn (A)/n die Einschränkung 0 ≤ Rn (A) ≤ 1 (2.4) gelten. Für das sichere Ereignis Ω ist Hn (Ω) = n und daher Rn (Ω) = 1 (2.5) denn das sichere Ereignis tritt bei jedem Versuch ein. Schließlich kann von zwei disjunkten Ereignissen A und B bei jeder Durchführung des Experiments höchstens eines der beiden eintreten, so dass Hn (A + B) = Hn (A) + Hn (B) und damit Rn (A + B) = Rn (A) + Rn (B) (2.6) gilt. Eine Funktion P auf der Mengenalgebra A der Ereignisse sollte daher auf jeden Fall die folgenden drei Eigenschaften besitzen. Axiom 1 0 ≤ P (A) ≤ 1 für alle A ∈ A (2.7) Axiom 2 P (Ω) = 1 (2.8) Axiom 3 P (A + B) = P (A) + P (B) für disjunkte Ereignisse A und B aus A (2.9) Als Axiome werden in der Mathematik diejenigen Eigenschaften eines mathematischen Objekts bezeichnet, die als Basis für alle weiteren Folgerungen dienen und die (innerhalb des mathematischen Modells) nicht weiter begründet werden. Aus diesen drei Axiomen ergeben sich unmittelbar einige Rechenregeln für Ereignisse, die bei den kommenden Berechnungen häufig benötigt werden. A, B usw. seien dabei stets Elemente aus der Ereignisalgebra A. Komplementärereignisse: Wegen A + A = Ω folgt aus den Axiomen 2 und 3, dass P (A) + P (A) = 1 oder P (A) = 1 − P (A) (2.10) Speziell für das unmögliche Ereignis ∅ = Ω also P (∅) = 0 12 (2.11) Isotonie: Ist A ⊂ B, so lässt sich B als A + AB darstellen. Das ergibt P (B) = P (A) + P (AB). Und da P (AB) ≥ 0, folgt daraus A⊂B ⇒ P (A) ≤ P (B) (2.12) Endliche Summen von Ereignissen: Endlich oder unendlich viele Ereignisse A1 , A2 , A3 . . . heißen paarweise disjunkt, wenn für je zwei Indizes i 6= k die Mengen Ai und Ak disjunkt sind. In diesem Fall schreibt man A1 + A2 + . . . + An anstelle von A1 ∪ A2 ∪ . . . ∪ An bzw. n X Ak anstelle von n [ Ak k=1 k=1 Wegen A1 + A2 + . . . + An = A1 + (A2 + . . . + An ) = A1 + (A2 + (A3 + . . . + An )) = usw. ergibt sich durch wiederholte Anwendung von Axiom 3 die Summenformel P (A1 + . . . + An ) bzw. P( n X = P (A1 ) + . . . + P (An ) Ak ) = n X P (Ak ) (2.13) k=1 k=1 Allgemeine Additionsregel: Für beliebige nicht notwendig disjunkte Ereignisse A, B ergibt sich aus A ∪ B = AB + AB + AB die Beziehung P (A ∪ B) = P (A) + P (B) − P (AB) (2.14) Solange man es mit Zufallsexperimenten zu tun hat, die durch eine endliche Ergebnismenge Ω beschrieben werden können, reichen die Axiome 1 bis 3 zur Berechnung aus, denn jede Teilmenge von Ω kann in höchstens endlich viele disjunkte Teile aufgespalten werden. Bei unendlichen Ergebnismengen muss man noch ein viertes Axiom einführen um ein vernünftiges Modell zu erhalten. Zur Veranschaulichung betrachten wir das Zufallsexperiment, dass ein Würfel so lange geworfen wird, bis zum ersten Mal die Augenzahl 6 erscheint. Da nicht abzusehen ist, bei welchem Wurf dieses Ereignis eintritt und prinzipiell auch denkbar ist, dass niemals eine 6 geworfen wird, muss man als Ergebnisraum die Menge Ω = {ω = (z1 , z2 , . . .) ; zk = 1, 2, 3, 4, 5, 6} aller möglichen unendlichen Wurfserien benutzen: Die Komponente zk steht für die Augenzahl, die beim k-ten Wurf erscheint. 13 Das Ereignis, dass beim k-ten Wurf die erste 6 erscheint, wird durch die Menge Ak = {ω = (z1 , z2 , . . .) ; zi < 6 für i < k und zk = 6} beschrieben. Die Mengen A1 , A2 , . . . sind paarweise disjunkt. Für n = 1, 2, 3, . . . repräsentieren die Mengen Bn = A1 + A2 + . . . + An (2.15) die Ereignisse, dass spätestens beim n-ten Wurf eine 6 kommt und ∞ [ A= Bn = n=1 ∞ X Ak (2.16) k=1 entspricht der Aussage, dass irgendwann einmal eine 6 erscheint“. ” Ist P eine Funktion, die für diese Ereignisse definiert ist und den Axiomen 1 bis 3 genügt, so folgt aus B1 ⊂ B2 ⊂ B3 ⊂ . . . und Regel (2.12), dass die Folge der Wahrscheinlichkeiten P (B1 ), P (B2 ), . . . monoton steigt und nach Axiom 1 durch 1 nach oben beschränkt ist. Es gibt also einen Limes lim P (Bn ) = β n→∞ (2.17) Aus dem Zusammenhang heraus erscheint es vernünftig, diesen Limes β als die Wahrscheinlichkeit dafür anzusehen, dass irgendwann einmal eine 6 auftritt, d.h. β = S∞ P ( n=1 Bn ). Für das mathematische Modell eines Zufallsexperiments bedeutet das, dass noch zwei weitere Eigenschaften als grundlegende Forderungen hinzugefügt werden müssen, die nicht aus den bisher eingeführten abgeleitet werden können. Einmal muss die Menge A der Ereignisse auch unter der Vereinigung abzählbar unendlich vieler Mengen abgeschlossen sein und zum anderen muss die Funktion P bezüglich dieser Operation gewisse Stetigkeitseigenschaften besitzen. Für Ersteres führen wir einen neuen Begriff ein: Definition 2.2 Eine Mengenalgebra A heißt eine σ-Algebra, wenn für jede Folge A1 , A2 , A3 . . . von Elementen aus A auch die Vereinigung ∞ [ n=1 An ∈ A (2.18) in A liegt. Hinsichtlich P erweitern wir das Axiomensystem noch durch Axiom 4 Für jede Folge A1 , A2 , . . . von paarweise disjunkten Mengen Ak ∈ A gilt P( ∞ X Ak ) = ∞ X k=1 k=1 14 P (Ak ) (2.19) Wie der Mathematiker A. Kolmogoroff 1933 in seinem Buch Grundbegriffe der Wahrscheinlichkeitsrechnung ([17]) zeigte, lässt sich auf diesen Axiomen ein leistungsfähiges Gebäude der Wahrscheinlichkeitsrechnung aufbauen. Definition 2.3 Eine Funktion P : A −→ R auf einer σ-Algebra A von Teilmengen einer Menge Ω, die die Axiome 1 bis 4 erfüllt, heißt eine Wahrscheinlichkeit oder Wahrscheinlichkeitsverteilung. Als mathematisches Modell eines Zufallsexperiments legen wir fest: Definition 2.4 Ein Tripel (Ω, A, P ), wo Ω eine nichtleere Menge, A eine σ-Algebra von Teilmengen von Ω und P eine Wahrscheinlichkeitsverteilung auf A ist, heißt ein Wahrscheinlichkeitsraum. Ω heißt die Ergebnismenge, die Elemente der σ-Algebra A heißen Ereignisse und die Zahl P (A) heißt die Wahrscheinlichkeit des Ereignisses A. 2.5 Monotone Folgen von Ereignissen Als Grund für die Einführung des vierten Axioms war die Forderung der Stetigkeit der Funktion P in der Form (2.17) angegeben worden. Wir müssen daher noch überprüfen, ob sich dies aus dem Axiom 4 ableiten lässt. Ist B1 , B2 , . . . eine Folge von Ereignissen aus einemSWahrscheinlichkeitsraum (Ω, A, P ) ∞ mit Bn ⊂ Bn+1 für alle n = 1, 2, . . . und ist B = n=1 Bn , so symbolisieren wir diese Situation kurz mit Bn % B. Dann gilt Satz 2.1 Bn % B ⇒ lim P (Bn ) = P (B) n→∞ (2.20) Beweis: Nach Regel (2.12) ist die Folge der Zahlen P (Bn ) monoton steigend und nach Axiom 1 nach oben durch 1 beschränkt. Der Limes existiert also. Wir konstruieren eine neue Folge von Ereignissen A1 , A2 , . . . durch A1 = B1 A2 = B2 ∩ B 1 .. . Ak = Bk ∩ B k−1 .. . Diese Ereignisse Ak sind paarweise disjunkt und es gilt Bn = A1 + A2 + . . . + An = n X k=1 B = ∞ X Ak k=1 15 Ak Daraus ergibt sich aus den Axiomen und den bisher abgeleiteten Rechenregeln lim P (Bn ) = n→∞ lim n→∞ = P( n X k=1 ∞ X P (Ak ) = ∞ X P (Ak ) k=1 Ak ) = P (B) k=1 Ist C1 , C2 , . . . eine Folge von Ereignissen mit C1 ⊃ C2 ⊃ C3 . . . und C = kurz Cn & C, so gilt T∞ n=1 ♦ Cn , Satz 2.2 Cn & C ⇒ lim P (Cn ) = P (C) n→∞ (2.21) Beweis: Die Ereignisse Bn = C n erfüllen Bn % B mit B = C. Wegen P (Cn ) = 1 − P (Bn ) und P (C) = 1 − P (B) folgt die Behauptung aus dem vorhergehenden Satz. 16 3 Laplace-Experimente Mit dem Aufstellen von Rechenregeln für Wahrscheinlichkeiten ist noch nicht das Problem gelöst, wie man bei konkreten Zufallsexperimenten zu konkreten Zahlen für die Wahrscheinlichkeit von Ereignissen kommt. Dies ist allerdings auch nur zum Teil ein rein mathematisches Problem. Der mathematische Teil besteht darin zu klären, welche Informationen über die Funktion P erforderlich sind um anschließend mit Hilfe der Rechenregeln die Wahrscheinlichkeit P (A) eines beliebigen Ereignisses A berechnen zu können. Das praktische“ Problem besteht darin, im konkreten Einzelfall einen ” vernünftigen“ Ansatz für die benötigte Minimalinformation über P aufzustellen. ” Das historisch erste Kochrezept zur Lösung dieses Problems stammt von Pierre Simon de Laplace (1749–1827): Die Wahrscheinlichkeitsrechnung besteht in der Zurückführung aller Ereignisse derselben Art auf eine gewisse Anzahl von gleich möglichen Fällen, über deren Eintreten wir gleich wenig wissen, und in der Bestimmung derjenigen Anzahl von Fällen, die für das Ereignis günstig sind, dessen Wahrscheinlichkeit wir suchen. Den ersten Teil dieser Vorschrift kann man unter Verwendung der im vorhergehenden Kapitel eingeführten Begriffe etwa folgendermaßen formulieren: Beschreibe eine Versuchsanordnung durch eine Ergebnismenge derart, dass es keinen vernünftigen Einwand gegen den Ansatz gibt, dass alle Ergebnisse gleich möglich sind, bzw. — in unserer Sprechweise — dass alle Elementarereignisse die gleiche Wahrscheinlichkeit besitzen. P {ω} = p für alle ω ∈ Ω (3.22) Beispiele: 1. Ist ein Würfel regulär, d.h. aus homogenem Material geometrisch exakt geformt, so lässt sich kaum etwas gegen die Annahme einwenden, dass jede der sechs Augenzahlen beim Wurf die gleiche Chance hat nach oben zu zeigen. Die Ergebnismenge Ω = {1, 2, 3, 4, 5, 6} ist also für diesen Fall ein passender Ansatz. 2. Interessiert man sich für die Augenzahlsumme beim Werfen zweier regulärer Würfel, so ist die Ergebnismenge Ωw1 (s. Seite 8) ungeeignet. Nach einer relativ kurzen Versuchsreihe zeigt sich im allgemeinen, dass sich die relativen Häufigkeiten der Elementarereignisse deutlich voneinander unterscheiden und ein Laplace-Ansatz (3.22) offensichtlich im Widerspruch zum empirischen Gesetz der großen Zahlen steht. Andererseits gibt es beim zweimaligen Werfen eines regulären Würfels (oder beim gleichzeitigen Werfen zweier unterscheidbarer regulärer Würfel) keinen vernünfigen Einwand gegen die Annahme, dass alle möglichen Kombinationen aus erster und zweiter geworfener Augenzahl die gleiche Chance besitzen. Man wird also von der Eigenschaft (3.22) für die Ergebnismenge Ωw3 wie in (2.3) ausgehen und Ereignisse der Form Die Augenzahlsumme ist x“ in diesem Rahmen betrachten. ” 17 3.1 Laplace-Experimente Die Eigenschaft (3.22) ist die Minimalinformation, durch die der Wahrscheinlichkeitsraum (Ω, A, P ) bereits eindeutig festgelegt ist. Sie besagt als Erstes, dass jede einelementige Menge {ω} ein Element der σ-Algebra A ist. Daraus folgt, dass jede endliche Teilmenge von Ω in A liegt, denn A = {ω1 , ω2 , . . . , ωn } = {ω1 } + {ω2 } + · · · + {ωn } ∈ A und es ist dementsprechend P (A) = P {ω1 } + P {ω2 } + · · · + P {ωn } = np =: |A|p (3.23) |A| bezeichnet dabei die Anzahl der Elemente der Menge A. Da man offensichtlich p > 0 ansetzen muss, um zu einer sinnvollen Wahrscheinlichkeitsverteilung zu kommen, ist ein Ansatz der Form (3.22) nur möglich, wenn die Ergebnismenge Ω endlich ist. Denn einerseits muss stets P (A) ≤ 1 sein und andererseits gäbe es bei nicht-endlichem Ω Teilmengen A einer derartigen Größe, dass |A|p > 1 ist. Dann ist aber jede Teilmenge von Ω endlich und somit ein Element der Ereignisalgebra, so dass A = 2Ω . Weiter folgt aus 1 = P (Ω) = |Ω|p dass p = 1/|Ω| und wir erhalten für die Wahrscheinlichkeit eines Ereignisses A die bekannte Formel Anzahl der günstigen Fälle |A| = P (A) = |Ω| Anzahl der möglichen Fälle Wie man sich leicht überzeugt, erfüllt die Funktion P die Axiome 1 bis 3. Das Axiom 4 ist hier nicht relevant, da wir es mit einer endlichen Ergebnismenge zu tun haben. Wir können daher festlegen: Definition 3.1 Ein Laplace-Experiment ist ein Wahrscheinlichkeitsraum (Ω, A, P ) mit den folgenden Eigenschaften: • Ω ist eine endliche Menge • A = 2Ω • P (A) = |A|/|Ω| Die Berechnung von Wahrscheinlichkeiten bei Laplace-Experimenten besteht daher im Abzählen der Elemente der entsprechenden Mengen. Beim Werfen zweier Würfel ist das recht einfach. Die Menge Ωw3 enthält 36 Elemente und das Ereignis Augenzahlsumme ” 7“ wird durch die Menge A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} mit 6 Elementen und der Wahrscheinlichkeit P (A) = 1/6 repräsentiert. Das Problem des Abzählens kann sich aber zuweilen sehr schwierig gestalten. Mit diesem Teil der Wahrscheinlichkeitsrechnung, der unter das Stichwort Kombinatorik fällt, werden wir uns in diesem Kapitel anhand einiger typischer Problemstellungen kurz beschäftigen. 18 3.2 Binomialkoeffizienten Beim Galton-Brett (s. Seite 9) kommen die unterschiedlichen Ergebnisse dadurch Zustande, dass die Kugel an den Verzweigungen der Rinnen zufällig nach links oder rechts springt. Wenn man die Spitzen der Verzweigungen durch Punkte repräsentiert, ergibt sich das in Abbildung 2 dargestellte Schema. × Start • • • • • • • • • • • • • • • 0 1 2 3 4 5 Abbildung 2: Schema des Galton-Bretts Zu n(= 5) Punktreihen gibt es n + 1(= 6) Fächer, in die die Kugel fallen kann und die wir von 0 bis n von links nach rechts durchnummerieren. Die verschiedenen möglichen Wege, die die Kugel auf diesem Brett durchlaufen kann, lassen sich durch die Sprungrichtungen der Kugel auf den n Reihen beschreiben. Jedem Weg entspricht ein Binärvektor δ = (δ1 , δ2 , . . . , δn ), wobei δi = 0 bzw. = 1, wenn die Kugel auf der i-ten Reihe nach links bzw. nach rechts springt. Bei einem regulär gebauten Galton-Brett kann man davon ausgehen, dass auf jeder Reihe Sprünge nach rechts und nach links gleich möglich sind und weiter, dass jede Kombination von Sprüngen gleich möglich ist, so dass Ωn = {δ = (δ1 , δ2 , . . . , δn ) ; δi ∈ {0, 1}} eine geeignete Ergebnismenge ist, die bekanntermaßen |Ωn | = 2n Elemente besitzt. Wie berechnet man unter der Annahme, dass wir ein Laplace-Experiment vor uns haben, die Wahrscheinlichkeit des Ereignisses die Kugel fällt in das Fach Nr. k“ ? ” Anhand der Abbildung 2 überzeugt man sich leicht, dass die Kugel beim n-reihigen Galton-Brett in das Fach k fällt, wenn sie bei ihren n Sprüngen auf dem Weg nach unten genau k-mal nach rechts und (n−k)-mal nach links springt, wobei es gleichgültig ist, in welcher Reihenfolge diese Sprünge erfolgen. In der Ergebnismenge Ωn wird dieses Ereignis durch die Menge aller Binärvektoren repräsentiert, die genau k Einsen (und folglich n − k Nullen) enthalten. ) ( n X n δi = k (3.24) Ak = δ = (δ1 , δ2 , . . . , δn ) ∈ Ωn ; i=1 19 Die Anzahl der Elemente dieser Menge wird mit n |Ank | = k bezeichnet. Diese Größe heißt ein Binomialkoeffizient. Ihren Namen hat sie von der Binomialformel n X n k n−k a b (3.25) (a + b)n = k k=0 mit reellen oder komplexen Zahlen a und b. In dieser Formel ist — wie man sich durch das Ausmultiplizieren etwa von (a + b)3 veranschaulicht — der Binomialkoeffizient nk die Anzahl der Produkte, die man aus k Faktoren a und n − k Faktoren b bilden kann. Ersetzt man a durch 1 und b durch 0, so entsprechen die Binärvektoren mit k Einsen gerade diesen Produkten. Einzelheiten zu den Binomialkoeffizienten findet man in jedem Buch über Kombinatorik. Wir beschränken uns hier auf die wichtigsten Berechnungsformeln. n n = =1 0 n Dies ist unmittelbar einsichtig. Die Menge der Binärvektoren, die aus lauter Nullen bzw. Einsen bestehen, enthält jeweils ein Element. Wenn man die Menge An+1 in die k Menge A1 aller Vektoren der Form (δ1 , . . . , δn , 1) mit k − 1 Einsen unter den ersten n Komponenten und die Menge A0 der (δ1 , . . . , δn , 0) mit k Einsen zerlegt, so ist offensichtlich |A1 | = |Ank−1 | und |A0 | = |Ank |, woraus die Rekursionsformel n+1 n n = + k k−1 k folgt. Durch Ersetzen von 1 durch 0 und 0 durch 1 in jedem Vektor ergibt sich weiterhin die Gleichung n n = k n−k Zur expliziten Berechnung der Binomialkoeffizienten benutzt man die Formeln n! n(n − 1) · · · (n − k + 1) n = = k(k − 1) · · · 1 k!(n − k)! k mit 0! = 1 und m! = 1 · 2 · 3 · · · (m − 1) · m für m = 1, 2, . . . . Die Wahrscheinlichkeit, dass bei einem regulären Galton-Brett die Kugel im Fach Nummer k landet, ist somit durch die Formel n P (Ank ) = gegeben. 20 k 2n 3.3 Urnen- und Schubladenmodelle Urnenmodelle stellen einen Zwischenschritt auf dem Weg vom konkreten Zufallsexperiment zu seiner mathematischen Beschreibung als Wahrscheinlichkeitsraum dar. Es sind fiktive Zufallsexperimente, die die wesentlichen Zufallselemente eines konkreten Vorgangs — evtl. auch nur angenähert — beschreiben. Ein Beispiel dafür ist der Vorgang beim Lotto Sechs aus Neunundvierzig“: Auf einem Lottoschein werden auf einem ” Zahlenfeld 6 Zahlen angekreuzt. Bei der öffentlichen Ziehung werden aus einer Trommel sechs Kugeln zufällig gezogen und die auf den Kugeln stehenden Zahlen notiert. Dann zählt man, wieviele der angekreuzten Zahlen mit den gezogenen übereinstimmen. Von den weiteren Varianten wie der Zufallszahl sehen wir hier zunächst einmal ab. Bezogen auf dieses eine Zahlenfeld lässt sich dieser Vorgang auf das folgende fiktive Experiment reduzieren: In einem Gebilde namens Urne“ befinden sich 49 Kugeln, 43 davon weiß ” und 6 schwarz. Letztere entsprechen den auf dem Zahlenfeld angekreuzten Zahlen. Aus dieser Urne werden zufällig“ sechs Kugeln gezogen und die Höhe des Gewinns hängt ” davon ab wieviele schwarze Kugeln sich unter den sechs gezogenen befinden. Um in solchen Situationen Wahrscheinlichkeiten zu berechnen, benötigt man einen Wahrscheinlichkeitsraum für das folgende Zufallsexperiment: Aus einer Urne mit N Kugeln, von denen K schwarz und der Rest weiß sind, werden n Kugeln zufällig gezogen. Interessierende Ereignisse sind: Unter den gezogenen Kugeln befinden sich genau k schwarze.“ ” Das Eigenschaftswort zufällig soll dabei andeuten, dass es sich um ein Laplace-Experiment handeln soll. Schubladenmodelle dienen einem ähnlichen Zweck. Beispielsweise kann man sich einen Binärvektor der Dimension n als eine Reihe von n (nummerierten) Schubladen vorstellen, die den Komponenten des Vektors entsprechen, wobei eine 0 einer leeren und eine 1 einer mit einer Kugel gefüllten Schublade entspricht. Dem Binärvektor (1, 0, 1, 1, 0) zum Beispiel entspricht die Kugelverteilung v 1 2 v v 3 4 5 3.4 Zufälliges Ziehen einer Kugel Um feststellen zu können, ob jede der Kugeln beim Ziehen die gleiche Chance hat, müssen sie unterscheidbar sein. Wir gehen daher davon aus, dass sie die Nummern 1, 2, . . . , N tragen, so dass als Ergebnisse die Nummern der gezogenen Kugeln angesetzt werden können: ΩN 1 = {1, 2, . . . , N } Um in dieser Ergebnismenge das Ereignis gezogene Kugel ist schwarz“ charakterisie” ren zu können, muss eine Beziehung zwischen den Nummern und der Farbe bestehen. 21 Wir nehmen der Einfachheit halber an, dass die Nummerierung so durchgeführt wurde, dass die schwarzen Kugeln die Nummern 1 bis K tragen und das obige Ereignis daher der Menge A = {1, . . . , K} entspricht. Wenn jede Kugel beim Ziehen die gleiche Chance hat, das Ganze also ein Laplace-Experiment ist, erhält man als Wahrscheinlichkeit P (A) = K |A| = N N |Ω1 | 3.5 Zufälliges Ziehen mehrerer Kugeln Beim Ziehen von n ≥ 2 Kugeln aus der Urne sind verschiedene Vorgehensweisen möglich, wobei wir für diesen Abschnitt generell annehmen, dass eine einmal aus der Urne gezogene Kugel nicht wieder zurückgelegt wird. Man kann die Kugeln einzeln nacheinander ziehen und dabei notieren, welche Kugel wann gezogen wurde oder alle Kugeln auf einmal aus der Urne nehmen. Ersteres nennen wir Ziehen mit Berücksichtigung der Reihenfolge, letzeres Ziehen ohne Berücksichtigung der Reihenfolge. 3.5.1 Ziehen mit Berücksichtigung der Reihenfolge Ist zi die Nummer der Kugel, die beim i-ten Zug aus der Urne genommen wurde, so lassen sich die Ausgänge des Experiments durch die Menge ΩN n = {(z1 , z2 , . . . , zn ) ; zi = 1, 2, . . . , N und zi paarweise verschieden} (3.26) repräsentieren. Die Menge ΩN 2 enthält N (N − 1) Elemente, da jede der N Zahlen z1 mit den N − 1 Zahlen z2 6= z1 zu einem Ergebnis (z1 , z2 ) kombiniert werden kann. Wenn man den Vektor (z1 , z2 , . . . , zn ) in der Form ((z1 , z2 , . . . , zn−1 ), zn ) schreibt, sieht man, dass die Ergebnisse aus ΩN n durch die Kombination von beliebigen Ermit Zahlen zn Zustande kommen, die von den gebnissen (z1 , z2 , . . . , zn−1 ) aus ΩN n−1 z1 , z2 , . . . , zn−1 verschieden sind. Da es (N − (n − 1)) = (N − n + 1) derartige Zahlen N aus dem Bereich 1, 2, . . . , N gibt, ist |ΩN n | = |Ωn−1 |(N − n + 1), woraus sich rekursiv die Formel (3.27) |ΩN n | = N (N − 1)(N − 2) · · · (N − n + 1) ergibt. 3.5.2 Ziehen ohne Berücksichtigung der Reihenfolge Wenn die Reihenfolge, in der die Kugeln gezogen wurden, keine Rolle spielt, erhält man als Ergebnis eine Menge von n verschiedenen Zahlen aus dem Bereich 1, 2, . . . , N , die man üblicherweise der Größe nach geordnet aufschreibt. Diese Vorgehensweise legt die Ergebnismenge Ω̂N n = {(z1 , z2 , . . . , zn ) ; 1 ≤ z1 < z2 < . . . < zn ≤ N } 22 (3.28) nahe. Zur Bestimmung der Anzahl der Elemente dieser Menge benutzen wir eine andere Darstellung dieser Ergebnisse. Wir ordnen einem Vektor (z1 , z2 , . . . , zn ) aus (3.28) den Binärvektor (δ1 , δ2 , . . . , δN ) der Länge N mit 1 für i = z1 , z2 , . . . , zn δi = 0 für alle anderen i bzw. eine Verteilung von n Kugeln auf N Schubladen zu, wobei in den Schubladen z1 , z2 , . . . , zn jeweils eine Kugel liegt. Durch diese Zuordnung wird die Menge Ω̂N n wird eineindeutig auf die Menge Ω̃N n = {(δ1 , δ2 , . . . , δN ) ; N X δi = n} (3.29) i=1 abgebildet und enthält daher die gleiche Anzahl von Elementen, nämlich —wie wir von (3.24) wissen— N N | = | = | Ω̃ |Ω̂N n n n Mit dieser Ergebnismenge lässt sich auch das oben angesprochene Problem leicht lösen: Aus einer Urne mit K schwarzen und N − K weißen Kugeln werden zufällig n Kugeln ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge gezogen. Wie groß ist die Wahrscheinlichkeit, dass sich unter den gezogenen Kugeln k schwarze befinden? Wenn die schwarzen Kugeln die Nummern von 1 bis K tragen, wird das entsprechende Ereignis durch die Teilmenge Bk = {(δ1 , δ2 , . . . , δK , δK+1 , . . . , δN ) ∈ Ω̃N n ; K X δi = k , i=1 N X i=K+1 δi = n − k} (3.30) von Ω̃N eine Nummer 1 ≤ zi ≤ K n beschrieben; denn einer schwarzen Kugel entspricht Vektorteilstücke (δ1 , . . . , δK | und dies wiederum einer Komponente δzi = 1. Da es K k PK PN N −K mit i=1 δi = k und n−k Teilstücke |δK+1 , . . . , δN ) mit i=K+1 δi = n − k gibt und die Vektoren aus Bk durch beliebige Kombinationen solcher Teilstücke entstehen, N −K und daher ist |Bk | = K n−k k P (Bk ) = K k N −K n−k N n Als Anwendung berechnen wir die Wahrscheinlichkeiten, beim Lotto “6 aus 49” k = 0, 1, . . . , 6 “Richtige” zu erhalten. Bei der Ziehung befinden sich in einer Trommel N = 49 durchnummerierte Kugeln, von denen n = 6 ohne Zurücklegen gezogen werden. Die K = 6 Kugeln, die die von uns 23 auf dem Lottoschein angekreuzten Zahlen tragen, denken wir uns schwarz, die übrigen 43 weiß. Die Wahrscheinlichkeit für “k Richtige” ist dann gegeben durch 43 6 pk = was mit k 6−k 49 6 , 49 = 13983816 6 die folgenden Werte ergibt: p0 = p1 = 0, 435964976 0, 413019450 p2 = p3 = 0, 132378029 0, 017650404 p4 = p5 = 0, 000968620 0, 000018450 p6 = 0, 000000072. 24 4 Bedingte Wahrscheinlichkeiten Zur mathematischen Präzisierung des etwas vagen Begriffs der unabhängigen Durchführung von Zufallsexperimenten benötigt man eine Größe, die anzeigt, welchen Einfluss das Eintreten eines Ereignisses auf das Eintrittsverhalten eines anderen hat. Diese Größe heißt die bedingte Wahrscheinlichkeit. Um die nachfolgende Definition zu begründen und zu veranschaulichen, wie die bedingte Wahrscheinlichkeit bei konkreten Zufallsexperimenten zu interpretieren ist, stellen wir uns die fiktive n-fache Durchführung eines Zufallsexperiments vor, bei dem zwei Ereignisse A und B beobachtet werden. Die bedingte relative Häufigkeit Rn (A|B) des Ereignisses A unter der Bedingung B sei dabei die relative Häufigkeit von A auf der Teilversuchsreihe der Experimente unter den n durchgeführten, bei denen das Ergebnis B eingetreten ist. Wenn diese bedingte relative Häufigkeit von der relativen Häufigkeit Rn (A) von A bezogen auf alle Durchführungen stark abweicht, ist anzunehmen, dass das Eintreten des Ereignisses B einen gewissen Einfluss auf dasjenige von A hat, dass also die Ereignisse A und B bezüglich ihres stochastischen Verhaltens voneinander abhängig sind. Die Teilversuchsreihe, auf der das Ereignis B eingetreten ist, hat die Länge Hn (B) und die Anzahl der Experimente unter diesen Hn (B), bei denen das Ereignis A eingetreten ist, ist gleich der Anzahl Hn (A ∩ B) der Experimente unter den n insgesamt durchgeführten, die sich durch das gleichzeitige Eintreten von A und B auszeichnen. Die Formel für die bedingte relative Häufigkeit lautet daher Rn (A|B) = Hn (A ∩ B)/Hn (B). Dividiert man Zähler und Nenner dieses Bruchs durch die Zahl n, ergibt sich die Formel Rn (A|B) = Rn (A ∩ B) Rn (B) die sich durch das Ersetzen des Symbols Rn durch P in ein wahrscheinlichkeitstheoretisches Äquivalent umwandeln lässt. Definition 4.1 Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und A, B ∈ A zwei Ereignisse, wobei P (B) > 0. Dann heißt P (A|B) = P (A ∩ B) P (B) (4.31) die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung B. Bei festgehaltenem B erfüllt — wie man sich leicht überzeugt — die Funktion A 7−→ P (A|B) die vier Axiome von Kolmogoroff (s. Seite 12ff) und ist damit eine neue Wahrscheinlichkeitsverteilung auf der Ereignisalgebra A. 4.1 Rechenregeln Multipliziert man die Gleichung (4.31) mit P (B), so erhält man P (A ∩ B) = P (A|B)P (B) 25 (4.32) Durch zweimalige Anwendung von (4.32) ergibt sich weiter P (A ∩ B ∩ C) = P (A|B ∩ C)P (B ∩ C) = P (A|B ∩ C)P (B|C)P (C) (4.33) mit offensichtlicher Erweiterung auf den Durchschnitt einer beliebigen endlichen Anzahl von Ereignissen. Man benutzt diese Gleichungen häufig zur Berechnung von Wahrscheinlichkeiten bei Zufallsexperimenten, die in mehreren Schritten ablaufen. Als Beispiel betrachten wir eine Urne, die K schwarze und N − K weiße Kugeln enthält und aus der zufällig 3 Kugeln ohne Zurücklegen der Reihe nach gezogen werden. Das Ereignis Alle drei ” gezogenen Kugeln sind schwarz“ ist von der Form A ∩ B ∩ C, wobei C, B bzw. A die Ereignisse Erste Kugel ist schwarz“, Zweite Kugel ist schwarz“ bzw. Dritte Kugel ” ” ” ist schwarz“ repräsentieren. Zur Berechnung der drei Faktoren auf der rechten Seite von (4.33) erspart man sich in den meisten derartigen Fällen die Beschreibung des Experiments durch einen passenden Wahrscheinlichkeitsraum und interpretiert die Wahrscheinlichkeitsverteilungen P (.), P (.|B) und P (.|B ∩ C) als Wahrscheinlichkeitsgesetze dreier konkreter Zufallsexperimente nach dem folgenden Muster: 1. Bei P (C) hat man es offensichtlich mit einer Urne mit N Kugeln zu tun, aus der eine Kugel zufällig gezogen wird. Nach Laplace ist die Wahrscheinlichkeit, dass diese schwarz ist, gleich P (C) = K/N . 2. Unter der Bedingung, dass das Ereignis C eingetreten ist, enthält die Urne nur noch N − 1 Kugeln, von denen K − 1 schwarz sind. P (.|C) beschreibt das Ziehen einer Kugel aus dieser Urne. Somit ist P (B|C) = (K − 1)/(N − 1). 3. Sind beide Ereignisse B und C eingetreten, enthält die Urne nur noch N − 2 Kugeln mit K −2 schwarzen. Dementsprechend ist P (A|B∩C) = (K −2)/(N −2). Insgesamt ergibt sich auf diese Weise P (A ∩ B ∩ C) = K(K − 1)(K − 2) N (N − 1)(N − 2) Bei Zufallsexperimenten, deren Struktur nicht ganz so einfach zu durchschauen ist wie dem obigen, können bei dieser Vorgehensweise aber leicht Fehlinterpretationen vorkommen wie bei dem folgenden Bertrandschen Paradoxon: Aus drei Kästen, von denen einer zwei goldene Münzen, einer zwei silberne Münzen und einer eine goldene und eine silberne Münze enthält, wird zufällig einer ausgewählt und eine Münze entnommen. Wie groß ist — unter der Bedingung, dass man dabei eine goldene Münze gezogen hat — die Wahrscheinlichkeit, dass die im ausgewählten Kasten verbliebene Münze ebenfalls aus Gold ist? 26 Seien A, B bzw. C die Ereignisse, dass man den Kasten mit zwei goldenen, einer silbernen und einer goldenen bzw. zwei silbernen Münzen auswählt, und G1 bzw. G2 die Ereignisse, dass die gezogene bzw. verbleibende Münze aus Gold ist. Dann ist die bedingte Wahrscheinlichkeit P (G2 |G1 ) zu berechnen. Auf den ersten Blick ist man geneigt, die bedingte Wahrscheinlichkeit P (.|G1 ) dahingehend zu interpretieren, dass man einen von den beiden Kästen A und B auswählt. Das Ereignis G2 entspricht dann der Auswahl des Kastens A und hat somit die Wahrscheinlichkeit P (G2 |G1 ) = 1/2. Eine überschlägige Berechnung der bedingten relativen Häufigkeit zeigt, dass diese Argumentation nicht korrekt sein kann. Nimmt man an, dass bei N Durchführungen dieses Experiments jeder der drei Kästen gleich oft gewählt wird und in der Hälfte der N/3 Fälle, in denen der Kasten B gewählt wurde, zuerst die goldene Münze gezogen wird, tritt in N/3 + N/6 Durchführungen das Ereignis G1 ein, wobei in N/3 Fällen (Auswahl von A) gleichzeitig auch G2 eintritt. Die bedingte relative Häufigkeit RN (G2 |G1 ) ist damit gleich 2/3. Bei der obigen Argumentation wurde offensichtlich nicht berücksichtigt, dass die Auswahl des Kastens B nicht automatisch das Ziehen der goldenen Münze nach sich zieht. Der korrekte Lösungsweg führt über einen passenden Wahrscheinlichkeitsraum: Betrachtet man als Ergebnisse die Paare ω = (f1 , f2 ), wo f1 die Farbe der gezogenen und f2 die Farbe der verbleibenden Münze ist, so erhält man den Ergebnisraum Ω = {(g, g), (g, s), (s, g), (s, s)} und die relevanten Ereignisse werden durch die Mengen A = {(g, g)} B = {(g, s), (s, g)} C = {(s, s)} und G1 = {(g, g), (g, s)} G2 = {(g, g), (s, g)} repräsentiert. Nach Aufgabenstellung haben die drei Ereignisse A, B und C die gleiche Wahrscheinlichkeit: P (A) = P (B) = P (C) = p. Wegen A + B + C = Ω muss nach unseren Rechenregeln für Wahrscheinlichkeiten p = 1/3 sein. Geht man weiter davon aus, dass aus dem Kasten B mit gleicher Wahrscheinlichkeit die goldene oder silberne Münze gezogen wird, ist P {(g, s)} = P {(s, g)} = 1/6. Damit erhält man P (G2 |G1 ) = P {(g, g)} 2 P (G1 ∩ G2 ) = = P (G1 ) P {(g, g)} + P {(g, s)} 3 Weitere Regeln: Aus P (A|B)P (B) = P (A ∩ B) = P (B ∩ A) = P (B|A)P (A) erhält man für den Fall, dass P (A) und P (B) beide positiv sind, die Beziehung P (B|A) = P (A|B)P (B) P (A) 27 (4.34) Partitionen. Sei J entweder die endliche Indexmenge {1, 2, . . . , n} mit einer natürlichen Zahl n oder die Menge aller natürlichen Zahlen. Definition 4.2 Eine Menge {Bj ; j ∈ J} von Ereignissen Bj ∈ A heißt eine Partition von Ω, wenn die Bj paarweise disjunkt sind und außerdem X Bj = Ω j∈J gilt. Ist A ∈ A ein beliebiges Ereignis und {Bj ; j ∈ J} eine Partition von Ω, so ist X X A ∩ Bj . Bj = A=A∩Ω=A∩ j∈J Anwendung von P liefert P (A) = X j∈J j∈J P (A ∩ Bj ) und zusammen mit (4.32) erhält man die Formel von der totalen Wahrscheinlichkeit X P (A) = P (A|Bj )P (Bj ). (4.35) j∈J 4.2 Die Formel von Bayes Die Kombination von (4.34) und (4.35) ergibt die Formel von Bayes: P (Bk |A) = P P (A|Bk )P (Bk ) . j∈J P (A|Bj )P (Bj ) (4.36) Die Bayes’sche Formel ist von Bedeutung im Rahmen der statistischen Entscheidungstheorie. Wir wollen dies anhand eines simplen Beispiels erläutern. Gegeben ist eine Übertragungsstrecke, die Sendebuchstaben a aus einem endlichen Sendealphabet A in Empfangsbuchstaben b aus einem Alphabet B umwandelt, wobei es sich bei dieser Umwandlung um ein Zufallsexperiment handelt. D.h. in Abhängigkeit A 3 a 7→ Kanal 7→ b ∈ B 7→ D 7→ a0 ∈ A Abbildung 3: Übertragungsstrecke von a werden die verschiedenen Buchstaben b mit unterschiedlichen, von a abhängigen Wahrscheinlichkeiten empfangen. 28 Gesucht ist ein Entscheidungsverfahren D : B −→ A, das jedem Empfangsbuchstaben b einen vermutlich gesendeten Buchstaben D(b) = a0 ∈ A so zuordnet, dass die Wahrscheinlichkeit von Entscheidungsfehlern minimiert wird. Als Ergebnisraum zur Beschreibung des Zufallsexperiments Sendevorgang“ wählen ” wir Ω = {(a, b) ; a ∈ A, b ∈ B}, wobei das Ergebnis (a, b) zu lesen ist als a wurde ” gesendet und b empfangen“. Die σ-Algebra A sei die Menge aller Teilmengen von Ω. Von besonderem Interesse in diesem Zusammenhang sind die Ereignisse a wurde gesendet“, dem die Menge ” Ga = {(a, b); b ∈ B} entspricht, und b wurde empfangen“, repräsentiert durch Eb = ” {(a, b); a ∈ A}. Hinsichtlich der Wahrscheinlichkeitsverteilung P nehmen wir an, dass uns die a priori Wahrscheinlichkeiten der Sendebuchstaben: pa = P (Ga ) für a ∈ A und die bedingten Übertragungswahrscheinlichkeiten pb|a = P (Eb |Ga ) für a ∈ A und b ∈ B bekannt sind. Ersteres bedeutet, dass man beispielsweise weiß, in welcher Sprache gesendet wird, und letzteres erhält man etwa durch Senden von Testsignalen und Bestimmung der relativen Häufigkeiten. Aus P {(a, b)} = P (Ga ∩ Eb ) = P (Eb |Ga )P (Ga ) = pb|a pa ersieht man, dass durch diese Angaben die Wahrscheinlichkeit P vollständig bestimmt ist. Die Bedeutung der Bayes’schen Formel ergibt sich aus dem folgenden Satz 4.1 Ein Entscheidungsverfahren D : B −→ A, welches die Wahrscheinlichkeit von Entscheidungsfehlern minimiert, ist durch die folgende Vorschrift gegeben: Für jedes b ∈ B ist als D(b) ein Sendebuchstabe zu wählen, welcher die Funktion a 7−→ P (Ga |Eb ) maximiert. Da das Maximum dieser Funktionen nicht unbedingt eindeutig bestimmt sein muss, gibt es evtl. mehrere optimale Entscheidungsverfahren. Die bedingten Wahrscheinlichkeiten P (Ga |Eb ) heißen a posteriori Wahrscheinlichkeiten der Sendebuchstaben. Gegenüber den a priori Wahrscheinlichkeiten enthalten sie zusätzliche Information, nämlich die Tatsache, dass das Ereignis b wurde empfan” gen“ eingetreten ist. Ihre Berechnung aus den a priori Wahrscheinlichkeiten und den Übertragungswahrscheinlichkeiten erfolgt über die Bayes’sche Formel. Beweis des Satzes 4.1. Das Ereignis Entscheidungsfehler“ bei Verwendung des Verfahrens D wird durch die ” Menge FD = {(a, b) ∈ Ω; D(b) 6= a} 29 beschrieben. Wegen P (FD ) = 1 − P (FD ) ist Minimierung der Wahrscheinlichkeit von Entscheidungsfehlern gleichbedeutend mit dem Maximieren der Wahrscheinlichkeit des Ereignisses korrekte Entscheidung“, gegeben durch die Menge ” RD = FD = {(a, b); D(b) = a} = {(D(b), b); b ∈ B}. Für die Wahrscheinlichkeit dieses Ereignisses gilt P {(D(b), b); b ∈ B} P P {(D(b), b)} P b∈B P (GD(b) ∩ Eb ) = P b∈B = b∈B P (GD(b) |Eb )P (Eb ) P (RD ) = = Um die letzte Summe in Abhängigkeit von D zu maximieren, kann man jeden Summanden für sich betrachten. Dies bedeutet, dass man — wie oben behauptet — für jedes b ∈ B den Wert D(b) aus dem Bereich der Sendebuchstaben a so wählen muss, dass P (Ga |Eb ) maximal wird. ♦ Zur zahlenmäßigen Veranschaulichung nehmen wir drei Jäger, die auf ein flüchtendes Wildschwein schießen. Jäger 1 schießt dabei dreimal und Jäger 2 doppelt so oft wie Jäger 3. Nach einiger Zeit ist das Wildschwein erlegt und es muss geklärt werden, wer der glückliche Schütze ist, bzw. für wen wir uns als solchen entscheiden, wenn wir außerdem aus Beobachtungen am Schießstand wissen, dass die Trefferwahrscheinlichkeiten der drei Jäger 0.3, 0.6 bzw. 0.8 sind. Als Zufallsexperiment wählen wir die zufällige Auswahl einer der Kugeln, die in Richtung Wildschwein abgefeuert werden. Wenn wir die Flugbahn dieser Kugel in beiden Richtungen verfolgen, kann man die folgenden Ereignisse unterscheiden: Bk : Die Kugel stammt von Jäger k(= 1, 2, 3) T : Die Kugel erlegt das Wildschwein Aus den unterschiedlichen Schusshäufigkeiten können wir die a priori-Wahrscheinlichkeiten P (Bk ) der Ereignisse Bk ableiten: P (B1 ) = 3p , P (B2 ) = 2p , P (B3 ) = p . Zusammen mit P (B1 ) + P (B2 ) + P (B3 ) = P (B1 + B2 + B3 ) = P (Ω) = 1 erhält man p = 1 6 und P (B1 ) = 1 , 2 P (B2 ) = 30 1 , 3 P (B3 ) = 1 . 6 Vom Schießstand kennen wir die bedingten Trefferwahrscheinlichkeiten P (T |Bk ) unter der Bedingung, dass Jäger k schießt: P (T |B1 ) = 0.3 , P (T |B2 ) = 0.6 , P (T |B3 ) = 0.8 Mit diesen Kenntnissen können wir nach der Formel von Bayes die bedingten Wahrscheinlichkeiten P (Bk |T ) dafür berechnen, dass die ausgewählte Kugel von Jäger k stammt unter der Bedingung, dass sie das Wildschwein erlegt hat: P (B1 |T ) = 9 , 29 P (B2 |T ) = 12 , 29 P (B3 |T ) = 8 29 Mangels genauer kriminaltechnischer Untersuchung müssen wir also davon ausgehen, dass Jäger 2 das Wildschwein getroffen hat. 31 5 Stochastische Unabhängigkeit 5.1 Stochastische Unabhängigkeit von zwei Ereignissen Gemäß den Überlegungen eingangs des vorigen Kapitels wird man bei der n-fachen Durchführung eines Zufallsexperiments ein Ereignis A als unabhängig von einem Ereignis B ansehen, wenn die bedingte relative Häufigkeit Rn (A|B) etwa gleich der relativen Häufigkeit Rn (A) bezüglich aller Durchführungen ist. Im theoretischen Modell entspricht dies der Gleichung P (A|B) = P (A). Um die Definition symmetrisch in A und B zu gestalten und um den Fall P (B) = 0 nicht gesondert behandeln zu müssen, setzt man diese Gleichung in Formel (4.32) ein und erhält so Definition 5.1 Zwei Ereignisse A, B in einem Wahrscheinlichkeitsraum (Ω, A, P ) mit der Eigenschaft P (A ∩ B) = P (A)P (B) heißen stochastisch unabhängig. Zusätzlich zur Additionsregel P (A + B) = P (A) + P (B) für disjunkte Ereignisse haben wir damit auch noch eine Produktregel. Aber Achtung! “Disjunkt” und “stochastisch unabhängig” sind komplementäre Begriffe. Zwei Ereignisse A und B können im allgemeinen nicht gleichzeitig disjunkt und stochastisch unabhängig sein, denn bei P (A) > 0 und P (B) > 0 folgt aus A ∩ B = ∅, daß P (A ∩ B) = 0 6= P (A)P (B) und damit stochastische Abhängigkeit. Die beiden Begriffe besitzen auch einen unterschiedlichen Stellenwert im Rahmen der Wahrscheinlichkeitsrechnung. Es ist stets entscheidbar, ob zwei Ereignisse disjunkt sind oder nicht und im ersteren Fall gilt stets die Additionsregel. Ob aber zwei Ereignisse stochastisch unabhängig sind oder nicht, hängt von der verwendeten Wahrscheinlichkeitsverteilung ab und damit vom Modellbauer, der entscheidet, ob in einem Zufallsexperiment einige Ereignisse als unabhängig anzusehen sind oder nicht. Lemma 5.1 A, B seien zwei Ereignisse. 1. Mit A, B sind auch die Paare A, B, A, B und A, B stochastisch unabhängig. 2. Ist P (A) = 0 oder P (A) = 1, so sind A und B für beliebige Ereignisse B stochastisch unabhängig. Beweis 1. Aus B = AB + AB und der Unabhängigkeit folgt P (B) = P (A)P (B) + P (AB) oder P (AB) = (1 − P (A)) P (B) = P (A)P (B). Die anderen beiden Aussagen erhält man in ähnlicher Weise. 2. Ist P (A) = 0, so ist wegen AB ⊂ A auch P (AB) = 0 und es gilt dann stets P (AB) = 0 = P (A)P (B). Ist P (A) = 1 so ist P (A) = 0, somit A und B unabhängig. Der Rest folgt aus Punkt 1. ♦ 32 5.2 Globale stochastische Unabhängigkeit Bei mehr als zwei Ereignissen A1 , A2 , . . . An reicht es nicht, die stochastische Unabhängigkeit aller Paare Ai , Aj zu fordern. Wie man an Gleichung (4.33) sieht, erhält man eine Produktregel für die drei Ereignisse A, B und C nur dann, wenn man darüber hinaus fordert, daß A auch noch von dem Verbundereignis B ∩ C stochastisch unabhängig ist. Für mehr als zwei Ereignisse benutzt man daher die folgende Definition: Definition 5.2 Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P ) heißen global stochastisch unabhängig, wenn für jeden der Indizes i = 1, 2, . . . , n gilt: Das Ereignis Ai ist stochastisch unabhängig von allen Verbundereignissen, die man aus den übrigen Ereignissen Aj mit j 6= i bilden kann. Zu dieser Definition gibt es zwei äquivalente Formulierungen, die hier nur vorgestellt aber nicht bewiesen werden, da die Beweise zwar leicht, aber nur mit ziemlichem Schreibaufwand nachvollzogen werden können. Satz 5.1 Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P )sind genau dann global stochastisch unabhängig, wenn für jede Teilmenge {i1 , i2 , . . . , im } ⊂ {1, 2, . . . , n} von Indizes gilt P (Ai1 ∩ Ai2 ∩ . . . ∩ Aim ) = P (Ai1 )P (Ai2 ) · · · P (Aim ) Satz 5.2 Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P )sind genau dann global stochastisch unabhängig, wenn für jede Auswahl von Ereignissen Bi aus den Teil-σ-Algebren Ai = {∅, Ai , Ai , Ω} von A gilt: P (B1 ∩ B2 ∩ . . . ∩ Bn ) = P (B1 )P (B2 ) · · · P (Bn ) 5.3 Produktexperimente Ein Produktexperiment soll ein Wahrscheinlichkeitsraum (Ω, A, P ) sein, der die stochastisch unabhängige Durchführung von einzelnen Zufallsexperimenten beschreibt, die durch Wahrscheinlichkeitsräume (Ω1 , A1 , P1 ), (Ω2 , A2 , P2 ), . . ., (Ωn , An , Pn ) repräsentiert werden. Aus dieser Formulierung ergeben sich die folgenden Anforderungen an die Größen Ω, A und P : Ergebnismenge: Die Ergebnisse ω ∈ Ω sind einfach Auflistungen der Ergebnisse der Einzelexperimente. Ω = {ω = (ω1 , ω2 , . . . , ωn ) ; ωi ∈ Ωi } Eine Menge Ω mit dieser Struktur bezeichnet man auch als das cartesische Produkt der Mengen Ωi und schreibt dafür Ω = Ω1 × Ω2 × · · · × Ωn Ereignisse: In der Ereignisalgebra sollen auf jeden Fall die Ereignisse der Form Beim ” k-ten Experiment tritt Ak ∈ Ak ein.“ enthalten sein. Diese werden in Ω durch die Mengen Z(Ak ) = {ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω ; ωk ∈ Ak } (5.37) 33 repräsentiert. Als σ-Algebra A wählt man daher die kleinste σ-Algebra auf Ω, die alle diese Mengen enthält. Sie heißt die Produkt-σ-Algebra der Ak und wird mit A = A1 ⊗ A2 ⊗ · · · ⊗ An bezeichnet. Insbesondere enthält sie die Ereignisse Z(A1 ) ∩ Z(A2 ) ∩ . . . ∩ Z(An ) = A1 × A2 × · · · × An (5.38) d.h. die cartesischen Produkte von Ereignissen aus den Einzelexperimenten. Wahrscheinlichkeit: Die Wahrscheinlichkeitsverteilung P eines Produktexperiments muss zwei Bedingungen erfüllen: 1. Die Wahrscheinlichkeitsgesetze der Einzelexperimente müssen erhalten bleiben, d.h. P (Z(Ak )) = Pk (Ak ) (5.39) für alle Ereignisse Ak ∈ Ak und alle k. 2. Für beliebige Ak ∈ Ak müssen die Mengen Z(A1 ), Z(A2 ), . . . Z(An ) global stochastisch unabhängig sein. Insbesondere muß also gelten P (Z(A1 ) ∩ Z(A2 ) ∩ . . . ∩ Z(An )) = P (Z(A1 )) P (Z(A2 )) · · · P (Z(An )) (5.40) Die Formeln (5.39) und (5.40) kann man zu P (A1 × A2 × · · · × An ) = P1 (A1 )P2 (A2 ) · · · Pn (An ) (5.41) zusammenfassen. Was die Existenz einer solchen Wahrscheinlichkeitsverteilung betrifft, so zitieren wir — wieder ohne Beweis — den Satz 5.3 Es gibt genau eine Wahrscheinlichkeitsverteilung P auf A mit den beiden obigen Eigenschaften. Diese heißt die Produktwahrscheinlichkeit der Pk und wird mit P = P1 ⊗ P2 ⊗ · · · ⊗ Pn bezeichnet. Der Wahrscheinlichkeitsraum (Ω, A, P ) selbst heißt der Produktraum der (Ωk , Ak , Pk ). Handelt es sich bei dem Produktexperiment um die n-fache Wiederholung ein und desselben Zufallsexperiments, d.h. ist (Ωi , Ai , Pi ) = (Ω0 , A0 , P0 ) für alle i = 1, . . . , n, so spricht man von einer Versuchsreihe der Länge n mit dem Experiment (Ω0 , A0 , P0 ). Ist schließlich (Ω0 , A0 , P0 ) ein Bernoulli-Experiment, d.h. Ω0 = {0, 1}, P0 {1} = p, P0 {0} = q = 1 − p, so nennt man die Versuchsreihe eine Bernoulli-Versuchsreihe der Länge n mit Erfolgswahrscheinlichkeit p. 34 In diesem Fall ist Ω = {δ = (δ1 , δ2 , . . . , δn ) ; δi ∈ {0, 1}} die Menge der Binärvektoren der Länge n und wegen {(δ1 , δ2 , . . . , δn )} = {δ1 } × {δ2 } × · · · × {δn } ist die Produktwahrscheinlichkeit eines Elementarereignisses gegeben durch P {(δ1 , δ2 , . . . , δn )} = P0 {δ1 }P0 {δ2 } · · · P0 {δn } = pδ1 + δ2 + · · · δn q n − (δ1 + δ2 + · · · δn ) Bezeichnet man die Summe der Komponenten eines Binärvektors δ mit |δ|, so lässt sich die letzte Formel kurz als P {δ} = p|δ| q n−|δ| (5.42) schreiben. Die Summe der Erfolge. Mit dem Konzept einer Bernoulli-Versuchsreihe kann man auch z.B. die Frage beantworten, mit welcher Wahrscheinlichkeit bei einem etwas geneigten Galton-Brett die Kugel in Fächern k = 0, 1, 2, . . . , n landet. Wir fassen dieses Galton-Brett als eine Bernoulli-Versuchsreihe mit Erfolgswahrscheinlichkeit p auf, wobei eine 1 einem Sprung nach rechts entspricht. Das Ereignis Ak , daß die Kugel in Fach k landet, entspricht allen Wegen, die k-mal nach rechts führen bzw. der Menge aller Binärvektoren, die genau k Einsen enthalten: Ak = {δ ; |δ| = k}. Bei allgemeinen Bernoulli-Versuchsreihen nennt man die Anzahl der Einsen die Summe der Erfolge und Ak ist das PEreignis, dass man k Erfolge erzielt. Wegen Ak = δ∈Ak {δ} ist P P p|δ| q n−|δ| P {δ} = P (Ak ) = Pδ∈Ak k n−k δ,|δ|=k n k n−k = Ck p q = δ,|δ|=k p q wobei Ckn die Anzahl der Elemente der Menge {δ ; |δ| = k} ist, die uns bereits aus dem Kapitel über Laplace-Experimente (Seite 19) bekannt ist: n k n−k P (Ak ) = p q (5.43) k 35 6 Diskrete Wahrscheinlichkeitsräume In diesem und dem folgenden Kapitel befassen wir uns mit der Frage, wie man Wahrscheinlichkeitsverteilungen formelmäßig beschreiben kann, bzw. welche minimale Menge an Information man über eine Wahrscheinlichkeitsverteilung besitzen muss, um wenigstens im Prinzip die Wahrscheinlichkeit jedes beliebigen Ereignisses berechnen zu können. Dieses Kapitel befasst sich dabei mit endlichen oder abzählbar unendlichen Ergebnismengen, ab Kapitel 9 werden wir uns mit der Ergebnismenge Ω = Rn beschäftigen. 6.1 Diskrete Wahrscheinlichkeitsräume Ist die Ergebnismenge Ω abzählbar, dann auch jede Teilmenge A von Ω. Nummeriert man die Elemente von A in irgendeiner Weise durch, so erhält man die Darstellung A = {ω1 , ω2 , . . . , ωn , . . .} = P {ω1 } + {ω2 } + · · · + {ωn } + · · · = k {ωk } Da es bei der Vereinigungsbildung nicht auf die Reihenfolge ankommt, in der die Mengen {ωk } zusammengefasst werden, benutzen wir die Elemente ω als Summationsindex und schreiben X {ω} (6.44) A= ω∈A Sind alle einelementigen Mengen {ω} Elemente der σ-Algebra A, so folgt aus (6.44) einmal, dass jede Teilmenge von Ω aus A oder A = 2Ω ist und zum anderen kann man die Wahrscheinlichkeit des Ereignisses A nach der Formel X X P {ω} (6.45) P {ωk } = P (A) = ω∈A k berechnen. Da die Summanden alle nichtnegativ sind, kommt es auch hier nicht auf die Summationsreihenfolge an. Wie man aus (6.45) ersieht, genügt die Kenntnis der Wahrscheinlichkeiten f (ω) = P {ω} der Elementarereignisse, um die Wahrscheinlichkeit jedes beliebigen Ereignisses berechnen zu können. Definition 6.1 Ein Wahrscheinlichkeitsraum (Ω, A, P ) mit einer abzählbaren Ergebnismenge Ω und der Ereignisalgebra A = 2Ω heißt ein diskreter Wahrscheinlichkeitsraum. Die Wahrscheinlichkeitsverteilung P heißt in diesem Fall eine diskrete Wahrscheinlichkeitsverteilung und die Funktion f : Ω −→ R mit f (ω) = P {ω} heißt die Wahrscheinlichkeitsfunktion von P . P Mit P {ω} ≥ 0 und P (Ω) = ω∈Ω P {ω} = 1 hat man bereits die beiden Eigenschaften, die eine Wahrscheinlichkeitsfunktion vollständig charakterisieren: 36 Satz 6.1 Jede Funktion f : Ω −→ R P auf einer abzählbaren Menge Ω mit den Eigenschaften f (ω) ≥ 0 für alle ω ∈ Ω und ω∈Ω f (ω) = 1 legt durch P (A) = X f (ω) ω∈A eine eindeutig bestimmte diskrete Wahrscheinlichkeitsverteilung P auf 2Ω fest. P Dabei wird ω∈∅ f (ω) = 0 definiert. Zum Beweis dieser Aussage sind lediglich die vier Axiome nachzuvollziehen. 6.2 Spezielle diskrete Wahrscheinlichkeitsverteilungen Mit dem Satz 6.1 ist aus theoretischer Sicht das Problem der Charakterisierung diskreter Wahrscheinlichkeitsverteilungen vollständig gelöst. Aus praktischer Sicht ergibt sich die Frage, wie man aus Beschreibungen von Zufallsexperimenten zu Formeln für die entsprechenden Wahrscheinlichkeitsfunktionen kommt. Wir betrachten in diesem Abschnitt einige stochastische Standardprobleme“ und ” führen vor, wie man aus bestimmten Eigenschaften des Zufallsmechanismus’ Wahrscheinlichkeitsfunktionen herleiten kann. Die ersten drei der folgenden Typen von Zufallsexperimenten wurden in den vorhergehenden Abschnitten bereits ausführlich behandelt. Wir stellen sie der Vollständigkeit halber hier noch einmal kurz dar. 6.2.1 Die Laplace-Verteilung Ein Zufallsexperiment mit einer endlichen Ergebnismenge Ω, das dadurch charakterisiert ist, dass alle Ergebnisse die gleiche Chance des Auftretens besitzen, wird durch die Wahrscheinlichkeitsfunktion f (ω) = 1 |Ω| (6.46) beschrieben. Die zugehörige Wahrscheinlichkeitsverteilung heißt die Laplace-Verteilung auf der Menge Ω und wird im folgenden kurz als L(Ω)-Verteilung bezeichnet. 6.2.2 Die hypergeometrische Verteilung Für natürliche Zahlen 1 ≤ K < N und 1 ≤ n ≤ N ist K N −K f (k) = k n−k N n (6.47) eine Wahrscheinlichkeitsfunktion auf der Ergebnismenge Ω = {0, 1, . . . , n}. Dies ergibt sich aus der Tatsache, dass die Ereignisse Bk : k von n gezogenen Kugeln sind schwarz“ ” 37 (s. Seite 23) beim Ziehen ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge aus einer Urne mit K schwarzen und N − K weißen Kugeln eine Partition bilden: und daher n X bN B0 + B1 + . . . + Bn = Ω n n X f (k) = k=0 k=0 bN P (Bk ) = P Ω n =1 Die Wahrscheinlichkeitsverteilung mit dieser Wahrscheinlichkeitsfunktion heißt die hypergeometrische Verteilung mit Parametern N, K und n oder kurz H(N, K, n)Verteilung. Sie beschreibt das Experiment des Ziehens von Kugeln, wobei die Ergebnismenge aus den möglichen Anzahlen von gezogenen schwarzen Kugeln besteht. 6.2.3 Die Binomialverteilung Sind p und q reelle Zahlen mit 0 < p < 1 und q = 1 − p, so ist n k n−k f (k) = p q k (6.48) eine Wahrscheinlichkeitsfunktion auf Ω = {0, 1, . . . , n}, denn nach der Binomialformel ist n n X X n k n−k p q = (p + q)n = 1n = 1 f (k) = k k=0 k=0 Die zugehörige Verteilung heißt die Binomialverteilung mit Parametern n und p oder kurz B(n, p)-Verteilung. Wie im Abschnitt 5.3 geschildert, stellt sie das Wahrscheinlichkeitsgesetz für die Summe der Erfolge bei einer Bernoulli-Versuchsreihe dar. 6.2.4 Die geometrische Verteilung Die Funktion f (n) = p q n−1 (6.49) mit 0 < p < 1 und q = 1 − p ist eine Wahrscheinlichkeitsfunktion auf der Menge Ω = N = {1, 2, . . .} der natürlichen Zahlen, denn ∞ X n=1 p q n−1 = p ∞ X m=0 qm = p · p 1 = =1 1−q p P∞ Da diese Funktion mit der geometrischen Reihe m=0 q m zusammenhängt, heißt die zugehörige Verteilung die geometrische Verteilung mit Parameter p oder bei uns kurz die G(p)-Verteilung. Die geometrische Verteilung findet Anwendung bei der Analyse von Wartezeiten bis zum Eintreffen eines bestimmten Ereignisses bzw. von Lebensdauern von Geräten (d.h. der Wartezeit bis zum Ausfall). 38 Unter welchen Voraussetzungen diese Verteilung als Lebensdauerverteilung benutzt werden kann, lässt sich am einfachsten an einem gänzlich anderen Problem explizieren, nämlich der Anzahl der Würfe mit einem regulären Würfel bis zum ersten Auftreten einer 6. Auch wenn man es etwa beim Mensch ärgere dich nicht“-Spiel manchmal gern anders ” hätte, muss man davon ausgehen, dass ein Würfel kein Gedächtnis hat. Auch nach m ergebnislosen Würfen ändert sich am Wahrscheinlichkeitsgesetz für die nächsten Würfe nichts. D.h. die Wahrscheinlichkeit, dass man mehr als n Würfe bis zur 6 benötigt, ist die gleiche, ob man bereits m ergebnislose Würfe hinter sich hat oder gerade mit dem Würfeln beginnt. Die Ereignisse An : mehr als n Würfe werden benötigt“ ” werden in der Ergebnismenge Ω = {1, 2, . . .} durch die Mengen An = {n + 1, n + 2, . . .} mit n = 0, 1, 2, . . . repräsentiert und die Eigenschaft der Gedächtnislosigkeit des Würfels kann man durch die Formel P (Am+n |Am ) = P (An ) für alle m, n = 0, 1, 2, . . . ausdrücken. Nach Definition der bedingten Wahrscheinlichkeit ist diese Gleichung äquivalent zu P (Am+n ∩ An ) = P (Am )P (An ). Da aber Am+n ⊂ An , ist Am+n ∩ An = Am+n , und man erhält P (Am+n ) = P (Am )P (An ). Mit qm := P (Am ) und q := q1 erhält man aus diesen Gleichungen q2 = q1+1 = q1 q1 = q 2 q3 .. . = q2+1 = q2 q1 = q 3 qm .. . = q(m−1)+1 = qm−1 q1 = q m Wegen Am−1 = {m} + Am ist P (Am−1 ) = P {m} + P (Am ) und man erhält als Wahrscheinlichkeitsfunktion für die Verteilung P f (m) = P {m} = q m−1 − q m = (1 − q)q m−1 also die der geometrischen Verteilung mit p = 1 − q. 39 Bei Geräten lässt sich die Eigenschaft der Gedächtnislosigkeit dahingehend interpretieren, dass sie von ihrer Bauart her über einen langen Zeitraum keinen Verschleißerscheinungen unterworfen sind (Ermüdungsfreiheit) und Ausfälle bei einzelnen Geräten einer Baureihe dadurch zustande kommen, dass sie zufällige Produktions- oder Materialfehler enthalten, die sich nach nicht vorhersehbarer Zeit auswirken. Der für den Parameter p zu verwendende numerische Wert ergibt sich aus der Beziehung p = f (1) : p ist die Wahrscheinlichkeit, dass das beobachtete Ereignis gleich beim ersten Versuch eintritt; beim Werfen eines Würfels also gleich beim ersten Wurf die Augenzahl 6 erscheint. Bei einem regulären Würfel ist daher p = 16 . 6.2.5 Die Poisson-Verteilung Die Funktion µn (6.50) n! auf Ω = N0 = {0, 1, 2, . . .} mit einer positiven reellen Zahl µ ist eine Wahrscheinlichkeitsfunktion, da ∞ X µn = eµ n! n=0 P∞ die Taylorreihe der Exponentialfunktion und damit n=0 f (n) = e−µ eµ = 1 ist. Die zugehörige Verteilung heißt die Poisson-Verteilung mit Parameter µ oder kurz die P(µ)-Verteilung. Sie findet dann Anwendung, wenn die Häufigkeit des Eintretens eines Ereignisses gezählt wird, das zu zufälligen Zeitpunkten eintritt. Beispiele für solche Situationen sind etwa das Eintreffen von Telefonanrufen bei einer Vermittlungsstelle, das Auftreffen von radioaktiven Partikeln auf einem Geigerzähler oder die Ankunft eines Kunden an einem Bedienungsschalter. Als allgemeines Modell denken wir uns ein Zählgerät, das zum Zeitpunkt t = 0 auf Null steht und zu zufälligen Zeitpunkten angestoßen wird, wobei der Zähler jeweils um 1 erhöht wird. Besteht das Experiment in der Beobachtung des Zählerstandsverlaufs über das Zeitintervall [ 0, ∞ ), so besteht die Ergebnismenge Ω aus allen möglichen Verläufen, d.h. aus allen Zeitfunktionen ω : [ 0, ∞ ) −→ N0 mit ω(0) = 0, die stückweise konstant sind und an Sprungstellen jeweils um 1 nach oben springen. f (n) = e−µ 6 ... ω(t) -t 40 Zur Festlegung einer Ereignisalgebra A betrachten wir die Funktionen Nt : Ω −→ N0 , Nt (ω) = ω(t) die für jeden Verlauf ω den Zählerstand zum Zeitpunkt t angeben und die Mengen (Nt = k) = {ω ∈ Ω ; Nt (ω) = k} mit k = 0, 1, 2, . . . , die das Ereignis beschreiben, dass zum Zeitpunkt t der Zählerstand gerade k beträgt. Da zu Beginn der Beobachtung der Zählerstand Null sein soll, ist N0 (ω) = 0 für alle ω, woraus folgt, dass (N0 = 0) = Ω und (N0 = k) = ∅ für alle k ≥ 1 . Neben den absoluten Zählerständen Nt benötigen wir zum Rechnen auch noch die Zählerstandsdifferenzen N(s,t] = Nt − Ns für 0 ≤ s ≤ t, wobei wegen N0 = 0 N(0,t] = Nt Die Ereignisalgebra legen wir nicht in allen Einzelheiten fest, sondern nehmen lediglich an, dass alle Mengen der Form (Nt = k) und (N(s,t] = k) in ihr enthalten sind. Außerdem gehen wir davon aus, dass wir auf A eine Wahrscheinlichkeit P vorgegeben haben, die sich durch die drei folgenden Eigenschaften auszeichnet: • Stationariät P (N(s,s+t] = k) = P (N(0,0+t] = k) = P (Nt = k) = pk (t) für alle s ≥ 0, t ≥ 0 und alle k ∈ N0 . • Nachwirkungsfreiheit Für alle s ≥ 0, t ≥ 0 und alle k, n ∈ N0 sind die Ereignisse (N(0,s] = k) und (N(s,s+t] = n) stochastisch unabhängig. • Ordinarität Für alle s ≥ 0 ist P (N(s,s+t] > 1) = o(t) Mit dem Symbol o(t) kennzeichnet man eine Funktion der Variable t, die schneller ” als t gegen Null konvergiert“, d.h. lim t→0, t>0 o(t) =0 t Die Eigenschaft der Ordinarität besagt daher in einer etwas umständlichen Form, dass die Wahrscheinlichkeit für das mehrfache Springen des Zählers zu einem Zeitpunkt gleich Null ist. 41 Was kann man unter diesen Annahmen über die Wahrscheinlichkeiten pk (t) = P (Nt = k) für die Zählerstände zum Zeitpunkt t bzw. die Anzahl der Sprünge im Zeitintervall [ 0, t ] aussagen? 1. Im Intervall [ 0, s+t ] mit s, t ≥ 0 erfolgt genau dann kein Zählersprung, wenn in den beiden Teilintervallen ( 0, s ] und ( s, s + t ] keiner stattfindet. Aus den Eigenschaften der Stationarität und der Nachwirkungsfreiheit ergibt sich daher P (Ns+t = 0) = P [(N(0,s] = 0) ∩ (N(s,s+t] = 0)] = P (N(0,s] = 0) · P (N(s,s+t] = 0) = P (Ns = 0) P (Nt = 0) oder p0 (s + t) = p0 (s) · p0 (t) Bekanntlich ist eine Funktion p0 (t) mit dieser Eigenschaft von der Form p0 (t) = xt , wobei wegen 0 < p0 (t) < 1 auch 0 < x < 1 oder xt = e−µt mit einer positiven reellen Zahl µ gilt. Also: p0 (t) = e−µt Diese Funktion besitzt die Taylorreihe p0 (t) = 1 − µt + (µt)3 (µt)2 − ± ... 2! 3! wobei der Term in runden Klammern vom Typ o(t) ist. Wenn man sich nur für das Verhalten von p0 (t) für t → 0 interessiert, kann man auch p0 (t) = 1 − µt + o(t) schreiben. 2. Aus (Nt = 0) + (Nt = 1) + (Nt > 1) = Ω folgt p1 (t) = 1 − p0 (t) − P (Nt > 1) und mit der Eigenschaft der Ordinarität ergibt sich p1 (t) = 1 − 1 − µt + o(t) − o(t) und unter Zusammenfassung aller Terme vom Typ o(t) zu einem: p1 (t) = µt + o(t) 42 3. Für k ≥ 1 zerlegen wir das Ereignis (Ns+t = k) nach den möglichen Kombinationen für Zählersprünge in den Teilintervallen ( 0, s ] und ( s, s + t ]. (Ns+t = k) = = (N(0,s] = k) ∩ (N(s,s+t] = 0) + (N(0,s] = k − 1) ∩ (N(s,s+t] = 1) + (N(0,s] = k − 2) ∩ (N(s,s+t] = 2) .. . + (N(0,s] = 0) ∩ (N(s,s+t] = k) (N(0,s] = k) ∩ (N(s,s+t] = 0) + (N(0,s] = k − 1) ∩ (N(s,s+t] = 1) + Bs,t Die Menge Bs,t ist eine Teilmenge von (N(s,s+t] > 1), weshalb für die Wahrscheinlichkeiten P (Bs,t ) ≤ P (N(s,s+t] > 1) und wegen der Eigenschaft der Ordinarität P (Bs,t ) = o(t) gilt. Wie unter Punkt 1 ergibt sich daraus pk (s + t) = pk (s) p0 (t) + pk−1 (s) p1 (t) + o(t) = pk (s) 1 − µt + o(t) + pk−1 (s) µt + o(t) + o(t) und unter Zusammenfassung aller o(t)-Terme pk (s + t) − pk (s) = µt pk−1 (s) − pk (s) + o(t) Division beider Seiten durch t ergibt o(t) pk (s + t) − pk (s) = µ pk−1 (s) − pk (s) + t t Für t → 0 existiert der Limes auf der rechten Seite und damit der des Differenzenquotienten auf der Linken, so dass man mit t → 0 die Differentialgleichung p0k (s) = µpk−1 (s) − µpk (s) erhält. Die Anfangsbedingungen für die Funktionen pk (s) sind dabei durch pk (0) = P (N0 = k) = P (∅) = 0 für k = 1, 2, 3, . . . gegeben. 4. Mit dem Ansatz pk (s) = e−µs qk (s) wird (6.51) zu −µe−µs qk (s) + e−µs qk0 (s) = µe−µs qk−1 (s) − µe−µs qk (s) 43 (6.51) was sich mit Division durch e−µs und Streichen der gleichen Terme auf beiden Seiten der Gleichung zu qk0 (s) = µ qk−1 (s) für k = 1, 2, 3, . . . vereinfacht. Zusammen mit q0 (s) = 1 und qk (0) = 0 für alle k ≥ 1 ergibt sich die Lösung (µs)k qk (s) = k! oder (µt)k pk (t) = e−µt k! Die Wahrscheinlichkeiten pk (t) = P (Nt = k) für die Anzahl der Zählersprünge im Zeitintervall [ 0, t ] sind also durch die Poisson-Verteilung mit dem Parameter µt gegeben. 44 7 Die Momente diskreter Verteilungen Wie aus der Darstellung der wichtigsten diskreten Wahrscheinlichkeitsverteilungen im vorhergehenden Kapitel ersichtlich ist, besteht die Ergebnismenge in den meisten Fällen aus einer abzählbaren Menge von Zahlen, weshalb es für diese Situation auch eine Kurzbezeichnung gibt. Man spricht kurz von einer diskreten Verteilung, wenn es sich um eine diskrete Wahrscheinlichkeitsverteilung handelt, deren Ergebnismenge eine Teilmenge X ⊂ R der rellen Zahlen ist. Für diskrete Verteilungen gibt es einige Kenngrößen, die die Gestalt der Verteilung grob charakterisieren. Es sind dies der Mittelwert und die Varianz sowie die absoluten und zentralen Momente. 7.1 Der Mittelwert einer diskreten Verteilung Wenn man vor die Aufgabe gestellt wird, vor dem Ablauf eines Zufallsexperiments eine Prognose über den Ausgang abzugeben, so kann man das als das mathematische Approximationsproblem ansehen, einen Wahrscheinlichkeitsraum (X , 2X , P ) durch einen Wahrscheinlichkeitsraum der Form ({x̂}, {∅, {x̂}}, P̂ ) anzunähern, bei dem das einzige Ergebnis x̂ die Wahrscheinlichkeit P̂ {x̂} = 1 hat. Für den Fall, dass X = {x1 , x2 , . . .} eine abzählbare Menge von reellen Zahlen ist, gibt zu diesem Problem ein physikalisches Analogon. Wir fassen X als einen starren Körper auf, der aus einem unendlich langen masselosen Stab besteht, auf dem an den Koordinaten xk Massenpunkte mit den Massen P {xk } sitzen. Die Gesamtmasse ist P P {x } = P (X ) = 1. Ein solcher Körper wird bekanntlich näherungsweise durch k k einen Massenpunkt mit der Masse 1 im Schwerpunkt des Körpers ersetzt. Die Definition des Schwerpunkts ist P xk P {xk } X = x= k xk P {xk } P (X ) k Da wir es im allgemeinen mit abzählbar vielen xk zu tun haben, muss sicher gestellt sein, dass diese Summe auch unbedingt konvergiert. Daher ergibt sich für den Prognosewert einer diskreten Verteilung die Definition 7.1 P sei eine diskrete Verteilung auf einer abzählbaren PTeilmenge X ⊂ R der reellen Zahlen mit der Wahrscheinlichkeitsfunktion f (x). Falls x∈X |x|f (x) < ∞, heißt X xf (x) (7.52) m1 = m1 (P ) = x∈X der Mittelwert der Verteilung P . Falls die Summe nicht absolut konvergiert und damit der Wert eventuell von der Summationsreihenfolge abhängig ist, sagt man, dass die Verteilung P keinen Mittelwert besitzt. 45 7.1.1 Statistische Interpretation des Mittelwerts Aus dem empirischen Gesetz der großen Zahlen ergibt sich die Interpretation des Mittelwerts als Richtwert für das arithmetische Mittel aller Ergebnisse bei der Durchführung einer längeren Versuchsreihe. Wird ein Zufallsexperiment mit der Ergebnismenge X insgesamt N -mal durchgeführt und sind y1 , y2 , . . . , yN die dabei zustande gekommenen Ergebnisse, so lässt sich die Summe dieser Ergebnisse in der Form N X X yi = i=1 x∈X nx · x schreiben, wobei nx die Anzahl der yi mit yi = x ist. Das arithmetische Mittel dieser Messwerte ist daher y= N X nx X 1 X yi = x= RN {x}x N i=1 N x∈X x∈X denn nx /N ist die relative Häufigkeit des Auftretens des Elementarereignisses {x}. Ersetzt man in dieser Formel die relative Häufigkeit gemäß dem empirischen Gesetz der großen Zahlen durch die Wahrscheinlichkeit P {x} = f (x), so ist man bei der Definition des Mittelwerts angelangt. 7.1.2 Beispiele 1. Der Mittelwert der Poissonverteilung m1 = ∞ X ne−µ n=0 = µe−µ ∞ X µn µn ne−µ = n! n! n=1 ∞ ∞ X 1 X µm 1 µn−1 =µ µ = µ µ eµ = µ (n − 1)! e m! e n=1 m=0 2. Der Mittelwert der geometrischen Verteilung. m1 = ∞ X n=1 npq n−1 = p ∞ ∞ X X d n d n q =p q dq dq n=0 n=1 ∞ d X n 1 1 1 d 1 = p =p =p 2 = q =p dq n=0 dq 1 − q (1 − q)2 p p 7.2 Die absoluten Momente einer diskreten Verteilung In Verallgemeinerung der Formel für den Mittelwert legen wir fest: 46 Definition 7.2 Ist für k ∈ {1, 2, 3, . . .} die Summe mk = mk (P ) = X P x∈X |x|k f (x) < ∞, so heißt xk f (x) (7.53) x∈X das k-te (absolute) Moment der Verteilung P Andernfalls sagt man, dass die Verteilung P kein k-tes Moment besitzt. 7.2.1 Die momenterzeugende Funktion Falls die Ergebnismenge X ganz im Bereich der nichtnegativen reellen Zahlen liegt, ist für negative Argumente t < 0 die Summe X M (t) = etx f (x) (7.54) x∈X konvergent. Die Funktion M (t) heißt die momenterzeugende Funktion der Verteilung P . Es ist stets M (0) = 1 und für t < 0 ist diese Funktion beliebig oft differenzierbar, wobei die Ableitungen summandenweise gebildet werden dürfen: M 0 (t) = X ∂ X d M (t) = etx f (x) = xetx f (x) dt ∂t x∈X M 00 (t) = x∈X . . M (k) (t) x∈X X ∂ X d d2 M (t) = M 0 (t) = xetx f (x) = x2 etx f (x) 2 dt dt ∂t = x∈X X ∂k X dk M (t) = etx f (x) = xk etx f (x) k k dt ∂t x∈X x∈X Außerdem darf der Limes für t → 0 mit der Summe vertauscht werden. Daher ist X X xk f (x) = mk (P ) lim xk etx f (x) = M (k) (0) := lim M (k) (t) = t→0 x∈X t→0 x∈X Falls das k-te Moment nicht existiert, erhält man — da alle Summanden nichtnegativ sind — für M (k) (0) den Wert ∞. Beispiele: Mit etn = (et )n für natürliche Zahlen n erhält man als momenterzeugende Funktion der Poissonverteilung M (t) = ∞ X n=0 (et )n e−µ ∞ X t t µn (et µ)n = e−µ = e−µ ee µ = eµ(e −1) n! n! n=0 mit den Ableitungen M 0 (t) = M (t)µet und — mit der Produktregel für die Differentiation — M 00 (t) = M 0 (t)µet + M (t)µet , woraus m1 = µ und m2 = µ2 + µ folgt. 47 Die geometrische Verteilung besitzt die momenterzeugende Funktion M (t) = ∞ X (et )n pq n−1 = pet ∞ X (qet )n−1 = pet (qet )m = m=0 n=1 n=1 ∞ X pet 1 − qet Daraus ergeben sich die Momente m1 = 1/p und m2 = (1 + q)/p2 . 7.3 Die Varianz einer diskreten Verteilung Als Maß für den Schätzfehler bei der Prognose kann man die mittlere quadratische Abweichung der Ergebnisse vom Mittelwert oder — in der physikalischen Analogie — das Trägheitsmoment der Wahrscheinlichkeitsmasse bezüglich einer Achse durch den Schwerpunkt heranziehen. Definition 7.3 Ist P eine diskrete Verteilung mit der Wahrscheinlichkeitsfunktion f und dem Mittelwert m1 (P ), so heißt die Größe X m̂2 = m̂2 (P ) = (x − m1 (P ))2 f (x) (7.55) x∈X die Varianz der Verteilung P . Divergiert die Summe (7.55), so spricht man von einer unendlichen Varianz. Bei endlichen Varianzen kann man (7.55) etwas umformen: m̂2 = X x∈X = X x∈X (x2 − 2m1 x + m21 )f (x) x2 f (x) − 2m1 = m2 − 2m1 m1 + = m2 − m21 X xf (x) + m21 x∈X m21 X f (x) x∈X Die Formel m̂2 = m2 − m21 (7.56) nennen wir wie in der Physik den Steinerschen Satz. Aus ihm ergibt sich die Varianz der Poissonverteilung zu m̂2 = (µ2 + µ) − (µ)2 = µ und die Varianz der geometrischen Verteilung zu 2 1+q 1 q m̂2 = − = 2 2 p p p Aus der Interpretation der Varianz als Maß dafür, wie sehr die Wahrscheinlich” keitsmasse“ um den Schwerpunkt verstreut ist, muss folgen, dass die Wahrscheinlichkeit der Menge Bε = {x ∈ X ; |x − m1 (P )| > ε} (7.57) mit einer positiven Zahl ε > 0 umso kleiner ist, je kleiner die Varianz m̂2 (P ) ist. Dies bestätigt die Ungleichung von Tschebyscheff : 48 Satz 7.1 P (Bε ) ≤ m̂2 (P ) ε2 (7.58) Beweis 1. Da alle Summanden in (7.55) nichtnegativ sind, wird die Summe kleiner, wenn einige der Summanden weggelassen werden: X (x − m1 (P ))2 f (x) m̂2 (P ) ≥ x∈Bε 2. Nach Definition (7.57) gilt für x ∈ Bε , dass (x − m1 (P ))2 > ε2 und somit X m̂2 (P ) ≥ ε2 f (x) = ε2 P (Bε ) x∈Bε Die Ungleichung (7.58) erhält man daraus durch Division beider Seiten mit ε2 . ♦ 7.4 Die zentralen Momente einer diskreten Verteilung In Verallgemeinerung der Formel (7.55) für die Varianz nennen wir für k = 2, 3, . . . die Größen X m̂k (P ) = (x − m1 (P ))k f (x) (7.59) x∈X soweit sie existieren, die k-ten zentralen Momente der Verteilung P . 49 8 Zufallsvariable mit diskreter Verteilung Der Begriff der Zufallsvariablen ist neben den Begriffen Wahrscheinlichkeit und Ereignis der am häufigsten verwendete in der Wahrscheinlichkeitsrechnung. Wir führen das Konzept der Zufallsvariablen in mehreren Schritten ein, zunächst einmal im Zusammenhang mit diskreten Verteilungen. Eine Zufallsvariable kann man sich als ein Messgerät veranschaulichen, das an ein Zufallsexperiment angeschlossen ist und eine vom Ergebnis des Experiments abhängige Zahl anzeigt. Als Beispiel hatten wir bereits die Anzahl Nt der Anrufe bei einer Telefonvermittlungsstelle im Zeitintervall [0, t] oder die Anzahl der schwarzen Kugeln beim zufälligen Ziehen von Kugeln aus einer Urne. Verallgemeinert hat man es daher mit einer Funktion X : Ω −→ X auf der Ergebnismenge eines Wahrscheinlichkeitsraums (Ω, A, P ) mit Werten in einer Menge X zu tun. Wir betrachten hier zunächst den Fall, dass X eine abzählbare Menge von reellen Zahlen ist. In diesem Zusammenhang stellt sich meist das Problem, die Wahrscheinlichkeit von Ereignissen wie Es kommen genau 10 Anrufe an“ oder Die Anzahl der gezogenen ” ” schwarzen Kugeln ist mindestens 2“ zu berechnen. Allgemein bezeichnen wir mit (X = y) das Ereignis, dass die Funktion X bei Durchführung des Experiments den Wert y annimmt, und mit (X ∈ A) dasjenige, dass der Wert der Funktion X in der vorgebenen Menge A ⊂ X liegt. Da Ereignisse durch die Mengen von Ergebnissen charakterisiert werden, auf die die entsprechende Aussage zutrifft, ist offensichtlich (X = y) = {ω ∈ Ω ; X(ω) = y} (X ∈ A) = {ω ∈ Ω ; X(ω) ∈ A} (8.60) (8.61) Die Menge (8.60) kann man umständlicher auch als (X ∈ {y}), d.h. in der Form (8.61) schreiben. Damit man von der Wahrscheinlichkeit dieser Ereignisse sprechen kann, müssen die zugehörigen Mengen im Definitionsbereich der Wahrscheinlichkeit P liegen. Dies hängt von der Gestalt der Funktion X ab: Definition 8.1 Eine Funktion X : Ω −→ X auf der Ergebnismenge eines Wahrscheinlichkeitsraums (Ω, A, P ) mit Werten in einer abzählbaren Teilmenge X der reellen Zahlen heißt eine diskrete Zufallsvariable, wenn (X ∈ A) ∈ A für alle Teilmengen A ∈ X gilt. Offensichtlich ist (X ∈ A) = X (X = y) y∈A Um nachzuprüfen, ob eine Funktion X eine Zufallsvariable gemäß der Definition 8.1 ist, muss also nur untersucht werden, ob (X = y) ∈ A für alle y ∈ X gilt. 50 8.1 Die Verteilung einer diskreten Zufallsvariablen Wenn man das Zufallsexperiment (Ω, A, P ) und das Messgerät X als eine black box ansieht, aus der zufällige Werte y ∈ X herauskommen, so erhält man ein neues Zufallsexperiment mit der Ergebnismenge X . Die Chance für das Eintreten eines Ereignisses A ⊂ X wird man sinnvollerweise durch die Zahl P X (A) = P (X ∈ A) (8.62) bewerten. Ω X X X P (A) P(X∈A) Wie zu erwarten erhält man auf diese Weise eine Wahrscheinlichkeitsverteilung auf den Teilmengen von X : Satz 8.1 P X ist eine diskrete Wahrscheinlichkeitsverteilung auf X mit der Wahrscheinlichkeitsfunktion f X (y) = P (X = y). Beweis: 1. Da P eine Wahrscheinlichkeit ist, gilt 0 ≤ P (X ∈ A) = P X (A) ≤ 1 und aus (X ∈ X ) = Ω folgt P X (X ) = 1. 2. Sind A und B Teilmengen von X , so kann man anhand der Definition (8.61) leicht nachvollziehen, dass (X ∈ A∪B) = (X ∈ A)∪(X ∈ B) und dass für disjunkte Mengen A und B die Mengen (X ∈ A) und (X ∈ B) ebenfalls disjunkt sind. Beides zusammen liefert (X ∈ A + B) = (X ∈ A) + (X ∈ B) und zusammen mit (8.62) das dritte Axiom P X (A + B) = P X (A) + P X (B) 51 3. Wie in Punkt 2. weist man auch die Gültigkeit des 4. Axioms X X P X( Ak ) = P X (Ak ) k k nach. 4. P X ist damit eine diskrete Wahrscheinlichkeitsverteilung auf X und besitzt die Wahrscheinlichkeitsfunktion f X (y) = P X {y} = P (X = y) ♦ Bezeichnung: Die Wahrscheinlichkeitsverteilung P X heißt die Verteilung der Zufallsvariablen X und f X (y) die Wahrscheinlichkeitsfunktion der Zufallsvariablen X. Zur formalen Darstellung dieser Situation benutzen wir im folgenden das Schema X (Ω, A, P ) −→ (X , 2X , P X ) (8.63) Eine Formulierung wie . . . X sei eine mit Parameter µ Poisson-verteilte Zufallsvariable . . . ist in diesem Zusammenhang so zu verstehen, dass es einen nicht näher spezifizierten Wahrscheinlichkeitsraum (Ω, A, P ) und darauf eine ebenfalls nicht weiter konkretisierte Zufallsvariable X gibt, deren Verteilung die Poissonverteilung mit Parameter µ ist. In dem obigen Schema sind also nur die Größen X = N0 und n P X {n} = f X (n) = e−µ µn! bekannt. Überspitzt könnte man sagen, dass die obige Formulierung eine etwas ausgeschmückte Feststellung der Tatsache ist, dass wir ein Zufallsexperiment mit Poissonverteilung betrachten. Von Bedeutung wird diese Konstruktion erst, wenn man mehrere Zufallsvariablen auf dem gleichen Wahrscheinlichkeitraum betrachtet, von denen jeweils nur die Verteilung bekannt ist. 8.2 Funktionen von diskreten Zufallsvariablen Als Beispiel für eine solche Situation nehmen wir die Summe Z(ω) = X(ω) + Y (ω) von zwei diskreten Zufallsvariablen X : Ω −→ N0 und Y : Ω −→ N0 , von denen nur die Wahrscheinlichkeitsfunktionen f X und f Y bekannt seien, und möchten die Verteilung der Zufallsvariablen Z berechnen. Dazu muss als erstes geklärt werden, ob Z überhaupt eine Zufallsvariable ist, d.h., ob die Mengen (Z = n) für alle n = 0, 1, 2, . . . in der vorgegebenen σ-Algebra A liegen. Da X und Y nur nichtnegative ganze Zahlen als Werte annehmen können, gibt es nur endlich viele Kombinationsmöglichkeiten für das Zustandekommen des Werts 52 Z(ω) = n: Z(ω) = n ⇔ X(ω) = 0 oder X(ω) = 1 oder X(ω) = 2 oder .. . oder X(ω) = n und Y (ω) = n und Y (ω) = n − 1 und Y (ω) = n − 2 und Y (ω) = 0 Für die zugehörigen Mengen ergibt sich daraus die Identität (Z = n) = n X (X = k) ∩ (Y = n − k) (8.64) k=0 Da X und Y als Zufallsvariable vorausgesetzt sind, liegen die Mengen (X = k) und (Y = n − k) und gemäß den Eigenschaften einer σ-Algebra auch (Z = n) in A. Z ist also eine Zufallsvariable. Zur Bestimmung ihrer Verteilung berechnen wir die Wahrscheinlichkeitsfunktion, für die man aus (8.64) die Formel f Z (n) = P Z {n} = P (Z = n) = n X k=0 P [(X = k) ∩ (Y = n − k)] (8.65) erhält. Ohne zusätzliche Informationen über die Zufallsvariablen X und Y kommt man mit der Berechnung an dieser Stelle nicht weiter. Man benötigt offensichtlich eine Produktregel, d.h. die Eigenschaft der stochastischen Unabhängigkeit für Zufallsvariable. Definition 8.2 Diskrete Zufallsvariable X1 , X2 , . . . , Xm auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Werten in Mengen X1 , X2 , . . . , Xm heißen stochastisch unabhängig, wenn für beliebige Teilmengen A1 ⊂ X1 , A2 ⊂ X2 , . . . , Am ⊂ Xm gilt P [(X1 ∈ A1 ) ∩ (X2 ∈ A2 ) ∩ . . . ∩ (Xm ∈ Am )] = P (X1 ∈ A1 )P (X2 ∈ A2 ) · · · P (Xm ∈ Am ) (8.66) Setzen wir unsere beiden Zufallsvariablen X und Y als stochastisch unabhängig voraus, so folgt aus (8.66) für (X = k) = (X ∈ {k}) und (Y = n − k) = (Y ∈ {n − k}), dass f Z (n) = = = n X k=0 n X k=0 n X k=0 P (X = k)P (Y = n − k) P X {k} P Y {n − k} f X (k) f Y (n − k) 53 (8.67) Damit ist f Z (n) aus den Wahrscheinlichkeitsfunktionen f X und f Y berechenbar. Die Summe (8.67) heißt die Faltung der Wahrscheinlichkeitsfunktionen f X und f Y und wird im allgemeinen mit f X ∗ f Y bezeichnet: f X ∗ f Y (n) = n X k=0 f X (k) f Y (n − k) (8.68) Mit dieser Bezeichnung können wir das Ergebnis unserer Berechnung wie folgt zusammenfassen: Satz 8.2 Sind X und Y stochastisch unabhängige diskrete Zufallsvariable mit Wertebereich N0 , so gilt f X+Y = f X ∗ f Y (8.69) Beispiel: Sind X und Y stochastisch unabhängige und mit Parametern λ bzw. µ Poisson-verteilte Zufallsvariable, so ist f X+Y (n) = n X e−λ k=0 λk −µ µn−k e k! (n − k)! n X 1 λk µn−k k!(n − k)! k=0 n 1 X n k n−k λ µ = e−(λ+µ) k n! = e−(λ+µ) k=0 (λ + µ)n = e−(λ+µ) n! Die Summe dieser beiden Zufallsvariablen ist also wieder Poisson-verteilt mit der Summe λ + µ als Parameter. 8.3 Der Erwartungswert einer diskreten Zufallsvariablen Ist X : Ω −→ X eine diskrete Zufallsvariable mit einer abzählbaren Teilmenge X ⊂ R von reellen Zahlen als Wertebereich, so wird man als Prognose für den Wert, den die Zufallsvariable X bei Durchführung des Experiments annimmt, den Mittelwert der Verteilung von X wählen: X m1 (P X ) = y f X (y) (8.70) y∈X Man nennt in diesem Zusammenhang die Größe m1 (P X ) auch den Erwartungswert der Zufallsvariablen X. Er wird im allgemeinen mit E X bezeichnet oder etwas genauer mit EP X, wenn von Bedeutung ist, bezüglich welcher Wahrscheinlichkeit P die Verteilung von X zu verstehen ist. Für den Fall, dass es sich bei dem Wahrscheinlichkeitsraum (Ω, A, P ) um einen diskreten Wahrscheinlichkeitsraum mit der Wahrscheinlichkeitsfunktion f (ω) = P {ω} handelt, kann man den Erwartungswert von X auch auf eine andere Weise berechnen. 54 Wenn wir zur Vereinfachung der Formeln die Abkürzung By = (X = y) benutzen, so gilt X X y P (By ) y f X (y) = m1 (P X ) = y∈X = X y∈X = y y∈X X ω∈By X X f (ω) (yf (ω)) y∈X ω∈By Für ω ∈ By ist y = X(ω), so dass diese Doppelsumme auch in der Form X X X(ω)f (ω) m1 (P X ) = y∈X ω∈By = X X y∈X ω∈By X(ω)P {ω} geschrieben werden kann. Die Mengen By mit y ∈ X bilden eine Partition der Menge Ω, in der die Ergebnisse ω nach den verschiedenen möglichen Funktionswerten y der Zufallsvariable sortiert werden. Die Doppelsumme über y ∈ X und ω ∈ By stellt daher nichts anderes dar als die Summation über alle ω ∈ Ω als Indizes in einer speziellen Reihenfolge. Wegen der für den Mittelwert geforderten unbedingten Konvergenz können wir daher einfach X X(ω)P {ω} m1 (P X ) = ω∈Ω schreiben und erhalten den Satz 8.3 Falls der Erwartungswert einer diskreten Zufallsvariablen X auf einem diskreten Wahrscheinlichkeitsraum (Ω, A, P ) existiert, ist X EP X = X(ω)P {ω} (8.71) ω∈Ω 55 9 Geometrische Wahrscheinlichkeiten Dieses und die folgenden Kapitel beschäftigen sich mit der Wahrscheinlichkeitsrechnung auf überabzählbaren Ergebnismengen Ω, worunter hauptsächlich die Menge R der reellen Zahlen und die Mengen Rn = {x = (x1 , x2 , . . . , xn ) ; xi ∈ R} (9.72) der n-dimensionalen Vektoren mit reellen Komponenten zu verstehen sind. Als Ausgangspunkt befassen wir uns wie bei den Laplace-Experimenten mit der Frage, wie man die Wahrscheinlichkeit eines Ereignisses unter der Annahme berechnet, dass jedes Ergebnis ω die gleiche Chance des Auftretens besitzt. Zur Veranschaulichung betrachten wir dazu das folgende Problem: Zwei Personen beschließen sich irgendwann zwischen zwölf und ein Uhr an einem bestimmten Ort zu treffen, wobei aber jede höchstens 20 Minuten auf die andere wartet und wieder geht, falls diese in der Zwischenzeit nicht erscheint. Wie groß ist die Wahrscheinlichkeit, dass die beiden sich treffen? Wenn wir mit x1 und x2 die Ankunftszeiten der beiden Personen in Minuten nach zwölf Uhr messen, so erhalten wir als Menge der möglichen Ergebnisse Ω = {(x1 , x2 ) ∈ R2 ; 0 ≤ xi ≤ 60} und das Ereignis Treffen“ wird durch die in Abbildung 4 dargestellte Menge ” A = {(x1 , x2 ) ∈ Ω; |x1 − x2 | ≤ 20} repräsentiert. x2 6 60 40 A 20 20 40 - x1 60 Abbildung 4: Das Ereignis Treffen“ ” 56 x2 6 60 Ik 40 20 20 - x1 60 40 Abbildung 5: Unterteilung Als Ansatz für eine Wahrscheinlichkeitsverteilung gehen wir wie bei den LaplaceExperimenten von dem Postulat aus, dass alle Paare (x1 , x2 ) von Ankunftszeiten gleich möglich sind. Die Formel P {(x1 , x2 )} = p führt jedoch hier nicht zum Ziel, da Ω unendlich viele Elemente enthält und somit p = 0 gesetzt werden müsste. Statt dessen unterteilen wir Ω wie in der Abbildung 5 in endlich viele gleichartige Quadrate Ik . Das Postulat, dass alle Ankunftszeitenpaare gleich möglich sein sollen, läßt sich dann dahingehend interpretieren, dass die Wahrscheinlichkeit der Ereignisse (x , x ) liegt in Ik“ für alle Quadrate Ik die gleiche ist. ” 1 2 Aus der Tatsache, dass die Mengen Ik eine Partition von Ω bilden und der für Wahrscheinlichkeiten stets gültigen Additionsregel folgt dann, dass die Wahrscheinlichkeit eines dieser Quadrate von der Form P (Ik ) = 1 |Ik | = Summe aller Quadrate |Ω| ist, wobei |Ik | bzw. |Ω| die Flächeninhalte dieser beiden Quadrate sind. Als Näherungswert für die Wahrscheinlichkeit des Ereignisses A bietet sich in diesem Rahmen die Summe der Wahrscheinlichkeiten der Ik an, die mit der Menge A einen nichtleeren Durchschnitt aufweisen. Verfeinert man die Unterteilung der Menge Ω immer weiter, so konvergieren diese Näherungswerte gegen den Grenzwert P (A) = |A| |Ω| (9.73) mit der Fläche |A| der Menge A. Als ersten Ansatz für Wahrscheinlichkeitsverteilungen über Teilmengen des Rn als Ergebnismenge erhält man so den der geometrischen Wahrscheinlichkeiten: Sind alle Punkte ω aus einer Teilmenge Ω bei einem Zufallsexperiment als gleich möglich anzusehen, so ist die Wahrscheinlichkeit, dass das Ergebnis in eine Teilmenge A von Ω fällt, gegeben durch |A| |Ω| . Dabei ist |M | der 57 Inhalt der Menge M , im zweidimensionalen also die Fläche und in drei Dimensionen das Volumen. Bei der Umsetzung dieses so einfach klingenden Ansatzes in ein mathematisches Modell ergeben sich einige Schwierigkeiten sowohl praktischer als auch theoretischer Natur. Zum Einen gibt es das theoretische Problem, welche Teilmengen A des Rn überhaupt eine Fläche oder einen Inhalt besitzen, und die damit zusammenhängende Frage, ob die Gesamtheit dieser Mengen eine σ-Algebra bildet. Damit werden wir uns im nachfolgenden Kapitel beschäftigen. Zum Anderen erweist es sich manchmal, dass die Beschreibung eines Zufallsexperiments, in der die Ausdrücke zufällig oder gleich möglich vorkommen, mehrere mathematische Interpretationen zulässt, die dann auch zu verschiedenen Wahrscheinlichkeiten für einzelne Ereignisse führen: Ein weiteres Bertrandsches Paradoxon. Mit der folgenden Aufgabenstellung wollte der französische Mathematiker Joseph Bertrand (1822–1900) zeigen, daß das Konzept der geometrischen Wahrscheinlichkeiten Widersprüche enthält: Man wähle zufällig in einem Kreis eine Sehne. Wie groß ist die Wahrscheinlichkeit dafür, dass die Sehne länger ist als die Seite eines dem Kreis einbeschriebenen gleichseitigen Dreiecks? Bertrand gab dafür drei Lösungsmöglichkeiten an. Es wird dabei immer ein Kreis mit dem Radius 1 betrachtet, wobei Winkel im Bogenmaß bezüglich einer horizontalen Achse durch den Mittelpunkt des Kreises gemessen werden. Version 1: Man wählt zufällig einen Winkel ϕ und zeichnet in diesem Winkel einen Strahl vom Mittelpunkt bis zum Kreisrand. Dann wählt man zufällig im Abstand y vom Mittelpunkt einen Punkt auf diesem Strahl und erhält eine zufällige Sehne dadurch, dass man eine Gerade in diesem Punkt senkrecht zum Strahl zeichnet (s. Abbildung 6). Wie anhand des gestrichelt angedeuteten gleichseitigen Dreiecks zu sehen ist, wird die Sehne größer als die Dreiecksseite, wenn y kleiner als 1/2 ist. Als Ansatz für die Wahrscheinlichkeitsberechnung gehen wir davon aus, dass alle Kombinationen (ϕ, y) von Winkeln und Abständen gleich möglich sind. Die Ergebnismenge ist dann Ω = {(ϕ, y) ; 0 ≤ ϕ < 2π , 0 ≤ y ≤ 1} mit der Fläche |Ω| = 2π. Das Ereignis wird durch die Menge A = {(ϕ, y) ; 0 ≤ ϕ < 2π , 0 ≤ y < 1/2} beschrieben, die genau halb so groß ist, so dass P (A) = 1/2. Version 2: Man zeichnet in einem zufällig gewählten Punkt auf dem Kreisbogen, charakterisiert durch den Winkel ϕ, eine Tangente an den Kreis und anschließend ausgehend von diesem Punkt die Sehne in einem zufällig gewählten Winkel ψ bezüglich der Tangente (s. Abbildung 7). Die Sehne wird offensichlich dann länger als die Dreiecksseite, wenn der Winkel ψ im Bereich π/3 < ψ < 2π/3 liegt. Die Fläche der zugehörigen Menge A = {(ϕ, ψ) ; 0 ≤ ϕ < 2π , π/3 < ψ < 2π/3} ist ein Drittel der Fläche von Ω = {(ϕ, ψ) ; 0 ≤ ϕ < 2π , 0 ≤ ψ ≤ π}, so dass nach diesem Ansatz P (A) = 1/3. Version 3: Die dritte Variante besteht in der zufälligen Auswahl eines Punkts im Kreisinneren. Danach wird ähnlich wie bei der ersten Version ein Strahl vom Mittelpunkt durch den gewählten Punkt und die Sehne senkrecht zu diesem Strahl durch 58 y ϕ Abbildung 6: Version 1 den Punkt gezogen (s. Abbildung 8). Die Ergebnismenge Ω ist in diesem Fall der gesamte Kreis mit der Fläche π. Die Sehne wird dann länger als die Dreiecksseite, wenn der ausgewählte Punkt im Inneren des kleineren Kreises mit dem Radius 1/2 und der Fläche π/4 liegt, so dass hier P (A) = 1/4. Die unterschiedlichen Wahrscheinlichkeiten haben offensichtlich nichts mit dem Konzept der geometrischen Wahrscheinlichkeiten zu tun, sondern kommen dadurch Zustande, dass der Vorgang Zufälliges Zeichnen einer Sehne“ durch mehrere verschiedene ” Konstruktionsverfahren bewerkstelligt werden kann, die unterschiedlichen Zufallsexperimenten entsprechen. Geht man davon aus, dass die normale Methode zur Konstruktion einer Sehne darin besteht, dass zwei Punkte auf dem Kreis ausgewählt und durch eine Gerade miteinander verbunden werden, so ist die Version 2 als die richtige anzusehen. 59 ϕ ψ Abbildung 7: Version 2 Abbildung 8: Version 3 60 10 Verteilungen Beim Ansatz von Wahrscheinlichkeiten für Teilmengen des Rn stößt man auf ein technisches Problem. Man kann als σ-Algebra nicht die Menge aller Teilmengen des Rn verwenden, da es — wie man beweisen kann — keine Mengenfunktion auf dieser σAlgebra gibt, die gleichzeitig alle vier Kolmogoroffschen Axiome erfüllt. Um auf der Basis dieser Axiome Wahrscheinlichkeitsrechnung zu betreiben, muss man sich auf eine kleinere σ-Algebra zurückziehen. Ein Ansatz dazu wurde im vorgehenden Kapitel vorgeführt. Wir betrachten Mengen, die einen Inhalt besitzen. Dieser Ansatz wird im folgenden präzisiert. 10.1 Intervalle Die von ihrer Struktur her einfachsten Mengen, denen man einen Inhalt zuordnen kann, sind die Intervalle. Eindimensionale Intervalle sind Teilmengen der reellen Zahlenachse der Form (a, b) [a, b) (a, b] [a, b] (a, ∞) [a, ∞) (−∞, b) (−∞, b] (−∞, ∞) = {t ∈ R ; a < t < b} = {a} + (a, b) = (a, b) + {b} = {a} + (a, b) + {b} = {t ∈ R ; t > a} = {a} + (a, ∞) = {t ∈ R ; t < b} = (−∞, b) + {b} = R mit rellen Zahlen −∞ < a ≤ b < ∞. Die Gesamtheit dieser eindimensionalen Intervalle bezeichnen wir mit I. Die Länge |I| eines Intervalls mit den Endpunkten a und b ist die Differenz |I| = b − a unabhängig davon, ob die Randpunkte zum Intervall gehören oder nicht. Für die Fälle a = −∞ oder b = ∞ ist auch der Wert ∞ für die Länge zugelassen. Zweidimensionale Intervalle sind Rechtecke, d.h. Teilmengen I des R2 von der Form I = {(x1 , x2 ) ∈ R2 ; x1 ∈ I1 , x2 ∈ I2 } = I1 × I2 wie in Abbildung 9 dargestellt, wobei I1 und I2 jeweils eindimensionale Intervalle sind. Die Fläche eines Rechtecks ist bekanntlich als Länge mal Breite definiert, d.h. |I| = |I1 × I2 | = |I1 | · |I2 | Allgemein sind n-dimensionale Intervalle cartesische Produkte I = I1 × I2 × . . . × In = {(x1 , x2 , . . . , xn ) ∈ Rn ; xk ∈ Ik für k = 1, 2, . . . , n} (10.74) 61 x2 b2 I2 I1 x I2 a2 a1 I1 x1 b1 Abbildung 9: Ein zweidimensionales Intervall Als Inhalt des Intervalls I legen wir das Produkt |I| = |I1 × I2 . . . × In | = |I1 | · |I2 | · · · |In | fest, was im Zweidimensionalen mit der Fläche eines Rechtecks und im Dreidimensionalen mit dem Volumen eines Quaders übereinstimmt. Bei Intervallen |Ik | mit nichtendlicher Länge gilt bei der Auswertung des Produkts die Regel 0 · ∞ = 0. Die Menge aller n-dimensionalen Intervalle bezeichnen wir im folgenden mit In . 10.2 Borelsche Mengen und Lebesguesches Maß Die Menge In ist keine σ-Algebra, denn im allgemeinen ist bereits die Vereinigung zweier Intervalle kein Intervall mehr. Sie wird daher so erweitert, dass eine σ-Algebra entsteht. Definition 10.1 Die kleinste σ-Algebra über dem Rn , die die Menge In der n-dimensionalen Intervalle enthält, heißt die σ-Algebra der Borelschen Mengen und wird mit Bn bezeichnet. Für B1 schreiben wir auch nur B. Unter der kleinsten σ-Algebra ist dabei der Durchschnitt aller σ-Algebren zu verstehen, die die Menge In enthalten. (Wie man sich leicht überzeugt, ist der Durchschnitt von σ-Algebren wieder eine σ-Algebra.) Die Elemente B von Bn heißen – wie aus der Bezeichnungsweise schon hervorgeht – Borelsche Mengen. Das Konzept des Inhalts von Intervallen lässt sich auf die Borelschen Mengen fortsetzen. Es gilt der 62 Satz 10.1 Es gibt eine Abbildung λ : Bn −→ [0, ∞] mit den folgenden Eigenschaften: λ(B) ≥ 0 X X λ(Bk ) Bk ) = λ( k k für alle B ∈ Bn für alle paarweise disjunkten Bk ∈ Bn λ(I) = |I| für alle I ∈ In . λ ist durch diese drei Eigenschaften eindeutig bestimmt. Definition 10.2 Die Funktion λ heißt das Lebesguesche Maß auf dem Rn . Es gibt Teilmengen des Rn , die keine Borelschen Mengen sind. Ein Beispiel dafür findet man im Kapitel V von [5]. Das Mengensystem Bn ist aber groß genug, dass es alle praktisch relevanten Mengen enthält. Insbesondere sind alle offenen und abgeschlossenen Teilmengen des Rn Borelsch. 10.3 Verteilungen auf dem Rn Für Wahrscheinlichkeitsverteilungen auf den Borelschen Mengen des Rn gibt es eine Kurzbezeichnung: Definition 10.3 Eine Wahrscheinlichkeitsverteilung auf den Borelschen Mengen des Rn heißt eine Verteilung auf dem Rn oder n-dimensionale Verteilung. Beispiel: Mit Hilfe der Borelschen Mengen und des Lebesgueschen Maßes kann man das Konzept der geometrischen Wahrscheinlichkeiten jetzt auf eine sichere Basis stellen. Ist M eine Borelsche Menge aus dem Rn mit 0 < λ(M ) < ∞, so kann man leicht nachvollziehen, dass aus den Eigenschaften des Lebesgueschen Maßes die Gültigkeit der vier Kolmogoroffschen Axiome für die Mengenfunktion P (B) = λ(B ∩ M ) λ(M ) (10.75) auf Bn folgt, d.h. dass es sich um eine n-dimensionale Verteilung handelt. Die Verteilung (10.75) heißt die uniforme Verteilung oder Gleichverteilung auf der Menge M und wird im folgenden kurz mit U(M )-Verteilung bezeichnet. Für B ⊂ M ist P (B) = λ(B)/λ(M ) und entspricht der Formel (9.73), die aus der Forderung hergeleitet wurde, dass alle Ergebnisse gleich möglich sind. Für B ∩ M = ∅ ist P (B) = 0. Dies ist eine schwächere Aussage als die, dass nur Ergebnisse aus der Menge M möglich sind. Für die Berechnung von Wahrscheinlichkeiten hat das jedoch keine Konsequenzen. Deshalb ist in der Wahrscheinlichkeitsrechnung üblich, nicht mit Wahrscheinlichkeiten auf Teilmengen Ω ⊂ Rn als Ergebnismengen zu arbeiten, sondern als Ergebnismenge den ganzen Rn zu wählen, wobei Borelschen Mengen B mit B ∩ Ω = ∅ die Wahrscheinlichkeit P (B) = 0 zugeordnet wird. 63 10.4 Das Lebesgue-Integral Das wichtigste mathematische Hilfsmittel beim Umgang mit Verteilungen auf dem Rn ist die Integralrechnung, wobei unter einem Integral im allgemeinen das Lebesquesche Integral (L-Integral ) zu verstehen ist. In den Beispielen dieses Skripts und in den meisten praktischen Anwendungsfällen sind die Integranden im Riemannschen Sinne integrierbar, so dass man die zu berechnenden Integrale als Riemann-Integrale (RIntegrale) auffassen kann. Für Eigenschaften, Rechenregeln und Sätze über Integrale beziehen wir uns auf das Buch [7]. Das Integral einer Funktion f : Rn −→ R über den gesamten Rn als Integrationsbereich bezeichnen wir mit Z f (x)dx Soll nur über eine Borelsche Teilmenge B ⊂ Rn integriert werden, so verwenden wir entweder die Bezeichnung Z f (x)dx B oder — was manchmal zweckmäßiger ist — wir setzen die Funktion f ausserhalb der Menge B gleich Null und integrieren die so abgeänderte Funktion über den gesamten Rn . Diese Änderung wird dadurch bewirkt, dass wir die Funktion f mit der Indikatorfunktion 1B (x) der Menge B multiplizieren: 1 für x ∈ B 1B (x) = (10.76) 0 für x 6∈ B Da ein Bereich, in dem der Integrand Null ist, nichts zum Wert des Integrals beiträgt, ist Z Z f (x)dx = 1B (x)f (x)dx B Wird eine Funktion f : R −→ R auf der reellen Zahlenachse über ein Intervall mit den Randpunkten a < b integriert, so schreibt man meistens Z b f (x)dx a Dabei ist auch a = −∞ und b = ∞ zugelassen. 10.5 Absolutstetige Verteilungen Definition 10.4 Eine Lebesgue-integrierbare Funktion f : Rn −→ R mit den Eigenschaften f (x) ≥ 0 Z f (x)dx für fast alle x = 1 64 (10.77) (10.78) heißt eine Wahrscheinlichkeitsdichte. Anstelle von Wahrscheinlichkeitsdichte sind auch die kürzeren Bezeichnungen Dichte oder Dichtefunktion gebräuchlich. Satz 10.2 Ist f : Rn −→ R eine Wahrscheinlichkeitsdichte, so ist die Mengenfunktion P : Bn −→ R, definiert durch Z P (B) = 1B (x)f (x)dx (10.79) eine n-dimensionale Verteilung. Beweis: R R 1. Wegen 0 ≤ 1B (x)f (x) ≤ f (x) für fast alle x ist 0 ≤ 1B (x)f (x) dx ≤ f (x) dx und damit 0 ≤ P (B) ≤ 1. R 2. Da 1Rn (x) = 1 für alle x, ist P (Rn ) = f (x) dx = 1. 3. Für disjunkte Mengen B1 und B2 gilt 1B1 +B2 (x) = 1B1 (x) + 1B2 (x). Wegen der Linearität des Lebesgue-Integrals folgt daraus Z Z P (B1 + B2 ) = 1B1 +B2 (x)f (x) dx = (1B1 (x) + 1B2 (x))f (x) dx Z Z = 1B1 (x)f (x) dx + 1B2 (x)f (x) dx = P (B1 ) + P (B2 ) Eine entsprechende Regel gilt natürlich auch für die Summe einer endlichen Anzahl m > 2 von paarweise disjunkten Mengen Bk . 4. Für abzählbar viele paarweise disjunkte Borelsche Mengen Bk ist zunächst nach Punkt 3: Z n n X X Bk ) = 1An (x)f (x) dx P (Bk ) = P ( k=1 k=1 Pn mit An = k=1 Bk . P∞ S∞ Wegen A1 ⊂ A2 ⊂ . . . mit k=1 An = k=1 Bk =: B bilden die Funktionen gn (x) = 1An (x)f (x) eine monoton steigende Funktionenfolge mit limn→∞ gn (x) = 1B (x)f (x). Nach dem Konvergenzsatz von Beppo Levi gilt daher ∞ X k=1 P (Bk ) = lim n→∞ n X P (Bk ) k=1 Z lim 1An (x)f (x) dx n→∞ Z = lim 1An (x)f (x) dx n→∞ Z = 1B (x)f (x) dx = = P (B) ∞ X Bk ) = P( k=1 65 und damit auch das vierte Axiom. ♦ Bezeichnung: Eine Verteilung der Form (10.79) heißt eine absolutstetige Verteilung und f Dichte zur Verteilung P . Sind f1 und f2 Dichten zur gleichen Verteilung P , so unterscheiden sie sich höchstens auf einer Nullmenge, d.h. —locker gesprochen — sie sind im wesentlichen gleich. Beispiel 1: Die uniforme Verteilung (10.75) besitzt die Dichte 1 falls x ∈ M 1 λ(M ) f (x) = 1M (x) = (10.80) 0 falls x 6∈ M λ(M ) Für die Indikatorfunktionen zweier Mengen A und B gilt 1A∩B (x) = 1A (x)1B (x), so dass Z Z Z 1 λ(B ∩ M ) 1 1B (x)1M (x)dx = 1B∩M (x)dx = 1B (x)f (x)dx = λ(M ) λ(M ) λ(M ) Eine Verteilung erhält man nach dem obigen Satz einfach dadurch, dass man eine R Lebesgue-integrierbare Funktion g(x) ≥ 0 mit dem Wert c = g(x)dx normiert: f (x) = 1c g(x) ist eine Dichte und legt durch (10.79) eine Verteilung fest. Beispiel 2: Die Funktion 1 2 g(x) = e− 2 x mit x ∈ R ist positiv und im Lebesgueschen wie im uneigentlich-Riemannschen Sinn integrierbar (Sie wird für betragsmäßig große x durch 1/x2 majorisiert). Zur Berechnung des Integrals benötigt man einen kleinen Trick. Man berechnet nicht c sondern 2 c = Z ∞ −∞ 2 Z g(x)dx = ∞ −∞ Z g(x)dx ∞ g(y)dy −∞ = Z ∞ −∞ Z ∞ g(x)g(y)dy dx −∞ Nach dem Satz von Fubini ist das letzte Integral gleich dem Bereichsintegral über den gesamten R2 : Z Z 2 2 1 2 e− 2 (x +y ) d(x, y) g(x)g(y)d(x, y) = c = R2 R2 Dieses Bereichsintegral wandeln wir durch Übergang zu Polarkoordinaten um: x = r cos(φ) = x(r, φ) y = r sin(φ) = y(r, φ) Der Integrationsbereich wird dadurch die Menge M = {(r, φ) ; 0 ≤ r < ∞, 0 ≤ φ < 2π} = [0, ∞) × [0, 2π) Die Funktionaldeterminante ist ∂(x, y) = ∂(r, φ) ∂x ∂r ∂y ∂r 66 ∂x ∂φ ∂y ∂φ =r Wegen x2 + y 2 = r2 (sin2 (φ) + cos2 (φ)) = r2 erhält man dadurch Z 1 2 re− 2 r d(r, φ) c2 = M und weiter durch Übergang zum iterierten Integral Z ∞ Z 2π Z ∞ Z 1 2 1 2 c2 = re− 2 r dr re− 2 r dφ dr = 0 0 0 2π 1dφ = 2π 0 Z ∞ 1 2 re− 2 r dr 0 Der Integrand des letzten Integrals besitzt die Stammfunktion 1 −e− 2 r 2 √ so dass c2 = 2π bzw. c = 2π. Bezeichnung: Die eindimensionale Verteilung mit der Dichte 1 2 1 ϕ(x) = √ e− 2 x 2π (10.81) heißt die standardisierte Normalverteilung oder N (0, 1)-Verteilung. 10.6 Zweistufige Experimente Als Beispiel für eine zweidimensionale absolutstetige Verteilung betrachten wir das folgende Problem: Ein Stab wird an einer zufällig ausgewählten Stelle auseinander gebrochen und das längere der beiden Bruchstücke noch einmal zufällig geteilt. Wie groß ist die Wahrscheinlichkeit, dass man aus den drei Stücken ein Dreieck zusammensetzen kann? Wenn der Stab die Länge 1 besitzt, können wir ihn uns durch das Intervall [ 0, 1 ] der reellen Zahlenachse repräsentiert denken. Das Ergebnis des Experiments sind dann Paare (x1 , x2 ) von Zahlen xi mit 0 ≤ xi ≤ 1, die für die Positionen der ersten bzw. zweiten Knickstelle stehen. x1 x2 0 1 Abbildung 10: Zweimaliges Brechen eines Stabs 67 Da die zweite Knickstelle auf dem längeren der durch x1 festgelegten Teile liegen muss, sind nicht alle Zahlenpaare (x1 , x2 ) möglich, sondern nur die Kombinationen 0 ≤ x1 ≤ 1 , 2 x1 ≤ x2 ≤ 1 und 1 < x1 ≤ 1 , 0 ≤ x2 ≤ x1 2 Die Menge M der möglichen Ergebnisse ist in Abbildung 11 dargestellt. x2 1 0.5 x1 0.5 1 Abbildung 11: Die Menge der möglichen Knickstellenpaare Wie im Abschnitt 10.3 erläutert, wählt man bei zweidimensionalen Verteilungen die gesamte Zahlenebene R2 als Ergebnismenge und ersetzt die Aussage Ergebnisse (x1 , x2 ) ” außerhalb M sind nicht möglich“ durch die schwächere, aber für die Berechnung von Wahrscheinlichkeiten äquivalente Aussage, dass Borelschen Mengen außerhalb von M die Wahrscheinlichkeit Null zugeordnet wird, was durch die Festlegung f (x1 , x2 ) = 0 für (x1 , x2 ) ∈ /M für die Dichte erreicht wird. 10.6.1 Bedingte Dichten Nach der obigen Beschreibung läuft das Zufallsexperiment in zwei Schritten ab. Zuerst wird die Knickstelle x1 ausgewählt und anschließend in Abhängigkeit von der Lage von x1 die zweite Knickstelle x2 . 68 1. Schritt: Die Auswahl der Position x1 erfolgt zufällig, d.h. jede Zahl aus dem Intervall [ 0, 1 ] besitzt die gleiche Chance. Das dazu passende Wahrscheinlichkeitsgesetz ist die uniforme Verteilung auf diesem Intervall mit der (eindimensionalen) Dichte (10.80) 1 0 ≤ x1 ≤ 1 f1 (x1 ) = 0 sonst 2. Schritt: Liegt x1 nach Durchführung des 1. Schritts fest, so wird anschließend x2 zufällig auf dem längeren Abschnitt ausgewählt, d.h. für x1 ≤ 21 gemäß der uniformen Verteilung auf dem Intervall [ x1 , 1 ] und für x1 > 21 nach der U[ 0, x1 ]-Verteilung. Die entsprechenden Dichten sind gemäß (10.80) ( 1 x1 ≤ x2 ≤ 1 1−x1 f2 (x2 |x1 ) = 0 sonst für x1 ≤ 1 2 und f2 (x2 |x1 ) = für x1 > 1 2 ( 1 x1 0 0 ≤ x2 ≤ x1 sonst . Bezeichnung: Eine Funktion f (x|y), die bei festem y als Funktion von x eine Wahrscheinlichkeitsdichte und bei festem x als Funktion von y Lebesgue-messbar ist, heißt eine bedingte Dichte. 10.6.2 Zweistufige Experimente Zur Beschreibung eines Zufallsexperiments, das in zwei Schritten abläuft, müssen die Dichte f1 (x1 ) und die bedingte Dichte f2 (x2 |x1 ) zu einer zweidimensionalen Dichte zusammengesetzt werden. In Analogie zur Formel P (A ∩ B) = P (A) P (B|A) für die bedingte Wahrscheinlichkeit von Ereignissen legen wir f (x1 , x2 ) = f1 (x1 ) f2 (x2 |x1 ) (10.82) fest. Die so definierte Funktion f : R2 −→ R ist eine Dichte. Aus f1 (x1 ) ≥ 0 und f2 (x2 |x1 ) ≥ 0 folgt f (x1 , x2 ) ≥ 0 und nach dem Satz von Fubini ist Z Z Z f (x1 , x2 )d(x1 , x2 ) = f1 (x1 )f2 (x2 |x1 )dx2 dx1 Z Z = f1 (x1 ) f2 (x2 |x1 )dx2 dx1 Z = f1 (x1 ) · 1dx1 = 1 69 10.6.3 Fortsetzung des Beispiels Zur Lösung des Problems muss noch die Menge A ⊂ M der Paare (x1 , x2 ) von Knickstellen gefunden werden, die dem Ereignis entsprechen, dass aus den drei Bruchstücken ein Dreieck gebildet werden kann. Aus der Abbildung 12 ist für den Fall x1 ≤ 21 ersichtlich, dass ein Dreieck nur dann zustandekommt, wenn sich die beiden Halbkreise schneiden, die die beiden äußeren Bruchstücke beschreiben, wenn man sie in den Punkten x1 bzw. x2 festhält und die freien Enden bewegt. 0 x1 0.5 x2 1 Abbildung 12: Dreieck aus drei Bruchstücken Dazu muss die Summe der Längen der äußeren Bruchstücke mindestens so groß sein wie die Länge des mittleren: x1 + (1 − x2 ) ≥ x2 − x1 oder —durch Umformen— x2 ≤ 1 + x1 2 Außerdem darf x2 nicht unterhalb von 12 liegen, da sonst der rechte Halbkeis vollständig über dem linken liegt. Für den Fall x1 ≤ 12 erhält man also ein Dreieck, wenn (x1 , x2 ) in der Menge A1 der Punkte liegt, die die Bedingungen 0 ≤ x1 ≤ 21 1 2 ≤ x2 x2 ≤ x1 + 12 70 erfüllen. Für den Fall x1 > 1 2 ergibt sich entsprechend die Menge A2 der (x1 , x2 ) mit 1 2 < x1 ≤ 1 x2 ≤ 21 x2 ≥ x1 − 12 und A ist die Summe dieser beiden Mengen. x2 1 A1 0.5 A2 x1 0.5 1 Abbildung 13: Das Ereignis Dreieck“ ” Mit der Dichte f (x1 , x2 ) = 1 1−x1 1 x1 0 0 ≤ x1 ≤ 21 , x1 ≤ x2 ≤ 1 1 2 < x1 ≤ 1 , 0 ≤ x2 ≤ x1 sonst 71 erhält man daraus die Wahrscheinlichkeiten P (A1 ) = Z 1 f (x1 , x2 )d(x1 , x2 ) = = Z 0 P (A2 ) 1 1 − x1 = ln 2 − = Z Z dx2 dx1 = Z 0 1 2 ! 1 dx2 dx1 1 − x1 x1 dx1 1 − x1 1 2 f (x1 , x2 )d(x1 , x2 ) = ln 2 − 1 2 1 2 x1 + 12 Z1 1 2 A2 = Z 0 A1 1 2 x1 + 12 Z2 1 2 1 Z2 x1 − 21 ! 1 dx2 dx1 x1 und zusammen P (A) = P (A1 ) + P (A2 ) = 2 ln 2 − 1 10.6.4 Unabhängige Experimente Hängt das Wahrscheinlichkeitsgesetz des zweiten Experiments nicht vom Ergebnis des ersten ab, so ist f2 (x2 |x1 ) = f2 (x2 ). Werden also zwei Zufallsexperimente unabhängig voneinander gleichzeitig oder nacheinander durchgeführt, so wird das Gesamtexperiment durch eine Dichte der Form f (x1 , x2 ) = f1 (x1 ) f2 (x2 ) beschrieben. 72 (10.83) 11 Eindimensionale Verteilungen Eine Verteilung auf der Menge R der reellen Zahlen wird auch eine eindimensionale Verteilung genannt. In diesem Kapitel werden einige für diese Verteilungen spezifische Themen behandelt. Es sind dies die Verteilungsfunktion als Charakteristikum für solche Verteilungen und — analog zu den bei diskreten Verteilungen eingeführten Größen — die Momente und der Begriff der Zufallsvariablen. 11.1 Die Verteilungsfunktion Die absolutstetigen Verteilungen auf R, die sich durch eine Dichte beschreiben lassen, d.h. Z P (B) = 1B (x)f (x)dx bilden nur eine Teilklasse der Gesamtheit der Wahrscheinlichkeitsverteilungen auf der reellen Zahlenachse. Eine vollständige Charakterisierung der eindimensionalen Verteilungen erhält man durch die Verteilungsfunktion: Definition 11.1 Ist P eine eindimensionale Verteilung, so heißt die Funktion F : R −→ R, definiert durch F (t) := P (−∞, t] (11.84) die Verteilungsfunktion der Verteilung P . Beispiel: Die Verteilungsfunktion der U[a, b]-Verteilung. 1 6 - t a b Abbildung 14: Verteilungsfunktion der U[a, b]-Verteilung. Es ist P (−∞, t] = λ ((−∞, t] ∩ [a, b]) λ ([a, b]) mit λ ([a, b]) = b − a. Wegen ∅ [a, t] (−∞, t] ∩ [a, b] = [a, b] 73 falls t < a falls a ≤ t ≤ b falls t > b ergibt sich die Verteilungsfunktion zu 0 t−a F (t) = b−a 1 falls t < a falls a ≤ t ≤ b falls t > b (11.85) Die Abbildung 14 zeigt bereits die generelle Gestalt einer Verteilungsfunktion. Sie lässt sich wie folgt charakterisieren: Satz 11.1 Eine Verteilungsfunktion besitzt die folgenden fünf Eigenschaften: 0 ≤ F (t) ≤ 1 s≤t t%∞ t & −∞ t & t0 ⇒ ⇒ ⇒ ⇒ F (s) ≤ F (t) F (t) % 1 F (t) & 0 F (t) & F (t0 ) (F ist monoton nichtfallend) (F ist rechtsstetig) Beweis: 1. Da F (t) die Wahrscheinlichkeit eines Ereignisses—in diesem Fall (−∞, t]—ist, folgt die erste Eigenschaft aus dem Axiom 1 (2.7). 2. Für s ≤ t ist (−∞, s] ⊂ (−∞, t], die Monotonie von F ergibt sich so aus Regel (2.12). 3. Für die dritte Eigenschaft betrachten wir eine beliebige monotone und nicht beschränkte Folge reeller Zahlen tn . Für die Intervalle In := (−∞, tn ] gilt dann In % (−∞, ∞) = R und F (tn ) % 1 ist nichts anderes als die Eigenschaft (2.20) für monotone Folgen von Ereignissen mit den hier eingeführten Bezeichnungen. 4. Die beiden letzten Aussagen erhält man, indem man eine monoton fallende Zahlenfolge {tn } betrachtet, wobei im einen Fall tn & −∞ und im anderen tn & t0 . Für die Intervalle In gilt dann In & ∅ bzw. In & (−∞, t0 ] und (2.21) liefert das Verhalten von F . Diese fünf Eigenschaften charakterisieren eine Verteilungsfunktion bereits vollständig, denn man kann die folgende Aussage beweisen: Satz 11.2 Zu jeder Funktion F : R −→ R mit den in Satz 11.1 aufgeführten Eigenschaften gibt es genau eine Verteilung P auf R mit P (−∞, t] = F (t) für alle t ∈ R. Beispiel Die in Abbildung 15 dargestellte Funktion 0 falls t ≤ 0 F (t) = 1 − e−λt falls t > 0 (11.86) mit einer Konstanten λ > 0 erfüllt alle Eigenschaften einer Verteilungsfunktion. Die zugehörige Verteilung heißt die Exponentialverteilung mit Parameter λ oder kurz die E(λ)-Verteilung. Um einen der Anwendungsbereiche der Exponentialverteilung darzustellen, betrachten wir für s ≥ 0 die Ereignisse As := (s, ∞). Die Komplementärmenge zum Intervall (s, ∞) ist das Intervall (−∞, s], so dass P (As ) = 1 − P (As ) = 1 − P (−∞, s] = 1 − F (s) = e−λs 74 1.4 1.2 1 0.8 0.6 0.4 0.2 0 −0.2 −5 −4 −3 −2 −1 0 1 2 3 4 5 Abbildung 15: Die Verteilungsfunktion der Exponentialverteilung woraus sich die Gleichung P (As+t ) = P (As )P (At ) für alle nichtnegativen rellen Zahlen s, t ergibt. Aus dieser Gleichung wiederum folgt – auf dem umgekehrten Weg wie bei der Herleitung der geometrischen Verteilung in Abschnitt 6.2.4– die Identität P (As+t |As ) = P (At ) d.h. die Gedächtnislosigkeit. Die Exponentialverteilung ist somit das kontinuierliche Gegenstück zur geometrischen Verteilung. Man benutzt sie beispielsweise zur Beschreibung der Lebensdauer nahezu verschleißfreier Geräte, wenn die Zeit nicht in diskreten Beobachtungsintervallen, sondern kontinuierlich gemessen wird. Die beiden Verteilungsfunktionen (11.85) und (11.86) sind in allen Punkten t ∈ R stetig. Diese Eigenschaft gilt aber nicht generell für Verteilungsfunktionen. Für eine streng monoton steigende Folge t1 < t2 < . . . < tn < . . . < s von reellen Zahlen mit limn→∞ tn = s gilt nämlich ∞ [ n=1 (−∞, tn ] = {t ∈ R ; t < s} = (−∞, s) 75 (11.87) Der Limes s ist in dieser Vereinigungsmenge nicht enthalten, weil tn < s für alle n. Wenn wir mit F (s−0) den Grenzwert der Funktionswerte F (tn ) für n → ∞ bezeichnen, d.h. den linksseitigen Grenzwert der Funktion F an der Stelle s, so folgt aus (11.87) und den Sätzen über monotone Ereignisfolgen, dass F (s − 0) = P (−∞, s) (11.88) und wegen (−∞, s] = (−∞, s) + {s} F (s) − F (s − 0) = P {s} (11.89) Eine Unstetigkeitsstelle der Verteilungsfunktion F an einer Stelle s bedeutet also, dass das Elementarereignis {s} eine positive Wahrscheinlichkeit besitzt. 11.1.1 Berechnung von Intervallwahrscheinlichkeiten Mit Hilfe der Verteilungsfunktion kann man die Wahrscheinlichkeiten aller Typen von Intervallen berechnen. 1. Ein Intervall der Form (a, ∞) ist die Komplementärmenge zum Intervall (−∞, a], so dass P (a, ∞) = 1 − P (−∞, a] = 1 − F (a) (11.90) 2. Für [a, ∞) gilt nach (11.88) P [a, ∞) = 1 − P (−∞, a) = 1 − F (a − 0) (11.91) 3. Für das Intervall (a, b] folgt aus (−∞, b] = (−∞, a] + (a, b] und dem Additivitätsaxiom für Wahrscheinlichkeiten P (a, b] = F (b) − F (a) (11.92) 4. Für das abgeschlossene Intervall [a, b] ist (−∞, b] = (−∞, a) + [a, b] und daher P [a, b] = F (b) − F (a − 0) (11.93) Ist die Verteilungsfunktion stetig, so ist F (s) = F (s − 0) für alle s. Elementarereignisse besitzen in diesem Fall alle die Wahrscheinlichkeit Null und für alle Typen von Intervallen I mit den Rändern a und b ist P (I) = F (b) − F (a) 76 (11.94) 11.1.2 Verteilungsfunktionen und Dichten Die beiden Verteilungsfunktionen (11.85) und (11.86) sind nicht nur stetig, sondern sogar stückweise stetig differenzierbar. Daraus folgt, dass sie Stammfunktionen zu integrierbaren Funktionen f (x) sind: Z Z t f (x)dx (11.95) F (t) = 1(−∞,t] (x)f (x)dx = −∞ Im Fall (11.85) der uniformen Verteilung ist das die Funktion für x < a 0 1 für a ≤ x ≤ b f1 (x) = b−a 0 für x > b und bei der Exponentialverteilung (11.86) 0 f2 (x) = λe−λx für x ≤ 0 für x > 0 (11.96) (11.97) Für die Integration wie in (11.95) ist es dabei unwesentlich, welchen Wert man den Funktionen f1 und f2 an den Sprungstellen a, b bzw. 0 zuweist. Da eine Verteilungsfunktion F monoton nichtfallend ist, ist nach (11.95) zugehörige Funktion f fast überall nichtnegativ und wegen limt→∞ F (t) = 1 hat man Z Z ∞ f (x)dx = f (x)dx = 1 −∞ Die Funktion f (x) ist also eine Dichte mit Z P (−∞, t] = F (t) = 1(−∞,t] (x)f (x)dx für die zur Verteilungsfunktion F gehörige Verteilung P . Wie man zeigen kann — P ist ja durch F eindeutig bestimmt — folgt daraus Z P (B) = 1B (x)f (x)dx für alle Borelschen Mengen B. Dies bedeutet: Satz 11.3 Ist die Verteilungsfunktion F von der Form (11.95), so ist die zugehörige Verteilung P absolutstetig mit Dichte f . 11.1.3 Die Verteilungsfunktion einer diskreten Verteilung Eine diskrete Verteilung z.B. mit der Ergebnismenge X = N0 und Wahrscheinlichkeitsfunktion f (n) kann man wie im vorhergehenden Kapitel beschrieben als eindimensionale Verteilung auffassen, bei der den Elementarereignissen {n} mit n ∈ N0 die 77 Wahrscheinlichkeit P {n} = f (n) und Borelschen Mengen B mit B ∩ N0 = ∅ die Wahrscheinlichkeit P (B) = 0 zugeordnet wird. Die Verteilungsfunktion dieser Verteilung ist durch X f (n) F (t) = P (−∞, t] = n∈N0 ,n≤t gegeben. In Abbildung 16 ist der Verlauf einer solchen Funktion dargestellt. Aus ihr ersieht man, dass Verteilungsfunktionen von diskreten Verteilungen reine Treppenfunktionen sind, d.h. dass der Graph einer solchen Funktion nur aus Sprüngen und horizontalen Teilstücken besteht. 6 1 [ [ [ [ 6 f (0) 6 f (1) 6 f (3) F (t) ) 6 f (2) ) ) 1 2 3 -t Abbildung 16: Die Verteilungsfunktion einer diskreten Verteilung 11.2 Die Momente einer eindimensionalen Verteilung Mit der physikalischen Interpretation der Dichte einer absolutstetigen eindimensionalen Verteilung als der spezifischen Dichtefunktion einer über die reellen Zahlenachse kontinuierlich verteilten Wahrscheinlichkeitsmasse lassen sich die Konzepte aus dem Kapitel 7 vollständig übertragen, wobei an die Stelle des Summenzeichens das Integral tritt. Sei P eine eindimensionale absolutstetige Verteilung mit der Dichte f (x). Definition 11.2 Soweit die folgenden Integrale im Lebesgueschen Sinne existieren, heißen Z mk = mk (P ) = xk f (x)dx für k = 1, 2, . . . die k-ten (absoluten) Momente und Z m̂k = m̂k (P ) = (x − m1 (P ))k f (x)dx 78 für k = 2, 3, . . . die k-ten zentralen Momente der Verteilung P . Speziell das erste Moment m1 heißt der Mittelwert und das zweite zentrale Moment m̂2 die Varianz von P . Analog zur Vorgehensweise im Kapitel 7 beweist man den Steinerschen Satz m̂2 = m2 − m21 (11.98) und die Ungleichung von Tschebyscheff m̂2 (P ) ε2 mit der Menge Bε = {x ∈ X ; |x − m1 (P )| > ε}. P (Bε ) ≤ (11.99) 11.2.1 Mittelwert und Varianz der Normalverteilung Die Dichte 2 1 ϕ(x) = √ e−x /2 2π der standardisierten Normalverteilung N (0, 1) konvergiert für x → ±∞ so schnell gegen Null, dass die Funktionen x 7→ xk ϕ(x) für alle k = 1, 2, 3, . . . im Lebesgueschen und im uneigentlich-Riemannschen Sinn integrierbar sind. Die Funktion h(x) = xϕ(x) ist eine ungerade Funktion, d.h. h(−x) = −h(x). Das Integral einer derartigen Funktion über ein zum Nullpunkt symmetrisches Intervall (−a, a) ist stets Null, so dass m1 := m1 (N (0, 1)) = 0 und die Varianz m̂2 gleich dem zweiten Moment m2 ist. Zur Berechnung des zweiten Moments wenden wir die Regel der partiellen Integration auf den Integranden 2 2 x2 e−x /2 = x xe−x /2 an, wobei der Term in runden Klammern die Stammfunktion 2 −e−x besitzt. Damit ist m2 = = /2 Z ∞ 2 1 √ x xe−x /2 dx 2π −∞ h Z ∞ i∞ 1 −x2 /2 −x2 /2 √ x(−e ) − (−e )dx −∞ 2π −∞ Wie oben angemerkt, konvergiert die Funktion in eckigen Klammern für x → ±∞ gegen Null, so dass Z ∞ Z 1 −x2 /2 e dx = ϕ(x)dx = 1 m2 = √ 2π −∞ denn das Integral einer Dichte über den gesamten Ergebnisraum hat stets den Wert 1. 79 11.2.2 Die momenterzeugende Funktion Analog zum Abschnitt 7.2.1 über momenterzeugende Funktionen bei diskreten Verteilungen nennen wir eine eindimensionale Verteilung P nichtnegativ, wenn P (−∞, 0] = 0. Ist die Verteilung absolutstetig, so folgt daraus, dass f (x) = 0 für alle x < 0 (evtl. mit Ausnahme der x aus einer Nullmenge). In diesem Fall definieren wir die momenterzeugende Funktion für Argumente t < 0 als Z Z ∞ tx M (t) = e f (x)dx = etx f (x)dx (11.100) 0 Ersetzt man die Variable t durch t = −s, so sieht man, dass es sich bei der momenterzeugenden Funktion einfach um die Laplace-Transformation der Dichte handelt. Sie besitzt die gleichen Eigenschaften wie die momenterzeugenden Funktion von diskreten Verteilungen: Für t < 0 ist M (t) beliebig oft differenzierbar mit M (k) (t) = dk M (t) = dtk Z ∂ k tx e f (x)dx = ∂tk Z xk etx f (x)dx lim xk etx f (x)dx = Z xk f (x)dx = mk (P ) und M (k) (0) := lim M (k) (t) = t→0 Z t→0 Falls das k-te Moment nicht existiert, erhält man — da der Integrand nichtnegativ ist — für M (k) (0) den Wert ∞. 11.2.3 Mittelwert und Varianz der Exponentialverteilung Die Exponentialverteilung mit der Dichte (11.97) ist eine nichtnegative Verteilung. Ihre momenterzeugende Funktion berechnet sich zu Z ∞ Z ∞ tx −λx M (t) = e λe dx = λ e(t−λ)x dx 0 0 Der Integrand besitzt die Stammfunktion gegen Null konvergiert, so dass 1 (t−λ)x , t−λ e M (t) = die wegen (t − λ) < 0 für x → ∞ λ λ−t Die erste und zweite Ableitung von M (t) sind M 0 (t) = λ 2λ und M 00 (t) = (λ − t)2 (λ − t)3 woraus sich die Momente m1 = M 0 (0) = 1/λ, m2 = 2/λ2 und die Varianz m̂2 = m2 − m21 = 1/λ2 ergeben. 80 12 Zufallsvariable Das Konzept einer Zufallsvariablen wurde im Kapitel 8 für diskrete Verteilungen erläutert. In diesem Abschnitt wird der Begriff der Zufallsvariablen präziser gefasst. 12.1 Zufallsgrößen Wir betrachten zunächst Abbildungen X : Ω −→ Ω̂ mit beliebigen Mengen Ω und Ω̂ als Definitions- und Wertebereich. 12.1.1 Urbildmengen Für die Wahrscheinlichkeitsrechnung sind vor allem die Urbilder (X ∈ A) = {ω ∈ Ω ; X(ω) ∈ A} (12.101) (X ∈ A ∪ B) = (X ∈ A) ∪ (X ∈ B) [ [ (X ∈ Ak ) = (X ∈ Ak ) (12.102) von Teilmengen A ⊂ Ω̂ von Interesse. Für das Urbild als Funktion dieser Teilmengen gelten die folgenden Rechenregeln, wobei der Index k in den nachstehenden Gleichungen eine beliebige Indexmenge durchlaufen kann: k (12.103) k (X ∈ A ∩ B) = (X ∈ A) ∩ (X ∈ B) \ \ (X ∈ Ak ) Ak ) = (X ∈ (12.104) (12.105) k k (X ∈ A) = (X ∈ A) (X ∈ Ω̂) = Ω (12.106) (12.107) Man beweist diese Gleichungen dadurch, dass man zeigt, dass jedes Element der Menge auf der linken Seite auch ein Element der rechten Seite ist und umgekehrt. Am Beispiel von (12.102) also ω ∈ (X ∈ A ∪ B) ⇔ ⇔ ⇔ ⇔ X(ω) ∈ A ∪ B X(ω) ∈ A oder X(ω) ∈ B ω ∈ (X ∈ A) oder ω ∈ (X ∈ B) ω ∈ (X ∈ A) ∪ (X ∈ B) Aus diesen Regeln ergeben sich die für die Wahrscheinlichkeitsrechnung wichtigen Folgerungen (X ∈ ∅) = A∩B =∅ ⇒ (X ∈ A + B) X (X ∈ Ak ) k = = ∅ (X ∈ A) ∩ (X ∈ B) = ∅ (X ∈ A) + (X ∈ B) X (X ∈ Ak ) k 81 (12.108) (12.109) (12.110) (12.111) 12.1.2 Zufallsgrößen Wenn man von der Wahrscheinlichkeit sprechen will, dass eine Abbildung X einen Wert in einer vorgegebenen Menge A annimmt, d.h. von der Wahrscheinlichkeit des Ereignisses (X ∈ A), so muss sichergestellt sein, dass diese Urbildmenge im Definitionsbereich der entsprechenden Wahrscheinlichkeit liegt. Definition 12.1 Sind A bzw. Â σ-Algebren auf den Mengen Ω bzw. Ω̂ so heisst eine Abbildung X : Ω −→ Ω̂ mit der Eigenschaft (X ∈ A) ∈ A für alle A ∈ Â (12.112) A-Â-messbar. Im Rahmen der Wahrscheinlichkeitsrechnung wird eine derartige Funktion anders bezeichnet. Sind Ω und A Bestandteile eines Wahrscheinlichkeitsraums (Ω, A, P ) so heißt eine A-Â-messbare Abbildung X kurz eine Zufallsgröße. Die σ-Algebren, bezüglich derer die Zufallsgröße messbar ist, werden dabei meist nicht erwähnt, da sie sich aus dem Zusammenhang ergeben. 12.1.3 Die Verteilung einer Zufallsgröße Ist (Ω, A, P ) ein Wahrscheinlichkeitsraum, Â eine σ-Algebra auf einer Menge Ω̂ und X : Ω −→ Ω̂ eine Zufallsgröße, so liegen die Urbilder (X ∈ A) für alle A ∈ Â im Definitionsbereich der Wahrscheinlichkeit P . Durch P X (A) = P (X ∈ A) erhält man daher eine wohldefinierte Mengenfunktion P stabe P schon andeutet, gilt (12.113) X : Â −→ R. Wie der Buch- Satz 12.1 Die Abbildung P X ist eine Wahrscheinlichkeit. Der Beweis dieser Aussage ist leicht nachzuvollziehen. Es ist lediglich mit Hilfe der Rechenregeln für Urbilder nachzurechnen, dass sich die Axiome 1 bis 4 von der Wahrscheinlichkeit P auf die Funktion P X übertragen. Bezeichnung: Die Wahrscheinlichkeit P X heißt die Verteilung der Zufallsgröße X. Zur schematischen Darstellung dieser Situation werden wir im folgenden stets das Diagramm X (Ω, A, P ) −→ (Ω̂, Â, P X ) verwenden. 82 12.2 Zufallsvariable Zufallsgrößen mit der Menge der reellen Zahlen als Wertebereich kommen besonders häufig vor und erhalten daher eine spezielle Bezeichnung. Definition 12.2 Eine Abbildung X : Ω −→ R auf einem Wahrscheinlichkeitsraum (Ω, A, P ), die messbar bezüglich der σ-Algebra A und der σ-Algebra B der Borelschen Mengen auf R ist, heisst eine Zufallsvariable. Es ist unmöglich anhand dieser Definition nachzuprüfen ob eine vorgegebene Funktion X : Ω −→ R eine Zufallsvariable ist, da es keine Methode gibt, nach der man alle Borelschen Mengen erzeugen kann. Man kann aber zeigen, dass man sich zum Test der Messbarkeit auf die speziellen Mengen (X ≤ t) = (X ∈ (−∞, t]) = {ω ∈ Ω ; X(ω) ≤ t} (12.114) beschränken kann: Satz 12.2 Eine Funktion X : Ω −→ R auf einem Wahrscheinlichkeitsraum (Ω, A, P ) ist genau dann eine Zufallsvariable, wenn für alle reellen Zahlen t die Urbilder (X ≤ t) in der σ-Algebra A liegen. Der Test der Messbarkeit nach diesem Satz lässt sich mit dem Problem verbinden, die Verteilung P X der Zufallsvariable X zu bestimmen, denn die Verteilungsfunktion F X dieser Verteilung ist nach (11.84) und (12.113) durch F X (t) = P X (−∞, t] = P (X ∈ (−∞, t]) = P (X ≤ t) (12.115) gegeben. Für die praktische Anwendung heißt das: Wenn es gelingt, für alle rellen Zahlen t die Größe F X (t) zu berechnen, so müssen alle Urbilder (X ≤ t) im Definitionsbereich der Wahrscheinlichkeit P liegen. X ist damit eine Zufallsvariable und F X (t) die Verteilungsfunktion der Verteilung von X, die ja bekanntlich diese Verteilung vollständig charakterisiert. Beispiel 1: Bestimme die Verteilung von X(s) = − ln(s) auf dem Wahrscheinlichkeitsraum (R, B, P ), wenn P die U(0, 1)-Verteilung ist. Die U(0, 1)-Verteilung ist—vgl. (11.85)—durch P (B) = λ(B ∩ (0, 1)) = λ(B ∩ (0, 1)) λ((0, 1)) gegeben. Der natürliche Logarithmus ln(s) ist nur für positive reelle Zahlen s definiert. Wie sich aus den folgenden Berechnungen ergibt, ist es gleichgültig, wie man die Funktion X(s) für Zahlen s ≤ 0 festlegt, da die Verteilung P dieser Menge die Wahrscheinlichkeit Null zuordnet. Wir setzen der Vollständigkeit halber X(s) = 0 für nichtpositive s. 83 Zur Berechnung der Verteilungsfunktion F X (t) spalten wir die Menge (X ≤ t) auf: (X ≤ t) = = =: {s ∈ R ; X(s) ≤ t} {s ≤ 0 ; X(s) ≤ t} + {0 < s < 1 ; − ln(s) ≤ t} +{s ≥ 1 ; X(s) ≤ t} + A− t + Bt + At − + Da die Mengen A− t und At disjunkt zum offenen Intervall (0, 1) sind, ist P (At ) = + P (At ) = 0 und P (X ≤ t) = P (Bt ). Für 0 < s < 1 ist − ln(s) > 0, so dass Bt = ∅, wenn t ≤ 0 und Bt = {0 < s < 1 ; s ≥ e−t } = [e−1 , 1) für t > 0. Daraus folgt F X (t) = 0 P [e−1 , 1) = 1 − e−t für t ≤ 0 für t > 0 d.h. F X (t) ist die Verteilungsfunktion der Exponentialverteilung bzw. die Zufallsvariable X ist exponentiell verteilt mit Parameter λ = 1. Beispiel 2: Beim Schießen auf eine Zielscheibe kommt es nicht auf die genaue Lage des Treffpunkts an, sondern darauf, in welchem Ring der Treffer liegt. Wir denken uns die Zielscheibe in eine Ebene mit cartesischem Koordinatensystem eingebettet, wobei das Zentrum der Zielscheibe mit dem Koordinatenursprung zusammenfallen soll. Die Treffpunkte sind dann durch Punkte (x1 , x2 ) aus dem R2 charakterisiert und die Information, in welchem Ring der Treffpunkt liegt, ist im Abstand q X(x1 , x2 ) = x21 + x22 des Treffpunkts vom Zentrum enthalten. Als Wahrscheinlichkeitsgesetz für die Treffpunkte wählen wir die absolutstetige zweidimensionale Verteilung P mit der Dichte f (x1 , x2 ) = 1 − 1 (x21 +x22 ) e 2 2π Die Mengen (X ≤ t) = {(x1 , x2 ) ∈ R2 ; q x21 + x22 ≤ t} =: Bt enthalten für t < 0 keine Elemente, da die Quadratwurzel nichtnegative Werte hat. Für t ≥ 0 handelt es sich um die Kreisscheiben mit Radius t, also um zweidimensionale Borelsche Mengen. X ist damit eine Zufallsvariable auf dem Wahrscheinlichkeitsraum (R2 , B2 , P ) und für die Verteilungsfunktion F X (t) der Verteilung dieser Zufallsvariablen gilt für t < 0 X R0 F (t) = P (Bt ) = f (x , x )d(x , x ) für t ≥ 0 1 2 1 2 Bt 84 Zur Auswertung des Integrals parametrisieren wir die Menge Bt durch Polarkoordinaten: x1 x2 = r cos(φ) = r sin(φ) mit 0 ≤ r ≤ t, 0 ≤ φ < 2π und der Jacobischen Funktionaldeterminante ∂(x1 , x2 ) =r ∂(r, φ) Wegen x21 + x22 = r2 (cos2 (φ) + sin2 (φ)) = r2 erhält man Z t Z 1 − 1 r2 2 f (x1 , x2 )d(x1 , x2 ) = dφ dr re 2π 0 0 Bt Z t h i 1 2 t 1 2 re− 2 r dφdr = −e− 2 r = Z 2π 0 0 = − 21 t2 1−e Die eindimensionale Verteilung mit der Verteilungsfunktion ( 0 für t ≤ 0 2 F (t) = − 12 ( βt ) 1−e für t > 0 (12.116) heißt die Rayleigh-Verteilung mit Parameter β (> 0). Die Verteilung von X ist somit die Rayleighverteilung mit Parameter β = 1 und die Wahrscheinlichkeit, dass der Treffpunkt in einem Ring liegt, von der Form 2 P (a ≤ X ≤ b) = P X [a, b] = F X (b) − F X (a) = e−0.5a − e−0.5b 85 2 13 Funktionen von Zufallsvariablen Eine der häufigsten Problemstellungen in den Anwendungen der Wahrscheinlichkeitsrechnung ist die Bestimmung der Verteilung von Zufallsvariablen, die Funktionen anderer Zufallsvariablen sind, wie z.B. Y1 (ω) = X12 (ω) + X22 (ω) Y2 (ω) = a1 X1 (ω) + a2 X2 (ω) + a3 X3 (ω) usw. Wir betrachten in diesem Kapitel allgemein die folgende Situation: Gegeben sind Zufallsvariable X1 , X2 , . . . , Xn auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und m reelle Funktionen yi = Gi (x1 , . . . , xn ) i = 1, . . . , m von n reellen Argumenten x1 , . . . , xn . Daraus werden Funktionen Yi (ω) = Gi X1 (ω), . . . , Xn (ω) (13.117) gebildet. Zur Vereinfachung der Schreibweise fassen wir diese Funktionen zu vektorwertigen Abbildungen X : Ω −→ Rn , G : Rn −→ Rm und Y : Ω −→ Rm zusammen: X(ω) = X1 (ω), X2 (ω), . . . , Xn (ω) G(x) = G1 (x), G2 (x), . . . , Gm (x) mit x = (x1 , . . . , xn ) Y (ω) = Y1 (ω), Y2 (ω), . . . , Ym (ω) Die Gleichungen (13.117) schreiben wir kurz oder — ohne Argument — Y (ω) = G X(ω) Y =G◦X (13.118) (13.119) und nennen Y die Komposition von X und G. 13.1 Zufallsvektoren Um Wahrscheinlichkeiten berechnen zu können, müssen die Abbildungen X, G und Y messbar bezüglich der jeweiligen σ-Algebren sein. Wir nennen eine Abbildung X : Ω −→ Rn auf der Ergebnismenge eines Wahrscheinlichkeitsraums (Ω, A, P ), die bezüglich A und der σ-Algebra Bn der n-dimensionalen Borelschen Mengen messbar ist, einen Zufallsvektor oder eine n-dimensionale Zufallsvariable. 86 Für jedes ω ∈ Ω ist der Wert X(ω) eines solchen Zufallsvektors ein Vektor, dessen Komponenten wir mit Xk (ω) bezeichnen X(ω) = X1 (ω), X2 (ω), . . . , Xn (ω) Die dadurch festgelegten Funktionen Xk : Ω −→ R nennen wir die Komponenten des Zufallsvektors X und schreiben kurz X = (X1 , X2 , . . . , Xn ) Für die Beziehung zwischen Zufallsvektoren und Zufallsvariablen gilt der folgende Satz, den wir nur zitieren aber nicht beweisen: Satz 13.1 X = (X1 , X2 , . . . , Xn ) ist ein Zufallsvektor genau dann, wenn alle Komponenten Zufallsvariable sind. Man kann also stets eine beliebige Anzahl Z1 , Z2 , . . . , Zm von Zufallsvariablen zu einer vektorwertigen Funktion Z = (Z1 , . . . , Zm ) zusammen fassen und als Zufallsvektor behandeln. 13.2 Der Kompositionssatz für Zufallsvektoren Wie eingangs dieses Kapitels beschrieben, wird das Problem behandelt, die Verteilung der Komposition Y = G ◦ X zu berechnen unter der Voraussetzung, dass die (ndimensionale) Verteilung P X des Zufallsvektors X und die Vektorfunktion G bekannt sind. Unter der Voraussetzung, dass Y ein Zufallsvektor ist, lässt sich diese Situation durch das Diagramm (Ω, A, P ) HH X HH HH Y =G◦X H - HH (Rn , Bn , P X ) G HH j ? (R , Bm , P ) m veranschaulichen. Die Wahrscheinlichkeit P kann dabei einmal die Verteilung P Y des Zufallsvektors Y auf (Ω, A, P ) sein und zum anderen die Verteilung P G der Abbildung G bezüglich des Wahrscheinlichkeitraums (Rn , Bn , P X ). Wie dieses Diagramm schon suggeriert, gilt der 87 Satz 13.2 Sind X : Ω −→ Rn und G : Rn −→ Rm Zufallsvektoren, dann ist auch Y = G ◦ X ein Zufallsvektor und Y und G besitzen die gleiche Verteilung: P Y = P G . Beweis: Zu zeigen ist, dass für beliebige Borelsche Mengen B ⊂ Rm das Urbild (Y ∈ B) in der σ-Algebra A liegt und P Y (B) = P G (B) gilt. 1. Sei A = (G ∈ B). Da G ein Zufallsvektor ist, ist A eine Borelsche Menge im Rn und für beliebige ω ∈ Ω gilt ω ∈ (Y ∈ B) ⇐⇒ Y (ω) = G X(ω) ∈ B ⇐⇒ X(ω) ∈ (G ∈ B) = A ⇐⇒ ω ∈ (X ∈ A) d.h. (Y ∈ B) = (X ∈ A) = X ∈ (G ∈ B) 2. Da X ein Zufallsvektor ist, ist (X ∈ A) und damit (Y ∈ B) ein Ereignis aus A. Y ist also auch ein Zufallsvektor. 3. Weiter gilt nach Definition der Verteilung einer Zufallsgröße P Y (B) = P (Y ∈ B) = P (X ∈ A) = = P X (A) = P X (G ∈ B) = = P G (B) und damit, dass es sich bei P Y und P G um das gleiche Wahrscheinlichkeitsgesetz handelt. ♦ 13.3 Mehrdimensionale Verteilungen Nach Satz 13.2 besteht das Problem jetzt also in der Bestimmung der Verteilung P G in dem Schema G (Rn , Bn , P X ) −→ (Rm , Bm , P G ) wobei die Funktion G : Rn −→ Rm und die Verteilung P X als bekannt vorausgesetzt sind. Da wir uns in dieser Vorlesung nicht mit der allgemeinen Charakterisierung von ndimensionalen Verteilungen befassen, setzen wir für das Weitere die in der Praxis fast ausschließlich relevante Situation voraus, dass die Verteilung P X absolutstetig mit einer Dichte f (x) = f (x1 , x2 , . . . , xn ) ist: Z X P (B) = 1B (x)f (x)dx (13.120) 88 13.4 Marginalverteilungen Als erstes versuchen wir, die Verteilungen der Komponenten eines Zufallsvektors zu berechnen. Definition 13.1 Die Verteilung P Xk der k-ten Komponente eines Zufallsvektors X = (X1 , X2 , . . . , Xn ) heißt die k-te Marginalverteilung oder k-te Randverteilung von P X. Mit der Funktion Zk : Rn −→ R, Zk (x1 , x2 , . . . , xn ) = xk , lässt sich die k-te Komponente als Komposition Xk = Zk ◦ X darstellen. Es ist daher P Xk = P Zk und für Borelsche Teilmengen B ⊂ R erhält man Z P Zk (B) = P X (Zk ∈ B) = 1(Zk ∈B) (x)f (x)dx wenn P X die Dichte f besitzt. Um die Vorgehensweise zu verdeutlichen, nehmen wir konkrete Zahlen: Sei n = 3 und k = 2, x = (x1 , x2 , x3 ). Es gilt dann (Z2 ∈ B) = {x = (x1 , x2 , x3 ) ; x2 ∈ B} und wegen x ∈ (Z2 ∈ B) ⇔ x2 ∈ B ist 1(Z2 ∈B) (x) = 1B (x2 ). Damit erhalten wir nach dem Satz von Fubini, wobei wir zur Verdeutlichung den Integrationsbereich am Integralzeichen vermerken, R 1 (x , x2 , x3 )f (x1 , x2 , x3 )d(x1 , x2 , x3 ) R3 (Z2 ∈B) 1 R R R = 1 (x ) R R f (x1 , x2 , x3 )dx1 dx3 dx2 R B 2 R = 1 (x )f (x )dx2 R B 2 2 2 P Z2 besitzt also – wie aus der letzten Zeile ersichtlich – die Dichte Z Z f2 (x2 ) = f (x1 , x2 , x3 )dx1 dx3 . R R Im allgemeinen Fall erhalten wir für P Zk auf die gleiche Weise die Dichte Z Z ... fk (xk ) = f (x1 , x2 , . . . , xn ) | R {z R} (n−1)-mal dx1 . . . dxk−1 dxk+1 . . . dxn . Bezeichnung: fk heißt die k-te Marginaldichte oder k-te Randdichte von f . 89 Beispiel: Die Marginaldichten von −x e 2 f (x1 , x2 ) = 0 falls x1 > 0 und x2 > x1 sonst 1. Marginaldichte: R Ist x1 ≤ 0, so ist die Funktion x2 7−→ f (x1 , x2 ) identisch Null und daher f1 (x1 ) = R f (x1 , x2 )dx2 = 0. Für x1 > 0 ist x2 7−→ f (x1 , x2 ) nur im Bereich x2 > x1 von Null verschieden, so dass Z ∞ Z ∞ Z e−x2 dx2 = e−x1 f (x1 , x2 )dx2 = f (x1 , x2 )dx2 = f1 (x1 ) = x1 x1 R 2. Marginaldichte: R Ist x2 ≤ 0, so ist die Funktion x1 7−→ f (x1 , x2 ) identisch Null und daher f2 (x2 ) = R f (x1 , x2 )dx1 = 0. Für x2 > 0 ist x1 7−→ f (x1 , x2 ) nur im Bereich 0 < x1 < x2 von Null verschieden, so dass Z x2 Z x2 Z e−x2 dx1 = x2 e−x2 f (x1 , x2 )dx1 = f (x1 , x2 )dx1 = f2 (x2 ) = R 0 0 13.5 Stochastische Unabhängigkeit von Zufallsvariablen Die stochastische Unabhängigkeit von Zufallsvariablen wird wie im diskreten Fall definiert: Definition 13.2 Zufallsvariable X1 , X2 , . . . , Xn auf einem Wahrscheinlichkeitsraum (Ω, A, P ) heißen stochastisch unabhängig, wenn für beliebige Borelsche Mengen B1 , B2 , . . . , Bn aus R gilt P (X1 ∈ B1 ) ∩ (X2 ∈ B2 ) ∩ . . . ∩ (Xn ∈ Bn ) = P (X1 ∈ B1 ) · P (X2 ∈ B2 ) · . . . · P (Xn ∈ Bn ) (13.121) Mit Hilfe der Marginaldichten lässt sich feststellen, ob die Komponenten eines Zufallsvektors X = (X1 , X2 , . . . , Xn ) stochastisch unabhängig sind. Satz 13.3 Sei X = (X1 , X2 , . . . , Xn ) ein Zufallsvektor, dessen Verteilung P X die Dichte f besitzt. Dann gilt: Die Komponenten X1 , X2 , . . . , Xn sind genau dann stochastisch unabhängig, wenn es Dichten fk : R −→ R gibt, so dass für fast alle Vektoren x = (x1 , x2 , . . . , xn ) ∈ Rn gilt f (x1 , x2 , . . . , xn ) = f1 (x1 )f2 (x2 ) · · · fn (xn ). Die fk sind dabei die Marginaldichten von f . Beweis: Die linke Seite von (13.121) lässt sich wegen (X1 ∈ B1 ) ∩ (X2 ∈ B2 ) ∩ . . . ∩ (Xn ∈ Bn ) = (X ∈ B1 × B2 × · · · × Bn ) 90 mit dem kartesischen Produkt B1 × B2 × · · · × Bn der Mengen Bk und wegen der Identität 1B1 ×B2 ×···×Bn (x1 , x2 , . . . , xn ) = 1B1 (x1 )1B2 (x2 ) · · · 1Bn (xn ) für die Indikatorfunktionen mit Hilfe der Dichte f durch ein Integral darstellen: P ((X1 ∈ B1 ) ∩ (X2 ∈ B2 ) ∩ . . . ∩ (Xn ∈ Bn )) X = P R (B1 × B2 × · · · × Bn ) = Rn 1B1 (x1 )1B2 (x2 ) · · · 1Bn (xn )f (x1 , x2 , . . . , xn )d(x1 , x2 , . . . , xn ) Wegen P (Xk ∈ Bk ) = P Xk (Bk ) = Z (13.122) 1Bk (xk )fk (xk )dxk erhält man für die rechte Seite von (13.121) Qn P (Xk ∈ Bk ) (13.123) R Qn k=1 1 (x )f (x )dx = Bk k k k k k=1 R = Rn 1B1 (x1 )1B2 (x2 ) · · · 1Bn (xn )f1 (x1 )f2 (x2 ) · · · fn (xn )d(x1 , x2 , . . . , xn ) Sind die X1 , X2 , . . . , Xn stochastisch unabhängig, so folgt aus der Gleichung (13.121) und diesen Darstellungen, dass für beliebige Borelsche Mengen Bk die Integrale (13.122) und (13.123) gleich sind, woraus folgt, dass für fast alle x = (x1 , x2 , . . . , xn ) gilt: f (x1 , x2 , . . . , xn ) = f1 (x1 )f2 (x2 ) · · · fn (xn ). (13.124) Ist umgekehrt die Dichte f von der Form f (x1 , x2 , . . . , xn ) = g1 (x1 )g2 (x2 ) · · · gn (xn ) mit Dichten gk , so sind die Marginaldichten nach der obigen Formel gleich fZk (xk )Z ... = g1 (x1 )g2 (x2 ) · · · gn (xn ) | R {z R} (n−1)-mal dx1 . . . Zdxk−1 dxk+1 . . . dx Zn = gk (xk ) g1 (x1 )dx1 . . . gn (xn )dxn R R | {z } | {z } =1 =1 = gk (xk ), d.h., es gilt (13.124). Daraus folgt aber wiederum für beliebige Borelsche Mengen Bk die Gleichung (13.121), d.h., die stochastische Unabhängigkeit der Komponenten Xk . Funktionen von Zufallsvariablen: Für die stochastische Unabhängigkeit von Funktionen von Zufallsvariablen benötigt man noch einen Satz, dessen Aussage unmittelbar einleuchtet: 91 Satz 13.4 Sind X1 und X2 stochastisch unabhängige Zufallsvariable und sind Gi : R −→ R für i = 1, 2 B − B-messbare Funktionen, so sind die Zufallsvariablen Y1 = G1 ◦ X1 und Y2 = G2 ◦ X2 ebenfalls stochastisch unabhängig. Beweis Für eindimensionale Borelsche Mengen B1 und B2 sind—wie im Beweis des Kompositionssatzes 13.2 bereits verwendet—die Mengen Ai = (Gi ∈ Bi ) ebenfalls Borelsch und es gilt (Yi ∈ Bi ) = (Xi ∈ Ai ). Daraus folgt wegen der stochastischen Unabhängigkeit der Xi , dass P [(Y1 ∈ B1 ) ∩ (Y2 ∈ B2 )] = P [(X1 ∈ A1 ) ∩ (X2 ∈ A2 )] = P (X1 ∈ A1 ) · P (X2 ∈ A2 ) = P (Y1 ∈ B1 ) · P (Y2 ∈ B2 ) und damit die stochastische Unabhängigkeit der Yi . ♦ 13.6 Der Transformationssatz für Dichten Eines der wichtigsten Hilfsmittel zur Berechnung der Verteilung eines Zufallsvektors Y = G ◦ X bei bekannter Verteilung P X des Zufallsvektors X ist der sogenannte Transformationssatz für Dichten. Wie im Abschnitt 13.2 dargelegt, ist die Verteilung von Y gleich der des Zufallsvektors G in der durch das Diagramm G (Rn , Bn , P X ) −→ (Rn , Bn , P G ) beschriebenen Situation, wobei wir wieder annehmen, dass die Verteilung P X die Dichte f (x1 , . . . , xn ) besitzt und die Verteilung des Zufallsvektors G : Rn −→ Rn mit den Komponentenfunktionen y1 y2 = G1 (x1 , x2 , . . . , xn ) = G2 (x1 , x2 , . . . , xn ) .. . yn = Gn (x1 , x2 , . . . , xn ) (13.125) berechnet werden muss. Für diese Verteilung gilt gemäß Definition Z P G (B) = P X (G ∈ B) = 1(G∈B) (x)f (x)dx Eine Dichte g der Verteilung P G müsste dementsprechend so beschaffen sein, dass die Gleichung Z Z 1B (y)g(y)dy = 1(G∈B) (x)f (x)dx für beliebige Borelsche Mengen B des Rn erfüllt ist. 92 13.6.1 Der Parametrisierungssatz für Bereichsintegrale Etwas Ähnliches findet man in der Analysis unter dem Stichwort Substitutionsformel oder Parametrisierungssatz für Bereichsintegrale. Dort ist üblicherweise eine Funktion g und eine Menge B vorgegeben, über die die Funktion integriert werden soll. Falls diese Menge ein etwas kompliziertes Aussehen hat, versucht man sie zu parametrisieren, d.h. eine einfachere“ Menge IB und eine Parametrisierung G : IB −→ B zu finden, die die ” Menge IB bijektiv auf B abbildet. Unter Voraussetzungen, die weiter unten aufgeführt werden, gilt Z Z f (x)dx (13.126) g(y)dy = IB B mit der Funktion f (x) = g(G(x))|JG (x)| (13.127) Dabei ist JG (x) die Funktionaldeterminante von G, d.h. die Determinante der Matrix der partiellen Ableitungen der Komponenten von G: JG (x) = det ∂G1 ∂x1 (x) ∂G2 ∂x1 (x) .. . ∂Gn ∂x1 (x) ∂G1 ∂x2 (x) ∂G2 ∂x2 (x) ... ... .. .. . . ∂Gn (x) . . . ∂x2 ∂G1 ∂xn (x) ∂G2 ∂xn (x) .. . ∂Gn ∂xn (x) In der Wahrscheinlichkeitsrechnung ist die Situation etwas anders gelagert. Hier ist die Funktion f und die Parametrisierung vorgegeben und die Funktion g ist zu bestimmen. Da aber die Gleichung (13.126) immer erfüllt ist, wenn die beiden Funktionen f und g in der Beziehung (13.127) zueinander stehen, lässt sich dieses Problem einfach dadurch lösen, dass man die Gleichung (13.127) nach der Funktion g auflöst. g(G(x)) = f (x) 1 |JG (x)| Setzt man jetzt y = G(x), was in Komponentenschreibweise das Gleichungssytem (13.125) ist, und löst dieses System nach den Variablen xk auf: oder x1 x2 = G∗1 (y1 , y2 , . . . , yn ) = G∗2 (y1 , y2 , . . . , yn ) .. . xn = G∗n (y1 , y2 , . . . , yn ) (13.128) x = G∗ (y) mit der Umkehrabbildung G∗ von G, so erhält man g(y) = f (G∗ (y)) 93 1 |JG (G∗ (y))| (13.129) 13.6.2 Der Transformationssatz für Dichten Satz 13.5 Es gebe eine offene zusammenhängende Menge M ⊂ Rn so, dass für die Dichte f (x) der Verteilung P X und den Zufallsvektor G : Rn −→ Rn die nachstehenden Bedingungen erfüllt sind: 1. Für x ∈ / M ist f (x) = 0 2. Die Komponenten Gj (x) von G sind auf M stetig partiell differenzierbar und es ist JG (x) 6= 0 für alle x ∈ M . 3. Ist M ∗ = G(M ) = {y ∈ Rn ; y = G(x) mit x ∈ M } das Bild der Menge M unter G, so ist die Abbildung G : M −→ M ∗ bijektiv mit der Umkehrabbildung G∗ : M ∗ −→ M . Dann besitzt die Verteilung P G des Zufallsvektors G die Dichte f (G∗ (y)) |JG (G1∗ (y))| falls y ∈ M ∗ g(y) = 0 sonst (13.130) Beweis: Es ist zu zeigen, dass für die Verteilung P G des Zufallsvektors G und Borelsche Mengen B ⊂ Rn Z P G (B) = 1B (y) g(y)dy mit der Funktion g(y) aus (13.130). Dazu wird das Problem schrittweise auf eine Situation zurückgeführt, auf die der Parametrisierungssatz anwendbar ist. Die einzelnen Schritte sind in der Abbildung 17 veranschaulicht. Auf die mehr technischen Details wie z.B. die Frage, ob die dabei auftretenden Mengen auch wirklich Borelsche Mengen sind, gehen wir nicht ein. 1. Zunächst wird die Menge B zerlegt: B = B ∩ M ∗ + B ∩ M ∗ =: B1 + B2 2. Da B2 disjunkt zur Bildmenge M ∗ von M unter der Abbildung G ist, muss das Urbild (G ∈ B2 ) ganz im Komplement M von M liegen, denn aus x ∈ M würde G(x) ∈ M ∗ folgen. Da f (x) = 0 für alle x ∈ M und die Funktion (13.130) auf M ∗ verschwindet, ist Z P G (B2 ) = P X (G ∈ B2 ) = 1(G∈B2 ) (x)f (x)dx = Z 0 = 1B2 (y)g(y)dy 3. Da die Abbildung G nur auf M und nicht notwendig auf dem ganzen Rn umkehrbar eindeutig ist, gibt es eventuell Punkte x ∈ / M , die durch G in die Menge B1 abgebildet werden: (G ∈ B1 ) = {x ∈ M ; G(x) ∈ B1 } + {x ∈ M ; G(x) ∈ B1 } =: I1 + I2 94 n n Rx Ry G M* M B1 I1 B2 B I2 Abbildung 17: Zum Transformationssatz für Dichten mit P G (B1 ) = P X (G ∈ B1 ) = P X (I1 ) + P X (I2 ) 4. Wegen I2 ⊂ M ist—s. Punkt 2— X P (I2 ) = Z 1I2 (x)f (x)dx = 0 5. Die Funktion G eingeschränkt auf die Menge I1 als Definitionsbereich ist eine Parametrisierung der Menge B1 , denn I1 ist das Urbild von B1 , G ist auf M umkehrbar eindeutig und erfüllt mit den Voraussetzungen 2 und 3 alle für den Parametrisierungssatz erforderlichen Bedingungen, so dass mit der durch (13.130) gegebenen Funktion g gilt Z Z Z g(y)dy = 1B1 (y)g(y)dy f (x)dx = P G (B1 ) = P X (I1 ) = B1 I1 6. Zusammen ergibt das P G (B) = P G (B1 ) + P G (B2 ) = Z (1B1 (y) + 1B2 (y))g(y)dy = Z 1B (y)g(y)dy ♦ Beispiel 1: X1 und X2 seien stochastisch unabhängige und mit Parameter λ exponentiell verteilte Zufallsvariable. Welche Verteilung besitzt der Zufallsvektor Y = (Y1 , Y2 ) mit Y1 = X1 + X2 und Y2 = X1 /X2 ? 95 1. Die Zufallsvariablen X1 und X2 werden als Komponenten eines zweidimensionalen Zufallsvektors X aufgefasst, dessen Verteilung wegen der stochastischen Unabhängigkeit die Dichte f (x1 , x2 ) = f1 (x1 )f2 (x2 ) besitzt, wobei die Marginaldichten die der Exponentialverteilung mit Parameter λ sind. Das ergibt λ2 e−λ(x1 +x2 ) falls x1 > 0 f (x1 , x2 ) = und x2 > 0 0 sonst 2. Die Menge M = {(x1 , x2 ) ; f (x1 , x2 ) > 0} = {(x1 , x2 ) ; x1 > 0, x2 > 0} ist offen und zusammenhängend und erfüllt automatisch die Voraussetzung 1 des Transformationssatzes. 3. Dem Zufallsvektor Y entspricht die Abbildung G mit y1 y2 = G1 (x1 , x2 ) = G2 (x1 , x2 ) = x1 + x2 = xx21 (13.131) Diese ist auf der Menge M wohldefiniert und differenzierbar. (Was außerhalb von M passiert, ist für den Transformationssatz irrelevant). 4. Die Funktionaldeterminante ist 1 JG (x) = 1 x 2 auf M . 1 x1 + x2 6= 0 − xx12 = − x22 2 5. Die Umkehrabbildung G∗ erhält man durch Auflösen des Gleichungssystems (13.131) nach den Variablen x1 und x2 : y1 y2 x1 = 1 + y (13.132) y 2 x2 = 1 +1y 2 Aus (13.132) und (13.131) ist offensichtlich, dass die Menge M auf die Menge M ∗ = {(y1 , y2 ) ∈ R2 ; y1 > 0, y2 > 0} = M abgebildet wird. 6. f (G∗ (y)) und JG (G∗ (y)) erhält man dadurch, dass in den Formeln für die Funktionen f (x1 , x2 ) und JG (x1 , x2 ) die Variablen x1 und x2 durch die Variablen y1 und y2 gemäß (13.132) oder (13.131) ersetzt werden. Damit erhält man hier für y = (y1 , y2 ) ∈ M ∗ f (G∗ (y)) JG (G∗ (y)) 96 = λ2 e−λy1 (1 + y2 )2 = − y1 7. Die Dichte des Zufallsvektors G bzw. Y ist daher 1 y1 λ2 e−λy1 (1+y2 )2 g(y1 , y2 ) = 0 durch falls y1 > 0 und y2 > 0 sonst gegeben. Aus der letzten Formel ersieht man zusätzlich noch, dass g(y1 , y2 ) = g1 (y1 )g2 (y2 ) mit den Dichten y1 λ2 e−λy1 falls y1 > 0 g1 (y1 ) = 0 sonst und g2 (y2 ) = 1 (1+y2 )2 0 falls y2 > 0 sonst d.h. dass die Zufallsvariablen Y1 und Y2 stochastisch unabhängig sind. 13.6.3 Berechnung der Verteilung von Zufallsvariablen Beispiel 2: X1 und X2 seien stochastisch unabhängige und im Intervall (0, 1) uniform verteilte Zufallsvariable. Welche Verteilung besitzt dann die Zufallsvariable Y = X1 X2 ? Es ist Y = G1 (X1 , X2 ) mit G1 (x1 , x2 ) = x1 x2 , d.h. man muss die Verteilung einer Abbildung G1 : R2 −→ R1 berechnen. Auf diese Situation ist der Transformationssatz für Dichten nicht direkt anwendbar, da eine solche Funktion nicht umkehrbar eindeutig auf einer offenen Menge M ⊂ R2 sein kann. Um ihn anwenden zu können, muss man zunächst die Funktion G1 durch eine weitere Funktion G2 : R2 −→ R zu einer Abbildung G = (G1 , G2 ) des R2 in sich ergänzen, die alle Voraussetzungen des Transformationssatzes erfüllt. Man erhält dann die Dichte g(y1 , y2 ) der Verteilung P G dieses Zufallsvektors. Die gesuchte Verteilung P Y = P G1 ist gemäß dieser Konstruktion gerade die erste Marginalverteilung von P G . Ihre Dichte erhält man, wie im Unterabschnitt 13.4 ausgeführt, durch das Auswerten des Integrals Z g1 (y1 ) = g(y1 , y2 )dy2 . Fortsetzung des Beispiels: Wegen der Unabhängigkeit der beiden Variablen X1 und X2 besitzt P X die Dichte f (x1 , x2 ) = f1 (x1 )f2 (x2 ), wobei die Marginaldichten fi (t) = 1(0,1) (t) jeweils die Dichten der U(0, 1)-Verteilung sind. Mit M = {x = (x1 , x2 ) ∈ R2 ; 0 < x1 < 1 , 0 < x2 < 1 } ist also f (x) = 1 0 97 x∈M sonst Außerhalb der Menge M ist die Dichte f identisch Null. Wir ergänzen die Funktion y1 = G1 (x1 , x2 ) = x1 x2 durch y2 = G2 (x1 , x2 ) = x2 . Auflösung dieser beiden Gleichungen nach den yi ergibt für x2 = y2 6= 0 die Umkehrfunktion G∗ : x1 = yy21 x2 = y2 , wobei die Menge M umkehrbar eindeutig auf die Menge M ∗ = {y = (y1 , y2 ) ; 0 < y1 < y2 < 1} abgebildet wird. Die Funktionaldeterminante der Abbildung G ist x x1 = x2 JG (x) = 2 0 1 und Einsetzen ergibt JG (G∗ (y)) = y2 . Da die Funktion f auf M konstant gleich 1 ist, braucht man nichts weiter auszurechnen und erhält die Dichte 1 · y12 für 0 < y1 < y2 < 1 g(y1 , y2 ) = 0 sonst für die Verteilung P G . Für y1 ≤R 0 und y1 ≥ 1 ist g(y1 , y2 ) = 0 und damit auch die erste Marginaldichte g1 (y1 ) = g(y1 , y2 )dy2 = 0. Für 0 < y1 < 1 erhält man g1 (y1 ) = Z 1 y1 1 dy2 = − log y1 . y2 13.6.4 Affin lineare Transformationen Funktionen der Form Yi = ai1 X1 + ai2 X2 + · · · + ain Xn + bi mit i = 1, 2, . . . , n lassen sich mit den Vektoren Y1 X1 Y2 X2 Y = . , X= . .. .. Yn Xn und der Matrix A= , a11 a21 .. . a12 a22 .. . ... ... .. . a1n a2n .. . an1 an2 ... ann 98 b= b1 b2 .. . bn in Matrizenschreibweise zu Y = AX + b zusammenfassen, wobei X und Y jetzt als Spaltenvektoren von Zufallsvariablen zu verstehen sind. Es ist Y = G ◦ X mit G(x) = Ax + b und JG (x) = det(A). Falls die Matrix A nichtsingulär ist, ist die Abbildung G auf dem ganzen Rn bijektiv mit der Umkehrfunktion G∗ (y) = A−1 (y − b), wo A−1 die Inverse der Matrix A bezeichnet. Man kann also M = M ∗ = Rn wählen und erhält als Dichte der Verteilung von Y g(y) = 1 f (A−1 (y − b)) |det(A)| 13.6.5 Faltungen Um die Verteilung der Summe Y = X1 + X2 zweier Zufallsvariabler zu berechnen, ergänzt man die Funktion G1 (x1 , x2 ) = x1 + x2 wie im obigen Beispiel 2 durch G2 (x1 , x2 ) = x2 und erhält die affin lineare Abbildung 1 1 x1 G(x) = x2 0 1 mit der Umkehrabbildung ∗ G (y) = 1 0 −1 1 y1 y2 = y1 − y2 y2 Die Dichte des Zufallsvektors G ist dann wegen det(A) = 1 gleich g(y1 , y2 ) = f (y1 − y2 , y2 ) mit der Dichte f des Zufallsvektors X = (X1 , X2 ) und die Dichte der Verteilung der Zufallsvariable Y ist die erste Marginaldichte von g: Z f (y1 − y2 , y2 )dy2 g1 (y1 ) = R Sind die beiden Zufallsvariablen X1 und X2 stochastisch unabhängig, so ist f (x1 , x2 ) = f1 (x1 )f2 (x2 ) und man erhält die Dichte von Y durch Bilden des Faltungsintegrals der Dichten f1 und f2 : Z g1 (t) = f1 (t − s)f2 (s)ds (13.133) R Diese Dichte heißt üblicherweise die Faltungsdichte und wird mit f1 ∗ f2 bezeichnet. Beispiel: Die Zufallsvariablen X1 und X2 seien stochastisch unabhängig und exponentiell verteilt mit Parameter λ, d.h. λe−λx für x > 0 f1 (x) = f2 (x) = 0 für x ≤ 0 99 Da f2 (x) = 0 für nichtpositive x, kann man die Integration in Formel (13.133) auf den Bereich der positiven rellen Zahlen beschränken: Z ∞ g1 (t) = f1 (t − x)λe−λx dx 0 Ist t ≤ 0, so ist bei nichtnegativer Integrationsvariable x auch das Argument t − x der Funktion f1 kleiner oder gleich Null und damit der Integrand Null, so dass g1 (t) = 0 für t ≤ 0 Ist t > 0, so ist der Integrand nur für 0 ≤ x ≤ t von Null verschieden, so dass Z t Z t −λ(t−x) −λx 2 g1 (t) = λe λe dx = λ e−λt eλx e−λx dx 0 0 Z t = λ2 e−λt 1dx = λ2 te−λt 0 13.7 Berechnungsmethoden Dieser Abschnitt bildet den Abschluss des Themas Verteilungen. Wir zeigen an einem Beispiel einige mögliche Wege zur Berechnung der Verteilung einer Funktion von Zufallsvariablen auf. Das Problem lautet: Bestimme die Verteilung der Zufallsvariablen Y = X12 + X22 , wenn X1 und X2 stochastisch unabhängige und N (0, 1)-verteilte Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) sind. Nach dem Leitmotto There is more than one way to do it für die Programmiersprache Perl [30] führen wir drei Lösungswege vor, die aber bei weitem nicht die einzigen sind. Als Diagramm stellt sich die Situation wie folgt dar: (Ω, A, P ) X = (X1 , X2 ) (R2 , B2 , P X ) H HH HH HH Y G(x1 , x2 ) HH HH j ? (R, B, . ) 100 Dabei ist G(x1 , x2 ) = x21 +x22 und die Verteilung P X besitzt nach Satz 13.3 und (10.81) die Dichte 1 − 1 (x21 +x22 ) e 2 f (x1 , x2 ) = f1 (x1 )f2 (x2 ) = ϕ(x1 )ϕ(x2 ) = 2π Nach dem Kompositionssatz 13.2 sind die Verteilungen der Zufallsvariablen Y und G identisch. Zu berechnen ist daher die Verteilung P G bezüglich des Wahrscheinlichkeitsraums (R2 , B2 , P X ). 13.7.1 Berechnung der Verteilungsfunktion Bezeichnet Br die Kreisscheibe mit Radius r, so ist ∅ 2 2 (G ≤ t) = {(x1 , x2 ) ; x1 + x2 ≤ t} = B√t und die Verteilungsfunktion für t < 0 für t ≥ 0 F G (t) = P G (−∞, t] = P X (G ≤ t) der Verteilung P G besitzt den Wert F G (t) = 0 für t < 0 und Z G X √ f (x1 , x2 )d(x1 , x2 ) F (t) = P (B t ) = B√t für t ≥ 0. Wie im Beispiel 2 des Abschnitts 12.2 über Zufallsvariable bereits berechnet, hat dieses Integral den Wert √ 2 1 1 F G (t) = 1 − e− 2 ( t) = 1 − e− 2 t Die Verteilung von G und somit die von Y ist daher gemäß (11.86) die Exponentialverteilung mit dem Parameter λ = 1/2. 13.7.2 Anwendung des Faltungsintegrals Die Zufallsvariablen Yi = Xi2 sind nach Satz 13.4 ebenfalls stochastisch unabhängig. Sind g1 und g2 die Dichten der Verteilungen dieser Zufallsvariablen, besitzt die Verteilung von Y = Y1 + Y2 gemäß (13.133) die Faltungsdichte Z f Y (t) = g1 ∗ g2 (t) = g1 (t − x) g2 (x)dx (13.134) Dazu müssen zunächst diese Dichten berechnet werden. Wir beginnen mit den Verteilungsfunktionen: F Yi (t) = P (Yi ≤ t) = P (Xi2 ≤ t) Für t < 0 ist (Xi2 ≤ t) = ∅, weil die Zufallsvariable Xi2 nur nichtnegative Werte annehmen kann, und daher F Yi (t) = 0. Ist t ≥ 0, so gilt √ √ √ √ (Xi2 ≤ t) = {ω ; Xi2 (ω) ≤ t} = ω ; − t ≤ Xi (ω) ≤ t} = (− t ≤ Xi ≤ t) 101 und √ √ √ √ √ √ F Yi (t) = P (− t ≤ Xi ≤ t) = P (Xi ∈ [− t, t]) = P Xi [− t, t] P Xi ist die N (0, 1)-Verteilung mit der stetig differenzierbaren Verteilungsfunktion Φ(t), so dass nach (11.94) √ √ √ √ F Yi (t) = P Xi [− t, t] = Φ( t) − Φ(− t) Die Dichte gi erhält man in diesem Fall durch Ableiten der Verteilungsfunktion F Yi . Für t < 0 ist gi (t) = 0 und für t ≥ 0 nach der Kettenregel für die Differentiation gi (t) = √ √ 1 √ d 1 d √ Φ( t) − Φ(− t) = ϕ( t) √ − ϕ(− t) √ dt dt 2 t −2 t Da die Dichte ϕ —siehe Formel 10.81— eine gerade Funktion ist, d.h. ϕ(−x) = ϕ(x), gilt weiter √ √ 1 1 1 1 gi (t) = √ (ϕ( t) + ϕ( t)) = √ √ e− 2 t 2 t t 2π Für die Faltungsdichte (13.134) ergibt sich wie im Beispiel des Abschnitts 13.6.5, dass f Y (t) = 0 für nichtpositive t und im Bereich t > 0 f Y (t) = Z 0 t √ 1 1 1 1 1 1 1 1 1 √ e− 2 (t−x) √ √ e− 2 x dx = e− 2 t 2 π x 2π t − x 2π Die Variablensubstitution y = dy 2 dx = t liefert Z t 0 so dass p 1 (t − x)x dx = Z 1 −1 p 2 tx 0 t p 1 (t − x)x − 1 mit der Umkehrfunktion x = 1 1− Z y2 dy = arcsin(1) − arcsin(−1) = t 2 (y dx + 1) und π π − (− ) = π 2 2 1 −1t e 2 2 d.h. die Dichte der Exponentialverteilung mit dem Parameter λ = 1/2. f Y (t) = 13.7.3 Anwendung des Transformationssatzes Wenn man die Funktion y1 = G1 (x1 , x2 ) = x21 + x22 durch y2 = G2 (x1 , x2 ) = x22 zu einer Abbildung G = (G1 , G2 ) : R2 −→ R2 ergänzt, so erfüllt diese zunächst einmal nicht die Voraussetzungen des Transformationssatzes für Dichten. 1. Die Abbildung G besitzt die Funktionaldeterminante JG (x1 , x2 ) = det 102 2x1 0 2x2 2x2 = 4x1 x2 die auf der Menge N = (x1 , x2 ) ∈ R2 ; x1 = 0 oder x2 = 0 verschwindet. Dies stellt jedoch kein großes Problem dar, denn diese Menge — das Achsenkreuz eines cartesischen Koordinatensystems im R2 — ist eine Nullmenge. 2. Alle Punkte (x1 , x2 ) 6∈ N werden durch G wegen x21 > 0 und x22 > 0 in die Menge M ∗ = (y1 , y2 ) ∈ R2 ; 0 < y2 < y1 abgebildet. G ist jedoch nicht eindeutig umkehrbar, denn zu jedem (y1 , y2 ) ∈ M ∗ gibt es vier verschiedene Urbildpunkte √ x11 = y1 − y2 √ x12 = y2 √ x21 = − y1 − y2 √ x22 = y2 √ x31 = − y1 − y2 √ x22 = − y2 √ x41 = y1 − y2 √ x42 = − y2 (13.135) je einen in einem der vier offenen Quadranten M1 , M2 , M3 und M4 des R2 Wenn man jedoch die Abbildung auf einen dieser Quadranten einschränkt: G : Mi −→ M ∗ , so besitzt sie dort eine Umkehrfunktion G∗i : M ∗ −→ Mi die durch die entsprechende Gleichung aus (13.135) gegeben ist und es sind für diese eingeschränkte Abbildung alle Voraussetzungen des Transformationssatzes erfüllt (s. Abb. 18). Das Urbild einer Borelschen Menge B ⊂ M ∗ unter G lässt sich in vier Anteile zerlegen, die in den verschiedenen Quadranten liegen: (G ∈ B) = I1 + I2 + I3 + I4 mit Ii = (G ∈ B) ∩ Mi = {(x1 , x2 ) ∈ Mi ; G(x1 , x2 ) ∈ B} Daher ist P G (B) = P (G ∈ B) = 4 X P (Ii ) i=1 Da durch G und G∗i die Menge Ii eineindeutig auf B abgebildet wird, ist Z Z f (x)dx = gi (y)dy P (Ii ) = B Ii mit gi (y) = f (G∗i (y)) 103 1 |JG (G∗i (y))| Abbildung 18: Anwendung des Transformationssatzes Unabhängig vom Quadranten gilt stets x21 + x22 = y1 , so dass 1 − 1 y1 e 2 2π f (G∗i (y) = Ferner ist |JG (G∗i (y)| q √ √ √ √ = |4 · (± y1 − y2 )(± y2 )| = 4 y1 − y2 y2 = 4 y1 y2 − y22 denn durch die Bildung des Absolutbetrages geht die Information über das Vorzeichen verloren. Die Funktionen gi (y) sind also alle gleich: 1 gi (y1 , y2 ) = e− 2 y1 8π Damit ergibt sich G P (B) = Z X 4 gi (y)dy = B i=1 mit g(y1 , y2 ) = Z p 1 y1 y2 − y22 4g1 (y)dy = B 1 − 1 y1 1 1 p e 2 2 π y1 y2 − y22 Z g(y)dy B (13.136) Das Urbild einer Menge B, die zu M ∗ disjunkt ist, ist entweder leer oder in der Nullmenge N enthalten, so dass für eine derartige Menge 104 P G (B) = P (G ∈ B) = Z f (x)dx = 0 (G∈B) Setzt man g(y) = 0 auf M ∗ und gleich (13.136) auf M ∗ , so gilt für beliebige Integrationsbereiche B Z P G (B) = g(y)dy B d.h. g(y) ist Dichte der Verteilung P G des Zufallsvektors G. Da jedoch nicht die Verteilung des Zufallsvektors sondern die seiner ersten Komponente G1 zu bestimmen ist, muss noch die erste Marginaldichte Z g1 (y1 ) = g(y1 , y2 )dy2 berechnet werden. Ist y1 ≤ 0, so liegt der Punkt (y1 , y2 ) in M ∗ . Für solche Punkte ist der Integrand g(y1 , y2 ) und damit auch g1 (y1 ) gleich Null. Für positive Argumente y1 liegt (y1 , y2 ) nur dann in der Menge M ∗ , wenn 0 < y2 < y1 , so dass nach (13.136) g1 (y1 ) = Z y1 g(y1 , y2 )dy2 Z 1 1 − 1 y1 1 y1 p e 2 dy2 2 π 0 y1 y2 − y22 0 = Wie im vorhergehenden Abschnitt 13.7.2 vorgeführt, hat das letzte Integral den Wert π, so dass das Ergebnis dieser Berechnungsvariante ebenfalls lautet, dass die Zufallsvariable X12 + X22 mit Parameter 1/2 exponentiell verteilt ist. 105 14 Erwartungswert und Varianz Der Erwartungswert einer Zufallsvariablen X : Ω −→ R auf einem Wahrscheinlichkeitsraum (Ω, A, P ) wurde in dieser Vorlesung bisher definiert als der Mittelwert der Verteilung P X dieser Zufallsvariablen: P y f X (y) falls P X diskret mit WF f X X R y∈X EX = m1 (P ) = X yf (y)dy falls P X absolutstetig mit Dichte f X (14.137) In diesem Kapitel werden die Konzepte Erwartungswert und Mittelwert auf alle Typen von Verteilungen erweitert und es werden Regeln für die Berechnung des Erwartungswerts einer Funktion Y = G ◦ X von Zufallsvariablen hergeleitet. Als Ansatzpunkt für Definition und Rechenregeln dient uns dabei die Formel (8.71) X X(ω) P {ω} EX = ω∈Ω die im Abschnitt 8.3 für diskrete Wahrscheinlichkeitsräume (Ω, 2Ω , P ) bewiesen wurde. Als Verallgemeinerung dieser Summe führen wir im folgenden Abschnitt für allgemeine Wahrscheinlichkeitsräume (Ω, A, P ) das Konzept des P -Integrals ein. 14.1 Das P-Integral einer Zufallsvariablen Wie beim Lebesgue-Integral beginnt man bei der Definition eines Integrals einer Zufallsvariablen X : Ω −→ R auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit einem möglichst einfachen Typ von Funktionen, mit dem man in einem weiteren Schritt allgemeine Zufallsvariablen approximieren kann. 14.1.1 Treppenfunktionen Eine Funktion X : Ω −→ R heißt eine Treppenfunktion, wenn es eine Partition (Ak , k ∈ I) von Ω (s. Definition 4.2) mit einer endlichen oder abzählbar unendlichen Indexmenge I und reellen Zahlen xk , k ∈ I, gibt, so dass X(ω) = xk für ω ∈ Ak . 6 x4 x2 x1 = x3 -Ω A1 A2 A3 A4 Abbildung 19: Eine Treppenfunktion 106 Eine derartige Funktion kann man mit Hilfe der Indikatorfunktion in geschlossener Form darstellen: X X(ω) = xk 1Ak (ω) (14.138) k∈I Ist ω ∈ Ak0 , so ist 1Ak0 (ω) = 1 und — da die Ak paarweise disjunkt sind — 1Ak (ω) = 0 für alle k 6= k0 , so dass die rechte Seite von (14.138) den Wert xk0 annimmt. Wie in der Skizze 19 veranschaulicht schließen wir nicht aus, dass die Funktionswerte xk von X auf mehreren der Mengen Ak gleich sind. Wenn man derartige Mengen jeweils zu einer Menge zusammenfasst erhält man eine Darstellung der Form (14.138), in der die Zahlen xk paarweise verschieden sind. Eine derartige Darstellung nennen wir im folgenden eine Normaldarstellung der Treppenfunktion X. In diesem Fall ist X = {xk ; k ∈ I} der abzählbare Wertebereich der Funktion X und (X = xk ) = Ak . Da die Mengen Ak in der σ-Algebra A liegen, ergibt sich aus Definition 8.1, dass eine Treppenfunktion nichts anderes ist als eine Zufallsvariable mit diskreter Verteilung. Die Normaldarstellung lässt sich mit diesen Bezeichungen auch als X X(ω) = y · 1(X=y) (ω) (14.139) y∈X schreiben. 14.1.2 Das P-Integral einer Treppenfunktion Eine Treppenfunktion (14.138) heißt P-integrabel, wenn X |xk | P (Ak ) < ∞ (14.140) k∈I Ist die Treppenfunktion P -integrabel, so kann man zeigen, dass für jede andere Darstellung X yi 1Bj (ω) X(ω) = j∈J bei der die Mengen Bj ∈ A nicht einmal paarweise disjunkt sein müssen, die Gleichung X X yj P (Bj ) (14.141) xk P (Ak ) = j∈J k∈I gilt, d.h. der Wert der Summe ist nicht von der speziellen Darstellung sondern nur von der Funktion X und der Wahrscheinlichkeit P abhängig. Daher legen wir fest: Definition 14.1 Ist die Treppenfunktion (14.138) P -integrabel, so heißt Z X xk P (Ak ) X(ω) P (dω) := k∈I das P-Integral der Treppenfunktion X. 107 R R An Stelle von X(ω) P (dω) schreiben wir auch kurz X dP . Wenn wir gemäß (14.141) die Normaldarstellung (14.139) von X verwenden, so ist Z X X y P X {y} y P (X = y) = X dP = y∈X y∈X = X X y f (y) y∈X = m1 (P X ) R Das P -Integral X dP ist also nichts anderes als der Erwartungswert der diskreten Zufallsvariablen X: Z X dP = EP X 14.1.3 Rechenregeln 1. Die Funktion X(ω) = 1 ist die Treppenfunktion, die auf der gesamten Menge Ω den Wert 1 annimmt. Daher Z 1 dP = P (Ω) = 1 (14.142) 2. Nach der Dreiecksungleichung für den Absolutbetrag ist Z Z X X X dP = x P (A ) ≤ |x | P (A ) = |X| dP k k k k k∈I (14.143) k∈I mit der Funktion |X|(ω) := |X(ω)| 3. Linearkombinationen: Sind X X(ω) = xk 1Ak (ω) (14.144) yl 1Bl (ω) (14.145) k X Y (ω) = l Treppenfunktionen mit Partitionen (Ak ) und (Bl ), so bilden die Mengen Ckl = Ak ∩ Bl wieder eine Partition (s. Abb. 20) und die Funktionen X und Y besitzen die Darstellungen XX X(ω) = (14.146) xk 1Ckl (ω) Y (ω) = k l k l XX 108 yl 1Ckl (ω) (14.147) A k C km Bm Abbildung 20: Partitionen für die Additions- und Produktregel Die Funktion Z(ω) = a X(ω) + b Y (ω) mit reellen Zahlen a und b ist auf den Mengen Ckl jeweils konstant: XX (a xk + b yl ) 1Ckl (ω) Z(ω) = k l Sind X und Y beide P -integrabel, so gilt Z Z XX XX a X dP + b Y dP = a xk P (Ckl ) + b yl P (Ckl ) k = k = l XX Z k l (a xk + b yl ) P (Ckl ) l Z dP D.h. Z = aX + bY ist dann ebenfalls P -integrabel und es gilt Z Z Z (aX + bY ) dP = a X dP + b Y dP (14.148) 4. Produkte von Treppenfunktionen: Sind (14.144) und (14.145) die Normaldarstellungen der Treppenfunktionen X und Y und sind X und Y stochastisch 109 unabhängig, so gilt wegen Ak = (X = xk ) und Bl = (Y = yl ), dass P (Ckl ) = P (Ak ∩ Bl ) = P (X = xk ) ∩ (Y = yl ) = P (X = xk ) P (Y = yl ) = P (Ak ) P (Bl ) Für die Funktion Z(ω) = X(ω) Y (ω) mit der Darstellung XX Z(ω) = (xk yl ) 1Ckl (ω) k folgt daraus Z Z X dP Y dP = X k = = xk P (Ak ) · XX k Z l X yl P (Bl ) l xk yl P (Ak ) P (Bl ) = l XX k xk yl P (Ckl ) l Z dP Also: Sind X und Y stochastisch unabhängige P -integrable Treppenfunktionen, so ist XY P -integrabel und es gilt Z Z Z XY dP = X dP Y dP (14.149) 5. Eine Zufallsvariable X heißt P-fast überall nichtnegativ, wenn X(ω) ≥ 0 für alle ω mit der eventuellen Ausnahme der Elemente einer Menge N ⊂ Ω mit P (N ) = 0 gilt. Wir schreiben dafür X(ω) ≥ 0 (P -f.ü.) Bei einer Treppenfunktion X bedeutet das, dass bei jedem Summanden in der Darstellung (14.138) entweder der Funktionswert xk nichtnegativ oder die Wahrscheinlichkeit der Menge Ak gleich Null (oder beides) ist. Daraus folgt, dass die Summe in Definition 14.1 nichtnegativ ist oder, kurz zusammengefasst R X(ω) ≥ 0 (P -f.ü.) ⇒ X dP ≥ 0 (14.150) 14.1.4 Das P -Integral einer Zufallsvariablen. Ist X eine (beliebige) Zufallsvariable, so sind die Mengen Ank = X ∈ ( 2kn , k+1 2n ] = {ω ∈ Ω ; 2kn < X(ω) ≤ k+1 2n } mit n = 0, 1, 2, . . . und k = . . . , −2, −1, 0, 1, 2, . . . als Urbilder der Intervalle k k+1 n , Ik = 2n 2n 110 Ereignisse aus A und bei festem n für verschiedene k paarweise disjunkt mit Ω. Die Folge der Treppenfunktionen Xn (ω) = X k 1An (ω) 2n k P k Ank = (14.151) k konvergiert für n → ∞ gleichmäßig gegen X, denn für alle k und alle ω ∈ Ank ist k k 1 < X(ω) ≤ n + n 2n 2 2 und daher |X(ω) − Xn (ω)| = |X(ω) − k 1 |≤ n n 2 2 Für diese Treppenfunktionen gilt der R Satz 14.1 Existiert für ein n0 das P -Integral Xn0 (ω) P (dω), dann existieren die P Integrale aller dieser Treppenfunktionen und die Folge dieser P -Integrale konvergiert: Z Xn (ω) P (dω) =: IX lim n→∞ Ist (Yn ) eine weitere Folge von Treppenfunktionen, die gleichmäßig gegen X konvergiert, so existieren die P -Integrale aller dieser Treppenfunktionen und ihre Folge konvergiert ebenfalls gegen IX . Definition 14.2 Der Limes IX Raus dem obigen Satz heißt R das P-Integral der Zufallsvariablen X und wird mit X(ω) P (dω) oder kurz X dP bezeichnet. Die Rechenregeln (14.143), (14.148), (14.149) und (14.150) für Treppenfunktionen bleiben bei der Limesbildung erhalten. Sie gelten auch für die P -Integrale von beliebigen P -integrablen Zufallsvariablen. 14.1.5 Zusammenhang mit dem Lebesgue-Integral Ist P eine absolutstetige Verteilung auf dem Rn mit der Dichte f (y) und X : Rn −→ R eine Zufallsvariable, so ist das P -Integral von X ein spezielles Lebesgue-Integral: Z Z X(y) f (y)dy (14.152) X(y) P (dy) = Rn Das Symbol P (dy) ist also in dieser Situation einfach als f (y)dy zu lesen. Wir skizzieren den Beweis dieser Aussage ohne auf technische Details wie die Vertauschbarkeit von Summen oder Limites mit dem Integralzeichen einzugehen. 1. Ist X eine P -integrable Treppenfunktion, X X(y) = yk 1Bk (y) , k 111 so gilt Z X(y) P (dy) = X yk P (Bk ) = k = Z X k X ! yk Z 1Bk (y) f (y)dy yk 1Bk (y) f (y)dy = k Z X(y) f (y)dy 2. Ist X eine beliebige P -integrable Zufallsvariable und (Xn ) die Folge der Treppenfunktionen (14.151), die X gleichmäßig approximieren, so folgt aus Punkt 1, angewandt auf Xn , und dem Satz von Lebesgue, dass Z Z Z Xn (y)f (y)dy Xn (y) P (dy) = lim X(y) P (dy) = lim n→∞ n→∞ Z Z = ( lim Xn (y))f (y)dy = X(y)f (y)dy n→∞ 14.1.6 Komposition von Zufallsgrößen. Der für das Folgende wichtigste Satz ist der über den Zusammenhang der P -Integrale der Zufallsvariablen Y und G, wenn Y (ω) = G(X(ω)) mit einem Zufallsvektor X, also in der durch das nachstehende Diagramm beschriebenen Situation. X (Ω, A, P ) H HH HH HH Y =G◦X - H (Rn , Bn , P X ) G HH j H ? (R, B, P Y ) Satz 14.2 Ist G P X -integrabel, dann ist Y P -integrabel und es gilt Z Z Y (ω) P (dω) = G(y) P X (dy) Beweis. Wie oben übergehen wir wieder die Details. 1. Ist X G(y) = gk 1Bk (y) (14.153) k eine Treppenfunktion, dann auch Y , denn Y (ω) = G(X(ω)) nimmt auf den Mengen Ak = (G ∈ Bk ) jeweils konstant den Wert gk an. Für ein P X -integrables G folgt daraus Z Z X X X gk P (Ak ) = Y (ω) P (dω) gk P (X ∈ Bk ) = gk P X (Bk ) = G(y) P X (dy) = k k k 112 2. Der allgemeine Fall von (14.153) folgt wieder aus dem Grenzübergang Z Z Gn (y) P X (dy) G(y) P X (dy) = lim n→∞ Z Z Gn (X(ω)) P (dω) = G(X(ω) P (dω) = lim n→∞ Z = Y (ω) P (dω) mit Treppenfunktionen Gn , die die Zufallsvariable G gleichmäßig approximieren. ♦ 14.1.7 Die Momente einer eindimensionalen Verteilung Ist P eine absolutstetige eindimensionale Verteilung mit der Dichte f (x) und ist die Funktion Gk (x) = xk P -integrabel, so stellt nach (14.152) das P -Integral Z Z k x P (dx) = xk f (x)dx gerade das k-te Moment der Verteilung P dar. Das Gleiche gilt für den Fall, dass P eine diskrete Wahrscheinlichkeitsverteilung auf einer abzählbaren Menge X ⊂ R mit der Wahrscheinlichkeitsfunktion f (x) ist. In diesem Fall ist X y k 1{y} (x) Gk (x) = y∈X eine Treppenfunktion und Z X X y k f (y) y k P {y} = xk P (dx) = y∈X y∈X Als Verallgemeinerung unserer bisherigen Definitionen legen wir daher fest: Definition 14.3 Ist P eine eindimensionale Verteilung und ist die Funktion x 7−→ xk P -integrabel, so heisst Z mk (P ) = xk P (dx) (14.154) das k-te Moment der Verteilung P . Speziell m1 (P ) nennen wir wieder den Mittelwert. Für die Funktionen Hk (x) = (x − m1 (P ))k erhält man wie oben R Z k k P(x − m1 (P )) fk(x)dx falls P absolutstetig (x − m1 (P )) P (dx) = falls P diskret y (y − m1 (P )) f (y) und daher die 113 Definition 14.4 Ist P eine eindimensionale Verteilung und ist die Funktion x 7−→ (x − m1 (P ))k P -integrabel, so heisst Z m̂k (P ) = (x − m1 (P ))k P (dx) (14.155) das k-te zentrale Moment der Verteilung P . Speziell m̂2 (P ) nennen wir wieder die Varianz der eindimensionalen Verteilung P . 14.2 Der Erwartungswert einer Zufallsvariablen In der Wahrscheinlichkeitsrechnung nennt man das P -Integral einer Zufallsvariablen X auf einem Wahrscheinlichkeitsraum (Ω, A, P ) üblicherweise den Erwartungswert von X und bezeichnet ihn mit EP X. Falls aus dem Zusammenhang eindeutig hervorgeht, bezüglich welcher Wahrscheinlichkeit P dieser Erwartungswert zu verstehen ist, lässt man den Index meist weg: Z EX = EP X = X(ω) P (dω) (14.156) Die Definition (14.137), die wir bisher verwendet haben, ist in den Fällen, dass P diskret oder absolutstetig ist, nach wie vor gültig. Mit der Funktion G(x) = x ist Y (ω) := G(X(ω)) = X(ω). Der Satz 14.153 liefert mit diesem Y Z Z X(ω) P (dω) = x P X (dx) so dass wir wegen Definition 14.3 sagen können: Satz 14.3 Der Erwartungswert einer Zufallsvariablen ist der Mittelwert der Verteilung dieser Zufallsvariablen: EX = m1 (P X ) Allgemeiner erhält man für k = 1, 2, 3, . . . und Gk (x) = xk bzw. Gk (X(ω)) = X k (ω) die Beziehung E(X k ) = mk (P X ) (14.157) zwischen den Momenten und den Erwartungswerten von Potenzen einer Zufallsvariablen X. Anmerkung zur Schreibweise: Anstelle von E(X k ) schreiben wir in der Folde kürzer EX k . Um Zweideutigkeiten zu vermeiden, verwenden wir in den Fällen, in denen nicht der Erwartungswert der k-ten Potenz der Zufallsvariablen sondern die k-te Potenz ihres Erwartungswerts gemein ist, die Schreibweise (EX)k . 114 14.2.1 Rechenregeln für den Erwartungswert Mittels des E-Operators formuliert lauten die Rechenregeln 14.1.3 für das P -Integral von Zufallsvariablen wie folgt: Regel 1: Für die konstante Zufallsvariable I(ω) = 1 gilt E1 = 1 (14.158) Regel 2: Für den Betrag |X|(ω) := |X(ω)| ist |EX| ≤ E|X| (14.159) Regel 3: Sind X und Y P -integrable Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ), so ist auch die Linearkombination Z(ω) = aX(ω) + bY (ω) + c P integrabel und es gilt E(aX + bY + c) = a EX + b EY + c (14.160) Die Zahl c ist dabei als die konstante Zufallsvariable I multipliziert mit c zu verstehen. Regel 4: Sind X und Y P -integrable stochastisch unabhängige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ), so ist auch das Produkt Z(ω) = X(ω)Y (ω) P -integrabel und es gilt E(XY ) = (EX)(EY ) (14.161) Regel 5: Ist die Zufallsvariable X P -integrabel und P -fast überall nichtnegativ, dann ist ihr Erwartungswert nichtnegativ: EX ≥ 0 falls X(ω) ≥ 0 (P -f.ü.) (14.162) Regel 6: Gilt für zwei Zufallsvariable X und Y , dass mit der eventuellen Ausnahme der ω aus einer Menge N ⊂ Ω mit P (N ) = 0 stets X(ω) ≤ Y (ω), so ist die Differenz Y − X P -fast überall nichtnegativ und die Regeln 3 und 5 ergeben zusammen EX ≤ EY falls X(ω) ≤ Y (ω) (P -f.ü.) (14.163) 14.2.2 Funktionen von Zufallsvariablen Eine häufig auftretende Aufgabe ist die Berechnung des Erwartungswerts einer Funktion von einer oder mehreren Zufallsvariablen. Ist X = (X1 , X2 , . . . , Xn ) ein Zufallsvektor, dessen n-dimensionale Verteilung P X eine Dichte f (x) besitzt, und Y = G(X1 , X2 , . . . , Xn ) = G ◦ X eine Funktion der Komponenten dieses Zufallsvektors, so gilt nach (14.153) und (14.152) R R E Y = R G(X(ω))P (dω) = G(x)P X (dx) (14.164) = G(x)f (x)dx 115 Um den Erwartungswert der Zufallsvariablen Y = G ◦ X zu erhalten, muß man also nicht die Verteilung P Y (= P G ) — etwa nach dem Transformationssatz — und anschließend den Mittelwert m1 (P Y ) dieser Verteilung berechnen. Es genügt, das LeR besguesche Integral G(x)f (x)dx auszuwerten. Diese Vorgehensweise ist auch dann möglich, wenn die Verteilung P Y gar keine Dichte besitzt wie im folgenden Beispiel 1: In einer Eisdiele wird an jedem Abend bei der Eisfabrik die gesamte Menge q an Eis für den nächsten Tag bestellt. Der Einkaufspreis sei p1 Euro pro Mengeneinheit. Die Tagesnachfrage ist — unter anderem wetterbedingt — zufällig. Wir nehmen an, daß es sich um eine exponentiell mit Parameter λ verteilte Zufallsvariable X handelt. Gemäß den gesetzlichen Vorschriften darf Eis, das am Abend noch nicht verkauft ist, nicht gelagert, sondern muss vernichtet werden. Welche Menge an Eis muss — bei einem Verkaufspreis von p2 Euro pro Mengeneinheit — bestellt werden, damit der mittlere Gewinn maximal wird? Der Gewinn in Abhängigkeit von der Nachfrage X und der Bestellmenge q ist die Zufallsvariable Y = p2 min(X, q) − p1 q, die nach Regel (14.160) den Erwartungswert EY = p2 E(min(X, q)) − p1 q besitzt. Für die Zufallsvariable Z(ω) = G(X(ω)) mit G(x) = min(x, q) ist (X ≤ t) falls t < q (Z ≤ t) = Ω falls t ≥ q denn Z(ω) nimmt für alle ω nur Werte an, die kleiner oder gleich q sind und für X(ω) < q ist Z(ω) = X(ω). Die Verteilungsfunktion F Z der Verteilung von Z ist damit gleich P (X ≤ t) = F X (t) für t < q F Z (t) = P (Z ≤ t) = P (Ω) = 1 für t ≥ q Speziell an der Stelle t = q ist F Z (q − 0) = lim F Z (t) = lim F X (t) = 1 − e−q < 1 t%q t%q und F Z (q) = 1 F Z ist an dieser Stelle nicht stetig, es gibt keine Dichte und die Berechnung des Erwartungswerts gemäß Formel (14.157) scheidet aus. Die Formel (14.164) dagegen liefert 116 EZ = Z Z min(x, q)f X (x)dx ∞ min(x, q)λe−λx dx Z q Z ∞ = x λe−λx dx + q λe−λx dx = 0 0 = und damit q 1 1 − e−λq λ p2 1 − e−λq − p1 q =: g(q) λ Zur Berechnung der Maximalstelle setzen wir die Ableitung g 0 (q) der Funktion g gleich Null: g 0 (q) = p2 e−λq − p1 = 0 EY = was die Maximalstelle ergibt. 1 q = ln λ p2 p1 Beispiel 2: Die Verteilung der Zufallsvariablen Y = X12 + X22 mit N (0, 1)-verteilten Variablen Xk lässt sich nicht immer bestimmen, da man ohne zusätzliche Annahmen die (zweidimensionale) Verteilung des Vektors X = (X1 , X2 ) nicht zur Verfügung hat. Mit den oben entwickelten Hilfsmitteln kann man aber wenigstens den Erwartungswert berechnen. Es ist EY = E(X12 ) + E(X22 ) und wegen Xk2 = G(Xk ) mit G(t) = t2 weiter Z Z Z E(Xk2 ) = G(t)P X (dt) = t2 P X (dt) = m2 (P X ) = m2 (N (0, 1)) = t2 ϕ(t)dt = 1 Beispiel 3: Zur Berechnung des Erwartungswerts der Zufallsvariablen Y = max(X1 , X2 , . . . , Xn ) mit n stochastisch unabhängigen U(0, 1)-verteilten Zufallsvariablen Xk könnte man natürlich analog zur obigen Vorgehensweise das Integral Z max(x1 , x2 , . . . , xn )f (x1 , x2 , . . . , xn )d(x1 , x2 , . . . , xn ) auswerten. Einfacher ist hier der Weg über die Verteilung der Zufallsvariable Y . Wie in den Übungen behandelt, besitzt die Verteilung von Y die Verteilungsfunktion F Y (t) = F X1 (t)F X2 (t) · · · F Xn (t) wobei die Verteilungsfunktionen F Xk (t) alle gleich der Verteilungsfunktion der U(0, 1)Verteilung sind: 0 für t ≤ 0 t für 0 < t < 1 F Xk (t) = 1 für t ≥ 1 117 Damit ist 0 tn F Y (t) = 1 für t ≤ 0 für 0 < t < 1 für t ≥ 1 Diese Verteilungsfunktion ist stückweise stetig differenzierbar. Die Dichte fn der Verteilung von Y erhält man also durch Ableiten von F Y . für t ≤ 0 0 ntn−1 für 0 < t < 1 fn (t) = 0 für t ≥ 1 Der Erwartungswert von Y ist gemäß Satz 14.3 gleich dem Mittelwert der Verteilung von Y . Z Z 1 Z 1 n EY = m1 (P Y ) = tfn (t)dt = tntn−1 dt = ntn dt = n + 1 0 0 14.3 Varianz und Kovarianz In Definition 14.155 wurde die Varianz einer eindimensionalen Verteilung P in Verallgemeinerung der früher eingeführten Formeln als Z 2 m̂2 (P ) = (x − m1 (P )) P (dx) (14.165) festgelegt. Ist X : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit der Verteilung P X , so ist nach Satz 14.3 ihr Erwartungswert gleich dem Mittelwert ihrer Verteilung: EX = m1 (P X ) und unter Verwendung der Funktion G(x) = (x − EX)2 lässt sich die Varianz dieser Verteilung in der Form Z X m̂2 (P ) = G(x)P X (dx) schreiben. Mit der zusammengesetzten Zufallsvariablen Y = G ◦ X = (X − EX)2 folgt aus Satz 14.153 weiter, dass Z X m̂2 (P ) = Y (w)P (dω) und dieses P -Integral ist in anderer Bezeichnung der Erwartungswert: m̂2 (P X ) = EY = E(X − EX)2 Dies führt uns zu der Definition 14.5 Ist X : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und existieren die entsprechenden Erwartungswerte, so heißt varP (X) = EP (X − EP X)2 die Varianz der Zufallsvariablen X. 118 Wie schon beim Erwartungswert vereinbart, lassen wir den Index P weg, wenn aus dem Zusammenhang eindeutig hervorgeht, bezüglich welcher Wahrscheinlichkeit die Varianz gebildet wird und schreiben var(X) = E(X − EX)2 (14.166) 14.3.1 Die Ungleichung von Tschebyscheff Da die Zufallsvariable Y (ω) = (X(ω) − EX)2 für alle ω ∈ Ω nichtnegative Werte annimmt, folgt aus (14.162), dass stets var(X) ≥ 0 (14.167) Ist var(X) = 0, so lässt die Definition dieser Größe als P -Integral der nichtnegativen Zufallsvariablen Y vermuten, dass ähnlich wie bei einem Lebesgue-Integral für im wesentlichen alle ω ∈ Ω gilt Y (ω) = (X(ω) − EX)2 = 0 bzw. dass X(ω) für fast alle ω konstant gleich dem Erwartungswert von X ist. Zum Beweis dieser Aussage benötigen wir die in früheren Abschnitten bereits hergeleitete Ungleichung von Tschebyscheff in einer etwas allgemeineren Formulierung. Satz 14.4 Für eine Zufallsvariable X : Ω → R auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Erwartungswert EX und Varianz var(X) und beliebige positive Zahlen ε > 0 gilt var(X) P (|X − EX| > ε) ≤ (14.168) ε2 Beweis: Die Treppenfunktion Z(ω), die auf der Menge B = {ω ∈ Ω ; |X(ω) − EX| > ε} den Wert ε2 annimmt und außerhalb dieser Menge identisch Null ist, besitzt den Erwartungswert Z EZ = Z dP = ε2 P (B) = ε2 P (|X − EX| > ε) Außerdem ist für alle ω 2 Z(ω) ≤ Y (ω) = (X(ω) − EX) so dass nach Regel (14.163) EZ ≤ EY oder ε2 P (|X − EX| > ε) ≤ var(X) Die Ungleichung (14.168) erhält man, wenn man beide Seiten dieser Ungleichung durch ε2 dividiert. ♦ 119 Um zu sehen, welche Konsequenzen die Eigenschaft var(X) = 0 besitzt, betrachten wir die Mengen 1 Bn = {ω ∈ Ω ; |X(ω) − EX| > } n für n = 1, 2, 3, . . . . Ist |X(ω) − EX| > n1 , dann ist insbesondere auch |X(ω) − EX| > 1 n+1 , woraus folgt, dass die Folge dieser Mengen monoton aufsteigt, so dass nach (2.20) limn→∞ P (Bn ) = P (B) mit der Menge B= ∞ [ n=1 Bn = {ω ∈ Ω ; |X(ω) − EX| > 0} = (|X − EX| > 0) Ist var(X) = 0, so folgt aus der Ungleichung von Tschebyscheff, dass 0 ≤ P (Bn ) ≤ n2 var(X) = 0 und damit P (B) = limn→∞ P (Bn ) = 0. Mit Hilfe des Komplementärereignisses B = (|X − EX| = 0) = (X = EX) erhalten wir als Konsequenz daher P (X = EX) = 1 d.h. mit der eventuellen Ausnahme ω aus einer Menge N mit P (N ) = 0 gilt X(ω) = EX, was wir wie folgt formulieren: Satz 14.5 Besitzt eine Zufallsvariable X die Varianz Null, so ist X(ω) P -fast überall gleich einer konstanten Zahl c. 14.3.2 Rechenregeln für die Varianz Algebraische Ausdrücke: Ausdrücke wie (X − EX)2 und ähnliche, die im folgenden auftreten, stehen für Zufallsvariablen, d.h. Funktionen in Abhängigkeit vom Ergebnis 2 ω. Im vorliegenden Fall ist es die Funktion, die dem Ergebnis ω die Zahl (X(ω) − EX) zuordnet. Diesen Term kann man mit den üblichen algebraischen Rechenregeln umformen: 2 (X(ω) − EX)2 = (X(ω)) − 2(EX) · X(ω) + (EX)2 Wenn man die linke und die rechte Seite dieser Gleichung gemäß der obigen Bemerkung als Zufallsvariable schreibt, erhält man (X − EX)2 = X 2 − 2(EX) · X + (EX)2 (14.169) D.h. algebraische Ausdrücke, in denen Zufallsvariablen vorkommen, kann man mit den aus der Algebra gewohnten Rechenregeln umformen. Wenn man auf beide Seiten der Gleichung (14.169) den E-Operator anwendet und beachtet, dass EX =: µ ein Skalar ist, erhält man unter Verwendung der Linearitätseigenschaft (14.159) des Erwartungswerts E(X − EX)2 = E X 2 − 2µX + µ2 = E(X 2 ) − 2µEX + µ2 = E(X 2 ) − 2(EX)(EX) + (EX)2 120 oder var(X) = E(X 2 ) − (EX)2 (14.170) Für die Zufallsvariable Y = aX + b mit reellen Zahlen a und b erhält man mit den obigen Vorschriften var(Y ) = E(Y − EY )2 = E [(aX + b) − E(aX + b)] = E [aX + b − aEX − b] 2 2 2 = E [aX − aEX] = E a2 (X − EX)2 2 = a2 E (X − EX) oder var(aX + b) = a2 var(X) (14.171) Für die Varianz der Summe Y = X1 +X2 zweier Zufallsvariablen ergibt sich schließlich var(X1 + X2 ) = E [(X1 + X2 ) − E(X1 + X2 )] 2 = E [(X1 − EX1 ) + (X2 − EX2 )] = E(X1 − EX1 )2 2 + 2E [(X1 − EX1 )(X2 − EX2 )] + E(X2 − EX2 )2 oder var(X1 + X2 ) = var(X1 ) + 2 cov(X1 , X2 ) + var(X2 ) (14.172) cov(X1 , X2 ) = E [(X1 − EX1 )(X2 − EX2 )] (14.173) mit 14.3.3 Die Kovarianz zweier Zufallsvariablen Definition 14.6 Die Größe (14.173) heißt die Kovarianz der Zufallsvariablen X1 und X2 . Mit den oben eingeführten algebraischen Rechenregeln für den Erwartungswertoperator läßt sich die Formel (14.173) etwas vereinfachen. Es ist cov(X1 , X2 ) = E[X1 X2 − (EX1 )X2 − (EX2 )X1 + (EX1 )(EX2 )] = E(X1 X2 ) − (EX1 )EX2 − (EX2 )EX1 + (EX1 )(EX2 ) = E(X1 X2 ) − (EX1 )(EX2 ) zusammengefaßt also cov(X1 , X2 ) = E(X1 X2 ) − (EX1 )(EX2 ) (14.174) Aus der Additionsregel (14.172) für die Varianz und der Produktregel (14.161) für den Erwartungswert ergibt sich damit der 121 Satz 14.6 Sind die Zufallsvariablen X1 und X2 stochastisch unabhängig , so ist cov(X1 , X2 ) = 0 und daher var(X1 + X2 ) = var(X1 ) + var(X2 ) (14.175) Warnung: Die Umkehrung dieser Aussage ist nicht immer richtig! Aus cov(X1 , X2 ) = 0 folgt normalerweise nicht, dass die beiden Zufallsvariablen stochastisch unabhängig sind. Als (Gegen-)Beispiel betrachten wir einen Zufallsvektor X = (X1 , X2 ), der auf der in Abbildung 21 dargestellten Menge M = {(x1 , x2 ) ∈ R2 , |x1 | + |x2 | ≤ 1} √ uniform verteilt ist. Nach Phythagoras ist M ein Quadrat mit der Kantenlänge 2 und der Fläche |M | = 2. Die Verteilung P X des Zufallsvektors X besitzt daher die Dichte 1 falls |x1 | + |x2 | ≤ 1 2 f (x1 , x2 ) = 0 sonst 6x2 @ @ @ @ @ @ @ @ @ @ @ @ @ 1 − |x1 | @ @ x1 −(1 − |x1 |) @ @ @ Abbildung 21: Beispiel zu Satz 14.6 Da die Dichte f in den beiden Argumenten symmetrisch ist: f (x1 , x2 ) = f (x2 , x1 ), sind die beiden Marginaldichten gleich. Z ∞ f2 (t) = f1 (t) = f (t, x2 )dx2 −∞ 122 Für t < −1 oder t > 1 ist f (t, x2 ) = 0 für alle x2 , so dass für diese Argumente f2 (t) = f1 (t) = 0. Ist −1 ≤ t < 1, so ist Z ∞ f (t, x2 )dx2 = −∞ Z 1−|t| −(1−|t|) bzw. f2 (t) = f1 (t) = 1 dx2 = 1 − |t| 2 −1 ≤ t < 0 0≤t≤1 1 + t falls 1 − t falls Die Erwartungswerte der beiden Komponenten X1 und X2 des Zufallsvektors sind Z Z 1 EX2 = EX1 = tf1 (t)dt = t(1 − |t|)dt = 0 −1 denn die Dichten fi (t) sind gerade und damit die Integranden tfi (t) ungerade Funktionen. Nach (14.174) und (14.164) ergibt sich daher die Kovarianz der beiden Zufallsvariablen X1 und X2 zu cov(X1 , X2 ) = E(X1 X2 ) Z = x1 x2 f (x1 , x2 )d(x1 , x2 ) = Z 1 1 x1 x2 d(x1 , x2 ) = 2 2 M = = 1 2 0 Z 1 −1 Z 1 x1 −1 Z 1−|x1 | x2 dx2 −(1−|x1 |) ! dx1 x1 · 0dx1 Die Zufallsvaribalen X1 , X2 sind aber nicht stochastisch unabhängig, denn z.B. auf dem Dreieck D = {(x1 , x2 ) ∈ R2 ; 0 < x1 < 1 , 1 − x1 < x2 < 1} ist f (x1 , x2 ) = 0, während f1 (x1 )f2 (x2 ) = (1 − x1 )(1 − x2 ) > 0. Weitere Rechenregeln: Aus der definierenden Formel (14.173) ergibt sich direkt, dass für X1 = X2 = Y cov(Y, Y ) = var(Y ) (14.176) Da bei reellwertigen Zufallsvariablen stets X1 (ω)X2 (ω) = X2 (ω)X1 (ω), erhält man cov(X1 , X2 ) = cov(X2 , X1 ) (14.177) und aus den Rechenregeln für den Erwartungswert folgt schließlich noch, dass für Konstante a und b gilt cov(X1 + a, X2 + b) = cov(X1 , X2 ) 123 (14.178) Die wichtigste Eigenschaft der Kovarianz ist die Bilinearität: Für Zufallsvariablen X, X1 , X2 , Y , Y1 und Y2 sowie Skalarfaktoren a1 , a2 , b1 und b2 gilt cov(a1 X1 + a2 X2 , Y ) = a1 cov(X1 , Y ) + a2 cov(X2 , Y ) (14.179) und cov(X, b1 Y1 + b2 Y2 ) = b1 cov(X, Y1 ) + b2 cov(X; Y2 ) (14.180) Die Eigenschaft (14.179) leitet man mit Hilfe der Rechenregeln für den Erwartungswert auf die folgende Weise her: cov(a1 X1 + a2 X2 , Y ) = E[a1 X1 + a2 X2 − E(a1 X1 + a2 X2 )](Y − EY ) = E(a1 X1 + a2 X2 − a1 EX1 − a2 EX2 )(Y − EY ) = E[a1 (X1 − EX1 ) + a2 (X2 − EX2 )](Y − EY ) = E[a1 (X1 − EX1 )(Y − EY ) + a2 (X2 − EX2 )(Y − EY )] = a1 E(X1 − EX1 )(Y − EY ) + a2 E(X2 − EX2 )(Y − EY ) = a1 cov(X1 , Y ) + a2 cov(X2 , Y ) Zum Nachweis von (14.180) verwendet man (14.179) und (14.177) : cov(X, b1 Y1 + b2 Y2 ) = cov(b1 Y1 + b2 Y2 , X) = b1 cov(Y1 , X) + b2 cov(Y2 , X) = b1 cov(X, Y1 ) + b2 cov(X, Y2 ) Mann kann schließlich die beiden Gleichungen zusammenfassen und auf Linearkombinationen mit mehr als zwei Summanden ausdehnen. Wie man leicht nachvollzieht, gilt ! m n m X n X X X cov ai Xi , bk Yk = ai bk cov(Xi , Yk ) = a> CXY b (14.181) i=1 k=1 i=1 k=1 > wobei a der Zeilenvektor mit den Komponenten ai , b der Spaltenvektor mit den Komponenten bk und CXY die m × n-Matrix cov(X1 , Y1 ) cov(X1 , Y2 ) . . . cov(X1 , Yn ) cov(X2 , Y1 ) cov(X2 , Y2 ) . . . cov(X2 , Yn ) .. .. .. .. . . . . cov(Xm , Y1 ) cov(Xm , Y2 ) . . . cov(Xm , Yn ) ist. 14.3.4 Die Kovarianzmatrix eines Zufallsvektors Für einen Zufallsvektor X = (X1 , X2 , . . . , Xn ) cov(X1 , X1 ) cov(X1 , X2 ) cov(X2 , X1 ) cov(X2 , X2 ) CX = .. .. . . cov(Xn , X1 ) heißt die Matrix ... ... .. . cov(X1 , Xn ) cov(X2 , Xn ) .. . cov(Xn , X2 ) . . . cov(Xn , Xn ) 124 (14.182) die Kovarianzmatrix von X. Wegen (14.177) ist die Matrix CX symmetrisch. Ist a> = (a1 , a2 , . . . , an ) ein beliebiger reeller Zahlenvektor, so besitzt die Zufallsvariable Y = a1 X1 + a2 X2 + . . . + an Xn nach (14.176) und (14.181) die Varianz ! n n X X var(Y ) = cov(Y, Y ) = cov ai Xi , ak Xk = a> CX a i=1 k=1 Da Varianzen stets nichtnegativ sind, ist für beliebige Vektoren a a> CX a ≥ 0 d.h. die Matrix CX ist positiv semidefinit. Gibt es einen Vektor a 6= 0 mit aT CX a = 0, so besitzt die Zufallsvariable Y = a1 X1 + . . . + an Xn die Varianz Null und ist nach Satz 14.5 damit fast überall gleich einer Konstanten c bzw. sind die Zufallsvariablen Xi fast überall affin linear abhängig. 125 15 Die Normalverteilung Die Normalverteilung ist eine der wichtigsten Wahrscheinlichkeitsverteilungen in der Praxis, weil aufgrund des sogenannten zentralen Grenzwertsatzes in vielen Situationen angenommen werden kann, dass experimentell gewonnene Messwerte zumindest näherungsweise als Werte von normalverteilten Zufallsvariablen aufgefasst werden können. Die eindimensionale Normalverteilung wurde bereits im Abschnitt 10.5 und in den Übungen eingeführt. Ihre Eigenschaften werden im ersten Abschnitt dieses Kapitels noch einmal zusammengefasst und es wird der Zentrale Grenzwertsatz formuliert und interpretiert. Der zweite Abschnitt befasst sich mit der mehrdimensionalen Normalverteilung. 15.1 Die eindimensionale Normalverteilung Wie im Abschnitt 10.5 definiert, heißt die eindimensionale Verteilung P0 mit der Dichte (10.81) t2 1 ϕ(t) = √ e− 2 2π die standardisierte Normalverteilung oder N (0, 1)-Verteilung. Sie besitzt den Mittelwert Z m1 (P0 ) = tϕ(t)dt = 0 und die Varianz m̂2 (P0 ) = m2 (P0 ) = Z t2 ϕ(t)dt = 1 Die Funktion X(t) = σt + µ mit reellen Parametern σ 6= 0 und µ besitzt als Zufallsvariable auf dem Wahrscheinlichkeitsraum (R, B, P0 ) die Verteilung P X mit der Dichte f (x) = √ 1 e− (x−µ)2 2σ 2 (15.183) 2πσ 2 Diese Verteilung heißt die Normalverteilung mit Parametern µ und σ 2 oder N (µ, σ 2 )-Verteilung. Ihren Mittelwert und ihre Varianz berechnen wir über den Erwartungswert und die Varianz der Zufallsvariablen X: R m1 (P X ) = EX R = X(t)P0 (dt) = RR(σt + µ)ϕ(t)dtR = σ R tϕ(t)dt + µ R ϕ(t)dt = σm1 (P0 ) + µ1 = µ m̂2 (P X ) = = = = = 2 2 RvarX = E(X2− EX) = E(X − µ) R (X(t) − µ) P02(dt) (σt + µ − µ) ϕ(t)dt RR σ 2 R t2 ϕ(t)dt σ 2 m̂2 (P0 ) = σ 2 126 Ist X eine N (µ, σ 2 )-verteilte Zufallsvariable, so ist — wie im allgemeinen Rahmen im nächsten Abschnitt gezeigt wird — die Zufallsvariable Y = aX + b ebenfalls normalverteilt und zwar mit dem Mittelwert m1 (P Y ) = EY = E(aX + b) = aEX + b = aµ + b und der Varianz m̂2 (P Y ) = var(aX + b) = a2 varX = a2 σ 2 Insbesondere folgt daraus, dass 1 Y = √ (X − µ) σ2 (15.184) eine N (0, 1)-verteilte Zufallsvariable ist. 15.2 Der Zentrale Grenzwertsatz. X1 , X2 , X3 , . . . sei eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Verteilungen P Xn und Verteilungsfunktionen Fn (t) = P Xn ( −∞, t ] = P (Xn ≤ t) Konvergieren diese Verteilungsfunktionen für alle Argumente t gegen die Verteilungsfunktion der N (0, 1)-Verteilung: lim Fn (t) = Φ(t) n→∞ so sagt man, dass für die Folge dieser Zufallsvariablen der Zentrale Grenzwertsatz(ZGS) gilt. Diese Art von Konvergenz bedeutet also nicht, dass die Funktionen Xn in irgendeiner Weise gegen eine Grenzfunktion X konvergieren. Es bedeutet für die praktischen Anwendungen nur, dass man bei genügend großem n“ annehmen kann, dass die Ver” teilung der Zufallsvariable Xn näherungsweise die standardisierte Normalverteilung ist. Der klassische Fall einer Folge, für die der ZGS gilt, sind die normierten Partialsummen einer Folge X1 , X2 , X3 , . . . von stochastisch unabhängigen Zufallsvariablen, die alle die gleiche Verteilung besitzen. Die Partialsummen sind die Zufallsvariablen Sn = X1 + X2 + · · · + Xn Da die Xk alle die gleiche Verteilung besitzen, haben sie auch alle den gleichen Mittelwert und die gleiche Varianz: EXk = µ varXk = σ 2 Für die Partialsummen folgt daraus µn = ESn = EX1 + EX2 + · · · + EXn = nµ 127 und wegen der stochastischen Unabhängigkeit σn2 = varSn = varX1 + varX2 + · · · + varXn = nσ 2 Von einer Folge von Zufallsvariablen mit unbeschränkt wachsenden Mittelwerten und Varianzen kann man keine wie auch immer geartete Konvergenz erwarten. Man muss sie geeignet normieren: Die Zufallsvariablen 1 1 Sn∗ = p (Sn − µn ) = √ (Sn − nµ) 2 σn nσ 2 heißen die normierten Partialsummen der Xk , und zwar deshalb, weil sie die Erwartungswerte 1 ESn∗ = p (ESn − µn ) = 0 σn2 und die Varianzen varSn∗ = 1 p σn2 !2 var(Sn ) = 1 besitzen, also alle den gleichen Mittelwert und die gleiche Varianz wie die N (0, 1)Verteilung. Einen Beweis für die Gültigkeit des ZGS für die Variablen Sn∗ und weitere Literaturverweise findet man in dem Buch [8]. Wie bei einem mathematisch derart interessanten Thema wie der Gültigkeit des Zentralen Grenzwersatzes unter möglichst schwachen Voraussetzungen zu erwarten, gibt es eine Unzahl von Verallgemeinerungen des obigen Resultats. Für die Praxis, etwa bei der Fehlerrechnung, kann man diese mathematischen Aussagen salopp auf den gemeinsamen Nenner bringen, dass ein Messfehler immer dann näherungweise als normalverteilt angenommen werden darf, wenn er aus der Überlagerung vieler kleiner unabhängiger und nicht-systematischer Fehlerursachen resultiert, wobei keine dieser Ursachen dominierend ist. 15.3 Die mehrdimensionale Normalverteilung 15.3.1 Die standardisierte Normalverteilung Die Verteilung eines n-dimensionalen Zufallsvektors G = (G1 , G2 , . . . , Gn ), dessen Komponenten stochastisch unabhängig und N (0, 1)-verteilt sind, besitzt die Dichte ϕn (y1 , y2 , . . . , yn ) = ϕ(y1 )ϕ(y2 ) · · · ϕ(yn ) n 2 2 2 1 1 √ = e− 2 (y1 +y2 +···yn ) 2π (15.185) oder in Vektorschreibweise ϕn (y) = 1 √ 2π 128 n 1 e− 2 ||y|| 2 (15.186) mit der euklidischen Norm ||y|| = nenten yk . p y12 + y22 + · · · yn2 eines Vektors y mit den Kompo- Definition 15.1 Die n-dimensionale Verteilung Pn mit der Dichte (15.185) bzw. (15.186) heißt die n-dimensionale standardisierte Normalverteilung. Einen Zufallsvektor G, dessen Komponenten stochastisch unabhängig und N ( 0, 1 )verteilt sind, nennen wir im folgenden einen gaussischen Einheitsvektor. 15.3.2 Die mehrdimensionale Normalverteilung Die allgemeine n-dimensionale Normalverteilung erhält man wie im eindimensionalen Fall als Verteilung einer linearen Abbildung auf dem Wahrscheinlichkeitsraum (Rn , Bn , Pn ): Für i = 1, 2, . . . , n sei Xk (y1 , . . . , yn ) = ai1 y1 + ai2 y2 + · · · + ain yn + bi Diese n Funktionen fassen wir zu dem Zufallsvektor X(y) = Ay + b mit X(y) = b= b1 b2 .. . bn X1 (y) X2 (y) .. . Xn (y) , und A = (15.187) y= y1 y2 .. . yn , a11 a21 .. . a12 a22 .. . ... ... .. . a1n a2n .. . an1 an2 ... ann zusammen. Nach dem Transformationssatz für Dichten besitzt die Verteilung P X des Zufallsvektors X die Dichte f (x) = 1 ϕn A−1 (x − b) | det(A)| Mit der symmetrischen und positiv definiten Matrix C = AA> (das > steht für Transponieren) erhält man p p | det A| = pdet(A)2 = p det(A) det(A> ) > = det(AA ) = det(C) und ||A−1 (x − b)||2 = = > −1 (x − b)> A−1 A (x − b) (x − b)> C −1 (x − b) 129 und daraus für die Dichte f (x) die Formel n > −1 1 1 1 p e− 2 (x−b) C (x−b) f (x) = √ 2π det(C) (15.188) Satz 15.1 Ist C eine symmetrische und positiv definite n × n-Matrix und b ein ndimensionaler reeller Spaltenvektor, so ist die Funktion (15.188) eine Wahrscheinlichkeitsdichte. Beweis 1. Ist die Matrix C von der Form C = AA> mit einer nichtsingulären n × n-Matrix A, so wurde die Behauptung oben gerade dadurch bewiesen, dass f (x) die Dichte der Verteilung des Zufallsvektors X ist. Um die Behauptung für eine beliebige positiv definite symmetrische Matrix C zu beweisen, muss man also nur noch zeigen, dass jede derartige Matrix eine Zerlegung der Form AA> besitzt. 2. Eine positiv definite symmetrische Matrix C besitzt n positive reelle Eigenwerte λ1 , λ2 , . . . , λn mit zugehörigen Eigenvektoren u1 , u2 , . . . , un . Die n Eigenwertgleichungen Cuk = λk uk kann man zu einer Matrixgleichung CU = U Λ zusammenfassen, wobei U = (u1 , . . . , un ) die n × n-Matrix mit den Eigenvektoren uk und Λ die Diagonalmatrix mit den Eigenwerten λk als Diagonalelementen ist. Die Matrix U ist eine Orthogonalmatrix, d.h. U U > = I (=Einheitsmatrix). Multipliziert man die Gleichung CU = U Λ daher von rechts mit U > , so erhält man C 1 1 = U ΛU > = (U Λ 2 )(Λ 2 U > ) 1 1 = (U Λ 2 )(U Λ 2 )> = AA> (15.189) mit der Diagonalmatrix √ 1 Λ2 = λ1 0 .. . √0 λ2 .. . ... ... .. . 0 ... 0 0 0 .. √. λn ♦ Definition 15.2 Ist C eine symmetrische positiv definite n×n-Matrix und b ein beliebiger n-dimensionaler reeller Vektor, so heißt die Verteilung mit der Dichte (15.188) die n-dimensionale Normalverteilung mit Parametern b und C oder kurz N (b, C)-Verteilung. Als Hilfsmittel zur Herleitung der speziellen Eigenschaften der mehrdimensionalen Normalverteilung benötigen wir die Umkehrung obiger Entwicklung: 130 Satz 15.2 Ist X ein n-dimensionaler N (b, C)-verteilter Zufallsvektor, so besitzt X eine Darstellung der Form X = AG + b (15.190) mit einer nichtsingulären Matrix A und einem gaussischen Einheitsvektor G. Beweis 1. Sei A die Matrix aus (15.189) und H : Rn −→ Rn die affine lineare Abbildung H(x) = A−1 (x − b) mit der Umkehrabbildung H ∗ (y) = Ay + b und dem Absolutbetrag JH (x) = det(A−1 ) = 1 1 =√ | det A| det C der Funktionaldeterminante. 2. Für den Zufallsvektor G = H ◦ X = A−1 (X − b) ergibt sich aus dem Diagramm (Ω, A, P ) H - X HH G=H ◦X HH H (Rn , Bn , P X ) HH HH j H H ? (Rn , Bn , . ) dass G die gleiche Verteilung wie H besitzt, deren Dichte sich nach dem Transformationssatz aus der Dichte (15.188) zu 1 g(y) = f H ∗ (y) · JH H ∗ (y) n > ∗ −1 1 1 1 √ √ = e− 2 H (y)−b C 2π det C n 1 > > −1 1 √ e− 2 y A C Ay = 2π H ∗ (y)−b √ · det C ergibt. Aus A> C −1 A = A> (AA> )−1 A = A> (A> )−1 A−1 A = I 131 folgt schließlich, dass g(y) = 1 √ 2π n 1 e− 2 y > y = ϕn (y) , also die Dichte der n-dimensionalen standardisierten Normalverteilung ist. 3. Durch Auflösen von G = A−1 (X − b) erhält man noch X = AG + b und damit die Behauptung. 15.3.3 Interpretation der Parameter Mit Hilfe des Satzes 15.2 lässt sich auf einfache Weise ermitteln, welche Bedeutung die Parameter b und C in der Dichte (15.188) der Verteilung des Zufallsvektors X besitzen. In Komponentenschreibweise lautet die Gleichung (15.190) Xi = n X aik Gk + bi (15.191) k=1 Für die Erwartungswerte, Varianzen und Kovarianzen der Zufallsvariablen Gi gilt EGi varGi = m1 (N (0, 1)) = 0 = E(Gi − EGi )2 = E(G2i ) = m̂2 (N (0, 1)) = 1 und für zwei verschiedene Indizes i und k wegen der stochastischen Unabhängigkeit cov(Gi , Gk ) = E(Gi − EGi )(Gk − EGk ) = E(Gi Gk ) = 0 Nach den Rechenregeln für den Erwartungswert folgt daher aus (15.191) EXi = n X k=1 aik EGk + bi = bi Für zwei Komponenten Xi und Xj gilt weiter cov(Xi , Xj ) = E(Xi − EXi )(Xj − EXj ) ! ! n n X X ajl Gl = E aik Gk l=1 k=1 = = = n X n X k=1 l=1 n X k=1 n X aik ajl E(Gk Gl ) aik ajk E(G2k ) + aik ajk k=1 = cij 132 n X X k=1 l6=k aik ajl E(Gk Gl ) wo cij die Komponenten der Matrix C bezeichnet. Daraus folgt der Satz 15.3 Ist X ein N (b, C)-verteilter Zufallsvektor, so ist b = EX der Erwartungswert und C = CX die Kovarianzmatrix dieses Zufallsvektors. 15.3.4 Stochastische Unabhängigkeit bei Normalverteilung Ist die Matrix C bei einem N (b, C)-verteilten Zufallsvektor X eine Diagonalmatrix, 2 σ1 0 . . . 0 0 σ22 . . . 0 C= . . .. . . .. . .. . 0 0 ... σn2 so wird die Dichte (15.188) zu f (x1 , x2 , . . . , xn ) = f1 (x1 )f2 (x2 ) · · · fn (xn ) mit den Dichten fi (t) = p 1 − e 2 (t−bi )2 2σ 2 i 2πσi der N (bi , σi2 )-Verteilungen. Das bedeutet, dass die Komponenten Xi des Zufallsvektors stochastisch unabhängig und N (bi , σi2 )-verteilt sind. Da C genau dann eine Diagonalmatrix ist, wenn cov(Xi , Xj ) = 0 für alle i 6= j, erhält man eine Aussage über den Zusammenhang zwischen Nullkovarianz und stochastischer Unabhängigkeit, der in dieser Form aber nur für die Normalverteilung gilt: Satz 15.4 Ist X ein normalverteilter Zufallsvektor, so sind seine Komponenten genau dann stochastisch unabhängig, wenn je zwei verschiedene Komponenten Kovarianz Null besitzen. 15.3.5 Funktionen von normalverteilten Zufallsvariablen Eine für die Anwendungen äußerst wichtige Eigenschaft der Normalverteilung ist die, dass Linearkombinationen von normalverteilten Zufallsvariablen wieder normalverteilt sind. Zum Nachweis dieser Aussage benötigen wir den folgenden Satz 15.5 Ist G ein n-dimensionaler gaussischer Einheitsvektor und U eine n × nOrthogonalmatrix, so ist H = UG ebenfalls ein gaussischer Einheitsvektor. 133 (Ω, A, P ) HH - G HH H HH HH (Rn , Bn , P G ) X(y) = U y HH j H ? (Rn , Bn , . ) Beweis Im Diagramm ist P G die standardisierte n-dimensionale Normalverteilung und H besitzt die gleiche Verteilung wie der Zufallsvektor aus (15.187) mit A = U und b = 0. Daraus folgt für die Dichte (15.188), dass C = U U > = I mit det C = det I = 1, d.h. n 1 > 1 e− 2 x x = ϕn (x) f (x) = √ 2π Satz 15.6 Ist X ein n-dimensionaler N (b, C)-verteilter Zufallsvektor mit den Komponenten X1 , X2 , . . . , Xn , so ist die Zufallsvariable Y = a1 X1 + a2 X2 + · · · + an Xn + c = a> X + c normalverteilt mit Mittelwert µ= n X ai bi + c = a> b + c i=1 und Varianz σ2 = n n X X ai cik ak = a> Ca i=1 k=1 Beweis 1. Mit der Darstellung X = AG + b nach Satz 15.2 lässt sich die Zufallsvariable Y in der Form Y = a> (AG + b) + c = (a> A)G + (a> b + c) =: = α> G + µ α1 G1 + α2 G2 + . . . + αn Gn + µ 134 p schreiben. Mit der Norm kαk = α12 + α22 + . . . + αn2 des Vektors α und u1k := αk kαk ist Y = kαk(u11 G1 + u12 G2 + . . . + u1n Gn ) + µ (15.192) 2. Der Zeilenvektor (u11 , . . . , u1n ) ist wegen n X k=1 u21k = n 1 X 2 αk = 1 kαk2 k=1 ein normierter Zeilenvektor und man kann ihn — wie aus der Matrizenrechnung bekannt — durch n − 1 weitere Zeilen (ui1 , ui2 , . . . , uin ) zu einer Orthonormalbasis des Rn bzw. zu einer Orthogonalmatrix u11 . . . u1n u21 . . . u2n U = . .. .. . un1 ... unn ergänzen. Nach Satz 15.5 ist dann G1 H1 G2 H2 .. = U .. . . Gn Hn ein gaussischer Einheitsvektor und speziell H1 eine N ( 0, 1 )-verteilte Zufallsvariable. 3. Nach (15.192) ist Y = kαk H1 + µ =: σ H1 + µ und aus dem Diagramm 22 ersieht man, dass Y normalverteilt ist mit Mittelwert µ = a> b + c und Varianz σ 2 = kαk2 = ka> Ak2 = a> AA> a = a> Ca. 135 (Ω, A, P ) HH - H1 HH Y HH HH (R, B, P H ) Z(s) = σs + µ HH j H ? (R, B, . ) Abbildung 22: Zu Beweisteil 3 136 16 Grenzwertsätze Im letzten Kapitel der Vorlesung beschäftigen wir uns unter anderem mit dem Thema, das uns in der Einleitung den Einstieg in die mathematische Behandlung des Zufalls lieferte, nämlich mit dem Gesetz der großen Zahlen. Dabei wird ein Zufallsexperiment immer wieder durchgeführt und das Verhalten der relativen Häufigkeit für das Eintreten eines bestimmten Ereignisses betrachtet, wenn die Anzahl der Durchführungen gegen Unendlich strebt“. ” Zur Modellierung dieser Situation führen wir einen Wahrscheinlichkeitsraum ein, der das Entstehen einer unendlichen zufälligen Folge von Nullen und Einsen beschreibt. 16.1 Unendliche Bernoulli-Versuchsreihen Als mathematische Abstraktion für ein Zufallsexperiment, bei dessen Durchführung nur interessiert, ob ein bestimmtes Ereignis eintritt oder nicht, wählen wir ein BernoulliExperiment ({0, 1}, 2{0,1} , P0 ) (s. Abschnitt 5.3), wobei die 1 für dieses Ereignis steht und die Erfolgswahrscheinlichkeit p = P0 {1} die Wahrscheinlichkeit für das Eintreten dieses Ereignisses ist. Die Ergebnismenge für die unendlichfache“ Wiederholung eines Bernoulli-Experiments ” ist die Menge aller unendlichen 0-1-Folgen Ω = {δ = (δ1 , δ2 , δ3 , . . .) ; δk ∈ {0, 1}} (16.193) Dabei steht δk für das Ergebnis der k-ten Durchführung des Bernoulli-Experiments. Die Menge (16.193) ist überabzählbar. Jede 0-1-Folge δ1 , δ2 , δ3 . . . kann man nämlich als Binärentwicklung einer reellen Zahl x mit 0 ≤ x ≤ 1 auffassen mit x als dem Wert der Potenzreihe 2 3 1 1 1 x = δ1 · + δ2 · + δ3 · + ... 2 2 2 Die Mächtigkeit der Menge Ω ist also die des reellen Zahlenintervalls [0, 1]. Es ist daher nicht möglich, als σ-Algebra auf dieser Ergebnismenge einfach die Menge aller Teilmengen zu benutzen, da es auf diesem Mengensystem keine Funktion P gibt, die alle vier Axiome für Wahrscheinlichkeiten erfüllt. Zur Festlegung einer σ-Algebra schlagen wir den gleichen Weg wie bei den n-dimensionalen Verteilungen ein und legen fest, welche Teilmengen von Ω auf jeden Fall Ereignisse sein sollten. Dazu führen wir die Zustandsvariablen Xk : Ω −→ {0, 1} mit Xk (δ) = Xk (δ1 , δ2 , . . .) = δk ein, die das Ergebnis der k-ten Durchführung des Experiments anzeigen und fordern, dass dies Zufallsvariable sein sollen. Das bedeutet, dass die Urbildmengen (Xk = δ̂) = {δ = (δ1 , δ2 , . . .) ; δk = δ̂} (16.194) für alle k = 1, 2, 3, . . . und alle δ̂ = 0, 1 in der festzulegenden σ-Algebra enthalten sein sollen. Gleichzeitig soll dieses Mengensystem nicht größer als nötig sein, so dass wir 137 uns als σ-Algebra A auf Ω die kleinste σ-Algebra, die alle Mengen der Form (16.194) enthält, vorgeben. Die Wahrscheinlichkeit P , die wir auf dieser σ-Algebra studieren wollen, soll dadurch charakterisiert sein, dass es sich bei dem durch (Ω, A, P ) beschriebenen Zufallsexperiment um die unendlichfache Wiederholung immer des gleichen BernoulliExperiments handelt, wobei die Durchführungen unabhängig voneinander stattfinden. Mit Hilfe der Zustandsvariablen kann man diese Forderungen mathematisch präzisieren: 1. Die Wahrscheinlichkeiten für die Ereignisse der Einzelexperimente sollen immer gleich sein: p falls δ̂ = 1 P Xk = δ̂ = P0 {δ̂} = (16.195) 1 − p falls δ̂ = 0 2. Die Zufallsvariablen Xk sollen stochastisch unabhängig sein. Für jede Auswahl 1 ≤ k1 < k2 < . . . < km von Indizes und δ̂1 , δ̂2 , . . . , δ̂m von Binärzahlen muss i h P (Xk1 = δ̂1 ) ∩ (Xk2 = δ̂2 ) ∩ . . . ∩ (Xkm = δ̂m ) (16.196) = P (Xk1 = δ̂1 )P (Xk2 = δ̂2 · . . . · P (Xkm = δ̂m ) gelten. Mit den Abkürzungen ]δ̂ = δ̂1 + δ̂2 + . . . + δ̂m und q = 1 − p kann man diese beiden Forderungen zu i h (16.197) P (Xk1 = δ̂1 ) ∩ (Xk2 = δ̂2 ) ∩ . . . ∩ (Xkm = δ̂m ) = p]δ̂ q m−]δ̂ zusammenfassen. In der Wahrscheinlichkeittheorie zeigt man die Gültigkeit des folgenden Satzes, auf dessen Beweis wir hier verzichten. Satz 16.1 . Es gibt genau eine Wahrscheinlichkeit P auf der σ-Algebra mit der Eigenschaft (16.197). Den so eingeführten Wahrscheinlichkeitsraum (Ω, A, P ) nennen wir im Folgenden eine unendliche Bernoulli-Versuchsreihe mit Erfolgswahrscheinlichkeit p. 16.2 Das Gesetz der Großen Zahlen Die absolute und relative Häufigkeit eines Ereignisses bei n Versuchen kann man auf einer unendlichen Bernoulli-Versuchsreihe als Zufallsvariable formulieren. Die Funktion Sn (δ1 , δ2 , . . .) = δ1 + δ2 + . . . + δn bzw. Sn = X1 + X2 + . . . + Xn 138 (16.198) gibt an, wie oft das Ereignis {1} bei den ersten n Durchführungen des BernoulliExperiments zustande gekommen ist und heißt demgemäß die Summe der Erfolge nach n Versuchen. Die relative Häufigkeit des Eintretens der 1 ist dann durch die Zufallsvariable 1 1 (16.199) Hn = Sn = (X1 + X2 + . . . + Xn ) n n mit 1 Hn (δ1 , δ2 , . . .) = (δ1 + δ2 + . . . + δn ) n gegeben. Das Gesetz der grossen Zahlen besagt, dasss die Folge der Zufallsvariablen Hn für n −→ ∞ in gewisser Weise gegen die Wahrscheinlichkeit p = P0 {1} konvergiert. Zur Herleitung einer solchen Eigenschaft benötigen wir die Erwartungswerte und Varianzen der beteiligten Zufallsvariablen. Die Zustandsvariablen Xk sind Treppenfunktionen: Xk (δ) = 1 · 1(Xk =1) (δ) + 0 · 1(Xk =0) (δ) Der Erwartungswert, d.h. das P -Integral ist daher EXk = 1 · P (Xk = 1) + 0 · P (Xk = 0) = p Wegen Xk2 (δ) = 12 · 1(Xk =1) (δ) + 02 · 1(Xk =0) (δ) ist auch EXk2 = p und damit 2 var(Xk ) = EXk2 − (EXk ) = p − p2 = p(1 − p) = pq Da die Zufallsvariablen Xk stochastisch unabhängig sind, gilt nicht nur für den Erwartungswert sondern auch für die Varianz die Additionsformel ESn varSn = E(X1 + X2 + . . . + Xn ) = EX1 + EX2 + . . . EXn = np = = var(X1 + X2 + . . . + Xn ) var(X1 ) + var(X2 ) + . . . + var(Xn ) = npq Schließlich erhält man aus der Linearität des Erwartungswert-Operators und der Regel (14.171) für die Varianz 1 1 EHn = E Sn = ESn = p (16.200) n n 2 1 1 pq var(Hn ) = var Sn = (16.201) var(Sn ) = n n n Die Ungleichung von Tschebyscheff (14.168) angewandt auf die relative Häufigkeit P (|Hn − EHn | > ε) ≤ 139 varHn ε2 bzw. pq nε2 besagt dann, dass für eine beliebig kleine positive reelle Zahl ε P (|Hn − p| > ε) ≤ lim P (|Hn − p| > ε) = 0 n→∞ (16.202) oder— wenn man zum Komplementärereignis übergeht— lim P (|Hn − p| ≤ ε) = 1 n→∞ (16.203) Die Aussage (16.203), dass für n −→ ∞ die relative Häufigkeı́t mit Wahrscheinlichkeit 1 in einer beliebig klein vorgegebenen Umgebung der Wahrscheinlichkeit p des Ereignisses liegt, ist natürlich eine sehr vorsichtig formulierte Forderung der Konvergenzeigenschaft. Daher heisst (16.203) bzw (16.202) auch das schwache Gesetz der großen Zahlen. Es gilt— was wir hier nicht beweisen wollen— auch das starke Gesetz der großen Zahlen. Es besagt, dass es eine Menge N ∈ A mit P (N ) = 0 gibt, so dass für alle Ereignisse δ, die nicht in N liegen, die Folge der Funktionswerte Hn (δ) gegen p konvergiert: n o P δ ∈ Ω ; lim Hn (δ) = p = 1 (16.204) n→∞ 16.3 Der Grenzwertsatz von Moivre und Laplace Der Grenzwertsatz von Moivre und Laplace ist historisch gesehen der Vorläufer des Zentralen Grenzwertsatzes, der im Abschnitt 15.2 des Kapitels über die Normalverteilung formuliert wurde. Dabei wird die Folge der Zufallsvariablen Sn = X1 + X2 + . . . + Xn auf einer unendlichen Bernoulli-Versuchsreihe mit Erfolgswahrscheinlichkeit p betrachtet. Wie in Abschnitt 16.2 berechnet, ist ESn = np var(Sn ) = np(1 − p) und so dass die Zufallsvariablen Sn∗ = p 1 np(1 − p) (Sn − np) alle den Erwartungswert 0 und die Varianz 1 besitzen. Der Grenzwertsatz von Moivre und Laplace (bzw. der ZGS) besagt, dass für n gegen Unendlich die Verteilung dieser Zufallsvariablen gegen die N (0,1)-Verteilung konvergiert, d.h. lim P (a ≤ Sn∗ ≤ b) = Φ(b) − Φ(a) (16.205) n→∞ 140 wobei Φ(t) die Verteilungsfunktion der N (0, 1)-Verteilung ist. Dieses Resultat ermöglicht es uns, Wahrscheinlichkeiten für Zufallsvariablen mit Binomialverteilung bei großen Parameterwerten n näherungsweise mit Hilfe der Normalverteilung zu berechnen. Für die Zufallsvariable Sn ist a ≤ Sn ≤ b genau dann, wenn p a − np np(1 − p) so dass für genügend große n P (a ≤ Sn ≤ b) ≈ Φ p ≤ Sn∗ ≤ p b − np np(1 − p) b − np np(1 − p) ! −Φ , p a − np np(1 − p) ! ist. Die Folge der Wahrscheinlichkeiten P (a ≤ Sn ≤ b) konvergiert umso langsamer gegen diesen Grenzwert, ja näher die Erfolgswahrscheinlichkeit p bei Null oder bei Eins liegt. Eine der in der Statistik gängigen Faustregeln lautet daher, dass n genügend groß ist, wenn np(1 − p) ≥ 9 Beispiel: In einer Prüfung werden n = 40 Fragen gestellt, die nur mit ja oder nein zu beantworten sind. Zum Bestehen der Prüfung sind mehr als m = 30 richtige Antworten erforderlich. Wie gross ist die Wahrscheinlichkeit, dass man diese Prüfung völlig unvorbereitet durch reines Raten der richtigen Antworten besteht? Den Prüfungsablauf kann man als Bernoulli-Versuchsreihe mit der Erfolgswahrscheinlichkeitp = 12 für das Erraten der richtigen Antwort auf eine Frage auffassen. Sn mit n = 40 ist dann die Anzahl der richtigen Antworten. Wegen np(1 − p) = 10 können wir näherungsweise mir der Normalverteilung arbeiten: ! m − np P (Sn > m) = 1 − P (Sn ≤ m) = 1 − P (−∞ ≤ Sn ≤ m) ≈ 1 − Φ p np(1 − p) In unserem Fall ist also P (S40 > 30) ≈ 1 − Φ √ 10 √ Den Wert Φ( 10) kann man mit den meisten Mathematik- und Statistikprogrammpaketen berechnen. Mit Matlab ergibt sich P (S40 > 30) ≈ 0, 0008 Es dürfte daher zweckmässig sein, eine solche Prüfung nicht ganz unvorbereitet anzugehen. 141 16.4 Der Grenzwertsatz von Poisson Der Grenzwertsatz von Poisson befasst sich mit dem Verhalten einer Folge von Binominalverteilungen, bei der nicht die Erfolgswahrscheinlichkeit p, sondern die Mittelwerte np, d.h. die mittlere Anzahl der Erfolge, für n gegen Unendlich konstant bleiben. Er stellt er eine weitere Möglichkeit zur approximativen Berechnung der Wahrscheinlichkeiten für binominalverteilte Zufallsvariable dar. Satz 16.2 Ist P1 , P2 , P3 , . . . eine Folge von Binominalverteilungen mit den Wahrscheinlichkeitsfunktionen n k n−k für k = 0, 1, . . . , n k pn (1 − pn ) (16.206) fn (k) = 0 für k > n auf der Ergebnismenge N0 mit von n abhängigen Erfolgswahrscheinlichkeiten pn so, dass für die Mittelwerte µn = npn dieser Verteilungen lim µn = lim npn = µ n→∞ (16.207) n→∞ mit einer reellen Zahl µ > 0 gilt, so konvergieren diese Wahrscheinlichkeitsfunktionen für n → ∞ gegen die Wahrscheinlichkeitsfunktion der Poisson-Verteilung mit Parameter µ: µk lim fn (k) = e−µ (16.208) n→∞ k! Beweis Für eine beliebige fest vorgegebene natürliche Zahl k und alle natürlichen Zahlen n ≥ k kann man die Formel (16.206) für die Wahrscheinlichkeitsfunktion fn (k) wie folgt umschreiben, wobei wir die Beziehung pn = µn /n verwenden: n k p (1 − pn )n−k fn (k) = k n n(n − 1)(n − 2) . . . (n − k + 1) µn k (1 − pn )n = k! n (1 − pn )k µkn n n − 1 1 µn n n−k+1 = 1 − ... k! n n n (1 − pn )k n 1 = 1 und (1−pn )k k k µ limn→∞ k!n = µk! , so dass nur Wegen limn→∞ pn = 0 ist limn→∞ j = 0, 1, . . . , k − 1 sowie µn n 1− n für wachsendes n ermittelt werden muss. Für jede reelle Zahl ξ gilt (s. z.B. [16]), dass n ξ = eξ lim 1 + n→∞ n 142 es gilt limn→∞ (n−j) n = 1 für noch das Verhalten des Terms (16.209) bzw. lim n→∞ 1− n µ n (−µ) = lim 1 + = e−µ . n→∞ n n (16.210) Da aber unser Term (16.209) auch noch ein von n abhängiges µn enthält, können wir dieses Resultat nicht direkt verwenden. Wegen der Voraussetzung limn→∞ µn = µ, steht zu erwarten, dass die Folge der Größen (16.209) ebenfalls gegen e−µ konvergiert. Um diese Vermutung aber definitiv zu beweisen, müssen wir auf die Methode zurückgreifen, mit der man üblicherweise die Konvergenz einer Folge nachweist: Wir geben uns eine beliebig kleine positive Zahl ε vor und müssen dazu ein von dieser Zahl abhängiges n0 = n0 (ε) finden, so dass für alle n ≥ n0 gilt µn n (16.211) − e−µ < ε 1− n Wegen der Stetigkeit und Monotonie der Exponentialfunktion gibt es zu unserem ε ein δ = δ(ε) > 0, so dass e−(µ+δ) > e−µ − ε 2 und e−(µ−δ) < e−µ + ε 2 (16.212) Aufgrund der Konvergenzeigenschaft (16.210) findet man zu diesem δ ein n1 , so dass für n ≥ n1 n n µ−δ ε −(µ+δ) (16.213) 1 − µ+δ und 1 − ≥ e − ≤ e−(µ−δ) + 2ε . n 2 n Ausserdem gibt es wegen limn→∞ µn = µ ein n2 , so dass für alle n ≥ n2 µ − δ ≤ µn ≤ µ + δ bzw. n n µ+δ µn n µ−δ 1− ≤ 1− ≤ 1− n n n (16.214) Die Zahlen n1 und n2 hängen dabei indirekt über δ von ε ab : n1 = n1 (ε), n2 = n2 (ε). Aus (16.212) , (16.213) und (16.214) folgt zusammen , dass für n ≥ n0 (ε) = max (n1 (ε), n2 (ε)) die Ungleichungen µn n e−µ − ε < 1 − < e−µ + ε n bzw. (16.211) gelten, womit unsere Vermutung bewiesen ist. Insgesamt ergibt sich daraus die im Satz formulierte Behauptung lim fn (k) = e−µ n→∞ µk k! ♦ Als Beispiel für diese Anwendung des Grenzwertsatzes von Poisson betrachten wir die folgende Fragestellung: 143 Bei der Produktion von Magnetbandkassetten werden von einem unendlich langem Magnetband laufend Stücke fester Länge abgeschnitten und in Kassetten eingelegt. Bei der Produktion treten auf dem unendlich langen Band zufällig verteilt Beschichtungsfehler auf. Eine Kassette, die ein Bandstück mit mehr als zwei Beschichtungsfehlern enthält, sei unbrauchbar. Wie groß ist der Prozentsatz an unbrauchbaren Kassetten bei Bandstücken einer Länge von l = 200m , wenn bei der Bandherstellung im großen Durchschnitt b = 3 Beschichtungsfehler auf L = 10.000m Bandlänge auftreten? Im Durchschnitt kommen damit auf eine Kassette µ=b· 200 l =3· = 0, 06 L 10.000 Beschichtungsfehler. Da die Fehler auf dem gesamten Band zufällig verteilt sind, ist die Anzahl der Fehler für das Stück in einer Kassette ebenfalls zufällig. Bekannt ist lediglich, dass auf eine große Anzahl M von Kassetten insgesamt etwa nM ≈ M µ von Fehlern kommen. Zur Herleitung der Wahrscheinlichkeitsverteilung der Anzahl der Fehler pro Kassette denken wir uns M zunächst fehlerfreie Bandstücke nebeneinander gelegt und verteilen nacheinander zufällig nM Beschichtungsfehler darauf. Wenn wir uns zur Beobachtung ein Bandstück B unter diesen M fest auswählen, so ist die Wahrscheinlichkeit, dass ein Fehler bei der zufälligen Verteilung auf B gelangt, gleich 1 , pM = M denn jedes Stück hat die gleiche Chance, den Fehler abzubekommen. Die sukzessive Verteilung von nM Fehlern kann man dann als Bernoulli-Versuchsreihe der Länge nM auffassen, mit der Erfolgswahrscheinlichkeit pM dafür, dass das Stück B mit einem Fehler bedacht wird. Die Gesamtzahl der Fehler auf B entspricht daher der Summe der Erfolge auf dieser Bernoulli-Versuchsreihe und das Wahrscheinlichkeitsgesetz ist die Binominalverteilung. Die Wahrscheinlichkeit, dass das Bandstück B genau k Fehler enthält, ist nM k pM (1 − pM )nM −k (16.215) fnM (k) = k Uns interessiert das Verhalten der Wahrscheinlichkeiten (16.215) für M → ∞ unter der Annahme, dass sich die durchschnittliche Anzahl µM der Fehler pro Band bei M Bändern immer mehr der Durchschnittszahl µ für die Gesamtproduktion annähert, d.h. nM = lim nM · pM = µ lim µM = lim M →∞ M →∞ M →∞ M Da bekanntlich mit einer Folge auch jede unendliche Teilfolge konvergiert, liefert uns der Grenzwertsatz von Poisson lim fnM (k) = f (k) = e−µ M →∞ 144 µk k! D.h. die Anzahl der Beschichtungsfehler auf einer zufällig aus der Gesamtproduktion (charakterisiert durch M → ∞) ausgewählten Kassette ist Poisson-verteilt mit Parameter µ = 0, 06 und die Wahrscheinlichkeit, dass sie mehr als zwei Beschichtungsfehler enthält, gleich ∞ X f (k) = 1 − f (0) − f (1) − f (2) ≈ 0, 000034. k=3 Wenn man relative Häufigkeiten mit Wahrscheinlichkeiten gleichgesetzt, so bedeutet das, dass etwa 0,003 Prozent aller produzierten Kassetten unbrauchbar sind. 16.5 Die eindimensionale Irrfahrt Die eindimensionale Irrfahrt ist das einfachste Modell zur mathematischen Beschreibung der Brownschen Bewegung: Ein Partikel bewegt sich in festen Zeittakten auf den ganzzahligen Punkten der reellen Zahlenachse, wobei es jeweils entweder zum linken oder zum rechten Nachbarpunkt springt. Die Auswahl der Sprungrichtung ist dabei vom Zufall abhängig. Wenn wir annehmen, dass ein Sprung nach rechts stets mit der gleichen Wahrscheinlichkeit p und einer nach links demgemäß mit Wahrscheinlichkeit q = 1 − p erfolgt und die Sprungrichtungen stochastisch unabhängig voneinander sind, so können wir die Folge der Sprungrichtungen als eine Bernoulli-Versuchsreihe mit der Ergebnismenge Ω = {δ = (δ1 , δ2 , . . .); δk ∈ {−1, 1}} modellieren, wobei δk = 1 dafür steht, dass der k-te Sprung nach rechts erfolgt und δk = −1 dafür, dass er zum linken Nachbarpunkt geht. Die Position des Partikels nach dem n-ten Sprung ist dann eine Zufallsvariable Sn . Startet das Partikel aus der Position a ∈ ZZ , so sind die Zufallsvariablen S1 , S2 , . . . gegeben durch S1 (δ) S2 (δ) = a + δ1 = a + δ1 + δ2 .. . Sn (δ) = a + δ1 + . . . δn = Sn−1 (δ) + δn oder unter Verwendung der Zustandsvariablen Xk (δ) = δk und der konstanten Funktion S0 (δ) = a Sn+1 = Sn + Xn+1 (16.216) Trägt man bei fest vorgegebenem δ = (δ1 , δ2 , . . .) die Postitionen S1 (δ1 ), S2 (δ2 ) . . . als Punkte in einem kartesischen Koordinatensystem über den Abzissenwerten 1, 2, . . . ab und verbindet man aufeinanderfolgende Punkte mit Geraden, so ergibt sich etwa das in Abbildung 23 dargestellte Bild. Mit dem Gedanken im Hintergrund, dass sich die Zick-Zack-Bewegung der Kurve in dieser Abbildung zufällig entwickelt, ist es offensichtlich, warum die Folge der Zufallsvariablen S0 , S1 , S2 , . . . eine (eindimensionale) Irrfahrt heißt. 145 6 2 a = 1r @ 0 -1 @ r @ @ @r 1@ @ 2 r 3 4 r @ @ @r 5 6 n @ @r Abbildung 23: Die eindimensionale Irrfahrt 16.5.1 Gewinnchancen beim Roulette Wie groß ist die Wahrscheinlichkeit, dass Sie es schaffen, mit einem Startkapital von 20 Euro durch Roulettespielen auf ein Endkapital von 100 Euro zu kommen? Diese Wahrscheinlichkeit hängt natürlich von der verfolgten Strategie ab, d.h. einmal, auf welche Zahl- oder Farbkombination man setzt und zum andern, wieviel man pro Runde einsetzt. Wir vereinfachen hier das Problem drastisch, indem wir annehmen, dass wir in jeder Runde stets auf Rot“ setzen und dass es keine Sonderregelung für ” den Fall gibt, dass die Null (Zero) auftritt. Mit Wahrscheinlichkeit p = 18/37 erscheint Rot“ und man erhält seinen Einsatz ” plus den gleichen Betrag als Gewinn. Der Kapitalbestand erhöht sich damit um den Einsatz. Mit Wahrscheinlichkeit q = 19/37 kommt Schwarz“ oder Zero“ und der ” ” Kapitalbestand vermindert sich um den Einsatz. Was die Höhe des Einsatzes anbelangt, so gibt es zwei Extremfälle: die vorsichtige und die kühne Strategie. Bei der kühnen Strategie setzt man bei jeder Runde soviel aus dem momentanen Kapitalbestand, dass man im Fall des Gewinns so nahe wie möglich an das vorgegebene Zielkapital z (=100 Euro) herankommt. Bei der vorsichtigen Strategie setzt man in jeder Runde immer genau 1 Euro. Wir behandeln hier die Letztere. Die Lösung für die kühne Strategie findet man im Skript [29] zur Vorlesung Wahrscheinlichkeitsrechnung II. 16.5.2 Die vorsichtige Strategie Wenn man δk = ±1 als Gewinn bzw Verlust in der k-ten Runde und a als das Startkapital interpretiert, so stellen die Zufallsvariablen S1 , S2 , . . . der eindimensionalen Irrfahrt die Kapitalbestände nach den jeweiligen Runden dar. Ist z das vorgegebene Zielkapital, so interessiert uns das Ereignis Ga ( Gewinn bei ” Startkapital a“), dass die Kurve der eindimensionalen Irrfahrt irgendwann einmal das 146 Niveau Sn = z erreicht, ohne vorher auf das Niveau Sk = 0 abzusinken, denn letzteres würde bedeuten, dass man kein Kapital zum Einsetzen mehr zur Verfügung hat, oder — mit andern Worten — das Spiel verloren hat. 6 z s s @ s @ a s s @ @s @ @ @s s @ s @ @s s @ @s - 1 2 3 n Abbildung 24: Die vorsichtige Strategie Die Menge Ga ist also die Vereinigung aller Mengen der Form (S0 = a) ∩ (S1 > 0) ∩ (S2 > 0) ∩ . . . ∩ (Sn−1 > 0) ∩ (Sn = z) über die Indizes n = 1, 2, . . . Zur Berechnung der Wahrscheinlichkeiten pa = P (Ga ) (16.217) betrachten wir die Gewinnaussichten nach dem Ende der ersten Runde. Die Ereignisse (X1 = 1) und (X1 = −1) , dass die erste Runde gewonnen bzw verloren wird, bilden eine Partition der Menge Ω aller Folgen δ = (δ1 , δ2 , . . .): (X1 = 1) + (X1 = −1) = {(1, δ2 , . . .) ; δk = ±1} + {−1, δ2 , . . .) ; δk = ±1} = Ω und besitzen die Wahrscheinlichkeiten P (X1 = 1) = p und P (X1 = −1) = q für den Gewinn bzw den Verlust einer Runde. 147 Die Formel (4.35) von der totalen Wahrscheinlichkeit lautet für diesen Fall also P (Ga ) = P (Ga |(X1 = 1))P (X1 = 1) + P (Ga |(X1 = −1))P (X1 = −1) = p P (Ga |X1 = 1) + q P (Ga |X1 = −1) (16.218) Zur Bestimmung der bedingten Wahrscheinlichkeiten P (Ga |X1 = 1) und P (Ga |X1 = −1) lassen wir uns von der Abbildung 24 leiten. Da die einzelnen Spielrunden als Einzelexperimente einer Bernoulli-Versuchsreihe stochastisch unabhängig angenommen werden, hat das Ergebnis der ersten Runde keinen Einfluss auf die nachfolgenden Runden. Wenn man das Geschehen ab der zweiten Runde betrachtet, hat man daher wieder eine unendliche Bernoulli-Versuchsreihe mit der gleichen Erfolgswahrscheinlichkeit p vor sich und die Bedingungen (X1 = 1) bzw (X1 = −1) besagen (vgl. Abbildung 24), dass man auf dieser Bernoulli-Versuchsreihe eine Irrfahrt mit dem Startzustand a + 1 bzw a − 1 betrachtet. Die bedingten Wahrscheinlichkeiten P (Ga |X1 = 1) bzw P (Ga |X1 = −1) müssen daher mit den unbedingten Wahrscheinlichkeiten P (Ga+1 ) bzw P (Ga−1 ) dafür übereinstimmen, dass man mit Startkapital a + 1 bzw a − 1 das Ziel z erreicht. Die Gleichung (16.218) lautet damit P (Ga ) = p P (Ga+1 ) + q P (Ga−1 ) oder unter Verwendung von (16.217) pa = p pa+1 + q pa−1 (16.219) Man kann diese Argumentationskette natürlich streng mathematisch beweisen, wir verzichten aber im Rahmen dieser Vorlesung darauf. Der Beweis wird in der Fortsetzungsvorlesung [29] über Markoffprozesse geführt. Die Formel (16.219) ist nur für ein Startkapital 0 < a < z richtig. Da man mit Startkapital a = 0 niemals spielen und daher auch nicht gewinnen kann, legen wir p0 = P (G0 ) = 0 fest. Ist a = z , so hat man ohne zu spielen bereits sein Ziel erreicht, so dass wir pz = P (Gz ) = 1 setzen können. Bringt man alle Terme der Gleichung (16.219) auf die rechte Seite, so ergibt sich, dass die Wahrscheinlichkeiten pa = P (Ga ) die Lösung einer homogenen linearen Differenzengleichung mit konstanten Koeffizienten p pa+1 − pa + q pa−1 = 0 (16.220) mit den Randbedingungen p0 = 0 und pz = 1 sind. 148 (16.221) Lineare Differenzengleichungen. Bei einer homogenen linearen Differenzengleichung mit konstanten Koeffizienten [22] zweiter Ordnung wie b2 xn + b1 xn−1 + b0 xn−2 = 0 (16.222) ist eine Zahlenfolge x0 , x1 , x2 , . . . gesucht, die für alle n die Gleichung (16.222) erfüllt. Ein Ansatz der Form xn = z n ergibt in (16.222) eingesetzt (b2 z 2 + b1 z + b0 )z n−2 = 0 , woraus man ersieht, dass für eine Lösung von (16.222) z eine Nullstelle des sogenannten charakteristischen Polynoms C(z) = b2 z 2 + b1 z + b0 sein muss. Genauer gilt (s. [22]): • Besitzt das charakteristische Polynom zwei verschiedene Nullstellen z1 und z2 , so sind die Lösungen von (16.222) von der Form xn = c1 z1n + c2 z2n • Besitzt das charakteristische Polynom eine doppelte Nullstelle z0 , so sind die Lösungen von (16.222) von der Form xn = c1 z0n + c2 nz0n Die Skalarfaktoren c1 und c2 sind dabei noch frei wählbar. Die vorsichtige Strategie. Das charakteristische Polynom zu (16.220) ist pz 2 −z +q, das wegen p + q = 1 die Nullstellen z1 = 1 und z2 = q/p besitzt. Ist p 6= 1/2, so ist q/p 6= 1, d.h. die Nullstellen sind verschieden. Im Fall p = q = 1/2 hat man es mit der doppelten Nullstelle z0 = 1 zu tun. 1. Fall p 6= 1/2: Die allgemeine Lösung von (16.220) ist hier pa = c1 + c2 z2a und die Randbedingungen (16.221) resultieren in dem linearen Gleichungssystem p0 pz = c1 + c2 = c1 + c2 z2z = = 0 0 für die Skalarfaktoren c1 und c2 , woraus sich die Lösung a q −1 p p a = z q −1 p 149 (16.223) errechnet. Die Wahrscheinlichkeit, aus 20 EURO auf diese Weise 100 zu machen, ist nach dieser Formel etwa p20 ≈ 0.0088 2. Fall p = 1/2: Hier ist die allgemeine Lösung pa = c1 + c2 a, was zusammen mit den Randbedingungen a pa = z ergibt. Sind Verlust- und Gewinnwahrscheinlichkeit für jede Runde gleich, so ist die Wahrscheinlichkeit, das Zielkapital zu erreichen, proportional zur Höhe des eingesetzten Startkapitals. 150 Literatur [1] Christoph Bandelow: Einführung in die Wahrscheinlichkeitstheorie. B.I. Wissenschaftsverlag, Mannheim 1989 [2] Frank Beichelt: Stochastik für Ingenieure. Teubner, Stuttgart 1995 [3] Karl Bosch: Elementare Einführung in die Wahrscheinlichkeitsrechnung. Vieweg, Braunschweig 1979 [4] Theodor Bröcker: Analysis I. Heidelberg 1995 [5] Theodor Bröker: Analysis II Heidelberg 1995 [6] Harro Heuser: Lehrbuch der Analysis, Teil 1 Stuttgart 1995 [7] Harro Heuser: Lehrbuch der Analysis, Teil 2 Stuttgart 1995 [8] Kai Lai Chung: Elementare Wahrscheinlichkeitstheorie und stochastische Prozesse. Springer, Berlin 1978 [9] H. Dinges, H. Rost: Prizipien der Stochastik. Teubner, Stuttgart 1982 [10] William Feller: An Introduction to Probability Theory and its Applications I,II. Wiley, New York 1968 [11] Alberto Leon-Garcia: Probability and Random Processes for Electrical Engineering. Addison-Wesley, Reading Mass. 1994 [12] B. W. Gnedenko: Lehrbuch der Wahrscheinlichkeitsrechnung. Harri Deutsch, Thun 1978 [13] Hans Grabmüller: Mathematik für Ingenieure I-III. Vorlesungsskript, Erlangen 1999–2001, http://www.am.uni-erlangen.de/˜script [14] M. Greiner, G. Tinhofer: Stochastik für Studienanfänger der Informatik. Hanser, München 1996 [15] Franz Heigl, Jürgen Feuerpfeil: Stochastik, Leistungskurs. Bayerischer Schulbuch Verlag, München 1975. [16] K. Knopp. Theorie und Anwendungen der unendlichen Reihen. Springer, Berlin 1964. [17] A. Kolmogoroff. Grundbegriffe der Wahrscheinlichkeitsrechnung. [18] Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Vieweg, Braunschweig 1988 [19] Klaus Krickeberg: Wahrscheinlichkeitstheorie. Teubner, Stuttgart 1963 151 [20] Klaus Krickeberg, Herbert Ziezold: Stochastische Methoden. Springer Hochschultext, Berlin 1977 [21] Rudolf Mathar, Dietmar Pfeifer: Stochastik für Informatiker. Teubner, Stuttgart 1990 [22] Herbert Meschkowski: Differenzengleichungen. Göttingen 1959 [23] Rudolph Nelson: Probability, Stochastic Processes, and Queuing Theory. Springer, New York 1995 [24] Athanasios Papoulis: Probability, Random Variables, and Stochastic Processes. McGraw-Hill, Tokyo 1965 [25] Johann Pfanzagl: Elementare Wahrscheinlichkeitsrechnung. Walter de Gruyter, Berlin 1991 [26] Georg Pflug: Stochastische Modelle in der Informatik. Teubner, Stuttgart 1986 [27] Alfréd Rényi: Wahrscheinlichkeitsrechnung. Berlin 1973 [28] Stefan Schäffler, Thomas F. Sturm: Wahrscheinlichkeitstheorie und Statistik I,II. Schriftenreihe des Instituts für Angewandte Mathematik der TU München, München 1994 [29] Friedrich Graef: Wahrscheinlichkeitsrechnung II für Informatiker und Ingenieure. Skript zur gleichnamigen Vorlesung, Erlangen 2002, http://www2.am.unierlangen.de [30] Larry Wall, Randal L. Schwartz: Programming in Perl. O’Reilly, Sebastopol CA, 1990 152 Index Abbildung messbar, 82 Algebra Mengen-, 11 sigma-, 14 Axiom, 12 Axiome Kolmogoroff, 15 Elementar-, 11 global stochastisch unabhängig, 33 Komplementär-, 12 monotone Folge, 15 sicheres, 11 stochastisch unabhängig, 32 Summe, 13 unmögliches, 11 Verbund-, 10 Erfolgswahrscheinlichkeit, 138 Ergebnis, 8 Ergebnismenge, 8 Ergebnisraum, 8 Erwartungswert, 54, 114 diskrete Zufallsvariable, 108 Rechenregeln, 115 Experiment Bernoulli-, 34 Produkt-, 33 stochastisch unabhängig, 72 zweistufiges, 69 Bayes, 28 Formel von, 28 Bernoulli Experiment, 34 Versuchsreihe, 34 Bernoulli-Experiment, 137 Bernoulli-Versuchsreihe, 138 unendliche, 138 Bertrand, 26, 58 Paradoxon, 26, 58 Binomialformel, 20 Binomialkoeffizient, 20 Binomialverteilung Berechnung, 141 Borelsche Mengen, 62 Faltung, 54, 99 Faltungsdichte, 99 Faltungsintegral, 99 Fermat, Pierre, 5 Funktion momenterzeugende, 80 Funktionaldeterminante, 93 Dichte, 65 bedingte, 69 Exponentialverteilung, 77 Marginal-, 89 Rand-, 89 standardisierte Normalverteilung, 67 Transformationssatz, 92, 94 uniforme Verteilung, 66, 77 Dichtefunktion, 65 Differenzengleichung, 149 disjunkt, 11, 32 paarweise, 13 Galton-Brett, 9, 19, 35 reguläres, 19 Gedächtnislosigkeit, 39, 75 Gleichverteilung, 63 Grenzwertsatz Moivre-Laplace, 140 Poisson, 142 zentraler, 127 Grenzwertsatz, zentraler, 127 Große Zahlen empirisches Gesetz, 6 große Zahlen eindimensionale Irrfahrt, 145 Einheitsvektor, gaussischer, 129 Ereignis, 5, 9, 10, 15 Additionsregel, 13 153 Gesetz, 138 schwaches Gesetz, 140 starkes Gesetz, 140 zentrales, 49, 79, 114 momenterzeugende Funktion, 47 Morgansche Regeln, 11 Häufigkeit absolute, 6 bedingte relative, 25 relative, 6, 139 Nachwirkungsfreiheit, 41 Normalverteilung eindimensional, 126 eindimensionale, 126 Mittelwert, 126 n-dimensionale standardisierte, 129 standardisierte, 67, 126 stochastische Unabhängigkeit, 133 Varianz, 126 Indikatorfunktion, 64 Integral Lebesgue-, 64 Riemann-, 64 Intervall, 61 eindimensionales, 61 Inhalt, 62 n-dimensionales, 61 zweidimensionales, 61 Ordinarität, 41 P-fast überall nichtnegativ, 110 p-integrabel, 107 P-Integral, 106, 110 Treppenfunktion, 107 Zufallsvariable, 111 Parametrisierung, 93 Parametrisierungssatz, 93 Partition, 28 Pascal, Blaise, 5 Produkt σ-Algebren, 34 cartesisches, 33 Wahrscheinlichkeiten, 34 Wahrscheinlichkeitsraum, 34 Produktexperiment, 33 Produktraum, 34 Kolmogoroff, 15 Kombinatorik, 18 Komposition, 86, 112 Kovarianz, 121 Bilinearität, 124 Rechenregeln, 123 Kovarianzmatrix, 125 Laplace, Pierre Simon de, 17 Laplace-Experiment, 18 Laplace-Transformation, 80 Lebensdauern, 38 Lebesgue-Integral, 111 Lebesguesches Maß, 63 Lotto, 23 Roulette, 146 Gewinnchancen, 146 kühne Strategie, 146 vorsichtige Strategie, 146 Méré, Chevalier de, 5 Mengenalgebra, 11 Mittelwert, 79, 113 diskrete Verteilung, 45 Exponentialverteilung, 80 geometrische Verteilung, 46 Normalverteilung, 79 Poissonverteilung, 46 statistische Interpretation, 46 Moment absolutes, 47, 78, 113 Schubladenmodelle, 21 Schwerpunkt, 45 Stammfunktion, 77 Stationarität, 41 Steinerscher Satz, 48 stochastisch unabhängig Zufallsexperimente, 33 Stochastische Unabhängigkeit 154 Zufallsvariable, 90 stochastische Unabhängigkeit, 32 globale, 33 Zufallsvariable, 53 Substitutionsformel, 93 Summe der Erfolge, 35, 139 Poisson-, 40 Rand-, 89 Rayleigh-, 85 uniforme, 63, 73 Verteilungsfunktion, 73 Zufallsgröße, 82 Verteilungsfunktion, 73 totale Wahrscheinlichkeit, 28 Transformation, affin lineare, 98 Transformationssatz, 92, 94 Treppenfunktion, 106 Normaldarstellung, 107 p-integrabel, 107 P-Integral, 107 Würfel, 8 regulärer, 17 Wahrscheinlichkeit, 15 a posteriori, 29 a priori, 29 bedingte, 25 Dichte, 65 diskrete, 36 Ereignis, 6 Erfolgs-, 34 geometrische, 57 Produkt-, 34 totale, 28 Wahrscheinlichkeitsdichte, 65 Wahrscheinlichkeitsfunktion, 36 Wahrscheinlichkeitsraum, 8, 15 diskreter, 36 Wahrscheinlichkeitsverteilung, 15 Wartezeiten, 38 Umkehrabbildung, 93 Ungleichung Tschebyscheff, 48, 119 Urbildmengen, 81 Urnenmodelle, 21 Varianz, 79, 114, 118 diskrete Verteilung, 48 Exponentialverteilung, 80 geometrische Vereilung, 48 Normalverteilung, 79 Poissonverteilung, 48 Rechenregeln, 120 Verbundereignis, 10 Versuchsreihe, 34 Bernoulli-, 34 Verteilung absolutstetige, 66 Binomial-, 38 Charakterisierung, 73 Dichte, 66 diskrete, 45, 77 eindimensional, 73 Exponential-, 74 geometrische, 38 Gleich-, 63 hypergeometrische, 38 Laplace-, 37 Marginal-, 89 n-dimensionale, 63 Zeitpunkte zufällige, 40 Zielscheibe, 84 Zufallsexperiment, 5 Zufallsgröße, 82 Komposition, 112 Verteilung, 82 Zufallsvariable, 50, 83 diskrete, 50 Erwartungswert, 114 Faltung, 99 Funktionen von, 115 Kovarianz, 121 n-dimensionale, 86 P-Integral, 110, 111 stochastische Unabhängigkeit, 90 Varianz, 118 155 Verteilung, 52 Zufallsvariablen Funktionen von, 86 Zufallsvektor, 86 Komponenten, 87 Kovarianzmatrix, 125 Zustandsvariable, 137 156