Wahrscheinlichkeitsrechnung 1 für Informatiker und

Werbung
Wahrscheinlichkeitsrechnung 1
für Informatiker und Ingenieure
Friedrich Graef
Institut für Angewandte Mathematik
der Universität Erlangen-Nürnberg
Fassung vom 24.10.2003
Inhaltsverzeichnis
1 Zufallsexperimente
5
2 Wahrscheinlichkeitsräume
2.1 Die Ergebnismenge . . . . . . . .
2.2 Ereignisse . . . . . . . . . . . . .
2.3 Verbundereignisse . . . . . . . . .
2.4 Wahrscheinlichkeiten . . . . . . .
2.5 Monotone Folgen von Ereignissen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
. 8
. 9
. 10
. 12
. 15
3 Laplace-Experimente
3.1 Laplace-Experimente . . . . . . . . . . . . . . . . . .
3.2 Binomialkoeffizienten . . . . . . . . . . . . . . . . . .
3.3 Urnen- und Schubladenmodelle . . . . . . . . . . . .
3.4 Zufälliges Ziehen einer Kugel . . . . . . . . . . . . .
3.5 Zufälliges Ziehen mehrerer Kugeln . . . . . . . . . .
3.5.1 Ziehen mit Berücksichtigung der Reihenfolge
3.5.2 Ziehen ohne Berücksichtigung der Reihenfolge
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
18
19
21
21
22
22
22
4 Bedingte Wahrscheinlichkeiten
25
4.1 Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Die Formel von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5 Stochastische Unabhängigkeit
32
5.1 Stochastische Unabhängigkeit von zwei Ereignissen . . . . . . . . . . . . 32
5.2 Globale stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . . . 33
5.3 Produktexperimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1
6 Diskrete Wahrscheinlichkeitsräume
6.1 Diskrete Wahrscheinlichkeitsräume . . . . . . . .
6.2 Spezielle diskrete Wahrscheinlichkeitsverteilungen
6.2.1 Die Laplace-Verteilung . . . . . . . . . . .
6.2.2 Die hypergeometrische Verteilung . . . . .
6.2.3 Die Binomialverteilung . . . . . . . . . . .
6.2.4 Die geometrische Verteilung . . . . . . . .
6.2.5 Die Poisson-Verteilung . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
36
36
37
37
37
38
38
40
7 Die Momente diskreter Verteilungen
7.1 Der Mittelwert einer diskreten Verteilung . . . . .
7.1.1 Statistische Interpretation des Mittelwerts .
7.1.2 Beispiele . . . . . . . . . . . . . . . . . . . .
7.2 Die absoluten Momente einer diskreten Verteilung
7.2.1 Die momenterzeugende Funktion . . . . . .
7.3 Die Varianz einer diskreten Verteilung . . . . . . .
7.4 Die zentralen Momente einer diskreten Verteilung .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
45
46
46
46
47
48
49
8 Zufallsvariable mit diskreter Verteilung
50
8.1 Die Verteilung einer diskreten Zufallsvariablen . . . . . . . . . . . . . . 51
8.2 Funktionen von diskreten Zufallsvariablen . . . . . . . . . . . . . . . . . 52
8.3 Der Erwartungswert einer diskreten Zufallsvariablen . . . . . . . . . . . 54
9 Geometrische Wahrscheinlichkeiten
56
10 Verteilungen
10.1 Intervalle . . . . . . . . . . . . . . . . . .
10.2 Borelsche Mengen und Lebesguesches Maß
10.3 Verteilungen auf dem Rn . . . . . . . . .
10.4 Das Lebesgue-Integral . . . . . . . . . . .
10.5 Absolutstetige Verteilungen . . . . . . . .
10.6 Zweistufige Experimente . . . . . . . . . .
10.6.1 Bedingte Dichten . . . . . . . . . .
10.6.2 Zweistufige Experimente . . . . . .
10.6.3 Fortsetzung des Beispiels . . . . .
10.6.4 Unabhängige Experimente . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
61
61
62
63
64
64
67
68
69
70
72
11 Eindimensionale Verteilungen
11.1 Die Verteilungsfunktion . . . . . . . . . . . . . . . . . . .
11.1.1 Berechnung von Intervallwahrscheinlichkeiten . . .
11.1.2 Verteilungsfunktionen und Dichten . . . . . . . . .
11.1.3 Die Verteilungsfunktion einer diskreten Verteilung
11.2 Die Momente einer eindimensionalen Verteilung . . . . . .
11.2.1 Mittelwert und Varianz der Normalverteilung . . .
11.2.2 Die momenterzeugende Funktion . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
73
73
76
77
77
78
79
80
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11.2.3 Mittelwert und Varianz der Exponentialverteilung . . . . . . . . 80
12 Zufallsvariable
12.1 Zufallsgrößen . . . . . . . . . . . . . . .
12.1.1 Urbildmengen . . . . . . . . . . .
12.1.2 Zufallsgrößen . . . . . . . . . . .
12.1.3 Die Verteilung einer Zufallsgröße
12.2 Zufallsvariable . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
81
81
81
82
82
83
13 Funktionen von Zufallsvariablen
13.1 Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . .
13.2 Der Kompositionssatz für Zufallsvektoren . . . . . . .
13.3 Mehrdimensionale Verteilungen . . . . . . . . . . . . .
13.4 Marginalverteilungen . . . . . . . . . . . . . . . . . . .
13.5 Stochastische Unabhängigkeit von Zufallsvariablen . .
13.6 Der Transformationssatz für Dichten . . . . . . . . . .
13.6.1 Der Parametrisierungssatz für Bereichsintegrale
13.6.2 Der Transformationssatz für Dichten . . . . . .
13.6.3 Berechnung der Verteilung von Zufallsvariablen
13.6.4 Affin lineare Transformationen . . . . . . . . .
13.6.5 Faltungen . . . . . . . . . . . . . . . . . . . . .
13.7 Berechnungsmethoden . . . . . . . . . . . . . . . . . .
13.7.1 Berechnung der Verteilungsfunktion . . . . . .
13.7.2 Anwendung des Faltungsintegrals . . . . . . . .
13.7.3 Anwendung des Transformationssatzes . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
86
86
87
88
89
90
92
93
94
97
98
99
100
101
101
102
14 Erwartungswert und Varianz
14.1 Das P-Integral einer Zufallsvariablen . . . . . . . . . .
14.1.1 Treppenfunktionen . . . . . . . . . . . . . . . .
14.1.2 Das P-Integral einer Treppenfunktion . . . . .
14.1.3 Rechenregeln . . . . . . . . . . . . . . . . . . .
14.1.4 Das P -Integral einer Zufallsvariablen. . . . . .
14.1.5 Zusammenhang mit dem Lebesgue-Integral . .
14.1.6 Komposition von Zufallsgrößen. . . . . . . . . .
14.1.7 Die Momente einer eindimensionalen Verteilung
14.2 Der Erwartungswert einer Zufallsvariablen . . . . . . .
14.2.1 Rechenregeln für den Erwartungswert . . . . .
14.2.2 Funktionen von Zufallsvariablen . . . . . . . .
14.3 Varianz und Kovarianz . . . . . . . . . . . . . . . . . .
14.3.1 Die Ungleichung von Tschebyscheff . . . . . . .
14.3.2 Rechenregeln für die Varianz . . . . . . . . . .
14.3.3 Die Kovarianz zweier Zufallsvariablen . . . . .
14.3.4 Die Kovarianzmatrix eines Zufallsvektors . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
106
106
106
107
108
110
111
112
113
114
115
115
118
119
120
121
124
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15 Die Normalverteilung
15.1 Die eindimensionale Normalverteilung . . . . . . . . . . . .
15.2 Der Zentrale Grenzwertsatz. . . . . . . . . . . . . . . . . . .
15.3 Die mehrdimensionale Normalverteilung . . . . . . . . . . .
15.3.1 Die standardisierte Normalverteilung . . . . . . . . .
15.3.2 Die mehrdimensionale Normalverteilung . . . . . . .
15.3.3 Interpretation der Parameter . . . . . . . . . . . . .
15.3.4 Stochastische Unabhängigkeit bei Normalverteilung
15.3.5 Funktionen von normalverteilten Zufallsvariablen . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
126
126
127
128
128
129
132
133
133
16 Grenzwertsätze
16.1 Unendliche Bernoulli-Versuchsreihen . . . .
16.2 Das Gesetz der Großen Zahlen . . . . . . .
16.3 Der Grenzwertsatz von Moivre und Laplace
16.4 Der Grenzwertsatz von Poisson . . . . . . .
16.5 Die eindimensionale Irrfahrt . . . . . . . . .
16.5.1 Gewinnchancen beim Roulette . . .
16.5.2 Die vorsichtige Strategie . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
137
137
138
140
142
145
146
146
Literatur
Index
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
151
153
4
1 Zufallsexperimente
Die Wahrscheinlichkeitsrechnung beschäftigt sich mit der mathematischen Analyse von
Zufallsexperimenten.
Als Ansatzpunkt für eine allgemeine Definition eines Zufallsexperiments und die Fragestellungen, die sich dabei ergeben und die man mit Hilfe der Mathematik behandeln
möchte, betrachten wir das historische Beispiel, das üblicherweise als der Auslöser für
die Entwicklung der Wahrscheinlichkeitsrechnung angesehen wird.
Im Jahr 1654 beklagte sich der Chevalier de Méré (1607–1684), ein berufsmäßiger Spieler, bei Blaise Pascal (1623–1662) über die Mathematik, weil ihre Ergebnisse ihm nicht mit den Erfahrungen des praktischen Lebens übereinzustimmen schienen. Man wusste damals, dass es beim Spiel mit einem Würfel günstig
ist, darauf zu setzen, bei vier Würfen wenigstens eine Sechs zu werfen. De Méré
dachte, es müsste dasselbe sein, wenn man bei 24 Würfen mit zwei Würfeln darauf setzt, wenigstens eine Doppelsechs zu erhalten. Während im ersten Fall 6
Möglichkeiten 4 Würfe gegenüber stehen, stehen im zweiten 36 Möglichkeiten
24 Würfe gegenüber, das Verhältnis ist also in beiden Fällen 3:2. Entgegen
seinen Erwartungen verlor aber Herr de Méré auf die Dauer beim zweiten Spiel
und das muss ihn sehr verdrossen haben.1
Schon zu dieser Zeit war seit langem bekannt, dass der Prozentsatz gewonnener Runden
bei langen Serien derartiger Glücksspiele nahezu konstant und stets in etwa gleich
ist, woraus zwangsläufig die Frage erwuchs, wie man die Gewinnchancen solcher
Spiele schon im voraus berechnen kann. Pascal führte über dieses Problem 1654
einen Briefwechsel mit Pierre Fermat (1601–1665), in dessen Verlauf sich schließlich
eine Lösung ergab.
Wir werden im ersten Teil dieser Vorlesung den Lösungsweg in einem etwas allgemeinerem Rahmen nachvollziehen und beginnen mit dem Begriff des Zufallsexperiments.
Ein Zufallsexperiment wie im obigen Beispiel das viermalige Werfen eines Würfels
ist zunächst ein Experiment im üblichen Sinne, d.h. ein konkreter oder auch nur in
Gedanken durchgeführter Vorgang, der sich beliebig oft unter stets gleichen Rahmenbedingungen wiederholen lässt. Der wesentliche Unterschied zu dem klassischen naturwissenschaftlichen Konzept des Experiments besteht darin, dass ein Zufallsexperiment mehrere mögliche Ausgänge hat und trotz gleicher Ausgangslage bei keiner der
Durchführungen mit Sicherheit vorhersehbar ist, welcher dieser Ausgänge sich einstellt.
Die wesentliche Frage im Zusammenhang mit Zufallsexperimenten ist die nach den
Chancen für das Eintreten bzw. Nichteintreten bestimmter Ereignisse. Bei den obigen
Beispielen geht es dabei um das Ereignis Gewinn“, das dadurch charakterisiert ist,
”
dass bei der Durchführung des Würfelexperiments eine Sechs bzw. eine Doppelsechs
geworfen wird.
Allgemein verstehen wir unter einem Ereignis eine Reihe von möglichen Merkmalen
der Ausgänge des betreffenden Zufallsexperiments. Die Formulierung: Das Ereignis
”
1 Zitat
aus [15]
5
tritt ein“ soll dementsprechend bedeuten, dass bei einer Durchführung des Experiments
ein Ausgang zustande kommt, der alle diese Merkmale besitzt.
Gemäß der Charakterisierung eines Zufallsexperiments ist es bei einem einzelnen Versuch, d.h. einer einmaligen Durchführung des Experiments, nicht mit Sicherheit vorhersagbar, ob ein Ereignis eintritt oder nicht. Sein Eintreten hängt vom Zufall ab.
Führt man aber eine lange Versuchsreihe, d.h. eine ganze Serie von Versuchen durch
und zählt, wie oft dabei dieses Ereignis eintritt, so beobachtet man wie schon Herr de
Méré eine gewisse Gesetzmäßigkeit, die sich am einfachsten mit Hilfe mathematischer
Formeln darstellen lässt:
• E stehe für das beobachtete Ereignis,
• n sei die Länge der Versuchsreihe, d.h. die Anzahl der durchgeführten Versuche,
• Hn (E) sei die absolute Häufigkeit von E, d.h. die Anzahl der Versuche, bei
denen das Ereignis E eingetreten ist, und
• Rn (E) = Hn (E)/n die relative Häufigkeit des Ereignisses E, d.h. der relative
Anteil oder — mit 100 multipliziert — der Prozentsatz der Versuche, bei denen
das Ereignis E eingetreten ist.
De Méré stellte fest, dass bei langen Versuchsreihen mit 4 Würfen eines Würfels das
Ereignis Gewinn“ stets eine relative Häufigkeit von mehr als 50% und bei 24 Würfen
”
eines Würfelpaars eine von weniger als 50% besitzt, die Anzahl der gewonnenen Spiele
im ersten Fall also immer größer und im zweiten Fall immer kleiner ist als die Anzahl
der verlorenen Spiele.
Wie die Erfahrung mit Zufallsexperimenten zeigt, scheint eine noch stärkere Gesetzmäßigkeit vorzuliegen: Für sehr lange Versuchsreihen stabilisieren sich die relativen Häufigkeiten Rn (E) offenbar stets in der Nähe einer für das Experiment und das Ereignis E
charakteristischen Zahl P (E)
Rn (E) ≈ P (E)
für große n
(1.1)
Dieses Phänomen nennt man das empirische Gesetz der großen Zahlen. Es handelt sich dabei nicht um einen Konvergenzsatz im mathematischen Sinne sondern um
eine reine Erfahrungstatsache, auf deren Basis sich aber offenbar sicher kalkulieren
lässt, wie die wirtschaftliche Situation von Spielbanken, Lotterien und Versicherungsunternehmen demonstriert.
Als Grundlage für eine mathematische Analyse von Zufallsexperimenten gehen wir von
der Hypothese aus, dass jedem Zufallsexperiment quasi als Naturgesetz eine Funktion
P zugeordnet ist, die jedem an diesem Zufallsexperiment beobachtbaren Ereignis E
eine Zahl P (E) zuordnet und die mit dem Ereignis über das empirische Gesetz der
großen Zahlen (1.1) verbunden ist. Diese Zahl nennen wir die Wahrscheinlichkeit
des Ereignisses E.
Die Forderung (1.1) hat zur Konsequenz, dass die Funktion P nicht ganz willkürlich
gewählt werden kann sondern im wesentlichen die gleichen Eigenschaften besitzen muss
wie die relative Häufigkeit Rn .
6
Um diese Eigenschaften präzise formulieren zu können, benötigen wir ein mathematisches Modell eines Zufallsexperiments, mit dem wir uns im folgenden Abschnitt
beschäftigen.
7
2 Wahrscheinlichkeitsräume
Ein Wahrscheinlichkeitsraum ist ein mathematisches Modell bzw. ein abstraktes Schema zur Beschreibung eines Zufallsexperiments. Aus den Erläuterungen des vorhergehenden Abschnitts ergibt sich, dass eine solche Beschreibung die folgenden Bestandteile
enthalten muss:
• Eine Liste der möglichen Ausgänge des Experiments
• Eine Aufstellung der interessierenden Ereignisse
• Eine Beschreibung der Funktion P
2.1 Die Ergebnismenge
Die Ausgänge eines Zufallsexperiments werden üblicherweise Ergebnisse genannt und
die Menge der möglichen Ausgänge dementsprechend die Ergebnismenge oder der
Ergebnisraum. Als Symbol für ein Ergebnis werden wir den griechischen Buchstaben
ω benutzen und die Ergebnismenge wird durch den zugehörigen Großbuchstaben Ω
gekennzeichnet.
Die Menge der möglichen Ergebnisse kann man als Reduktion der allgemeinen Beschreibung des Experiments auf das mathematisch Wesentliche ansehen. Dabei gibt
es aber je nach Fragestellung eventuell mehrere Möglichkeiten. Zur Veranschaulichung
ziehen wir zwei klassische Beispiele für Zufallsexperimente heran: Das Werfen zweier
Würfel und das Galton-Brett.
Würfeln. Wirft man zwei Würfel und ist nur an der Summe der geworfenen Augenzahlen interessiert, so bietet sich als Ergebnismenge die Menge
Ωw1 = {2, 3, 4, . . . 11, 12}
(2.2)
der natürlichen Zahlen von 2 bis 12 an. Kommt es wie etwa beim Backgammon-Spiel
auf die tatsächlich geworfenen Augenzahlen an, muss man Paare von Augenzahlen
notieren. Bei zwei nicht unterscheidbaren Würfeln kan man als Ergebnismenge zum
Beispiel


[1, 1] [1, 2] [1, 3] [1, 4] [1, 5] [1, 6] 






[2, 2] [2, 3] [2, 4] [2, 5] [2, 6] 






[3, 3] [3, 4] [3, 5] [3, 6]
Ωw2 =
[4, 4] [4, 5] [4, 6] 







[5, 5] [5, 6] 





[6, 6]
ansetzen. Die Notation [i, k] steht für das Ergebnis, dass einer der Würfel die Augenzahl
i und der andere die Augenzahl k zeigt, wobei an erster Stelle immer die kleinere der
geworfenen Zahlen steht.
Wirft man die beiden Würfel nicht gleichzeitig, sondern nacheinander und ist die Reihenfolge der geworfenen Augenzahlen von Bedeutung, so muss die Darstellung noch
8
einmal verfeinert werden, etwa

(1, 1)




(2,
1)



(3, 1)
Ωw3 =
(4, 1)




(5, 1)



(6, 1)
durch die Ergebnismenge
(1, 2)
(2, 2)
(3, 2)
(4, 2)
(5, 2)
(6, 2)
(1, 3)
(2, 3)
(3, 3)
(4, 3)
(5, 3)
(6, 3)
(1, 4)
(2, 4)
(3, 4)
(4, 4)
(5, 4)
(6, 4)
(1, 5)
(2, 5)
(3, 5)
(4, 5)
(5, 5)
(6, 5)
(1, 6)
(2, 6)
(3, 6)
(4, 6)
(5, 6)
(6, 6)















(2.3)
wobei (i, k) für das Ergebnis steht, dass i die erste und k die zweite geworfene Augenzahl ist.
Das Galton-Brett. Ein Galton-Brett besteht aus einer schräg gestellten Platte, in die
wie in Abbildung 1 skizziert Rinnen eingefräst sind. Eine Kugel wird in die Startrinne
am oberen Rand gelegt und rollt nach unten, wobei sie an den Verzweigungspunkten
zufällig nach links oder rechts abgelenkt wird.
Abbildung 1: Ein Galton-Brett
Die Ergebnisse sind entweder die in irgendeiner Form gekennzeichneten verschiedenen
Ausgänge am unteren Ende des Bretts, an denen die Kugel schließlich landet, oder —
wie in einem der nächsten Kapitel verwendet wird — die verschiedenen Wege, die die
Kugel durchlaufen kann.
2.2 Ereignisse
Ein Ereignis ist eine Charakterisierung des Ausgangs eines Zufallsexperiments durch
ein oder mehrere Merkmale, so dass nach Durchführung des Experiments die Frage,
ob diese Charakterisierung zutrifft, eindeutig mit ja“ oder nein“ beantwortet werden
”
”
kann. Falls sie zutrifft, sagt man, das Ereignis sei eingetreten. Betrachtet man zum
Beispiel beim Werfen zweier Würfel die Aussage
Zwei ungerade Augenzahlen wurden geworfen“,
”
9
so ist dies bezogen auf die Ergebnismenge Ωw1 kein Ereignis im obigen Sinne, da sich
nicht entscheiden lässt, ob sie zutrifft, wenn man nur die Augenzahlsumme als Ergebnis
kennt. Bei den anderen beiden Ergebnismengen ist diese Frage entscheidbar.
Offensichtlich kann man Ereignisse durch Teilmengen der Ergebnismenge repräsentieren.
Da ein Ereignis genau dann eintritt, wenn die zugehörige Aussage auf das Ergebnis
der Durchführung des Experiments zutrifft, entspricht einem Ereignis einfach die Menge aller Ergebnisse des Experiments, für die diese Aussage wahr ist. Bezogen auf die
Ergebnismenge Ωw2 ist das in unserem Beispiel die Menge
A2 = {[1, 1], [1, 3], [1, 5], [3, 3], [3, 5], [5, 5]}
Die Charakterisierung von Ereignissen durch Mengen hängt natürlich von der gewählten
Ergebnismenge ab. Je nach Auswahl wird die Aussage
Die Augenzahlsumme 7 wurde geworfen“
”
durch die drei Mengen
B1
B2
B3
= {7}
= {[1, 6], [2, 5], [3, 4]}
= {(1, 6), (6, 1), (2, 5), (5, 2), (3, 4), (4, 3)}
repräsentiert.
Auf dem Wege der mathematischen Abstraktion können wir jetzt noch einen Schritt
weitergehen und die Differenzierung zwischen Aussage und repräsentierender Menge
aufheben. Für unser mathematisches Modell legen wir fest:
Ein Ereignis ist eine Teilmenge des Ergebnisraums.
2.3 Verbundereignisse
Ereignisse können mittels der logischen Operatoren und, oder miteinander verknüpft
und durch nicht negiert werden, wodurch sich neue Ereignisse ergeben, wie zum Beispiel
Ungerade Augenzahlen“ und Augenzahlsumme größer als 4“
”
”
Augenzahlsumme 6“ oder Augenzahlsumme 7“
”
”
Die Augenzahlsumme ist nicht 7“
”
Geht man zur Mengendarstellung der Ereignisse über, so entsprechen diesen Verbundereignissen die Vereinigung, der Durchschnitt und das Komplement der Mengen, die
die verknüpften Ereignisse repräsentieren:
A∪B
= {ω ∈ Ω ; ω ∈ A oder ω ∈ B}
A ∩ B = {ω ∈ Ω ; ω ∈ A und ω ∈ B}
A = {ω ∈ Ω ; ω ∈
/ A}
10
Nach der Liste der möglichen Ergebnisse des Zufallsexperiments ist nach den obigen Überlegungen als zweiter Bestandteil eines mathematischen Modells eine Liste
der interessanten Ereignisse bzw. die Auflistung der entsprechenden Teilmengen der
Ergebnismenge Ω erforderlich.
Da man zweifellos in eine solche Liste alle Verbundereignisse mit aufnehmen wird,
ergibt sich die Forderung, dass die Menge der zugehörigen Teilmengen unter den Operationen Vereinigung, Durchschnitt und Komplementbildung abgeschlossen sein muss.
Ein derartiges Mengensystem heißt in der Mathematik eine Mengenalgebra.
Definition 2.1 Eine Menge A von Teilmengen einer nichtleeren Menge Ω heißt eine
Mengenalgebra (über Ω), wenn gilt:
Ω∈A
A∈A⇒A∈A
A, B ∈ A ⇒ A ∪ B ∈ A
Beispiele für Mengenalgebren sind die Mengensysteme {∅, Ω} als die kleinstmögliche
Algebra, {∅, A, A, Ω} als die kleinste Algebra, die das Ereignis A enthält und die Menge
aller Teilmengen von Ω, die wir im folgenden mit 2Ω bezeichnen.
Bemerkungen und Bezeichnungen
1. Da jedes ω in dem Ereignis Ω liegt, tritt dieses Ereignis bei jeder Durchführung
des Experiments ein. Es heißt daher auch das sichere Ereignis.
2. Sein Komplement Ω = ∅ , die leere Menge, tritt nie ein und heißt daher das
unmögliche Ereignis.
3. Eine einelementige Menge {ω} heißt ein Elementarereignis.
4. Morgansche Regeln: Man kann leicht nachvollziehen, dass für beliebige Mengen die Gleichungen
A =A
und
A∩B =A∪B
gelten. Mit diesen Regeln ergibt sich, dass Mengenalgebren auch unter der Durchschnittsbildung abgeschlossen sind. Aus den Eigenschaften einer Mengenalgebra
folgt nämlich, dass
A, B ∈ A
⇒
⇒
⇒
A, B ∈ A
A∩B =A∪B ∈A
A∩B = A∩B ∈A
5. Anstelle von A ∩ B schreiben wir auch kurz AB.
6. Zwei Mengen A, B heißen disjunkt, falls A ∩ B = ∅. In diesem Fall schreiben
wir A + B anstelle von A ∪ B.
11
2.4 Wahrscheinlichkeiten
Im Hinblick auf das empirische Gesetz der großen Zahlen sollten die wesentlichen Eigenschaften der relativen Häufigkeit Rn (s. Seite 6) auf die Funktion P übertragen
werden. Dazu betrachten wir die Situation, dass ein Zufallsexperiment mit der Ergebnismenge Ω n-mal durchgeführt und dabei gezählt wurde, wie oft ein Ereignis A ⊂ Ω
eingetreten ist.
Da die absolute Häufigkeit Hn (A) des Ereignisses nicht größer sein kann als die Anzahl n der Versuche insgesamt, muss für den Quotienten Rn (A) = Hn (A)/n die Einschränkung
0 ≤ Rn (A) ≤ 1
(2.4)
gelten. Für das sichere Ereignis Ω ist Hn (Ω) = n und daher
Rn (Ω) = 1
(2.5)
denn das sichere Ereignis tritt bei jedem Versuch ein. Schließlich kann von zwei disjunkten Ereignissen A und B bei jeder Durchführung des Experiments höchstens
eines der beiden eintreten, so dass Hn (A + B) = Hn (A) + Hn (B) und damit
Rn (A + B) = Rn (A) + Rn (B)
(2.6)
gilt.
Eine Funktion P auf der Mengenalgebra A der Ereignisse sollte daher auf jeden Fall
die folgenden drei Eigenschaften besitzen.
Axiom 1
0 ≤ P (A) ≤ 1
für alle A ∈ A
(2.7)
Axiom 2
P (Ω) = 1
(2.8)
Axiom 3
P (A + B) = P (A) + P (B)
für disjunkte Ereignisse A und B aus A
(2.9)
Als Axiome werden in der Mathematik diejenigen Eigenschaften eines mathematischen Objekts bezeichnet, die als Basis für alle weiteren Folgerungen dienen und die
(innerhalb des mathematischen Modells) nicht weiter begründet werden.
Aus diesen drei Axiomen ergeben sich unmittelbar einige Rechenregeln für Ereignisse,
die bei den kommenden Berechnungen häufig benötigt werden. A, B usw. seien dabei
stets Elemente aus der Ereignisalgebra A.
Komplementärereignisse: Wegen A + A = Ω folgt aus den Axiomen 2 und 3, dass
P (A) + P (A) = 1 oder
P (A) = 1 − P (A)
(2.10)
Speziell für das unmögliche Ereignis ∅ = Ω also
P (∅) = 0
12
(2.11)
Isotonie: Ist A ⊂ B, so lässt sich B als A + AB darstellen. Das ergibt P (B) =
P (A) + P (AB). Und da P (AB) ≥ 0, folgt daraus
A⊂B
⇒
P (A) ≤ P (B)
(2.12)
Endliche Summen von Ereignissen: Endlich oder unendlich viele Ereignisse A1 ,
A2 , A3 . . . heißen paarweise disjunkt, wenn für je zwei Indizes i 6= k die Mengen Ai
und Ak disjunkt sind. In diesem Fall schreibt man A1 + A2 + . . . + An anstelle von
A1 ∪ A2 ∪ . . . ∪ An bzw.
n
X
Ak
anstelle von
n
[
Ak
k=1
k=1
Wegen
A1 + A2 + . . . + An
= A1 + (A2 + . . . + An )
= A1 + (A2 + (A3 + . . . + An ))
= usw.
ergibt sich durch wiederholte Anwendung von Axiom 3 die Summenformel
P (A1 + . . . + An )
bzw.
P(
n
X
= P (A1 ) + . . . + P (An )
Ak ) =
n
X
P (Ak )
(2.13)
k=1
k=1
Allgemeine Additionsregel: Für beliebige nicht notwendig disjunkte Ereignisse
A, B ergibt sich aus A ∪ B = AB + AB + AB die Beziehung
P (A ∪ B) = P (A) + P (B) − P (AB)
(2.14)
Solange man es mit Zufallsexperimenten zu tun hat, die durch eine endliche Ergebnismenge Ω beschrieben werden können, reichen die Axiome 1 bis 3 zur Berechnung
aus, denn jede Teilmenge von Ω kann in höchstens endlich viele disjunkte Teile aufgespalten werden. Bei unendlichen Ergebnismengen muss man noch ein viertes Axiom
einführen um ein vernünftiges Modell zu erhalten. Zur Veranschaulichung betrachten
wir das Zufallsexperiment, dass ein Würfel so lange geworfen wird, bis zum ersten Mal
die Augenzahl 6 erscheint.
Da nicht abzusehen ist, bei welchem Wurf dieses Ereignis eintritt und prinzipiell auch
denkbar ist, dass niemals eine 6 geworfen wird, muss man als Ergebnisraum die Menge
Ω = {ω = (z1 , z2 , . . .) ; zk = 1, 2, 3, 4, 5, 6}
aller möglichen unendlichen Wurfserien benutzen: Die Komponente zk steht für die
Augenzahl, die beim k-ten Wurf erscheint.
13
Das Ereignis, dass beim k-ten Wurf die erste 6 erscheint, wird durch die Menge
Ak = {ω = (z1 , z2 , . . .) ; zi < 6 für i < k und zk = 6}
beschrieben. Die Mengen A1 , A2 , . . . sind paarweise disjunkt. Für n = 1, 2, 3, . . . repräsentieren die Mengen
Bn = A1 + A2 + . . . + An
(2.15)
die Ereignisse, dass spätestens beim n-ten Wurf eine 6 kommt und
∞
[
A=
Bn =
n=1
∞
X
Ak
(2.16)
k=1
entspricht der Aussage, dass irgendwann einmal eine 6 erscheint“.
”
Ist P eine Funktion, die für diese Ereignisse definiert ist und den Axiomen 1 bis 3
genügt, so folgt aus
B1 ⊂ B2 ⊂ B3 ⊂ . . .
und Regel (2.12), dass die Folge der Wahrscheinlichkeiten P (B1 ), P (B2 ), . . . monoton
steigt und nach Axiom 1 durch 1 nach oben beschränkt ist. Es gibt also einen Limes
lim P (Bn ) = β
n→∞
(2.17)
Aus dem Zusammenhang heraus erscheint es vernünftig, diesen Limes β als die Wahrscheinlichkeit
dafür anzusehen, dass irgendwann einmal eine 6 auftritt, d.h. β =
S∞
P ( n=1 Bn ).
Für das mathematische Modell eines Zufallsexperiments bedeutet das, dass noch zwei
weitere Eigenschaften als grundlegende Forderungen hinzugefügt werden müssen, die
nicht aus den bisher eingeführten abgeleitet werden können. Einmal muss die Menge
A der Ereignisse auch unter der Vereinigung abzählbar unendlich vieler Mengen abgeschlossen sein und zum anderen muss die Funktion P bezüglich dieser Operation
gewisse Stetigkeitseigenschaften besitzen. Für Ersteres führen wir einen neuen Begriff
ein:
Definition 2.2 Eine Mengenalgebra A heißt eine σ-Algebra, wenn für jede Folge
A1 , A2 , A3 . . . von Elementen aus A auch die Vereinigung
∞
[
n=1
An ∈ A
(2.18)
in A liegt.
Hinsichtlich P erweitern wir das Axiomensystem noch durch
Axiom 4
Für jede Folge A1 , A2 , . . . von paarweise disjunkten Mengen Ak ∈ A gilt
P(
∞
X
Ak ) =
∞
X
k=1
k=1
14
P (Ak )
(2.19)
Wie der Mathematiker A. Kolmogoroff 1933 in seinem Buch Grundbegriffe der Wahrscheinlichkeitsrechnung ([17]) zeigte, lässt sich auf diesen Axiomen ein leistungsfähiges
Gebäude der Wahrscheinlichkeitsrechnung aufbauen.
Definition 2.3 Eine Funktion P : A −→ R auf einer σ-Algebra A von Teilmengen
einer Menge Ω, die die Axiome 1 bis 4 erfüllt, heißt eine Wahrscheinlichkeit oder
Wahrscheinlichkeitsverteilung.
Als mathematisches Modell eines Zufallsexperiments legen wir fest:
Definition 2.4 Ein Tripel (Ω, A, P ), wo Ω eine nichtleere Menge, A eine σ-Algebra
von Teilmengen von Ω und P eine Wahrscheinlichkeitsverteilung auf A ist, heißt ein
Wahrscheinlichkeitsraum.
Ω heißt die Ergebnismenge, die Elemente der σ-Algebra A heißen Ereignisse und die
Zahl P (A) heißt die Wahrscheinlichkeit des Ereignisses A.
2.5 Monotone Folgen von Ereignissen
Als Grund für die Einführung des vierten Axioms war die Forderung der Stetigkeit der
Funktion P in der Form (2.17) angegeben worden. Wir müssen daher noch überprüfen,
ob sich dies aus dem Axiom 4 ableiten lässt.
Ist B1 , B2 , . . . eine Folge von Ereignissen aus einemSWahrscheinlichkeitsraum (Ω, A, P )
∞
mit Bn ⊂ Bn+1 für alle n = 1, 2, . . . und ist B = n=1 Bn , so symbolisieren wir diese
Situation kurz mit Bn % B. Dann gilt
Satz 2.1
Bn % B
⇒
lim P (Bn ) = P (B)
n→∞
(2.20)
Beweis: Nach Regel (2.12) ist die Folge der Zahlen P (Bn ) monoton steigend und nach
Axiom 1 nach oben durch 1 beschränkt. Der Limes existiert also. Wir konstruieren
eine neue Folge von Ereignissen A1 , A2 , . . . durch
A1 = B1
A2 = B2 ∩ B 1
..
.
Ak = Bk ∩ B k−1
..
.
Diese Ereignisse Ak sind paarweise disjunkt und es gilt
Bn
= A1 + A2 + . . . + An =
n
X
k=1
B
=
∞
X
Ak
k=1
15
Ak
Daraus ergibt sich aus den Axiomen und den bisher abgeleiteten Rechenregeln
lim P (Bn ) =
n→∞
lim
n→∞
= P(
n
X
k=1
∞
X
P (Ak ) =
∞
X
P (Ak )
k=1
Ak ) = P (B)
k=1
Ist C1 , C2 , . . . eine Folge von Ereignissen mit C1 ⊃ C2 ⊃ C3 . . . und C =
kurz Cn & C, so gilt
T∞
n=1
♦
Cn ,
Satz 2.2
Cn & C
⇒
lim P (Cn ) = P (C)
n→∞
(2.21)
Beweis: Die Ereignisse Bn = C n erfüllen Bn % B mit B = C. Wegen P (Cn ) =
1 − P (Bn ) und P (C) = 1 − P (B) folgt die Behauptung aus dem vorhergehenden Satz.
16
3 Laplace-Experimente
Mit dem Aufstellen von Rechenregeln für Wahrscheinlichkeiten ist noch nicht das Problem gelöst, wie man bei konkreten Zufallsexperimenten zu konkreten Zahlen für die
Wahrscheinlichkeit von Ereignissen kommt. Dies ist allerdings auch nur zum Teil ein
rein mathematisches Problem. Der mathematische Teil besteht darin zu klären, welche Informationen über die Funktion P erforderlich sind um anschließend mit Hilfe
der Rechenregeln die Wahrscheinlichkeit P (A) eines beliebigen Ereignisses A berechnen zu können. Das praktische“ Problem besteht darin, im konkreten Einzelfall einen
”
vernünftigen“ Ansatz für die benötigte Minimalinformation über P aufzustellen.
”
Das historisch erste Kochrezept zur Lösung dieses Problems stammt von Pierre Simon
de Laplace (1749–1827):
Die Wahrscheinlichkeitsrechnung besteht in der Zurückführung aller Ereignisse
derselben Art auf eine gewisse Anzahl von gleich möglichen Fällen, über deren
Eintreten wir gleich wenig wissen, und in der Bestimmung derjenigen Anzahl
von Fällen, die für das Ereignis günstig sind, dessen Wahrscheinlichkeit wir
suchen.
Den ersten Teil dieser Vorschrift kann man unter Verwendung der im vorhergehenden
Kapitel eingeführten Begriffe etwa folgendermaßen formulieren:
Beschreibe eine Versuchsanordnung durch eine Ergebnismenge derart, dass
es keinen vernünftigen Einwand gegen den Ansatz gibt, dass alle Ergebnisse
gleich möglich sind, bzw. — in unserer Sprechweise — dass alle Elementarereignisse die gleiche Wahrscheinlichkeit besitzen.
P {ω} = p für alle ω ∈ Ω
(3.22)
Beispiele:
1. Ist ein Würfel regulär, d.h. aus homogenem Material geometrisch exakt geformt, so
lässt sich kaum etwas gegen die Annahme einwenden, dass jede der sechs Augenzahlen
beim Wurf die gleiche Chance hat nach oben zu zeigen. Die Ergebnismenge Ω =
{1, 2, 3, 4, 5, 6} ist also für diesen Fall ein passender Ansatz.
2. Interessiert man sich für die Augenzahlsumme beim Werfen zweier regulärer Würfel,
so ist die Ergebnismenge Ωw1 (s. Seite 8) ungeeignet. Nach einer relativ kurzen Versuchsreihe zeigt sich im allgemeinen, dass sich die relativen Häufigkeiten der Elementarereignisse deutlich voneinander unterscheiden und ein Laplace-Ansatz (3.22) offensichtlich im Widerspruch zum empirischen Gesetz der großen Zahlen steht.
Andererseits gibt es beim zweimaligen Werfen eines regulären Würfels (oder beim
gleichzeitigen Werfen zweier unterscheidbarer regulärer Würfel) keinen vernünfigen
Einwand gegen die Annahme, dass alle möglichen Kombinationen aus erster und zweiter geworfener Augenzahl die gleiche Chance besitzen. Man wird also von der Eigenschaft (3.22) für die Ergebnismenge Ωw3 wie in (2.3) ausgehen und Ereignisse der Form
Die Augenzahlsumme ist x“ in diesem Rahmen betrachten.
”
17
3.1 Laplace-Experimente
Die Eigenschaft (3.22) ist die Minimalinformation, durch die der Wahrscheinlichkeitsraum
(Ω, A, P ) bereits eindeutig festgelegt ist. Sie besagt als Erstes, dass jede einelementige
Menge {ω} ein Element der σ-Algebra A ist. Daraus folgt, dass jede endliche Teilmenge
von Ω in A liegt, denn
A = {ω1 , ω2 , . . . , ωn } = {ω1 } + {ω2 } + · · · + {ωn } ∈ A
und es ist dementsprechend
P (A)
= P {ω1 } + P {ω2 } + · · · + P {ωn }
= np =: |A|p
(3.23)
|A| bezeichnet dabei die Anzahl der Elemente der Menge A.
Da man offensichtlich p > 0 ansetzen muss, um zu einer sinnvollen Wahrscheinlichkeitsverteilung zu kommen, ist ein Ansatz der Form (3.22) nur möglich, wenn die
Ergebnismenge Ω endlich ist. Denn einerseits muss stets P (A) ≤ 1 sein und andererseits
gäbe es bei nicht-endlichem Ω Teilmengen A einer derartigen Größe, dass |A|p > 1 ist.
Dann ist aber jede Teilmenge von Ω endlich und somit ein Element der Ereignisalgebra,
so dass A = 2Ω . Weiter folgt aus
1 = P (Ω) = |Ω|p
dass p = 1/|Ω| und wir erhalten für die Wahrscheinlichkeit eines Ereignisses A die
bekannte Formel
Anzahl der günstigen Fälle
|A|
=
P (A) =
|Ω|
Anzahl der möglichen Fälle
Wie man sich leicht überzeugt, erfüllt die Funktion P die Axiome 1 bis 3. Das Axiom
4 ist hier nicht relevant, da wir es mit einer endlichen Ergebnismenge zu tun haben.
Wir können daher festlegen:
Definition 3.1 Ein Laplace-Experiment ist ein Wahrscheinlichkeitsraum (Ω, A, P )
mit den folgenden Eigenschaften:
• Ω ist eine endliche Menge
• A = 2Ω
• P (A) = |A|/|Ω|
Die Berechnung von Wahrscheinlichkeiten bei Laplace-Experimenten besteht daher im
Abzählen der Elemente der entsprechenden Mengen. Beim Werfen zweier Würfel ist das
recht einfach. Die Menge Ωw3 enthält 36 Elemente und das Ereignis Augenzahlsumme
”
7“ wird durch die Menge A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} mit 6 Elementen
und der Wahrscheinlichkeit P (A) = 1/6 repräsentiert. Das Problem des Abzählens
kann sich aber zuweilen sehr schwierig gestalten. Mit diesem Teil der Wahrscheinlichkeitsrechnung, der unter das Stichwort Kombinatorik fällt, werden wir uns in diesem
Kapitel anhand einiger typischer Problemstellungen kurz beschäftigen.
18
3.2 Binomialkoeffizienten
Beim Galton-Brett (s. Seite 9) kommen die unterschiedlichen Ergebnisse dadurch
Zustande, dass die Kugel an den Verzweigungen der Rinnen zufällig nach links oder
rechts springt. Wenn man die Spitzen der Verzweigungen durch Punkte repräsentiert,
ergibt sich das in Abbildung 2 dargestellte Schema.
× Start
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
0
1
2
3
4
5
Abbildung 2: Schema des Galton-Bretts
Zu n(= 5) Punktreihen gibt es n + 1(= 6) Fächer, in die die Kugel fallen kann und die
wir von 0 bis n von links nach rechts durchnummerieren.
Die verschiedenen möglichen Wege, die die Kugel auf diesem Brett durchlaufen kann,
lassen sich durch die Sprungrichtungen der Kugel auf den n Reihen beschreiben. Jedem
Weg entspricht ein Binärvektor δ = (δ1 , δ2 , . . . , δn ), wobei δi = 0 bzw. = 1, wenn die
Kugel auf der i-ten Reihe nach links bzw. nach rechts springt.
Bei einem regulär gebauten Galton-Brett kann man davon ausgehen, dass auf jeder
Reihe Sprünge nach rechts und nach links gleich möglich sind und weiter, dass jede
Kombination von Sprüngen gleich möglich ist, so dass
Ωn = {δ = (δ1 , δ2 , . . . , δn ) ; δi ∈ {0, 1}}
eine geeignete Ergebnismenge ist, die bekanntermaßen |Ωn | = 2n Elemente besitzt.
Wie berechnet man unter der Annahme, dass wir ein Laplace-Experiment vor uns
haben, die Wahrscheinlichkeit des Ereignisses
die Kugel fällt in das Fach Nr. k“ ?
”
Anhand der Abbildung 2 überzeugt man sich leicht, dass die Kugel beim n-reihigen
Galton-Brett in das Fach k fällt, wenn sie bei ihren n Sprüngen auf dem Weg nach
unten genau k-mal nach rechts und (n−k)-mal nach links springt, wobei es gleichgültig
ist, in welcher Reihenfolge diese Sprünge erfolgen. In der Ergebnismenge Ωn wird dieses
Ereignis durch die Menge aller Binärvektoren repräsentiert, die genau k Einsen (und
folglich n − k Nullen) enthalten.
)
(
n
X
n
δi = k
(3.24)
Ak = δ = (δ1 , δ2 , . . . , δn ) ∈ Ωn ;
i=1
19
Die Anzahl der Elemente dieser Menge wird mit
n
|Ank | =
k
bezeichnet. Diese Größe heißt ein Binomialkoeffizient. Ihren Namen hat sie von der
Binomialformel
n X
n k n−k
a b
(3.25)
(a + b)n =
k
k=0
mit reellen oder komplexen Zahlen a und b. In dieser Formel ist — wie man sich durch
das Ausmultiplizieren etwa von (a + b)3 veranschaulicht — der Binomialkoeffizient nk
die Anzahl der Produkte, die man aus k Faktoren a und n − k Faktoren b bilden kann.
Ersetzt man a durch 1 und b durch 0, so entsprechen die Binärvektoren mit k Einsen
gerade diesen Produkten.
Einzelheiten zu den Binomialkoeffizienten findet man in jedem Buch über Kombinatorik. Wir beschränken uns hier auf die wichtigsten Berechnungsformeln.
n
n
=
=1
0
n
Dies ist unmittelbar einsichtig. Die Menge der Binärvektoren, die aus lauter Nullen
bzw. Einsen bestehen, enthält jeweils ein Element. Wenn man die Menge An+1
in die
k
Menge A1 aller Vektoren der Form (δ1 , . . . , δn , 1) mit k − 1 Einsen unter den ersten
n Komponenten und die Menge A0 der (δ1 , . . . , δn , 0) mit k Einsen zerlegt, so ist
offensichtlich |A1 | = |Ank−1 | und |A0 | = |Ank |, woraus die Rekursionsformel
n+1
n
n
=
+
k
k−1
k
folgt. Durch Ersetzen von 1 durch 0 und 0 durch 1 in jedem Vektor ergibt sich weiterhin
die Gleichung
n
n
=
k
n−k
Zur expliziten Berechnung der Binomialkoeffizienten benutzt man die Formeln
n!
n(n − 1) · · · (n − k + 1)
n
=
=
k(k − 1) · · · 1
k!(n − k)!
k
mit 0! = 1 und m! = 1 · 2 · 3 · · · (m − 1) · m für m = 1, 2, . . . .
Die Wahrscheinlichkeit, dass bei einem regulären Galton-Brett die Kugel im Fach
Nummer k landet, ist somit durch die Formel
n
P (Ank ) =
gegeben.
20
k
2n
3.3 Urnen- und Schubladenmodelle
Urnenmodelle stellen einen Zwischenschritt auf dem Weg vom konkreten Zufallsexperiment zu seiner mathematischen Beschreibung als Wahrscheinlichkeitsraum dar. Es
sind fiktive Zufallsexperimente, die die wesentlichen Zufallselemente eines konkreten
Vorgangs — evtl. auch nur angenähert — beschreiben. Ein Beispiel dafür ist der Vorgang beim Lotto Sechs aus Neunundvierzig“: Auf einem Lottoschein werden auf einem
”
Zahlenfeld 6 Zahlen angekreuzt. Bei der öffentlichen Ziehung werden aus einer Trommel
sechs Kugeln zufällig gezogen und die auf den Kugeln stehenden Zahlen notiert. Dann
zählt man, wieviele der angekreuzten Zahlen mit den gezogenen übereinstimmen. Von
den weiteren Varianten wie der Zufallszahl sehen wir hier zunächst einmal ab. Bezogen
auf dieses eine Zahlenfeld lässt sich dieser Vorgang auf das folgende fiktive Experiment
reduzieren: In einem Gebilde namens Urne“ befinden sich 49 Kugeln, 43 davon weiß
”
und 6 schwarz. Letztere entsprechen den auf dem Zahlenfeld angekreuzten Zahlen. Aus
dieser Urne werden zufällig“ sechs Kugeln gezogen und die Höhe des Gewinns hängt
”
davon ab wieviele schwarze Kugeln sich unter den sechs gezogenen befinden.
Um in solchen Situationen Wahrscheinlichkeiten zu berechnen, benötigt man einen
Wahrscheinlichkeitsraum für das folgende Zufallsexperiment:
Aus einer Urne mit N Kugeln, von denen K schwarz und der Rest weiß
sind, werden n Kugeln zufällig gezogen. Interessierende Ereignisse sind:
Unter den gezogenen Kugeln befinden sich genau k schwarze.“
”
Das Eigenschaftswort zufällig soll dabei andeuten, dass es sich um ein Laplace-Experiment handeln soll.
Schubladenmodelle dienen einem ähnlichen Zweck. Beispielsweise kann man sich
einen Binärvektor der Dimension n als eine Reihe von n (nummerierten) Schubladen
vorstellen, die den Komponenten des Vektors entsprechen, wobei eine 0 einer leeren
und eine 1 einer mit einer Kugel gefüllten Schublade entspricht. Dem Binärvektor
(1, 0, 1, 1, 0) zum Beispiel entspricht die Kugelverteilung
v
1
2
v
v
3
4
5
3.4 Zufälliges Ziehen einer Kugel
Um feststellen zu können, ob jede der Kugeln beim Ziehen die gleiche Chance hat,
müssen sie unterscheidbar sein. Wir gehen daher davon aus, dass sie die Nummern
1, 2, . . . , N tragen, so dass als Ergebnisse die Nummern der gezogenen Kugeln angesetzt
werden können:
ΩN
1 = {1, 2, . . . , N }
Um in dieser Ergebnismenge das Ereignis gezogene Kugel ist schwarz“ charakterisie”
ren zu können, muss eine Beziehung zwischen den Nummern und der Farbe bestehen.
21
Wir nehmen der Einfachheit halber an, dass die Nummerierung so durchgeführt wurde, dass die schwarzen Kugeln die Nummern 1 bis K tragen und das obige Ereignis
daher der Menge
A = {1, . . . , K}
entspricht. Wenn jede Kugel beim Ziehen die gleiche Chance hat, das Ganze also ein
Laplace-Experiment ist, erhält man als Wahrscheinlichkeit
P (A) =
K
|A|
=
N
N
|Ω1 |
3.5 Zufälliges Ziehen mehrerer Kugeln
Beim Ziehen von n ≥ 2 Kugeln aus der Urne sind verschiedene Vorgehensweisen
möglich, wobei wir für diesen Abschnitt generell annehmen, dass eine einmal aus der
Urne gezogene Kugel nicht wieder zurückgelegt wird. Man kann die Kugeln einzeln
nacheinander ziehen und dabei notieren, welche Kugel wann gezogen wurde oder alle
Kugeln auf einmal aus der Urne nehmen. Ersteres nennen wir Ziehen mit Berücksichtigung der Reihenfolge, letzeres Ziehen ohne Berücksichtigung der Reihenfolge.
3.5.1 Ziehen mit Berücksichtigung der Reihenfolge
Ist zi die Nummer der Kugel, die beim i-ten Zug aus der Urne genommen wurde, so
lassen sich die Ausgänge des Experiments durch die Menge
ΩN
n = {(z1 , z2 , . . . , zn ) ; zi = 1, 2, . . . , N und zi paarweise verschieden}
(3.26)
repräsentieren.
Die Menge ΩN
2 enthält N (N − 1) Elemente, da jede der N Zahlen z1 mit den N − 1
Zahlen z2 6= z1 zu einem Ergebnis (z1 , z2 ) kombiniert werden kann.
Wenn man den Vektor (z1 , z2 , . . . , zn ) in der Form ((z1 , z2 , . . . , zn−1 ), zn ) schreibt,
sieht man, dass die Ergebnisse aus ΩN
n durch die Kombination von beliebigen Ermit
Zahlen zn Zustande kommen, die von den
gebnissen (z1 , z2 , . . . , zn−1 ) aus ΩN
n−1
z1 , z2 , . . . , zn−1 verschieden sind. Da es (N − (n − 1)) = (N − n + 1) derartige Zahlen
N
aus dem Bereich 1, 2, . . . , N gibt, ist |ΩN
n | = |Ωn−1 |(N − n + 1), woraus sich rekursiv
die Formel
(3.27)
|ΩN
n | = N (N − 1)(N − 2) · · · (N − n + 1)
ergibt.
3.5.2 Ziehen ohne Berücksichtigung der Reihenfolge
Wenn die Reihenfolge, in der die Kugeln gezogen wurden, keine Rolle spielt, erhält
man als Ergebnis eine Menge von n verschiedenen Zahlen aus dem Bereich 1, 2, . . . , N ,
die man üblicherweise der Größe nach geordnet aufschreibt. Diese Vorgehensweise legt
die Ergebnismenge
Ω̂N
n = {(z1 , z2 , . . . , zn ) ; 1 ≤ z1 < z2 < . . . < zn ≤ N }
22
(3.28)
nahe. Zur Bestimmung der Anzahl der Elemente dieser Menge benutzen wir eine andere
Darstellung dieser Ergebnisse. Wir ordnen einem Vektor (z1 , z2 , . . . , zn ) aus (3.28) den
Binärvektor (δ1 , δ2 , . . . , δN ) der Länge N mit
1 für i = z1 , z2 , . . . , zn
δi =
0 für alle anderen i
bzw. eine Verteilung von n Kugeln auf N Schubladen zu, wobei in den Schubladen
z1 , z2 , . . . , zn jeweils eine Kugel liegt.
Durch diese Zuordnung wird die Menge Ω̂N
n wird eineindeutig auf die Menge
Ω̃N
n = {(δ1 , δ2 , . . . , δN ) ;
N
X
δi = n}
(3.29)
i=1
abgebildet und enthält daher die gleiche Anzahl von Elementen, nämlich —wie wir
von (3.24) wissen—
N
N
|
=
|
=
|
Ω̃
|Ω̂N
n
n
n
Mit dieser Ergebnismenge lässt sich auch das oben angesprochene Problem leicht lösen:
Aus einer Urne mit K schwarzen und N − K weißen Kugeln werden zufällig n
Kugeln ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge gezogen.
Wie groß ist die Wahrscheinlichkeit, dass sich unter den gezogenen Kugeln k
schwarze befinden?
Wenn die schwarzen Kugeln die Nummern von 1 bis K tragen, wird das entsprechende
Ereignis durch die Teilmenge
Bk = {(δ1 , δ2 , . . . , δK , δK+1 , . . . , δN ) ∈ Ω̃N
n ;
K
X
δi = k ,
i=1
N
X
i=K+1
δi = n − k}
(3.30)
von Ω̃N
eine Nummer 1 ≤ zi ≤ K
n beschrieben; denn einer schwarzen Kugel entspricht
Vektorteilstücke
(δ1 , . . . , δK |
und dies wiederum einer Komponente δzi = 1. Da es K
k
PK
PN
N −K
mit i=1 δi = k und n−k Teilstücke |δK+1 , . . . , δN ) mit i=K+1 δi = n − k gibt
und die Vektoren
aus
Bk durch beliebige Kombinationen solcher Teilstücke entstehen,
N −K
und daher
ist |Bk | = K
n−k
k
P (Bk ) =
K
k
N −K
n−k
N
n
Als Anwendung berechnen wir die Wahrscheinlichkeiten, beim Lotto “6 aus 49” k =
0, 1, . . . , 6 “Richtige” zu erhalten.
Bei der Ziehung befinden sich in einer Trommel N = 49 durchnummerierte Kugeln,
von denen n = 6 ohne Zurücklegen gezogen werden. Die K = 6 Kugeln, die die von uns
23
auf dem Lottoschein angekreuzten Zahlen tragen, denken wir uns schwarz, die übrigen
43 weiß. Die Wahrscheinlichkeit für “k Richtige” ist dann gegeben durch
43 6
pk =
was mit
k
6−k
49
6
,
49
= 13983816
6
die folgenden Werte ergibt:
p0 =
p1 =
0, 435964976
0, 413019450
p2 =
p3 =
0, 132378029
0, 017650404
p4 =
p5 =
0, 000968620
0, 000018450
p6 =
0, 000000072.
24
4 Bedingte Wahrscheinlichkeiten
Zur mathematischen Präzisierung des etwas vagen Begriffs der unabhängigen Durchführung von Zufallsexperimenten benötigt man eine Größe, die anzeigt, welchen Einfluss
das Eintreten eines Ereignisses auf das Eintrittsverhalten eines anderen hat. Diese
Größe heißt die bedingte Wahrscheinlichkeit. Um die nachfolgende Definition zu
begründen und zu veranschaulichen, wie die bedingte Wahrscheinlichkeit bei konkreten
Zufallsexperimenten zu interpretieren ist, stellen wir uns die fiktive n-fache Durchführung eines Zufallsexperiments vor, bei dem zwei Ereignisse A und B beobachtet werden.
Die bedingte relative Häufigkeit Rn (A|B) des Ereignisses A unter der Bedingung
B sei dabei die relative Häufigkeit von A auf der Teilversuchsreihe der Experimente
unter den n durchgeführten, bei denen das Ergebnis B eingetreten ist. Wenn diese
bedingte relative Häufigkeit von der relativen Häufigkeit Rn (A) von A bezogen auf alle
Durchführungen stark abweicht, ist anzunehmen, dass das Eintreten des Ereignisses
B einen gewissen Einfluss auf dasjenige von A hat, dass also die Ereignisse A und B
bezüglich ihres stochastischen Verhaltens voneinander abhängig sind.
Die Teilversuchsreihe, auf der das Ereignis B eingetreten ist, hat die Länge Hn (B) und
die Anzahl der Experimente unter diesen Hn (B), bei denen das Ereignis A eingetreten
ist, ist gleich der Anzahl Hn (A ∩ B) der Experimente unter den n insgesamt durchgeführten, die sich durch das gleichzeitige Eintreten von A und B auszeichnen. Die Formel für die bedingte relative Häufigkeit lautet daher Rn (A|B) = Hn (A ∩ B)/Hn (B).
Dividiert man Zähler und Nenner dieses Bruchs durch die Zahl n, ergibt sich die Formel
Rn (A|B) =
Rn (A ∩ B)
Rn (B)
die sich durch das Ersetzen des Symbols Rn durch P in ein wahrscheinlichkeitstheoretisches Äquivalent umwandeln lässt.
Definition 4.1 Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und A, B ∈ A zwei Ereignisse, wobei P (B) > 0. Dann heißt
P (A|B) =
P (A ∩ B)
P (B)
(4.31)
die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung B.
Bei festgehaltenem B erfüllt — wie man sich leicht überzeugt — die Funktion A 7−→
P (A|B) die vier Axiome von Kolmogoroff (s. Seite 12ff) und ist damit eine neue Wahrscheinlichkeitsverteilung auf der Ereignisalgebra A.
4.1 Rechenregeln
Multipliziert man die Gleichung (4.31) mit P (B), so erhält man
P (A ∩ B) = P (A|B)P (B)
25
(4.32)
Durch zweimalige Anwendung von (4.32) ergibt sich weiter
P (A ∩ B ∩ C)
= P (A|B ∩ C)P (B ∩ C)
= P (A|B ∩ C)P (B|C)P (C)
(4.33)
mit offensichtlicher Erweiterung auf den Durchschnitt einer beliebigen endlichen Anzahl von Ereignissen.
Man benutzt diese Gleichungen häufig zur Berechnung von Wahrscheinlichkeiten bei
Zufallsexperimenten, die in mehreren Schritten ablaufen. Als Beispiel betrachten wir
eine Urne, die K schwarze und N − K weiße Kugeln enthält und aus der zufällig
3 Kugeln ohne Zurücklegen der Reihe nach gezogen werden. Das Ereignis Alle drei
”
gezogenen Kugeln sind schwarz“ ist von der Form A ∩ B ∩ C, wobei C, B bzw. A die
Ereignisse Erste Kugel ist schwarz“, Zweite Kugel ist schwarz“ bzw. Dritte Kugel
”
”
”
ist schwarz“ repräsentieren.
Zur Berechnung der drei Faktoren auf der rechten Seite von (4.33) erspart man sich
in den meisten derartigen Fällen die Beschreibung des Experiments durch einen passenden Wahrscheinlichkeitsraum und interpretiert die Wahrscheinlichkeitsverteilungen
P (.), P (.|B) und P (.|B ∩ C) als Wahrscheinlichkeitsgesetze dreier konkreter Zufallsexperimente nach dem folgenden Muster:
1. Bei P (C) hat man es offensichtlich mit einer Urne mit N Kugeln zu tun, aus der
eine Kugel zufällig gezogen wird. Nach Laplace ist die Wahrscheinlichkeit, dass
diese schwarz ist, gleich P (C) = K/N .
2. Unter der Bedingung, dass das Ereignis C eingetreten ist, enthält die Urne nur
noch N − 1 Kugeln, von denen K − 1 schwarz sind. P (.|C) beschreibt das Ziehen
einer Kugel aus dieser Urne. Somit ist P (B|C) = (K − 1)/(N − 1).
3. Sind beide Ereignisse B und C eingetreten, enthält die Urne nur noch N − 2
Kugeln mit K −2 schwarzen. Dementsprechend ist P (A|B∩C) = (K −2)/(N −2).
Insgesamt ergibt sich auf diese Weise
P (A ∩ B ∩ C) =
K(K − 1)(K − 2)
N (N − 1)(N − 2)
Bei Zufallsexperimenten, deren Struktur nicht ganz so einfach zu durchschauen ist
wie dem obigen, können bei dieser Vorgehensweise aber leicht Fehlinterpretationen
vorkommen wie bei dem folgenden Bertrandschen Paradoxon:
Aus drei Kästen, von denen einer zwei goldene Münzen, einer zwei silberne
Münzen und einer eine goldene und eine silberne Münze enthält, wird zufällig
einer ausgewählt und eine Münze entnommen.
Wie groß ist — unter der Bedingung, dass man dabei eine goldene Münze
gezogen hat — die Wahrscheinlichkeit, dass die im ausgewählten Kasten verbliebene Münze ebenfalls aus Gold ist?
26
Seien A, B bzw. C die Ereignisse, dass man den Kasten mit zwei goldenen, einer
silbernen und einer goldenen bzw. zwei silbernen Münzen auswählt, und G1 bzw. G2
die Ereignisse, dass die gezogene bzw. verbleibende Münze aus Gold ist. Dann ist die
bedingte Wahrscheinlichkeit P (G2 |G1 ) zu berechnen.
Auf den ersten Blick ist man geneigt, die bedingte Wahrscheinlichkeit P (.|G1 ) dahingehend zu interpretieren, dass man einen von den beiden Kästen A und B auswählt.
Das Ereignis G2 entspricht dann der Auswahl des Kastens A und hat somit die Wahrscheinlichkeit P (G2 |G1 ) = 1/2.
Eine überschlägige Berechnung der bedingten relativen Häufigkeit zeigt, dass diese
Argumentation nicht korrekt sein kann. Nimmt man an, dass bei N Durchführungen
dieses Experiments jeder der drei Kästen gleich oft gewählt wird und in der Hälfte
der N/3 Fälle, in denen der Kasten B gewählt wurde, zuerst die goldene Münze gezogen wird, tritt in N/3 + N/6 Durchführungen das Ereignis G1 ein, wobei in N/3
Fällen (Auswahl von A) gleichzeitig auch G2 eintritt. Die bedingte relative Häufigkeit
RN (G2 |G1 ) ist damit gleich 2/3. Bei der obigen Argumentation wurde offensichtlich
nicht berücksichtigt, dass die Auswahl des Kastens B nicht automatisch das Ziehen
der goldenen Münze nach sich zieht.
Der korrekte Lösungsweg führt über einen passenden Wahrscheinlichkeitsraum: Betrachtet man als Ergebnisse die Paare ω = (f1 , f2 ), wo f1 die Farbe der gezogenen und
f2 die Farbe der verbleibenden Münze ist, so erhält man den Ergebnisraum
Ω = {(g, g), (g, s), (s, g), (s, s)}
und die relevanten Ereignisse werden durch die Mengen
A = {(g, g)}
B = {(g, s), (s, g)}
C = {(s, s)}
und
G1 = {(g, g), (g, s)}
G2 = {(g, g), (s, g)}
repräsentiert.
Nach Aufgabenstellung haben die drei Ereignisse A, B und C die gleiche Wahrscheinlichkeit: P (A) = P (B) = P (C) = p. Wegen A + B + C = Ω muss nach unseren
Rechenregeln für Wahrscheinlichkeiten p = 1/3 sein. Geht man weiter davon aus, dass
aus dem Kasten B mit gleicher Wahrscheinlichkeit die goldene oder silberne Münze
gezogen wird, ist P {(g, s)} = P {(s, g)} = 1/6. Damit erhält man
P (G2 |G1 ) =
P {(g, g)}
2
P (G1 ∩ G2 )
=
=
P (G1 )
P {(g, g)} + P {(g, s)}
3
Weitere Regeln:
Aus
P (A|B)P (B) = P (A ∩ B) = P (B ∩ A) = P (B|A)P (A)
erhält man für den Fall, dass P (A) und P (B) beide positiv sind, die Beziehung
P (B|A) =
P (A|B)P (B)
P (A)
27
(4.34)
Partitionen. Sei J entweder die endliche Indexmenge {1, 2, . . . , n} mit einer natürlichen
Zahl n oder die Menge aller natürlichen Zahlen.
Definition 4.2 Eine Menge {Bj ; j ∈ J} von Ereignissen Bj ∈ A heißt eine Partition von Ω, wenn die Bj paarweise disjunkt sind und außerdem
X
Bj = Ω
j∈J
gilt.
Ist A ∈ A ein beliebiges Ereignis und {Bj ; j ∈ J} eine Partition von Ω, so ist
X
X
A ∩ Bj .
Bj =
A=A∩Ω=A∩
j∈J
Anwendung von P liefert
P (A) =
X
j∈J
j∈J
P (A ∩ Bj )
und zusammen mit (4.32) erhält man die Formel von der totalen Wahrscheinlichkeit
X
P (A) =
P (A|Bj )P (Bj ).
(4.35)
j∈J
4.2 Die Formel von Bayes
Die Kombination von (4.34) und (4.35) ergibt die Formel von Bayes:
P (Bk |A) = P
P (A|Bk )P (Bk )
.
j∈J P (A|Bj )P (Bj )
(4.36)
Die Bayes’sche Formel ist von Bedeutung im Rahmen der statistischen Entscheidungstheorie. Wir wollen dies anhand eines simplen Beispiels erläutern.
Gegeben ist eine Übertragungsstrecke, die Sendebuchstaben a aus einem endlichen
Sendealphabet A in Empfangsbuchstaben b aus einem Alphabet B umwandelt, wobei
es sich bei dieser Umwandlung um ein Zufallsexperiment handelt. D.h. in Abhängigkeit
A 3 a 7→
Kanal
7→ b ∈ B 7→
D
7→ a0 ∈ A
Abbildung 3: Übertragungsstrecke
von a werden die verschiedenen Buchstaben b mit unterschiedlichen, von a abhängigen
Wahrscheinlichkeiten empfangen.
28
Gesucht ist ein Entscheidungsverfahren D : B −→ A, das jedem Empfangsbuchstaben
b einen vermutlich gesendeten Buchstaben D(b) = a0 ∈ A so zuordnet, dass die Wahrscheinlichkeit von Entscheidungsfehlern minimiert wird.
Als Ergebnisraum zur Beschreibung des Zufallsexperiments Sendevorgang“ wählen
”
wir Ω = {(a, b) ; a ∈ A, b ∈ B}, wobei das Ergebnis (a, b) zu lesen ist als a wurde
”
gesendet und b empfangen“.
Die σ-Algebra A sei die Menge aller Teilmengen von Ω. Von besonderem Interesse
in diesem Zusammenhang sind die Ereignisse a wurde gesendet“, dem die Menge
”
Ga = {(a, b); b ∈ B} entspricht, und b wurde empfangen“, repräsentiert durch Eb =
”
{(a, b); a ∈ A}.
Hinsichtlich der Wahrscheinlichkeitsverteilung P nehmen wir an, dass uns die a priori
Wahrscheinlichkeiten der Sendebuchstaben:
pa = P (Ga ) für a ∈ A
und die bedingten Übertragungswahrscheinlichkeiten
pb|a = P (Eb |Ga ) für a ∈ A und b ∈ B
bekannt sind. Ersteres bedeutet, dass man beispielsweise weiß, in welcher Sprache
gesendet wird, und letzteres erhält man etwa durch Senden von Testsignalen und
Bestimmung der relativen Häufigkeiten.
Aus
P {(a, b)} = P (Ga ∩ Eb ) = P (Eb |Ga )P (Ga ) = pb|a pa
ersieht man, dass durch diese Angaben die Wahrscheinlichkeit P vollständig bestimmt
ist.
Die Bedeutung der Bayes’schen Formel ergibt sich aus dem folgenden
Satz 4.1 Ein Entscheidungsverfahren D : B −→ A, welches die Wahrscheinlichkeit
von Entscheidungsfehlern minimiert, ist durch die folgende Vorschrift gegeben: Für
jedes b ∈ B ist als D(b) ein Sendebuchstabe zu wählen, welcher die Funktion
a 7−→ P (Ga |Eb )
maximiert.
Da das Maximum dieser Funktionen nicht unbedingt eindeutig bestimmt sein muss,
gibt es evtl. mehrere optimale Entscheidungsverfahren.
Die bedingten Wahrscheinlichkeiten P (Ga |Eb ) heißen a posteriori Wahrscheinlichkeiten der Sendebuchstaben. Gegenüber den a priori Wahrscheinlichkeiten enthalten
sie zusätzliche Information, nämlich die Tatsache, dass das Ereignis b wurde empfan”
gen“ eingetreten ist. Ihre Berechnung aus den a priori Wahrscheinlichkeiten und den
Übertragungswahrscheinlichkeiten erfolgt über die Bayes’sche Formel.
Beweis des Satzes 4.1.
Das Ereignis Entscheidungsfehler“ bei Verwendung des Verfahrens D wird durch die
”
Menge
FD = {(a, b) ∈ Ω; D(b) 6= a}
29
beschrieben. Wegen P (FD ) = 1 − P (FD ) ist Minimierung der Wahrscheinlichkeit von
Entscheidungsfehlern gleichbedeutend mit dem Maximieren der Wahrscheinlichkeit des
Ereignisses korrekte Entscheidung“, gegeben durch die Menge
”
RD = FD = {(a, b); D(b) = a}
= {(D(b), b); b ∈ B}.
Für die Wahrscheinlichkeit dieses Ereignisses gilt
P {(D(b), b); b ∈ B}
P
P {(D(b), b)}
P b∈B
P (GD(b) ∩ Eb )
=
P b∈B
=
b∈B P (GD(b) |Eb )P (Eb )
P (RD ) =
=
Um die letzte Summe in Abhängigkeit von D zu maximieren, kann man jeden Summanden für sich betrachten. Dies bedeutet, dass man — wie oben behauptet — für
jedes b ∈ B den Wert D(b) aus dem Bereich der Sendebuchstaben a so wählen muss,
dass P (Ga |Eb ) maximal wird.
♦
Zur zahlenmäßigen Veranschaulichung nehmen wir drei Jäger, die auf ein flüchtendes
Wildschwein schießen. Jäger 1 schießt dabei dreimal und Jäger 2 doppelt so oft wie
Jäger 3. Nach einiger Zeit ist das Wildschwein erlegt und es muss geklärt werden, wer
der glückliche Schütze ist, bzw. für wen wir uns als solchen entscheiden, wenn wir
außerdem aus Beobachtungen am Schießstand wissen, dass die Trefferwahrscheinlichkeiten der drei Jäger 0.3, 0.6 bzw. 0.8 sind.
Als Zufallsexperiment wählen wir die zufällige Auswahl einer der Kugeln, die in Richtung Wildschwein abgefeuert werden. Wenn wir die Flugbahn dieser Kugel in beiden
Richtungen verfolgen, kann man die folgenden Ereignisse unterscheiden:
Bk
: Die Kugel stammt von Jäger k(= 1, 2, 3)
T
: Die Kugel erlegt das Wildschwein
Aus den unterschiedlichen Schusshäufigkeiten können wir die a priori-Wahrscheinlichkeiten P (Bk ) der Ereignisse Bk ableiten:
P (B1 ) = 3p ,
P (B2 ) = 2p ,
P (B3 ) = p .
Zusammen mit
P (B1 ) + P (B2 ) + P (B3 ) = P (B1 + B2 + B3 ) = P (Ω) = 1
erhält man p =
1
6
und
P (B1 ) =
1
,
2
P (B2 ) =
30
1
,
3
P (B3 ) =
1
.
6
Vom Schießstand kennen wir die bedingten Trefferwahrscheinlichkeiten P (T |Bk ) unter
der Bedingung, dass Jäger k schießt:
P (T |B1 ) = 0.3 ,
P (T |B2 ) = 0.6 ,
P (T |B3 ) = 0.8
Mit diesen Kenntnissen können wir nach der Formel von Bayes die bedingten Wahrscheinlichkeiten P (Bk |T ) dafür berechnen, dass die ausgewählte Kugel von Jäger k
stammt unter der Bedingung, dass sie das Wildschwein erlegt hat:
P (B1 |T ) =
9
,
29
P (B2 |T ) =
12
,
29
P (B3 |T ) =
8
29
Mangels genauer kriminaltechnischer Untersuchung müssen wir also davon ausgehen,
dass Jäger 2 das Wildschwein getroffen hat.
31
5 Stochastische Unabhängigkeit
5.1 Stochastische Unabhängigkeit von zwei Ereignissen
Gemäß den Überlegungen eingangs des vorigen Kapitels wird man bei der n-fachen
Durchführung eines Zufallsexperiments ein Ereignis A als unabhängig von einem Ereignis B ansehen, wenn die bedingte relative Häufigkeit Rn (A|B) etwa gleich der relativen Häufigkeit Rn (A) bezüglich aller Durchführungen ist. Im theoretischen Modell
entspricht dies der Gleichung P (A|B) = P (A). Um die Definition symmetrisch in A
und B zu gestalten und um den Fall P (B) = 0 nicht gesondert behandeln zu müssen,
setzt man diese Gleichung in Formel (4.32) ein und erhält so
Definition 5.1 Zwei Ereignisse A, B in einem Wahrscheinlichkeitsraum (Ω, A, P )
mit der Eigenschaft P (A ∩ B) = P (A)P (B) heißen stochastisch unabhängig.
Zusätzlich zur Additionsregel P (A + B) = P (A) + P (B) für disjunkte Ereignisse haben wir damit auch noch eine Produktregel. Aber Achtung! “Disjunkt” und “stochastisch unabhängig” sind komplementäre Begriffe. Zwei Ereignisse A und B können
im allgemeinen nicht gleichzeitig disjunkt und stochastisch unabhängig sein, denn bei
P (A) > 0 und P (B) > 0 folgt aus A ∩ B = ∅, daß P (A ∩ B) = 0 6= P (A)P (B) und
damit stochastische Abhängigkeit.
Die beiden Begriffe besitzen auch einen unterschiedlichen Stellenwert im Rahmen der
Wahrscheinlichkeitsrechnung. Es ist stets entscheidbar, ob zwei Ereignisse disjunkt
sind oder nicht und im ersteren Fall gilt stets die Additionsregel. Ob aber zwei Ereignisse stochastisch unabhängig sind oder nicht, hängt von der verwendeten Wahrscheinlichkeitsverteilung ab und damit vom Modellbauer, der entscheidet, ob in einem
Zufallsexperiment einige Ereignisse als unabhängig anzusehen sind oder nicht.
Lemma 5.1
A, B seien zwei Ereignisse.
1. Mit A, B sind auch die Paare A, B, A, B und A, B stochastisch unabhängig.
2. Ist P (A) = 0 oder P (A) = 1, so sind A und B für beliebige Ereignisse B stochastisch unabhängig.
Beweis
1. Aus B = AB + AB und der Unabhängigkeit folgt P (B) = P (A)P (B) + P (AB)
oder P (AB) = (1 − P (A)) P (B) = P (A)P (B). Die anderen beiden Aussagen
erhält man in ähnlicher Weise.
2. Ist P (A) = 0, so ist wegen AB ⊂ A auch P (AB) = 0 und es gilt dann stets
P (AB) = 0 = P (A)P (B).
Ist P (A) = 1 so ist P (A) = 0, somit A und B unabhängig. Der Rest folgt aus
Punkt 1.
♦
32
5.2 Globale stochastische Unabhängigkeit
Bei mehr als zwei Ereignissen A1 , A2 , . . . An reicht es nicht, die stochastische Unabhängigkeit aller Paare Ai , Aj zu fordern. Wie man an Gleichung (4.33) sieht, erhält
man eine Produktregel für die drei Ereignisse A, B und C nur dann, wenn man darüber
hinaus fordert, daß A auch noch von dem Verbundereignis B ∩ C stochastisch unabhängig ist. Für mehr als zwei Ereignisse benutzt man daher die folgende Definition:
Definition 5.2 Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P )
heißen global stochastisch unabhängig, wenn für jeden der Indizes i = 1, 2, . . . , n
gilt: Das Ereignis Ai ist stochastisch unabhängig von allen Verbundereignissen, die
man aus den übrigen Ereignissen Aj mit j 6= i bilden kann.
Zu dieser Definition gibt es zwei äquivalente Formulierungen, die hier nur vorgestellt
aber nicht bewiesen werden, da die Beweise zwar leicht, aber nur mit ziemlichem
Schreibaufwand nachvollzogen werden können.
Satz 5.1 Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P )sind
genau dann global stochastisch unabhängig, wenn für jede Teilmenge {i1 , i2 , . . . , im } ⊂
{1, 2, . . . , n} von Indizes gilt
P (Ai1 ∩ Ai2 ∩ . . . ∩ Aim ) = P (Ai1 )P (Ai2 ) · · · P (Aim )
Satz 5.2 Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P )sind
genau dann global stochastisch unabhängig, wenn für jede Auswahl von Ereignissen Bi
aus den Teil-σ-Algebren Ai = {∅, Ai , Ai , Ω} von A gilt:
P (B1 ∩ B2 ∩ . . . ∩ Bn ) = P (B1 )P (B2 ) · · · P (Bn )
5.3 Produktexperimente
Ein Produktexperiment soll ein Wahrscheinlichkeitsraum (Ω, A, P ) sein, der die stochastisch unabhängige Durchführung von einzelnen Zufallsexperimenten beschreibt,
die durch Wahrscheinlichkeitsräume (Ω1 , A1 , P1 ), (Ω2 , A2 , P2 ), . . ., (Ωn , An , Pn ) repräsentiert werden. Aus dieser Formulierung ergeben sich die folgenden Anforderungen
an die Größen Ω, A und P :
Ergebnismenge: Die Ergebnisse ω ∈ Ω sind einfach Auflistungen der Ergebnisse der
Einzelexperimente.
Ω = {ω = (ω1 , ω2 , . . . , ωn ) ; ωi ∈ Ωi }
Eine Menge Ω mit dieser Struktur bezeichnet man auch als das cartesische Produkt
der Mengen Ωi und schreibt dafür
Ω = Ω1 × Ω2 × · · · × Ωn
Ereignisse: In der Ereignisalgebra sollen auf jeden Fall die Ereignisse der Form Beim
”
k-ten Experiment tritt Ak ∈ Ak ein.“ enthalten sein. Diese werden in Ω durch die
Mengen
Z(Ak ) = {ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω ; ωk ∈ Ak }
(5.37)
33
repräsentiert. Als σ-Algebra A wählt man daher die kleinste σ-Algebra auf Ω, die alle
diese Mengen enthält. Sie heißt die Produkt-σ-Algebra der Ak und wird mit
A = A1 ⊗ A2 ⊗ · · · ⊗ An
bezeichnet. Insbesondere enthält sie die Ereignisse
Z(A1 ) ∩ Z(A2 ) ∩ . . . ∩ Z(An ) = A1 × A2 × · · · × An
(5.38)
d.h. die cartesischen Produkte von Ereignissen aus den Einzelexperimenten.
Wahrscheinlichkeit: Die Wahrscheinlichkeitsverteilung P eines Produktexperiments
muss zwei Bedingungen erfüllen:
1. Die Wahrscheinlichkeitsgesetze der Einzelexperimente müssen erhalten bleiben,
d.h.
P (Z(Ak )) = Pk (Ak )
(5.39)
für alle Ereignisse Ak ∈ Ak und alle k.
2. Für beliebige Ak ∈ Ak müssen die Mengen Z(A1 ), Z(A2 ), . . . Z(An ) global
stochastisch unabhängig sein. Insbesondere muß also gelten
P (Z(A1 ) ∩ Z(A2 ) ∩ . . . ∩ Z(An ))
= P (Z(A1 )) P (Z(A2 )) · · · P (Z(An ))
(5.40)
Die Formeln (5.39) und (5.40) kann man zu
P (A1 × A2 × · · · × An ) = P1 (A1 )P2 (A2 ) · · · Pn (An )
(5.41)
zusammenfassen.
Was die Existenz einer solchen Wahrscheinlichkeitsverteilung betrifft, so zitieren wir
— wieder ohne Beweis — den
Satz 5.3 Es gibt genau eine Wahrscheinlichkeitsverteilung P auf A mit den beiden
obigen Eigenschaften. Diese heißt die Produktwahrscheinlichkeit der Pk und wird
mit P = P1 ⊗ P2 ⊗ · · · ⊗ Pn bezeichnet.
Der Wahrscheinlichkeitsraum (Ω, A, P ) selbst heißt der Produktraum der (Ωk , Ak , Pk ).
Handelt es sich bei dem Produktexperiment um die n-fache Wiederholung ein und
desselben Zufallsexperiments, d.h. ist
(Ωi , Ai , Pi ) = (Ω0 , A0 , P0 )
für alle i = 1, . . . , n, so spricht man von einer Versuchsreihe der Länge n mit dem
Experiment (Ω0 , A0 , P0 ).
Ist schließlich (Ω0 , A0 , P0 ) ein Bernoulli-Experiment, d.h. Ω0 = {0, 1}, P0 {1} = p,
P0 {0} = q = 1 − p, so nennt man die Versuchsreihe eine Bernoulli-Versuchsreihe
der Länge n mit Erfolgswahrscheinlichkeit p.
34
In diesem Fall ist Ω = {δ = (δ1 , δ2 , . . . , δn ) ; δi ∈ {0, 1}} die Menge der Binärvektoren
der Länge n und wegen
{(δ1 , δ2 , . . . , δn )} = {δ1 } × {δ2 } × · · · × {δn }
ist die Produktwahrscheinlichkeit eines Elementarereignisses gegeben durch
P {(δ1 , δ2 , . . . , δn )} = P0 {δ1 }P0 {δ2 } · · · P0 {δn }
= pδ1 + δ2 + · · · δn q n − (δ1 + δ2 + · · · δn )
Bezeichnet man die Summe der Komponenten eines Binärvektors δ mit |δ|, so lässt
sich die letzte Formel kurz als
P {δ} = p|δ| q n−|δ|
(5.42)
schreiben.
Die Summe der Erfolge. Mit dem Konzept einer Bernoulli-Versuchsreihe kann man
auch z.B. die Frage beantworten, mit welcher Wahrscheinlichkeit bei einem etwas geneigten Galton-Brett die Kugel in Fächern k = 0, 1, 2, . . . , n landet. Wir fassen dieses
Galton-Brett als eine Bernoulli-Versuchsreihe mit Erfolgswahrscheinlichkeit p auf, wobei eine 1 einem Sprung nach rechts entspricht. Das Ereignis Ak , daß die Kugel in
Fach k landet, entspricht allen Wegen, die k-mal nach rechts führen bzw. der Menge
aller Binärvektoren, die genau k Einsen enthalten: Ak = {δ ; |δ| = k}. Bei allgemeinen
Bernoulli-Versuchsreihen nennt man die Anzahl der Einsen die Summe der Erfolge
und Ak ist das
PEreignis, dass man k Erfolge erzielt.
Wegen Ak = δ∈Ak {δ} ist
P
P
p|δ| q n−|δ|
P {δ} =
P (Ak ) =
Pδ∈Ak k n−k δ,|δ|=k
n k n−k
= Ck p q
=
δ,|δ|=k p q
wobei Ckn die Anzahl der Elemente der Menge {δ ; |δ| = k} ist, die uns bereits aus
dem Kapitel über Laplace-Experimente (Seite 19) bekannt ist:
n k n−k
P (Ak ) =
p q
(5.43)
k
35
6 Diskrete Wahrscheinlichkeitsräume
In diesem und dem folgenden Kapitel befassen wir uns mit der Frage, wie man Wahrscheinlichkeitsverteilungen formelmäßig beschreiben kann, bzw. welche minimale Menge an Information man über eine Wahrscheinlichkeitsverteilung besitzen muss, um
wenigstens im Prinzip die Wahrscheinlichkeit jedes beliebigen Ereignisses berechnen
zu können. Dieses Kapitel befasst sich dabei mit endlichen oder abzählbar unendlichen Ergebnismengen, ab Kapitel 9 werden wir uns mit der Ergebnismenge Ω = Rn
beschäftigen.
6.1 Diskrete Wahrscheinlichkeitsräume
Ist die Ergebnismenge Ω abzählbar, dann auch jede Teilmenge A von Ω. Nummeriert
man die Elemente von A in irgendeiner Weise durch, so erhält man die Darstellung
A = {ω1 , ω2 , . . . , ωn , . . .}
= P
{ω1 } + {ω2 } + · · · + {ωn } + · · ·
=
k {ωk }
Da es bei der Vereinigungsbildung nicht auf die Reihenfolge ankommt, in der die Mengen {ωk } zusammengefasst werden, benutzen wir die Elemente ω als Summationsindex
und schreiben
X
{ω}
(6.44)
A=
ω∈A
Sind alle einelementigen Mengen {ω} Elemente der σ-Algebra A, so folgt aus (6.44)
einmal, dass jede Teilmenge von Ω aus A oder A = 2Ω ist und zum anderen kann man
die Wahrscheinlichkeit des Ereignisses A nach der Formel
X
X
P {ω}
(6.45)
P {ωk } =
P (A) =
ω∈A
k
berechnen. Da die Summanden alle nichtnegativ sind, kommt es auch hier nicht auf
die Summationsreihenfolge an.
Wie man aus (6.45) ersieht, genügt die Kenntnis der Wahrscheinlichkeiten f (ω) =
P {ω} der Elementarereignisse, um die Wahrscheinlichkeit jedes beliebigen Ereignisses
berechnen zu können.
Definition 6.1 Ein Wahrscheinlichkeitsraum (Ω, A, P ) mit einer abzählbaren Ergebnismenge Ω und der Ereignisalgebra A = 2Ω heißt ein diskreter Wahrscheinlichkeitsraum. Die Wahrscheinlichkeitsverteilung P heißt in diesem Fall eine diskrete
Wahrscheinlichkeitsverteilung und die Funktion f : Ω −→ R mit f (ω) = P {ω}
heißt die Wahrscheinlichkeitsfunktion von P .
P
Mit P {ω} ≥ 0 und P (Ω) = ω∈Ω P {ω} = 1 hat man bereits die beiden Eigenschaften,
die eine Wahrscheinlichkeitsfunktion vollständig charakterisieren:
36
Satz 6.1 Jede Funktion f : Ω −→ R P
auf einer abzählbaren Menge Ω mit den Eigenschaften f (ω) ≥ 0 für alle ω ∈ Ω und ω∈Ω f (ω) = 1 legt durch
P (A) =
X
f (ω)
ω∈A
eine eindeutig bestimmte diskrete Wahrscheinlichkeitsverteilung P auf 2Ω fest.
P
Dabei wird ω∈∅ f (ω) = 0 definiert. Zum Beweis dieser Aussage sind lediglich die vier
Axiome nachzuvollziehen.
6.2 Spezielle diskrete Wahrscheinlichkeitsverteilungen
Mit dem Satz 6.1 ist aus theoretischer Sicht das Problem der Charakterisierung diskreter Wahrscheinlichkeitsverteilungen vollständig gelöst. Aus praktischer Sicht ergibt
sich die Frage, wie man aus Beschreibungen von Zufallsexperimenten zu Formeln für
die entsprechenden Wahrscheinlichkeitsfunktionen kommt.
Wir betrachten in diesem Abschnitt einige stochastische Standardprobleme“ und
”
führen vor, wie man aus bestimmten Eigenschaften des Zufallsmechanismus’ Wahrscheinlichkeitsfunktionen herleiten kann. Die ersten drei der folgenden Typen von
Zufallsexperimenten wurden in den vorhergehenden Abschnitten bereits ausführlich
behandelt. Wir stellen sie der Vollständigkeit halber hier noch einmal kurz dar.
6.2.1 Die Laplace-Verteilung
Ein Zufallsexperiment mit einer endlichen Ergebnismenge Ω, das dadurch charakterisiert ist, dass alle Ergebnisse die gleiche Chance des Auftretens besitzen, wird durch
die Wahrscheinlichkeitsfunktion
f (ω) =
1
|Ω|
(6.46)
beschrieben. Die zugehörige Wahrscheinlichkeitsverteilung heißt die Laplace-Verteilung
auf der Menge Ω und wird im folgenden kurz als L(Ω)-Verteilung bezeichnet.
6.2.2 Die hypergeometrische Verteilung
Für natürliche Zahlen 1 ≤ K < N und 1 ≤ n ≤ N ist
K N −K
f (k) =
k
n−k
N
n
(6.47)
eine Wahrscheinlichkeitsfunktion auf der Ergebnismenge Ω = {0, 1, . . . , n}. Dies ergibt
sich aus der Tatsache, dass die Ereignisse
Bk : k von n gezogenen Kugeln sind schwarz“
”
37
(s. Seite 23) beim Ziehen ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge
aus einer Urne mit K schwarzen und N − K weißen Kugeln eine Partition bilden:
und daher
n
X
bN
B0 + B1 + . . . + Bn = Ω
n
n
X
f (k) =
k=0
k=0
bN
P (Bk ) = P Ω
n =1
Die Wahrscheinlichkeitsverteilung mit dieser Wahrscheinlichkeitsfunktion heißt die hypergeometrische Verteilung mit Parametern N, K und n oder kurz H(N, K, n)Verteilung. Sie beschreibt das Experiment des Ziehens von Kugeln, wobei die Ergebnismenge aus den möglichen Anzahlen von gezogenen schwarzen Kugeln besteht.
6.2.3 Die Binomialverteilung
Sind p und q reelle Zahlen mit 0 < p < 1 und q = 1 − p, so ist
n k n−k
f (k) =
p q
k
(6.48)
eine Wahrscheinlichkeitsfunktion auf Ω = {0, 1, . . . , n}, denn nach der Binomialformel
ist
n n
X
X
n k n−k
p q
= (p + q)n = 1n = 1
f (k) =
k
k=0
k=0
Die zugehörige Verteilung heißt die Binomialverteilung mit Parametern n und p
oder kurz B(n, p)-Verteilung.
Wie im Abschnitt 5.3 geschildert, stellt sie das Wahrscheinlichkeitsgesetz für die Summe der Erfolge bei einer Bernoulli-Versuchsreihe dar.
6.2.4 Die geometrische Verteilung
Die Funktion
f (n) = p q n−1
(6.49)
mit 0 < p < 1 und q = 1 − p ist eine Wahrscheinlichkeitsfunktion auf der Menge
Ω = N = {1, 2, . . .} der natürlichen Zahlen, denn
∞
X
n=1
p q n−1 = p
∞
X
m=0
qm = p ·
p
1
= =1
1−q
p
P∞
Da diese Funktion mit der geometrischen Reihe m=0 q m zusammenhängt, heißt die
zugehörige Verteilung die geometrische Verteilung mit Parameter p oder bei uns
kurz die G(p)-Verteilung.
Die geometrische Verteilung findet Anwendung bei der Analyse von Wartezeiten bis
zum Eintreffen eines bestimmten Ereignisses bzw. von Lebensdauern von Geräten (d.h.
der Wartezeit bis zum Ausfall).
38
Unter welchen Voraussetzungen diese Verteilung als Lebensdauerverteilung benutzt
werden kann, lässt sich am einfachsten an einem gänzlich anderen Problem explizieren,
nämlich der Anzahl der Würfe mit einem regulären Würfel bis zum ersten Auftreten
einer 6.
Auch wenn man es etwa beim Mensch ärgere dich nicht“-Spiel manchmal gern anders
”
hätte, muss man davon ausgehen, dass ein Würfel kein Gedächtnis hat. Auch nach m
ergebnislosen Würfen ändert sich am Wahrscheinlichkeitsgesetz für die nächsten Würfe
nichts. D.h. die Wahrscheinlichkeit, dass man mehr als n Würfe bis zur 6 benötigt, ist
die gleiche, ob man bereits m ergebnislose Würfe hinter sich hat oder gerade mit dem
Würfeln beginnt.
Die Ereignisse
An :
mehr als n Würfe werden benötigt“
”
werden in der Ergebnismenge Ω = {1, 2, . . .} durch die Mengen
An = {n + 1, n + 2, . . .}
mit n = 0, 1, 2, . . . repräsentiert und die Eigenschaft der Gedächtnislosigkeit des
Würfels kann man durch die Formel
P (Am+n |Am ) = P (An )
für alle m, n = 0, 1, 2, . . . ausdrücken.
Nach Definition der bedingten Wahrscheinlichkeit ist diese Gleichung äquivalent zu
P (Am+n ∩ An ) = P (Am )P (An ).
Da aber Am+n ⊂ An , ist Am+n ∩ An = Am+n , und man erhält
P (Am+n ) = P (Am )P (An ).
Mit qm := P (Am ) und q := q1 erhält man aus diesen Gleichungen
q2
= q1+1 = q1 q1 = q 2
q3
..
.
= q2+1 = q2 q1 = q 3
qm
..
.
= q(m−1)+1 = qm−1 q1 = q m
Wegen Am−1 = {m} + Am ist P (Am−1 ) = P {m} + P (Am ) und man erhält als Wahrscheinlichkeitsfunktion für die Verteilung P
f (m) = P {m} = q m−1 − q m = (1 − q)q m−1
also die der geometrischen Verteilung mit p = 1 − q.
39
Bei Geräten lässt sich die Eigenschaft der Gedächtnislosigkeit dahingehend interpretieren, dass sie von ihrer Bauart her über einen langen Zeitraum keinen Verschleißerscheinungen unterworfen sind (Ermüdungsfreiheit) und Ausfälle bei einzelnen Geräten
einer Baureihe dadurch zustande kommen, dass sie zufällige Produktions- oder Materialfehler enthalten, die sich nach nicht vorhersehbarer Zeit auswirken.
Der für den Parameter p zu verwendende numerische Wert ergibt sich aus der Beziehung p = f (1) : p ist die Wahrscheinlichkeit, dass das beobachtete Ereignis gleich
beim ersten Versuch eintritt; beim Werfen eines Würfels also gleich beim ersten Wurf
die Augenzahl 6 erscheint. Bei einem regulären Würfel ist daher p = 16 .
6.2.5 Die Poisson-Verteilung
Die Funktion
µn
(6.50)
n!
auf Ω = N0 = {0, 1, 2, . . .} mit einer positiven reellen Zahl µ ist eine Wahrscheinlichkeitsfunktion, da
∞
X
µn
= eµ
n!
n=0
P∞
die Taylorreihe der Exponentialfunktion und damit n=0 f (n) = e−µ eµ = 1 ist.
Die zugehörige Verteilung heißt die Poisson-Verteilung mit Parameter µ oder kurz
die P(µ)-Verteilung.
Sie findet dann Anwendung, wenn die Häufigkeit des Eintretens eines Ereignisses
gezählt wird, das zu zufälligen Zeitpunkten eintritt. Beispiele für solche Situationen
sind etwa das Eintreffen von Telefonanrufen bei einer Vermittlungsstelle, das Auftreffen von radioaktiven Partikeln auf einem Geigerzähler oder die Ankunft eines Kunden
an einem Bedienungsschalter.
Als allgemeines Modell denken wir uns ein Zählgerät, das zum Zeitpunkt t = 0 auf
Null steht und zu zufälligen Zeitpunkten angestoßen wird, wobei der Zähler jeweils um
1 erhöht wird.
Besteht das Experiment in der Beobachtung des Zählerstandsverlaufs über das Zeitintervall [ 0, ∞ ), so besteht die Ergebnismenge Ω aus allen möglichen Verläufen, d.h.
aus allen Zeitfunktionen ω : [ 0, ∞ ) −→ N0 mit ω(0) = 0, die stückweise konstant
sind und an Sprungstellen jeweils um 1 nach oben springen.
f (n) = e−µ
6
...
ω(t)
-t
40
Zur Festlegung einer Ereignisalgebra A betrachten wir die Funktionen
Nt : Ω −→ N0 ,
Nt (ω) = ω(t)
die für jeden Verlauf ω den Zählerstand zum Zeitpunkt t angeben und die Mengen
(Nt = k) = {ω ∈ Ω ; Nt (ω) = k}
mit k = 0, 1, 2, . . . , die das Ereignis beschreiben, dass zum Zeitpunkt t der Zählerstand
gerade k beträgt.
Da zu Beginn der Beobachtung der Zählerstand Null sein soll, ist N0 (ω) = 0 für alle
ω, woraus folgt, dass (N0 = 0) = Ω und (N0 = k) = ∅ für alle k ≥ 1 .
Neben den absoluten Zählerständen Nt benötigen wir zum Rechnen auch noch die
Zählerstandsdifferenzen
N(s,t] = Nt − Ns
für 0 ≤ s ≤ t, wobei wegen N0 = 0
N(0,t] = Nt
Die Ereignisalgebra legen wir nicht in allen Einzelheiten fest, sondern nehmen lediglich
an, dass alle Mengen der Form (Nt = k) und (N(s,t] = k) in ihr enthalten sind.
Außerdem gehen wir davon aus, dass wir auf A eine Wahrscheinlichkeit P vorgegeben
haben, die sich durch die drei folgenden Eigenschaften auszeichnet:
• Stationariät
P (N(s,s+t] = k) = P (N(0,0+t] = k)
= P (Nt = k) = pk (t)
für alle s ≥ 0, t ≥ 0 und alle k ∈ N0 .
• Nachwirkungsfreiheit
Für alle s ≥ 0, t ≥ 0 und alle k, n ∈ N0 sind die Ereignisse (N(0,s] = k) und
(N(s,s+t] = n) stochastisch unabhängig.
• Ordinarität
Für alle s ≥ 0 ist
P (N(s,s+t] > 1) = o(t)
Mit dem Symbol o(t) kennzeichnet man eine Funktion der Variable t, die schneller
”
als t gegen Null konvergiert“, d.h.
lim
t→0, t>0
o(t)
=0
t
Die Eigenschaft der Ordinarität besagt daher in einer etwas umständlichen Form, dass
die Wahrscheinlichkeit für das mehrfache Springen des Zählers zu einem Zeitpunkt
gleich Null ist.
41
Was kann man unter diesen Annahmen über die Wahrscheinlichkeiten
pk (t) = P (Nt = k)
für die Zählerstände zum Zeitpunkt t bzw. die Anzahl der Sprünge im Zeitintervall
[ 0, t ] aussagen?
1. Im Intervall [ 0, s+t ] mit s, t ≥ 0 erfolgt genau dann kein Zählersprung, wenn in den
beiden Teilintervallen ( 0, s ] und ( s, s + t ] keiner stattfindet. Aus den Eigenschaften
der Stationarität und der Nachwirkungsfreiheit ergibt sich daher
P (Ns+t = 0) = P [(N(0,s] = 0) ∩ (N(s,s+t] = 0)]
= P (N(0,s] = 0) · P (N(s,s+t] = 0)
= P (Ns = 0) P (Nt = 0)
oder
p0 (s + t) = p0 (s) · p0 (t)
Bekanntlich ist eine Funktion p0 (t) mit dieser Eigenschaft von der Form p0 (t) = xt ,
wobei wegen 0 < p0 (t) < 1 auch 0 < x < 1 oder xt = e−µt mit einer positiven reellen
Zahl µ gilt. Also:
p0 (t) = e−µt
Diese Funktion besitzt die Taylorreihe
p0 (t) = 1 − µt +
(µt)3
(µt)2
−
± ...
2!
3!
wobei der Term in runden Klammern vom Typ o(t) ist. Wenn man sich nur für das
Verhalten von p0 (t) für t → 0 interessiert, kann man auch
p0 (t) = 1 − µt + o(t)
schreiben.
2. Aus (Nt = 0) + (Nt = 1) + (Nt > 1) = Ω folgt
p1 (t) = 1 − p0 (t) − P (Nt > 1)
und mit der Eigenschaft der Ordinarität ergibt sich
p1 (t) = 1 − 1 − µt + o(t) − o(t)
und unter Zusammenfassung aller Terme vom Typ o(t) zu einem:
p1 (t) = µt + o(t)
42
3. Für k ≥ 1 zerlegen wir das Ereignis (Ns+t = k) nach den möglichen Kombinationen
für Zählersprünge in den Teilintervallen ( 0, s ] und ( s, s + t ].
(Ns+t = k) =
=
(N(0,s] = k) ∩ (N(s,s+t] = 0)
+ (N(0,s] = k − 1) ∩ (N(s,s+t] = 1)
+ (N(0,s] = k − 2) ∩ (N(s,s+t] = 2)
..
.
+ (N(0,s] = 0) ∩ (N(s,s+t] = k)
(N(0,s] = k) ∩ (N(s,s+t] = 0)
+ (N(0,s] = k − 1) ∩ (N(s,s+t] = 1)
+ Bs,t
Die Menge Bs,t ist eine Teilmenge von (N(s,s+t] > 1), weshalb für die Wahrscheinlichkeiten P (Bs,t ) ≤ P (N(s,s+t] > 1) und wegen der Eigenschaft der Ordinarität P (Bs,t ) =
o(t) gilt.
Wie unter Punkt 1 ergibt sich daraus
pk (s + t) = pk (s) p0 (t) + pk−1 (s) p1 (t) + o(t)
= pk (s) 1 − µt + o(t)
+ pk−1 (s) µt + o(t) + o(t)
und unter Zusammenfassung aller o(t)-Terme
pk (s + t) − pk (s) = µt pk−1 (s) − pk (s) + o(t)
Division beider Seiten durch t ergibt
o(t)
pk (s + t) − pk (s)
= µ pk−1 (s) − pk (s) +
t
t
Für t → 0 existiert der Limes auf der rechten Seite und damit der des Differenzenquotienten auf der Linken, so dass man mit t → 0 die Differentialgleichung
p0k (s) = µpk−1 (s) − µpk (s)
erhält. Die Anfangsbedingungen für die Funktionen pk (s) sind dabei durch
pk (0) = P (N0 = k) = P (∅) = 0
für k = 1, 2, 3, . . . gegeben.
4. Mit dem Ansatz
pk (s) = e−µs qk (s)
wird (6.51) zu
−µe−µs qk (s) + e−µs qk0 (s) = µe−µs qk−1 (s) − µe−µs qk (s)
43
(6.51)
was sich mit Division durch e−µs und Streichen der gleichen Terme auf beiden Seiten
der Gleichung zu
qk0 (s) = µ qk−1 (s)
für k = 1, 2, 3, . . . vereinfacht. Zusammen mit q0 (s) = 1 und qk (0) = 0 für alle k ≥ 1
ergibt sich die Lösung
(µs)k
qk (s) =
k!
oder
(µt)k
pk (t) = e−µt
k!
Die Wahrscheinlichkeiten pk (t) = P (Nt = k) für die Anzahl der Zählersprünge im
Zeitintervall [ 0, t ] sind also durch die Poisson-Verteilung mit dem Parameter µt
gegeben.
44
7 Die Momente diskreter Verteilungen
Wie aus der Darstellung der wichtigsten diskreten Wahrscheinlichkeitsverteilungen
im vorhergehenden Kapitel ersichtlich ist, besteht die Ergebnismenge in den meisten
Fällen aus einer abzählbaren Menge von Zahlen, weshalb es für diese Situation auch
eine Kurzbezeichnung gibt. Man spricht kurz von einer diskreten Verteilung, wenn
es sich um eine diskrete Wahrscheinlichkeitsverteilung handelt, deren Ergebnismenge
eine Teilmenge X ⊂ R der rellen Zahlen ist.
Für diskrete Verteilungen gibt es einige Kenngrößen, die die Gestalt der Verteilung grob
charakterisieren. Es sind dies der Mittelwert und die Varianz sowie die absoluten
und zentralen Momente.
7.1 Der Mittelwert einer diskreten Verteilung
Wenn man vor die Aufgabe gestellt wird, vor dem Ablauf eines Zufallsexperiments eine
Prognose über den Ausgang abzugeben, so kann man das als das mathematische Approximationsproblem ansehen, einen Wahrscheinlichkeitsraum (X , 2X , P ) durch einen
Wahrscheinlichkeitsraum der Form ({x̂}, {∅, {x̂}}, P̂ ) anzunähern, bei dem das einzige
Ergebnis x̂ die Wahrscheinlichkeit P̂ {x̂} = 1 hat.
Für den Fall, dass X = {x1 , x2 , . . .} eine abzählbare Menge von reellen Zahlen ist,
gibt zu diesem Problem ein physikalisches Analogon. Wir fassen X als einen starren
Körper auf, der aus einem unendlich langen masselosen Stab besteht, auf dem an den
Koordinaten
xk Massenpunkte mit den Massen P {xk } sitzen. Die Gesamtmasse ist
P
P
{x
}
=
P (X ) = 1. Ein solcher Körper wird bekanntlich näherungsweise durch
k
k
einen Massenpunkt mit der Masse 1 im Schwerpunkt des Körpers ersetzt. Die Definition des Schwerpunkts ist
P
xk P {xk } X
=
x= k
xk P {xk }
P (X )
k
Da wir es im allgemeinen mit abzählbar vielen xk zu tun haben, muss sicher gestellt
sein, dass diese Summe auch unbedingt konvergiert. Daher ergibt sich für den Prognosewert einer diskreten Verteilung die
Definition 7.1 P sei eine diskrete Verteilung auf einer abzählbaren
PTeilmenge X ⊂ R
der reellen Zahlen mit der Wahrscheinlichkeitsfunktion f (x). Falls x∈X |x|f (x) < ∞,
heißt
X
xf (x)
(7.52)
m1 = m1 (P ) =
x∈X
der Mittelwert der Verteilung P .
Falls die Summe nicht absolut konvergiert und damit der Wert eventuell von der Summationsreihenfolge abhängig ist, sagt man, dass die Verteilung P keinen Mittelwert
besitzt.
45
7.1.1 Statistische Interpretation des Mittelwerts
Aus dem empirischen Gesetz der großen Zahlen ergibt sich die Interpretation des Mittelwerts als Richtwert für das arithmetische Mittel aller Ergebnisse bei der Durchführung
einer längeren Versuchsreihe.
Wird ein Zufallsexperiment mit der Ergebnismenge X insgesamt N -mal durchgeführt
und sind y1 , y2 , . . . , yN die dabei zustande gekommenen Ergebnisse, so lässt sich die
Summe dieser Ergebnisse in der Form
N
X
X
yi =
i=1
x∈X
nx · x
schreiben, wobei nx die Anzahl der yi mit yi = x ist. Das arithmetische Mittel dieser
Messwerte ist daher
y=
N
X nx
X
1 X
yi =
x=
RN {x}x
N i=1
N
x∈X
x∈X
denn nx /N ist die relative Häufigkeit des Auftretens des Elementarereignisses {x}.
Ersetzt man in dieser Formel die relative Häufigkeit gemäß dem empirischen Gesetz der
großen Zahlen durch die Wahrscheinlichkeit P {x} = f (x), so ist man bei der Definition
des Mittelwerts angelangt.
7.1.2 Beispiele
1. Der Mittelwert der Poissonverteilung
m1
=
∞
X
ne−µ
n=0
= µe−µ
∞
X
µn
µn
ne−µ
=
n!
n!
n=1
∞
∞
X
1 X µm
1
µn−1
=µ µ
= µ µ eµ = µ
(n
−
1)!
e
m!
e
n=1
m=0
2. Der Mittelwert der geometrischen Verteilung.
m1
=
∞
X
n=1
npq n−1 = p
∞
∞
X
X
d n
d n
q =p
q
dq
dq
n=0
n=1
∞
d X n
1
1
1
d 1
= p
=p
=p 2 =
q =p
dq n=0
dq 1 − q
(1 − q)2
p
p
7.2 Die absoluten Momente einer diskreten Verteilung
In Verallgemeinerung der Formel für den Mittelwert legen wir fest:
46
Definition 7.2 Ist für k ∈ {1, 2, 3, . . .} die Summe
mk = mk (P ) =
X
P
x∈X
|x|k f (x) < ∞, so heißt
xk f (x)
(7.53)
x∈X
das k-te (absolute) Moment der Verteilung P Andernfalls sagt man, dass die Verteilung P kein k-tes Moment besitzt.
7.2.1 Die momenterzeugende Funktion
Falls die Ergebnismenge X ganz im Bereich der nichtnegativen reellen Zahlen
liegt, ist für negative Argumente t < 0 die Summe
X
M (t) =
etx f (x)
(7.54)
x∈X
konvergent. Die Funktion M (t) heißt die momenterzeugende Funktion der Verteilung P . Es ist stets M (0) = 1 und für t < 0 ist diese Funktion beliebig oft differenzierbar, wobei die Ableitungen summandenweise gebildet werden dürfen:
M 0 (t)
=
X ∂
X
d
M (t) =
etx f (x) =
xetx f (x)
dt
∂t
x∈X
M 00 (t)
=
x∈X
.
.
M (k) (t)
x∈X
X ∂
X
d
d2
M (t) = M 0 (t) =
xetx f (x) =
x2 etx f (x)
2
dt
dt
∂t
=
x∈X
X ∂k
X
dk
M (t) =
etx f (x) =
xk etx f (x)
k
k
dt
∂t
x∈X
x∈X
Außerdem darf der Limes für t → 0 mit der Summe vertauscht werden. Daher ist
X
X
xk f (x) = mk (P )
lim xk etx f (x) =
M (k) (0) := lim M (k) (t) =
t→0
x∈X
t→0
x∈X
Falls das k-te Moment nicht existiert, erhält man — da alle Summanden nichtnegativ
sind — für M (k) (0) den Wert ∞.
Beispiele: Mit etn = (et )n für natürliche Zahlen n erhält man als momenterzeugende
Funktion der Poissonverteilung
M (t) =
∞
X
n=0
(et )n e−µ
∞
X
t
t
µn
(et µ)n
= e−µ
= e−µ ee µ = eµ(e −1)
n!
n!
n=0
mit den Ableitungen M 0 (t) = M (t)µet und — mit der Produktregel für die Differentiation — M 00 (t) = M 0 (t)µet + M (t)µet , woraus m1 = µ und m2 = µ2 + µ folgt.
47
Die geometrische Verteilung besitzt die momenterzeugende Funktion
M (t) =
∞
X
(et )n pq n−1 = pet
∞
X
(qet )n−1 = pet
(qet )m =
m=0
n=1
n=1
∞
X
pet
1 − qet
Daraus ergeben sich die Momente m1 = 1/p und m2 = (1 + q)/p2 .
7.3 Die Varianz einer diskreten Verteilung
Als Maß für den Schätzfehler bei der Prognose kann man die mittlere quadratische
Abweichung der Ergebnisse vom Mittelwert oder — in der physikalischen Analogie —
das Trägheitsmoment der Wahrscheinlichkeitsmasse bezüglich einer Achse durch den
Schwerpunkt heranziehen.
Definition 7.3 Ist P eine diskrete Verteilung mit der Wahrscheinlichkeitsfunktion f
und dem Mittelwert m1 (P ), so heißt die Größe
X
m̂2 = m̂2 (P ) =
(x − m1 (P ))2 f (x)
(7.55)
x∈X
die Varianz der Verteilung P .
Divergiert die Summe (7.55), so spricht man von einer unendlichen Varianz.
Bei endlichen Varianzen kann man (7.55) etwas umformen:
m̂2
=
X
x∈X
=
X
x∈X
(x2 − 2m1 x + m21 )f (x)
x2 f (x) − 2m1
= m2 − 2m1 m1 +
= m2 − m21
X
xf (x) + m21
x∈X
m21
X
f (x)
x∈X
Die Formel
m̂2 = m2 − m21
(7.56)
nennen wir wie in der Physik den Steinerschen Satz. Aus ihm ergibt sich die Varianz der Poissonverteilung zu m̂2 = (µ2 + µ) − (µ)2 = µ und die Varianz der
geometrischen Verteilung zu
2
1+q
1
q
m̂2 =
−
= 2
2
p
p
p
Aus der Interpretation der Varianz als Maß dafür, wie sehr die Wahrscheinlich”
keitsmasse“ um den Schwerpunkt verstreut ist, muss folgen, dass die Wahrscheinlichkeit der Menge
Bε = {x ∈ X ; |x − m1 (P )| > ε}
(7.57)
mit einer positiven Zahl ε > 0 umso kleiner ist, je kleiner die Varianz m̂2 (P ) ist. Dies
bestätigt die Ungleichung von Tschebyscheff :
48
Satz 7.1
P (Bε ) ≤
m̂2 (P )
ε2
(7.58)
Beweis
1. Da alle Summanden in (7.55) nichtnegativ sind, wird die Summe kleiner, wenn
einige der Summanden weggelassen werden:
X
(x − m1 (P ))2 f (x)
m̂2 (P ) ≥
x∈Bε
2. Nach Definition (7.57) gilt für x ∈ Bε , dass (x − m1 (P ))2 > ε2 und somit
X
m̂2 (P ) ≥ ε2
f (x) = ε2 P (Bε )
x∈Bε
Die Ungleichung (7.58) erhält man daraus durch Division beider Seiten mit ε2 .
♦
7.4 Die zentralen Momente einer diskreten Verteilung
In Verallgemeinerung der Formel (7.55) für die Varianz nennen wir für k = 2, 3, . . . die
Größen
X
m̂k (P ) =
(x − m1 (P ))k f (x)
(7.59)
x∈X
soweit sie existieren, die k-ten zentralen Momente der Verteilung P .
49
8 Zufallsvariable mit diskreter Verteilung
Der Begriff der Zufallsvariablen ist neben den Begriffen Wahrscheinlichkeit und
Ereignis der am häufigsten verwendete in der Wahrscheinlichkeitsrechnung. Wir führen das Konzept der Zufallsvariablen in mehreren Schritten ein, zunächst einmal im
Zusammenhang mit diskreten Verteilungen.
Eine Zufallsvariable kann man sich als ein Messgerät veranschaulichen, das an ein Zufallsexperiment angeschlossen ist und eine vom Ergebnis des Experiments abhängige
Zahl anzeigt. Als Beispiel hatten wir bereits die Anzahl Nt der Anrufe bei einer Telefonvermittlungsstelle im Zeitintervall [0, t] oder die Anzahl der schwarzen Kugeln beim
zufälligen Ziehen von Kugeln aus einer Urne.
Verallgemeinert hat man es daher mit einer Funktion X : Ω −→ X auf der Ergebnismenge eines Wahrscheinlichkeitsraums (Ω, A, P ) mit Werten in einer Menge X zu
tun. Wir betrachten hier zunächst den Fall, dass X eine abzählbare Menge von reellen
Zahlen ist.
In diesem Zusammenhang stellt sich meist das Problem, die Wahrscheinlichkeit von
Ereignissen wie Es kommen genau 10 Anrufe an“ oder Die Anzahl der gezogenen
”
”
schwarzen Kugeln ist mindestens 2“ zu berechnen. Allgemein bezeichnen wir mit (X =
y) das Ereignis, dass die Funktion X bei Durchführung des Experiments den Wert y
annimmt, und mit (X ∈ A) dasjenige, dass der Wert der Funktion X in der vorgebenen
Menge A ⊂ X liegt. Da Ereignisse durch die Mengen von Ergebnissen charakterisiert
werden, auf die die entsprechende Aussage zutrifft, ist offensichtlich
(X = y) = {ω ∈ Ω ; X(ω) = y}
(X ∈ A) = {ω ∈ Ω ; X(ω) ∈ A}
(8.60)
(8.61)
Die Menge (8.60) kann man umständlicher auch als (X ∈ {y}), d.h. in der Form (8.61)
schreiben.
Damit man von der Wahrscheinlichkeit dieser Ereignisse sprechen kann, müssen die
zugehörigen Mengen im Definitionsbereich der Wahrscheinlichkeit P liegen. Dies hängt
von der Gestalt der Funktion X ab:
Definition 8.1 Eine Funktion X : Ω −→ X auf der Ergebnismenge eines Wahrscheinlichkeitsraums (Ω, A, P ) mit Werten in einer abzählbaren Teilmenge X der reellen Zahlen heißt eine diskrete Zufallsvariable, wenn (X ∈ A) ∈ A für alle Teilmengen A ∈ X gilt.
Offensichtlich ist
(X ∈ A) =
X
(X = y)
y∈A
Um nachzuprüfen, ob eine Funktion X eine Zufallsvariable gemäß der Definition 8.1
ist, muss also nur untersucht werden, ob (X = y) ∈ A für alle y ∈ X gilt.
50
8.1 Die Verteilung einer diskreten Zufallsvariablen
Wenn man das Zufallsexperiment (Ω, A, P ) und das Messgerät X als eine black box
ansieht, aus der zufällige Werte y ∈ X herauskommen, so erhält man ein neues Zufallsexperiment mit der Ergebnismenge X . Die Chance für das Eintreten eines Ereignisses
A ⊂ X wird man sinnvollerweise durch die Zahl
P X (A) = P (X ∈ A)
(8.62)
bewerten.
Ω
X
X
X
P (A)
P(X∈A)
Wie zu erwarten erhält man auf diese Weise eine Wahrscheinlichkeitsverteilung auf
den Teilmengen von X :
Satz 8.1 P X ist eine diskrete Wahrscheinlichkeitsverteilung auf X mit der Wahrscheinlichkeitsfunktion f X (y) = P (X = y).
Beweis:
1. Da P eine Wahrscheinlichkeit ist, gilt 0 ≤ P (X ∈ A) = P X (A) ≤ 1 und aus
(X ∈ X ) = Ω folgt P X (X ) = 1.
2. Sind A und B Teilmengen von X , so kann man anhand der Definition (8.61) leicht
nachvollziehen, dass (X ∈ A∪B) = (X ∈ A)∪(X ∈ B) und dass für disjunkte Mengen
A und B die Mengen (X ∈ A) und (X ∈ B) ebenfalls disjunkt sind. Beides zusammen
liefert
(X ∈ A + B) = (X ∈ A) + (X ∈ B)
und zusammen mit (8.62) das dritte Axiom
P X (A + B) = P X (A) + P X (B)
51
3. Wie in Punkt 2. weist man auch die Gültigkeit des 4. Axioms
X
X
P X(
Ak ) =
P X (Ak )
k
k
nach.
4. P X ist damit eine diskrete Wahrscheinlichkeitsverteilung auf X und besitzt die
Wahrscheinlichkeitsfunktion
f X (y) = P X {y} = P (X = y)
♦
Bezeichnung: Die Wahrscheinlichkeitsverteilung P X heißt die Verteilung der Zufallsvariablen X und f X (y) die Wahrscheinlichkeitsfunktion der Zufallsvariablen X.
Zur formalen Darstellung dieser Situation benutzen wir im folgenden das Schema
X
(Ω, A, P ) −→ (X , 2X , P X )
(8.63)
Eine Formulierung wie . . . X sei eine mit Parameter µ Poisson-verteilte Zufallsvariable . . . ist in diesem Zusammenhang so zu verstehen, dass es einen nicht näher
spezifizierten Wahrscheinlichkeitsraum (Ω, A, P ) und darauf eine ebenfalls nicht weiter konkretisierte Zufallsvariable X gibt, deren Verteilung die Poissonverteilung mit
Parameter µ ist. In dem
obigen Schema sind also nur die Größen X = N0 und
n
P X {n} = f X (n) = e−µ µn! bekannt.
Überspitzt könnte man sagen, dass die obige Formulierung eine etwas ausgeschmückte
Feststellung der Tatsache ist, dass wir ein Zufallsexperiment mit Poissonverteilung
betrachten. Von Bedeutung wird diese Konstruktion erst, wenn man mehrere Zufallsvariablen auf dem gleichen Wahrscheinlichkeitraum betrachtet, von denen jeweils nur
die Verteilung bekannt ist.
8.2 Funktionen von diskreten Zufallsvariablen
Als Beispiel für eine solche Situation nehmen wir die Summe Z(ω) = X(ω) + Y (ω) von
zwei diskreten Zufallsvariablen X : Ω −→ N0 und Y : Ω −→ N0 , von denen nur die
Wahrscheinlichkeitsfunktionen f X und f Y bekannt seien, und möchten die Verteilung
der Zufallsvariablen Z berechnen.
Dazu muss als erstes geklärt werden, ob Z überhaupt eine Zufallsvariable ist, d.h.,
ob die Mengen (Z = n) für alle n = 0, 1, 2, . . . in der vorgegebenen σ-Algebra A
liegen. Da X und Y nur nichtnegative ganze Zahlen als Werte annehmen können, gibt
es nur endlich viele Kombinationsmöglichkeiten für das Zustandekommen des Werts
52
Z(ω) = n:
Z(ω) = n
⇔
X(ω) = 0
oder
X(ω) = 1
oder
X(ω) = 2
oder
..
.
oder
X(ω) = n
und Y (ω) = n
und Y (ω) = n − 1
und Y (ω) = n − 2
und Y (ω) = 0
Für die zugehörigen Mengen ergibt sich daraus die Identität
(Z = n) =
n
X
(X = k) ∩ (Y = n − k)
(8.64)
k=0
Da X und Y als Zufallsvariable vorausgesetzt sind, liegen die Mengen (X = k) und
(Y = n − k) und gemäß den Eigenschaften einer σ-Algebra auch (Z = n) in A. Z ist
also eine Zufallsvariable.
Zur Bestimmung ihrer Verteilung berechnen wir die Wahrscheinlichkeitsfunktion, für
die man aus (8.64) die Formel
f Z (n) = P Z {n} = P (Z = n) =
n
X
k=0
P [(X = k) ∩ (Y = n − k)]
(8.65)
erhält.
Ohne zusätzliche Informationen über die Zufallsvariablen X und Y kommt man mit der
Berechnung an dieser Stelle nicht weiter. Man benötigt offensichtlich eine Produktregel,
d.h. die Eigenschaft der stochastischen Unabhängigkeit für Zufallsvariable.
Definition 8.2 Diskrete Zufallsvariable X1 , X2 , . . . , Xm auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Werten in Mengen X1 , X2 , . . . , Xm heißen stochastisch unabhängig, wenn für beliebige Teilmengen A1 ⊂ X1 , A2 ⊂ X2 , . . . , Am ⊂ Xm gilt
P [(X1 ∈ A1 ) ∩ (X2 ∈ A2 ) ∩ . . . ∩ (Xm ∈ Am )]
= P (X1 ∈ A1 )P (X2 ∈ A2 ) · · · P (Xm ∈ Am )
(8.66)
Setzen wir unsere beiden Zufallsvariablen X und Y als stochastisch unabhängig voraus,
so folgt aus (8.66) für (X = k) = (X ∈ {k}) und (Y = n − k) = (Y ∈ {n − k}), dass
f Z (n)
=
=
=
n
X
k=0
n
X
k=0
n
X
k=0
P (X = k)P (Y = n − k)
P X {k} P Y {n − k}
f X (k) f Y (n − k)
53
(8.67)
Damit ist f Z (n) aus den Wahrscheinlichkeitsfunktionen f X und f Y berechenbar. Die
Summe (8.67) heißt die Faltung der Wahrscheinlichkeitsfunktionen f X und f Y und
wird im allgemeinen mit f X ∗ f Y bezeichnet:
f X ∗ f Y (n) =
n
X
k=0
f X (k) f Y (n − k)
(8.68)
Mit dieser Bezeichnung können wir das Ergebnis unserer Berechnung wie folgt zusammenfassen:
Satz 8.2 Sind X und Y stochastisch unabhängige diskrete Zufallsvariable mit Wertebereich N0 , so gilt
f X+Y = f X ∗ f Y
(8.69)
Beispiel: Sind X und Y stochastisch unabhängige und mit Parametern λ bzw. µ
Poisson-verteilte Zufallsvariable, so ist
f X+Y (n)
=
n
X
e−λ
k=0
λk −µ µn−k
e
k!
(n − k)!
n
X
1
λk µn−k
k!(n − k)!
k=0
n 1 X n k n−k
λ µ
= e−(λ+µ)
k
n!
= e−(λ+µ)
k=0
(λ + µ)n
= e−(λ+µ)
n!
Die Summe dieser beiden Zufallsvariablen ist also wieder Poisson-verteilt mit der Summe λ + µ als Parameter.
8.3 Der Erwartungswert einer diskreten Zufallsvariablen
Ist X : Ω −→ X eine diskrete Zufallsvariable mit einer abzählbaren Teilmenge X ⊂ R
von reellen Zahlen als Wertebereich, so wird man als Prognose für den Wert, den die
Zufallsvariable X bei Durchführung des Experiments annimmt, den Mittelwert der
Verteilung von X wählen:
X
m1 (P X ) =
y f X (y)
(8.70)
y∈X
Man nennt in diesem Zusammenhang die Größe m1 (P X ) auch den Erwartungswert
der Zufallsvariablen X. Er wird im allgemeinen mit E X bezeichnet oder etwas genauer mit EP X, wenn von Bedeutung ist, bezüglich welcher Wahrscheinlichkeit P die
Verteilung von X zu verstehen ist.
Für den Fall, dass es sich bei dem Wahrscheinlichkeitsraum (Ω, A, P ) um einen diskreten Wahrscheinlichkeitsraum mit der Wahrscheinlichkeitsfunktion f (ω) = P {ω}
handelt, kann man den Erwartungswert von X auch auf eine andere Weise berechnen.
54
Wenn wir zur Vereinfachung der Formeln die Abkürzung By = (X = y) benutzen, so
gilt
X
X
y P (By )
y f X (y) =
m1 (P X ) =
y∈X
=
X
y∈X
=

y
y∈X
X
ω∈By
X X

f (ω)
(yf (ω))
y∈X ω∈By
Für ω ∈ By ist y = X(ω), so dass diese Doppelsumme auch in der Form
X X
X(ω)f (ω)
m1 (P X ) =
y∈X ω∈By
=
X X
y∈X ω∈By
X(ω)P {ω}
geschrieben werden kann.
Die Mengen By mit y ∈ X bilden eine Partition der Menge Ω, in der die Ergebnisse
ω nach den verschiedenen möglichen Funktionswerten y der Zufallsvariable sortiert
werden. Die Doppelsumme über y ∈ X und ω ∈ By stellt daher nichts anderes dar als
die Summation über alle ω ∈ Ω als Indizes in einer speziellen Reihenfolge. Wegen der
für den Mittelwert geforderten unbedingten Konvergenz können wir daher einfach
X
X(ω)P {ω}
m1 (P X ) =
ω∈Ω
schreiben und erhalten den
Satz 8.3 Falls der Erwartungswert einer diskreten Zufallsvariablen X auf einem diskreten Wahrscheinlichkeitsraum (Ω, A, P ) existiert, ist
X
EP X =
X(ω)P {ω}
(8.71)
ω∈Ω
55
9 Geometrische Wahrscheinlichkeiten
Dieses und die folgenden Kapitel beschäftigen sich mit der Wahrscheinlichkeitsrechnung
auf überabzählbaren Ergebnismengen Ω, worunter hauptsächlich die Menge R der reellen Zahlen und die Mengen
Rn = {x = (x1 , x2 , . . . , xn ) ; xi ∈ R}
(9.72)
der n-dimensionalen Vektoren mit reellen Komponenten zu verstehen sind.
Als Ausgangspunkt befassen wir uns wie bei den Laplace-Experimenten mit der Frage,
wie man die Wahrscheinlichkeit eines Ereignisses unter der Annahme berechnet, dass
jedes Ergebnis ω die gleiche Chance des Auftretens besitzt. Zur Veranschaulichung betrachten wir dazu das folgende Problem:
Zwei Personen beschließen sich irgendwann zwischen zwölf und ein Uhr an
einem bestimmten Ort zu treffen, wobei aber jede höchstens 20 Minuten auf die
andere wartet und wieder geht, falls diese in der Zwischenzeit nicht erscheint.
Wie groß ist die Wahrscheinlichkeit, dass die beiden sich treffen?
Wenn wir mit x1 und x2 die Ankunftszeiten der beiden Personen in
Minuten nach zwölf Uhr messen, so erhalten wir als Menge der möglichen
Ergebnisse
Ω = {(x1 , x2 ) ∈ R2 ; 0 ≤ xi ≤ 60}
und das Ereignis Treffen“ wird durch die in Abbildung 4 dargestellte Menge
”
A = {(x1 , x2 ) ∈ Ω; |x1 − x2 | ≤ 20}
repräsentiert.
x2
6
60
40
A
20
20
40
- x1
60
Abbildung 4: Das Ereignis Treffen“
”
56
x2
6
60
Ik
40
20
20
- x1
60
40
Abbildung 5: Unterteilung
Als Ansatz für eine Wahrscheinlichkeitsverteilung gehen wir wie bei den LaplaceExperimenten von dem Postulat aus, dass alle Paare (x1 , x2 ) von Ankunftszeiten gleich
möglich sind. Die Formel P {(x1 , x2 )} = p führt jedoch hier nicht zum Ziel, da Ω unendlich viele Elemente enthält und somit p = 0 gesetzt werden müsste.
Statt dessen unterteilen wir Ω wie in der Abbildung 5 in endlich viele gleichartige
Quadrate Ik . Das Postulat, dass alle Ankunftszeitenpaare gleich möglich sein sollen,
läßt sich dann dahingehend interpretieren, dass die Wahrscheinlichkeit der Ereignisse
(x , x ) liegt in Ik“ für alle Quadrate Ik die gleiche ist.
” 1 2
Aus der Tatsache, dass die Mengen Ik eine Partition von Ω bilden und der für Wahrscheinlichkeiten stets gültigen Additionsregel folgt dann, dass die Wahrscheinlichkeit
eines dieser Quadrate von der Form
P (Ik ) =
1
|Ik |
=
Summe aller Quadrate
|Ω|
ist, wobei |Ik | bzw. |Ω| die Flächeninhalte dieser beiden Quadrate sind. Als Näherungswert für die Wahrscheinlichkeit des Ereignisses A bietet sich in diesem Rahmen die
Summe der Wahrscheinlichkeiten der Ik an, die mit der Menge A einen nichtleeren
Durchschnitt aufweisen. Verfeinert man die Unterteilung der Menge Ω immer weiter,
so konvergieren diese Näherungswerte gegen den Grenzwert
P (A) =
|A|
|Ω|
(9.73)
mit der Fläche |A| der Menge A.
Als ersten Ansatz für Wahrscheinlichkeitsverteilungen über Teilmengen des Rn als
Ergebnismenge erhält man so den der geometrischen Wahrscheinlichkeiten:
Sind alle Punkte ω aus einer Teilmenge Ω bei einem Zufallsexperiment als
gleich möglich anzusehen, so ist die Wahrscheinlichkeit, dass das Ergebnis
in eine Teilmenge A von Ω fällt, gegeben durch |A|
|Ω| . Dabei ist |M | der
57
Inhalt der Menge M , im zweidimensionalen also die Fläche und in drei
Dimensionen das Volumen.
Bei der Umsetzung dieses so einfach klingenden Ansatzes in ein mathematisches Modell
ergeben sich einige Schwierigkeiten sowohl praktischer als auch theoretischer Natur.
Zum Einen gibt es das theoretische Problem, welche Teilmengen A des Rn überhaupt
eine Fläche oder einen Inhalt besitzen, und die damit zusammenhängende Frage, ob
die Gesamtheit dieser Mengen eine σ-Algebra bildet. Damit werden wir uns im nachfolgenden Kapitel beschäftigen.
Zum Anderen erweist es sich manchmal, dass die Beschreibung eines Zufallsexperiments, in der die Ausdrücke zufällig oder gleich möglich vorkommen, mehrere mathematische Interpretationen zulässt, die dann auch zu verschiedenen Wahrscheinlichkeiten für einzelne Ereignisse führen:
Ein weiteres Bertrandsches Paradoxon. Mit der folgenden Aufgabenstellung wollte der französische Mathematiker Joseph Bertrand (1822–1900) zeigen, daß das Konzept der geometrischen Wahrscheinlichkeiten Widersprüche enthält:
Man wähle zufällig in einem Kreis eine Sehne. Wie groß ist die Wahrscheinlichkeit dafür, dass die Sehne länger ist als die Seite eines dem Kreis
einbeschriebenen gleichseitigen Dreiecks?
Bertrand gab dafür drei Lösungsmöglichkeiten an. Es wird dabei immer ein Kreis mit
dem Radius 1 betrachtet, wobei Winkel im Bogenmaß bezüglich einer horizontalen
Achse durch den Mittelpunkt des Kreises gemessen werden.
Version 1: Man wählt zufällig einen Winkel ϕ und zeichnet in diesem Winkel einen
Strahl vom Mittelpunkt bis zum Kreisrand. Dann wählt man zufällig im Abstand y vom
Mittelpunkt einen Punkt auf diesem Strahl und erhält eine zufällige Sehne dadurch,
dass man eine Gerade in diesem Punkt senkrecht zum Strahl zeichnet (s. Abbildung
6). Wie anhand des gestrichelt angedeuteten gleichseitigen Dreiecks zu sehen ist, wird
die Sehne größer als die Dreiecksseite, wenn y kleiner als 1/2 ist.
Als Ansatz für die Wahrscheinlichkeitsberechnung gehen wir davon aus, dass alle Kombinationen (ϕ, y) von Winkeln und Abständen gleich möglich sind. Die Ergebnismenge
ist dann Ω = {(ϕ, y) ; 0 ≤ ϕ < 2π , 0 ≤ y ≤ 1} mit der Fläche |Ω| = 2π. Das Ereignis
wird durch die Menge A = {(ϕ, y) ; 0 ≤ ϕ < 2π , 0 ≤ y < 1/2} beschrieben, die genau
halb so groß ist, so dass P (A) = 1/2.
Version 2: Man zeichnet in einem zufällig gewählten Punkt auf dem Kreisbogen,
charakterisiert durch den Winkel ϕ, eine Tangente an den Kreis und anschließend ausgehend von diesem Punkt die Sehne in einem zufällig gewählten Winkel ψ bezüglich der
Tangente (s. Abbildung 7). Die Sehne wird offensichlich dann länger als die Dreiecksseite, wenn der Winkel ψ im Bereich π/3 < ψ < 2π/3 liegt. Die Fläche der zugehörigen
Menge A = {(ϕ, ψ) ; 0 ≤ ϕ < 2π , π/3 < ψ < 2π/3} ist ein Drittel der Fläche von
Ω = {(ϕ, ψ) ; 0 ≤ ϕ < 2π , 0 ≤ ψ ≤ π}, so dass nach diesem Ansatz P (A) = 1/3.
Version 3: Die dritte Variante besteht in der zufälligen Auswahl eines Punkts im
Kreisinneren. Danach wird ähnlich wie bei der ersten Version ein Strahl vom Mittelpunkt durch den gewählten Punkt und die Sehne senkrecht zu diesem Strahl durch
58
y
ϕ
Abbildung 6: Version 1
den Punkt gezogen (s. Abbildung 8). Die Ergebnismenge Ω ist in diesem Fall der gesamte Kreis mit der Fläche π. Die Sehne wird dann länger als die Dreiecksseite, wenn
der ausgewählte Punkt im Inneren des kleineren Kreises mit dem Radius 1/2 und der
Fläche π/4 liegt, so dass hier P (A) = 1/4.
Die unterschiedlichen Wahrscheinlichkeiten haben offensichtlich nichts mit dem Konzept der geometrischen Wahrscheinlichkeiten zu tun, sondern kommen dadurch Zustande, dass der Vorgang Zufälliges Zeichnen einer Sehne“ durch mehrere verschiedene
”
Konstruktionsverfahren bewerkstelligt werden kann, die unterschiedlichen Zufallsexperimenten entsprechen.
Geht man davon aus, dass die normale Methode zur Konstruktion einer Sehne darin
besteht, dass zwei Punkte auf dem Kreis ausgewählt und durch eine Gerade miteinander verbunden werden, so ist die Version 2 als die richtige anzusehen.
59
ϕ
ψ
Abbildung 7: Version 2
Abbildung 8: Version 3
60
10 Verteilungen
Beim Ansatz von Wahrscheinlichkeiten für Teilmengen des Rn stößt man auf ein technisches Problem. Man kann als σ-Algebra nicht die Menge aller Teilmengen des Rn
verwenden, da es — wie man beweisen kann — keine Mengenfunktion auf dieser σAlgebra gibt, die gleichzeitig alle vier Kolmogoroffschen Axiome erfüllt. Um auf der
Basis dieser Axiome Wahrscheinlichkeitsrechnung zu betreiben, muss man sich auf eine kleinere σ-Algebra zurückziehen. Ein Ansatz dazu wurde im vorgehenden Kapitel
vorgeführt. Wir betrachten Mengen, die einen Inhalt besitzen. Dieser Ansatz wird im
folgenden präzisiert.
10.1 Intervalle
Die von ihrer Struktur her einfachsten Mengen, denen man einen Inhalt zuordnen
kann, sind die Intervalle.
Eindimensionale Intervalle sind Teilmengen der reellen Zahlenachse der Form
(a, b)
[a, b)
(a, b]
[a, b]
(a, ∞)
[a, ∞)
(−∞, b)
(−∞, b]
(−∞, ∞)
= {t ∈ R ; a < t < b}
= {a} + (a, b)
= (a, b) + {b}
= {a} + (a, b) + {b}
= {t ∈ R ; t > a}
= {a} + (a, ∞)
= {t ∈ R ; t < b}
= (−∞, b) + {b}
= R
mit rellen Zahlen −∞ < a ≤ b < ∞. Die Gesamtheit dieser eindimensionalen Intervalle
bezeichnen wir mit I. Die Länge |I| eines Intervalls mit den Endpunkten a und b ist
die Differenz |I| = b − a unabhängig davon, ob die Randpunkte zum Intervall gehören
oder nicht. Für die Fälle a = −∞ oder b = ∞ ist auch der Wert ∞ für die Länge
zugelassen.
Zweidimensionale Intervalle sind Rechtecke, d.h. Teilmengen I des R2 von der
Form
I = {(x1 , x2 ) ∈ R2 ; x1 ∈ I1 , x2 ∈ I2 } = I1 × I2
wie in Abbildung 9 dargestellt, wobei I1 und I2 jeweils eindimensionale Intervalle sind.
Die Fläche eines Rechtecks ist bekanntlich als Länge mal Breite definiert, d.h.
|I| = |I1 × I2 | = |I1 | · |I2 |
Allgemein sind n-dimensionale Intervalle cartesische Produkte
I = I1 × I2 × . . . × In = {(x1 , x2 , . . . , xn ) ∈ Rn ; xk ∈ Ik für k = 1, 2, . . . , n} (10.74)
61
x2
b2
I2
I1 x I2
a2
a1
I1
x1
b1
Abbildung 9: Ein zweidimensionales Intervall
Als Inhalt des Intervalls I legen wir das Produkt
|I| = |I1 × I2 . . . × In | = |I1 | · |I2 | · · · |In |
fest, was im Zweidimensionalen mit der Fläche eines Rechtecks und im Dreidimensionalen mit dem Volumen eines Quaders übereinstimmt. Bei Intervallen |Ik | mit nichtendlicher Länge gilt bei der Auswertung des Produkts die Regel 0 · ∞ = 0.
Die Menge aller n-dimensionalen Intervalle bezeichnen wir im folgenden mit In .
10.2 Borelsche Mengen und Lebesguesches Maß
Die Menge In ist keine σ-Algebra, denn im allgemeinen ist bereits die Vereinigung
zweier Intervalle kein Intervall mehr. Sie wird daher so erweitert, dass eine σ-Algebra
entsteht.
Definition 10.1 Die kleinste σ-Algebra über dem Rn , die die Menge In der n-dimensionalen Intervalle enthält, heißt die σ-Algebra der Borelschen Mengen und wird
mit Bn bezeichnet. Für B1 schreiben wir auch nur B.
Unter der kleinsten σ-Algebra ist dabei der Durchschnitt aller σ-Algebren zu verstehen,
die die Menge In enthalten. (Wie man sich leicht überzeugt, ist der Durchschnitt von
σ-Algebren wieder eine σ-Algebra.)
Die Elemente B von Bn heißen – wie aus der Bezeichnungsweise schon hervorgeht –
Borelsche Mengen.
Das Konzept des Inhalts von Intervallen lässt sich auf die Borelschen Mengen fortsetzen. Es gilt der
62
Satz 10.1 Es gibt eine Abbildung λ : Bn −→ [0, ∞] mit den folgenden Eigenschaften:
λ(B) ≥ 0
X
X
λ(Bk )
Bk ) =
λ(
k
k
für alle B ∈ Bn
für alle paarweise disjunkten Bk ∈ Bn
λ(I) = |I|
für alle I ∈ In .
λ ist durch diese drei Eigenschaften eindeutig bestimmt.
Definition 10.2 Die Funktion λ heißt das Lebesguesche Maß auf dem Rn .
Es gibt Teilmengen des Rn , die keine Borelschen Mengen sind. Ein Beispiel dafür findet
man im Kapitel V von [5]. Das Mengensystem Bn ist aber groß genug, dass es alle praktisch relevanten Mengen enthält. Insbesondere sind alle offenen und abgeschlossenen
Teilmengen des Rn Borelsch.
10.3 Verteilungen auf dem Rn
Für Wahrscheinlichkeitsverteilungen auf den Borelschen Mengen des Rn gibt es eine
Kurzbezeichnung:
Definition 10.3 Eine Wahrscheinlichkeitsverteilung auf den Borelschen Mengen des
Rn heißt eine Verteilung auf dem Rn oder n-dimensionale Verteilung.
Beispiel: Mit Hilfe der Borelschen Mengen und des Lebesgueschen Maßes kann man
das Konzept der geometrischen Wahrscheinlichkeiten jetzt auf eine sichere Basis stellen.
Ist M eine Borelsche Menge aus dem Rn mit 0 < λ(M ) < ∞, so kann man leicht
nachvollziehen, dass aus den Eigenschaften des Lebesgueschen Maßes die Gültigkeit
der vier Kolmogoroffschen Axiome für die Mengenfunktion
P (B) =
λ(B ∩ M )
λ(M )
(10.75)
auf Bn folgt, d.h. dass es sich um eine n-dimensionale Verteilung handelt. Die Verteilung (10.75) heißt die uniforme Verteilung oder Gleichverteilung auf der Menge
M und wird im folgenden kurz mit U(M )-Verteilung bezeichnet.
Für B ⊂ M ist P (B) = λ(B)/λ(M ) und entspricht der Formel (9.73), die aus der
Forderung hergeleitet wurde, dass alle Ergebnisse gleich möglich sind.
Für B ∩ M = ∅ ist P (B) = 0. Dies ist eine schwächere Aussage als die, dass nur Ergebnisse aus der Menge M möglich sind. Für die Berechnung von Wahrscheinlichkeiten
hat das jedoch keine Konsequenzen. Deshalb ist in der Wahrscheinlichkeitsrechnung
üblich, nicht mit Wahrscheinlichkeiten auf Teilmengen Ω ⊂ Rn als Ergebnismengen
zu arbeiten, sondern als Ergebnismenge den ganzen Rn zu wählen, wobei Borelschen
Mengen B mit B ∩ Ω = ∅ die Wahrscheinlichkeit P (B) = 0 zugeordnet wird.
63
10.4 Das Lebesgue-Integral
Das wichtigste mathematische Hilfsmittel beim Umgang mit Verteilungen auf dem Rn
ist die Integralrechnung, wobei unter einem Integral im allgemeinen das Lebesquesche
Integral (L-Integral ) zu verstehen ist. In den Beispielen dieses Skripts und in den
meisten praktischen Anwendungsfällen sind die Integranden im Riemannschen Sinne
integrierbar, so dass man die zu berechnenden Integrale als Riemann-Integrale (RIntegrale) auffassen kann.
Für Eigenschaften, Rechenregeln und Sätze über Integrale beziehen wir uns auf das
Buch [7].
Das Integral einer Funktion f : Rn −→ R über den gesamten Rn als Integrationsbereich bezeichnen wir mit
Z
f (x)dx
Soll nur über eine Borelsche Teilmenge B ⊂ Rn integriert werden, so verwenden wir
entweder die Bezeichnung
Z
f (x)dx
B
oder — was manchmal zweckmäßiger ist — wir setzen die Funktion f ausserhalb der
Menge B gleich Null und integrieren die so abgeänderte Funktion über den gesamten
Rn . Diese Änderung wird dadurch bewirkt, dass wir die Funktion f mit der Indikatorfunktion 1B (x) der Menge B multiplizieren:
1 für x ∈ B
1B (x) =
(10.76)
0 für x 6∈ B
Da ein Bereich, in dem der Integrand Null ist, nichts zum Wert des Integrals beiträgt,
ist
Z
Z
f (x)dx = 1B (x)f (x)dx
B
Wird eine Funktion f : R −→ R auf der reellen Zahlenachse über ein Intervall mit
den Randpunkten a < b integriert, so schreibt man meistens
Z
b
f (x)dx
a
Dabei ist auch a = −∞ und b = ∞ zugelassen.
10.5 Absolutstetige Verteilungen
Definition 10.4 Eine Lebesgue-integrierbare Funktion f : Rn −→ R mit den Eigenschaften
f (x) ≥ 0
Z
f (x)dx
für fast alle x
=
1
64
(10.77)
(10.78)
heißt eine Wahrscheinlichkeitsdichte.
Anstelle von Wahrscheinlichkeitsdichte sind auch die kürzeren Bezeichnungen Dichte
oder Dichtefunktion gebräuchlich.
Satz 10.2 Ist f : Rn −→ R eine Wahrscheinlichkeitsdichte, so ist die Mengenfunktion P : Bn −→ R, definiert durch
Z
P (B) = 1B (x)f (x)dx
(10.79)
eine n-dimensionale Verteilung.
Beweis:
R
R
1. Wegen 0 ≤ 1B (x)f (x) ≤ f (x) für fast alle x ist 0 ≤ 1B (x)f (x) dx ≤ f (x) dx
und damit 0 ≤ P (B) ≤ 1.
R
2. Da 1Rn (x) = 1 für alle x, ist P (Rn ) = f (x) dx = 1.
3. Für disjunkte Mengen B1 und B2 gilt 1B1 +B2 (x) = 1B1 (x) + 1B2 (x). Wegen der
Linearität des Lebesgue-Integrals folgt daraus
Z
Z
P (B1 + B2 ) =
1B1 +B2 (x)f (x) dx = (1B1 (x) + 1B2 (x))f (x) dx
Z
Z
=
1B1 (x)f (x) dx + 1B2 (x)f (x) dx = P (B1 ) + P (B2 )
Eine entsprechende Regel gilt natürlich auch für die Summe einer endlichen Anzahl
m > 2 von paarweise disjunkten Mengen Bk .
4. Für abzählbar viele paarweise disjunkte Borelsche Mengen Bk ist zunächst nach
Punkt 3:
Z
n
n
X
X
Bk ) = 1An (x)f (x) dx
P (Bk ) = P (
k=1
k=1
Pn
mit An = k=1 Bk .
P∞
S∞
Wegen A1 ⊂ A2 ⊂ . . . mit k=1 An = k=1 Bk =: B bilden die Funktionen gn (x) =
1An (x)f (x) eine monoton steigende Funktionenfolge mit limn→∞ gn (x) = 1B (x)f (x).
Nach dem Konvergenzsatz von Beppo Levi gilt daher
∞
X
k=1
P (Bk )
=
lim
n→∞
n
X
P (Bk )
k=1
Z
lim
1An (x)f (x) dx
n→∞
Z
=
lim 1An (x)f (x) dx
n→∞
Z
=
1B (x)f (x) dx
=
= P (B)
∞
X
Bk )
= P(
k=1
65
und damit auch das vierte Axiom.
♦
Bezeichnung: Eine Verteilung der Form (10.79) heißt eine absolutstetige Verteilung und f Dichte zur Verteilung P .
Sind f1 und f2 Dichten zur gleichen Verteilung P , so unterscheiden sie sich höchstens
auf einer Nullmenge, d.h. —locker gesprochen — sie sind im wesentlichen gleich.
Beispiel 1: Die uniforme Verteilung (10.75) besitzt die Dichte
1
falls x ∈ M
1
λ(M )
f (x) =
1M (x) =
(10.80)
0
falls x 6∈ M
λ(M )
Für die Indikatorfunktionen zweier Mengen A und B gilt 1A∩B (x) = 1A (x)1B (x), so
dass
Z
Z
Z
1
λ(B ∩ M )
1
1B (x)1M (x)dx =
1B∩M (x)dx =
1B (x)f (x)dx =
λ(M )
λ(M )
λ(M )
Eine Verteilung erhält man nach dem obigen Satz einfach dadurch,
dass man eine
R
Lebesgue-integrierbare Funktion g(x) ≥ 0 mit dem Wert c = g(x)dx normiert:
f (x) = 1c g(x) ist eine Dichte und legt durch (10.79) eine Verteilung fest.
Beispiel 2: Die Funktion
1 2
g(x) = e− 2 x
mit x ∈ R ist positiv und im Lebesgueschen wie im uneigentlich-Riemannschen Sinn
integrierbar (Sie wird für betragsmäßig große x durch 1/x2 majorisiert). Zur Berechnung des Integrals benötigt man einen kleinen Trick. Man berechnet nicht c sondern
2
c =
Z
∞
−∞
2 Z
g(x)dx =
∞
−∞
Z
g(x)dx
∞
g(y)dy
−∞
=
Z
∞
−∞
Z
∞
g(x)g(y)dy dx
−∞
Nach dem Satz von Fubini ist das letzte Integral gleich dem Bereichsintegral über den
gesamten R2 :
Z
Z
2
2
1
2
e− 2 (x +y ) d(x, y)
g(x)g(y)d(x, y) =
c =
R2
R2
Dieses Bereichsintegral wandeln wir durch Übergang zu Polarkoordinaten um:
x = r cos(φ) = x(r, φ)
y = r sin(φ) = y(r, φ)
Der Integrationsbereich wird dadurch die Menge
M = {(r, φ) ; 0 ≤ r < ∞, 0 ≤ φ < 2π} = [0, ∞) × [0, 2π)
Die Funktionaldeterminante ist
∂(x, y) =
∂(r, φ) ∂x
∂r
∂y
∂r
66
∂x
∂φ
∂y
∂φ
=r
Wegen x2 + y 2 = r2 (sin2 (φ) + cos2 (φ)) = r2 erhält man dadurch
Z
1 2
re− 2 r d(r, φ)
c2 =
M
und weiter durch Übergang zum iterierten Integral
Z ∞ Z 2π
Z ∞
Z
1 2
1 2
c2 =
re− 2 r dr
re− 2 r dφ dr =
0
0
0
2π
1dφ = 2π
0
Z
∞
1
2
re− 2 r dr
0
Der Integrand des letzten Integrals besitzt die Stammfunktion
1
−e− 2 r
2
√
so dass c2 = 2π bzw. c = 2π.
Bezeichnung: Die eindimensionale Verteilung mit der Dichte
1 2
1
ϕ(x) = √ e− 2 x
2π
(10.81)
heißt die standardisierte Normalverteilung oder N (0, 1)-Verteilung.
10.6 Zweistufige Experimente
Als Beispiel für eine zweidimensionale absolutstetige Verteilung betrachten wir das
folgende Problem:
Ein Stab wird an einer zufällig ausgewählten Stelle auseinander gebrochen
und das längere der beiden Bruchstücke noch einmal zufällig geteilt. Wie
groß ist die Wahrscheinlichkeit, dass man aus den drei Stücken ein Dreieck
zusammensetzen kann?
Wenn der Stab die Länge 1 besitzt, können wir ihn uns durch das Intervall [ 0, 1 ] der
reellen Zahlenachse repräsentiert denken. Das Ergebnis des Experiments sind dann
Paare (x1 , x2 ) von Zahlen xi mit 0 ≤ xi ≤ 1, die für die Positionen der ersten bzw.
zweiten Knickstelle stehen.
x1
x2
0
1
Abbildung 10: Zweimaliges Brechen eines Stabs
67
Da die zweite Knickstelle auf dem längeren der durch x1 festgelegten Teile liegen muss,
sind nicht alle Zahlenpaare (x1 , x2 ) möglich, sondern nur die Kombinationen
0 ≤ x1 ≤
1
,
2
x1 ≤ x2 ≤ 1
und
1
< x1 ≤ 1 , 0 ≤ x2 ≤ x1
2
Die Menge M der möglichen Ergebnisse ist in Abbildung 11 dargestellt.
x2
1
0.5
x1
0.5
1
Abbildung 11: Die Menge der möglichen Knickstellenpaare
Wie im Abschnitt 10.3 erläutert, wählt man bei zweidimensionalen Verteilungen die gesamte Zahlenebene R2 als Ergebnismenge und ersetzt die Aussage Ergebnisse (x1 , x2 )
”
außerhalb M sind nicht möglich“ durch die schwächere, aber für die Berechnung von
Wahrscheinlichkeiten äquivalente Aussage, dass Borelschen Mengen außerhalb von M
die Wahrscheinlichkeit Null zugeordnet wird, was durch die Festlegung
f (x1 , x2 ) = 0 für (x1 , x2 ) ∈
/M
für die Dichte erreicht wird.
10.6.1 Bedingte Dichten
Nach der obigen Beschreibung läuft das Zufallsexperiment in zwei Schritten ab. Zuerst
wird die Knickstelle x1 ausgewählt und anschließend in Abhängigkeit von der Lage von
x1 die zweite Knickstelle x2 .
68
1. Schritt: Die Auswahl der Position x1 erfolgt zufällig, d.h. jede Zahl aus dem Intervall [ 0, 1 ] besitzt die gleiche Chance. Das dazu passende Wahrscheinlichkeitsgesetz ist
die uniforme Verteilung auf diesem Intervall mit der (eindimensionalen) Dichte (10.80)
1 0 ≤ x1 ≤ 1
f1 (x1 ) =
0 sonst
2. Schritt: Liegt x1 nach Durchführung des 1. Schritts fest, so wird anschließend x2
zufällig auf dem längeren Abschnitt ausgewählt, d.h. für x1 ≤ 21 gemäß der uniformen
Verteilung auf dem Intervall [ x1 , 1 ] und für x1 > 21 nach der U[ 0, x1 ]-Verteilung. Die
entsprechenden Dichten sind gemäß (10.80)
(
1
x1 ≤ x2 ≤ 1
1−x1
f2 (x2 |x1 ) =
0
sonst
für x1 ≤
1
2
und
f2 (x2 |x1 ) =
für x1 >
1
2
(
1
x1
0
0 ≤ x2 ≤ x1
sonst
.
Bezeichnung: Eine Funktion f (x|y), die bei festem y als Funktion von x eine Wahrscheinlichkeitsdichte und bei festem x als Funktion von y Lebesgue-messbar ist, heißt
eine bedingte Dichte.
10.6.2 Zweistufige Experimente
Zur Beschreibung eines Zufallsexperiments, das in zwei Schritten abläuft, müssen die
Dichte f1 (x1 ) und die bedingte Dichte f2 (x2 |x1 ) zu einer zweidimensionalen Dichte
zusammengesetzt werden. In Analogie zur Formel P (A ∩ B) = P (A) P (B|A) für die
bedingte Wahrscheinlichkeit von Ereignissen legen wir
f (x1 , x2 ) = f1 (x1 ) f2 (x2 |x1 )
(10.82)
fest. Die so definierte Funktion f : R2 −→ R ist eine Dichte. Aus f1 (x1 ) ≥ 0 und
f2 (x2 |x1 ) ≥ 0 folgt f (x1 , x2 ) ≥ 0 und nach dem Satz von Fubini ist
Z
Z Z
f (x1 , x2 )d(x1 , x2 ) =
f1 (x1 )f2 (x2 |x1 )dx2 dx1
Z
Z
=
f1 (x1 ) f2 (x2 |x1 )dx2 dx1
Z
=
f1 (x1 ) · 1dx1 = 1
69
10.6.3 Fortsetzung des Beispiels
Zur Lösung des Problems muss noch die Menge A ⊂ M der Paare (x1 , x2 ) von Knickstellen gefunden werden, die dem Ereignis entsprechen, dass aus den drei Bruchstücken
ein Dreieck gebildet werden kann. Aus der Abbildung 12 ist für den Fall x1 ≤ 21 ersichtlich, dass ein Dreieck nur dann zustandekommt, wenn sich die beiden Halbkreise
schneiden, die die beiden äußeren Bruchstücke beschreiben, wenn man sie in den Punkten x1 bzw. x2 festhält und die freien Enden bewegt.
0
x1
0.5
x2
1
Abbildung 12: Dreieck aus drei Bruchstücken
Dazu muss die Summe der Längen der äußeren Bruchstücke mindestens so groß sein
wie die Länge des mittleren:
x1 + (1 − x2 ) ≥ x2 − x1
oder —durch Umformen—
x2 ≤
1
+ x1
2
Außerdem darf x2 nicht unterhalb von 12 liegen, da sonst der rechte Halbkeis vollständig
über dem linken liegt.
Für den Fall x1 ≤ 12 erhält man also ein Dreieck, wenn (x1 , x2 ) in der Menge A1 der
Punkte liegt, die die Bedingungen
0 ≤ x1 ≤ 21
1
2 ≤ x2
x2 ≤ x1 + 12
70
erfüllen. Für den Fall x1 >
1
2
ergibt sich entsprechend die Menge A2 der (x1 , x2 ) mit
1
2
< x1 ≤ 1
x2 ≤ 21
x2 ≥ x1 − 12
und A ist die Summe dieser beiden Mengen.
x2
1
A1
0.5
A2
x1
0.5
1
Abbildung 13: Das Ereignis Dreieck“
”
Mit der Dichte
f (x1 , x2 ) =





1
1−x1
1
x1
0
0 ≤ x1 ≤ 21 , x1 ≤ x2 ≤ 1
1
2 < x1 ≤ 1 , 0 ≤ x2 ≤ x1
sonst
71
erhält man daraus die Wahrscheinlichkeiten
P (A1 )
=
Z
1
f (x1 , x2 )d(x1 , x2 ) =
=
Z
0
P (A2 )
1
1 − x1
=
ln 2 −
=
Z
Z
dx2 dx1 =
Z
0
1
2
!
1
dx2 dx1
1 − x1
x1
dx1
1 − x1
1
2
f (x1 , x2 )d(x1 , x2 ) =
ln 2 −
1
2
1
2
x1 + 12
Z1
1
2
A2
=
Z
0
A1
1
2
x1 + 12
Z2
1
2
1
Z2
x1 − 21
!
1
dx2 dx1
x1
und zusammen
P (A) = P (A1 ) + P (A2 ) = 2 ln 2 − 1
10.6.4 Unabhängige Experimente
Hängt das Wahrscheinlichkeitsgesetz des zweiten Experiments nicht vom Ergebnis des
ersten ab, so ist f2 (x2 |x1 ) = f2 (x2 ). Werden also zwei Zufallsexperimente unabhängig
voneinander gleichzeitig oder nacheinander durchgeführt, so wird das Gesamtexperiment durch eine Dichte der Form
f (x1 , x2 ) = f1 (x1 ) f2 (x2 )
beschrieben.
72
(10.83)
11 Eindimensionale Verteilungen
Eine Verteilung auf der Menge R der reellen Zahlen wird auch eine eindimensionale
Verteilung genannt. In diesem Kapitel werden einige für diese Verteilungen spezifische
Themen behandelt. Es sind dies die Verteilungsfunktion als Charakteristikum für
solche Verteilungen und — analog zu den bei diskreten Verteilungen eingeführten
Größen — die Momente und der Begriff der Zufallsvariablen.
11.1 Die Verteilungsfunktion
Die absolutstetigen Verteilungen auf R, die sich durch eine Dichte beschreiben lassen,
d.h.
Z
P (B) = 1B (x)f (x)dx
bilden nur eine Teilklasse der Gesamtheit der Wahrscheinlichkeitsverteilungen auf der
reellen Zahlenachse. Eine vollständige Charakterisierung der eindimensionalen Verteilungen erhält man durch die Verteilungsfunktion:
Definition 11.1 Ist P eine eindimensionale Verteilung, so heißt die Funktion
F : R −→ R, definiert durch
F (t) := P (−∞, t]
(11.84)
die Verteilungsfunktion der Verteilung P .
Beispiel: Die Verteilungsfunktion der U[a, b]-Verteilung.
1
6
- t
a
b
Abbildung 14: Verteilungsfunktion der U[a, b]-Verteilung.
Es ist
P (−∞, t] =
λ ((−∞, t] ∩ [a, b])
λ ([a, b])
mit λ ([a, b]) = b − a. Wegen

 ∅
[a, t]
(−∞, t] ∩ [a, b] =

[a, b]
73
falls t < a
falls a ≤ t ≤ b
falls t > b
ergibt sich die Verteilungsfunktion zu

 0
t−a
F (t) =
 b−a
1
falls t < a
falls a ≤ t ≤ b
falls t > b
(11.85)
Die Abbildung 14 zeigt bereits die generelle Gestalt einer Verteilungsfunktion. Sie lässt
sich wie folgt charakterisieren:
Satz 11.1 Eine Verteilungsfunktion besitzt die folgenden fünf Eigenschaften:
0 ≤ F (t) ≤ 1
s≤t
t%∞
t & −∞
t & t0
⇒
⇒
⇒
⇒
F (s) ≤ F (t)
F (t) % 1
F (t) & 0
F (t) & F (t0 )
(F ist monoton nichtfallend)
(F ist rechtsstetig)
Beweis:
1. Da F (t) die Wahrscheinlichkeit eines Ereignisses—in diesem Fall (−∞, t]—ist, folgt
die erste Eigenschaft aus dem Axiom 1 (2.7).
2. Für s ≤ t ist (−∞, s] ⊂ (−∞, t], die Monotonie von F ergibt sich so aus Regel (2.12).
3. Für die dritte Eigenschaft betrachten wir eine beliebige monotone und nicht beschränkte Folge reeller Zahlen tn . Für die Intervalle In := (−∞, tn ] gilt dann In %
(−∞, ∞) = R und F (tn ) % 1 ist nichts anderes als die Eigenschaft (2.20) für monotone Folgen von Ereignissen mit den hier eingeführten Bezeichnungen.
4. Die beiden letzten Aussagen erhält man, indem man eine monoton fallende Zahlenfolge {tn } betrachtet, wobei im einen Fall tn & −∞ und im anderen tn & t0 . Für
die Intervalle In gilt dann In & ∅ bzw. In & (−∞, t0 ] und (2.21) liefert das Verhalten
von F .
Diese fünf Eigenschaften charakterisieren eine Verteilungsfunktion bereits vollständig,
denn man kann die folgende Aussage beweisen:
Satz 11.2 Zu jeder Funktion F : R −→ R mit den in Satz 11.1 aufgeführten Eigenschaften gibt es genau eine Verteilung P auf R mit P (−∞, t] = F (t) für alle t ∈ R.
Beispiel Die in Abbildung 15 dargestellte Funktion
0
falls t ≤ 0
F (t) =
1 − e−λt falls t > 0
(11.86)
mit einer Konstanten λ > 0 erfüllt alle Eigenschaften einer Verteilungsfunktion. Die
zugehörige Verteilung heißt die Exponentialverteilung mit Parameter λ oder kurz
die E(λ)-Verteilung.
Um einen der Anwendungsbereiche der Exponentialverteilung darzustellen, betrachten
wir für s ≥ 0 die Ereignisse As := (s, ∞). Die Komplementärmenge zum Intervall
(s, ∞) ist das Intervall (−∞, s], so dass
P (As ) = 1 − P (As ) = 1 − P (−∞, s] = 1 − F (s) = e−λs
74
1.4
1.2
1
0.8
0.6
0.4
0.2
0
−0.2
−5
−4
−3
−2
−1
0
1
2
3
4
5
Abbildung 15: Die Verteilungsfunktion der Exponentialverteilung
woraus sich die Gleichung
P (As+t ) = P (As )P (At )
für alle nichtnegativen rellen Zahlen s, t ergibt. Aus dieser Gleichung wiederum folgt
– auf dem umgekehrten Weg wie bei der Herleitung der geometrischen Verteilung in
Abschnitt 6.2.4– die Identität
P (As+t |As ) = P (At )
d.h. die Gedächtnislosigkeit. Die Exponentialverteilung ist somit das kontinuierliche
Gegenstück zur geometrischen Verteilung. Man benutzt sie beispielsweise zur Beschreibung der Lebensdauer nahezu verschleißfreier Geräte, wenn die Zeit nicht in diskreten
Beobachtungsintervallen, sondern kontinuierlich gemessen wird.
Die beiden Verteilungsfunktionen (11.85) und (11.86) sind in allen Punkten t ∈ R
stetig. Diese Eigenschaft gilt aber nicht generell für Verteilungsfunktionen. Für
eine streng monoton steigende Folge
t1 < t2 < . . . < tn < . . . < s
von reellen Zahlen mit limn→∞ tn = s gilt nämlich
∞
[
n=1
(−∞, tn ] = {t ∈ R ; t < s} = (−∞, s)
75
(11.87)
Der Limes s ist in dieser Vereinigungsmenge nicht enthalten, weil tn < s für alle n.
Wenn wir mit F (s−0) den Grenzwert der Funktionswerte F (tn ) für n → ∞ bezeichnen,
d.h. den linksseitigen Grenzwert der Funktion F an der Stelle s, so folgt aus (11.87)
und den Sätzen über monotone Ereignisfolgen, dass
F (s − 0) = P (−∞, s)
(11.88)
und wegen (−∞, s] = (−∞, s) + {s}
F (s) − F (s − 0) = P {s}
(11.89)
Eine Unstetigkeitsstelle der Verteilungsfunktion F an einer Stelle s bedeutet also,
dass das Elementarereignis {s} eine positive Wahrscheinlichkeit besitzt.
11.1.1 Berechnung von Intervallwahrscheinlichkeiten
Mit Hilfe der Verteilungsfunktion kann man die Wahrscheinlichkeiten aller Typen von
Intervallen berechnen.
1. Ein Intervall der Form (a, ∞) ist die Komplementärmenge zum Intervall (−∞, a],
so dass
P (a, ∞) = 1 − P (−∞, a] = 1 − F (a)
(11.90)
2. Für [a, ∞) gilt nach (11.88)
P [a, ∞) = 1 − P (−∞, a) = 1 − F (a − 0)
(11.91)
3. Für das Intervall (a, b] folgt aus (−∞, b] = (−∞, a] + (a, b] und dem Additivitätsaxiom für Wahrscheinlichkeiten
P (a, b] = F (b) − F (a)
(11.92)
4. Für das abgeschlossene Intervall [a, b] ist (−∞, b] = (−∞, a) + [a, b] und daher
P [a, b] = F (b) − F (a − 0)
(11.93)
Ist die Verteilungsfunktion stetig, so ist F (s) = F (s − 0) für alle s. Elementarereignisse besitzen in diesem Fall alle die Wahrscheinlichkeit Null und für alle Typen von
Intervallen I mit den Rändern a und b ist
P (I) = F (b) − F (a)
76
(11.94)
11.1.2 Verteilungsfunktionen und Dichten
Die beiden Verteilungsfunktionen (11.85) und (11.86) sind nicht nur stetig, sondern
sogar stückweise stetig differenzierbar. Daraus folgt, dass sie Stammfunktionen zu
integrierbaren Funktionen f (x) sind:
Z
Z t
f (x)dx
(11.95)
F (t) = 1(−∞,t] (x)f (x)dx =
−∞
Im Fall (11.85) der uniformen Verteilung ist das die Funktion

für x < a
 0
1
für a ≤ x ≤ b
f1 (x) =
 b−a
0
für x > b
und bei der Exponentialverteilung (11.86)
0
f2 (x) =
λe−λx
für x ≤ 0
für x > 0
(11.96)
(11.97)
Für die Integration wie in (11.95) ist es dabei unwesentlich, welchen Wert man den
Funktionen f1 und f2 an den Sprungstellen a, b bzw. 0 zuweist.
Da eine Verteilungsfunktion F monoton nichtfallend ist, ist nach (11.95) zugehörige
Funktion f fast überall nichtnegativ und wegen limt→∞ F (t) = 1 hat man
Z
Z ∞
f (x)dx =
f (x)dx = 1
−∞
Die Funktion f (x) ist also eine Dichte mit
Z
P (−∞, t] = F (t) = 1(−∞,t] (x)f (x)dx
für die zur Verteilungsfunktion F gehörige Verteilung P . Wie man zeigen kann — P
ist ja durch F eindeutig bestimmt — folgt daraus
Z
P (B) = 1B (x)f (x)dx
für alle Borelschen Mengen B. Dies bedeutet:
Satz 11.3 Ist die Verteilungsfunktion F von der Form (11.95), so ist die zugehörige
Verteilung P absolutstetig mit Dichte f .
11.1.3 Die Verteilungsfunktion einer diskreten Verteilung
Eine diskrete Verteilung z.B. mit der Ergebnismenge X = N0 und Wahrscheinlichkeitsfunktion f (n) kann man wie im vorhergehenden Kapitel beschrieben als eindimensionale Verteilung auffassen, bei der den Elementarereignissen {n} mit n ∈ N0 die
77
Wahrscheinlichkeit P {n} = f (n) und Borelschen Mengen B mit B ∩ N0 = ∅ die Wahrscheinlichkeit P (B) = 0 zugeordnet wird. Die Verteilungsfunktion dieser Verteilung ist
durch
X
f (n)
F (t) = P (−∞, t] =
n∈N0 ,n≤t
gegeben. In Abbildung 16 ist der Verlauf einer solchen Funktion dargestellt. Aus ihr
ersieht man, dass Verteilungsfunktionen von diskreten Verteilungen reine Treppenfunktionen sind, d.h. dass der Graph einer solchen Funktion nur aus Sprüngen und
horizontalen Teilstücken besteht.
6
1
[
[
[
[
6
f (0)
6
f (1)
6
f (3)
F (t)
)
6
f (2)
)
)
1
2
3
-t
Abbildung 16: Die Verteilungsfunktion einer diskreten Verteilung
11.2 Die Momente einer eindimensionalen Verteilung
Mit der physikalischen Interpretation der Dichte einer absolutstetigen eindimensionalen Verteilung als der spezifischen Dichtefunktion einer über die reellen Zahlenachse
kontinuierlich verteilten Wahrscheinlichkeitsmasse lassen sich die Konzepte aus dem
Kapitel 7 vollständig übertragen, wobei an die Stelle des Summenzeichens das Integral
tritt.
Sei P eine eindimensionale absolutstetige Verteilung mit der Dichte f (x).
Definition 11.2 Soweit die folgenden Integrale im Lebesgueschen Sinne existieren,
heißen
Z
mk = mk (P ) = xk f (x)dx
für k = 1, 2, . . . die k-ten (absoluten) Momente und
Z
m̂k = m̂k (P ) = (x − m1 (P ))k f (x)dx
78
für k = 2, 3, . . . die k-ten zentralen Momente der Verteilung P .
Speziell das erste Moment m1 heißt der Mittelwert und das zweite zentrale Moment
m̂2 die Varianz von P .
Analog zur Vorgehensweise im Kapitel 7 beweist man den Steinerschen Satz
m̂2 = m2 − m21
(11.98)
und die Ungleichung von Tschebyscheff
m̂2 (P )
ε2
mit der Menge Bε = {x ∈ X ; |x − m1 (P )| > ε}.
P (Bε ) ≤
(11.99)
11.2.1 Mittelwert und Varianz der Normalverteilung
Die Dichte
2
1
ϕ(x) = √ e−x /2
2π
der standardisierten Normalverteilung N (0, 1) konvergiert für x → ±∞ so schnell
gegen Null, dass die Funktionen x 7→ xk ϕ(x) für alle k = 1, 2, 3, . . . im Lebesgueschen
und im uneigentlich-Riemannschen Sinn integrierbar sind.
Die Funktion h(x) = xϕ(x) ist eine ungerade Funktion, d.h. h(−x) = −h(x). Das
Integral einer derartigen Funktion über ein zum Nullpunkt symmetrisches Intervall
(−a, a) ist stets Null, so dass
m1 := m1 (N (0, 1)) = 0
und die Varianz m̂2 gleich dem zweiten Moment m2 ist.
Zur Berechnung des zweiten Moments wenden wir die Regel der partiellen Integration
auf den Integranden
2
2
x2 e−x /2 = x xe−x /2
an, wobei der Term in runden Klammern die Stammfunktion
2
−e−x
besitzt. Damit ist
m2
=
=
/2
Z ∞ 2
1
√
x xe−x /2 dx
2π −∞
h
Z ∞
i∞
1
−x2 /2
−x2 /2
√
x(−e
)
−
(−e
)dx
−∞
2π
−∞
Wie oben angemerkt, konvergiert die Funktion in eckigen Klammern für x → ±∞
gegen Null, so dass
Z ∞
Z
1
−x2 /2
e
dx = ϕ(x)dx = 1
m2 = √
2π −∞
denn das Integral einer Dichte über den gesamten Ergebnisraum hat stets den Wert 1.
79
11.2.2 Die momenterzeugende Funktion
Analog zum Abschnitt 7.2.1 über momenterzeugende Funktionen bei diskreten Verteilungen nennen wir eine eindimensionale Verteilung P nichtnegativ, wenn P (−∞, 0] =
0. Ist die Verteilung absolutstetig, so folgt daraus, dass f (x) = 0 für alle x < 0 (evtl.
mit Ausnahme der x aus einer Nullmenge). In diesem Fall definieren wir die momenterzeugende Funktion für Argumente t < 0 als
Z
Z ∞
tx
M (t) = e f (x)dx =
etx f (x)dx
(11.100)
0
Ersetzt man die Variable t durch t = −s, so sieht man, dass es sich bei der momenterzeugenden Funktion einfach um die Laplace-Transformation der Dichte handelt. Sie
besitzt die gleichen Eigenschaften wie die momenterzeugenden Funktion von diskreten
Verteilungen:
Für t < 0 ist M (t) beliebig oft differenzierbar mit
M (k) (t) =
dk
M (t) =
dtk
Z
∂ k tx
e f (x)dx =
∂tk
Z
xk etx f (x)dx
lim xk etx f (x)dx =
Z
xk f (x)dx = mk (P )
und
M (k) (0) := lim M (k) (t) =
t→0
Z
t→0
Falls das k-te Moment nicht existiert, erhält man — da der Integrand nichtnegativ ist
— für M (k) (0) den Wert ∞.
11.2.3 Mittelwert und Varianz der Exponentialverteilung
Die Exponentialverteilung mit der Dichte (11.97) ist eine nichtnegative Verteilung.
Ihre momenterzeugende Funktion berechnet sich zu
Z ∞
Z ∞
tx
−λx
M (t) =
e λe
dx = λ
e(t−λ)x dx
0
0
Der Integrand besitzt die Stammfunktion
gegen Null konvergiert, so dass
1
(t−λ)x
,
t−λ e
M (t) =
die wegen (t − λ) < 0 für x → ∞
λ
λ−t
Die erste und zweite Ableitung von M (t) sind
M 0 (t) =
λ
2λ
und M 00 (t) =
(λ − t)2
(λ − t)3
woraus sich die Momente m1 = M 0 (0) = 1/λ, m2 = 2/λ2 und die Varianz m̂2 =
m2 − m21 = 1/λ2 ergeben.
80
12 Zufallsvariable
Das Konzept einer Zufallsvariablen wurde im Kapitel 8 für diskrete Verteilungen
erläutert. In diesem Abschnitt wird der Begriff der Zufallsvariablen präziser gefasst.
12.1 Zufallsgrößen
Wir betrachten zunächst Abbildungen X : Ω −→ Ω̂ mit beliebigen Mengen Ω und Ω̂
als Definitions- und Wertebereich.
12.1.1 Urbildmengen
Für die Wahrscheinlichkeitsrechnung sind vor allem die Urbilder
(X ∈ A) = {ω ∈ Ω ; X(ω) ∈ A}
(12.101)
(X ∈ A ∪ B) = (X ∈ A) ∪ (X ∈ B)
[
[
(X ∈
Ak ) =
(X ∈ Ak )
(12.102)
von Teilmengen A ⊂ Ω̂ von Interesse. Für das Urbild als Funktion dieser Teilmengen
gelten die folgenden Rechenregeln, wobei der Index k in den nachstehenden Gleichungen eine beliebige Indexmenge durchlaufen kann:
k
(12.103)
k
(X ∈ A ∩ B) = (X ∈ A) ∩ (X ∈ B)
\
\
(X ∈ Ak )
Ak ) =
(X ∈
(12.104)
(12.105)
k
k
(X ∈ A) = (X ∈ A)
(X ∈ Ω̂) =
Ω
(12.106)
(12.107)
Man beweist diese Gleichungen dadurch, dass man zeigt, dass jedes Element der Menge
auf der linken Seite auch ein Element der rechten Seite ist und umgekehrt. Am Beispiel
von (12.102) also
ω ∈ (X ∈ A ∪ B) ⇔
⇔
⇔
⇔
X(ω) ∈ A ∪ B
X(ω) ∈ A oder X(ω) ∈ B
ω ∈ (X ∈ A) oder ω ∈ (X ∈ B)
ω ∈ (X ∈ A) ∪ (X ∈ B)
Aus diesen Regeln ergeben sich die für die Wahrscheinlichkeitsrechnung wichtigen Folgerungen
(X ∈ ∅) =
A∩B =∅ ⇒
(X ∈ A + B)
X
(X ∈
Ak )
k
=
=
∅
(X ∈ A) ∩ (X ∈ B) = ∅
(X ∈ A) + (X ∈ B)
X
(X ∈ Ak )
k
81
(12.108)
(12.109)
(12.110)
(12.111)
12.1.2 Zufallsgrößen
Wenn man von der Wahrscheinlichkeit sprechen will, dass eine Abbildung X einen
Wert in einer vorgegebenen Menge A annimmt, d.h. von der Wahrscheinlichkeit des
Ereignisses (X ∈ A), so muss sichergestellt sein, dass diese Urbildmenge im Definitionsbereich der entsprechenden Wahrscheinlichkeit liegt.
Definition 12.1 Sind A bzw. Â σ-Algebren auf den Mengen Ω bzw. Ω̂ so heisst eine
Abbildung X : Ω −→ Ω̂ mit der Eigenschaft
(X ∈ A) ∈ A
für alle
A ∈ Â
(12.112)
A-Â-messbar.
Im Rahmen der Wahrscheinlichkeitsrechnung wird eine derartige Funktion anders bezeichnet. Sind Ω und A Bestandteile eines Wahrscheinlichkeitsraums (Ω, A, P ) so heißt
eine A-Â-messbare Abbildung X kurz eine Zufallsgröße. Die σ-Algebren, bezüglich
derer die Zufallsgröße messbar ist, werden dabei meist nicht erwähnt, da sie sich aus
dem Zusammenhang ergeben.
12.1.3 Die Verteilung einer Zufallsgröße
Ist (Ω, A, P ) ein Wahrscheinlichkeitsraum, Â eine σ-Algebra auf einer Menge Ω̂ und
X : Ω −→ Ω̂ eine Zufallsgröße, so liegen die Urbilder (X ∈ A) für alle A ∈ Â im
Definitionsbereich der Wahrscheinlichkeit P . Durch
P X (A) = P (X ∈ A)
erhält man daher eine wohldefinierte Mengenfunktion P
stabe P schon andeutet, gilt
(12.113)
X
: Â −→ R. Wie der Buch-
Satz 12.1 Die Abbildung P X ist eine Wahrscheinlichkeit.
Der Beweis dieser Aussage ist leicht nachzuvollziehen. Es ist lediglich mit Hilfe der
Rechenregeln für Urbilder nachzurechnen, dass sich die Axiome 1 bis 4 von der Wahrscheinlichkeit P auf die Funktion P X übertragen.
Bezeichnung: Die Wahrscheinlichkeit P X heißt die Verteilung der Zufallsgröße
X.
Zur schematischen Darstellung dieser Situation werden wir im folgenden stets das
Diagramm
X
(Ω, A, P ) −→ (Ω̂, Â, P X )
verwenden.
82
12.2 Zufallsvariable
Zufallsgrößen mit der Menge der reellen Zahlen als Wertebereich kommen besonders
häufig vor und erhalten daher eine spezielle Bezeichnung.
Definition 12.2 Eine Abbildung X : Ω −→ R auf einem Wahrscheinlichkeitsraum
(Ω, A, P ), die messbar bezüglich der σ-Algebra A und der σ-Algebra B der Borelschen
Mengen auf R ist, heisst eine Zufallsvariable.
Es ist unmöglich anhand dieser Definition nachzuprüfen ob eine vorgegebene Funktion
X : Ω −→ R eine Zufallsvariable ist, da es keine Methode gibt, nach der man alle
Borelschen Mengen erzeugen kann. Man kann aber zeigen, dass man sich zum Test der
Messbarkeit auf die speziellen Mengen
(X ≤ t) = (X ∈ (−∞, t]) = {ω ∈ Ω ; X(ω) ≤ t}
(12.114)
beschränken kann:
Satz 12.2 Eine Funktion X : Ω −→ R auf einem Wahrscheinlichkeitsraum (Ω, A, P )
ist genau dann eine Zufallsvariable, wenn für alle reellen Zahlen t die Urbilder (X ≤ t)
in der σ-Algebra A liegen.
Der Test der Messbarkeit nach diesem Satz lässt sich mit dem Problem verbinden, die
Verteilung P X der Zufallsvariable X zu bestimmen, denn die Verteilungsfunktion
F X dieser Verteilung ist nach (11.84) und (12.113) durch
F X (t) = P X (−∞, t] = P (X ∈ (−∞, t]) = P (X ≤ t)
(12.115)
gegeben. Für die praktische Anwendung heißt das: Wenn es gelingt, für alle rellen
Zahlen t die Größe F X (t) zu berechnen, so müssen alle Urbilder (X ≤ t) im Definitionsbereich der Wahrscheinlichkeit P liegen. X ist damit eine Zufallsvariable und
F X (t) die Verteilungsfunktion der Verteilung von X, die ja bekanntlich diese Verteilung vollständig charakterisiert.
Beispiel 1: Bestimme die Verteilung von X(s) = − ln(s) auf dem Wahrscheinlichkeitsraum (R, B, P ), wenn P die U(0, 1)-Verteilung ist.
Die U(0, 1)-Verteilung ist—vgl. (11.85)—durch
P (B) =
λ(B ∩ (0, 1))
= λ(B ∩ (0, 1))
λ((0, 1))
gegeben.
Der natürliche Logarithmus ln(s) ist nur für positive reelle Zahlen s definiert. Wie sich
aus den folgenden Berechnungen ergibt, ist es gleichgültig, wie man die Funktion X(s)
für Zahlen s ≤ 0 festlegt, da die Verteilung P dieser Menge die Wahrscheinlichkeit
Null zuordnet. Wir setzen der Vollständigkeit halber X(s) = 0 für nichtpositive s.
83
Zur Berechnung der Verteilungsfunktion F X (t) spalten wir die Menge (X ≤ t) auf:
(X ≤ t)
=
=
=:
{s ∈ R ; X(s) ≤ t}
{s ≤ 0 ; X(s) ≤ t} + {0 < s < 1 ; − ln(s) ≤ t}
+{s ≥ 1 ; X(s) ≤ t}
+
A−
t + Bt + At
−
+
Da die Mengen A−
t und At disjunkt zum offenen Intervall (0, 1) sind, ist P (At ) =
+
P (At ) = 0 und P (X ≤ t) = P (Bt ).
Für 0 < s < 1 ist − ln(s) > 0, so dass Bt = ∅, wenn t ≤ 0 und
Bt = {0 < s < 1 ; s ≥ e−t } = [e−1 , 1)
für t > 0.
Daraus folgt
F X (t) =
0
P [e−1 , 1) = 1 − e−t
für t ≤ 0
für t > 0
d.h. F X (t) ist die Verteilungsfunktion der Exponentialverteilung bzw. die Zufallsvariable X ist exponentiell verteilt mit Parameter λ = 1.
Beispiel 2: Beim Schießen auf eine Zielscheibe kommt es nicht auf die genaue Lage
des Treffpunkts an, sondern darauf, in welchem Ring der Treffer liegt. Wir denken
uns die Zielscheibe in eine Ebene mit cartesischem Koordinatensystem eingebettet,
wobei das Zentrum der Zielscheibe mit dem Koordinatenursprung zusammenfallen
soll. Die Treffpunkte sind dann durch Punkte (x1 , x2 ) aus dem R2 charakterisiert und
die Information, in welchem Ring der Treffpunkt liegt, ist im Abstand
q
X(x1 , x2 ) = x21 + x22
des Treffpunkts vom Zentrum enthalten.
Als Wahrscheinlichkeitsgesetz für die Treffpunkte wählen wir die absolutstetige zweidimensionale Verteilung P mit der Dichte
f (x1 , x2 ) =
1 − 1 (x21 +x22 )
e 2
2π
Die Mengen
(X ≤ t) = {(x1 , x2 ) ∈ R2 ;
q
x21 + x22 ≤ t} =: Bt
enthalten für t < 0 keine Elemente, da die Quadratwurzel nichtnegative Werte hat.
Für t ≥ 0 handelt es sich um die Kreisscheiben mit Radius t, also um zweidimensionale
Borelsche Mengen. X ist damit eine Zufallsvariable auf dem Wahrscheinlichkeitsraum
(R2 , B2 , P ) und für die Verteilungsfunktion F X (t) der Verteilung dieser Zufallsvariablen gilt
für t < 0
X
R0
F (t) = P (Bt ) =
f
(x
,
x
)d(x
,
x
)
für t ≥ 0
1
2
1
2
Bt
84
Zur Auswertung des Integrals parametrisieren wir die Menge Bt durch Polarkoordinaten:
x1
x2
= r cos(φ)
= r sin(φ)
mit 0 ≤ r ≤ t, 0 ≤ φ < 2π und der Jacobischen Funktionaldeterminante
∂(x1 , x2 )
=r
∂(r, φ)
Wegen
x21 + x22 = r2 (cos2 (φ) + sin2 (φ)) = r2
erhält man
Z t Z
1 − 1 r2
2
f (x1 , x2 )d(x1 , x2 ) =
dφ dr
re
2π
0
0
Bt
Z t
h
i
1 2 t
1 2
re− 2 r dφdr = −e− 2 r
=
Z
2π
0
0
=
− 21 t2
1−e
Die eindimensionale Verteilung mit der Verteilungsfunktion
(
0
für t ≤ 0
2
F (t) =
− 12 ( βt )
1−e
für t > 0
(12.116)
heißt die Rayleigh-Verteilung mit Parameter β (> 0).
Die Verteilung von X ist somit die Rayleighverteilung mit Parameter β = 1 und die
Wahrscheinlichkeit, dass der Treffpunkt in einem Ring liegt, von der Form
2
P (a ≤ X ≤ b) = P X [a, b] = F X (b) − F X (a) = e−0.5a − e−0.5b
85
2
13 Funktionen von Zufallsvariablen
Eine der häufigsten Problemstellungen in den Anwendungen der Wahrscheinlichkeitsrechnung ist die Bestimmung der Verteilung von Zufallsvariablen, die Funktionen anderer Zufallsvariablen sind, wie z.B.
Y1 (ω) = X12 (ω) + X22 (ω)
Y2 (ω) = a1 X1 (ω) + a2 X2 (ω) + a3 X3 (ω)
usw.
Wir betrachten in diesem Kapitel allgemein die folgende Situation:
Gegeben sind Zufallsvariable X1 , X2 , . . . , Xn auf einem Wahrscheinlichkeitsraum (Ω, A, P )
und m reelle Funktionen
yi = Gi (x1 , . . . , xn )
i = 1, . . . , m
von n reellen Argumenten x1 , . . . , xn .
Daraus werden Funktionen
Yi (ω) = Gi X1 (ω), . . . , Xn (ω)
(13.117)
gebildet.
Zur Vereinfachung der Schreibweise fassen wir diese Funktionen zu vektorwertigen
Abbildungen X : Ω −→ Rn , G : Rn −→ Rm und Y : Ω −→ Rm zusammen:
X(ω) = X1 (ω), X2 (ω), . . . , Xn (ω)
G(x) = G1 (x), G2 (x), . . . , Gm (x) mit x = (x1 , . . . , xn )
Y (ω) = Y1 (ω), Y2 (ω), . . . , Ym (ω)
Die Gleichungen (13.117) schreiben wir kurz
oder — ohne Argument —
Y (ω) = G X(ω)
Y =G◦X
(13.118)
(13.119)
und nennen Y die Komposition von X und G.
13.1 Zufallsvektoren
Um Wahrscheinlichkeiten berechnen zu können, müssen die Abbildungen X, G und Y
messbar bezüglich der jeweiligen σ-Algebren sein.
Wir nennen eine Abbildung X : Ω −→ Rn auf der Ergebnismenge eines Wahrscheinlichkeitsraums (Ω, A, P ), die bezüglich A und der σ-Algebra Bn der n-dimensionalen
Borelschen Mengen messbar ist, einen Zufallsvektor oder eine n-dimensionale Zufallsvariable.
86
Für jedes ω ∈ Ω ist der Wert X(ω) eines solchen Zufallsvektors ein Vektor, dessen
Komponenten wir mit Xk (ω) bezeichnen
X(ω) = X1 (ω), X2 (ω), . . . , Xn (ω)
Die dadurch festgelegten Funktionen Xk : Ω −→ R nennen wir die Komponenten
des Zufallsvektors X und schreiben kurz
X = (X1 , X2 , . . . , Xn )
Für die Beziehung zwischen Zufallsvektoren und Zufallsvariablen gilt der folgende Satz,
den wir nur zitieren aber nicht beweisen:
Satz 13.1 X = (X1 , X2 , . . . , Xn ) ist ein Zufallsvektor genau dann, wenn alle Komponenten Zufallsvariable sind.
Man kann also stets eine beliebige Anzahl Z1 , Z2 , . . . , Zm von Zufallsvariablen zu einer
vektorwertigen Funktion Z = (Z1 , . . . , Zm ) zusammen fassen und als Zufallsvektor
behandeln.
13.2 Der Kompositionssatz für Zufallsvektoren
Wie eingangs dieses Kapitels beschrieben, wird das Problem behandelt, die Verteilung
der Komposition Y = G ◦ X zu berechnen unter der Voraussetzung, dass die (ndimensionale) Verteilung P X des Zufallsvektors X und die Vektorfunktion G bekannt
sind.
Unter der Voraussetzung, dass Y ein Zufallsvektor ist, lässt sich diese Situation durch
das Diagramm
(Ω, A, P )
HH
X
HH
HH
Y =G◦X
H
-
HH
(Rn , Bn , P X )
G
HH
j
?
(R , Bm , P )
m
veranschaulichen.
Die Wahrscheinlichkeit P kann dabei einmal die Verteilung P Y des Zufallsvektors Y
auf (Ω, A, P ) sein und zum anderen die Verteilung P G der Abbildung G bezüglich des
Wahrscheinlichkeitraums (Rn , Bn , P X ). Wie dieses Diagramm schon suggeriert, gilt
der
87
Satz 13.2 Sind X : Ω −→ Rn und G : Rn −→ Rm Zufallsvektoren, dann ist auch
Y = G ◦ X ein Zufallsvektor und Y und G besitzen die gleiche Verteilung: P Y = P G .
Beweis: Zu zeigen ist, dass für beliebige Borelsche Mengen B ⊂ Rm das Urbild (Y ∈ B)
in der σ-Algebra A liegt und P Y (B) = P G (B) gilt.
1. Sei A = (G ∈ B). Da G ein Zufallsvektor ist, ist A eine Borelsche Menge im Rn
und für beliebige ω ∈ Ω gilt
ω ∈ (Y ∈ B) ⇐⇒ Y (ω) = G X(ω) ∈ B
⇐⇒ X(ω) ∈ (G ∈ B) = A
⇐⇒ ω ∈ (X ∈ A)
d.h.
(Y ∈ B) = (X ∈ A) = X ∈ (G ∈ B)
2. Da X ein Zufallsvektor ist, ist (X ∈ A) und damit (Y ∈ B) ein Ereignis aus A.
Y ist also auch ein Zufallsvektor.
3. Weiter gilt nach Definition der Verteilung einer Zufallsgröße
P Y (B)
= P (Y ∈ B) = P (X ∈ A) =
= P X (A) = P X (G ∈ B) =
= P G (B)
und damit, dass es sich bei P Y und P G um das gleiche Wahrscheinlichkeitsgesetz
handelt.
♦
13.3 Mehrdimensionale Verteilungen
Nach Satz 13.2 besteht das Problem jetzt also in der Bestimmung der Verteilung P G
in dem Schema
G
(Rn , Bn , P X ) −→ (Rm , Bm , P G )
wobei die Funktion G : Rn −→ Rm und die Verteilung P X als bekannt vorausgesetzt
sind.
Da wir uns in dieser Vorlesung nicht mit der allgemeinen Charakterisierung von ndimensionalen Verteilungen befassen, setzen wir für das Weitere die in der Praxis fast
ausschließlich relevante Situation voraus, dass die Verteilung P X absolutstetig
mit einer Dichte f (x) = f (x1 , x2 , . . . , xn ) ist:
Z
X
P (B) = 1B (x)f (x)dx
(13.120)
88
13.4 Marginalverteilungen
Als erstes versuchen wir, die Verteilungen der Komponenten eines Zufallsvektors zu
berechnen.
Definition 13.1 Die Verteilung P Xk der k-ten Komponente eines Zufallsvektors X =
(X1 , X2 , . . . , Xn ) heißt die k-te Marginalverteilung oder k-te Randverteilung von
P X.
Mit der Funktion Zk : Rn −→ R, Zk (x1 , x2 , . . . , xn ) = xk , lässt sich die k-te Komponente als Komposition Xk = Zk ◦ X darstellen. Es ist daher P Xk = P Zk und für
Borelsche Teilmengen B ⊂ R erhält man
Z
P Zk (B) = P X (Zk ∈ B) = 1(Zk ∈B) (x)f (x)dx
wenn P X die Dichte f besitzt.
Um die Vorgehensweise zu verdeutlichen, nehmen wir konkrete Zahlen: Sei n = 3 und
k = 2, x = (x1 , x2 , x3 ). Es gilt dann
(Z2 ∈ B) = {x = (x1 , x2 , x3 ) ; x2 ∈ B}
und wegen
x ∈ (Z2 ∈ B) ⇔ x2 ∈ B
ist
1(Z2 ∈B) (x) = 1B (x2 ).
Damit erhalten wir nach dem Satz von Fubini, wobei wir zur Verdeutlichung den
Integrationsbereich am Integralzeichen vermerken,
R
1
(x , x2 , x3 )f (x1 , x2 , x3 )d(x1 , x2 , x3 )
R3 (Z2 ∈B) 1
R R
R
=
1 (x ) R R f (x1 , x2 , x3 )dx1 dx3 dx2
R B 2
R
=
1 (x )f (x )dx2
R B 2 2 2
P Z2 besitzt also – wie aus der letzten Zeile ersichtlich – die Dichte
Z Z
f2 (x2 ) =
f (x1 , x2 , x3 )dx1 dx3 .
R
R
Im allgemeinen Fall erhalten wir für P Zk auf die gleiche Weise die Dichte
Z
Z
...
fk (xk ) =
f (x1 , x2 , . . . , xn )
| R {z R}
(n−1)-mal
dx1 . . . dxk−1 dxk+1 . . . dxn .
Bezeichnung: fk heißt die k-te Marginaldichte oder k-te Randdichte von f .
89
Beispiel: Die Marginaldichten von
−x
e 2
f (x1 , x2 ) =
0
falls x1 > 0 und x2 > x1
sonst
1. Marginaldichte:
R Ist x1 ≤ 0, so ist die Funktion x2 7−→ f (x1 , x2 ) identisch Null und
daher f1 (x1 ) = R f (x1 , x2 )dx2 = 0.
Für x1 > 0 ist x2 7−→ f (x1 , x2 ) nur im Bereich x2 > x1 von Null verschieden, so dass
Z ∞
Z ∞
Z
e−x2 dx2 = e−x1
f (x1 , x2 )dx2 =
f (x1 , x2 )dx2 =
f1 (x1 ) =
x1
x1
R
2. Marginaldichte:
R Ist x2 ≤ 0, so ist die Funktion x1 7−→ f (x1 , x2 ) identisch Null und
daher f2 (x2 ) = R f (x1 , x2 )dx1 = 0.
Für x2 > 0 ist x1 7−→ f (x1 , x2 ) nur im Bereich 0 < x1 < x2 von Null verschieden, so
dass
Z x2
Z x2
Z
e−x2 dx1 = x2 e−x2
f (x1 , x2 )dx1 =
f (x1 , x2 )dx1 =
f2 (x2 ) =
R
0
0
13.5 Stochastische Unabhängigkeit von Zufallsvariablen
Die stochastische Unabhängigkeit von Zufallsvariablen wird wie im diskreten Fall definiert:
Definition 13.2 Zufallsvariable X1 , X2 , . . . , Xn auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) heißen stochastisch unabhängig, wenn für beliebige Borelsche Mengen B1 ,
B2 , . . . , Bn aus R gilt
P (X1 ∈ B1 ) ∩ (X2 ∈ B2 ) ∩ . . . ∩ (Xn ∈ Bn )
= P (X1 ∈ B1 ) · P (X2 ∈ B2 ) · . . . · P (Xn ∈ Bn )
(13.121)
Mit Hilfe der Marginaldichten lässt sich feststellen, ob die Komponenten eines Zufallsvektors X = (X1 , X2 , . . . , Xn ) stochastisch unabhängig sind.
Satz 13.3 Sei X = (X1 , X2 , . . . , Xn ) ein Zufallsvektor, dessen Verteilung P X die
Dichte f besitzt. Dann gilt:
Die Komponenten X1 , X2 , . . . , Xn sind genau dann stochastisch unabhängig, wenn es
Dichten fk : R −→ R gibt, so dass für fast alle Vektoren x = (x1 , x2 , . . . , xn ) ∈ Rn
gilt
f (x1 , x2 , . . . , xn ) = f1 (x1 )f2 (x2 ) · · · fn (xn ).
Die fk sind dabei die Marginaldichten von f .
Beweis: Die linke Seite von (13.121) lässt sich wegen
(X1 ∈ B1 ) ∩ (X2 ∈ B2 ) ∩ . . . ∩ (Xn ∈ Bn ) = (X ∈ B1 × B2 × · · · × Bn )
90
mit dem kartesischen Produkt B1 × B2 × · · · × Bn der Mengen Bk und wegen der
Identität
1B1 ×B2 ×···×Bn (x1 , x2 , . . . , xn )
= 1B1 (x1 )1B2 (x2 ) · · · 1Bn (xn )
für die Indikatorfunktionen mit Hilfe der Dichte f durch ein Integral darstellen:
P ((X1 ∈ B1 ) ∩ (X2 ∈ B2 ) ∩ . . . ∩ (Xn ∈ Bn ))
X
= P
R (B1 × B2 × · · · × Bn )
= Rn 1B1 (x1 )1B2 (x2 ) · · · 1Bn (xn )f (x1 , x2 , . . . , xn )d(x1 , x2 , . . . , xn )
Wegen
P (Xk ∈ Bk ) = P Xk (Bk ) =
Z
(13.122)
1Bk (xk )fk (xk )dxk
erhält man für die rechte Seite von (13.121)
Qn
P (Xk ∈ Bk )
(13.123)
R
Qn k=1
1
(x
)f
(x
)dx
=
Bk
k k k
k
k=1
R
= Rn 1B1 (x1 )1B2 (x2 ) · · · 1Bn (xn )f1 (x1 )f2 (x2 ) · · · fn (xn )d(x1 , x2 , . . . , xn )
Sind die X1 , X2 , . . . , Xn stochastisch unabhängig, so folgt aus der Gleichung (13.121)
und diesen Darstellungen, dass für beliebige Borelsche Mengen Bk die Integrale (13.122)
und (13.123) gleich sind, woraus folgt, dass für fast alle x = (x1 , x2 , . . . , xn ) gilt:
f (x1 , x2 , . . . , xn ) = f1 (x1 )f2 (x2 ) · · · fn (xn ).
(13.124)
Ist umgekehrt die Dichte f von der Form
f (x1 , x2 , . . . , xn ) = g1 (x1 )g2 (x2 ) · · · gn (xn )
mit Dichten gk , so sind die Marginaldichten nach der obigen Formel gleich
fZk (xk )Z
...
=
g1 (x1 )g2 (x2 ) · · · gn (xn )
| R {z R}
(n−1)-mal
dx1 . . . Zdxk−1 dxk+1 . . . dx
Zn
= gk (xk )
g1 (x1 )dx1 . . .
gn (xn )dxn
R
R
|
{z
} |
{z
}
=1
=1
= gk (xk ),
d.h., es gilt (13.124). Daraus folgt aber wiederum für beliebige Borelsche Mengen Bk
die Gleichung (13.121), d.h., die stochastische Unabhängigkeit der Komponenten Xk .
Funktionen von Zufallsvariablen: Für die stochastische Unabhängigkeit von Funktionen von Zufallsvariablen benötigt man noch einen Satz, dessen Aussage unmittelbar
einleuchtet:
91
Satz 13.4 Sind X1 und X2 stochastisch unabhängige Zufallsvariable und sind Gi :
R −→ R für i = 1, 2 B − B-messbare Funktionen, so sind die Zufallsvariablen Y1 =
G1 ◦ X1 und Y2 = G2 ◦ X2 ebenfalls stochastisch unabhängig.
Beweis
Für eindimensionale Borelsche Mengen B1 und B2 sind—wie im Beweis des Kompositionssatzes 13.2 bereits verwendet—die Mengen Ai = (Gi ∈ Bi ) ebenfalls Borelsch und
es gilt (Yi ∈ Bi ) = (Xi ∈ Ai ). Daraus folgt wegen der stochastischen Unabhängigkeit
der Xi , dass
P [(Y1 ∈ B1 ) ∩ (Y2 ∈ B2 )]
= P [(X1 ∈ A1 ) ∩ (X2 ∈ A2 )]
= P (X1 ∈ A1 ) · P (X2 ∈ A2 )
= P (Y1 ∈ B1 ) · P (Y2 ∈ B2 )
und damit die stochastische Unabhängigkeit der Yi .
♦
13.6 Der Transformationssatz für Dichten
Eines der wichtigsten Hilfsmittel zur Berechnung der Verteilung eines Zufallsvektors
Y = G ◦ X bei bekannter Verteilung P X des Zufallsvektors X ist der sogenannte
Transformationssatz für Dichten. Wie im Abschnitt 13.2 dargelegt, ist die Verteilung
von Y gleich der des Zufallsvektors G in der durch das Diagramm
G
(Rn , Bn , P X ) −→ (Rn , Bn , P G )
beschriebenen Situation, wobei wir wieder annehmen, dass die Verteilung P X die Dichte f (x1 , . . . , xn ) besitzt und die Verteilung des Zufallsvektors G : Rn −→ Rn mit den
Komponentenfunktionen
y1
y2
= G1 (x1 , x2 , . . . , xn )
= G2 (x1 , x2 , . . . , xn )
..
.
yn
= Gn (x1 , x2 , . . . , xn )
(13.125)
berechnet werden muss. Für diese Verteilung gilt gemäß Definition
Z
P G (B) = P X (G ∈ B) = 1(G∈B) (x)f (x)dx
Eine Dichte g der Verteilung P G müsste dementsprechend so beschaffen sein, dass die
Gleichung
Z
Z
1B (y)g(y)dy = 1(G∈B) (x)f (x)dx
für beliebige Borelsche Mengen B des Rn erfüllt ist.
92
13.6.1 Der Parametrisierungssatz für Bereichsintegrale
Etwas Ähnliches findet man in der Analysis unter dem Stichwort Substitutionsformel
oder Parametrisierungssatz für Bereichsintegrale. Dort ist üblicherweise eine Funktion
g und eine Menge B vorgegeben, über die die Funktion integriert werden soll. Falls diese
Menge ein etwas kompliziertes Aussehen hat, versucht man sie zu parametrisieren, d.h.
eine einfachere“ Menge IB und eine Parametrisierung G : IB −→ B zu finden, die die
”
Menge IB bijektiv auf B abbildet. Unter Voraussetzungen, die weiter unten aufgeführt
werden, gilt
Z
Z
f (x)dx
(13.126)
g(y)dy =
IB
B
mit der Funktion
f (x) = g(G(x))|JG (x)|
(13.127)
Dabei ist JG (x) die Funktionaldeterminante von G, d.h. die Determinante der
Matrix der partiellen Ableitungen der Komponenten von G:



JG (x) = det 

∂G1
∂x1 (x)
∂G2
∂x1 (x)
..
.
∂Gn
∂x1 (x)
∂G1
∂x2 (x)
∂G2
∂x2 (x)
...
...
..
..
.
.
∂Gn
(x)
.
.
.
∂x2
∂G1
∂xn (x)
∂G2
∂xn (x)
..
.
∂Gn
∂xn (x)





In der Wahrscheinlichkeitsrechnung ist die Situation etwas anders gelagert. Hier ist die
Funktion f und die Parametrisierung vorgegeben und die Funktion g ist zu bestimmen.
Da aber die Gleichung (13.126) immer erfüllt ist, wenn die beiden Funktionen f und g
in der Beziehung (13.127) zueinander stehen, lässt sich dieses Problem einfach dadurch
lösen, dass man die Gleichung (13.127) nach der Funktion g auflöst.
g(G(x)) = f (x)
1
|JG (x)|
Setzt man jetzt y = G(x), was in Komponentenschreibweise das Gleichungssytem
(13.125) ist, und löst dieses System nach den Variablen xk auf:
oder
x1
x2
= G∗1 (y1 , y2 , . . . , yn )
= G∗2 (y1 , y2 , . . . , yn )
..
.
xn
= G∗n (y1 , y2 , . . . , yn )
(13.128)
x = G∗ (y)
mit der Umkehrabbildung G∗ von G, so erhält man
g(y) = f (G∗ (y))
93
1
|JG (G∗ (y))|
(13.129)
13.6.2 Der Transformationssatz für Dichten
Satz 13.5 Es gebe eine offene zusammenhängende Menge M ⊂ Rn so, dass für die
Dichte f (x) der Verteilung P X und den Zufallsvektor G : Rn −→ Rn die nachstehenden Bedingungen erfüllt sind:
1. Für x ∈
/ M ist f (x) = 0
2. Die Komponenten Gj (x) von G sind auf M stetig partiell differenzierbar und es
ist JG (x) 6= 0 für alle x ∈ M .
3. Ist M ∗ = G(M ) = {y ∈ Rn ; y = G(x) mit x ∈ M } das Bild der Menge M
unter G, so ist die Abbildung G : M −→ M ∗ bijektiv mit der Umkehrabbildung
G∗ : M ∗ −→ M .
Dann besitzt die Verteilung P G des Zufallsvektors G die Dichte
f (G∗ (y)) |JG (G1∗ (y))| falls y ∈ M ∗
g(y) =
0
sonst
(13.130)
Beweis: Es ist zu zeigen, dass für die Verteilung P G des Zufallsvektors G und Borelsche
Mengen B ⊂ Rn
Z
P G (B) =
1B (y) g(y)dy
mit der Funktion g(y) aus (13.130). Dazu wird das Problem schrittweise auf eine Situation zurückgeführt, auf die der Parametrisierungssatz anwendbar ist. Die einzelnen
Schritte sind in der Abbildung 17 veranschaulicht. Auf die mehr technischen Details
wie z.B. die Frage, ob die dabei auftretenden Mengen auch wirklich Borelsche Mengen
sind, gehen wir nicht ein.
1. Zunächst wird die Menge B zerlegt:
B = B ∩ M ∗ + B ∩ M ∗ =: B1 + B2
2. Da B2 disjunkt zur Bildmenge M ∗ von M unter der Abbildung G ist, muss das
Urbild (G ∈ B2 ) ganz im Komplement M von M liegen, denn aus x ∈ M würde
G(x) ∈ M ∗ folgen. Da f (x) = 0 für alle x ∈ M und die Funktion (13.130) auf M ∗
verschwindet, ist
Z
P G (B2 ) = P X (G ∈ B2 ) = 1(G∈B2 ) (x)f (x)dx
= Z
0
=
1B2 (y)g(y)dy
3. Da die Abbildung G nur auf M und nicht notwendig auf dem ganzen Rn umkehrbar
eindeutig ist, gibt es eventuell Punkte x ∈
/ M , die durch G in die Menge B1 abgebildet
werden:
(G ∈ B1 ) = {x ∈ M ; G(x) ∈ B1 } + {x ∈ M ; G(x) ∈ B1 } =: I1 + I2
94
n
n
Rx
Ry
G
M*
M
B1
I1
B2
B
I2
Abbildung 17: Zum Transformationssatz für Dichten
mit
P G (B1 ) = P X (G ∈ B1 ) = P X (I1 ) + P X (I2 )
4. Wegen I2 ⊂ M ist—s. Punkt 2—
X
P (I2 ) =
Z
1I2 (x)f (x)dx = 0
5. Die Funktion G eingeschränkt auf die Menge I1 als Definitionsbereich ist eine Parametrisierung der Menge B1 , denn I1 ist das Urbild von B1 , G ist auf M umkehrbar
eindeutig und erfüllt mit den Voraussetzungen 2 und 3 alle für den Parametrisierungssatz erforderlichen Bedingungen, so dass mit der durch (13.130) gegebenen Funktion
g gilt
Z
Z
Z
g(y)dy = 1B1 (y)g(y)dy
f (x)dx =
P G (B1 ) = P X (I1 ) =
B1
I1
6. Zusammen ergibt das
P G (B) = P G (B1 ) + P G (B2 ) =
Z
(1B1 (y) + 1B2 (y))g(y)dy =
Z
1B (y)g(y)dy
♦
Beispiel 1: X1 und X2 seien stochastisch unabhängige und mit Parameter λ exponentiell verteilte Zufallsvariable. Welche Verteilung besitzt der Zufallsvektor Y = (Y1 , Y2 )
mit Y1 = X1 + X2 und Y2 = X1 /X2 ?
95
1. Die Zufallsvariablen X1 und X2 werden als Komponenten eines zweidimensionalen Zufallsvektors X aufgefasst, dessen Verteilung wegen der stochastischen
Unabhängigkeit die Dichte f (x1 , x2 ) = f1 (x1 )f2 (x2 ) besitzt, wobei die Marginaldichten die der Exponentialverteilung mit Parameter λ sind. Das ergibt

 λ2 e−λ(x1 +x2 ) falls x1 > 0
f (x1 , x2 ) =
und x2 > 0

0
sonst
2. Die Menge
M
= {(x1 , x2 ) ; f (x1 , x2 ) > 0}
= {(x1 , x2 ) ; x1 > 0, x2 > 0}
ist offen und zusammenhängend und erfüllt automatisch die Voraussetzung 1 des
Transformationssatzes.
3. Dem Zufallsvektor Y entspricht die Abbildung G mit
y1
y2
= G1 (x1 , x2 )
= G2 (x1 , x2 )
= x1 + x2
= xx21
(13.131)
Diese ist auf der Menge M wohldefiniert und differenzierbar. (Was außerhalb
von M passiert, ist für den Transformationssatz irrelevant).
4. Die Funktionaldeterminante ist
1
JG (x) = 1
x
2
auf M .
1 x1 + x2
6= 0
− xx12 = − x22
2
5. Die Umkehrabbildung G∗ erhält man durch Auflösen des Gleichungssystems
(13.131) nach den Variablen x1 und x2 :
y1 y2
x1 = 1 +
y
(13.132)
y 2
x2 = 1 +1y
2
Aus (13.132) und (13.131) ist offensichtlich, dass die Menge M auf die Menge
M ∗ = {(y1 , y2 ) ∈ R2 ; y1 > 0, y2 > 0} = M
abgebildet wird.
6. f (G∗ (y)) und JG (G∗ (y)) erhält man dadurch, dass in den Formeln für die Funktionen f (x1 , x2 ) und JG (x1 , x2 ) die Variablen x1 und x2 durch die Variablen y1
und y2 gemäß (13.132) oder (13.131) ersetzt werden. Damit erhält man hier für
y = (y1 , y2 ) ∈ M ∗
f (G∗ (y))
JG (G∗ (y))
96
= λ2 e−λy1
(1 + y2 )2
= −
y1
7. Die Dichte des Zufallsvektors G bzw. Y ist daher

1
 y1 λ2 e−λy1 (1+y2 )2
g(y1 , y2 ) =

0
durch
falls y1 > 0
und y2 > 0
sonst
gegeben.
Aus der letzten Formel ersieht man zusätzlich noch, dass g(y1 , y2 ) = g1 (y1 )g2 (y2 ) mit
den Dichten
y1 λ2 e−λy1 falls y1 > 0
g1 (y1 ) =
0
sonst
und
g2 (y2 ) =
1
(1+y2 )2
0
falls y2 > 0
sonst
d.h. dass die Zufallsvariablen Y1 und Y2 stochastisch unabhängig sind.
13.6.3 Berechnung der Verteilung von Zufallsvariablen
Beispiel 2: X1 und X2 seien stochastisch unabhängige und im Intervall (0, 1) uniform verteilte Zufallsvariable. Welche Verteilung besitzt dann die Zufallsvariable Y =
X1 X2 ?
Es ist Y = G1 (X1 , X2 ) mit G1 (x1 , x2 ) = x1 x2 , d.h. man muss die Verteilung einer
Abbildung G1 : R2 −→ R1 berechnen. Auf diese Situation ist der Transformationssatz
für Dichten nicht direkt anwendbar, da eine solche Funktion nicht umkehrbar eindeutig
auf einer offenen Menge M ⊂ R2 sein kann.
Um ihn anwenden zu können, muss man zunächst die Funktion G1 durch eine weitere
Funktion G2 : R2 −→ R zu einer Abbildung G = (G1 , G2 ) des R2 in sich ergänzen, die
alle Voraussetzungen des Transformationssatzes erfüllt. Man erhält dann die Dichte
g(y1 , y2 ) der Verteilung P G dieses Zufallsvektors.
Die gesuchte Verteilung P Y = P G1 ist gemäß dieser Konstruktion gerade die erste
Marginalverteilung von P G . Ihre Dichte erhält man, wie im Unterabschnitt 13.4 ausgeführt, durch das Auswerten des Integrals
Z
g1 (y1 ) = g(y1 , y2 )dy2 .
Fortsetzung des Beispiels: Wegen der Unabhängigkeit der beiden Variablen X1
und X2 besitzt P X die Dichte f (x1 , x2 ) = f1 (x1 )f2 (x2 ), wobei die Marginaldichten
fi (t) = 1(0,1) (t) jeweils die Dichten der U(0, 1)-Verteilung sind. Mit
M = {x = (x1 , x2 ) ∈ R2 ; 0 < x1 < 1 , 0 < x2 < 1 }
ist also
f (x) =
1
0
97
x∈M
sonst
Außerhalb der Menge M ist die Dichte f identisch Null.
Wir ergänzen die Funktion y1 = G1 (x1 , x2 ) = x1 x2 durch y2 = G2 (x1 , x2 ) = x2 .
Auflösung dieser beiden Gleichungen nach den yi ergibt für x2 = y2 6= 0 die Umkehrfunktion G∗ :
x1 = yy21
x2 = y2 ,
wobei die Menge M umkehrbar eindeutig auf die Menge
M ∗ = {y = (y1 , y2 ) ; 0 < y1 < y2 < 1}
abgebildet wird. Die Funktionaldeterminante der Abbildung G ist
x x1 = x2
JG (x) = 2
0
1 und Einsetzen ergibt JG (G∗ (y)) = y2 . Da die Funktion f auf M konstant gleich 1 ist,
braucht man nichts weiter auszurechnen und erhält die Dichte
1 · y12
für 0 < y1 < y2 < 1
g(y1 , y2 ) =
0
sonst
für die Verteilung P G .
Für y1 ≤R 0 und y1 ≥ 1 ist g(y1 , y2 ) = 0 und damit auch die erste Marginaldichte
g1 (y1 ) = g(y1 , y2 )dy2 = 0. Für 0 < y1 < 1 erhält man
g1 (y1 ) =
Z
1
y1
1
dy2 = − log y1 .
y2
13.6.4 Affin lineare Transformationen
Funktionen der Form
Yi = ai1 X1 + ai2 X2 + · · · + ain Xn + bi
mit i = 1, 2, . . . , n lassen sich mit den Vektoren



Y1
X1
 Y2 
 X2



Y = .  , X= .
 .. 
 ..
Yn
Xn
und der Matrix



A=




 ,

a11
a21
..
.
a12
a22
..
.
...
...
..
.
a1n
a2n
..
.
an1
an2
...
ann
98



b=






b1
b2
..
.
bn





in Matrizenschreibweise zu
Y = AX + b
zusammenfassen, wobei X und Y jetzt als Spaltenvektoren von Zufallsvariablen zu
verstehen sind. Es ist Y = G ◦ X mit G(x) = Ax + b und JG (x) = det(A). Falls die
Matrix A nichtsingulär ist, ist die Abbildung G auf dem ganzen Rn bijektiv mit der
Umkehrfunktion G∗ (y) = A−1 (y − b), wo A−1 die Inverse der Matrix A bezeichnet.
Man kann also M = M ∗ = Rn wählen und erhält als Dichte der Verteilung von Y
g(y) =
1
f (A−1 (y − b))
|det(A)|
13.6.5 Faltungen
Um die Verteilung der Summe Y = X1 + X2 zweier Zufallsvariabler zu berechnen,
ergänzt man die Funktion G1 (x1 , x2 ) = x1 + x2 wie im obigen Beispiel 2 durch
G2 (x1 , x2 ) = x2 und erhält die affin lineare Abbildung
1 1
x1
G(x) =
x2
0 1
mit der Umkehrabbildung
∗
G (y) =
1
0
−1
1
y1
y2
=
y1 − y2
y2
Die Dichte des Zufallsvektors G ist dann wegen det(A) = 1 gleich g(y1 , y2 ) = f (y1 −
y2 , y2 ) mit der Dichte f des Zufallsvektors X = (X1 , X2 ) und die Dichte der Verteilung
der Zufallsvariable Y ist die erste Marginaldichte von g:
Z
f (y1 − y2 , y2 )dy2
g1 (y1 ) =
R
Sind die beiden Zufallsvariablen X1 und X2 stochastisch unabhängig, so ist f (x1 , x2 ) =
f1 (x1 )f2 (x2 ) und man erhält die Dichte von Y durch Bilden des Faltungsintegrals
der Dichten f1 und f2 :
Z
g1 (t) =
f1 (t − s)f2 (s)ds
(13.133)
R
Diese Dichte heißt üblicherweise die Faltungsdichte und wird mit f1 ∗ f2 bezeichnet.
Beispiel: Die Zufallsvariablen X1 und X2 seien stochastisch unabhängig und exponentiell verteilt mit Parameter λ, d.h.
λe−λx für x > 0
f1 (x) = f2 (x) =
0
für x ≤ 0
99
Da f2 (x) = 0 für nichtpositive x, kann man die Integration in Formel (13.133) auf den
Bereich der positiven rellen Zahlen beschränken:
Z ∞
g1 (t) =
f1 (t − x)λe−λx dx
0
Ist t ≤ 0, so ist bei nichtnegativer Integrationsvariable x auch das Argument t − x der
Funktion f1 kleiner oder gleich Null und damit der Integrand Null, so dass
g1 (t) = 0 für t ≤ 0
Ist t > 0, so ist der Integrand nur für 0 ≤ x ≤ t von Null verschieden, so dass
Z t
Z t
−λ(t−x)
−λx
2
g1 (t) =
λe
λe
dx = λ
e−λt eλx e−λx dx
0
0
Z t
= λ2 e−λt
1dx = λ2 te−λt
0
13.7 Berechnungsmethoden
Dieser Abschnitt bildet den Abschluss des Themas Verteilungen. Wir zeigen an einem Beispiel einige mögliche Wege zur Berechnung der Verteilung einer Funktion von
Zufallsvariablen auf. Das Problem lautet:
Bestimme die Verteilung der Zufallsvariablen Y = X12 + X22 , wenn X1
und X2 stochastisch unabhängige und N (0, 1)-verteilte Zufallsvariable auf
einem Wahrscheinlichkeitsraum (Ω, A, P ) sind.
Nach dem Leitmotto There is more than one way to do it für die Programmiersprache
Perl [30] führen wir drei Lösungswege vor, die aber bei weitem nicht die einzigen sind.
Als Diagramm stellt sich die Situation wie folgt dar:
(Ω, A, P )
X = (X1 , X2 ) (R2 , B2 , P X )
H
HH
HH
HH
Y
G(x1 , x2 )
HH
HH
j ?
(R, B, . )
100
Dabei ist G(x1 , x2 ) = x21 +x22 und die Verteilung P X besitzt nach Satz 13.3 und (10.81)
die Dichte
1 − 1 (x21 +x22 )
e 2
f (x1 , x2 ) = f1 (x1 )f2 (x2 ) = ϕ(x1 )ϕ(x2 ) =
2π
Nach dem Kompositionssatz 13.2 sind die Verteilungen der Zufallsvariablen Y und
G identisch. Zu berechnen ist daher die Verteilung P G bezüglich des Wahrscheinlichkeitsraums (R2 , B2 , P X ).
13.7.1 Berechnung der Verteilungsfunktion
Bezeichnet Br die Kreisscheibe mit Radius r, so ist
∅
2
2
(G ≤ t) = {(x1 , x2 ) ; x1 + x2 ≤ t} =
B√t
und die Verteilungsfunktion
für t < 0
für t ≥ 0
F G (t) = P G (−∞, t] = P X (G ≤ t)
der Verteilung P G besitzt den Wert F G (t) = 0 für t < 0 und
Z
G
X
√
f (x1 , x2 )d(x1 , x2 )
F (t) = P (B t ) =
B√t
für t ≥ 0.
Wie im Beispiel 2 des Abschnitts 12.2 über Zufallsvariable bereits berechnet, hat dieses
Integral den Wert
√ 2
1
1
F G (t) = 1 − e− 2 ( t) = 1 − e− 2 t
Die Verteilung von G und somit die von Y ist daher gemäß (11.86) die Exponentialverteilung mit dem Parameter λ = 1/2.
13.7.2 Anwendung des Faltungsintegrals
Die Zufallsvariablen Yi = Xi2 sind nach Satz 13.4 ebenfalls stochastisch unabhängig.
Sind g1 und g2 die Dichten der Verteilungen dieser Zufallsvariablen, besitzt die Verteilung von Y = Y1 + Y2 gemäß (13.133) die Faltungsdichte
Z
f Y (t) = g1 ∗ g2 (t) = g1 (t − x) g2 (x)dx
(13.134)
Dazu müssen zunächst diese Dichten berechnet werden. Wir beginnen mit den Verteilungsfunktionen:
F Yi (t) = P (Yi ≤ t) = P (Xi2 ≤ t)
Für t < 0 ist (Xi2 ≤ t) = ∅, weil die Zufallsvariable Xi2 nur nichtnegative Werte
annehmen kann, und daher F Yi (t) = 0.
Ist t ≥ 0, so gilt
√
√
√
√
(Xi2 ≤ t) = {ω ; Xi2 (ω) ≤ t} = ω ; − t ≤ Xi (ω) ≤ t} = (− t ≤ Xi ≤ t)
101
und
√
√ √
√
√ √
F Yi (t) = P (− t ≤ Xi ≤ t) = P (Xi ∈ [− t, t]) = P Xi [− t, t]
P Xi ist die N (0, 1)-Verteilung mit der stetig differenzierbaren Verteilungsfunktion
Φ(t), so dass nach (11.94)
√
√
√ √
F Yi (t) = P Xi [− t, t] = Φ( t) − Φ(− t)
Die Dichte gi erhält man in diesem Fall durch Ableiten der Verteilungsfunktion F Yi .
Für t < 0 ist gi (t) = 0 und für t ≥ 0 nach der Kettenregel für die Differentiation
gi (t) =
√
√ 1
√
d
1
d √
Φ( t) − Φ(− t) = ϕ( t) √ − ϕ(− t) √
dt
dt
2 t
−2 t
Da die Dichte ϕ —siehe Formel 10.81— eine gerade Funktion ist, d.h. ϕ(−x) = ϕ(x),
gilt weiter
√
√
1
1 1
1
gi (t) = √ (ϕ( t) + ϕ( t)) = √ √ e− 2 t
2 t
t 2π
Für die Faltungsdichte (13.134) ergibt sich wie im Beispiel des Abschnitts 13.6.5, dass
f Y (t) = 0 für nichtpositive t und im Bereich t > 0
f Y (t) =
Z
0
t
√
1
1
1
1
1 1
1 1 1
√ e− 2 (t−x) √ √ e− 2 x dx = e− 2 t
2
π
x 2π
t − x 2π
Die Variablensubstitution y =
dy
2
dx = t liefert
Z
t
0
so dass
p
1
(t − x)x
dx =
Z
1
−1
p
2
tx
0
t
p
1
(t − x)x
− 1 mit der Umkehrfunktion x =
1
1−
Z
y2
dy = arcsin(1) − arcsin(−1) =
t
2 (y
dx
+ 1) und
π
π
− (− ) = π
2
2
1 −1t
e 2
2
d.h. die Dichte der Exponentialverteilung mit dem Parameter λ = 1/2.
f Y (t) =
13.7.3 Anwendung des Transformationssatzes
Wenn man die Funktion y1 = G1 (x1 , x2 ) = x21 + x22 durch y2 = G2 (x1 , x2 ) = x22 zu
einer Abbildung G = (G1 , G2 ) : R2 −→ R2 ergänzt, so erfüllt diese zunächst einmal
nicht die Voraussetzungen des Transformationssatzes für Dichten.
1. Die Abbildung G besitzt die Funktionaldeterminante
JG (x1 , x2 ) = det
102
2x1
0
2x2
2x2
= 4x1 x2
die auf der Menge
N = (x1 , x2 ) ∈ R2 ; x1 = 0 oder x2 = 0
verschwindet. Dies stellt jedoch kein großes Problem dar, denn diese Menge —
das Achsenkreuz eines cartesischen Koordinatensystems im R2 — ist eine Nullmenge.
2. Alle Punkte (x1 , x2 ) 6∈ N werden durch G wegen x21 > 0 und x22 > 0 in die Menge
M ∗ = (y1 , y2 ) ∈ R2 ; 0 < y2 < y1
abgebildet. G ist jedoch nicht eindeutig umkehrbar, denn zu jedem (y1 , y2 ) ∈ M ∗
gibt es vier verschiedene Urbildpunkte
√
x11 = y1 − y2
√
x12 = y2
√
x21 = − y1 − y2
√
x22 = y2
√
x31 = − y1 − y2
√
x22 = − y2
√
x41 = y1 − y2
√
x42 = − y2
(13.135)
je einen in einem der vier offenen Quadranten M1 , M2 , M3 und M4 des R2
Wenn man jedoch die Abbildung auf einen dieser Quadranten einschränkt: G :
Mi −→ M ∗ , so besitzt sie dort eine Umkehrfunktion G∗i : M ∗ −→ Mi die
durch die entsprechende Gleichung aus (13.135) gegeben ist und es sind für diese
eingeschränkte Abbildung alle Voraussetzungen des Transformationssatzes erfüllt
(s. Abb. 18).
Das Urbild einer Borelschen Menge B ⊂ M ∗ unter G lässt sich in vier Anteile zerlegen,
die in den verschiedenen Quadranten liegen:
(G ∈ B) = I1 + I2 + I3 + I4
mit
Ii = (G ∈ B) ∩ Mi = {(x1 , x2 ) ∈ Mi ; G(x1 , x2 ) ∈ B}
Daher ist
P G (B) = P (G ∈ B) =
4
X
P (Ii )
i=1
Da durch G und G∗i die Menge Ii eineindeutig auf B abgebildet wird, ist
Z
Z
f (x)dx =
gi (y)dy
P (Ii ) =
B
Ii
mit
gi (y) = f (G∗i (y))
103
1
|JG (G∗i (y))|
Abbildung 18: Anwendung des Transformationssatzes
Unabhängig vom Quadranten gilt stets x21 + x22 = y1 , so dass
1 − 1 y1
e 2
2π
f (G∗i (y) =
Ferner ist
|JG (G∗i (y)|
q
√
√
√
√
= |4 · (± y1 − y2 )(± y2 )| = 4 y1 − y2 y2 = 4 y1 y2 − y22
denn durch die Bildung des Absolutbetrages geht die Information über das Vorzeichen
verloren. Die Funktionen gi (y) sind also alle gleich:
1
gi (y1 , y2 ) = e− 2 y1
8π
Damit ergibt sich
G
P (B) =
Z X
4
gi (y)dy =
B i=1
mit
g(y1 , y2 ) =
Z
p
1
y1 y2 − y22
4g1 (y)dy =
B
1 − 1 y1 1
1
p
e 2
2
π y1 y2 − y22
Z
g(y)dy
B
(13.136)
Das Urbild einer Menge B, die zu M ∗ disjunkt ist, ist entweder leer oder in der
Nullmenge N enthalten, so dass für eine derartige Menge
104
P G (B) = P (G ∈ B) =
Z
f (x)dx = 0
(G∈B)
Setzt man g(y) = 0 auf M ∗ und gleich (13.136) auf M ∗ , so gilt für beliebige Integrationsbereiche B
Z
P G (B) =
g(y)dy
B
d.h. g(y) ist Dichte der Verteilung P G des Zufallsvektors G.
Da jedoch nicht die Verteilung des Zufallsvektors sondern die seiner ersten Komponente
G1 zu bestimmen ist, muss noch die erste Marginaldichte
Z
g1 (y1 ) = g(y1 , y2 )dy2
berechnet werden.
Ist y1 ≤ 0, so liegt der Punkt (y1 , y2 ) in M ∗ . Für solche Punkte ist der Integrand
g(y1 , y2 ) und damit auch g1 (y1 ) gleich Null.
Für positive Argumente y1 liegt (y1 , y2 ) nur dann in der Menge M ∗ , wenn 0 < y2 < y1 ,
so dass nach (13.136)
g1 (y1 ) =
Z
y1
g(y1 , y2 )dy2
Z
1
1 − 1 y1 1 y1
p
e 2
dy2
2
π 0
y1 y2 − y22
0
=
Wie im vorhergehenden Abschnitt 13.7.2 vorgeführt, hat das letzte Integral den Wert
π, so dass das Ergebnis dieser Berechnungsvariante ebenfalls lautet, dass die Zufallsvariable X12 + X22 mit Parameter 1/2 exponentiell verteilt ist.
105
14 Erwartungswert und Varianz
Der Erwartungswert einer Zufallsvariablen X : Ω −→ R auf einem Wahrscheinlichkeitsraum (Ω, A, P ) wurde in dieser Vorlesung bisher definiert als der Mittelwert der
Verteilung P X dieser Zufallsvariablen:
P
y f X (y) falls P X diskret mit WF f X
X
R y∈X
EX = m1 (P ) =
X
yf (y)dy
falls P X absolutstetig mit Dichte f X
(14.137)
In diesem Kapitel werden die Konzepte Erwartungswert und Mittelwert auf alle Typen von Verteilungen erweitert und es werden Regeln für die Berechnung des
Erwartungswerts einer Funktion Y = G ◦ X von Zufallsvariablen hergeleitet.
Als Ansatzpunkt für Definition und Rechenregeln dient uns dabei die Formel (8.71)
X
X(ω) P {ω}
EX =
ω∈Ω
die im Abschnitt 8.3 für diskrete Wahrscheinlichkeitsräume (Ω, 2Ω , P ) bewiesen wurde.
Als Verallgemeinerung dieser Summe führen wir im folgenden Abschnitt für allgemeine
Wahrscheinlichkeitsräume (Ω, A, P ) das Konzept des P -Integrals ein.
14.1 Das P-Integral einer Zufallsvariablen
Wie beim Lebesgue-Integral beginnt man bei der Definition eines Integrals einer Zufallsvariablen X : Ω −→ R auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit einem
möglichst einfachen Typ von Funktionen, mit dem man in einem weiteren Schritt allgemeine Zufallsvariablen approximieren kann.
14.1.1 Treppenfunktionen
Eine Funktion X : Ω −→ R heißt eine Treppenfunktion, wenn es eine Partition
(Ak , k ∈ I) von Ω (s. Definition 4.2) mit einer endlichen oder abzählbar unendlichen
Indexmenge I und reellen Zahlen xk , k ∈ I, gibt, so dass X(ω) = xk für ω ∈ Ak .
6
x4
x2
x1 = x3
-Ω
A1
A2
A3
A4
Abbildung 19: Eine Treppenfunktion
106
Eine derartige Funktion kann man mit Hilfe der Indikatorfunktion in geschlossener
Form darstellen:
X
X(ω) =
xk 1Ak (ω)
(14.138)
k∈I
Ist ω ∈ Ak0 , so ist 1Ak0 (ω) = 1 und — da die Ak paarweise disjunkt sind — 1Ak (ω) = 0
für alle k 6= k0 , so dass die rechte Seite von (14.138) den Wert xk0 annimmt.
Wie in der Skizze 19 veranschaulicht schließen wir nicht aus, dass die Funktionswerte
xk von X auf mehreren der Mengen Ak gleich sind. Wenn man derartige Mengen
jeweils zu einer Menge zusammenfasst erhält man eine Darstellung der Form (14.138),
in der die Zahlen xk paarweise verschieden sind. Eine derartige Darstellung nennen
wir im folgenden eine Normaldarstellung der Treppenfunktion X.
In diesem Fall ist X = {xk ; k ∈ I} der abzählbare Wertebereich der Funktion X
und (X = xk ) = Ak . Da die Mengen Ak in der σ-Algebra A liegen, ergibt sich aus
Definition 8.1, dass eine Treppenfunktion nichts anderes ist als eine Zufallsvariable mit
diskreter Verteilung. Die Normaldarstellung lässt sich mit diesen Bezeichungen auch
als
X
X(ω) =
y · 1(X=y) (ω)
(14.139)
y∈X
schreiben.
14.1.2 Das P-Integral einer Treppenfunktion
Eine Treppenfunktion (14.138) heißt P-integrabel, wenn
X
|xk | P (Ak ) < ∞
(14.140)
k∈I
Ist die Treppenfunktion P -integrabel, so kann man zeigen, dass für jede andere Darstellung
X
yi 1Bj (ω)
X(ω) =
j∈J
bei der die Mengen Bj ∈ A nicht einmal paarweise disjunkt sein müssen, die Gleichung
X
X
yj P (Bj )
(14.141)
xk P (Ak ) =
j∈J
k∈I
gilt, d.h. der Wert der Summe ist nicht von der speziellen Darstellung sondern nur von
der Funktion X und der Wahrscheinlichkeit P abhängig. Daher legen wir fest:
Definition 14.1 Ist die Treppenfunktion (14.138) P -integrabel, so heißt
Z
X
xk P (Ak )
X(ω) P (dω) :=
k∈I
das P-Integral der Treppenfunktion X.
107
R
R
An Stelle von X(ω) P (dω) schreiben wir auch kurz X dP .
Wenn wir gemäß (14.141) die Normaldarstellung (14.139) von X verwenden, so ist
Z
X
X
y P X {y}
y P (X = y) =
X dP =
y∈X
y∈X
=
X
X
y f (y)
y∈X
= m1 (P X )
R
Das P -Integral X dP ist also nichts anderes als der Erwartungswert der diskreten
Zufallsvariablen X:
Z
X dP = EP X
14.1.3 Rechenregeln
1. Die Funktion X(ω) = 1 ist die Treppenfunktion, die auf der gesamten Menge Ω
den Wert 1 annimmt. Daher
Z
1 dP = P (Ω) = 1
(14.142)
2. Nach der Dreiecksungleichung für den Absolutbetrag ist
Z
Z
X
X
X dP = x
P
(A
)
≤
|x
|
P
(A
)
=
|X| dP
k
k k
k
k∈I
(14.143)
k∈I
mit der Funktion |X|(ω) := |X(ω)|
3. Linearkombinationen: Sind
X
X(ω) =
xk 1Ak (ω)
(14.144)
yl 1Bl (ω)
(14.145)
k
X
Y (ω) =
l
Treppenfunktionen mit Partitionen (Ak ) und (Bl ), so bilden die Mengen
Ckl = Ak ∩ Bl
wieder eine Partition (s. Abb. 20) und die Funktionen X und Y besitzen die
Darstellungen
XX
X(ω) =
(14.146)
xk 1Ckl (ω)
Y (ω)
=
k
l
k
l
XX
108
yl 1Ckl (ω)
(14.147)
A
k
C
km
Bm
Abbildung 20: Partitionen für die Additions- und Produktregel
Die Funktion Z(ω) = a X(ω) + b Y (ω) mit reellen Zahlen a und b ist auf den
Mengen Ckl jeweils konstant:
XX
(a xk + b yl ) 1Ckl (ω)
Z(ω) =
k
l
Sind X und Y beide P -integrabel, so gilt
Z
Z
XX
XX
a X dP + b Y dP = a
xk P (Ckl ) + b
yl P (Ckl )
k
=
k
=
l
XX
Z
k
l
(a xk + b yl ) P (Ckl )
l
Z dP
D.h. Z = aX + bY ist dann ebenfalls P -integrabel und es gilt
Z
Z
Z
(aX + bY ) dP = a X dP + b Y dP
(14.148)
4. Produkte von Treppenfunktionen: Sind (14.144) und (14.145) die Normaldarstellungen der Treppenfunktionen X und Y und sind X und Y stochastisch
109
unabhängig, so gilt wegen Ak = (X = xk ) und Bl = (Y = yl ), dass
P (Ckl ) = P (Ak ∩ Bl ) = P (X = xk ) ∩ (Y = yl )
= P (X = xk ) P (Y = yl ) = P (Ak ) P (Bl )
Für die Funktion Z(ω) = X(ω) Y (ω) mit der Darstellung
XX
Z(ω) =
(xk yl ) 1Ckl (ω)
k
folgt daraus
Z
Z
X dP
Y dP
=
X
k
=
=
xk P (Ak ) ·
XX
k
Z
l
X
yl P (Bl )
l
xk yl P (Ak ) P (Bl ) =
l
XX
k
xk yl P (Ckl )
l
Z dP
Also: Sind X und Y stochastisch unabhängige P -integrable Treppenfunktionen,
so ist XY P -integrabel und es gilt
Z
Z
Z
XY dP = X dP Y dP
(14.149)
5. Eine Zufallsvariable X heißt P-fast überall nichtnegativ, wenn X(ω) ≥ 0
für alle ω mit der eventuellen Ausnahme der Elemente einer Menge N ⊂ Ω mit
P (N ) = 0 gilt. Wir schreiben dafür
X(ω) ≥ 0 (P -f.ü.)
Bei einer Treppenfunktion X bedeutet das, dass bei jedem Summanden in der
Darstellung (14.138) entweder der Funktionswert xk nichtnegativ oder die Wahrscheinlichkeit der Menge Ak gleich Null (oder beides) ist. Daraus folgt, dass die
Summe in Definition 14.1 nichtnegativ ist oder, kurz zusammengefasst
R
X(ω) ≥ 0 (P -f.ü.) ⇒
X dP ≥ 0
(14.150)
14.1.4 Das P -Integral einer Zufallsvariablen.
Ist X eine (beliebige) Zufallsvariable, so sind die Mengen
Ank = X ∈ ( 2kn , k+1
2n ]
= {ω ∈ Ω ; 2kn < X(ω) ≤ k+1
2n }
mit n = 0, 1, 2, . . . und k = . . . , −2, −1, 0, 1, 2, . . . als Urbilder der Intervalle
k k+1
n
,
Ik =
2n 2n
110
Ereignisse aus A und bei festem n für verschiedene k paarweise disjunkt mit
Ω.
Die Folge der Treppenfunktionen
Xn (ω) =
X k
1An (ω)
2n k
P
k
Ank =
(14.151)
k
konvergiert für n → ∞ gleichmäßig gegen X, denn für alle k und alle ω ∈ Ank ist
k
k
1
< X(ω) ≤ n + n
2n
2
2
und daher
|X(ω) − Xn (ω)| = |X(ω) −
k
1
|≤ n
n
2
2
Für diese Treppenfunktionen gilt der
R
Satz 14.1 Existiert für ein n0 das P -Integral Xn0 (ω) P (dω), dann existieren die P Integrale aller dieser Treppenfunktionen und die Folge dieser P -Integrale konvergiert:
Z
Xn (ω) P (dω) =: IX
lim
n→∞
Ist (Yn ) eine weitere Folge von Treppenfunktionen, die gleichmäßig gegen X konvergiert, so existieren die P -Integrale aller dieser Treppenfunktionen und ihre Folge konvergiert ebenfalls gegen IX .
Definition 14.2 Der Limes IX Raus dem obigen Satz heißt
R das P-Integral der Zufallsvariablen X und wird mit X(ω) P (dω) oder kurz X dP bezeichnet.
Die Rechenregeln (14.143), (14.148), (14.149) und (14.150) für Treppenfunktionen
bleiben bei der Limesbildung erhalten. Sie gelten auch für die P -Integrale von beliebigen P -integrablen Zufallsvariablen.
14.1.5 Zusammenhang mit dem Lebesgue-Integral
Ist P eine absolutstetige Verteilung auf dem Rn mit der Dichte f (y) und X : Rn −→ R
eine Zufallsvariable, so ist das P -Integral von X ein spezielles Lebesgue-Integral:
Z
Z
X(y) f (y)dy
(14.152)
X(y) P (dy) =
Rn
Das Symbol P (dy) ist also in dieser Situation einfach als f (y)dy zu lesen.
Wir skizzieren den Beweis dieser Aussage ohne auf technische Details wie die Vertauschbarkeit von Summen oder Limites mit dem Integralzeichen einzugehen.
1. Ist X eine P -integrable Treppenfunktion,
X
X(y) =
yk 1Bk (y) ,
k
111
so gilt
Z
X(y) P (dy)
=
X
yk P (Bk ) =
k
=
Z
X
k
X
!
yk
Z
1Bk (y) f (y)dy
yk 1Bk (y) f (y)dy =
k
Z
X(y) f (y)dy
2. Ist X eine beliebige P -integrable Zufallsvariable und (Xn ) die Folge der Treppenfunktionen (14.151), die X gleichmäßig approximieren, so folgt aus Punkt 1, angewandt
auf Xn , und dem Satz von Lebesgue, dass
Z
Z
Z
Xn (y)f (y)dy
Xn (y) P (dy) = lim
X(y) P (dy) = lim
n→∞
n→∞
Z
Z
=
( lim Xn (y))f (y)dy = X(y)f (y)dy
n→∞
14.1.6 Komposition von Zufallsgrößen.
Der für das Folgende wichtigste Satz ist der über den Zusammenhang der P -Integrale
der Zufallsvariablen Y und G, wenn Y (ω) = G(X(ω)) mit einem Zufallsvektor X, also
in der durch das nachstehende Diagramm beschriebenen Situation.
X
(Ω, A, P ) H
HH
HH
HH
Y =G◦X
-
H
(Rn , Bn , P X )
G
HH
j
H
?
(R, B, P Y )
Satz 14.2 Ist G P X -integrabel, dann ist Y P -integrabel und es gilt
Z
Z
Y (ω) P (dω) = G(y) P X (dy)
Beweis. Wie oben übergehen wir wieder die Details.
1. Ist
X
G(y) =
gk 1Bk (y)
(14.153)
k
eine Treppenfunktion, dann auch Y , denn Y (ω) = G(X(ω)) nimmt auf den Mengen
Ak = (G ∈ Bk ) jeweils konstant den Wert gk an. Für ein P X -integrables G folgt daraus
Z
Z
X
X
X
gk P (Ak ) = Y (ω) P (dω)
gk P (X ∈ Bk ) =
gk P X (Bk ) =
G(y) P X (dy) =
k
k
k
112
2. Der allgemeine Fall von (14.153) folgt wieder aus dem Grenzübergang
Z
Z
Gn (y) P X (dy)
G(y) P X (dy) = lim
n→∞
Z
Z
Gn (X(ω)) P (dω) = G(X(ω) P (dω)
= lim
n→∞
Z
=
Y (ω) P (dω)
mit Treppenfunktionen Gn , die die Zufallsvariable G gleichmäßig approximieren.
♦
14.1.7 Die Momente einer eindimensionalen Verteilung
Ist P eine absolutstetige eindimensionale Verteilung mit der Dichte f (x) und ist die
Funktion Gk (x) = xk P -integrabel, so stellt nach (14.152) das P -Integral
Z
Z
k
x P (dx) = xk f (x)dx
gerade das k-te Moment der Verteilung P dar.
Das Gleiche gilt für den Fall, dass P eine diskrete Wahrscheinlichkeitsverteilung auf
einer abzählbaren Menge X ⊂ R mit der Wahrscheinlichkeitsfunktion f (x) ist. In
diesem Fall ist
X
y k 1{y} (x)
Gk (x) =
y∈X
eine Treppenfunktion und
Z
X
X
y k f (y)
y k P {y} =
xk P (dx) =
y∈X
y∈X
Als Verallgemeinerung unserer bisherigen Definitionen legen wir daher fest:
Definition 14.3 Ist P eine eindimensionale Verteilung und ist die Funktion x 7−→ xk
P -integrabel, so heisst
Z
mk (P ) =
xk P (dx)
(14.154)
das k-te Moment der Verteilung P .
Speziell m1 (P ) nennen wir wieder den Mittelwert.
Für die Funktionen Hk (x) = (x − m1 (P ))k erhält man wie oben
R
Z
k
k
P(x − m1 (P )) fk(x)dx falls P absolutstetig
(x − m1 (P )) P (dx) =
falls P diskret
y (y − m1 (P )) f (y)
und daher die
113
Definition 14.4 Ist P eine eindimensionale Verteilung und ist die Funktion x 7−→
(x − m1 (P ))k P -integrabel, so heisst
Z
m̂k (P ) = (x − m1 (P ))k P (dx)
(14.155)
das k-te zentrale Moment der Verteilung P .
Speziell m̂2 (P ) nennen wir wieder die Varianz der eindimensionalen Verteilung P .
14.2 Der Erwartungswert einer Zufallsvariablen
In der Wahrscheinlichkeitsrechnung nennt man das P -Integral einer Zufallsvariablen X
auf einem Wahrscheinlichkeitsraum (Ω, A, P ) üblicherweise den Erwartungswert von
X und bezeichnet ihn mit EP X. Falls aus dem Zusammenhang eindeutig hervorgeht,
bezüglich welcher Wahrscheinlichkeit P dieser Erwartungswert zu verstehen ist, lässt
man den Index meist weg:
Z
EX = EP X =
X(ω) P (dω)
(14.156)
Die Definition (14.137), die wir bisher verwendet haben, ist in den Fällen, dass P
diskret oder absolutstetig ist, nach wie vor gültig. Mit der Funktion G(x) = x ist
Y (ω) := G(X(ω)) = X(ω). Der Satz 14.153 liefert mit diesem Y
Z
Z
X(ω) P (dω) = x P X (dx)
so dass wir wegen Definition 14.3 sagen können:
Satz 14.3 Der Erwartungswert einer Zufallsvariablen ist der Mittelwert der Verteilung dieser Zufallsvariablen:
EX = m1 (P X )
Allgemeiner erhält man für k = 1, 2, 3, . . . und Gk (x) = xk bzw. Gk (X(ω)) = X k (ω)
die Beziehung
E(X k ) = mk (P X )
(14.157)
zwischen den Momenten und den Erwartungswerten von Potenzen einer Zufallsvariablen X.
Anmerkung zur Schreibweise: Anstelle von E(X k ) schreiben wir in der Folde kürzer
EX k . Um Zweideutigkeiten zu vermeiden, verwenden wir in den Fällen, in denen nicht
der Erwartungswert der k-ten Potenz der Zufallsvariablen sondern die k-te Potenz
ihres Erwartungswerts gemein ist, die Schreibweise (EX)k .
114
14.2.1 Rechenregeln für den Erwartungswert
Mittels des E-Operators formuliert lauten die Rechenregeln 14.1.3 für das P -Integral
von Zufallsvariablen wie folgt:
Regel 1: Für die konstante Zufallsvariable I(ω) = 1 gilt
E1 = 1
(14.158)
Regel 2: Für den Betrag |X|(ω) := |X(ω)| ist
|EX| ≤ E|X|
(14.159)
Regel 3: Sind X und Y P -integrable Zufallsvariable auf einem Wahrscheinlichkeitsraum
(Ω, A, P ), so ist auch die Linearkombination Z(ω) = aX(ω) + bY (ω) + c P integrabel und es gilt
E(aX + bY + c) = a EX + b EY + c
(14.160)
Die Zahl c ist dabei als die konstante Zufallsvariable I multipliziert mit c zu
verstehen.
Regel 4: Sind X und Y P -integrable stochastisch unabhängige Zufallsvariable
auf einem Wahrscheinlichkeitsraum (Ω, A, P ), so ist auch das Produkt Z(ω) =
X(ω)Y (ω) P -integrabel und es gilt
E(XY ) = (EX)(EY )
(14.161)
Regel 5: Ist die Zufallsvariable X P -integrabel und P -fast überall nichtnegativ, dann
ist ihr Erwartungswert nichtnegativ:
EX ≥ 0
falls
X(ω) ≥ 0 (P -f.ü.)
(14.162)
Regel 6: Gilt für zwei Zufallsvariable X und Y , dass mit der eventuellen Ausnahme
der ω aus einer Menge N ⊂ Ω mit P (N ) = 0 stets X(ω) ≤ Y (ω), so ist die
Differenz Y − X P -fast überall nichtnegativ und die Regeln 3 und 5 ergeben
zusammen
EX ≤ EY falls X(ω) ≤ Y (ω) (P -f.ü.)
(14.163)
14.2.2 Funktionen von Zufallsvariablen
Eine häufig auftretende Aufgabe ist die Berechnung des Erwartungswerts einer Funktion von einer oder mehreren Zufallsvariablen.
Ist X = (X1 , X2 , . . . , Xn ) ein Zufallsvektor, dessen n-dimensionale Verteilung P X
eine Dichte f (x) besitzt, und Y = G(X1 , X2 , . . . , Xn ) = G ◦ X eine Funktion der
Komponenten dieses Zufallsvektors, so gilt nach (14.153) und (14.152)
R
R
E Y = R G(X(ω))P (dω) = G(x)P X (dx)
(14.164)
=
G(x)f (x)dx
115
Um den Erwartungswert der Zufallsvariablen Y = G ◦ X zu erhalten, muß man also nicht die Verteilung P Y (= P G ) — etwa nach dem Transformationssatz — und
anschließend den Mittelwert
m1 (P Y ) dieser Verteilung berechnen. Es genügt, das LeR
besguesche Integral G(x)f (x)dx auszuwerten.
Diese Vorgehensweise ist auch dann möglich, wenn die Verteilung P Y gar keine Dichte
besitzt wie im folgenden
Beispiel 1: In einer Eisdiele wird an jedem Abend bei der Eisfabrik die gesamte Menge
q an Eis für den nächsten Tag bestellt. Der Einkaufspreis sei p1 Euro pro Mengeneinheit. Die Tagesnachfrage ist — unter anderem wetterbedingt — zufällig. Wir nehmen
an, daß es sich um eine exponentiell mit Parameter λ verteilte Zufallsvariable X handelt. Gemäß den gesetzlichen Vorschriften darf Eis, das am Abend noch nicht verkauft
ist, nicht gelagert, sondern muss vernichtet werden. Welche Menge an Eis muss —
bei einem Verkaufspreis von p2 Euro pro Mengeneinheit — bestellt werden, damit der
mittlere Gewinn maximal wird?
Der Gewinn in Abhängigkeit von der Nachfrage X und der Bestellmenge q ist die
Zufallsvariable Y = p2 min(X, q) − p1 q, die nach Regel (14.160) den Erwartungswert
EY = p2 E(min(X, q)) − p1 q
besitzt. Für die Zufallsvariable Z(ω) = G(X(ω)) mit G(x) = min(x, q) ist
(X ≤ t) falls t < q
(Z ≤ t) =
Ω
falls t ≥ q
denn Z(ω) nimmt für alle ω nur Werte an, die kleiner oder gleich q sind und für
X(ω) < q ist Z(ω) = X(ω).
Die Verteilungsfunktion F Z der Verteilung von Z ist damit gleich
P (X ≤ t) = F X (t) für t < q
F Z (t) = P (Z ≤ t) =
P (Ω)
=
1
für t ≥ q
Speziell an der Stelle t = q ist
F Z (q − 0) = lim F Z (t) = lim F X (t) = 1 − e−q < 1
t%q
t%q
und
F Z (q) = 1
F Z ist an dieser Stelle nicht stetig, es gibt keine Dichte und die Berechnung des Erwartungswerts gemäß Formel (14.157) scheidet aus.
Die Formel (14.164) dagegen liefert
116
EZ
=
Z
Z
min(x, q)f X (x)dx
∞
min(x, q)λe−λx dx
Z q
Z ∞
=
x λe−λx dx +
q λe−λx dx
=
0
0
=
und damit
q
1
1 − e−λq
λ
p2
1 − e−λq − p1 q =: g(q)
λ
Zur Berechnung der Maximalstelle setzen wir die Ableitung g 0 (q) der Funktion g gleich
Null:
g 0 (q) = p2 e−λq − p1 = 0
EY =
was die Maximalstelle
ergibt.
1
q = ln
λ
p2
p1
Beispiel 2: Die Verteilung der Zufallsvariablen Y = X12 + X22 mit N (0, 1)-verteilten
Variablen Xk lässt sich nicht immer bestimmen, da man ohne zusätzliche Annahmen
die (zweidimensionale) Verteilung des Vektors X = (X1 , X2 ) nicht zur Verfügung hat.
Mit den oben entwickelten Hilfsmitteln kann man aber wenigstens den Erwartungswert
berechnen. Es ist EY = E(X12 ) + E(X22 ) und wegen Xk2 = G(Xk ) mit G(t) = t2 weiter
Z
Z
Z
E(Xk2 ) = G(t)P X (dt) = t2 P X (dt) = m2 (P X ) = m2 (N (0, 1)) = t2 ϕ(t)dt = 1
Beispiel 3: Zur Berechnung des Erwartungswerts der Zufallsvariablen Y = max(X1 , X2 ,
. . . , Xn ) mit n stochastisch unabhängigen U(0, 1)-verteilten Zufallsvariablen Xk könnte
man natürlich analog zur obigen Vorgehensweise das Integral
Z
max(x1 , x2 , . . . , xn )f (x1 , x2 , . . . , xn )d(x1 , x2 , . . . , xn )
auswerten. Einfacher ist hier der Weg über die Verteilung der Zufallsvariable Y .
Wie in den Übungen behandelt, besitzt die Verteilung von Y die Verteilungsfunktion
F Y (t) = F X1 (t)F X2 (t) · · · F Xn (t)
wobei die Verteilungsfunktionen F Xk (t) alle gleich der Verteilungsfunktion der U(0, 1)Verteilung sind:

 0 für t ≤ 0
t für 0 < t < 1
F Xk (t) =

1 für t ≥ 1
117
Damit ist

 0
tn
F Y (t) =

1
für t ≤ 0
für 0 < t < 1
für t ≥ 1
Diese Verteilungsfunktion ist stückweise stetig differenzierbar. Die Dichte fn der Verteilung von Y erhält man also durch Ableiten von F Y .

für t ≤ 0
 0
ntn−1 für 0 < t < 1
fn (t) =

0
für t ≥ 1
Der Erwartungswert von Y ist gemäß Satz 14.3 gleich dem Mittelwert der Verteilung
von Y .
Z
Z 1
Z 1
n
EY = m1 (P Y ) = tfn (t)dt =
tntn−1 dt =
ntn dt =
n
+
1
0
0
14.3 Varianz und Kovarianz
In Definition 14.155 wurde die Varianz einer eindimensionalen Verteilung P in Verallgemeinerung der früher eingeführten Formeln als
Z
2
m̂2 (P ) = (x − m1 (P )) P (dx)
(14.165)
festgelegt.
Ist X : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit
der Verteilung P X , so ist nach Satz 14.3 ihr Erwartungswert gleich dem Mittelwert
ihrer Verteilung: EX = m1 (P X ) und unter Verwendung der Funktion G(x) = (x −
EX)2 lässt sich die Varianz dieser Verteilung in der Form
Z
X
m̂2 (P ) = G(x)P X (dx)
schreiben.
Mit der zusammengesetzten Zufallsvariablen Y = G ◦ X = (X − EX)2 folgt aus Satz
14.153 weiter, dass
Z
X
m̂2 (P ) = Y (w)P (dω)
und dieses P -Integral ist in anderer Bezeichnung der Erwartungswert:
m̂2 (P X ) = EY = E(X − EX)2
Dies führt uns zu der
Definition 14.5 Ist X : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und existieren die entsprechenden Erwartungswerte, so heißt
varP (X) = EP (X − EP X)2
die Varianz der Zufallsvariablen X.
118
Wie schon beim Erwartungswert vereinbart, lassen wir den Index P weg, wenn aus
dem Zusammenhang eindeutig hervorgeht, bezüglich welcher Wahrscheinlichkeit die
Varianz gebildet wird und schreiben
var(X) = E(X − EX)2
(14.166)
14.3.1 Die Ungleichung von Tschebyscheff
Da die Zufallsvariable Y (ω) = (X(ω) − EX)2 für alle ω ∈ Ω nichtnegative Werte
annimmt, folgt aus (14.162), dass stets
var(X) ≥ 0
(14.167)
Ist var(X) = 0, so lässt die Definition dieser Größe als P -Integral der nichtnegativen
Zufallsvariablen Y vermuten, dass ähnlich wie bei einem Lebesgue-Integral für im
wesentlichen alle ω ∈ Ω gilt Y (ω) = (X(ω) − EX)2 = 0 bzw. dass X(ω) für fast alle ω
konstant gleich dem Erwartungswert von X ist.
Zum Beweis dieser Aussage benötigen wir die in früheren Abschnitten bereits hergeleitete Ungleichung von Tschebyscheff in einer etwas allgemeineren Formulierung.
Satz 14.4 Für eine Zufallsvariable X : Ω → R auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) mit Erwartungswert EX und Varianz var(X) und beliebige positive Zahlen
ε > 0 gilt
var(X)
P (|X − EX| > ε) ≤
(14.168)
ε2
Beweis: Die Treppenfunktion Z(ω), die auf der Menge
B = {ω ∈ Ω ; |X(ω) − EX| > ε}
den Wert ε2 annimmt und außerhalb dieser Menge identisch Null ist, besitzt den
Erwartungswert
Z
EZ = Z dP = ε2 P (B) = ε2 P (|X − EX| > ε)
Außerdem ist für alle ω
2
Z(ω) ≤ Y (ω) = (X(ω) − EX)
so dass nach Regel (14.163) EZ ≤ EY oder
ε2 P (|X − EX| > ε) ≤ var(X)
Die Ungleichung (14.168) erhält man, wenn man beide Seiten dieser Ungleichung durch
ε2 dividiert.
♦
119
Um zu sehen, welche Konsequenzen die Eigenschaft var(X) = 0 besitzt, betrachten
wir die Mengen
1
Bn = {ω ∈ Ω ; |X(ω) − EX| > }
n
für n = 1, 2, 3, . . . . Ist |X(ω) − EX| > n1 , dann ist insbesondere auch |X(ω) − EX| >
1
n+1 , woraus folgt, dass die Folge dieser Mengen monoton aufsteigt, so dass nach (2.20)
limn→∞ P (Bn ) = P (B) mit der Menge
B=
∞
[
n=1
Bn = {ω ∈ Ω ; |X(ω) − EX| > 0} = (|X − EX| > 0)
Ist var(X) = 0, so folgt aus der Ungleichung von Tschebyscheff, dass
0 ≤ P (Bn ) ≤ n2 var(X) = 0
und damit P (B) = limn→∞ P (Bn ) = 0. Mit Hilfe des Komplementärereignisses B =
(|X − EX| = 0) = (X = EX) erhalten wir als Konsequenz daher
P (X = EX) = 1
d.h. mit der eventuellen Ausnahme ω aus einer Menge N mit P (N ) = 0 gilt X(ω) =
EX, was wir wie folgt formulieren:
Satz 14.5 Besitzt eine Zufallsvariable X die Varianz Null, so ist X(ω) P -fast überall
gleich einer konstanten Zahl c.
14.3.2 Rechenregeln für die Varianz
Algebraische Ausdrücke: Ausdrücke wie (X − EX)2 und ähnliche, die im folgenden
auftreten, stehen für Zufallsvariablen, d.h. Funktionen in Abhängigkeit vom Ergebnis
2
ω. Im vorliegenden Fall ist es die Funktion, die dem Ergebnis ω die Zahl (X(ω) − EX)
zuordnet. Diesen Term kann man mit den üblichen algebraischen Rechenregeln umformen:
2
(X(ω) − EX)2 = (X(ω)) − 2(EX) · X(ω) + (EX)2
Wenn man die linke und die rechte Seite dieser Gleichung gemäß der obigen Bemerkung
als Zufallsvariable schreibt, erhält man
(X − EX)2 = X 2 − 2(EX) · X + (EX)2
(14.169)
D.h. algebraische Ausdrücke, in denen Zufallsvariablen vorkommen, kann man mit den
aus der Algebra gewohnten Rechenregeln umformen.
Wenn man auf beide Seiten der Gleichung (14.169) den E-Operator anwendet und
beachtet, dass EX =: µ ein Skalar ist, erhält man unter Verwendung der Linearitätseigenschaft (14.159) des Erwartungswerts
E(X − EX)2 = E X 2 − 2µX + µ2
= E(X 2 ) − 2µEX + µ2
= E(X 2 ) − 2(EX)(EX) + (EX)2
120
oder
var(X) = E(X 2 ) − (EX)2
(14.170)
Für die Zufallsvariable Y = aX + b mit reellen Zahlen a und b erhält man mit den
obigen Vorschriften
var(Y ) = E(Y − EY )2
= E [(aX + b) − E(aX + b)]
= E [aX + b − aEX − b]
2
2
2
= E [aX − aEX]
= E a2 (X − EX)2
2
= a2 E (X − EX)
oder
var(aX + b) = a2 var(X)
(14.171)
Für die Varianz der Summe Y = X1 +X2 zweier Zufallsvariablen ergibt sich schließlich
var(X1 + X2 ) = E [(X1 + X2 ) − E(X1 + X2 )]
2
= E [(X1 − EX1 ) + (X2 − EX2 )]
= E(X1 − EX1 )2
2
+ 2E [(X1 − EX1 )(X2 − EX2 )]
+ E(X2 − EX2 )2
oder
var(X1 + X2 ) = var(X1 ) + 2 cov(X1 , X2 ) + var(X2 )
(14.172)
cov(X1 , X2 ) = E [(X1 − EX1 )(X2 − EX2 )]
(14.173)
mit
14.3.3 Die Kovarianz zweier Zufallsvariablen
Definition 14.6 Die Größe (14.173) heißt die Kovarianz der Zufallsvariablen X1
und X2 .
Mit den oben eingeführten algebraischen Rechenregeln für den Erwartungswertoperator läßt sich die Formel (14.173) etwas vereinfachen. Es ist
cov(X1 , X2 ) = E[X1 X2 − (EX1 )X2 − (EX2 )X1 + (EX1 )(EX2 )]
= E(X1 X2 ) − (EX1 )EX2 − (EX2 )EX1 + (EX1 )(EX2 )
= E(X1 X2 ) − (EX1 )(EX2 )
zusammengefaßt also
cov(X1 , X2 ) = E(X1 X2 ) − (EX1 )(EX2 )
(14.174)
Aus der Additionsregel (14.172) für die Varianz und der Produktregel (14.161) für den
Erwartungswert ergibt sich damit der
121
Satz 14.6 Sind die Zufallsvariablen X1 und X2 stochastisch unabhängig , so ist
cov(X1 , X2 ) = 0
und daher
var(X1 + X2 ) = var(X1 ) + var(X2 )
(14.175)
Warnung: Die Umkehrung dieser Aussage ist nicht immer richtig! Aus cov(X1 , X2 ) =
0 folgt normalerweise nicht, dass die beiden Zufallsvariablen stochastisch unabhängig
sind. Als (Gegen-)Beispiel betrachten wir einen Zufallsvektor X = (X1 , X2 ), der auf
der in Abbildung 21 dargestellten Menge
M = {(x1 , x2 ) ∈ R2 , |x1 | + |x2 | ≤ 1}
√
uniform verteilt ist. Nach Phythagoras ist M ein Quadrat mit der Kantenlänge 2
und der Fläche |M | = 2. Die Verteilung P X des Zufallsvektors X besitzt daher die
Dichte
1
falls |x1 | + |x2 | ≤ 1
2
f (x1 , x2 ) =
0 sonst
6x2
@
@
@
@
@
@
@
@
@
@
@
@
@
1 − |x1 |
@
@
x1
−(1 − |x1 |)
@
@
@
Abbildung 21: Beispiel zu Satz 14.6
Da die Dichte f in den beiden Argumenten symmetrisch ist: f (x1 , x2 ) = f (x2 , x1 ),
sind die beiden Marginaldichten gleich.
Z ∞
f2 (t) = f1 (t) =
f (t, x2 )dx2
−∞
122
Für t < −1 oder t > 1 ist f (t, x2 ) = 0 für alle x2 , so dass für diese Argumente
f2 (t) = f1 (t) = 0. Ist −1 ≤ t < 1, so ist
Z
∞
f (t, x2 )dx2 =
−∞
Z
1−|t|
−(1−|t|)
bzw.
f2 (t) = f1 (t) =
1
dx2 = 1 − |t|
2
−1 ≤ t < 0
0≤t≤1
1 + t falls
1 − t falls
Die Erwartungswerte der beiden Komponenten X1 und X2 des Zufallsvektors sind
Z
Z 1
EX2 = EX1 = tf1 (t)dt =
t(1 − |t|)dt = 0
−1
denn die Dichten fi (t) sind gerade und damit die Integranden tfi (t) ungerade Funktionen. Nach (14.174) und (14.164) ergibt sich daher die Kovarianz der beiden Zufallsvariablen X1 und X2 zu
cov(X1 , X2 )
= E(X1 X2 )
Z
=
x1 x2 f (x1 , x2 )d(x1 , x2 )
=
Z
1
1
x1 x2 d(x1 , x2 ) =
2
2
M
=
=
1
2
0
Z
1
−1
Z
1
x1
−1
Z
1−|x1 |
x2 dx2
−(1−|x1 |)
!
dx1
x1 · 0dx1
Die Zufallsvaribalen X1 , X2 sind aber nicht stochastisch unabhängig, denn z.B. auf
dem Dreieck
D = {(x1 , x2 ) ∈ R2 ; 0 < x1 < 1 , 1 − x1 < x2 < 1}
ist f (x1 , x2 ) = 0, während f1 (x1 )f2 (x2 ) = (1 − x1 )(1 − x2 ) > 0.
Weitere Rechenregeln: Aus der definierenden Formel (14.173) ergibt sich direkt,
dass für X1 = X2 = Y
cov(Y, Y ) = var(Y )
(14.176)
Da bei reellwertigen Zufallsvariablen stets X1 (ω)X2 (ω) = X2 (ω)X1 (ω), erhält man
cov(X1 , X2 ) = cov(X2 , X1 )
(14.177)
und aus den Rechenregeln für den Erwartungswert folgt schließlich noch, dass für
Konstante a und b gilt
cov(X1 + a, X2 + b) = cov(X1 , X2 )
123
(14.178)
Die wichtigste Eigenschaft der Kovarianz ist die Bilinearität: Für Zufallsvariablen
X, X1 , X2 , Y , Y1 und Y2 sowie Skalarfaktoren a1 , a2 , b1 und b2 gilt
cov(a1 X1 + a2 X2 , Y ) = a1 cov(X1 , Y ) + a2 cov(X2 , Y )
(14.179)
und
cov(X, b1 Y1 + b2 Y2 ) = b1 cov(X, Y1 ) + b2 cov(X; Y2 )
(14.180)
Die Eigenschaft (14.179) leitet man mit Hilfe der Rechenregeln für den Erwartungswert
auf die folgende Weise her:
cov(a1 X1 + a2 X2 , Y )
= E[a1 X1 + a2 X2 − E(a1 X1 + a2 X2 )](Y − EY )
= E(a1 X1 + a2 X2 − a1 EX1 − a2 EX2 )(Y − EY )
= E[a1 (X1 − EX1 ) + a2 (X2 − EX2 )](Y − EY )
= E[a1 (X1 − EX1 )(Y − EY ) + a2 (X2 − EX2 )(Y − EY )]
= a1 E(X1 − EX1 )(Y − EY ) + a2 E(X2 − EX2 )(Y − EY )
= a1 cov(X1 , Y ) + a2 cov(X2 , Y )
Zum Nachweis von (14.180) verwendet man (14.179) und (14.177) :
cov(X, b1 Y1 + b2 Y2 ) =
cov(b1 Y1 + b2 Y2 , X)
= b1 cov(Y1 , X) + b2 cov(Y2 , X)
= b1 cov(X, Y1 ) + b2 cov(X, Y2 )
Mann kann schließlich die beiden Gleichungen zusammenfassen und auf Linearkombinationen mit mehr als zwei Summanden ausdehnen. Wie man leicht nachvollzieht, gilt
!
m
n
m X
n
X
X
X
cov
ai Xi ,
bk Yk =
ai bk cov(Xi , Yk ) = a> CXY b
(14.181)
i=1
k=1
i=1 k=1
>
wobei a der Zeilenvektor mit den Komponenten ai , b der Spaltenvektor mit den
Komponenten bk und CXY die m × n-Matrix


cov(X1 , Y1 ) cov(X1 , Y2 ) . . . cov(X1 , Yn )
 cov(X2 , Y1 ) cov(X2 , Y2 ) . . . cov(X2 , Yn ) 




..
..
..
..


.
.
.
.
cov(Xm , Y1 ) cov(Xm , Y2 ) . . . cov(Xm , Yn )
ist.
14.3.4 Die Kovarianzmatrix eines Zufallsvektors
Für einen Zufallsvektor X = (X1 , X2 , . . . , Xn )

cov(X1 , X1 ) cov(X1 , X2 )
 cov(X2 , X1 ) cov(X2 , X2 )

CX = 
..
..

.
.
cov(Xn , X1 )
heißt die Matrix
...
...
..
.
cov(X1 , Xn )
cov(X2 , Xn )
..
.
cov(Xn , X2 ) . . .
cov(Xn , Xn )
124





(14.182)
die Kovarianzmatrix von X. Wegen (14.177) ist die Matrix CX symmetrisch. Ist
a> = (a1 , a2 , . . . , an ) ein beliebiger reeller Zahlenvektor, so besitzt die Zufallsvariable
Y = a1 X1 + a2 X2 + . . . + an Xn nach (14.176) und (14.181) die Varianz
!
n
n
X
X
var(Y ) = cov(Y, Y ) = cov
ai Xi ,
ak Xk = a> CX a
i=1
k=1
Da Varianzen stets nichtnegativ sind, ist für beliebige Vektoren a
a> CX a ≥ 0
d.h. die Matrix CX ist positiv semidefinit.
Gibt es einen Vektor a 6= 0 mit aT CX a = 0, so besitzt die Zufallsvariable Y = a1 X1 +
. . . + an Xn die Varianz Null und ist nach Satz 14.5 damit fast überall gleich einer
Konstanten c bzw. sind die Zufallsvariablen Xi fast überall affin linear abhängig.
125
15 Die Normalverteilung
Die Normalverteilung ist eine der wichtigsten Wahrscheinlichkeitsverteilungen in der
Praxis, weil aufgrund des sogenannten zentralen Grenzwertsatzes in vielen Situationen angenommen werden kann, dass experimentell gewonnene Messwerte zumindest näherungsweise als Werte von normalverteilten Zufallsvariablen aufgefasst werden
können.
Die eindimensionale Normalverteilung wurde bereits im Abschnitt 10.5 und in den
Übungen eingeführt. Ihre Eigenschaften werden im ersten Abschnitt dieses Kapitels
noch einmal zusammengefasst und es wird der Zentrale Grenzwertsatz formuliert und
interpretiert.
Der zweite Abschnitt befasst sich mit der mehrdimensionalen Normalverteilung.
15.1 Die eindimensionale Normalverteilung
Wie im Abschnitt 10.5 definiert, heißt die eindimensionale Verteilung P0 mit der Dichte
(10.81)
t2
1
ϕ(t) = √ e− 2
2π
die standardisierte Normalverteilung oder N (0, 1)-Verteilung. Sie besitzt den
Mittelwert
Z
m1 (P0 ) = tϕ(t)dt = 0
und die Varianz
m̂2 (P0 ) = m2 (P0 ) =
Z
t2 ϕ(t)dt = 1
Die Funktion X(t) = σt + µ mit reellen Parametern σ 6= 0 und µ besitzt als Zufallsvariable auf dem Wahrscheinlichkeitsraum (R, B, P0 ) die Verteilung P X mit der Dichte
f (x) = √
1
e−
(x−µ)2
2σ 2
(15.183)
2πσ 2
Diese Verteilung heißt die Normalverteilung mit Parametern µ und σ 2 oder
N (µ, σ 2 )-Verteilung. Ihren Mittelwert und ihre Varianz berechnen wir über den Erwartungswert und die Varianz der Zufallsvariablen X:
R
m1 (P X ) = EX
R = X(t)P0 (dt)
= RR(σt + µ)ϕ(t)dtR
= σ R tϕ(t)dt + µ R ϕ(t)dt
= σm1 (P0 ) + µ1
= µ
m̂2 (P X )
=
=
=
=
=
2
2
RvarX = E(X2− EX) = E(X − µ)
R (X(t) − µ) P02(dt)
(σt + µ − µ) ϕ(t)dt
RR
σ 2 R t2 ϕ(t)dt
σ 2 m̂2 (P0 ) = σ 2
126
Ist X eine N (µ, σ 2 )-verteilte Zufallsvariable, so ist — wie im allgemeinen Rahmen im
nächsten Abschnitt gezeigt wird — die Zufallsvariable Y = aX + b ebenfalls normalverteilt und zwar mit dem Mittelwert
m1 (P Y ) = EY = E(aX + b) = aEX + b = aµ + b
und der Varianz
m̂2 (P Y ) = var(aX + b) = a2 varX = a2 σ 2
Insbesondere folgt daraus, dass
1
Y = √ (X − µ)
σ2
(15.184)
eine N (0, 1)-verteilte Zufallsvariable ist.
15.2 Der Zentrale Grenzwertsatz.
X1 , X2 , X3 , . . . sei eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) mit Verteilungen P Xn und Verteilungsfunktionen
Fn (t) = P Xn ( −∞, t ] = P (Xn ≤ t)
Konvergieren diese Verteilungsfunktionen für alle Argumente t gegen die Verteilungsfunktion der N (0, 1)-Verteilung:
lim Fn (t) = Φ(t)
n→∞
so sagt man, dass für die Folge dieser Zufallsvariablen der Zentrale Grenzwertsatz(ZGS) gilt.
Diese Art von Konvergenz bedeutet also nicht, dass die Funktionen Xn in irgendeiner Weise gegen eine Grenzfunktion X konvergieren. Es bedeutet für die praktischen
Anwendungen nur, dass man bei genügend großem n“ annehmen kann, dass die Ver”
teilung der Zufallsvariable Xn näherungsweise die standardisierte Normalverteilung
ist.
Der klassische Fall einer Folge, für die der ZGS gilt, sind die normierten Partialsummen
einer Folge X1 , X2 , X3 , . . . von stochastisch unabhängigen Zufallsvariablen, die alle die
gleiche Verteilung besitzen. Die Partialsummen sind die Zufallsvariablen
Sn = X1 + X2 + · · · + Xn
Da die Xk alle die gleiche Verteilung besitzen, haben sie auch alle den gleichen Mittelwert und die gleiche Varianz:
EXk = µ varXk = σ 2
Für die Partialsummen folgt daraus
µn = ESn = EX1 + EX2 + · · · + EXn = nµ
127
und wegen der stochastischen Unabhängigkeit
σn2 = varSn = varX1 + varX2 + · · · + varXn = nσ 2
Von einer Folge von Zufallsvariablen mit unbeschränkt wachsenden Mittelwerten und
Varianzen kann man keine wie auch immer geartete Konvergenz erwarten. Man muss
sie geeignet normieren: Die Zufallsvariablen
1
1
Sn∗ = p (Sn − µn ) = √
(Sn − nµ)
2
σn
nσ 2
heißen die normierten Partialsummen der Xk , und zwar deshalb, weil sie die Erwartungswerte
1
ESn∗ = p (ESn − µn ) = 0
σn2
und die Varianzen
varSn∗
=
1
p
σn2
!2
var(Sn ) = 1
besitzen, also alle den gleichen Mittelwert und die gleiche Varianz wie die N (0, 1)Verteilung.
Einen Beweis für die Gültigkeit des ZGS für die Variablen Sn∗ und weitere Literaturverweise findet man in dem Buch [8].
Wie bei einem mathematisch derart interessanten Thema wie der Gültigkeit des Zentralen Grenzwersatzes unter möglichst schwachen Voraussetzungen zu erwarten, gibt
es eine Unzahl von Verallgemeinerungen des obigen Resultats.
Für die Praxis, etwa bei der Fehlerrechnung, kann man diese mathematischen Aussagen salopp auf den gemeinsamen Nenner bringen, dass ein Messfehler immer dann
näherungweise als normalverteilt angenommen werden darf, wenn er aus der Überlagerung vieler kleiner unabhängiger und nicht-systematischer Fehlerursachen resultiert,
wobei keine dieser Ursachen dominierend ist.
15.3 Die mehrdimensionale Normalverteilung
15.3.1 Die standardisierte Normalverteilung
Die Verteilung eines n-dimensionalen Zufallsvektors G = (G1 , G2 , . . . , Gn ), dessen
Komponenten stochastisch unabhängig und N (0, 1)-verteilt sind, besitzt die Dichte
ϕn (y1 , y2 , . . . , yn ) = ϕ(y1 )ϕ(y2 ) · · · ϕ(yn )
n
2
2
2
1
1
√
=
e− 2 (y1 +y2 +···yn )
2π
(15.185)
oder in Vektorschreibweise
ϕn (y) =
1
√
2π
128
n
1
e− 2 ||y||
2
(15.186)
mit der euklidischen Norm ||y|| =
nenten yk .
p
y12 + y22 + · · · yn2 eines Vektors y mit den Kompo-
Definition 15.1 Die n-dimensionale Verteilung Pn mit der Dichte (15.185) bzw. (15.186)
heißt die n-dimensionale standardisierte Normalverteilung.
Einen Zufallsvektor G, dessen Komponenten stochastisch unabhängig und N ( 0, 1 )verteilt sind, nennen wir im folgenden einen gaussischen Einheitsvektor.
15.3.2 Die mehrdimensionale Normalverteilung
Die allgemeine n-dimensionale Normalverteilung erhält man wie im eindimensionalen Fall als Verteilung einer linearen Abbildung auf dem Wahrscheinlichkeitsraum
(Rn , Bn , Pn ):
Für i = 1, 2, . . . , n sei
Xk (y1 , . . . , yn ) = ai1 y1 + ai2 y2 + · · · + ain yn + bi
Diese n Funktionen fassen wir zu dem Zufallsvektor
X(y) = Ay + b
mit



X(y) = 




b=

b1
b2
..
.
bn
X1 (y)
X2 (y)
..
.
Xn (y)



 ,







 und A = 


(15.187)



y=

y1
y2
..
.
yn



 ,

a11
a21
..
.
a12
a22
..
.
...
...
..
.
a1n
a2n
..
.
an1
an2
...
ann





zusammen. Nach dem Transformationssatz für Dichten besitzt die Verteilung P X des
Zufallsvektors X die Dichte
f (x) =
1
ϕn A−1 (x − b)
| det(A)|
Mit der symmetrischen und positiv definiten Matrix C = AA> (das > steht für Transponieren) erhält man
p
p
| det A| = pdet(A)2 = p
det(A) det(A> )
>
=
det(AA ) = det(C)
und
||A−1 (x − b)||2
=
=
> −1 (x − b)> A−1
A
(x − b)
(x − b)> C −1 (x − b)
129
und daraus für die Dichte f (x) die Formel
n
> −1
1
1
1
p
e− 2 (x−b) C (x−b)
f (x) = √
2π
det(C)
(15.188)
Satz 15.1 Ist C eine symmetrische und positiv definite n × n-Matrix und b ein ndimensionaler reeller Spaltenvektor, so ist die Funktion (15.188) eine Wahrscheinlichkeitsdichte.
Beweis
1. Ist die Matrix C von der Form C = AA> mit einer nichtsingulären n × n-Matrix
A, so wurde die Behauptung oben gerade dadurch bewiesen, dass f (x) die Dichte
der Verteilung des Zufallsvektors X ist.
Um die Behauptung für eine beliebige positiv definite symmetrische Matrix C
zu beweisen, muss man also nur noch zeigen, dass jede derartige Matrix eine
Zerlegung der Form AA> besitzt.
2. Eine positiv definite symmetrische Matrix C besitzt n positive reelle Eigenwerte
λ1 , λ2 , . . . , λn mit zugehörigen Eigenvektoren u1 , u2 , . . . , un . Die n Eigenwertgleichungen Cuk = λk uk kann man zu einer Matrixgleichung CU = U Λ zusammenfassen, wobei U = (u1 , . . . , un ) die n × n-Matrix mit den Eigenvektoren uk
und Λ die Diagonalmatrix mit den Eigenwerten λk als Diagonalelementen ist.
Die Matrix U ist eine Orthogonalmatrix, d.h. U U > = I (=Einheitsmatrix).
Multipliziert man die Gleichung CU = U Λ daher von rechts mit U > , so erhält
man
C
1
1
= U ΛU > = (U Λ 2 )(Λ 2 U > )
1
1
= (U Λ 2 )(U Λ 2 )>
= AA>
(15.189)
mit der Diagonalmatrix
 √

1

Λ2 = 

λ1
0
..
.
√0
λ2
..
.
...
...
..
.
0
...
0
0
0
..
√.
λn





♦
Definition 15.2 Ist C eine symmetrische positiv definite n×n-Matrix und b ein beliebiger n-dimensionaler reeller Vektor, so heißt die Verteilung mit der Dichte (15.188)
die n-dimensionale Normalverteilung mit Parametern b und C oder kurz
N (b, C)-Verteilung.
Als Hilfsmittel zur Herleitung der speziellen Eigenschaften der mehrdimensionalen
Normalverteilung benötigen wir die Umkehrung obiger Entwicklung:
130
Satz 15.2 Ist X ein n-dimensionaler N (b, C)-verteilter Zufallsvektor, so besitzt X
eine Darstellung der Form
X = AG + b
(15.190)
mit einer nichtsingulären Matrix A und einem gaussischen Einheitsvektor G.
Beweis
1. Sei A die Matrix aus (15.189) und H : Rn −→ Rn die affine lineare Abbildung H(x) = A−1 (x − b) mit der Umkehrabbildung H ∗ (y) = Ay + b und dem
Absolutbetrag
JH (x) = det(A−1 ) =
1
1
=√
| det A|
det C
der Funktionaldeterminante.
2. Für den Zufallsvektor G = H ◦ X = A−1 (X − b) ergibt sich aus dem Diagramm
(Ω, A, P )
H
-
X
HH
G=H ◦X
HH
H
(Rn , Bn , P X )
HH
HH
j
H
H
?
(Rn , Bn , . )
dass G die gleiche Verteilung wie H besitzt, deren Dichte sich nach dem Transformationssatz aus der Dichte (15.188) zu
1
g(y) = f H ∗ (y) · JH H ∗ (y) n
>
∗
−1
1
1
1
√
√
=
e− 2 H (y)−b C
2π
det C
n
1 > > −1
1
√
e− 2 y A C Ay
=
2π
H ∗ (y)−b
√
· det C
ergibt.
Aus
A> C −1 A = A> (AA> )−1 A = A> (A> )−1 A−1 A = I
131
folgt schließlich, dass
g(y) =
1
√
2π
n
1
e− 2 y
>
y
= ϕn (y) ,
also die Dichte der n-dimensionalen standardisierten Normalverteilung ist.
3. Durch Auflösen von G = A−1 (X − b) erhält man noch
X = AG + b
und damit die Behauptung.
15.3.3 Interpretation der Parameter
Mit Hilfe des Satzes 15.2 lässt sich auf einfache Weise ermitteln, welche Bedeutung
die Parameter b und C in der Dichte (15.188) der Verteilung des Zufallsvektors X
besitzen. In Komponentenschreibweise lautet die Gleichung (15.190)
Xi =
n
X
aik Gk + bi
(15.191)
k=1
Für die Erwartungswerte, Varianzen und Kovarianzen der Zufallsvariablen Gi gilt
EGi
varGi
= m1 (N (0, 1)) = 0
= E(Gi − EGi )2 = E(G2i ) = m̂2 (N (0, 1)) = 1
und für zwei verschiedene Indizes i und k wegen der stochastischen Unabhängigkeit
cov(Gi , Gk ) = E(Gi − EGi )(Gk − EGk ) = E(Gi Gk ) = 0
Nach den Rechenregeln für den Erwartungswert folgt daher aus (15.191)
EXi =
n
X
k=1
aik EGk + bi = bi
Für zwei Komponenten Xi und Xj gilt weiter
cov(Xi , Xj ) = E(Xi − EXi )(Xj − EXj )
!
! n
n
X
X
ajl Gl
= E
aik Gk
l=1
k=1
=
=
=
n X
n
X
k=1 l=1
n
X
k=1
n
X
aik ajl E(Gk Gl )
aik ajk E(G2k ) +
aik ajk
k=1
= cij
132
n X
X
k=1 l6=k
aik ajl E(Gk Gl )
wo cij die Komponenten der Matrix C bezeichnet.
Daraus folgt der
Satz 15.3 Ist X ein N (b, C)-verteilter Zufallsvektor, so ist b = EX der Erwartungswert und C = CX die Kovarianzmatrix dieses Zufallsvektors.
15.3.4 Stochastische Unabhängigkeit bei Normalverteilung
Ist die Matrix C bei einem N (b, C)-verteilten Zufallsvektor X eine Diagonalmatrix,

 2
σ1 0 . . . 0
 0 σ22 . . . 0 


C= .
. 
.. . .
 ..
. .. 
.
0
0
...
σn2
so wird die Dichte (15.188) zu
f (x1 , x2 , . . . , xn ) = f1 (x1 )f2 (x2 ) · · · fn (xn )
mit den Dichten
fi (t) = p
1
−
e
2
(t−bi )2
2σ 2
i
2πσi
der N (bi , σi2 )-Verteilungen. Das bedeutet, dass die Komponenten Xi des Zufallsvektors
stochastisch unabhängig und N (bi , σi2 )-verteilt sind. Da C genau dann eine Diagonalmatrix ist, wenn cov(Xi , Xj ) = 0 für alle i 6= j, erhält man eine Aussage über den
Zusammenhang zwischen Nullkovarianz und stochastischer Unabhängigkeit, der in dieser Form aber nur für die Normalverteilung gilt:
Satz 15.4 Ist X ein normalverteilter Zufallsvektor, so sind seine Komponenten genau
dann stochastisch unabhängig, wenn je zwei verschiedene Komponenten Kovarianz Null
besitzen.
15.3.5 Funktionen von normalverteilten Zufallsvariablen
Eine für die Anwendungen äußerst wichtige Eigenschaft der Normalverteilung ist die,
dass Linearkombinationen von normalverteilten Zufallsvariablen wieder normalverteilt
sind.
Zum Nachweis dieser Aussage benötigen wir den folgenden
Satz 15.5 Ist G ein n-dimensionaler gaussischer Einheitsvektor und U eine n × nOrthogonalmatrix, so ist
H = UG
ebenfalls ein gaussischer Einheitsvektor.
133
(Ω, A, P )
HH
-
G
HH
H
HH
HH
(Rn , Bn , P G )
X(y) = U y
HH
j
H
?
(Rn , Bn , . )
Beweis
Im Diagramm
ist P G die standardisierte n-dimensionale Normalverteilung und H besitzt die gleiche
Verteilung wie der Zufallsvektor aus (15.187) mit A = U und b = 0. Daraus folgt für
die Dichte (15.188), dass C = U U > = I mit det C = det I = 1, d.h.
n
1 >
1
e− 2 x x = ϕn (x)
f (x) = √
2π
Satz 15.6 Ist X ein n-dimensionaler N (b, C)-verteilter Zufallsvektor mit den Komponenten X1 , X2 , . . . , Xn , so ist die Zufallsvariable
Y = a1 X1 + a2 X2 + · · · + an Xn + c = a> X + c
normalverteilt mit Mittelwert
µ=
n
X
ai bi + c = a> b + c
i=1
und Varianz
σ2 =
n
n X
X
ai cik ak = a> Ca
i=1 k=1
Beweis
1. Mit der Darstellung X = AG + b nach Satz 15.2 lässt sich die Zufallsvariable Y
in der Form
Y
=
a> (AG + b) + c = (a> A)G + (a> b + c)
=:
=
α> G + µ
α1 G1 + α2 G2 + . . . + αn Gn + µ
134
p
schreiben. Mit der Norm kαk = α12 + α22 + . . . + αn2 des Vektors α und u1k :=
αk
kαk ist
Y = kαk(u11 G1 + u12 G2 + . . . + u1n Gn ) + µ
(15.192)
2. Der Zeilenvektor (u11 , . . . , u1n ) ist wegen
n
X
k=1
u21k =
n
1 X 2
αk = 1
kαk2
k=1
ein normierter Zeilenvektor und man kann ihn — wie aus der Matrizenrechnung
bekannt — durch n − 1 weitere Zeilen (ui1 , ui2 , . . . , uin ) zu einer Orthonormalbasis des Rn bzw. zu einer Orthogonalmatrix


u11 . . . u1n
 u21 . . . u2n 


U = .
.. 
 ..
. 
un1
...
unn
ergänzen. Nach Satz 15.5 ist dann




G1
H1
 G2 
 H2 




 ..  = U  .. 
 . 
 . 
Gn
Hn
ein gaussischer Einheitsvektor und speziell H1 eine N ( 0, 1 )-verteilte Zufallsvariable.
3. Nach (15.192) ist
Y = kαk H1 + µ =: σ H1 + µ
und aus dem Diagramm 22 ersieht man, dass Y normalverteilt ist mit Mittelwert
µ = a> b + c und Varianz σ 2 = kαk2 = ka> Ak2 = a> AA> a = a> Ca.
135
(Ω, A, P )
HH
-
H1
HH
Y
HH
HH
(R, B, P H )
Z(s) = σs + µ
HH
j
H
?
(R, B, . )
Abbildung 22: Zu Beweisteil 3
136
16 Grenzwertsätze
Im letzten Kapitel der Vorlesung beschäftigen wir uns unter anderem mit dem Thema,
das uns in der Einleitung den Einstieg in die mathematische Behandlung des Zufalls
lieferte, nämlich mit dem Gesetz der großen Zahlen.
Dabei wird ein Zufallsexperiment immer wieder durchgeführt und das Verhalten der
relativen Häufigkeit für das Eintreten eines bestimmten Ereignisses betrachtet, wenn
die Anzahl der Durchführungen gegen Unendlich strebt“.
”
Zur Modellierung dieser Situation führen wir einen Wahrscheinlichkeitsraum ein, der
das Entstehen einer unendlichen zufälligen Folge von Nullen und Einsen beschreibt.
16.1 Unendliche Bernoulli-Versuchsreihen
Als mathematische Abstraktion für ein Zufallsexperiment, bei dessen Durchführung
nur interessiert, ob ein bestimmtes Ereignis eintritt oder nicht, wählen wir ein BernoulliExperiment ({0, 1}, 2{0,1} , P0 ) (s. Abschnitt 5.3), wobei die 1 für dieses Ereignis steht
und die Erfolgswahrscheinlichkeit p = P0 {1} die Wahrscheinlichkeit für das Eintreten
dieses Ereignisses ist.
Die Ergebnismenge für die unendlichfache“ Wiederholung eines Bernoulli-Experiments
”
ist die Menge aller unendlichen 0-1-Folgen
Ω = {δ = (δ1 , δ2 , δ3 , . . .) ; δk ∈ {0, 1}}
(16.193)
Dabei steht δk für das Ergebnis der k-ten Durchführung des Bernoulli-Experiments.
Die Menge (16.193) ist überabzählbar. Jede 0-1-Folge δ1 , δ2 , δ3 . . . kann man nämlich
als Binärentwicklung einer reellen Zahl x mit 0 ≤ x ≤ 1 auffassen mit x als dem Wert
der Potenzreihe
2
3
1
1
1
x = δ1 · + δ2 ·
+ δ3 ·
+ ...
2
2
2
Die Mächtigkeit der Menge Ω ist also die des reellen Zahlenintervalls [0, 1].
Es ist daher nicht möglich, als σ-Algebra auf dieser Ergebnismenge einfach die Menge
aller Teilmengen zu benutzen, da es auf diesem Mengensystem keine Funktion P gibt,
die alle vier Axiome für Wahrscheinlichkeiten erfüllt. Zur Festlegung einer σ-Algebra
schlagen wir den gleichen Weg wie bei den n-dimensionalen Verteilungen ein und legen
fest, welche Teilmengen von Ω auf jeden Fall Ereignisse sein sollten.
Dazu führen wir die Zustandsvariablen Xk : Ω −→ {0, 1} mit
Xk (δ) = Xk (δ1 , δ2 , . . .) = δk
ein, die das Ergebnis der k-ten Durchführung des Experiments anzeigen und fordern,
dass dies Zufallsvariable sein sollen. Das bedeutet, dass die Urbildmengen
(Xk = δ̂) = {δ = (δ1 , δ2 , . . .) ; δk = δ̂}
(16.194)
für alle k = 1, 2, 3, . . . und alle δ̂ = 0, 1 in der festzulegenden σ-Algebra enthalten sein
sollen. Gleichzeitig soll dieses Mengensystem nicht größer als nötig sein, so dass wir
137
uns als σ-Algebra A auf Ω die kleinste σ-Algebra, die alle Mengen der Form
(16.194) enthält, vorgeben.
Die Wahrscheinlichkeit P , die wir auf dieser σ-Algebra studieren wollen, soll dadurch charakterisiert sein, dass es sich bei dem durch (Ω, A, P ) beschriebenen Zufallsexperiment um die unendlichfache Wiederholung immer des gleichen BernoulliExperiments handelt, wobei die Durchführungen unabhängig voneinander stattfinden.
Mit Hilfe der Zustandsvariablen kann man diese Forderungen mathematisch präzisieren:
1. Die Wahrscheinlichkeiten für die Ereignisse der Einzelexperimente sollen immer
gleich sein:
p
falls δ̂ = 1
P Xk = δ̂ = P0 {δ̂} =
(16.195)
1 − p falls δ̂ = 0
2. Die Zufallsvariablen Xk sollen stochastisch unabhängig sein. Für jede Auswahl
1 ≤ k1 < k2 < . . . < km von Indizes und δ̂1 , δ̂2 , . . . , δ̂m von Binärzahlen muss
i
h
P (Xk1 = δ̂1 ) ∩ (Xk2 = δ̂2 ) ∩ . . . ∩ (Xkm = δ̂m )
(16.196)
=
P (Xk1 = δ̂1 )P (Xk2 = δ̂2 · . . . · P (Xkm = δ̂m )
gelten.
Mit den Abkürzungen ]δ̂ = δ̂1 + δ̂2 + . . . + δ̂m und q = 1 − p kann man diese beiden
Forderungen zu
i
h
(16.197)
P (Xk1 = δ̂1 ) ∩ (Xk2 = δ̂2 ) ∩ . . . ∩ (Xkm = δ̂m ) = p]δ̂ q m−]δ̂
zusammenfassen.
In der Wahrscheinlichkeittheorie zeigt man die Gültigkeit des folgenden Satzes, auf
dessen Beweis wir hier verzichten.
Satz 16.1 . Es gibt genau eine Wahrscheinlichkeit P auf der σ-Algebra mit der Eigenschaft (16.197).
Den so eingeführten Wahrscheinlichkeitsraum (Ω, A, P ) nennen wir im Folgenden eine
unendliche Bernoulli-Versuchsreihe mit Erfolgswahrscheinlichkeit p.
16.2 Das Gesetz der Großen Zahlen
Die absolute und relative Häufigkeit eines Ereignisses bei n Versuchen kann man auf
einer unendlichen Bernoulli-Versuchsreihe als Zufallsvariable formulieren. Die Funktion
Sn (δ1 , δ2 , . . .) = δ1 + δ2 + . . . + δn
bzw.
Sn = X1 + X2 + . . . + Xn
138
(16.198)
gibt an, wie oft das Ereignis {1} bei den ersten n Durchführungen des BernoulliExperiments zustande gekommen ist und heißt demgemäß die Summe der Erfolge
nach n Versuchen. Die relative Häufigkeit des Eintretens der 1 ist dann durch die
Zufallsvariable
1
1
(16.199)
Hn = Sn = (X1 + X2 + . . . + Xn )
n
n
mit
1
Hn (δ1 , δ2 , . . .) = (δ1 + δ2 + . . . + δn )
n
gegeben.
Das Gesetz der grossen Zahlen besagt, dasss die Folge der Zufallsvariablen Hn für
n −→ ∞ in gewisser Weise gegen die Wahrscheinlichkeit p = P0 {1} konvergiert. Zur
Herleitung einer solchen Eigenschaft benötigen wir die Erwartungswerte und Varianzen
der beteiligten Zufallsvariablen.
Die Zustandsvariablen Xk sind Treppenfunktionen:
Xk (δ) = 1 · 1(Xk =1) (δ) + 0 · 1(Xk =0) (δ)
Der Erwartungswert, d.h. das P -Integral ist daher
EXk = 1 · P (Xk = 1) + 0 · P (Xk = 0) = p
Wegen
Xk2 (δ) = 12 · 1(Xk =1) (δ) + 02 · 1(Xk =0) (δ)
ist auch EXk2 = p und damit
2
var(Xk ) = EXk2 − (EXk ) = p − p2 = p(1 − p) = pq
Da die Zufallsvariablen Xk stochastisch unabhängig sind, gilt nicht nur für den Erwartungswert sondern auch für die Varianz die Additionsformel
ESn
varSn
= E(X1 + X2 + . . . + Xn ) = EX1 + EX2 + . . . EXn = np
=
=
var(X1 + X2 + . . . + Xn )
var(X1 ) + var(X2 ) + . . . + var(Xn )
= npq
Schließlich erhält man aus der Linearität des Erwartungswert-Operators und der Regel
(14.171) für die Varianz
1
1
EHn = E
Sn = ESn = p
(16.200)
n
n
2
1
1
pq
var(Hn ) = var
Sn =
(16.201)
var(Sn ) =
n
n
n
Die Ungleichung von Tschebyscheff (14.168) angewandt auf die relative Häufigkeit
P (|Hn − EHn | > ε) ≤
139
varHn
ε2
bzw.
pq
nε2
besagt dann, dass für eine beliebig kleine positive reelle Zahl ε
P (|Hn − p| > ε) ≤
lim P (|Hn − p| > ε) = 0
n→∞
(16.202)
oder— wenn man zum Komplementärereignis übergeht—
lim P (|Hn − p| ≤ ε) = 1
n→∞
(16.203)
Die Aussage (16.203), dass für n −→ ∞ die relative Häufigkeı́t mit Wahrscheinlichkeit 1 in einer beliebig klein vorgegebenen Umgebung der Wahrscheinlichkeit p des
Ereignisses liegt, ist natürlich eine sehr vorsichtig formulierte Forderung der Konvergenzeigenschaft. Daher heisst (16.203) bzw (16.202) auch das schwache Gesetz der
großen Zahlen.
Es gilt— was wir hier nicht beweisen wollen— auch das starke Gesetz der großen
Zahlen. Es besagt, dass es eine Menge N ∈ A mit P (N ) = 0 gibt, so dass für
alle Ereignisse δ, die nicht in N liegen, die Folge der Funktionswerte Hn (δ) gegen p
konvergiert:
n
o
P δ ∈ Ω ; lim Hn (δ) = p = 1
(16.204)
n→∞
16.3 Der Grenzwertsatz von Moivre und Laplace
Der Grenzwertsatz von Moivre und Laplace ist historisch gesehen der Vorläufer des
Zentralen Grenzwertsatzes, der im Abschnitt 15.2 des Kapitels über die Normalverteilung formuliert wurde.
Dabei wird die Folge der Zufallsvariablen
Sn = X1 + X2 + . . . + Xn
auf einer unendlichen Bernoulli-Versuchsreihe mit Erfolgswahrscheinlichkeit p betrachtet. Wie in Abschnitt 16.2 berechnet, ist
ESn = np
var(Sn ) = np(1 − p)
und
so dass die Zufallsvariablen
Sn∗ = p
1
np(1 − p)
(Sn − np)
alle den Erwartungswert 0 und die Varianz 1 besitzen.
Der Grenzwertsatz von Moivre und Laplace (bzw. der ZGS) besagt, dass für n gegen
Unendlich die Verteilung dieser Zufallsvariablen gegen die N (0,1)-Verteilung konvergiert, d.h.
lim P (a ≤ Sn∗ ≤ b) = Φ(b) − Φ(a)
(16.205)
n→∞
140
wobei Φ(t) die Verteilungsfunktion der N (0, 1)-Verteilung ist.
Dieses Resultat ermöglicht es uns, Wahrscheinlichkeiten für Zufallsvariablen mit Binomialverteilung bei großen Parameterwerten n näherungsweise mit Hilfe der Normalverteilung zu berechnen.
Für die Zufallsvariable Sn ist a ≤ Sn ≤ b genau dann, wenn
p
a − np
np(1 − p)
so dass für genügend große n
P (a ≤ Sn ≤ b) ≈ Φ
p
≤ Sn∗ ≤ p
b − np
np(1 − p)
b − np
np(1 − p)
!
−Φ
,
p
a − np
np(1 − p)
!
ist.
Die Folge der Wahrscheinlichkeiten P (a ≤ Sn ≤ b) konvergiert umso langsamer gegen
diesen Grenzwert, ja näher die Erfolgswahrscheinlichkeit p bei Null oder bei Eins liegt.
Eine der in der Statistik gängigen Faustregeln lautet daher, dass n genügend groß ist,
wenn
np(1 − p) ≥ 9
Beispiel: In einer Prüfung werden n = 40 Fragen gestellt, die nur mit ja oder nein zu
beantworten sind. Zum Bestehen der Prüfung sind mehr als m = 30 richtige Antworten erforderlich. Wie gross ist die Wahrscheinlichkeit, dass man diese Prüfung völlig
unvorbereitet durch reines Raten der richtigen Antworten besteht?
Den Prüfungsablauf kann man als Bernoulli-Versuchsreihe mit der Erfolgswahrscheinlichkeitp = 12 für das Erraten der richtigen Antwort auf eine Frage auffassen. Sn mit
n = 40 ist dann die Anzahl der richtigen Antworten. Wegen np(1 − p) = 10 können
wir näherungsweise mir der Normalverteilung arbeiten:
!
m − np
P (Sn > m) = 1 − P (Sn ≤ m) = 1 − P (−∞ ≤ Sn ≤ m) ≈ 1 − Φ p
np(1 − p)
In unserem Fall ist also
P (S40 > 30) ≈ 1 − Φ
√ 10
√
Den Wert Φ( 10) kann man mit den meisten Mathematik- und Statistikprogrammpaketen berechnen. Mit Matlab ergibt sich
P (S40 > 30) ≈ 0, 0008
Es dürfte daher zweckmässig sein, eine solche Prüfung nicht ganz unvorbereitet anzugehen.
141
16.4 Der Grenzwertsatz von Poisson
Der Grenzwertsatz von Poisson befasst sich mit dem Verhalten einer Folge von Binominalverteilungen, bei der nicht die Erfolgswahrscheinlichkeit p, sondern die Mittelwerte
np, d.h. die mittlere Anzahl der Erfolge, für n gegen Unendlich konstant bleiben. Er
stellt er eine weitere Möglichkeit zur approximativen Berechnung der Wahrscheinlichkeiten für binominalverteilte Zufallsvariable dar.
Satz 16.2 Ist P1 , P2 , P3 , . . . eine Folge von Binominalverteilungen mit den Wahrscheinlichkeitsfunktionen
n k
n−k
für k = 0, 1, . . . , n
k pn (1 − pn )
(16.206)
fn (k) =
0
für k > n
auf der Ergebnismenge N0 mit von n abhängigen Erfolgswahrscheinlichkeiten pn so,
dass für die Mittelwerte µn = npn dieser Verteilungen
lim µn = lim npn = µ
n→∞
(16.207)
n→∞
mit einer reellen Zahl µ > 0 gilt, so konvergieren diese Wahrscheinlichkeitsfunktionen
für n → ∞ gegen die Wahrscheinlichkeitsfunktion der Poisson-Verteilung mit Parameter µ:
µk
lim fn (k) = e−µ
(16.208)
n→∞
k!
Beweis
Für eine beliebige fest vorgegebene natürliche Zahl k und alle natürlichen Zahlen
n ≥ k kann man die Formel (16.206) für die Wahrscheinlichkeitsfunktion fn (k) wie
folgt umschreiben, wobei wir die Beziehung pn = µn /n verwenden:
n k
p (1 − pn )n−k
fn (k) =
k n
n(n − 1)(n − 2) . . . (n − k + 1) µn k (1 − pn )n
=
k!
n
(1 − pn )k
µkn n n − 1
1
µn n
n−k+1
=
1
−
...
k! n n
n
(1 − pn )k
n
1
= 1 und
(1−pn )k
k
k
µ
limn→∞ k!n = µk! , so dass nur
Wegen limn→∞ pn = 0 ist limn→∞
j = 0, 1, . . . , k − 1 sowie
µn n
1−
n
für wachsendes n ermittelt werden muss.
Für jede reelle Zahl ξ gilt (s. z.B. [16]), dass
n
ξ
= eξ
lim 1 +
n→∞
n
142
es gilt limn→∞
(n−j)
n
= 1 für
noch das Verhalten des Terms
(16.209)
bzw.
lim
n→∞
1−
n
µ n
(−µ)
= lim 1 +
= e−µ .
n→∞
n
n
(16.210)
Da aber unser Term (16.209) auch noch ein von n abhängiges µn enthält, können wir
dieses Resultat nicht direkt verwenden. Wegen der Voraussetzung limn→∞ µn = µ,
steht zu erwarten, dass die Folge der Größen (16.209) ebenfalls gegen e−µ konvergiert. Um diese Vermutung aber definitiv zu beweisen, müssen wir auf die Methode
zurückgreifen, mit der man üblicherweise die Konvergenz einer Folge nachweist: Wir
geben uns eine beliebig kleine positive Zahl ε vor und müssen dazu ein von dieser Zahl
abhängiges n0 = n0 (ε) finden, so dass für alle n ≥ n0 gilt
µn n
(16.211)
− e−µ < ε
1−
n
Wegen der Stetigkeit und Monotonie der Exponentialfunktion gibt es zu unserem ε ein
δ = δ(ε) > 0, so dass
e−(µ+δ) > e−µ −
ε
2
und e−(µ−δ) < e−µ +
ε
2
(16.212)
Aufgrund der Konvergenzeigenschaft (16.210) findet man zu diesem δ ein n1 , so dass
für n ≥ n1
n
n
µ−δ
ε
−(µ+δ)
(16.213)
1 − µ+δ
und
1
−
≥
e
−
≤ e−(µ−δ) + 2ε .
n
2
n
Ausserdem gibt es wegen limn→∞ µn = µ ein n2 , so dass für alle n ≥ n2
µ − δ ≤ µn ≤ µ + δ
bzw.
n n
µ+δ
µn n
µ−δ
1−
≤ 1−
≤ 1−
n
n
n
(16.214)
Die Zahlen n1 und n2 hängen dabei indirekt über δ von ε ab : n1 = n1 (ε), n2 = n2 (ε).
Aus (16.212) , (16.213) und (16.214) folgt zusammen , dass für n ≥ n0 (ε) = max (n1 (ε), n2 (ε))
die Ungleichungen
µn n
e−µ − ε < 1 −
< e−µ + ε
n
bzw. (16.211) gelten, womit unsere Vermutung bewiesen ist.
Insgesamt ergibt sich daraus die im Satz formulierte Behauptung
lim fn (k) = e−µ
n→∞
µk
k!
♦
Als Beispiel für diese Anwendung des Grenzwertsatzes von Poisson betrachten wir die
folgende Fragestellung:
143
Bei der Produktion von Magnetbandkassetten werden von einem unendlich
langem Magnetband laufend Stücke fester Länge abgeschnitten und in Kassetten eingelegt. Bei der Produktion treten auf dem unendlich langen Band
zufällig verteilt Beschichtungsfehler auf. Eine Kassette, die ein Bandstück
mit mehr als zwei Beschichtungsfehlern enthält, sei unbrauchbar.
Wie groß ist der Prozentsatz an unbrauchbaren Kassetten bei Bandstücken
einer Länge von l = 200m , wenn bei der Bandherstellung im großen Durchschnitt b = 3 Beschichtungsfehler auf L = 10.000m Bandlänge auftreten?
Im Durchschnitt kommen damit auf eine Kassette
µ=b·
200
l
=3·
= 0, 06
L
10.000
Beschichtungsfehler. Da die Fehler auf dem gesamten Band zufällig verteilt sind, ist
die Anzahl der Fehler für das Stück in einer Kassette ebenfalls zufällig. Bekannt ist
lediglich, dass auf eine große Anzahl M von Kassetten insgesamt etwa nM ≈ M µ von
Fehlern kommen.
Zur Herleitung der Wahrscheinlichkeitsverteilung der Anzahl der Fehler pro Kassette
denken wir uns M zunächst fehlerfreie Bandstücke nebeneinander gelegt und verteilen
nacheinander zufällig nM Beschichtungsfehler darauf.
Wenn wir uns zur Beobachtung ein Bandstück B unter diesen M fest auswählen, so
ist die Wahrscheinlichkeit, dass ein Fehler bei der zufälligen Verteilung auf B gelangt,
gleich
1
,
pM =
M
denn jedes Stück hat die gleiche Chance, den Fehler abzubekommen. Die sukzessive
Verteilung von nM Fehlern kann man dann als Bernoulli-Versuchsreihe der Länge nM
auffassen, mit der Erfolgswahrscheinlichkeit pM dafür, dass das Stück B mit einem
Fehler bedacht wird. Die Gesamtzahl der Fehler auf B entspricht daher der Summe
der Erfolge auf dieser Bernoulli-Versuchsreihe und das Wahrscheinlichkeitsgesetz ist
die Binominalverteilung.
Die Wahrscheinlichkeit, dass das Bandstück B genau k Fehler enthält, ist
nM k
pM (1 − pM )nM −k
(16.215)
fnM (k) =
k
Uns interessiert das Verhalten der Wahrscheinlichkeiten (16.215) für M → ∞ unter
der Annahme, dass sich die durchschnittliche Anzahl µM der Fehler pro Band bei M
Bändern immer mehr der Durchschnittszahl µ für die Gesamtproduktion annähert,
d.h.
nM
= lim nM · pM = µ
lim µM = lim
M →∞
M →∞
M →∞ M
Da bekanntlich mit einer Folge auch jede unendliche Teilfolge konvergiert, liefert uns
der Grenzwertsatz von Poisson
lim fnM (k) = f (k) = e−µ
M →∞
144
µk
k!
D.h. die Anzahl der Beschichtungsfehler auf einer zufällig aus der Gesamtproduktion
(charakterisiert durch M → ∞) ausgewählten Kassette ist Poisson-verteilt mit Parameter µ = 0, 06 und die Wahrscheinlichkeit, dass sie mehr als zwei Beschichtungsfehler
enthält, gleich
∞
X
f (k) = 1 − f (0) − f (1) − f (2) ≈ 0, 000034.
k=3
Wenn man relative Häufigkeiten mit Wahrscheinlichkeiten gleichgesetzt, so bedeutet
das, dass etwa 0,003 Prozent aller produzierten Kassetten unbrauchbar sind.
16.5 Die eindimensionale Irrfahrt
Die eindimensionale Irrfahrt ist das einfachste Modell zur mathematischen Beschreibung der Brownschen Bewegung: Ein Partikel bewegt sich in festen Zeittakten auf den
ganzzahligen Punkten der reellen Zahlenachse, wobei es jeweils entweder zum linken
oder zum rechten Nachbarpunkt springt. Die Auswahl der Sprungrichtung ist dabei
vom Zufall abhängig.
Wenn wir annehmen, dass ein Sprung nach rechts stets mit der gleichen Wahrscheinlichkeit p und einer nach links demgemäß mit Wahrscheinlichkeit q = 1 − p erfolgt und
die Sprungrichtungen stochastisch unabhängig voneinander sind, so können wir die
Folge der Sprungrichtungen als eine Bernoulli-Versuchsreihe mit der Ergebnismenge
Ω = {δ = (δ1 , δ2 , . . .); δk ∈ {−1, 1}}
modellieren, wobei δk = 1 dafür steht, dass der k-te Sprung nach rechts erfolgt und
δk = −1 dafür, dass er zum linken Nachbarpunkt geht. Die Position des Partikels
nach dem n-ten Sprung ist dann eine Zufallsvariable Sn .
Startet das Partikel aus der Position a ∈ ZZ , so sind die Zufallsvariablen S1 , S2 , . . .
gegeben durch
S1 (δ)
S2 (δ)
= a + δ1
= a + δ1 + δ2
..
.
Sn (δ)
= a + δ1 + . . . δn = Sn−1 (δ) + δn
oder unter Verwendung der Zustandsvariablen Xk (δ) = δk und der konstanten Funktion S0 (δ) = a
Sn+1 = Sn + Xn+1
(16.216)
Trägt man bei fest vorgegebenem δ = (δ1 , δ2 , . . .) die Postitionen S1 (δ1 ), S2 (δ2 ) . . . als
Punkte in einem kartesischen Koordinatensystem über den Abzissenwerten 1, 2, . . . ab
und verbindet man aufeinanderfolgende Punkte mit Geraden, so ergibt sich etwa das
in Abbildung 23 dargestellte Bild.
Mit dem Gedanken im Hintergrund, dass sich die Zick-Zack-Bewegung der Kurve in
dieser Abbildung zufällig entwickelt, ist es offensichtlich, warum die Folge der Zufallsvariablen S0 , S1 , S2 , . . . eine (eindimensionale) Irrfahrt heißt.
145
6
2
a = 1r
@
0
-1
@
r
@
@
@r
1@
@
2
r
3
4
r
@
@
@r
5
6
n
@
@r
Abbildung 23: Die eindimensionale Irrfahrt
16.5.1 Gewinnchancen beim Roulette
Wie groß ist die Wahrscheinlichkeit, dass Sie es schaffen, mit einem Startkapital von
20 Euro durch Roulettespielen auf ein Endkapital von 100 Euro zu kommen?
Diese Wahrscheinlichkeit hängt natürlich von der verfolgten Strategie ab, d.h. einmal,
auf welche Zahl- oder Farbkombination man setzt und zum andern, wieviel man pro
Runde einsetzt. Wir vereinfachen hier das Problem drastisch, indem wir annehmen,
dass wir in jeder Runde stets auf Rot“ setzen und dass es keine Sonderregelung für
”
den Fall gibt, dass die Null (Zero) auftritt.
Mit Wahrscheinlichkeit p = 18/37 erscheint Rot“ und man erhält seinen Einsatz
”
plus den gleichen Betrag als Gewinn. Der Kapitalbestand erhöht sich damit um den
Einsatz. Mit Wahrscheinlichkeit q = 19/37 kommt Schwarz“ oder Zero“ und der
”
”
Kapitalbestand vermindert sich um den Einsatz.
Was die Höhe des Einsatzes anbelangt, so gibt es zwei Extremfälle: die vorsichtige und
die kühne Strategie. Bei der kühnen Strategie setzt man bei jeder Runde soviel aus
dem momentanen Kapitalbestand, dass man im Fall des Gewinns so nahe wie möglich
an das vorgegebene Zielkapital z (=100 Euro) herankommt. Bei der vorsichtigen
Strategie setzt man in jeder Runde immer genau 1 Euro.
Wir behandeln hier die Letztere. Die Lösung für die kühne Strategie findet man im
Skript [29] zur Vorlesung Wahrscheinlichkeitsrechnung II.
16.5.2 Die vorsichtige Strategie
Wenn man δk = ±1 als Gewinn bzw Verlust in der k-ten Runde und a als das Startkapital interpretiert, so stellen die Zufallsvariablen S1 , S2 , . . . der eindimensionalen Irrfahrt
die Kapitalbestände nach den jeweiligen Runden dar.
Ist z das vorgegebene Zielkapital, so interessiert uns das Ereignis Ga ( Gewinn bei
”
Startkapital a“), dass die Kurve der eindimensionalen Irrfahrt irgendwann einmal das
146
Niveau Sn = z erreicht, ohne vorher auf das Niveau Sk = 0 abzusinken, denn letzteres
würde bedeuten, dass man kein Kapital zum Einsetzen mehr zur Verfügung hat, oder
— mit andern Worten — das Spiel verloren hat.
6
z
s
s
@
s
@
a s
s
@
@s
@
@
@s
s
@
s
@
@s
s
@
@s
-
1
2
3
n
Abbildung 24: Die vorsichtige Strategie
Die Menge Ga ist also die Vereinigung aller Mengen der Form
(S0 = a) ∩ (S1 > 0) ∩ (S2 > 0) ∩ . . . ∩ (Sn−1 > 0) ∩ (Sn = z)
über die Indizes n = 1, 2, . . .
Zur Berechnung der Wahrscheinlichkeiten
pa = P (Ga )
(16.217)
betrachten wir die Gewinnaussichten nach dem Ende der ersten Runde. Die Ereignisse
(X1 = 1) und (X1 = −1) , dass die erste Runde gewonnen bzw verloren wird, bilden
eine Partition der Menge Ω aller Folgen δ = (δ1 , δ2 , . . .):
(X1 = 1) + (X1 = −1) = {(1, δ2 , . . .) ; δk = ±1} + {−1, δ2 , . . .) ; δk = ±1} = Ω
und besitzen die Wahrscheinlichkeiten P (X1 = 1) = p und P (X1 = −1) = q für den
Gewinn bzw den Verlust einer Runde.
147
Die Formel (4.35) von der totalen Wahrscheinlichkeit lautet für diesen Fall also
P (Ga ) = P (Ga |(X1 = 1))P (X1 = 1) + P (Ga |(X1 = −1))P (X1 = −1)
= p P (Ga |X1 = 1) + q P (Ga |X1 = −1)
(16.218)
Zur Bestimmung der bedingten Wahrscheinlichkeiten P (Ga |X1 = 1) und P (Ga |X1 =
−1) lassen wir uns von der Abbildung 24 leiten.
Da die einzelnen Spielrunden als Einzelexperimente einer Bernoulli-Versuchsreihe stochastisch unabhängig angenommen werden, hat das Ergebnis der ersten Runde keinen
Einfluss auf die nachfolgenden Runden. Wenn man das Geschehen ab der zweiten
Runde betrachtet, hat man daher wieder eine unendliche Bernoulli-Versuchsreihe mit
der gleichen Erfolgswahrscheinlichkeit p vor sich und die Bedingungen (X1 = 1) bzw
(X1 = −1) besagen (vgl. Abbildung 24), dass man auf dieser Bernoulli-Versuchsreihe
eine Irrfahrt mit dem Startzustand a + 1 bzw a − 1 betrachtet. Die bedingten Wahrscheinlichkeiten P (Ga |X1 = 1) bzw P (Ga |X1 = −1) müssen daher mit den unbedingten Wahrscheinlichkeiten P (Ga+1 ) bzw P (Ga−1 ) dafür übereinstimmen, dass man mit
Startkapital a + 1 bzw a − 1 das Ziel z erreicht. Die Gleichung (16.218) lautet damit
P (Ga ) = p P (Ga+1 ) + q P (Ga−1 )
oder unter Verwendung von (16.217)
pa = p pa+1 + q pa−1
(16.219)
Man kann diese Argumentationskette natürlich streng mathematisch beweisen, wir
verzichten aber im Rahmen dieser Vorlesung darauf. Der Beweis wird in der Fortsetzungsvorlesung [29] über Markoffprozesse geführt.
Die Formel (16.219) ist nur für ein Startkapital 0 < a < z richtig. Da man mit
Startkapital a = 0 niemals spielen und daher auch nicht gewinnen kann, legen wir
p0 = P (G0 ) = 0
fest. Ist a = z , so hat man ohne zu spielen bereits sein Ziel erreicht, so dass wir
pz = P (Gz ) = 1
setzen können.
Bringt man alle Terme der Gleichung (16.219) auf die rechte Seite, so ergibt sich,
dass die Wahrscheinlichkeiten pa = P (Ga ) die Lösung einer homogenen linearen
Differenzengleichung mit konstanten Koeffizienten
p pa+1 − pa + q pa−1 = 0
(16.220)
mit den Randbedingungen
p0 = 0
und pz = 1
sind.
148
(16.221)
Lineare Differenzengleichungen. Bei einer homogenen linearen Differenzengleichung mit konstanten Koeffizienten [22] zweiter Ordnung wie
b2 xn + b1 xn−1 + b0 xn−2 = 0
(16.222)
ist eine Zahlenfolge x0 , x1 , x2 , . . . gesucht, die für alle n die Gleichung (16.222) erfüllt.
Ein Ansatz der Form xn = z n ergibt in (16.222) eingesetzt
(b2 z 2 + b1 z + b0 )z n−2 = 0 ,
woraus man ersieht, dass für eine Lösung von (16.222) z eine Nullstelle des sogenannten
charakteristischen Polynoms
C(z) = b2 z 2 + b1 z + b0
sein muss. Genauer gilt (s. [22]):
• Besitzt das charakteristische Polynom zwei verschiedene Nullstellen z1 und z2 ,
so sind die Lösungen von (16.222) von der Form
xn = c1 z1n + c2 z2n
• Besitzt das charakteristische Polynom eine doppelte Nullstelle z0 , so sind die
Lösungen von (16.222) von der Form
xn = c1 z0n + c2 nz0n
Die Skalarfaktoren c1 und c2 sind dabei noch frei wählbar.
Die vorsichtige Strategie. Das charakteristische Polynom zu (16.220) ist pz 2 −z +q,
das wegen p + q = 1 die Nullstellen z1 = 1 und z2 = q/p besitzt. Ist p 6= 1/2, so ist
q/p 6= 1, d.h. die Nullstellen sind verschieden. Im Fall p = q = 1/2 hat man es mit der
doppelten Nullstelle z0 = 1 zu tun.
1. Fall p 6= 1/2: Die allgemeine Lösung von (16.220) ist hier
pa = c1 + c2 z2a
und die Randbedingungen (16.221) resultieren in dem linearen Gleichungssystem
p0
pz
= c1 + c2
= c1 + c2 z2z
=
=
0
0
für die Skalarfaktoren c1 und c2 , woraus sich die Lösung
a
q
−1
p
p a = z
q
−1
p
149
(16.223)
errechnet.
Die Wahrscheinlichkeit, aus 20 EURO auf diese Weise 100 zu machen, ist nach dieser
Formel etwa
p20 ≈ 0.0088
2. Fall p = 1/2: Hier ist die allgemeine Lösung pa = c1 + c2 a, was zusammen mit den
Randbedingungen
a
pa =
z
ergibt. Sind Verlust- und Gewinnwahrscheinlichkeit für jede Runde gleich, so ist die
Wahrscheinlichkeit, das Zielkapital zu erreichen, proportional zur Höhe des eingesetzten Startkapitals.
150
Literatur
[1] Christoph Bandelow: Einführung in die Wahrscheinlichkeitstheorie. B.I. Wissenschaftsverlag, Mannheim 1989
[2] Frank Beichelt: Stochastik für Ingenieure. Teubner, Stuttgart 1995
[3] Karl Bosch: Elementare Einführung in die Wahrscheinlichkeitsrechnung. Vieweg,
Braunschweig 1979
[4] Theodor Bröcker: Analysis I. Heidelberg 1995
[5] Theodor Bröker: Analysis II Heidelberg 1995
[6] Harro Heuser: Lehrbuch der Analysis, Teil 1 Stuttgart 1995
[7] Harro Heuser: Lehrbuch der Analysis, Teil 2 Stuttgart 1995
[8] Kai Lai Chung: Elementare Wahrscheinlichkeitstheorie und stochastische Prozesse. Springer, Berlin 1978
[9] H. Dinges, H. Rost: Prizipien der Stochastik. Teubner, Stuttgart 1982
[10] William Feller: An Introduction to Probability Theory and its Applications I,II.
Wiley, New York 1968
[11] Alberto Leon-Garcia: Probability and Random Processes for Electrical Engineering. Addison-Wesley, Reading Mass. 1994
[12] B. W. Gnedenko: Lehrbuch der Wahrscheinlichkeitsrechnung. Harri Deutsch,
Thun 1978
[13] Hans Grabmüller: Mathematik für Ingenieure I-III. Vorlesungsskript, Erlangen
1999–2001, http://www.am.uni-erlangen.de/˜script
[14] M. Greiner, G. Tinhofer: Stochastik für Studienanfänger der Informatik. Hanser,
München 1996
[15] Franz Heigl, Jürgen Feuerpfeil: Stochastik, Leistungskurs. Bayerischer Schulbuch
Verlag, München 1975.
[16] K. Knopp. Theorie und Anwendungen der unendlichen Reihen. Springer, Berlin
1964.
[17] A. Kolmogoroff. Grundbegriffe der Wahrscheinlichkeitsrechnung.
[18] Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Vieweg, Braunschweig 1988
[19] Klaus Krickeberg: Wahrscheinlichkeitstheorie. Teubner, Stuttgart 1963
151
[20] Klaus Krickeberg, Herbert Ziezold: Stochastische Methoden. Springer Hochschultext, Berlin 1977
[21] Rudolf Mathar, Dietmar Pfeifer: Stochastik für Informatiker. Teubner, Stuttgart
1990
[22] Herbert Meschkowski: Differenzengleichungen. Göttingen 1959
[23] Rudolph Nelson: Probability, Stochastic Processes, and Queuing Theory. Springer,
New York 1995
[24] Athanasios Papoulis: Probability, Random Variables, and Stochastic Processes.
McGraw-Hill, Tokyo 1965
[25] Johann Pfanzagl: Elementare Wahrscheinlichkeitsrechnung. Walter de Gruyter,
Berlin 1991
[26] Georg Pflug: Stochastische Modelle in der Informatik. Teubner, Stuttgart 1986
[27] Alfréd Rényi: Wahrscheinlichkeitsrechnung. Berlin 1973
[28] Stefan Schäffler, Thomas F. Sturm: Wahrscheinlichkeitstheorie und Statistik
I,II. Schriftenreihe des Instituts für Angewandte Mathematik der TU München,
München 1994
[29] Friedrich Graef: Wahrscheinlichkeitsrechnung II für Informatiker und Ingenieure. Skript zur gleichnamigen Vorlesung, Erlangen 2002, http://www2.am.unierlangen.de
[30] Larry Wall, Randal L. Schwartz: Programming in Perl. O’Reilly, Sebastopol CA,
1990
152
Index
Abbildung
messbar, 82
Algebra
Mengen-, 11
sigma-, 14
Axiom, 12
Axiome
Kolmogoroff, 15
Elementar-, 11
global stochastisch unabhängig, 33
Komplementär-, 12
monotone Folge, 15
sicheres, 11
stochastisch unabhängig, 32
Summe, 13
unmögliches, 11
Verbund-, 10
Erfolgswahrscheinlichkeit, 138
Ergebnis, 8
Ergebnismenge, 8
Ergebnisraum, 8
Erwartungswert, 54, 114
diskrete Zufallsvariable, 108
Rechenregeln, 115
Experiment
Bernoulli-, 34
Produkt-, 33
stochastisch unabhängig, 72
zweistufiges, 69
Bayes, 28
Formel von, 28
Bernoulli
Experiment, 34
Versuchsreihe, 34
Bernoulli-Experiment, 137
Bernoulli-Versuchsreihe, 138
unendliche, 138
Bertrand, 26, 58
Paradoxon, 26, 58
Binomialformel, 20
Binomialkoeffizient, 20
Binomialverteilung
Berechnung, 141
Borelsche Mengen, 62
Faltung, 54, 99
Faltungsdichte, 99
Faltungsintegral, 99
Fermat, Pierre, 5
Funktion
momenterzeugende, 80
Funktionaldeterminante, 93
Dichte, 65
bedingte, 69
Exponentialverteilung, 77
Marginal-, 89
Rand-, 89
standardisierte Normalverteilung, 67
Transformationssatz, 92, 94
uniforme Verteilung, 66, 77
Dichtefunktion, 65
Differenzengleichung, 149
disjunkt, 11, 32
paarweise, 13
Galton-Brett, 9, 19, 35
reguläres, 19
Gedächtnislosigkeit, 39, 75
Gleichverteilung, 63
Grenzwertsatz
Moivre-Laplace, 140
Poisson, 142
zentraler, 127
Grenzwertsatz, zentraler, 127
Große Zahlen
empirisches Gesetz, 6
große Zahlen
eindimensionale Irrfahrt, 145
Einheitsvektor, gaussischer, 129
Ereignis, 5, 9, 10, 15
Additionsregel, 13
153
Gesetz, 138
schwaches Gesetz, 140
starkes Gesetz, 140
zentrales, 49, 79, 114
momenterzeugende Funktion, 47
Morgansche Regeln, 11
Häufigkeit
absolute, 6
bedingte relative, 25
relative, 6, 139
Nachwirkungsfreiheit, 41
Normalverteilung
eindimensional, 126
eindimensionale, 126
Mittelwert, 126
n-dimensionale standardisierte, 129
standardisierte, 67, 126
stochastische Unabhängigkeit, 133
Varianz, 126
Indikatorfunktion, 64
Integral
Lebesgue-, 64
Riemann-, 64
Intervall, 61
eindimensionales, 61
Inhalt, 62
n-dimensionales, 61
zweidimensionales, 61
Ordinarität, 41
P-fast überall nichtnegativ, 110
p-integrabel, 107
P-Integral, 106, 110
Treppenfunktion, 107
Zufallsvariable, 111
Parametrisierung, 93
Parametrisierungssatz, 93
Partition, 28
Pascal, Blaise, 5
Produkt
σ-Algebren, 34
cartesisches, 33
Wahrscheinlichkeiten, 34
Wahrscheinlichkeitsraum, 34
Produktexperiment, 33
Produktraum, 34
Kolmogoroff, 15
Kombinatorik, 18
Komposition, 86, 112
Kovarianz, 121
Bilinearität, 124
Rechenregeln, 123
Kovarianzmatrix, 125
Laplace, Pierre Simon de, 17
Laplace-Experiment, 18
Laplace-Transformation, 80
Lebensdauern, 38
Lebesgue-Integral, 111
Lebesguesches Maß, 63
Lotto, 23
Roulette, 146
Gewinnchancen, 146
kühne Strategie, 146
vorsichtige Strategie, 146
Méré, Chevalier de, 5
Mengenalgebra, 11
Mittelwert, 79, 113
diskrete Verteilung, 45
Exponentialverteilung, 80
geometrische Verteilung, 46
Normalverteilung, 79
Poissonverteilung, 46
statistische Interpretation, 46
Moment
absolutes, 47, 78, 113
Schubladenmodelle, 21
Schwerpunkt, 45
Stammfunktion, 77
Stationarität, 41
Steinerscher Satz, 48
stochastisch unabhängig
Zufallsexperimente, 33
Stochastische Unabhängigkeit
154
Zufallsvariable, 90
stochastische Unabhängigkeit, 32
globale, 33
Zufallsvariable, 53
Substitutionsformel, 93
Summe der Erfolge, 35, 139
Poisson-, 40
Rand-, 89
Rayleigh-, 85
uniforme, 63, 73
Verteilungsfunktion, 73
Zufallsgröße, 82
Verteilungsfunktion, 73
totale Wahrscheinlichkeit, 28
Transformation, affin lineare, 98
Transformationssatz, 92, 94
Treppenfunktion, 106
Normaldarstellung, 107
p-integrabel, 107
P-Integral, 107
Würfel, 8
regulärer, 17
Wahrscheinlichkeit, 15
a posteriori, 29
a priori, 29
bedingte, 25
Dichte, 65
diskrete, 36
Ereignis, 6
Erfolgs-, 34
geometrische, 57
Produkt-, 34
totale, 28
Wahrscheinlichkeitsdichte, 65
Wahrscheinlichkeitsfunktion, 36
Wahrscheinlichkeitsraum, 8, 15
diskreter, 36
Wahrscheinlichkeitsverteilung, 15
Wartezeiten, 38
Umkehrabbildung, 93
Ungleichung
Tschebyscheff, 48, 119
Urbildmengen, 81
Urnenmodelle, 21
Varianz, 79, 114, 118
diskrete Verteilung, 48
Exponentialverteilung, 80
geometrische Vereilung, 48
Normalverteilung, 79
Poissonverteilung, 48
Rechenregeln, 120
Verbundereignis, 10
Versuchsreihe, 34
Bernoulli-, 34
Verteilung
absolutstetige, 66
Binomial-, 38
Charakterisierung, 73
Dichte, 66
diskrete, 45, 77
eindimensional, 73
Exponential-, 74
geometrische, 38
Gleich-, 63
hypergeometrische, 38
Laplace-, 37
Marginal-, 89
n-dimensionale, 63
Zeitpunkte
zufällige, 40
Zielscheibe, 84
Zufallsexperiment, 5
Zufallsgröße, 82
Komposition, 112
Verteilung, 82
Zufallsvariable, 50, 83
diskrete, 50
Erwartungswert, 114
Faltung, 99
Funktionen von, 115
Kovarianz, 121
n-dimensionale, 86
P-Integral, 110, 111
stochastische Unabhängigkeit, 90
Varianz, 118
155
Verteilung, 52
Zufallsvariablen
Funktionen von, 86
Zufallsvektor, 86
Komponenten, 87
Kovarianzmatrix, 125
Zustandsvariable, 137
156
Herunterladen