Wahrscheinlichkeitsrechnung 1 für Informatiker und

Wahrscheinlichkeitsrechnung 1
für Informatiker und Ingenieure
Friedrich Graef
Institut für Angewandte Mathematik
der Universität Erlangen-Nürnberg
Fassung vom 24.10.2003
Inhaltsverzeichnis
1 Zufallsexperimente
5
2 Wahrscheinlichkeitsräume
2.1 Die Ergebnismenge . . . . . . . .
2.2 Ereignisse . . . . . . . . . . . . .
2.3 Verbundereignisse . . . . . . . . .
2.4 Wahrscheinlichkeiten . . . . . . .
2.5 Monotone Folgen von Ereignissen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
. 8
. 9
. 10
. 12
. 15
3 Laplace-Experimente
3.1 Laplace-Experimente . . . . . . . . . . . . . . . . . .
3.2 Binomialkoeffizienten . . . . . . . . . . . . . . . . . .
3.3 Urnen- und Schubladenmodelle . . . . . . . . . . . .
3.4 Zufälliges Ziehen einer Kugel . . . . . . . . . . . . .
3.5 Zufälliges Ziehen mehrerer Kugeln . . . . . . . . . .
3.5.1 Ziehen mit Berücksichtigung der Reihenfolge
3.5.2 Ziehen ohne Berücksichtigung der Reihenfolge
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
18
19
21
21
22
22
22
4 Bedingte Wahrscheinlichkeiten
25
4.1 Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Die Formel von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5 Stochastische Unabhängigkeit
32
5.1 Stochastische Unabhängigkeit von zwei Ereignissen . . . . . . . . . . . . 32
5.2 Globale stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . . . 33
5.3 Produktexperimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1
6 Diskrete Wahrscheinlichkeitsräume
6.1 Diskrete Wahrscheinlichkeitsräume . . . . . . . .
6.2 Spezielle diskrete Wahrscheinlichkeitsverteilungen
6.2.1 Die Laplace-Verteilung . . . . . . . . . . .
6.2.2 Die hypergeometrische Verteilung . . . . .
6.2.3 Die Binomialverteilung . . . . . . . . . . .
6.2.4 Die geometrische Verteilung . . . . . . . .
6.2.5 Die Poisson-Verteilung . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
36
36
37
37
37
38
38
40
7 Die Momente diskreter Verteilungen
7.1 Der Mittelwert einer diskreten Verteilung . . . . .
7.1.1 Statistische Interpretation des Mittelwerts .
7.1.2 Beispiele . . . . . . . . . . . . . . . . . . . .
7.2 Die absoluten Momente einer diskreten Verteilung
7.2.1 Die momenterzeugende Funktion . . . . . .
7.3 Die Varianz einer diskreten Verteilung . . . . . . .
7.4 Die zentralen Momente einer diskreten Verteilung .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
45
46
46
46
47
48
49
8 Zufallsvariable mit diskreter Verteilung
50
8.1 Die Verteilung einer diskreten Zufallsvariablen . . . . . . . . . . . . . . 51
8.2 Funktionen von diskreten Zufallsvariablen . . . . . . . . . . . . . . . . . 52
8.3 Der Erwartungswert einer diskreten Zufallsvariablen . . . . . . . . . . . 54
9 Geometrische Wahrscheinlichkeiten
56
10 Verteilungen
10.1 Intervalle . . . . . . . . . . . . . . . . . .
10.2 Borelsche Mengen und Lebesguesches Maß
10.3 Verteilungen auf dem Rn . . . . . . . . .
10.4 Das Lebesgue-Integral . . . . . . . . . . .
10.5 Absolutstetige Verteilungen . . . . . . . .
10.6 Zweistufige Experimente . . . . . . . . . .
10.6.1 Bedingte Dichten . . . . . . . . . .
10.6.2 Zweistufige Experimente . . . . . .
10.6.3 Fortsetzung des Beispiels . . . . .
10.6.4 Unabhängige Experimente . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
61
61
62
63
64
64
67
68
69
70
72
11 Eindimensionale Verteilungen
11.1 Die Verteilungsfunktion . . . . . . . . . . . . . . . . . . .
11.1.1 Berechnung von Intervallwahrscheinlichkeiten . . .
11.1.2 Verteilungsfunktionen und Dichten . . . . . . . . .
11.1.3 Die Verteilungsfunktion einer diskreten Verteilung
11.2 Die Momente einer eindimensionalen Verteilung . . . . . .
11.2.1 Mittelwert und Varianz der Normalverteilung . . .
11.2.2 Die momenterzeugende Funktion . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
73
73
76
77
77
78
79
80
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11.2.3 Mittelwert und Varianz der Exponentialverteilung . . . . . . . . 80
12 Zufallsvariable
12.1 Zufallsgrößen . . . . . . . . . . . . . . .
12.1.1 Urbildmengen . . . . . . . . . . .
12.1.2 Zufallsgrößen . . . . . . . . . . .
12.1.3 Die Verteilung einer Zufallsgröße
12.2 Zufallsvariable . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
81
81
81
82
82
83
13 Funktionen von Zufallsvariablen
13.1 Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . .
13.2 Der Kompositionssatz für Zufallsvektoren . . . . . . .
13.3 Mehrdimensionale Verteilungen . . . . . . . . . . . . .
13.4 Marginalverteilungen . . . . . . . . . . . . . . . . . . .
13.5 Stochastische Unabhängigkeit von Zufallsvariablen . .
13.6 Der Transformationssatz für Dichten . . . . . . . . . .
13.6.1 Der Parametrisierungssatz für Bereichsintegrale
13.6.2 Der Transformationssatz für Dichten . . . . . .
13.6.3 Berechnung der Verteilung von Zufallsvariablen
13.6.4 Affin lineare Transformationen . . . . . . . . .
13.6.5 Faltungen . . . . . . . . . . . . . . . . . . . . .
13.7 Berechnungsmethoden . . . . . . . . . . . . . . . . . .
13.7.1 Berechnung der Verteilungsfunktion . . . . . .
13.7.2 Anwendung des Faltungsintegrals . . . . . . . .
13.7.3 Anwendung des Transformationssatzes . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
86
86
87
88
89
90
92
93
94
97
98
99
100
101
101
102
14 Erwartungswert und Varianz
14.1 Das P-Integral einer Zufallsvariablen . . . . . . . . . .
14.1.1 Treppenfunktionen . . . . . . . . . . . . . . . .
14.1.2 Das P-Integral einer Treppenfunktion . . . . .
14.1.3 Rechenregeln . . . . . . . . . . . . . . . . . . .
14.1.4 Das P -Integral einer Zufallsvariablen. . . . . .
14.1.5 Zusammenhang mit dem Lebesgue-Integral . .
14.1.6 Komposition von Zufallsgrößen. . . . . . . . . .
14.1.7 Die Momente einer eindimensionalen Verteilung
14.2 Der Erwartungswert einer Zufallsvariablen . . . . . . .
14.2.1 Rechenregeln für den Erwartungswert . . . . .
14.2.2 Funktionen von Zufallsvariablen . . . . . . . .
14.3 Varianz und Kovarianz . . . . . . . . . . . . . . . . . .
14.3.1 Die Ungleichung von Tschebyscheff . . . . . . .
14.3.2 Rechenregeln für die Varianz . . . . . . . . . .
14.3.3 Die Kovarianz zweier Zufallsvariablen . . . . .
14.3.4 Die Kovarianzmatrix eines Zufallsvektors . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
106
106
106
107
108
110
111
112
113
114
115
115
118
119
120
121
124
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15 Die Normalverteilung
15.1 Die eindimensionale Normalverteilung . . . . . . . . . . . .
15.2 Der Zentrale Grenzwertsatz. . . . . . . . . . . . . . . . . . .
15.3 Die mehrdimensionale Normalverteilung . . . . . . . . . . .
15.3.1 Die standardisierte Normalverteilung . . . . . . . . .
15.3.2 Die mehrdimensionale Normalverteilung . . . . . . .
15.3.3 Interpretation der Parameter . . . . . . . . . . . . .
15.3.4 Stochastische Unabhängigkeit bei Normalverteilung
15.3.5 Funktionen von normalverteilten Zufallsvariablen . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
126
126
127
128
128
129
132
133
133
16 Grenzwertsätze
16.1 Unendliche Bernoulli-Versuchsreihen . . . .
16.2 Das Gesetz der Großen Zahlen . . . . . . .
16.3 Der Grenzwertsatz von Moivre und Laplace
16.4 Der Grenzwertsatz von Poisson . . . . . . .
16.5 Die eindimensionale Irrfahrt . . . . . . . . .
16.5.1 Gewinnchancen beim Roulette . . .
16.5.2 Die vorsichtige Strategie . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
137
137
138
140
142
145
146
146
Literatur
Index
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
151
153
4
1 Zufallsexperimente
Die Wahrscheinlichkeitsrechnung beschäftigt sich mit der mathematischen Analyse von
Zufallsexperimenten.
Als Ansatzpunkt für eine allgemeine Definition eines Zufallsexperiments und die Fragestellungen, die sich dabei ergeben und die man mit Hilfe der Mathematik behandeln
möchte, betrachten wir das historische Beispiel, das üblicherweise als der Auslöser für
die Entwicklung der Wahrscheinlichkeitsrechnung angesehen wird.
Im Jahr 1654 beklagte sich der Chevalier de Méré (1607–1684), ein berufsmäßiger Spieler, bei Blaise Pascal (1623–1662) über die Mathematik, weil ihre Ergebnisse ihm nicht mit den Erfahrungen des praktischen Lebens übereinzustimmen schienen. Man wusste damals, dass es beim Spiel mit einem Würfel günstig
ist, darauf zu setzen, bei vier Würfen wenigstens eine Sechs zu werfen. De Méré
dachte, es müsste dasselbe sein, wenn man bei 24 Würfen mit zwei Würfeln darauf setzt, wenigstens eine Doppelsechs zu erhalten. Während im ersten Fall 6
Möglichkeiten 4 Würfe gegenüber stehen, stehen im zweiten 36 Möglichkeiten
24 Würfe gegenüber, das Verhältnis ist also in beiden Fällen 3:2. Entgegen
seinen Erwartungen verlor aber Herr de Méré auf die Dauer beim zweiten Spiel
und das muss ihn sehr verdrossen haben.1
Schon zu dieser Zeit war seit langem bekannt, dass der Prozentsatz gewonnener Runden
bei langen Serien derartiger Glücksspiele nahezu konstant und stets in etwa gleich
ist, woraus zwangsläufig die Frage erwuchs, wie man die Gewinnchancen solcher
Spiele schon im voraus berechnen kann. Pascal führte über dieses Problem 1654
einen Briefwechsel mit Pierre Fermat (1601–1665), in dessen Verlauf sich schließlich
eine Lösung ergab.
Wir werden im ersten Teil dieser Vorlesung den Lösungsweg in einem etwas allgemeinerem Rahmen nachvollziehen und beginnen mit dem Begriff des Zufallsexperiments.
Ein Zufallsexperiment wie im obigen Beispiel das viermalige Werfen eines Würfels
ist zunächst ein Experiment im üblichen Sinne, d.h. ein konkreter oder auch nur in
Gedanken durchgeführter Vorgang, der sich beliebig oft unter stets gleichen Rahmenbedingungen wiederholen lässt. Der wesentliche Unterschied zu dem klassischen naturwissenschaftlichen Konzept des Experiments besteht darin, dass ein Zufallsexperiment mehrere mögliche Ausgänge hat und trotz gleicher Ausgangslage bei keiner der
Durchführungen mit Sicherheit vorhersehbar ist, welcher dieser Ausgänge sich einstellt.
Die wesentliche Frage im Zusammenhang mit Zufallsexperimenten ist die nach den
Chancen für das Eintreten bzw. Nichteintreten bestimmter Ereignisse. Bei den obigen
Beispielen geht es dabei um das Ereignis Gewinn“, das dadurch charakterisiert ist,
”
dass bei der Durchführung des Würfelexperiments eine Sechs bzw. eine Doppelsechs
geworfen wird.
Allgemein verstehen wir unter einem Ereignis eine Reihe von möglichen Merkmalen
der Ausgänge des betreffenden Zufallsexperiments. Die Formulierung: Das Ereignis
”
1 Zitat
aus [15]
5
tritt ein“ soll dementsprechend bedeuten, dass bei einer Durchführung des Experiments
ein Ausgang zustande kommt, der alle diese Merkmale besitzt.
Gemäß der Charakterisierung eines Zufallsexperiments ist es bei einem einzelnen Versuch, d.h. einer einmaligen Durchführung des Experiments, nicht mit Sicherheit vorhersagbar, ob ein Ereignis eintritt oder nicht. Sein Eintreten hängt vom Zufall ab.
Führt man aber eine lange Versuchsreihe, d.h. eine ganze Serie von Versuchen durch
und zählt, wie oft dabei dieses Ereignis eintritt, so beobachtet man wie schon Herr de
Méré eine gewisse Gesetzmäßigkeit, die sich am einfachsten mit Hilfe mathematischer
Formeln darstellen lässt:
• E stehe für das beobachtete Ereignis,
• n sei die Länge der Versuchsreihe, d.h. die Anzahl der durchgeführten Versuche,
• Hn (E) sei die absolute Häufigkeit von E, d.h. die Anzahl der Versuche, bei
denen das Ereignis E eingetreten ist, und
• Rn (E) = Hn (E)/n die relative Häufigkeit des Ereignisses E, d.h. der relative
Anteil oder — mit 100 multipliziert — der Prozentsatz der Versuche, bei denen
das Ereignis E eingetreten ist.
De Méré stellte fest, dass bei langen Versuchsreihen mit 4 Würfen eines Würfels das
Ereignis Gewinn“ stets eine relative Häufigkeit von mehr als 50% und bei 24 Würfen
”
eines Würfelpaars eine von weniger als 50% besitzt, die Anzahl der gewonnenen Spiele
im ersten Fall also immer größer und im zweiten Fall immer kleiner ist als die Anzahl
der verlorenen Spiele.
Wie die Erfahrung mit Zufallsexperimenten zeigt, scheint eine noch stärkere Gesetzmäßigkeit vorzuliegen: Für sehr lange Versuchsreihen stabilisieren sich die relativen Häufigkeiten Rn (E) offenbar stets in der Nähe einer für das Experiment und das Ereignis E
charakteristischen Zahl P (E)
Rn (E) ≈ P (E)
für große n
(1.1)
Dieses Phänomen nennt man das empirische Gesetz der großen Zahlen. Es handelt sich dabei nicht um einen Konvergenzsatz im mathematischen Sinne sondern um
eine reine Erfahrungstatsache, auf deren Basis sich aber offenbar sicher kalkulieren
lässt, wie die wirtschaftliche Situation von Spielbanken, Lotterien und Versicherungsunternehmen demonstriert.
Als Grundlage für eine mathematische Analyse von Zufallsexperimenten gehen wir von
der Hypothese aus, dass jedem Zufallsexperiment quasi als Naturgesetz eine Funktion
P zugeordnet ist, die jedem an diesem Zufallsexperiment beobachtbaren Ereignis E
eine Zahl P (E) zuordnet und die mit dem Ereignis über das empirische Gesetz der
großen Zahlen (1.1) verbunden ist. Diese Zahl nennen wir die Wahrscheinlichkeit
des Ereignisses E.
Die Forderung (1.1) hat zur Konsequenz, dass die Funktion P nicht ganz willkürlich
gewählt werden kann sondern im wesentlichen die gleichen Eigenschaften besitzen muss
wie die relative Häufigkeit Rn .
6
Um diese Eigenschaften präzise formulieren zu können, benötigen wir ein mathematisches Modell eines Zufallsexperiments, mit dem wir uns im folgenden Abschnitt
beschäftigen.
7
2 Wahrscheinlichkeitsräume
Ein Wahrscheinlichkeitsraum ist ein mathematisches Modell bzw. ein abstraktes Schema zur Beschreibung eines Zufallsexperiments. Aus den Erläuterungen des vorhergehenden Abschnitts ergibt sich, dass eine solche Beschreibung die folgenden Bestandteile
enthalten muss:
• Eine Liste der möglichen Ausgänge des Experiments
• Eine Aufstellung der interessierenden Ereignisse
• Eine Beschreibung der Funktion P
2.1 Die Ergebnismenge
Die Ausgänge eines Zufallsexperiments werden üblicherweise Ergebnisse genannt und
die Menge der möglichen Ausgänge dementsprechend die Ergebnismenge oder der
Ergebnisraum. Als Symbol für ein Ergebnis werden wir den griechischen Buchstaben
ω benutzen und die Ergebnismenge wird durch den zugehörigen Großbuchstaben Ω
gekennzeichnet.
Die Menge der möglichen Ergebnisse kann man als Reduktion der allgemeinen Beschreibung des Experiments auf das mathematisch Wesentliche ansehen. Dabei gibt
es aber je nach Fragestellung eventuell mehrere Möglichkeiten. Zur Veranschaulichung
ziehen wir zwei klassische Beispiele für Zufallsexperimente heran: Das Werfen zweier
Würfel und das Galton-Brett.
Würfeln. Wirft man zwei Würfel und ist nur an der Summe der geworfenen Augenzahlen interessiert, so bietet sich als Ergebnismenge die Menge
Ωw1 = {2, 3, 4, . . . 11, 12}
(2.2)
der natürlichen Zahlen von 2 bis 12 an. Kommt es wie etwa beim Backgammon-Spiel
auf die tatsächlich geworfenen Augenzahlen an, muss man Paare von Augenzahlen
notieren. Bei zwei nicht unterscheidbaren Würfeln kan man als Ergebnismenge zum
Beispiel


[1, 1] [1, 2] [1, 3] [1, 4] [1, 5] [1, 6] 






[2, 2] [2, 3] [2, 4] [2, 5] [2, 6] 






[3, 3] [3, 4] [3, 5] [3, 6]
Ωw2 =
[4, 4] [4, 5] [4, 6] 







[5, 5] [5, 6] 





[6, 6]
ansetzen. Die Notation [i, k] steht für das Ergebnis, dass einer der Würfel die Augenzahl
i und der andere die Augenzahl k zeigt, wobei an erster Stelle immer die kleinere der
geworfenen Zahlen steht.
Wirft man die beiden Würfel nicht gleichzeitig, sondern nacheinander und ist die Reihenfolge der geworfenen Augenzahlen von Bedeutung, so muss die Darstellung noch
8
einmal verfeinert werden, etwa

(1, 1)




(2,
1)



(3, 1)
Ωw3 =
(4, 1)




(5, 1)



(6, 1)
durch die Ergebnismenge
(1, 2)
(2, 2)
(3, 2)
(4, 2)
(5, 2)
(6, 2)
(1, 3)
(2, 3)
(3, 3)
(4, 3)
(5, 3)
(6, 3)
(1, 4)
(2, 4)
(3, 4)
(4, 4)
(5, 4)
(6, 4)
(1, 5)
(2, 5)
(3, 5)
(4, 5)
(5, 5)
(6, 5)
(1, 6)
(2, 6)
(3, 6)
(4, 6)
(5, 6)
(6, 6)















(2.3)
wobei (i, k) für das Ergebnis steht, dass i die erste und k die zweite geworfene Augenzahl ist.
Das Galton-Brett. Ein Galton-Brett besteht aus einer schräg gestellten Platte, in die
wie in Abbildung 1 skizziert Rinnen eingefräst sind. Eine Kugel wird in die Startrinne
am oberen Rand gelegt und rollt nach unten, wobei sie an den Verzweigungspunkten
zufällig nach links oder rechts abgelenkt wird.
Abbildung 1: Ein Galton-Brett
Die Ergebnisse sind entweder die in irgendeiner Form gekennzeichneten verschiedenen
Ausgänge am unteren Ende des Bretts, an denen die Kugel schließlich landet, oder —
wie in einem der nächsten Kapitel verwendet wird — die verschiedenen Wege, die die
Kugel durchlaufen kann.
2.2 Ereignisse
Ein Ereignis ist eine Charakterisierung des Ausgangs eines Zufallsexperiments durch
ein oder mehrere Merkmale, so dass nach Durchführung des Experiments die Frage,
ob diese Charakterisierung zutrifft, eindeutig mit ja“ oder nein“ beantwortet werden
”
”
kann. Falls sie zutrifft, sagt man, das Ereignis sei eingetreten. Betrachtet man zum
Beispiel beim Werfen zweier Würfel die Aussage
Zwei ungerade Augenzahlen wurden geworfen“,
”
9
so ist dies bezogen auf die Ergebnismenge Ωw1 kein Ereignis im obigen Sinne, da sich
nicht entscheiden lässt, ob sie zutrifft, wenn man nur die Augenzahlsumme als Ergebnis
kennt. Bei den anderen beiden Ergebnismengen ist diese Frage entscheidbar.
Offensichtlich kann man Ereignisse durch Teilmengen der Ergebnismenge repräsentieren.
Da ein Ereignis genau dann eintritt, wenn die zugehörige Aussage auf das Ergebnis
der Durchführung des Experiments zutrifft, entspricht einem Ereignis einfach die Menge aller Ergebnisse des Experiments, für die diese Aussage wahr ist. Bezogen auf die
Ergebnismenge Ωw2 ist das in unserem Beispiel die Menge
A2 = {[1, 1], [1, 3], [1, 5], [3, 3], [3, 5], [5, 5]}
Die Charakterisierung von Ereignissen durch Mengen hängt natürlich von der gewählten
Ergebnismenge ab. Je nach Auswahl wird die Aussage
Die Augenzahlsumme 7 wurde geworfen“
”
durch die drei Mengen
B1
B2
B3
= {7}
= {[1, 6], [2, 5], [3, 4]}
= {(1, 6), (6, 1), (2, 5), (5, 2), (3, 4), (4, 3)}
repräsentiert.
Auf dem Wege der mathematischen Abstraktion können wir jetzt noch einen Schritt
weitergehen und die Differenzierung zwischen Aussage und repräsentierender Menge
aufheben. Für unser mathematisches Modell legen wir fest:
Ein Ereignis ist eine Teilmenge des Ergebnisraums.
2.3 Verbundereignisse
Ereignisse können mittels der logischen Operatoren und, oder miteinander verknüpft
und durch nicht negiert werden, wodurch sich neue Ereignisse ergeben, wie zum Beispiel
Ungerade Augenzahlen“ und Augenzahlsumme größer als 4“
”
”
Augenzahlsumme 6“ oder Augenzahlsumme 7“
”
”
Die Augenzahlsumme ist nicht 7“
”
Geht man zur Mengendarstellung der Ereignisse über, so entsprechen diesen Verbundereignissen die Vereinigung, der Durchschnitt und das Komplement der Mengen, die
die verknüpften Ereignisse repräsentieren:
A∪B
= {ω ∈ Ω ; ω ∈ A oder ω ∈ B}
A ∩ B = {ω ∈ Ω ; ω ∈ A und ω ∈ B}
A = {ω ∈ Ω ; ω ∈
/ A}
10
Nach der Liste der möglichen Ergebnisse des Zufallsexperiments ist nach den obigen Überlegungen als zweiter Bestandteil eines mathematischen Modells eine Liste
der interessanten Ereignisse bzw. die Auflistung der entsprechenden Teilmengen der
Ergebnismenge Ω erforderlich.
Da man zweifellos in eine solche Liste alle Verbundereignisse mit aufnehmen wird,
ergibt sich die Forderung, dass die Menge der zugehörigen Teilmengen unter den Operationen Vereinigung, Durchschnitt und Komplementbildung abgeschlossen sein muss.
Ein derartiges Mengensystem heißt in der Mathematik eine Mengenalgebra.
Definition 2.1 Eine Menge A von Teilmengen einer nichtleeren Menge Ω heißt eine
Mengenalgebra (über Ω), wenn gilt:
Ω∈A
A∈A⇒A∈A
A, B ∈ A ⇒ A ∪ B ∈ A
Beispiele für Mengenalgebren sind die Mengensysteme {∅, Ω} als die kleinstmögliche
Algebra, {∅, A, A, Ω} als die kleinste Algebra, die das Ereignis A enthält und die Menge
aller Teilmengen von Ω, die wir im folgenden mit 2Ω bezeichnen.
Bemerkungen und Bezeichnungen
1. Da jedes ω in dem Ereignis Ω liegt, tritt dieses Ereignis bei jeder Durchführung
des Experiments ein. Es heißt daher auch das sichere Ereignis.
2. Sein Komplement Ω = ∅ , die leere Menge, tritt nie ein und heißt daher das
unmögliche Ereignis.
3. Eine einelementige Menge {ω} heißt ein Elementarereignis.
4. Morgansche Regeln: Man kann leicht nachvollziehen, dass für beliebige Mengen die Gleichungen
A =A
und
A∩B =A∪B
gelten. Mit diesen Regeln ergibt sich, dass Mengenalgebren auch unter der Durchschnittsbildung abgeschlossen sind. Aus den Eigenschaften einer Mengenalgebra
folgt nämlich, dass
A, B ∈ A
⇒
⇒
⇒
A, B ∈ A
A∩B =A∪B ∈A
A∩B = A∩B ∈A
5. Anstelle von A ∩ B schreiben wir auch kurz AB.
6. Zwei Mengen A, B heißen disjunkt, falls A ∩ B = ∅. In diesem Fall schreiben
wir A + B anstelle von A ∪ B.
11
2.4 Wahrscheinlichkeiten
Im Hinblick auf das empirische Gesetz der großen Zahlen sollten die wesentlichen Eigenschaften der relativen Häufigkeit Rn (s. Seite 6) auf die Funktion P übertragen
werden. Dazu betrachten wir die Situation, dass ein Zufallsexperiment mit der Ergebnismenge Ω n-mal durchgeführt und dabei gezählt wurde, wie oft ein Ereignis A ⊂ Ω
eingetreten ist.
Da die absolute Häufigkeit Hn (A) des Ereignisses nicht größer sein kann als die Anzahl n der Versuche insgesamt, muss für den Quotienten Rn (A) = Hn (A)/n die Einschränkung
0 ≤ Rn (A) ≤ 1
(2.4)
gelten. Für das sichere Ereignis Ω ist Hn (Ω) = n und daher
Rn (Ω) = 1
(2.5)
denn das sichere Ereignis tritt bei jedem Versuch ein. Schließlich kann von zwei disjunkten Ereignissen A und B bei jeder Durchführung des Experiments höchstens
eines der beiden eintreten, so dass Hn (A + B) = Hn (A) + Hn (B) und damit
Rn (A + B) = Rn (A) + Rn (B)
(2.6)
gilt.
Eine Funktion P auf der Mengenalgebra A der Ereignisse sollte daher auf jeden Fall
die folgenden drei Eigenschaften besitzen.
Axiom 1
0 ≤ P (A) ≤ 1
für alle A ∈ A
(2.7)
Axiom 2
P (Ω) = 1
(2.8)
Axiom 3
P (A + B) = P (A) + P (B)
für disjunkte Ereignisse A und B aus A
(2.9)
Als Axiome werden in der Mathematik diejenigen Eigenschaften eines mathematischen Objekts bezeichnet, die als Basis für alle weiteren Folgerungen dienen und die
(innerhalb des mathematischen Modells) nicht weiter begründet werden.
Aus diesen drei Axiomen ergeben sich unmittelbar einige Rechenregeln für Ereignisse,
die bei den kommenden Berechnungen häufig benötigt werden. A, B usw. seien dabei
stets Elemente aus der Ereignisalgebra A.
Komplementärereignisse: Wegen A + A = Ω folgt aus den Axiomen 2 und 3, dass
P (A) + P (A) = 1 oder
P (A) = 1 − P (A)
(2.10)
Speziell für das unmögliche Ereignis ∅ = Ω also
P (∅) = 0
12
(2.11)
Isotonie: Ist A ⊂ B, so lässt sich B als A + AB darstellen. Das ergibt P (B) =
P (A) + P (AB). Und da P (AB) ≥ 0, folgt daraus
A⊂B
⇒
P (A) ≤ P (B)
(2.12)
Endliche Summen von Ereignissen: Endlich oder unendlich viele Ereignisse A1 ,
A2 , A3 . . . heißen paarweise disjunkt, wenn für je zwei Indizes i 6= k die Mengen Ai
und Ak disjunkt sind. In diesem Fall schreibt man A1 + A2 + . . . + An anstelle von
A1 ∪ A2 ∪ . . . ∪ An bzw.
n
X
Ak
anstelle von
n
[
Ak
k=1
k=1
Wegen
A1 + A2 + . . . + An
= A1 + (A2 + . . . + An )
= A1 + (A2 + (A3 + . . . + An ))
= usw.
ergibt sich durch wiederholte Anwendung von Axiom 3 die Summenformel
P (A1 + . . . + An )
bzw.
P(
n
X
= P (A1 ) + . . . + P (An )
Ak ) =
n
X
P (Ak )
(2.13)
k=1
k=1
Allgemeine Additionsregel: Für beliebige nicht notwendig disjunkte Ereignisse
A, B ergibt sich aus A ∪ B = AB + AB + AB die Beziehung
P (A ∪ B) = P (A) + P (B) − P (AB)
(2.14)
Solange man es mit Zufallsexperimenten zu tun hat, die durch eine endliche Ergebnismenge Ω beschrieben werden können, reichen die Axiome 1 bis 3 zur Berechnung
aus, denn jede Teilmenge von Ω kann in höchstens endlich viele disjunkte Teile aufgespalten werden. Bei unendlichen Ergebnismengen muss man noch ein viertes Axiom
einführen um ein vernünftiges Modell zu erhalten. Zur Veranschaulichung betrachten
wir das Zufallsexperiment, dass ein Würfel so lange geworfen wird, bis zum ersten Mal
die Augenzahl 6 erscheint.
Da nicht abzusehen ist, bei welchem Wurf dieses Ereignis eintritt und prinzipiell auch
denkbar ist, dass niemals eine 6 geworfen wird, muss man als Ergebnisraum die Menge
Ω = {ω = (z1 , z2 , . . .) ; zk = 1, 2, 3, 4, 5, 6}
aller möglichen unendlichen Wurfserien benutzen: Die Komponente zk steht für die
Augenzahl, die beim k-ten Wurf erscheint.
13
Das Ereignis, dass beim k-ten Wurf die erste 6 erscheint, wird durch die Menge
Ak = {ω = (z1 , z2 , . . .) ; zi < 6 für i < k und zk = 6}
beschrieben. Die Mengen A1 , A2 , . . . sind paarweise disjunkt. Für n = 1, 2, 3, . . . repräsentieren die Mengen
Bn = A1 + A2 + . . . + An
(2.15)
die Ereignisse, dass spätestens beim n-ten Wurf eine 6 kommt und
∞
[
A=
Bn =
n=1
∞
X
Ak
(2.16)
k=1
entspricht der Aussage, dass irgendwann einmal eine 6 erscheint“.
”
Ist P eine Funktion, die für diese Ereignisse definiert ist und den Axiomen 1 bis 3
genügt, so folgt aus
B1 ⊂ B2 ⊂ B3 ⊂ . . .
und Regel (2.12), dass die Folge der Wahrscheinlichkeiten P (B1 ), P (B2 ), . . . monoton
steigt und nach Axiom 1 durch 1 nach oben beschränkt ist. Es gibt also einen Limes
lim P (Bn ) = β
n→∞
(2.17)
Aus dem Zusammenhang heraus erscheint es vernünftig, diesen Limes β als die Wahrscheinlichkeit
dafür anzusehen, dass irgendwann einmal eine 6 auftritt, d.h. β =
S∞
P ( n=1 Bn ).
Für das mathematische Modell eines Zufallsexperiments bedeutet das, dass noch zwei
weitere Eigenschaften als grundlegende Forderungen hinzugefügt werden müssen, die
nicht aus den bisher eingeführten abgeleitet werden können. Einmal muss die Menge
A der Ereignisse auch unter der Vereinigung abzählbar unendlich vieler Mengen abgeschlossen sein und zum anderen muss die Funktion P bezüglich dieser Operation
gewisse Stetigkeitseigenschaften besitzen. Für Ersteres führen wir einen neuen Begriff
ein:
Definition 2.2 Eine Mengenalgebra A heißt eine σ-Algebra, wenn für jede Folge
A1 , A2 , A3 . . . von Elementen aus A auch die Vereinigung
∞
[
n=1
An ∈ A
(2.18)
in A liegt.
Hinsichtlich P erweitern wir das Axiomensystem noch durch
Axiom 4
Für jede Folge A1 , A2 , . . . von paarweise disjunkten Mengen Ak ∈ A gilt
P(
∞
X
Ak ) =
∞
X
k=1
k=1
14
P (Ak )
(2.19)
Wie der Mathematiker A. Kolmogoroff 1933 in seinem Buch Grundbegriffe der Wahrscheinlichkeitsrechnung ([17]) zeigte, lässt sich auf diesen Axiomen ein leistungsfähiges
Gebäude der Wahrscheinlichkeitsrechnung aufbauen.
Definition 2.3 Eine Funktion P : A −→ R auf einer σ-Algebra A von Teilmengen
einer Menge Ω, die die Axiome 1 bis 4 erfüllt, heißt eine Wahrscheinlichkeit oder
Wahrscheinlichkeitsverteilung.
Als mathematisches Modell eines Zufallsexperiments legen wir fest:
Definition 2.4 Ein Tripel (Ω, A, P ), wo Ω eine nichtleere Menge, A eine σ-Algebra
von Teilmengen von Ω und P eine Wahrscheinlichkeitsverteilung auf A ist, heißt ein
Wahrscheinlichkeitsraum.
Ω heißt die Ergebnismenge, die Elemente der σ-Algebra A heißen Ereignisse und die
Zahl P (A) heißt die Wahrscheinlichkeit des Ereignisses A.
2.5 Monotone Folgen von Ereignissen
Als Grund für die Einführung des vierten Axioms war die Forderung der Stetigkeit der
Funktion P in der Form (2.17) angegeben worden. Wir müssen daher noch überprüfen,
ob sich dies aus dem Axiom 4 ableiten lässt.
Ist B1 , B2 , . . . eine Folge von Ereignissen aus einemSWahrscheinlichkeitsraum (Ω, A, P )
∞
mit Bn ⊂ Bn+1 für alle n = 1, 2, . . . und ist B = n=1 Bn , so symbolisieren wir diese
Situation kurz mit Bn % B. Dann gilt
Satz 2.1
Bn % B
⇒
lim P (Bn ) = P (B)
n→∞
(2.20)
Beweis: Nach Regel (2.12) ist die Folge der Zahlen P (Bn ) monoton steigend und nach
Axiom 1 nach oben durch 1 beschränkt. Der Limes existiert also. Wir konstruieren
eine neue Folge von Ereignissen A1 , A2 , . . . durch
A1 = B1
A2 = B2 ∩ B 1
..
.
Ak = Bk ∩ B k−1
..
.
Diese Ereignisse Ak sind paarweise disjunkt und es gilt
Bn
= A1 + A2 + . . . + An =
n
X
k=1
B
=
∞
X
Ak
k=1
15
Ak
Daraus ergibt sich aus den Axiomen und den bisher abgeleiteten Rechenregeln
lim P (Bn ) =
n→∞
lim
n→∞
= P(
n
X
k=1
∞
X
P (Ak ) =
∞
X
P (Ak )
k=1
Ak ) = P (B)
k=1
Ist C1 , C2 , . . . eine Folge von Ereignissen mit C1 ⊃ C2 ⊃ C3 . . . und C =
kurz Cn & C, so gilt
T∞
n=1
♦
Cn ,
Satz 2.2
Cn & C
⇒
lim P (Cn ) = P (C)
n→∞
(2.21)
Beweis: Die Ereignisse Bn = C n erfüllen Bn % B mit B = C. Wegen P (Cn ) =
1 − P (Bn ) und P (C) = 1 − P (B) folgt die Behauptung aus dem vorhergehenden Satz.
16
3 Laplace-Experimente
Mit dem Aufstellen von Rechenregeln für Wahrscheinlichkeiten ist noch nicht das Problem gelöst, wie man bei konkreten Zufallsexperimenten zu konkreten Zahlen für die
Wahrscheinlichkeit von Ereignissen kommt. Dies ist allerdings auch nur zum Teil ein
rein mathematisches Problem. Der mathematische Teil besteht darin zu klären, welche Informationen über die Funktion P erforderlich sind um anschließend mit Hilfe
der Rechenregeln die Wahrscheinlichkeit P (A) eines beliebigen Ereignisses A berechnen zu können. Das praktische“ Problem besteht darin, im konkreten Einzelfall einen
”
vernünftigen“ Ansatz für die benötigte Minimalinformation über P aufzustellen.
”
Das historisch erste Kochrezept zur Lösung dieses Problems stammt von Pierre Simon
de Laplace (1749–1827):
Die Wahrscheinlichkeitsrechnung besteht in der Zurückführung aller Ereignisse
derselben Art auf eine gewisse Anzahl von gleich möglichen Fällen, über deren
Eintreten wir gleich wenig wissen, und in der Bestimmung derjenigen Anzahl
von Fällen, die für das Ereignis günstig sind, dessen Wahrscheinlichkeit wir
suchen.
Den ersten Teil dieser Vorschrift kann man unter Verwendung der im vorhergehenden
Kapitel eingeführten Begriffe etwa folgendermaßen formulieren:
Beschreibe eine Versuchsanordnung durch eine Ergebnismenge derart, dass
es keinen vernünftigen Einwand gegen den Ansatz gibt, dass alle Ergebnisse
gleich möglich sind, bzw. — in unserer Sprechweise — dass alle Elementarereignisse die gleiche Wahrscheinlichkeit besitzen.
P {ω} = p für alle ω ∈ Ω
(3.22)
Beispiele:
1. Ist ein Würfel regulär, d.h. aus homogenem Material geometrisch exakt geformt, so
lässt sich kaum etwas gegen die Annahme einwenden, dass jede der sechs Augenzahlen
beim Wurf die gleiche Chance hat nach oben zu zeigen. Die Ergebnismenge Ω =
{1, 2, 3, 4, 5, 6} ist also für diesen Fall ein passender Ansatz.
2. Interessiert man sich für die Augenzahlsumme beim Werfen zweier regulärer Würfel,
so ist die Ergebnismenge Ωw1 (s. Seite 8) ungeeignet. Nach einer relativ kurzen Versuchsreihe zeigt sich im allgemeinen, dass sich die relativen Häufigkeiten der Elementarereignisse deutlich voneinander unterscheiden und ein Laplace-Ansatz (3.22) offensichtlich im Widerspruch zum empirischen Gesetz der großen Zahlen steht.
Andererseits gibt es beim zweimaligen Werfen eines regulären Würfels (oder beim
gleichzeitigen Werfen zweier unterscheidbarer regulärer Würfel) keinen vernünfigen
Einwand gegen die Annahme, dass alle möglichen Kombinationen aus erster und zweiter geworfener Augenzahl die gleiche Chance besitzen. Man wird also von der Eigenschaft (3.22) für die Ergebnismenge Ωw3 wie in (2.3) ausgehen und Ereignisse der Form
Die Augenzahlsumme ist x“ in diesem Rahmen betrachten.
”
17
3.1 Laplace-Experimente
Die Eigenschaft (3.22) ist die Minimalinformation, durch die der Wahrscheinlichkeitsraum
(Ω, A, P ) bereits eindeutig festgelegt ist. Sie besagt als Erstes, dass jede einelementige
Menge {ω} ein Element der σ-Algebra A ist. Daraus folgt, dass jede endliche Teilmenge
von Ω in A liegt, denn
A = {ω1 , ω2 , . . . , ωn } = {ω1 } + {ω2 } + · · · + {ωn } ∈ A
und es ist dementsprechend
P (A)
= P {ω1 } + P {ω2 } + · · · + P {ωn }
= np =: |A|p
(3.23)
|A| bezeichnet dabei die Anzahl der Elemente der Menge A.
Da man offensichtlich p > 0 ansetzen muss, um zu einer sinnvollen Wahrscheinlichkeitsverteilung zu kommen, ist ein Ansatz der Form (3.22) nur möglich, wenn die
Ergebnismenge Ω endlich ist. Denn einerseits muss stets P (A) ≤ 1 sein und andererseits
gäbe es bei nicht-endlichem Ω Teilmengen A einer derartigen Größe, dass |A|p > 1 ist.
Dann ist aber jede Teilmenge von Ω endlich und somit ein Element der Ereignisalgebra,
so dass A = 2Ω . Weiter folgt aus
1 = P (Ω) = |Ω|p
dass p = 1/|Ω| und wir erhalten für die Wahrscheinlichkeit eines Ereignisses A die
bekannte Formel
Anzahl der günstigen Fälle
|A|
=
P (A) =
|Ω|
Anzahl der möglichen Fälle
Wie man sich leicht überzeugt, erfüllt die Funktion P die Axiome 1 bis 3. Das Axiom
4 ist hier nicht relevant, da wir es mit einer endlichen Ergebnismenge zu tun haben.
Wir können daher festlegen:
Definition 3.1 Ein Laplace-Experiment ist ein Wahrscheinlichkeitsraum (Ω, A, P )
mit den folgenden Eigenschaften:
• Ω ist eine endliche Menge
• A = 2Ω
• P (A) = |A|/|Ω|
Die Berechnung von Wahrscheinlichkeiten bei Laplace-Experimenten besteht daher im
Abzählen der Elemente der entsprechenden Mengen. Beim Werfen zweier Würfel ist das
recht einfach. Die Menge Ωw3 enthält 36 Elemente und das Ereignis Augenzahlsumme
”
7“ wird durch die Menge A = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} mit 6 Elementen
und der Wahrscheinlichkeit P (A) = 1/6 repräsentiert. Das Problem des Abzählens
kann sich aber zuweilen sehr schwierig gestalten. Mit diesem Teil der Wahrscheinlichkeitsrechnung, der unter das Stichwort Kombinatorik fällt, werden wir uns in diesem
Kapitel anhand einiger typischer Problemstellungen kurz beschäftigen.
18
3.2 Binomialkoeffizienten
Beim Galton-Brett (s. Seite 9) kommen die unterschiedlichen Ergebnisse dadurch
Zustande, dass die Kugel an den Verzweigungen der Rinnen zufällig nach links oder
rechts springt. Wenn man die Spitzen der Verzweigungen durch Punkte repräsentiert,
ergibt sich das in Abbildung 2 dargestellte Schema.
× Start
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
0
1
2
3
4
5
Abbildung 2: Schema des Galton-Bretts
Zu n(= 5) Punktreihen gibt es n + 1(= 6) Fächer, in die die Kugel fallen kann und die
wir von 0 bis n von links nach rechts durchnummerieren.
Die verschiedenen möglichen Wege, die die Kugel auf diesem Brett durchlaufen kann,
lassen sich durch die Sprungrichtungen der Kugel auf den n Reihen beschreiben. Jedem
Weg entspricht ein Binärvektor δ = (δ1 , δ2 , . . . , δn ), wobei δi = 0 bzw. = 1, wenn die
Kugel auf der i-ten Reihe nach links bzw. nach rechts springt.
Bei einem regulär gebauten Galton-Brett kann man davon ausgehen, dass auf jeder
Reihe Sprünge nach rechts und nach links gleich möglich sind und weiter, dass jede
Kombination von Sprüngen gleich möglich ist, so dass
Ωn = {δ = (δ1 , δ2 , . . . , δn ) ; δi ∈ {0, 1}}
eine geeignete Ergebnismenge ist, die bekanntermaßen |Ωn | = 2n Elemente besitzt.
Wie berechnet man unter der Annahme, dass wir ein Laplace-Experiment vor uns
haben, die Wahrscheinlichkeit des Ereignisses
die Kugel fällt in das Fach Nr. k“ ?
”
Anhand der Abbildung 2 überzeugt man sich leicht, dass die Kugel beim n-reihigen
Galton-Brett in das Fach k fällt, wenn sie bei ihren n Sprüngen auf dem Weg nach
unten genau k-mal nach rechts und (n−k)-mal nach links springt, wobei es gleichgültig
ist, in welcher Reihenfolge diese Sprünge erfolgen. In der Ergebnismenge Ωn wird dieses
Ereignis durch die Menge aller Binärvektoren repräsentiert, die genau k Einsen (und
folglich n − k Nullen) enthalten.
)
(
n
X
n
δi = k
(3.24)
Ak = δ = (δ1 , δ2 , . . . , δn ) ∈ Ωn ;
i=1
19
Die Anzahl der Elemente dieser Menge wird mit
n
|Ank | =
k
bezeichnet. Diese Größe heißt ein Binomialkoeffizient. Ihren Namen hat sie von der
Binomialformel
n X
n k n−k
a b
(3.25)
(a + b)n =
k
k=0
mit reellen oder komplexen Zahlen a und b. In dieser Formel ist — wie man sich durch
das Ausmultiplizieren etwa von (a + b)3 veranschaulicht — der Binomialkoeffizient nk
die Anzahl der Produkte, die man aus k Faktoren a und n − k Faktoren b bilden kann.
Ersetzt man a durch 1 und b durch 0, so entsprechen die Binärvektoren mit k Einsen
gerade diesen Produkten.
Einzelheiten zu den Binomialkoeffizienten findet man in jedem Buch über Kombinatorik. Wir beschränken uns hier auf die wichtigsten Berechnungsformeln.
n
n
=
=1
0
n
Dies ist unmittelbar einsichtig. Die Menge der Binärvektoren, die aus lauter Nullen
bzw. Einsen bestehen, enthält jeweils ein Element. Wenn man die Menge An+1
in die
k
Menge A1 aller Vektoren der Form (δ1 , . . . , δn , 1) mit k − 1 Einsen unter den ersten
n Komponenten und die Menge A0 der (δ1 , . . . , δn , 0) mit k Einsen zerlegt, so ist
offensichtlich |A1 | = |Ank−1 | und |A0 | = |Ank |, woraus die Rekursionsformel
n+1
n
n
=
+
k
k−1
k
folgt. Durch Ersetzen von 1 durch 0 und 0 durch 1 in jedem Vektor ergibt sich weiterhin
die Gleichung
n
n
=
k
n−k
Zur expliziten Berechnung der Binomialkoeffizienten benutzt man die Formeln
n!
n(n − 1) · · · (n − k + 1)
n
=
=
k(k − 1) · · · 1
k!(n − k)!
k
mit 0! = 1 und m! = 1 · 2 · 3 · · · (m − 1) · m für m = 1, 2, . . . .
Die Wahrscheinlichkeit, dass bei einem regulären Galton-Brett die Kugel im Fach
Nummer k landet, ist somit durch die Formel
n
P (Ank ) =
gegeben.
20
k
2n
3.3 Urnen- und Schubladenmodelle
Urnenmodelle stellen einen Zwischenschritt auf dem Weg vom konkreten Zufallsexperiment zu seiner mathematischen Beschreibung als Wahrscheinlichkeitsraum dar. Es
sind fiktive Zufallsexperimente, die die wesentlichen Zufallselemente eines konkreten
Vorgangs — evtl. auch nur angenähert — beschreiben. Ein Beispiel dafür ist der Vorgang beim Lotto Sechs aus Neunundvierzig“: Auf einem Lottoschein werden auf einem
”
Zahlenfeld 6 Zahlen angekreuzt. Bei der öffentlichen Ziehung werden aus einer Trommel
sechs Kugeln zufällig gezogen und die auf den Kugeln stehenden Zahlen notiert. Dann
zählt man, wieviele der angekreuzten Zahlen mit den gezogenen übereinstimmen. Von
den weiteren Varianten wie der Zufallszahl sehen wir hier zunächst einmal ab. Bezogen
auf dieses eine Zahlenfeld lässt sich dieser Vorgang auf das folgende fiktive Experiment
reduzieren: In einem Gebilde namens Urne“ befinden sich 49 Kugeln, 43 davon weiß
”
und 6 schwarz. Letztere entsprechen den auf dem Zahlenfeld angekreuzten Zahlen. Aus
dieser Urne werden zufällig“ sechs Kugeln gezogen und die Höhe des Gewinns hängt
”
davon ab wieviele schwarze Kugeln sich unter den sechs gezogenen befinden.
Um in solchen Situationen Wahrscheinlichkeiten zu berechnen, benötigt man einen
Wahrscheinlichkeitsraum für das folgende Zufallsexperiment:
Aus einer Urne mit N Kugeln, von denen K schwarz und der Rest weiß
sind, werden n Kugeln zufällig gezogen. Interessierende Ereignisse sind:
Unter den gezogenen Kugeln befinden sich genau k schwarze.“
”
Das Eigenschaftswort zufällig soll dabei andeuten, dass es sich um ein Laplace-Experiment handeln soll.
Schubladenmodelle dienen einem ähnlichen Zweck. Beispielsweise kann man sich
einen Binärvektor der Dimension n als eine Reihe von n (nummerierten) Schubladen
vorstellen, die den Komponenten des Vektors entsprechen, wobei eine 0 einer leeren
und eine 1 einer mit einer Kugel gefüllten Schublade entspricht. Dem Binärvektor
(1, 0, 1, 1, 0) zum Beispiel entspricht die Kugelverteilung
v
1
2
v
v
3
4
5
3.4 Zufälliges Ziehen einer Kugel
Um feststellen zu können, ob jede der Kugeln beim Ziehen die gleiche Chance hat,
müssen sie unterscheidbar sein. Wir gehen daher davon aus, dass sie die Nummern
1, 2, . . . , N tragen, so dass als Ergebnisse die Nummern der gezogenen Kugeln angesetzt
werden können:
ΩN
1 = {1, 2, . . . , N }
Um in dieser Ergebnismenge das Ereignis gezogene Kugel ist schwarz“ charakterisie”
ren zu können, muss eine Beziehung zwischen den Nummern und der Farbe bestehen.
21
Wir nehmen der Einfachheit halber an, dass die Nummerierung so durchgeführt wurde, dass die schwarzen Kugeln die Nummern 1 bis K tragen und das obige Ereignis
daher der Menge
A = {1, . . . , K}
entspricht. Wenn jede Kugel beim Ziehen die gleiche Chance hat, das Ganze also ein
Laplace-Experiment ist, erhält man als Wahrscheinlichkeit
P (A) =
K
|A|
=
N
N
|Ω1 |
3.5 Zufälliges Ziehen mehrerer Kugeln
Beim Ziehen von n ≥ 2 Kugeln aus der Urne sind verschiedene Vorgehensweisen
möglich, wobei wir für diesen Abschnitt generell annehmen, dass eine einmal aus der
Urne gezogene Kugel nicht wieder zurückgelegt wird. Man kann die Kugeln einzeln
nacheinander ziehen und dabei notieren, welche Kugel wann gezogen wurde oder alle
Kugeln auf einmal aus der Urne nehmen. Ersteres nennen wir Ziehen mit Berücksichtigung der Reihenfolge, letzeres Ziehen ohne Berücksichtigung der Reihenfolge.
3.5.1 Ziehen mit Berücksichtigung der Reihenfolge
Ist zi die Nummer der Kugel, die beim i-ten Zug aus der Urne genommen wurde, so
lassen sich die Ausgänge des Experiments durch die Menge
ΩN
n = {(z1 , z2 , . . . , zn ) ; zi = 1, 2, . . . , N und zi paarweise verschieden}
(3.26)
repräsentieren.
Die Menge ΩN
2 enthält N (N − 1) Elemente, da jede der N Zahlen z1 mit den N − 1
Zahlen z2 6= z1 zu einem Ergebnis (z1 , z2 ) kombiniert werden kann.
Wenn man den Vektor (z1 , z2 , . . . , zn ) in der Form ((z1 , z2 , . . . , zn−1 ), zn ) schreibt,
sieht man, dass die Ergebnisse aus ΩN
n durch die Kombination von beliebigen Ermit
Zahlen zn Zustande kommen, die von den
gebnissen (z1 , z2 , . . . , zn−1 ) aus ΩN
n−1
z1 , z2 , . . . , zn−1 verschieden sind. Da es (N − (n − 1)) = (N − n + 1) derartige Zahlen
N
aus dem Bereich 1, 2, . . . , N gibt, ist |ΩN
n | = |Ωn−1 |(N − n + 1), woraus sich rekursiv
die Formel
(3.27)
|ΩN
n | = N (N − 1)(N − 2) · · · (N − n + 1)
ergibt.
3.5.2 Ziehen ohne Berücksichtigung der Reihenfolge
Wenn die Reihenfolge, in der die Kugeln gezogen wurden, keine Rolle spielt, erhält
man als Ergebnis eine Menge von n verschiedenen Zahlen aus dem Bereich 1, 2, . . . , N ,
die man üblicherweise der Größe nach geordnet aufschreibt. Diese Vorgehensweise legt
die Ergebnismenge
Ω̂N
n = {(z1 , z2 , . . . , zn ) ; 1 ≤ z1 < z2 < . . . < zn ≤ N }
22
(3.28)
nahe. Zur Bestimmung der Anzahl der Elemente dieser Menge benutzen wir eine andere
Darstellung dieser Ergebnisse. Wir ordnen einem Vektor (z1 , z2 , . . . , zn ) aus (3.28) den
Binärvektor (δ1 , δ2 , . . . , δN ) der Länge N mit
1 für i = z1 , z2 , . . . , zn
δi =
0 für alle anderen i
bzw. eine Verteilung von n Kugeln auf N Schubladen zu, wobei in den Schubladen
z1 , z2 , . . . , zn jeweils eine Kugel liegt.
Durch diese Zuordnung wird die Menge Ω̂N
n wird eineindeutig auf die Menge
Ω̃N
n = {(δ1 , δ2 , . . . , δN ) ;
N
X
δi = n}
(3.29)
i=1
abgebildet und enthält daher die gleiche Anzahl von Elementen, nämlich —wie wir
von (3.24) wissen—
N
N
|
=
|
=
|
Ω̃
|Ω̂N
n
n
n
Mit dieser Ergebnismenge lässt sich auch das oben angesprochene Problem leicht lösen:
Aus einer Urne mit K schwarzen und N − K weißen Kugeln werden zufällig n
Kugeln ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge gezogen.
Wie groß ist die Wahrscheinlichkeit, dass sich unter den gezogenen Kugeln k
schwarze befinden?
Wenn die schwarzen Kugeln die Nummern von 1 bis K tragen, wird das entsprechende
Ereignis durch die Teilmenge
Bk = {(δ1 , δ2 , . . . , δK , δK+1 , . . . , δN ) ∈ Ω̃N
n ;
K
X
δi = k ,
i=1
N
X
i=K+1
δi = n − k}
(3.30)
von Ω̃N
eine Nummer 1 ≤ zi ≤ K
n beschrieben; denn einer schwarzen Kugel entspricht
Vektorteilstücke
(δ1 , . . . , δK |
und dies wiederum einer Komponente δzi = 1. Da es K
k
PK
PN
N −K
mit i=1 δi = k und n−k Teilstücke |δK+1 , . . . , δN ) mit i=K+1 δi = n − k gibt
und die Vektoren
aus
Bk durch beliebige Kombinationen solcher Teilstücke entstehen,
N −K
und daher
ist |Bk | = K
n−k
k
P (Bk ) =
K
k
N −K
n−k
N
n
Als Anwendung berechnen wir die Wahrscheinlichkeiten, beim Lotto “6 aus 49” k =
0, 1, . . . , 6 “Richtige” zu erhalten.
Bei der Ziehung befinden sich in einer Trommel N = 49 durchnummerierte Kugeln,
von denen n = 6 ohne Zurücklegen gezogen werden. Die K = 6 Kugeln, die die von uns
23
auf dem Lottoschein angekreuzten Zahlen tragen, denken wir uns schwarz, die übrigen
43 weiß. Die Wahrscheinlichkeit für “k Richtige” ist dann gegeben durch
43 6
pk =
was mit
k
6−k
49
6
,
49
= 13983816
6
die folgenden Werte ergibt:
p0 =
p1 =
0, 435964976
0, 413019450
p2 =
p3 =
0, 132378029
0, 017650404
p4 =
p5 =
0, 000968620
0, 000018450
p6 =
0, 000000072.
24
4 Bedingte Wahrscheinlichkeiten
Zur mathematischen Präzisierung des etwas vagen Begriffs der unabhängigen Durchführung von Zufallsexperimenten benötigt man eine Größe, die anzeigt, welchen Einfluss
das Eintreten eines Ereignisses auf das Eintrittsverhalten eines anderen hat. Diese
Größe heißt die bedingte Wahrscheinlichkeit. Um die nachfolgende Definition zu
begründen und zu veranschaulichen, wie die bedingte Wahrscheinlichkeit bei konkreten
Zufallsexperimenten zu interpretieren ist, stellen wir uns die fiktive n-fache Durchführung eines Zufallsexperiments vor, bei dem zwei Ereignisse A und B beobachtet werden.
Die bedingte relative Häufigkeit Rn (A|B) des Ereignisses A unter der Bedingung
B sei dabei die relative Häufigkeit von A auf der Teilversuchsreihe der Experimente
unter den n durchgeführten, bei denen das Ergebnis B eingetreten ist. Wenn diese
bedingte relative Häufigkeit von der relativen Häufigkeit Rn (A) von A bezogen auf alle
Durchführungen stark abweicht, ist anzunehmen, dass das Eintreten des Ereignisses
B einen gewissen Einfluss auf dasjenige von A hat, dass also die Ereignisse A und B
bezüglich ihres stochastischen Verhaltens voneinander abhängig sind.
Die Teilversuchsreihe, auf der das Ereignis B eingetreten ist, hat die Länge Hn (B) und
die Anzahl der Experimente unter diesen Hn (B), bei denen das Ereignis A eingetreten
ist, ist gleich der Anzahl Hn (A ∩ B) der Experimente unter den n insgesamt durchgeführten, die sich durch das gleichzeitige Eintreten von A und B auszeichnen. Die Formel für die bedingte relative Häufigkeit lautet daher Rn (A|B) = Hn (A ∩ B)/Hn (B).
Dividiert man Zähler und Nenner dieses Bruchs durch die Zahl n, ergibt sich die Formel
Rn (A|B) =
Rn (A ∩ B)
Rn (B)
die sich durch das Ersetzen des Symbols Rn durch P in ein wahrscheinlichkeitstheoretisches Äquivalent umwandeln lässt.
Definition 4.1 Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und A, B ∈ A zwei Ereignisse, wobei P (B) > 0. Dann heißt
P (A|B) =
P (A ∩ B)
P (B)
(4.31)
die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung B.
Bei festgehaltenem B erfüllt — wie man sich leicht überzeugt — die Funktion A 7−→
P (A|B) die vier Axiome von Kolmogoroff (s. Seite 12ff) und ist damit eine neue Wahrscheinlichkeitsverteilung auf der Ereignisalgebra A.
4.1 Rechenregeln
Multipliziert man die Gleichung (4.31) mit P (B), so erhält man
P (A ∩ B) = P (A|B)P (B)
25
(4.32)
Durch zweimalige Anwendung von (4.32) ergibt sich weiter
P (A ∩ B ∩ C)
= P (A|B ∩ C)P (B ∩ C)
= P (A|B ∩ C)P (B|C)P (C)
(4.33)
mit offensichtlicher Erweiterung auf den Durchschnitt einer beliebigen endlichen Anzahl von Ereignissen.
Man benutzt diese Gleichungen häufig zur Berechnung von Wahrscheinlichkeiten bei
Zufallsexperimenten, die in mehreren Schritten ablaufen. Als Beispiel betrachten wir
eine Urne, die K schwarze und N − K weiße Kugeln enthält und aus der zufällig
3 Kugeln ohne Zurücklegen der Reihe nach gezogen werden. Das Ereignis Alle drei
”
gezogenen Kugeln sind schwarz“ ist von der Form A ∩ B ∩ C, wobei C, B bzw. A die
Ereignisse Erste Kugel ist schwarz“, Zweite Kugel ist schwarz“ bzw. Dritte Kugel
”
”
”
ist schwarz“ repräsentieren.
Zur Berechnung der drei Faktoren auf der rechten Seite von (4.33) erspart man sich
in den meisten derartigen Fällen die Beschreibung des Experiments durch einen passenden Wahrscheinlichkeitsraum und interpretiert die Wahrscheinlichkeitsverteilungen
P (.), P (.|B) und P (.|B ∩ C) als Wahrscheinlichkeitsgesetze dreier konkreter Zufallsexperimente nach dem folgenden Muster:
1. Bei P (C) hat man es offensichtlich mit einer Urne mit N Kugeln zu tun, aus der
eine Kugel zufällig gezogen wird. Nach Laplace ist die Wahrscheinlichkeit, dass
diese schwarz ist, gleich P (C) = K/N .
2. Unter der Bedingung, dass das Ereignis C eingetreten ist, enthält die Urne nur
noch N − 1 Kugeln, von denen K − 1 schwarz sind. P (.|C) beschreibt das Ziehen
einer Kugel aus dieser Urne. Somit ist P (B|C) = (K − 1)/(N − 1).
3. Sind beide Ereignisse B und C eingetreten, enthält die Urne nur noch N − 2
Kugeln mit K −2 schwarzen. Dementsprechend ist P (A|B∩C) = (K −2)/(N −2).
Insgesamt ergibt sich auf diese Weise
P (A ∩ B ∩ C) =
K(K − 1)(K − 2)
N (N − 1)(N − 2)
Bei Zufallsexperimenten, deren Struktur nicht ganz so einfach zu durchschauen ist
wie dem obigen, können bei dieser Vorgehensweise aber leicht Fehlinterpretationen
vorkommen wie bei dem folgenden Bertrandschen Paradoxon:
Aus drei Kästen, von denen einer zwei goldene Münzen, einer zwei silberne
Münzen und einer eine goldene und eine silberne Münze enthält, wird zufällig
einer ausgewählt und eine Münze entnommen.
Wie groß ist — unter der Bedingung, dass man dabei eine goldene Münze
gezogen hat — die Wahrscheinlichkeit, dass die im ausgewählten Kasten verbliebene Münze ebenfalls aus Gold ist?
26
Seien A, B bzw. C die Ereignisse, dass man den Kasten mit zwei goldenen, einer
silbernen und einer goldenen bzw. zwei silbernen Münzen auswählt, und G1 bzw. G2
die Ereignisse, dass die gezogene bzw. verbleibende Münze aus Gold ist. Dann ist die
bedingte Wahrscheinlichkeit P (G2 |G1 ) zu berechnen.
Auf den ersten Blick ist man geneigt, die bedingte Wahrscheinlichkeit P (.|G1 ) dahingehend zu interpretieren, dass man einen von den beiden Kästen A und B auswählt.
Das Ereignis G2 entspricht dann der Auswahl des Kastens A und hat somit die Wahrscheinlichkeit P (G2 |G1 ) = 1/2.
Eine überschlägige Berechnung der bedingten relativen Häufigkeit zeigt, dass diese
Argumentation nicht korrekt sein kann. Nimmt man an, dass bei N Durchführungen
dieses Experiments jeder der drei Kästen gleich oft gewählt wird und in der Hälfte
der N/3 Fälle, in denen der Kasten B gewählt wurde, zuerst die goldene Münze gezogen wird, tritt in N/3 + N/6 Durchführungen das Ereignis G1 ein, wobei in N/3
Fällen (Auswahl von A) gleichzeitig auch G2 eintritt. Die bedingte relative Häufigkeit
RN (G2 |G1 ) ist damit gleich 2/3. Bei der obigen Argumentation wurde offensichtlich
nicht berücksichtigt, dass die Auswahl des Kastens B nicht automatisch das Ziehen
der goldenen Münze nach sich zieht.
Der korrekte Lösungsweg führt über einen passenden Wahrscheinlichkeitsraum: Betrachtet man als Ergebnisse die Paare ω = (f1 , f2 ), wo f1 die Farbe der gezogenen und
f2 die Farbe der verbleibenden Münze ist, so erhält man den Ergebnisraum
Ω = {(g, g), (g, s), (s, g), (s, s)}
und die relevanten Ereignisse werden durch die Mengen
A = {(g, g)}
B = {(g, s), (s, g)}
C = {(s, s)}
und
G1 = {(g, g), (g, s)}
G2 = {(g, g), (s, g)}
repräsentiert.
Nach Aufgabenstellung haben die drei Ereignisse A, B und C die gleiche Wahrscheinlichkeit: P (A) = P (B) = P (C) = p. Wegen A + B + C = Ω muss nach unseren
Rechenregeln für Wahrscheinlichkeiten p = 1/3 sein. Geht man weiter davon aus, dass
aus dem Kasten B mit gleicher Wahrscheinlichkeit die goldene oder silberne Münze
gezogen wird, ist P {(g, s)} = P {(s, g)} = 1/6. Damit erhält man
P (G2 |G1 ) =
P {(g, g)}
2
P (G1 ∩ G2 )
=
=
P (G1 )
P {(g, g)} + P {(g, s)}
3
Weitere Regeln:
Aus
P (A|B)P (B) = P (A ∩ B) = P (B ∩ A) = P (B|A)P (A)
erhält man für den Fall, dass P (A) und P (B) beide positiv sind, die Beziehung
P (B|A) =
P (A|B)P (B)
P (A)
27
(4.34)
Partitionen. Sei J entweder die endliche Indexmenge {1, 2, . . . , n} mit einer natürlichen
Zahl n oder die Menge aller natürlichen Zahlen.
Definition 4.2 Eine Menge {Bj ; j ∈ J} von Ereignissen Bj ∈ A heißt eine Partition von Ω, wenn die Bj paarweise disjunkt sind und außerdem
X
Bj = Ω
j∈J
gilt.
Ist A ∈ A ein beliebiges Ereignis und {Bj ; j ∈ J} eine Partition von Ω, so ist
X
X
A ∩ Bj .
Bj =
A=A∩Ω=A∩
j∈J
Anwendung von P liefert
P (A) =
X
j∈J
j∈J
P (A ∩ Bj )
und zusammen mit (4.32) erhält man die Formel von der totalen Wahrscheinlichkeit
X
P (A) =
P (A|Bj )P (Bj ).
(4.35)
j∈J
4.2 Die Formel von Bayes
Die Kombination von (4.34) und (4.35) ergibt die Formel von Bayes:
P (Bk |A) = P
P (A|Bk )P (Bk )
.
j∈J P (A|Bj )P (Bj )
(4.36)
Die Bayes’sche Formel ist von Bedeutung im Rahmen der statistischen Entscheidungstheorie. Wir wollen dies anhand eines simplen Beispiels erläutern.
Gegeben ist eine Übertragungsstrecke, die Sendebuchstaben a aus einem endlichen
Sendealphabet A in Empfangsbuchstaben b aus einem Alphabet B umwandelt, wobei
es sich bei dieser Umwandlung um ein Zufallsexperiment handelt. D.h. in Abhängigkeit
A 3 a 7→
Kanal
7→ b ∈ B 7→
D
7→ a0 ∈ A
Abbildung 3: Übertragungsstrecke
von a werden die verschiedenen Buchstaben b mit unterschiedlichen, von a abhängigen
Wahrscheinlichkeiten empfangen.
28
Gesucht ist ein Entscheidungsverfahren D : B −→ A, das jedem Empfangsbuchstaben
b einen vermutlich gesendeten Buchstaben D(b) = a0 ∈ A so zuordnet, dass die Wahrscheinlichkeit von Entscheidungsfehlern minimiert wird.
Als Ergebnisraum zur Beschreibung des Zufallsexperiments Sendevorgang“ wählen
”
wir Ω = {(a, b) ; a ∈ A, b ∈ B}, wobei das Ergebnis (a, b) zu lesen ist als a wurde
”
gesendet und b empfangen“.
Die σ-Algebra A sei die Menge aller Teilmengen von Ω. Von besonderem Interesse
in diesem Zusammenhang sind die Ereignisse a wurde gesendet“, dem die Menge
”
Ga = {(a, b); b ∈ B} entspricht, und b wurde empfangen“, repräsentiert durch Eb =
”
{(a, b); a ∈ A}.
Hinsichtlich der Wahrscheinlichkeitsverteilung P nehmen wir an, dass uns die a priori
Wahrscheinlichkeiten der Sendebuchstaben:
pa = P (Ga ) für a ∈ A
und die bedingten Übertragungswahrscheinlichkeiten
pb|a = P (Eb |Ga ) für a ∈ A und b ∈ B
bekannt sind. Ersteres bedeutet, dass man beispielsweise weiß, in welcher Sprache
gesendet wird, und letzteres erhält man etwa durch Senden von Testsignalen und
Bestimmung der relativen Häufigkeiten.
Aus
P {(a, b)} = P (Ga ∩ Eb ) = P (Eb |Ga )P (Ga ) = pb|a pa
ersieht man, dass durch diese Angaben die Wahrscheinlichkeit P vollständig bestimmt
ist.
Die Bedeutung der Bayes’schen Formel ergibt sich aus dem folgenden
Satz 4.1 Ein Entscheidungsverfahren D : B −→ A, welches die Wahrscheinlichkeit
von Entscheidungsfehlern minimiert, ist durch die folgende Vorschrift gegeben: Für
jedes b ∈ B ist als D(b) ein Sendebuchstabe zu wählen, welcher die Funktion
a 7−→ P (Ga |Eb )
maximiert.
Da das Maximum dieser Funktionen nicht unbedingt eindeutig bestimmt sein muss,
gibt es evtl. mehrere optimale Entscheidungsverfahren.
Die bedingten Wahrscheinlichkeiten P (Ga |Eb ) heißen a posteriori Wahrscheinlichkeiten der Sendebuchstaben. Gegenüber den a priori Wahrscheinlichkeiten enthalten
sie zusätzliche Information, nämlich die Tatsache, dass das Ereignis b wurde empfan”
gen“ eingetreten ist. Ihre Berechnung aus den a priori Wahrscheinlichkeiten und den
Übertragungswahrscheinlichkeiten erfolgt über die Bayes’sche Formel.
Beweis des Satzes 4.1.
Das Ereignis Entscheidungsfehler“ bei Verwendung des Verfahrens D wird durch die
”
Menge
FD = {(a, b) ∈ Ω; D(b) 6= a}
29
beschrieben. Wegen P (FD ) = 1 − P (FD ) ist Minimierung der Wahrscheinlichkeit von
Entscheidungsfehlern gleichbedeutend mit dem Maximieren der Wahrscheinlichkeit des
Ereignisses korrekte Entscheidung“, gegeben durch die Menge
”
RD = FD = {(a, b); D(b) = a}
= {(D(b), b); b ∈ B}.
Für die Wahrscheinlichkeit dieses Ereignisses gilt
P {(D(b), b); b ∈ B}
P
P {(D(b), b)}
P b∈B
P (GD(b) ∩ Eb )
=
P b∈B
=
b∈B P (GD(b) |Eb )P (Eb )
P (RD ) =
=
Um die letzte Summe in Abhängigkeit von D zu maximieren, kann man jeden Summanden für sich betrachten. Dies bedeutet, dass man — wie oben behauptet — für
jedes b ∈ B den Wert D(b) aus dem Bereich der Sendebuchstaben a so wählen muss,
dass P (Ga |Eb ) maximal wird.
♦
Zur zahlenmäßigen Veranschaulichung nehmen wir drei Jäger, die auf ein flüchtendes
Wildschwein schießen. Jäger 1 schießt dabei dreimal und Jäger 2 doppelt so oft wie
Jäger 3. Nach einiger Zeit ist das Wildschwein erlegt und es muss geklärt werden, wer
der glückliche Schütze ist, bzw. für wen wir uns als solchen entscheiden, wenn wir
außerdem aus Beobachtungen am Schießstand wissen, dass die Trefferwahrscheinlichkeiten der drei Jäger 0.3, 0.6 bzw. 0.8 sind.
Als Zufallsexperiment wählen wir die zufällige Auswahl einer der Kugeln, die in Richtung Wildschwein abgefeuert werden. Wenn wir die Flugbahn dieser Kugel in beiden
Richtungen verfolgen, kann man die folgenden Ereignisse unterscheiden:
Bk
: Die Kugel stammt von Jäger k(= 1, 2, 3)
T
: Die Kugel erlegt das Wildschwein
Aus den unterschiedlichen Schusshäufigkeiten können wir die a priori-Wahrscheinlichkeiten P (Bk ) der Ereignisse Bk ableiten:
P (B1 ) = 3p ,
P (B2 ) = 2p ,
P (B3 ) = p .
Zusammen mit
P (B1 ) + P (B2 ) + P (B3 ) = P (B1 + B2 + B3 ) = P (Ω) = 1
erhält man p =
1
6
und
P (B1 ) =
1
,
2
P (B2 ) =
30
1
,
3
P (B3 ) =
1
.
6
Vom Schießstand kennen wir die bedingten Trefferwahrscheinlichkeiten P (T |Bk ) unter
der Bedingung, dass Jäger k schießt:
P (T |B1 ) = 0.3 ,
P (T |B2 ) = 0.6 ,
P (T |B3 ) = 0.8
Mit diesen Kenntnissen können wir nach der Formel von Bayes die bedingten Wahrscheinlichkeiten P (Bk |T ) dafür berechnen, dass die ausgewählte Kugel von Jäger k
stammt unter der Bedingung, dass sie das Wildschwein erlegt hat:
P (B1 |T ) =
9
,
29
P (B2 |T ) =
12
,
29
P (B3 |T ) =
8
29
Mangels genauer kriminaltechnischer Untersuchung müssen wir also davon ausgehen,
dass Jäger 2 das Wildschwein getroffen hat.
31
5 Stochastische Unabhängigkeit
5.1 Stochastische Unabhängigkeit von zwei Ereignissen
Gemäß den Überlegungen eingangs des vorigen Kapitels wird man bei der n-fachen
Durchführung eines Zufallsexperiments ein Ereignis A als unabhängig von einem Ereignis B ansehen, wenn die bedingte relative Häufigkeit Rn (A|B) etwa gleich der relativen Häufigkeit Rn (A) bezüglich aller Durchführungen ist. Im theoretischen Modell
entspricht dies der Gleichung P (A|B) = P (A). Um die Definition symmetrisch in A
und B zu gestalten und um den Fall P (B) = 0 nicht gesondert behandeln zu müssen,
setzt man diese Gleichung in Formel (4.32) ein und erhält so
Definition 5.1 Zwei Ereignisse A, B in einem Wahrscheinlichkeitsraum (Ω, A, P )
mit der Eigenschaft P (A ∩ B) = P (A)P (B) heißen stochastisch unabhängig.
Zusätzlich zur Additionsregel P (A + B) = P (A) + P (B) für disjunkte Ereignisse haben wir damit auch noch eine Produktregel. Aber Achtung! “Disjunkt” und “stochastisch unabhängig” sind komplementäre Begriffe. Zwei Ereignisse A und B können
im allgemeinen nicht gleichzeitig disjunkt und stochastisch unabhängig sein, denn bei
P (A) > 0 und P (B) > 0 folgt aus A ∩ B = ∅, daß P (A ∩ B) = 0 6= P (A)P (B) und
damit stochastische Abhängigkeit.
Die beiden Begriffe besitzen auch einen unterschiedlichen Stellenwert im Rahmen der
Wahrscheinlichkeitsrechnung. Es ist stets entscheidbar, ob zwei Ereignisse disjunkt
sind oder nicht und im ersteren Fall gilt stets die Additionsregel. Ob aber zwei Ereignisse stochastisch unabhängig sind oder nicht, hängt von der verwendeten Wahrscheinlichkeitsverteilung ab und damit vom Modellbauer, der entscheidet, ob in einem
Zufallsexperiment einige Ereignisse als unabhängig anzusehen sind oder nicht.
Lemma 5.1
A, B seien zwei Ereignisse.
1. Mit A, B sind auch die Paare A, B, A, B und A, B stochastisch unabhängig.
2. Ist P (A) = 0 oder P (A) = 1, so sind A und B für beliebige Ereignisse B stochastisch unabhängig.
Beweis
1. Aus B = AB + AB und der Unabhängigkeit folgt P (B) = P (A)P (B) + P (AB)
oder P (AB) = (1 − P (A)) P (B) = P (A)P (B). Die anderen beiden Aussagen
erhält man in ähnlicher Weise.
2. Ist P (A) = 0, so ist wegen AB ⊂ A auch P (AB) = 0 und es gilt dann stets
P (AB) = 0 = P (A)P (B).
Ist P (A) = 1 so ist P (A) = 0, somit A und B unabhängig. Der Rest folgt aus
Punkt 1.
♦
32
5.2 Globale stochastische Unabhängigkeit
Bei mehr als zwei Ereignissen A1 , A2 , . . . An reicht es nicht, die stochastische Unabhängigkeit aller Paare Ai , Aj zu fordern. Wie man an Gleichung (4.33) sieht, erhält
man eine Produktregel für die drei Ereignisse A, B und C nur dann, wenn man darüber
hinaus fordert, daß A auch noch von dem Verbundereignis B ∩ C stochastisch unabhängig ist. Für mehr als zwei Ereignisse benutzt man daher die folgende Definition:
Definition 5.2 Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P )
heißen global stochastisch unabhängig, wenn für jeden der Indizes i = 1, 2, . . . , n
gilt: Das Ereignis Ai ist stochastisch unabhängig von allen Verbundereignissen, die
man aus den übrigen Ereignissen Aj mit j 6= i bilden kann.
Zu dieser Definition gibt es zwei äquivalente Formulierungen, die hier nur vorgestellt
aber nicht bewiesen werden, da die Beweise zwar leicht, aber nur mit ziemlichem
Schreibaufwand nachvollzogen werden können.
Satz 5.1 Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P )sind
genau dann global stochastisch unabhängig, wenn für jede Teilmenge {i1 , i2 , . . . , im } ⊂
{1, 2, . . . , n} von Indizes gilt
P (Ai1 ∩ Ai2 ∩ . . . ∩ Aim ) = P (Ai1 )P (Ai2 ) · · · P (Aim )
Satz 5.2 Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P )sind
genau dann global stochastisch unabhängig, wenn für jede Auswahl von Ereignissen Bi
aus den Teil-σ-Algebren Ai = {∅, Ai , Ai , Ω} von A gilt:
P (B1 ∩ B2 ∩ . . . ∩ Bn ) = P (B1 )P (B2 ) · · · P (Bn )
5.3 Produktexperimente
Ein Produktexperiment soll ein Wahrscheinlichkeitsraum (Ω, A, P ) sein, der die stochastisch unabhängige Durchführung von einzelnen Zufallsexperimenten beschreibt,
die durch Wahrscheinlichkeitsräume (Ω1 , A1 , P1 ), (Ω2 , A2 , P2 ), . . ., (Ωn , An , Pn ) repräsentiert werden. Aus dieser Formulierung ergeben sich die folgenden Anforderungen
an die Größen Ω, A und P :
Ergebnismenge: Die Ergebnisse ω ∈ Ω sind einfach Auflistungen der Ergebnisse der
Einzelexperimente.
Ω = {ω = (ω1 , ω2 , . . . , ωn ) ; ωi ∈ Ωi }
Eine Menge Ω mit dieser Struktur bezeichnet man auch als das cartesische Produkt
der Mengen Ωi und schreibt dafür
Ω = Ω1 × Ω2 × · · · × Ωn
Ereignisse: In der Ereignisalgebra sollen auf jeden Fall die Ereignisse der Form Beim
”
k-ten Experiment tritt Ak ∈ Ak ein.“ enthalten sein. Diese werden in Ω durch die
Mengen
Z(Ak ) = {ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω ; ωk ∈ Ak }
(5.37)
33
repräsentiert. Als σ-Algebra A wählt man daher die kleinste σ-Algebra auf Ω, die alle
diese Mengen enthält. Sie heißt die Produkt-σ-Algebra der Ak und wird mit
A = A1 ⊗ A2 ⊗ · · · ⊗ An
bezeichnet. Insbesondere enthält sie die Ereignisse
Z(A1 ) ∩ Z(A2 ) ∩ . . . ∩ Z(An ) = A1 × A2 × · · · × An
(5.38)
d.h. die cartesischen Produkte von Ereignissen aus den Einzelexperimenten.
Wahrscheinlichkeit: Die Wahrscheinlichkeitsverteilung P eines Produktexperiments
muss zwei Bedingungen erfüllen:
1. Die Wahrscheinlichkeitsgesetze der Einzelexperimente müssen erhalten bleiben,
d.h.
P (Z(Ak )) = Pk (Ak )
(5.39)
für alle Ereignisse Ak ∈ Ak und alle k.
2. Für beliebige Ak ∈ Ak müssen die Mengen Z(A1 ), Z(A2 ), . . . Z(An ) global
stochastisch unabhängig sein. Insbesondere muß also gelten
P (Z(A1 ) ∩ Z(A2 ) ∩ . . . ∩ Z(An ))
= P (Z(A1 )) P (Z(A2 )) · · · P (Z(An ))
(5.40)
Die Formeln (5.39) und (5.40) kann man zu
P (A1 × A2 × · · · × An ) = P1 (A1 )P2 (A2 ) · · · Pn (An )
(5.41)
zusammenfassen.
Was die Existenz einer solchen Wahrscheinlichkeitsverteilung betrifft, so zitieren wir
— wieder ohne Beweis — den
Satz 5.3 Es gibt genau eine Wahrscheinlichkeitsverteilung P auf A mit den beiden
obigen Eigenschaften. Diese heißt die Produktwahrscheinlichkeit der Pk und wird
mit P = P1 ⊗ P2 ⊗ · · · ⊗ Pn bezeichnet.
Der Wahrscheinlichkeitsraum (Ω, A, P ) selbst heißt der Produktraum der (Ωk , Ak , Pk ).
Handelt es sich bei dem Produktexperiment um die n-fache Wiederholung ein und
desselben Zufallsexperiments, d.h. ist
(Ωi , Ai , Pi ) = (Ω0 , A0 , P0 )
für alle i = 1, . . . , n, so spricht man von einer Versuchsreihe der Länge n mit dem
Experiment (Ω0 , A0 , P0 ).
Ist schließlich (Ω0 , A0 , P0 ) ein Bernoulli-Experiment, d.h. Ω0 = {0, 1}, P0 {1} = p,
P0 {0} = q = 1 − p, so nennt man die Versuchsreihe eine Bernoulli-Versuchsreihe
der Länge n mit Erfolgswahrscheinlichkeit p.
34
In diesem Fall ist Ω = {δ = (δ1 , δ2 , . . . , δn ) ; δi ∈ {0, 1}} die Menge der Binärvektoren
der Länge n und wegen
{(δ1 , δ2 , . . . , δn )} = {δ1 } × {δ2 } × · · · × {δn }
ist die Produktwahrscheinlichkeit eines Elementarereignisses gegeben durch
P {(δ1 , δ2 , . . . , δn )} = P0 {δ1 }P0 {δ2 } · · · P0 {δn }
= pδ1 + δ2 + · · · δn q n − (δ1 + δ2 + · · · δn )
Bezeichnet man die Summe der Komponenten eines Binärvektors δ mit |δ|, so lässt
sich die letzte Formel kurz als
P {δ} = p|δ| q n−|δ|
(5.42)
schreiben.
Die Summe der Erfolge. Mit dem Konzept einer Bernoulli-Versuchsreihe kann man
auch z.B. die Frage beantworten, mit welcher Wahrscheinlichkeit bei einem etwas geneigten Galton-Brett die Kugel in Fächern k = 0, 1, 2, . . . , n landet. Wir fassen dieses
Galton-Brett als eine Bernoulli-Versuchsreihe mit Erfolgswahrscheinlichkeit p auf, wobei eine 1 einem Sprung nach rechts entspricht. Das Ereignis Ak , daß die Kugel in
Fach k landet, entspricht allen Wegen, die k-mal nach rechts führen bzw. der Menge
aller Binärvektoren, die genau k Einsen enthalten: Ak = {δ ; |δ| = k}. Bei allgemeinen
Bernoulli-Versuchsreihen nennt man die Anzahl der Einsen die Summe der Erfolge
und Ak ist das
PEreignis, dass man k Erfolge erzielt.
Wegen Ak = δ∈Ak {δ} ist
P
P
p|δ| q n−|δ|
P {δ} =
P (Ak ) =
Pδ∈Ak k n−k δ,|δ|=k
n k n−k
= Ck p q
=
δ,|δ|=k p q
wobei Ckn die Anzahl der Elemente der Menge {δ ; |δ| = k} ist, die uns bereits aus
dem Kapitel über Laplace-Experimente (Seite 19) bekannt ist:
n k n−k
P (Ak ) =
p q
(5.43)
k
35
6 Diskrete Wahrscheinlichkeitsräume
In diesem und dem folgenden Kapitel befassen wir uns mit der Frage, wie man Wahrscheinlichkeitsverteilungen formelmäßig beschreiben kann, bzw. welche minimale Menge an Information man über eine Wahrscheinlichkeitsverteilung besitzen muss, um
wenigstens im Prinzip die Wahrscheinlichkeit jedes beliebigen Ereignisses berechnen
zu können. Dieses Kapitel befasst sich dabei mit endlichen oder abzählbar unendlichen Ergebnismengen, ab Kapitel 9 werden wir uns mit der Ergebnismenge Ω = Rn
beschäftigen.
6.1 Diskrete Wahrscheinlichkeitsräume
Ist die Ergebnismenge Ω abzählbar, dann auch jede Teilmenge A von Ω. Nummeriert
man die Elemente von A in irgendeiner Weise durch, so erhält man die Darstellung
A = {ω1 , ω2 , . . . , ωn , . . .}
= P
{ω1 } + {ω2 } + · · · + {ωn } + · · ·
=
k {ωk }
Da es bei der Vereinigungsbildung nicht auf die Reihenfolge ankommt, in der die Mengen {ωk } zusammengefasst werden, benutzen wir die Elemente ω als Summationsindex
und schreiben
X
{ω}
(6.44)
A=
ω∈A
Sind alle einelementigen Mengen {ω} Elemente der σ-Algebra A, so folgt aus (6.44)
einmal, dass jede Teilmenge von Ω aus A oder A = 2Ω ist und zum anderen kann man
die Wahrscheinlichkeit des Ereignisses A nach der Formel
X
X
P {ω}
(6.45)
P {ωk } =
P (A) =
ω∈A
k
berechnen. Da die Summanden alle nichtnegativ sind, kommt es auch hier nicht auf
die Summationsreihenfolge an.
Wie man aus (6.45) ersieht, genügt die Kenntnis der Wahrscheinlichkeiten f (ω) =
P {ω} der Elementarereignisse, um die Wahrscheinlichkeit jedes beliebigen Ereignisses
berechnen zu können.
Definition 6.1 Ein Wahrscheinlichkeitsraum (Ω, A, P ) mit einer abzählbaren Ergebnismenge Ω und der Ereignisalgebra A = 2Ω heißt ein diskreter Wahrscheinlichkeitsraum. Die Wahrscheinlichkeitsverteilung P heißt in diesem Fall eine diskrete
Wahrscheinlichkeitsverteilung und die Funktion f : Ω −→ R mit f (ω) = P {ω}
heißt die Wahrscheinlichkeitsfunktion von P .
P
Mit P {ω} ≥ 0 und P (Ω) = ω∈Ω P {ω} = 1 hat man bereits die beiden Eigenschaften,
die eine Wahrscheinlichkeitsfunktion vollständig charakterisieren:
36
Satz 6.1 Jede Funktion f : Ω −→ R P
auf einer abzählbaren Menge Ω mit den Eigenschaften f (ω) ≥ 0 für alle ω ∈ Ω und ω∈Ω f (ω) = 1 legt durch
P (A) =
X
f (ω)
ω∈A
eine eindeutig bestimmte diskrete Wahrscheinlichkeitsverteilung P auf 2Ω fest.
P
Dabei wird ω∈∅ f (ω) = 0 definiert. Zum Beweis dieser Aussage sind lediglich die vier
Axiome nachzuvollziehen.
6.2 Spezielle diskrete Wahrscheinlichkeitsverteilungen
Mit dem Satz 6.1 ist aus theoretischer Sicht das Problem der Charakterisierung diskreter Wahrscheinlichkeitsverteilungen vollständig gelöst. Aus praktischer Sicht ergibt
sich die Frage, wie man aus Beschreibungen von Zufallsexperimenten zu Formeln für
die entsprechenden Wahrscheinlichkeitsfunktionen kommt.
Wir betrachten in diesem Abschnitt einige stochastische Standardprobleme“ und
”
führen vor, wie man aus bestimmten Eigenschaften des Zufallsmechanismus’ Wahrscheinlichkeitsfunktionen herleiten kann. Die ersten drei der folgenden Typen von
Zufallsexperimenten wurden in den vorhergehenden Abschnitten bereits ausführlich
behandelt. Wir stellen sie der Vollständigkeit halber hier noch einmal kurz dar.
6.2.1 Die Laplace-Verteilung
Ein Zufallsexperiment mit einer endlichen Ergebnismenge Ω, das dadurch charakterisiert ist, dass alle Ergebnisse die gleiche Chance des Auftretens besitzen, wird durch
die Wahrscheinlichkeitsfunktion
f (ω) =
1
|Ω|
(6.46)
beschrieben. Die zugehörige Wahrscheinlichkeitsverteilung heißt die Laplace-Verteilung
auf der Menge Ω und wird im folgenden kurz als L(Ω)-Verteilung bezeichnet.
6.2.2 Die hypergeometrische Verteilung
Für natürliche Zahlen 1 ≤ K < N und 1 ≤ n ≤ N ist
K N −K
f (k) =
k
n−k
N
n
(6.47)
eine Wahrscheinlichkeitsfunktion auf der Ergebnismenge Ω = {0, 1, . . . , n}. Dies ergibt
sich aus der Tatsache, dass die Ereignisse
Bk : k von n gezogenen Kugeln sind schwarz“
”
37
(s. Seite 23) beim Ziehen ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge
aus einer Urne mit K schwarzen und N − K weißen Kugeln eine Partition bilden:
und daher
n
X
bN
B0 + B1 + . . . + Bn = Ω
n
n
X
f (k) =
k=0
k=0
bN
P (Bk ) = P Ω
n =1
Die Wahrscheinlichkeitsverteilung mit dieser Wahrscheinlichkeitsfunktion heißt die hypergeometrische Verteilung mit Parametern N, K und n oder kurz H(N, K, n)Verteilung. Sie beschreibt das Experiment des Ziehens von Kugeln, wobei die Ergebnismenge aus den möglichen Anzahlen von gezogenen schwarzen Kugeln besteht.
6.2.3 Die Binomialverteilung
Sind p und q reelle Zahlen mit 0 < p < 1 und q = 1 − p, so ist
n k n−k
f (k) =
p q
k
(6.48)
eine Wahrscheinlichkeitsfunktion auf Ω = {0, 1, . . . , n}, denn nach der Binomialformel
ist
n n
X
X
n k n−k
p q
= (p + q)n = 1n = 1
f (k) =
k
k=0
k=0
Die zugehörige Verteilung heißt die Binomialverteilung mit Parametern n und p
oder kurz B(n, p)-Verteilung.
Wie im Abschnitt 5.3 geschildert, stellt sie das Wahrscheinlichkeitsgesetz für die Summe der Erfolge bei einer Bernoulli-Versuchsreihe dar.
6.2.4 Die geometrische Verteilung
Die Funktion
f (n) = p q n−1
(6.49)
mit 0 < p < 1 und q = 1 − p ist eine Wahrscheinlichkeitsfunktion auf der Menge
Ω = N = {1, 2, . . .} der natürlichen Zahlen, denn
∞
X
n=1
p q n−1 = p
∞
X
m=0
qm = p ·
p
1
= =1
1−q
p
P∞
Da diese Funktion mit der geometrischen Reihe m=0 q m zusammenhängt, heißt die
zugehörige Verteilung die geometrische Verteilung mit Parameter p oder bei uns
kurz die G(p)-Verteilung.
Die geometrische Verteilung findet Anwendung bei der Analyse von Wartezeiten bis
zum Eintreffen eines bestimmten Ereignisses bzw. von Lebensdauern von Geräten (d.h.
der Wartezeit bis zum Ausfall).
38
Unter welchen Voraussetzungen diese Verteilung als Lebensdauerverteilung benutzt
werden kann, lässt sich am einfachsten an einem gänzlich anderen Problem explizieren,
nämlich der Anzahl der Würfe mit einem regulären Würfel bis zum ersten Auftreten
einer 6.
Auch wenn man es etwa beim Mensch ärgere dich nicht“-Spiel manchmal gern anders
”
hätte, muss man davon ausgehen, dass ein Würfel kein Gedächtnis hat. Auch nach m
ergebnislosen Würfen ändert sich am Wahrscheinlichkeitsgesetz für die nächsten Würfe
nichts. D.h. die Wahrscheinlichkeit, dass man mehr als n Würfe bis zur 6 benötigt, ist
die gleiche, ob man bereits m ergebnislose Würfe hinter sich hat oder gerade mit dem
Würfeln beginnt.
Die Ereignisse
An :
mehr als n Würfe werden benötigt“
”
werden in der Ergebnismenge Ω = {1, 2, . . .} durch die Mengen
An = {n + 1, n + 2, . . .}
mit n = 0, 1, 2, . . . repräsentiert und die Eigenschaft der Gedächtnislosigkeit des
Würfels kann man durch die Formel
P (Am+n |Am ) = P (An )
für alle m, n = 0, 1, 2, . . . ausdrücken.
Nach Definition der bedingten Wahrscheinlichkeit ist diese Gleichung äquivalent zu
P (Am+n ∩ An ) = P (Am )P (An ).
Da aber Am+n ⊂ An , ist Am+n ∩ An = Am+n , und man erhält
P (Am+n ) = P (Am )P (An ).
Mit qm := P (Am ) und q := q1 erhält man aus diesen Gleichungen
q2
= q1+1 = q1 q1 = q 2
q3
..
.
= q2+1 = q2 q1 = q 3
qm
..
.
= q(m−1)+1 = qm−1 q1 = q m
Wegen Am−1 = {m} + Am ist P (Am−1 ) = P {m} + P (Am ) und man erhält als Wahrscheinlichkeitsfunktion für die Verteilung P
f (m) = P {m} = q m−1 − q m = (1 − q)q m−1
also die der geometrischen Verteilung mit p = 1 − q.
39
Bei Geräten lässt sich die Eigenschaft der Gedächtnislosigkeit dahingehend interpretieren, dass sie von ihrer Bauart her über einen langen Zeitraum keinen Verschleißerscheinungen unterworfen sind (Ermüdungsfreiheit) und Ausfälle bei einzelnen Geräten
einer Baureihe dadurch zustande kommen, dass sie zufällige Produktions- oder Materialfehler enthalten, die sich nach nicht vorhersehbarer Zeit auswirken.
Der für den Parameter p zu verwendende numerische Wert ergibt sich aus der Beziehung p = f (1) : p ist die Wahrscheinlichkeit, dass das beobachtete Ereignis gleich
beim ersten Versuch eintritt; beim Werfen eines Würfels also gleich beim ersten Wurf
die Augenzahl 6 erscheint. Bei einem regulären Würfel ist daher p = 16 .
6.2.5 Die Poisson-Verteilung
Die Funktion
µn
(6.50)
n!
auf Ω = N0 = {0, 1, 2, . . .} mit einer positiven reellen Zahl µ ist eine Wahrscheinlichkeitsfunktion, da
∞
X
µn
= eµ
n!
n=0
P∞
die Taylorreihe der Exponentialfunktion und damit n=0 f (n) = e−µ eµ = 1 ist.
Die zugehörige Verteilung heißt die Poisson-Verteilung mit Parameter µ oder kurz
die P(µ)-Verteilung.
Sie findet dann Anwendung, wenn die Häufigkeit des Eintretens eines Ereignisses
gezählt wird, das zu zufälligen Zeitpunkten eintritt. Beispiele für solche Situationen
sind etwa das Eintreffen von Telefonanrufen bei einer Vermittlungsstelle, das Auftreffen von radioaktiven Partikeln auf einem Geigerzähler oder die Ankunft eines Kunden
an einem Bedienungsschalter.
Als allgemeines Modell denken wir uns ein Zählgerät, das zum Zeitpunkt t = 0 auf
Null steht und zu zufälligen Zeitpunkten angestoßen wird, wobei der Zähler jeweils um
1 erhöht wird.
Besteht das Experiment in der Beobachtung des Zählerstandsverlaufs über das Zeitintervall [ 0, ∞ ), so besteht die Ergebnismenge Ω aus allen möglichen Verläufen, d.h.
aus allen Zeitfunktionen ω : [ 0, ∞ ) −→ N0 mit ω(0) = 0, die stückweise konstant
sind und an Sprungstellen jeweils um 1 nach oben springen.
f (n) = e−µ
6
...
ω(t)
-t
40
Zur Festlegung einer Ereignisalgebra A betrachten wir die Funktionen
Nt : Ω −→ N0 ,
Nt (ω) = ω(t)
die für jeden Verlauf ω den Zählerstand zum Zeitpunkt t angeben und die Mengen
(Nt = k) = {ω ∈ Ω ; Nt (ω) = k}
mit k = 0, 1, 2, . . . , die das Ereignis beschreiben, dass zum Zeitpunkt t der Zählerstand
gerade k beträgt.
Da zu Beginn der Beobachtung der Zählerstand Null sein soll, ist N0 (ω) = 0 für alle
ω, woraus folgt, dass (N0 = 0) = Ω und (N0 = k) = ∅ für alle k ≥ 1 .
Neben den absoluten Zählerständen Nt benötigen wir zum Rechnen auch noch die
Zählerstandsdifferenzen
N(s,t] = Nt − Ns
für 0 ≤ s ≤ t, wobei wegen N0 = 0
N(0,t] = Nt
Die Ereignisalgebra legen wir nicht in allen Einzelheiten fest, sondern nehmen lediglich
an, dass alle Mengen der Form (Nt = k) und (N(s,t] = k) in ihr enthalten sind.
Außerdem gehen wir davon aus, dass wir auf A eine Wahrscheinlichkeit P vorgegeben
haben, die sich durch die drei folgenden Eigenschaften auszeichnet:
• Stationariät
P (N(s,s+t] = k) = P (N(0,0+t] = k)
= P (Nt = k) = pk (t)
für alle s ≥ 0, t ≥ 0 und alle k ∈ N0 .
• Nachwirkungsfreiheit
Für alle s ≥ 0, t ≥ 0 und alle k, n ∈ N0 sind die Ereignisse (N(0,s] = k) und
(N(s,s+t] = n) stochastisch unabhängig.
• Ordinarität
Für alle s ≥ 0 ist
P (N(s,s+t] > 1) = o(t)
Mit dem Symbol o(t) kennzeichnet man eine Funktion der Variable t, die schneller
”
als t gegen Null konvergiert“, d.h.
lim
t→0, t>0
o(t)
=0
t
Die Eigenschaft der Ordinarität besagt daher in einer etwas umständlichen Form, dass
die Wahrscheinlichkeit für das mehrfache Springen des Zählers zu einem Zeitpunkt
gleich Null ist.
41
Was kann man unter diesen Annahmen über die Wahrscheinlichkeiten
pk (t) = P (Nt = k)
für die Zählerstände zum Zeitpunkt t bzw. die Anzahl der Sprünge im Zeitintervall
[ 0, t ] aussagen?
1. Im Intervall [ 0, s+t ] mit s, t ≥ 0 erfolgt genau dann kein Zählersprung, wenn in den
beiden Teilintervallen ( 0, s ] und ( s, s + t ] keiner stattfindet. Aus den Eigenschaften
der Stationarität und der Nachwirkungsfreiheit ergibt sich daher
P (Ns+t = 0) = P [(N(0,s] = 0) ∩ (N(s,s+t] = 0)]
= P (N(0,s] = 0) · P (N(s,s+t] = 0)
= P (Ns = 0) P (Nt = 0)
oder
p0 (s + t) = p0 (s) · p0 (t)
Bekanntlich ist eine Funktion p0 (t) mit dieser Eigenschaft von der Form p0 (t) = xt ,
wobei wegen 0 < p0 (t) < 1 auch 0 < x < 1 oder xt = e−µt mit einer positiven reellen
Zahl µ gilt. Also:
p0 (t) = e−µt
Diese Funktion besitzt die Taylorreihe
p0 (t) = 1 − µt +
(µt)3
(µt)2
−
± ...
2!
3!
wobei der Term in runden Klammern vom Typ o(t) ist. Wenn man sich nur für das
Verhalten von p0 (t) für t → 0 interessiert, kann man auch
p0 (t) = 1 − µt + o(t)
schreiben.
2. Aus (Nt = 0) + (Nt = 1) + (Nt > 1) = Ω folgt
p1 (t) = 1 − p0 (t) − P (Nt > 1)
und mit der Eigenschaft der Ordinarität ergibt sich
p1 (t) = 1 − 1 − µt + o(t) − o(t)
und unter Zusammenfassung aller Terme vom Typ o(t) zu einem:
p1 (t) = µt + o(t)
42
3. Für k ≥ 1 zerlegen wir das Ereignis (Ns+t = k) nach den möglichen Kombinationen
für Zählersprünge in den Teilintervallen ( 0, s ] und ( s, s + t ].
(Ns+t = k) =
=
(N(0,s] = k) ∩ (N(s,s+t] = 0)
+ (N(0,s] = k − 1) ∩ (N(s,s+t] = 1)
+ (N(0,s] = k − 2) ∩ (N(s,s+t] = 2)
..
.
+ (N(0,s] = 0) ∩ (N(s,s+t] = k)
(N(0,s] = k) ∩ (N(s,s+t] = 0)
+ (N(0,s] = k − 1) ∩ (N(s,s+t] = 1)
+ Bs,t
Die Menge Bs,t ist eine Teilmenge von (N(s,s+t] > 1), weshalb für die Wahrscheinlichkeiten P (Bs,t ) ≤ P (N(s,s+t] > 1) und wegen der Eigenschaft der Ordinarität P (Bs,t ) =
o(t) gilt.
Wie unter Punkt 1 ergibt sich daraus
pk (s + t) = pk (s) p0 (t) + pk−1 (s) p1 (t) + o(t)
= pk (s) 1 − µt + o(t)
+ pk−1 (s) µt + o(t) + o(t)
und unter Zusammenfassung aller o(t)-Terme
pk (s + t) − pk (s) = µt pk−1 (s) − pk (s) + o(t)
Division beider Seiten durch t ergibt
o(t)
pk (s + t) − pk (s)
= µ pk−1 (s) − pk (s) +
t
t
Für t → 0 existiert der Limes auf der rechten Seite und damit der des Differenzenquotienten auf der Linken, so dass man mit t → 0 die Differentialgleichung
p0k (s) = µpk−1 (s) − µpk (s)
erhält. Die Anfangsbedingungen für die Funktionen pk (s) sind dabei durch
pk (0) = P (N0 = k) = P (∅) = 0
für k = 1, 2, 3, . . . gegeben.
4. Mit dem Ansatz
pk (s) = e−µs qk (s)
wird (6.51) zu
−µe−µs qk (s) + e−µs qk0 (s) = µe−µs qk−1 (s) − µe−µs qk (s)
43
(6.51)
was sich mit Division durch e−µs und Streichen der gleichen Terme auf beiden Seiten
der Gleichung zu
qk0 (s) = µ qk−1 (s)
für k = 1, 2, 3, . . . vereinfacht. Zusammen mit q0 (s) = 1 und qk (0) = 0 für alle k ≥ 1
ergibt sich die Lösung
(µs)k
qk (s) =
k!
oder
(µt)k
pk (t) = e−µt
k!
Die Wahrscheinlichkeiten pk (t) = P (Nt = k) für die Anzahl der Zählersprünge im
Zeitintervall [ 0, t ] sind also durch die Poisson-Verteilung mit dem Parameter µt
gegeben.
44
7 Die Momente diskreter Verteilungen
Wie aus der Darstellung der wichtigsten diskreten Wahrscheinlichkeitsverteilungen
im vorhergehenden Kapitel ersichtlich ist, besteht die Ergebnismenge in den meisten
Fällen aus einer abzählbaren Menge von Zahlen, weshalb es für diese Situation auch
eine Kurzbezeichnung gibt. Man spricht kurz von einer diskreten Verteilung, wenn
es sich um eine diskrete Wahrscheinlichkeitsverteilung handelt, deren Ergebnismenge
eine Teilmenge X ⊂ R der rellen Zahlen ist.
Für diskrete Verteilungen gibt es einige Kenngrößen, die die Gestalt der Verteilung grob
charakterisieren. Es sind dies der Mittelwert und die Varianz sowie die absoluten
und zentralen Momente.
7.1 Der Mittelwert einer diskreten Verteilung
Wenn man vor die Aufgabe gestellt wird, vor dem Ablauf eines Zufallsexperiments eine
Prognose über den Ausgang abzugeben, so kann man das als das mathematische Approximationsproblem ansehen, einen Wahrscheinlichkeitsraum (X , 2X , P ) durch einen
Wahrscheinlichkeitsraum der Form ({x̂}, {∅, {x̂}}, P̂ ) anzunähern, bei dem das einzige
Ergebnis x̂ die Wahrscheinlichkeit P̂ {x̂} = 1 hat.
Für den Fall, dass X = {x1 , x2 , . . .} eine abzählbare Menge von reellen Zahlen ist,
gibt zu diesem Problem ein physikalisches Analogon. Wir fassen X als einen starren
Körper auf, der aus einem unendlich langen masselosen Stab besteht, auf dem an den
Koordinaten
xk Massenpunkte mit den Massen P {xk } sitzen. Die Gesamtmasse ist
P
P
{x
}
=
P (X ) = 1. Ein solcher Körper wird bekanntlich näherungsweise durch
k
k
einen Massenpunkt mit der Masse 1 im Schwerpunkt des Körpers ersetzt. Die Definition des Schwerpunkts ist
P
xk P {xk } X
=
x= k
xk P {xk }
P (X )
k
Da wir es im allgemeinen mit abzählbar vielen xk zu tun haben, muss sicher gestellt
sein, dass diese Summe auch unbedingt konvergiert. Daher ergibt sich für den Prognosewert einer diskreten Verteilung die
Definition 7.1 P sei eine diskrete Verteilung auf einer abzählbaren
PTeilmenge X ⊂ R
der reellen Zahlen mit der Wahrscheinlichkeitsfunktion f (x). Falls x∈X |x|f (x) < ∞,
heißt
X
xf (x)
(7.52)
m1 = m1 (P ) =
x∈X
der Mittelwert der Verteilung P .
Falls die Summe nicht absolut konvergiert und damit der Wert eventuell von der Summationsreihenfolge abhängig ist, sagt man, dass die Verteilung P keinen Mittelwert
besitzt.
45
7.1.1 Statistische Interpretation des Mittelwerts
Aus dem empirischen Gesetz der großen Zahlen ergibt sich die Interpretation des Mittelwerts als Richtwert für das arithmetische Mittel aller Ergebnisse bei der Durchführung
einer längeren Versuchsreihe.
Wird ein Zufallsexperiment mit der Ergebnismenge X insgesamt N -mal durchgeführt
und sind y1 , y2 , . . . , yN die dabei zustande gekommenen Ergebnisse, so lässt sich die
Summe dieser Ergebnisse in der Form
N
X
X
yi =
i=1
x∈X
nx · x
schreiben, wobei nx die Anzahl der yi mit yi = x ist. Das arithmetische Mittel dieser
Messwerte ist daher
y=
N
X nx
X
1 X
yi =
x=
RN {x}x
N i=1
N
x∈X
x∈X
denn nx /N ist die relative Häufigkeit des Auftretens des Elementarereignisses {x}.
Ersetzt man in dieser Formel die relative Häufigkeit gemäß dem empirischen Gesetz der
großen Zahlen durch die Wahrscheinlichkeit P {x} = f (x), so ist man bei der Definition
des Mittelwerts angelangt.
7.1.2 Beispiele
1. Der Mittelwert der Poissonverteilung
m1
=
∞
X
ne−µ
n=0
= µe−µ
∞
X
µn
µn
ne−µ
=
n!
n!
n=1
∞
∞
X
1 X µm
1
µn−1
=µ µ
= µ µ eµ = µ
(n
−
1)!
e
m!
e
n=1
m=0
2. Der Mittelwert der geometrischen Verteilung.
m1
=
∞
X
n=1
npq n−1 = p
∞
∞
X
X
d n
d n
q =p
q
dq
dq
n=0
n=1
∞
d X n
1
1
1
d 1
= p
=p
=p 2 =
q =p
dq n=0
dq 1 − q
(1 − q)2
p
p
7.2 Die absoluten Momente einer diskreten Verteilung
In Verallgemeinerung der Formel für den Mittelwert legen wir fest:
46
Definition 7.2 Ist für k ∈ {1, 2, 3, . . .} die Summe
mk = mk (P ) =
X
P
x∈X
|x|k f (x) < ∞, so heißt
xk f (x)
(7.53)
x∈X
das k-te (absolute) Moment der Verteilung P Andernfalls sagt man, dass die Verteilung P kein k-tes Moment besitzt.
7.2.1 Die momenterzeugende Funktion
Falls die Ergebnismenge X ganz im Bereich der nichtnegativen reellen Zahlen
liegt, ist für negative Argumente t < 0 die Summe
X
M (t) =
etx f (x)
(7.54)
x∈X
konvergent. Die Funktion M (t) heißt die momenterzeugende Funktion der Verteilung P . Es ist stets M (0) = 1 und für t < 0 ist diese Funktion beliebig oft differenzierbar, wobei die Ableitungen summandenweise gebildet werden dürfen:
M 0 (t)
=
X ∂
X
d
M (t) =
etx f (x) =
xetx f (x)
dt
∂t
x∈X
M 00 (t)
=
x∈X
.
.
M (k) (t)
x∈X
X ∂
X
d
d2
M (t) = M 0 (t) =
xetx f (x) =
x2 etx f (x)
2
dt
dt
∂t
=
x∈X
X ∂k
X
dk
M (t) =
etx f (x) =
xk etx f (x)
k
k
dt
∂t
x∈X
x∈X
Außerdem darf der Limes für t → 0 mit der Summe vertauscht werden. Daher ist
X
X
xk f (x) = mk (P )
lim xk etx f (x) =
M (k) (0) := lim M (k) (t) =
t→0
x∈X
t→0
x∈X
Falls das k-te Moment nicht existiert, erhält man — da alle Summanden nichtnegativ
sind — für M (k) (0) den Wert ∞.
Beispiele: Mit etn = (et )n für natürliche Zahlen n erhält man als momenterzeugende
Funktion der Poissonverteilung
M (t) =
∞
X
n=0
(et )n e−µ
∞
X
t
t
µn
(et µ)n
= e−µ
= e−µ ee µ = eµ(e −1)
n!
n!
n=0
mit den Ableitungen M 0 (t) = M (t)µet und — mit der Produktregel für die Differentiation — M 00 (t) = M 0 (t)µet + M (t)µet , woraus m1 = µ und m2 = µ2 + µ folgt.
47
Die geometrische Verteilung besitzt die momenterzeugende Funktion
M (t) =
∞
X
(et )n pq n−1 = pet
∞
X
(qet )n−1 = pet
(qet )m =
m=0
n=1
n=1
∞
X
pet
1 − qet
Daraus ergeben sich die Momente m1 = 1/p und m2 = (1 + q)/p2 .
7.3 Die Varianz einer diskreten Verteilung
Als Maß für den Schätzfehler bei der Prognose kann man die mittlere quadratische
Abweichung der Ergebnisse vom Mittelwert oder — in der physikalischen Analogie —
das Trägheitsmoment der Wahrscheinlichkeitsmasse bezüglich einer Achse durch den
Schwerpunkt heranziehen.
Definition 7.3 Ist P eine diskrete Verteilung mit der Wahrscheinlichkeitsfunktion f
und dem Mittelwert m1 (P ), so heißt die Größe
X
m̂2 = m̂2 (P ) =
(x − m1 (P ))2 f (x)
(7.55)
x∈X
die Varianz der Verteilung P .
Divergiert die Summe (7.55), so spricht man von einer unendlichen Varianz.
Bei endlichen Varianzen kann man (7.55) etwas umformen:
m̂2
=
X
x∈X
=
X
x∈X
(x2 − 2m1 x + m21 )f (x)
x2 f (x) − 2m1
= m2 − 2m1 m1 +
= m2 − m21
X
xf (x) + m21
x∈X
m21
X
f (x)
x∈X
Die Formel
m̂2 = m2 − m21
(7.56)
nennen wir wie in der Physik den Steinerschen Satz. Aus ihm ergibt sich die Varianz der Poissonverteilung zu m̂2 = (µ2 + µ) − (µ)2 = µ und die Varianz der
geometrischen Verteilung zu
2
1+q
1
q
m̂2 =
−
= 2
2
p
p
p
Aus der Interpretation der Varianz als Maß dafür, wie sehr die Wahrscheinlich”
keitsmasse“ um den Schwerpunkt verstreut ist, muss folgen, dass die Wahrscheinlichkeit der Menge
Bε = {x ∈ X ; |x − m1 (P )| > ε}
(7.57)
mit einer positiven Zahl ε > 0 umso kleiner ist, je kleiner die Varianz m̂2 (P ) ist. Dies
bestätigt die Ungleichung von Tschebyscheff :
48
Satz 7.1
P (Bε ) ≤
m̂2 (P )
ε2
(7.58)
Beweis
1. Da alle Summanden in (7.55) nichtnegativ sind, wird die Summe kleiner, wenn
einige der Summanden weggelassen werden:
X
(x − m1 (P ))2 f (x)
m̂2 (P ) ≥
x∈Bε
2. Nach Definition (7.57) gilt für x ∈ Bε , dass (x − m1 (P ))2 > ε2 und somit
X
m̂2 (P ) ≥ ε2
f (x) = ε2 P (Bε )
x∈Bε
Die Ungleichung (7.58) erhält man daraus durch Division beider Seiten mit ε2 .
♦
7.4 Die zentralen Momente einer diskreten Verteilung
In Verallgemeinerung der Formel (7.55) für die Varianz nennen wir für k = 2, 3, . . . die
Größen
X
m̂k (P ) =
(x − m1 (P ))k f (x)
(7.59)
x∈X
soweit sie existieren, die k-ten zentralen Momente der Verteilung P .
49
8 Zufallsvariable mit diskreter Verteilung
Der Begriff der Zufallsvariablen ist neben den Begriffen Wahrscheinlichkeit und
Ereignis der am häufigsten verwendete in der Wahrscheinlichkeitsrechnung. Wir führen das Konzept der Zufallsvariablen in mehreren Schritten ein, zunächst einmal im
Zusammenhang mit diskreten Verteilungen.
Eine Zufallsvariable kann man sich als ein Messgerät veranschaulichen, das an ein Zufallsexperiment angeschlossen ist und eine vom Ergebnis des Experiments abhängige
Zahl anzeigt. Als Beispiel hatten wir bereits die Anzahl Nt der Anrufe bei einer Telefonvermittlungsstelle im Zeitintervall [0, t] oder die Anzahl der schwarzen Kugeln beim
zufälligen Ziehen von Kugeln aus einer Urne.
Verallgemeinert hat man es daher mit einer Funktion X : Ω −→ X auf der Ergebnismenge eines Wahrscheinlichkeitsraums (Ω, A, P ) mit Werten in einer Menge X zu
tun. Wir betrachten hier zunächst den Fall, dass X eine abzählbare Menge von reellen
Zahlen ist.
In diesem Zusammenhang stellt sich meist das Problem, die Wahrscheinlichkeit von
Ereignissen wie Es kommen genau 10 Anrufe an“ oder Die Anzahl der gezogenen
”
”
schwarzen Kugeln ist mindestens 2“ zu berechnen. Allgemein bezeichnen wir mit (X =
y) das Ereignis, dass die Funktion X bei Durchführung des Experiments den Wert y
annimmt, und mit (X ∈ A) dasjenige, dass der Wert der Funktion X in der vorgebenen
Menge A ⊂ X liegt. Da Ereignisse durch die Mengen von Ergebnissen charakterisiert
werden, auf die die entsprechende Aussage zutrifft, ist offensichtlich
(X = y) = {ω ∈ Ω ; X(ω) = y}
(X ∈ A) = {ω ∈ Ω ; X(ω) ∈ A}
(8.60)
(8.61)
Die Menge (8.60) kann man umständlicher auch als (X ∈ {y}), d.h. in der Form (8.61)
schreiben.
Damit man von der Wahrscheinlichkeit dieser Ereignisse sprechen kann, müssen die
zugehörigen Mengen im Definitionsbereich der Wahrscheinlichkeit P liegen. Dies hängt
von der Gestalt der Funktion X ab:
Definition 8.1 Eine Funktion X : Ω −→ X auf der Ergebnismenge eines Wahrscheinlichkeitsraums (Ω, A, P ) mit Werten in einer abzählbaren Teilmenge X der reellen Zahlen heißt eine diskrete Zufallsvariable, wenn (X ∈ A) ∈ A für alle Teilmengen A ∈ X gilt.
Offensichtlich ist
(X ∈ A) =
X
(X = y)
y∈A
Um nachzuprüfen, ob eine Funktion X eine Zufallsvariable gemäß der Definition 8.1
ist, muss also nur untersucht werden, ob (X = y) ∈ A für alle y ∈ X gilt.
50
8.1 Die Verteilung einer diskreten Zufallsvariablen
Wenn man das Zufallsexperiment (Ω, A, P ) und das Messgerät X als eine black box
ansieht, aus der zufällige Werte y ∈ X herauskommen, so erhält man ein neues Zufallsexperiment mit der Ergebnismenge X . Die Chance für das Eintreten eines Ereignisses
A ⊂ X wird man sinnvollerweise durch die Zahl
P X (A) = P (X ∈ A)
(8.62)
bewerten.
Ω
X
X
X
P (A)
P(X∈A)
Wie zu erwarten erhält man auf diese Weise eine Wahrscheinlichkeitsverteilung auf
den Teilmengen von X :
Satz 8.1 P X ist eine diskrete Wahrscheinlichkeitsverteilung auf X mit der Wahrscheinlichkeitsfunktion f X (y) = P (X = y).
Beweis:
1. Da P eine Wahrscheinlichkeit ist, gilt 0 ≤ P (X ∈ A) = P X (A) ≤ 1 und aus
(X ∈ X ) = Ω folgt P X (X ) = 1.
2. Sind A und B Teilmengen von X , so kann man anhand der Definition (8.61) leicht
nachvollziehen, dass (X ∈ A∪B) = (X ∈ A)∪(X ∈ B) und dass für disjunkte Mengen
A und B die Mengen (X ∈ A) und (X ∈ B) ebenfalls disjunkt sind. Beides zusammen
liefert
(X ∈ A + B) = (X ∈ A) + (X ∈ B)
und zusammen mit (8.62) das dritte Axiom
P X (A + B) = P X (A) + P X (B)
51
3. Wie in Punkt 2. weist man auch die Gültigkeit des 4. Axioms
X
X
P X(
Ak ) =
P X (Ak )
k
k
nach.
4. P X ist damit eine diskrete Wahrscheinlichkeitsverteilung auf X und besitzt die
Wahrscheinlichkeitsfunktion
f X (y) = P X {y} = P (X = y)
♦
Bezeichnung: Die Wahrscheinlichkeitsverteilung P X heißt die Verteilung der Zufallsvariablen X und f X (y) die Wahrscheinlichkeitsfunktion der Zufallsvariablen X.
Zur formalen Darstellung dieser Situation benutzen wir im folgenden das Schema
X
(Ω, A, P ) −→ (X , 2X , P X )
(8.63)
Eine Formulierung wie . . . X sei eine mit Parameter µ Poisson-verteilte Zufallsvariable . . . ist in diesem Zusammenhang so zu verstehen, dass es einen nicht näher
spezifizierten Wahrscheinlichkeitsraum (Ω, A, P ) und darauf eine ebenfalls nicht weiter konkretisierte Zufallsvariable X gibt, deren Verteilung die Poissonverteilung mit
Parameter µ ist. In dem
obigen Schema sind also nur die Größen X = N0 und
n
P X {n} = f X (n) = e−µ µn! bekannt.
Überspitzt könnte man sagen, dass die obige Formulierung eine etwas ausgeschmückte
Feststellung der Tatsache ist, dass wir ein Zufallsexperiment mit Poissonverteilung
betrachten. Von Bedeutung wird diese Konstruktion erst, wenn man mehrere Zufallsvariablen auf dem gleichen Wahrscheinlichkeitraum betrachtet, von denen jeweils nur
die Verteilung bekannt ist.
8.2 Funktionen von diskreten Zufallsvariablen
Als Beispiel für eine solche Situation nehmen wir die Summe Z(ω) = X(ω) + Y (ω) von
zwei diskreten Zufallsvariablen X : Ω −→ N0 und Y : Ω −→ N0 , von denen nur die
Wahrscheinlichkeitsfunktionen f X und f Y bekannt seien, und möchten die Verteilung
der Zufallsvariablen Z berechnen.
Dazu muss als erstes geklärt werden, ob Z überhaupt eine Zufallsvariable ist, d.h.,
ob die Mengen (Z = n) für alle n = 0, 1, 2, . . . in der vorgegebenen σ-Algebra A
liegen. Da X und Y nur nichtnegative ganze Zahlen als Werte annehmen können, gibt
es nur endlich viele Kombinationsmöglichkeiten für das Zustandekommen des Werts
52
Z(ω) = n:
Z(ω) = n
⇔
X(ω) = 0
oder
X(ω) = 1
oder
X(ω) = 2
oder
..
.
oder
X(ω) = n
und Y (ω) = n
und Y (ω) = n − 1
und Y (ω) = n − 2
und Y (ω) = 0
Für die zugehörigen Mengen ergibt sich daraus die Identität
(Z = n) =
n
X
(X = k) ∩ (Y = n − k)
(8.64)
k=0
Da X und Y als Zufallsvariable vorausgesetzt sind, liegen die Mengen (X = k) und
(Y = n − k) und gemäß den Eigenschaften einer σ-Algebra auch (Z = n) in A. Z ist
also eine Zufallsvariable.
Zur Bestimmung ihrer Verteilung berechnen wir die Wahrscheinlichkeitsfunktion, für
die man aus (8.64) die Formel
f Z (n) = P Z {n} = P (Z = n) =
n
X
k=0
P [(X = k) ∩ (Y = n − k)]
(8.65)
erhält.
Ohne zusätzliche Informationen über die Zufallsvariablen X und Y kommt man mit der
Berechnung an dieser Stelle nicht weiter. Man benötigt offensichtlich eine Produktregel,
d.h. die Eigenschaft der stochastischen Unabhängigkeit für Zufallsvariable.
Definition 8.2 Diskrete Zufallsvariable X1 , X2 , . . . , Xm auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Werten in Mengen X1 , X2 , . . . , Xm heißen stochastisch unabhängig, wenn für beliebige Teilmengen A1 ⊂ X1 , A2 ⊂ X2 , . . . , Am ⊂ Xm gilt
P [(X1 ∈ A1 ) ∩ (X2 ∈ A2 ) ∩ . . . ∩ (Xm ∈ Am )]
= P (X1 ∈ A1 )P (X2 ∈ A2 ) · · · P (Xm ∈ Am )
(8.66)
Setzen wir unsere beiden Zufallsvariablen X und Y als stochastisch unabhängig voraus,
so folgt aus (8.66) für (X = k) = (X ∈ {k}) und (Y = n − k) = (Y ∈ {n − k}), dass
f Z (n)
=
=
=
n
X
k=0
n
X
k=0
n
X
k=0
P (X = k)P (Y = n − k)
P X {k} P Y {n − k}
f X (k) f Y (n − k)
53
(8.67)
Damit ist f Z (n) aus den Wahrscheinlichkeitsfunktionen f X und f Y berechenbar. Die
Summe (8.67) heißt die Faltung der Wahrscheinlichkeitsfunktionen f X und f Y und
wird im allgemeinen mit f X ∗ f Y bezeichnet:
f X ∗ f Y (n) =
n
X
k=0
f X (k) f Y (n − k)
(8.68)
Mit dieser Bezeichnung können wir das Ergebnis unserer Berechnung wie folgt zusammenfassen:
Satz 8.2 Sind X und Y stochastisch unabhängige diskrete Zufallsvariable mit Wertebereich N0 , so gilt
f X+Y = f X ∗ f Y
(8.69)
Beispiel: Sind X und Y stochastisch unabhängige und mit Parametern λ bzw. µ
Poisson-verteilte Zufallsvariable, so ist
f X+Y (n)
=
n
X
e−λ
k=0
λk −µ µn−k
e
k!
(n − k)!
n
X
1
λk µn−k
k!(n − k)!
k=0
n 1 X n k n−k
λ µ
= e−(λ+µ)
k
n!
= e−(λ+µ)
k=0
(λ + µ)n
= e−(λ+µ)
n!
Die Summe dieser beiden Zufallsvariablen ist also wieder Poisson-verteilt mit der Summe λ + µ als Parameter.
8.3 Der Erwartungswert einer diskreten Zufallsvariablen
Ist X : Ω −→ X eine diskrete Zufallsvariable mit einer abzählbaren Teilmenge X ⊂ R
von reellen Zahlen als Wertebereich, so wird man als Prognose für den Wert, den die
Zufallsvariable X bei Durchführung des Experiments annimmt, den Mittelwert der
Verteilung von X wählen:
X
m1 (P X ) =
y f X (y)
(8.70)
y∈X
Man nennt in diesem Zusammenhang die Größe m1 (P X ) auch den Erwartungswert
der Zufallsvariablen X. Er wird im allgemeinen mit E X bezeichnet oder etwas genauer mit EP X, wenn von Bedeutung ist, bezüglich welcher Wahrscheinlichkeit P die
Verteilung von X zu verstehen ist.
Für den Fall, dass es sich bei dem Wahrscheinlichkeitsraum (Ω, A, P ) um einen diskreten Wahrscheinlichkeitsraum mit der Wahrscheinlichkeitsfunktion f (ω) = P {ω}
handelt, kann man den Erwartungswert von X auch auf eine andere Weise berechnen.
54
Wenn wir zur Vereinfachung der Formeln die Abkürzung By = (X = y) benutzen, so
gilt
X
X
y P (By )
y f X (y) =
m1 (P X ) =
y∈X
=
X
y∈X
=

y
y∈X
X
ω∈By
X X

f (ω)
(yf (ω))
y∈X ω∈By
Für ω ∈ By ist y = X(ω), so dass diese Doppelsumme auch in der Form
X X
X(ω)f (ω)
m1 (P X ) =
y∈X ω∈By
=
X X
y∈X ω∈By
X(ω)P {ω}
geschrieben werden kann.
Die Mengen By mit y ∈ X bilden eine Partition der Menge Ω, in der die Ergebnisse
ω nach den verschiedenen möglichen Funktionswerten y der Zufallsvariable sortiert
werden. Die Doppelsumme über y ∈ X und ω ∈ By stellt daher nichts anderes dar als
die Summation über alle ω ∈ Ω als Indizes in einer speziellen Reihenfolge. Wegen der
für den Mittelwert geforderten unbedingten Konvergenz können wir daher einfach
X
X(ω)P {ω}
m1 (P X ) =
ω∈Ω
schreiben und erhalten den
Satz 8.3 Falls der Erwartungswert einer diskreten Zufallsvariablen X auf einem diskreten Wahrscheinlichkeitsraum (Ω, A, P ) existiert, ist
X
EP X =
X(ω)P {ω}
(8.71)
ω∈Ω
55
9 Geometrische Wahrscheinlichkeiten
Dieses und die folgenden Kapitel beschäftigen sich mit der Wahrscheinlichkeitsrechnung
auf überabzählbaren Ergebnismengen Ω, worunter hauptsächlich die Menge R der reellen Zahlen und die Mengen
Rn = {x = (x1 , x2 , . . . , xn ) ; xi ∈ R}
(9.72)
der n-dimensionalen Vektoren mit reellen Komponenten zu verstehen sind.
Als Ausgangspunkt befassen wir uns wie bei den Laplace-Experimenten mit der Frage,
wie man die Wahrscheinlichkeit eines Ereignisses unter der Annahme berechnet, dass
jedes Ergebnis ω die gleiche Chance des Auftretens besitzt. Zur Veranschaulichung betrachten wir dazu das folgende Problem:
Zwei Personen beschließen sich irgendwann zwischen zwölf und ein Uhr an
einem bestimmten Ort zu treffen, wobei aber jede höchstens 20 Minuten auf die
andere wartet und wieder geht, falls diese in der Zwischenzeit nicht erscheint.
Wie groß ist die Wahrscheinlichkeit, dass die beiden sich treffen?
Wenn wir mit x1 und x2 die Ankunftszeiten der beiden Personen in
Minuten nach zwölf Uhr messen, so erhalten wir als Menge der möglichen
Ergebnisse
Ω = {(x1 , x2 ) ∈ R2 ; 0 ≤ xi ≤ 60}
und das Ereignis Treffen“ wird durch die in Abbildung 4 dargestellte Menge
”
A = {(x1 , x2 ) ∈ Ω; |x1 − x2 | ≤ 20}
repräsentiert.
x2
6
60
40
A
20
20
40
- x1
60
Abbildung 4: Das Ereignis Treffen“
”
56
x2
6
60
Ik
40
20
20
- x1
60
40
Abbildung 5: Unterteilung
Als Ansatz für eine Wahrscheinlichkeitsverteilung gehen wir wie bei den LaplaceExperimenten von dem Postulat aus, dass alle Paare (x1 , x2 ) von Ankunftszeiten gleich
möglich sind. Die Formel P {(x1 , x2 )} = p führt jedoch hier nicht zum Ziel, da Ω unendlich viele Elemente enthält und somit p = 0 gesetzt werden müsste.
Statt dessen unterteilen wir Ω wie in der Abbildung 5 in endlich viele gleichartige
Quadrate Ik . Das Postulat, dass alle Ankunftszeitenpaare gleich möglich sein sollen,
läßt sich dann dahingehend interpretieren, dass die Wahrscheinlichkeit der Ereignisse
(x , x ) liegt in Ik“ für alle Quadrate Ik die gleiche ist.
” 1 2
Aus der Tatsache, dass die Mengen Ik eine Partition von Ω bilden und der für Wahrscheinlichkeiten stets gültigen Additionsregel folgt dann, dass die Wahrscheinlichkeit
eines dieser Quadrate von der Form
P (Ik ) =
1
|Ik |
=
Summe aller Quadrate
|Ω|
ist, wobei |Ik | bzw. |Ω| die Flächeninhalte dieser beiden Quadrate sind. Als Näherungswert für die Wahrscheinlichkeit des Ereignisses A bietet sich in diesem Rahmen die
Summe der Wahrscheinlichkeiten der Ik an, die mit der Menge A einen nichtleeren
Durchschnitt aufweisen. Verfeinert man die Unterteilung der Menge Ω immer weiter,
so konvergieren diese Näherungswerte gegen den Grenzwert
P (A) =
|A|
|Ω|
(9.73)
mit der Fläche |A| der Menge A.
Als ersten Ansatz für Wahrscheinlichkeitsverteilungen über Teilmengen des Rn als
Ergebnismenge erhält man so den der geometrischen Wahrscheinlichkeiten:
Sind alle Punkte ω aus einer Teilmenge Ω bei einem Zufallsexperiment als
gleich möglich anzusehen, so ist die Wahrscheinlichkeit, dass das Ergebnis
in eine Teilmenge A von Ω fällt, gegeben durch |A|
|Ω| . Dabei ist |M | der
57
Inhalt der Menge M , im zweidimensionalen also die Fläche und in drei
Dimensionen das Volumen.
Bei der Umsetzung dieses so einfach klingenden Ansatzes in ein mathematisches Modell
ergeben sich einige Schwierigkeiten sowohl praktischer als auch theoretischer Natur.
Zum Einen gibt es das theoretische Problem, welche Teilmengen A des Rn überhaupt
eine Fläche oder einen Inhalt besitzen, und die damit zusammenhängende Frage, ob
die Gesamtheit dieser Mengen eine σ-Algebra bildet. Damit werden wir uns im nachfolgenden Kapitel beschäftigen.
Zum Anderen erweist es sich manchmal, dass die Beschreibung eines Zufallsexperiments, in der die Ausdrücke zufällig oder gleich möglich vorkommen, mehrere mathematische Interpretationen zulässt, die dann auch zu verschiedenen Wahrscheinlichkeiten für einzelne Ereignisse führen:
Ein weiteres Bertrandsches Paradoxon. Mit der folgenden Aufgabenstellung wollte der französische Mathematiker Joseph Bertrand (1822–1900) zeigen, daß das Konzept der geometrischen Wahrscheinlichkeiten Widersprüche enthält:
Man wähle zufällig in einem Kreis eine Sehne. Wie groß ist die Wahrscheinlichkeit dafür, dass die Sehne länger ist als die Seite eines dem Kreis
einbeschriebenen gleichseitigen Dreiecks?
Bertrand gab dafür drei Lösungsmöglichkeiten an. Es wird dabei immer ein Kreis mit
dem Radius 1 betrachtet, wobei Winkel im Bogenmaß bezüglich einer horizontalen
Achse durch den Mittelpunkt des Kreises gemessen werden.
Version 1: Man wählt zufällig einen Winkel ϕ und zeichnet in diesem Winkel einen
Strahl vom Mittelpunkt bis zum Kreisrand. Dann wählt man zufällig im Abstand y vom
Mittelpunkt einen Punkt auf diesem Strahl und erhält eine zufällige Sehne dadurch,
dass man eine Gerade in diesem Punkt senkrecht zum Strahl zeichnet (s. Abbildung
6). Wie anhand des gestrichelt angedeuteten gleichseitigen Dreiecks zu sehen ist, wird
die Sehne größer als die Dreiecksseite, wenn y kleiner als 1/2 ist.
Als Ansatz für die Wahrscheinlichkeitsberechnung gehen wir davon aus, dass alle Kombinationen (ϕ, y) von Winkeln und Abständen gleich möglich sind. Die Ergebnismenge
ist dann Ω = {(ϕ, y) ; 0 ≤ ϕ < 2π , 0 ≤ y ≤ 1} mit der Fläche |Ω| = 2π. Das Ereignis
wird durch die Menge A = {(ϕ, y) ; 0 ≤ ϕ < 2π , 0 ≤ y < 1/2} beschrieben, die genau
halb so groß ist, so dass P (A) = 1/2.
Version 2: Man zeichnet in einem zufällig gewählten Punkt auf dem Kreisbogen,
charakterisiert durch den Winkel ϕ, eine Tangente an den Kreis und anschließend ausgehend von diesem Punkt die Sehne in einem zufällig gewählten Winkel ψ bezüglich der
Tangente (s. Abbildung 7). Die Sehne wird offensichlich dann länger als die Dreiecksseite, wenn der Winkel ψ im Bereich π/3 < ψ < 2π/3 liegt. Die Fläche der zugehörigen
Menge A = {(ϕ, ψ) ; 0 ≤ ϕ < 2π , π/3 < ψ < 2π/3} ist ein Drittel der Fläche von
Ω = {(ϕ, ψ) ; 0 ≤ ϕ < 2π , 0 ≤ ψ ≤ π}, so dass nach diesem Ansatz P (A) = 1/3.
Version 3: Die dritte Variante besteht in der zufälligen Auswahl eines Punkts im
Kreisinneren. Danach wird ähnlich wie bei der ersten Version ein Strahl vom Mittelpunkt durch den gewählten Punkt und die Sehne senkrecht zu diesem Strahl durch
58
y
ϕ
Abbildung 6: Version 1
den Punkt gezogen (s. Abbildung 8). Die Ergebnismenge Ω ist in diesem Fall der gesamte Kreis mit der Fläche π. Die Sehne wird dann länger als die Dreiecksseite, wenn
der ausgewählte Punkt im Inneren des kleineren Kreises mit dem Radius 1/2 und der
Fläche π/4 liegt, so dass hier P (A) = 1/4.
Die unterschiedlichen Wahrscheinlichkeiten haben offensichtlich nichts mit dem Konzept der geometrischen Wahrscheinlichkeiten zu tun, sondern kommen dadurch Zustande, dass der Vorgang Zufälliges Zeichnen einer Sehne“ durch mehrere verschiedene
”
Konstruktionsverfahren bewerkstelligt werden kann, die unterschiedlichen Zufallsexperimenten entsprechen.
Geht man davon aus, dass die normale Methode zur Konstruktion einer Sehne darin
besteht, dass zwei Punkte auf dem Kreis ausgewählt und durch eine Gerade miteinander verbunden werden, so ist die Version 2 als die richtige anzusehen.
59
ϕ
ψ
Abbildung 7: Version 2
Abbildung 8: Version 3
60
10 Verteilungen
Beim Ansatz von Wahrscheinlichkeiten für Teilmengen des Rn stößt man auf ein technisches Problem. Man kann als σ-Algebra nicht die Menge aller Teilmengen des Rn
verwenden, da es — wie man beweisen kann — keine Mengenfunktion auf dieser σAlgebra gibt, die gleichzeitig alle vier Kolmogoroffschen Axiome erfüllt. Um auf der
Basis dieser Axiome Wahrscheinlichkeitsrechnung zu betreiben, muss man sich auf eine kleinere σ-Algebra zurückziehen. Ein Ansatz dazu wurde im vorgehenden Kapitel
vorgeführt. Wir betrachten Mengen, die einen Inhalt besitzen. Dieser Ansatz wird im
folgenden präzisiert.
10.1 Intervalle
Die von ihrer Struktur her einfachsten Mengen, denen man einen Inhalt zuordnen
kann, sind die Intervalle.
Eindimensionale Intervalle sind Teilmengen der reellen Zahlenachse der Form
(a, b)
[a, b)
(a, b]
[a, b]
(a, ∞)
[a, ∞)
(−∞, b)
(−∞, b]
(−∞, ∞)
= {t ∈ R ; a < t < b}
= {a} + (a, b)
= (a, b) + {b}
= {a} + (a, b) + {b}
= {t ∈ R ; t > a}
= {a} + (a, ∞)
= {t ∈ R ; t < b}
= (−∞, b) + {b}
= R
mit rellen Zahlen −∞ < a ≤ b < ∞. Die Gesamtheit dieser eindimensionalen Intervalle
bezeichnen wir mit I. Die Länge |I| eines Intervalls mit den Endpunkten a und b ist
die Differenz |I| = b − a unabhängig davon, ob die Randpunkte zum Intervall gehören
oder nicht. Für die Fälle a = −∞ oder b = ∞ ist auch der Wert ∞ für die Länge
zugelassen.
Zweidimensionale Intervalle sind Rechtecke, d.h. Teilmengen I des R2 von der
Form
I = {(x1 , x2 ) ∈ R2 ; x1 ∈ I1 , x2 ∈ I2 } = I1 × I2
wie in Abbildung 9 dargestellt, wobei I1 und I2 jeweils eindimensionale Intervalle sind.
Die Fläche eines Rechtecks ist bekanntlich als Länge mal Breite definiert, d.h.
|I| = |I1 × I2 | = |I1 | · |I2 |
Allgemein sind n-dimensionale Intervalle cartesische Produkte
I = I1 × I2 × . . . × In = {(x1 , x2 , . . . , xn ) ∈ Rn ; xk ∈ Ik für k = 1, 2, . . . , n} (10.74)
61
x2
b2
I2
I1 x I2
a2
a1
I1
x1
b1
Abbildung 9: Ein zweidimensionales Intervall
Als Inhalt des Intervalls I legen wir das Produkt
|I| = |I1 × I2 . . . × In | = |I1 | · |I2 | · · · |In |
fest, was im Zweidimensionalen mit der Fläche eines Rechtecks und im Dreidimensionalen mit dem Volumen eines Quaders übereinstimmt. Bei Intervallen |Ik | mit nichtendlicher Länge gilt bei der Auswertung des Produkts die Regel 0 · ∞ = 0.
Die Menge aller n-dimensionalen Intervalle bezeichnen wir im folgenden mit In .
10.2 Borelsche Mengen und Lebesguesches Maß
Die Menge In ist keine σ-Algebra, denn im allgemeinen ist bereits die Vereinigung
zweier Intervalle kein Intervall mehr. Sie wird daher so erweitert, dass eine σ-Algebra
entsteht.
Definition 10.1 Die kleinste σ-Algebra über dem Rn , die die Menge In der n-dimensionalen Intervalle enthält, heißt die σ-Algebra der Borelschen Mengen und wird
mit Bn bezeichnet. Für B1 schreiben wir auch nur B.
Unter der kleinsten σ-Algebra ist dabei der Durchschnitt aller σ-Algebren zu verstehen,
die die Menge In enthalten. (Wie man sich leicht überzeugt, ist der Durchschnitt von
σ-Algebren wieder eine σ-Algebra.)
Die Elemente B von Bn heißen – wie aus der Bezeichnungsweise schon hervorgeht –
Borelsche Mengen.
Das Konzept des Inhalts von Intervallen lässt sich auf die Borelschen Mengen fortsetzen. Es gilt der
62
Satz 10.1 Es gibt eine Abbildung λ : Bn −→ [0, ∞] mit den folgenden Eigenschaften:
λ(B) ≥ 0
X
X
λ(Bk )
Bk ) =
λ(
k
k
für alle B ∈ Bn
für alle paarweise disjunkten Bk ∈ Bn
λ(I) = |I|
für alle I ∈ In .
λ ist durch diese drei Eigenschaften eindeutig bestimmt.
Definition 10.2 Die Funktion λ heißt das Lebesguesche Maß auf dem Rn .
Es gibt Teilmengen des Rn , die keine Borelschen Mengen sind. Ein Beispiel dafür findet
man im Kapitel V von [5]. Das Mengensystem Bn ist aber groß genug, dass es alle praktisch relevanten Mengen enthält. Insbesondere sind alle offenen und abgeschlossenen
Teilmengen des Rn Borelsch.
10.3 Verteilungen auf dem Rn
Für Wahrscheinlichkeitsverteilungen auf den Borelschen Mengen des Rn gibt es eine
Kurzbezeichnung:
Definition 10.3 Eine Wahrscheinlichkeitsverteilung auf den Borelschen Mengen des
Rn heißt eine Verteilung auf dem Rn oder n-dimensionale Verteilung.
Beispiel: Mit Hilfe der Borelschen Mengen und des Lebesgueschen Maßes kann man
das Konzept der geometrischen Wahrscheinlichkeiten jetzt auf eine sichere Basis stellen.
Ist M eine Borelsche Menge aus dem Rn mit 0 < λ(M ) < ∞, so kann man leicht
nachvollziehen, dass aus den Eigenschaften des Lebesgueschen Maßes die Gültigkeit
der vier Kolmogoroffschen Axiome für die Mengenfunktion
P (B) =
λ(B ∩ M )
λ(M )
(10.75)
auf Bn folgt, d.h. dass es sich um eine n-dimensionale Verteilung handelt. Die Verteilung (10.75) heißt die uniforme Verteilung oder Gleichverteilung auf der Menge
M und wird im folgenden kurz mit U(M )-Verteilung bezeichnet.
Für B ⊂ M ist P (B) = λ(B)/λ(M ) und entspricht der Formel (9.73), die aus der
Forderung hergeleitet wurde, dass alle Ergebnisse gleich möglich sind.
Für B ∩ M = ∅ ist P (B) = 0. Dies ist eine schwächere Aussage als die, dass nur Ergebnisse aus der Menge M möglich sind. Für die Berechnung von Wahrscheinlichkeiten
hat das jedoch keine Konsequenzen. Deshalb ist in der Wahrscheinlichkeitsrechnung
üblich, nicht mit Wahrscheinlichkeiten auf Teilmengen Ω ⊂ Rn als Ergebnismengen
zu arbeiten, sondern als Ergebnismenge den ganzen Rn zu wählen, wobei Borelschen
Mengen B mit B ∩ Ω = ∅ die Wahrscheinlichkeit P (B) = 0 zugeordnet wird.
63
10.4 Das Lebesgue-Integral
Das wichtigste mathematische Hilfsmittel beim Umgang mit Verteilungen auf dem Rn
ist die Integralrechnung, wobei unter einem Integral im allgemeinen das Lebesquesche
Integral (L-Integral ) zu verstehen ist. In den Beispielen dieses Skripts und in den
meisten praktischen Anwendungsfällen sind die Integranden im Riemannschen Sinne
integrierbar, so dass man die zu berechnenden Integrale als Riemann-Integrale (RIntegrale) auffassen kann.
Für Eigenschaften, Rechenregeln und Sätze über Integrale beziehen wir uns auf das
Buch [7].
Das Integral einer Funktion f : Rn −→ R über den gesamten Rn als Integrationsbereich bezeichnen wir mit
Z
f (x)dx
Soll nur über eine Borelsche Teilmenge B ⊂ Rn integriert werden, so verwenden wir
entweder die Bezeichnung
Z
f (x)dx
B
oder — was manchmal zweckmäßiger ist — wir setzen die Funktion f ausserhalb der
Menge B gleich Null und integrieren die so abgeänderte Funktion über den gesamten
Rn . Diese Änderung wird dadurch bewirkt, dass wir die Funktion f mit der Indikatorfunktion 1B (x) der Menge B multiplizieren:
1 für x ∈ B
1B (x) =
(10.76)
0 für x 6∈ B
Da ein Bereich, in dem der Integrand Null ist, nichts zum Wert des Integrals beiträgt,
ist
Z
Z
f (x)dx = 1B (x)f (x)dx
B
Wird eine Funktion f : R −→ R auf der reellen Zahlenachse über ein Intervall mit
den Randpunkten a < b integriert, so schreibt man meistens
Z
b
f (x)dx
a
Dabei ist auch a = −∞ und b = ∞ zugelassen.
10.5 Absolutstetige Verteilungen
Definition 10.4 Eine Lebesgue-integrierbare Funktion f : Rn −→ R mit den Eigenschaften
f (x) ≥ 0
Z
f (x)dx
für fast alle x
=
1
64
(10.77)
(10.78)
heißt eine Wahrscheinlichkeitsdichte.
Anstelle von Wahrscheinlichkeitsdichte sind auch die kürzeren Bezeichnungen Dichte
oder Dichtefunktion gebräuchlich.
Satz 10.2 Ist f : Rn −→ R eine Wahrscheinlichkeitsdichte, so ist die Mengenfunktion P : Bn −→ R, definiert durch
Z
P (B) = 1B (x)f (x)dx
(10.79)
eine n-dimensionale Verteilung.
Beweis:
R
R
1. Wegen 0 ≤ 1B (x)f (x) ≤ f (x) für fast alle x ist 0 ≤ 1B (x)f (x) dx ≤ f (x) dx
und damit 0 ≤ P (B) ≤ 1.
R
2. Da 1Rn (x) = 1 für alle x, ist P (Rn ) = f (x) dx = 1.
3. Für disjunkte Mengen B1 und B2 gilt 1B1 +B2 (x) = 1B1 (x) + 1B2 (x). Wegen der
Linearität des Lebesgue-Integrals folgt daraus
Z
Z
P (B1 + B2 ) =
1B1 +B2 (x)f (x) dx = (1B1 (x) + 1B2 (x))f (x) dx
Z
Z
=
1B1 (x)f (x) dx + 1B2 (x)f (x) dx = P (B1 ) + P (B2 )
Eine entsprechende Regel gilt natürlich auch für die Summe einer endlichen Anzahl
m > 2 von paarweise disjunkten Mengen Bk .
4. Für abzählbar viele paarweise disjunkte Borelsche Mengen Bk ist zunächst nach
Punkt 3:
Z
n
n
X
X
Bk ) = 1An (x)f (x) dx
P (Bk ) = P (
k=1
k=1
Pn
mit An = k=1 Bk .
P∞
S∞
Wegen A1 ⊂ A2 ⊂ . . . mit k=1 An = k=1 Bk =: B bilden die Funktionen gn (x) =
1An (x)f (x) eine monoton steigende Funktionenfolge mit limn→∞ gn (x) = 1B (x)f (x).
Nach dem Konvergenzsatz von Beppo Levi gilt daher
∞
X
k=1
P (Bk )
=
lim
n→∞
n
X
P (Bk )
k=1
Z
lim
1An (x)f (x) dx
n→∞
Z
=
lim 1An (x)f (x) dx
n→∞
Z
=
1B (x)f (x) dx
=
= P (B)
∞
X
Bk )
= P(
k=1
65
und damit auch das vierte Axiom.
♦
Bezeichnung: Eine Verteilung der Form (10.79) heißt eine absolutstetige Verteilung und f Dichte zur Verteilung P .
Sind f1 und f2 Dichten zur gleichen Verteilung P , so unterscheiden sie sich höchstens
auf einer Nullmenge, d.h. —locker gesprochen — sie sind im wesentlichen gleich.
Beispiel 1: Die uniforme Verteilung (10.75) besitzt die Dichte
1
falls x ∈ M
1
λ(M )
f (x) =
1M (x) =
(10.80)
0
falls x 6∈ M
λ(M )
Für die Indikatorfunktionen zweier Mengen A und B gilt 1A∩B (x) = 1A (x)1B (x), so
dass
Z
Z
Z
1
λ(B ∩ M )
1
1B (x)1M (x)dx =
1B∩M (x)dx =
1B (x)f (x)dx =
λ(M )
λ(M )
λ(M )
Eine Verteilung erhält man nach dem obigen Satz einfach dadurch,
dass man eine
R
Lebesgue-integrierbare Funktion g(x) ≥ 0 mit dem Wert c = g(x)dx normiert:
f (x) = 1c g(x) ist eine Dichte und legt durch (10.79) eine Verteilung fest.
Beispiel 2: Die Funktion
1 2
g(x) = e− 2 x
mit x ∈ R ist positiv und im Lebesgueschen wie im uneigentlich-Riemannschen Sinn
integrierbar (Sie wird für betragsmäßig große x durch 1/x2 majorisiert). Zur Berechnung des Integrals benötigt man einen kleinen Trick. Man berechnet nicht c sondern
2
c =
Z
∞
−∞
2 Z
g(x)dx =
∞
−∞
Z
g(x)dx
∞
g(y)dy
−∞
=
Z
∞
−∞
Z
∞
g(x)g(y)dy dx
−∞
Nach dem Satz von Fubini ist das letzte Integral gleich dem Bereichsintegral über den
gesamten R2 :
Z
Z
2
2
1
2
e− 2 (x +y ) d(x, y)
g(x)g(y)d(x, y) =
c =
R2
R2
Dieses Bereichsintegral wandeln wir durch Übergang zu Polarkoordinaten um:
x = r cos(φ) = x(r, φ)
y = r sin(φ) = y(r, φ)
Der Integrationsbereich wird dadurch die Menge
M = {(r, φ) ; 0 ≤ r < ∞, 0 ≤ φ < 2π} = [0, ∞) × [0, 2π)
Die Funktionaldeterminante ist
∂(x, y) =
∂(r, φ) ∂x
∂r
∂y
∂r
66
∂x
∂φ
∂y
∂φ
=r
Wegen x2 + y 2 = r2 (sin2 (φ) + cos2 (φ)) = r2 erhält man dadurch
Z
1 2
re− 2 r d(r, φ)
c2 =
M
und weiter durch Übergang zum iterierten Integral
Z ∞ Z 2π
Z ∞
Z
1 2
1 2
c2 =
re− 2 r dr
re− 2 r dφ dr =
0
0
0
2π
1dφ = 2π
0
Z
∞
1
2
re− 2 r dr
0
Der Integrand des letzten Integrals besitzt die Stammfunktion
1
−e− 2 r
2
√
so dass c2 = 2π bzw. c = 2π.
Bezeichnung: Die eindimensionale Verteilung mit der Dichte
1 2
1
ϕ(x) = √ e− 2 x
2π
(10.81)
heißt die standardisierte Normalverteilung oder N (0, 1)-Verteilung.
10.6 Zweistufige Experimente
Als Beispiel für eine zweidimensionale absolutstetige Verteilung betrachten wir das
folgende Problem:
Ein Stab wird an einer zufällig ausgewählten Stelle auseinander gebrochen
und das längere der beiden Bruchstücke noch einmal zufällig geteilt. Wie
groß ist die Wahrscheinlichkeit, dass man aus den drei Stücken ein Dreieck
zusammensetzen kann?
Wenn der Stab die Länge 1 besitzt, können wir ihn uns durch das Intervall [ 0, 1 ] der
reellen Zahlenachse repräsentiert denken. Das Ergebnis des Experiments sind dann
Paare (x1 , x2 ) von Zahlen xi mit 0 ≤ xi ≤ 1, die für die Positionen der ersten bzw.
zweiten Knickstelle stehen.
x1
x2
0
1
Abbildung 10: Zweimaliges Brechen eines Stabs
67
Da die zweite Knickstelle auf dem längeren der durch x1 festgelegten Teile liegen muss,
sind nicht alle Zahlenpaare (x1 , x2 ) möglich, sondern nur die Kombinationen
0 ≤ x1 ≤
1
,
2
x1 ≤ x2 ≤ 1
und
1
< x1 ≤ 1 , 0 ≤ x2 ≤ x1
2
Die Menge M der möglichen Ergebnisse ist in Abbildung 11 dargestellt.
x2
1
0.5
x1
0.5
1
Abbildung 11: Die Menge der möglichen Knickstellenpaare
Wie im Abschnitt 10.3 erläutert, wählt man bei zweidimensionalen Verteilungen die gesamte Zahlenebene R2 als Ergebnismenge und ersetzt die Aussage Ergebnisse (x1 , x2 )
”
außerhalb M sind nicht möglich“ durch die schwächere, aber für die Berechnung von
Wahrscheinlichkeiten äquivalente Aussage, dass Borelschen Mengen außerhalb von M
die Wahrscheinlichkeit Null zugeordnet wird, was durch die Festlegung
f (x1 , x2 ) = 0 für (x1 , x2 ) ∈
/M
für die Dichte erreicht wird.
10.6.1 Bedingte Dichten
Nach der obigen Beschreibung läuft das Zufallsexperiment in zwei Schritten ab. Zuerst
wird die Knickstelle x1 ausgewählt und anschließend in Abhängigkeit von der Lage von
x1 die zweite Knickstelle x2 .
68
1. Schritt: Die Auswahl der Position x1 erfolgt zufällig, d.h. jede Zahl aus dem Intervall [ 0, 1 ] besitzt die gleiche Chance. Das dazu passende Wahrscheinlichkeitsgesetz ist
die uniforme Verteilung auf diesem Intervall mit der (eindimensionalen) Dichte (10.80)
1 0 ≤ x1 ≤ 1
f1 (x1 ) =
0 sonst
2. Schritt: Liegt x1 nach Durchführung des 1. Schritts fest, so wird anschließend x2
zufällig auf dem längeren Abschnitt ausgewählt, d.h. für x1 ≤ 21 gemäß der uniformen
Verteilung auf dem Intervall [ x1 , 1 ] und für x1 > 21 nach der U[ 0, x1 ]-Verteilung. Die
entsprechenden Dichten sind gemäß (10.80)
(
1
x1 ≤ x2 ≤ 1
1−x1
f2 (x2 |x1 ) =
0
sonst
für x1 ≤
1
2
und
f2 (x2 |x1 ) =
für x1 >
1
2
(
1
x1
0
0 ≤ x2 ≤ x1
sonst
.
Bezeichnung: Eine Funktion f (x|y), die bei festem y als Funktion von x eine Wahrscheinlichkeitsdichte und bei festem x als Funktion von y Lebesgue-messbar ist, heißt
eine bedingte Dichte.
10.6.2 Zweistufige Experimente
Zur Beschreibung eines Zufallsexperiments, das in zwei Schritten abläuft, müssen die
Dichte f1 (x1 ) und die bedingte Dichte f2 (x2 |x1 ) zu einer zweidimensionalen Dichte
zusammengesetzt werden. In Analogie zur Formel P (A ∩ B) = P (A) P (B|A) für die
bedingte Wahrscheinlichkeit von Ereignissen legen wir
f (x1 , x2 ) = f1 (x1 ) f2 (x2 |x1 )
(10.82)
fest. Die so definierte Funktion f : R2 −→ R ist eine Dichte. Aus f1 (x1 ) ≥ 0 und
f2 (x2 |x1 ) ≥ 0 folgt f (x1 , x2 ) ≥ 0 und nach dem Satz von Fubini ist
Z
Z Z
f (x1 , x2 )d(x1 , x2 ) =
f1 (x1 )f2 (x2 |x1 )dx2 dx1
Z
Z
=
f1 (x1 ) f2 (x2 |x1 )dx2 dx1
Z
=
f1 (x1 ) · 1dx1 = 1
69
10.6.3 Fortsetzung des Beispiels
Zur Lösung des Problems muss noch die Menge A ⊂ M der Paare (x1 , x2 ) von Knickstellen gefunden werden, die dem Ereignis entsprechen, dass aus den drei Bruchstücken
ein Dreieck gebildet werden kann. Aus der Abbildung 12 ist für den Fall x1 ≤ 21 ersichtlich, dass ein Dreieck nur dann zustandekommt, wenn sich die beiden Halbkreise
schneiden, die die beiden äußeren Bruchstücke beschreiben, wenn man sie in den Punkten x1 bzw. x2 festhält und die freien Enden bewegt.
0
x1
0.5
x2
1
Abbildung 12: Dreieck aus drei Bruchstücken
Dazu muss die Summe der Längen der äußeren Bruchstücke mindestens so groß sein
wie die Länge des mittleren:
x1 + (1 − x2 ) ≥ x2 − x1
oder —durch Umformen—
x2 ≤
1
+ x1
2
Außerdem darf x2 nicht unterhalb von 12 liegen, da sonst der rechte Halbkeis vollständig
über dem linken liegt.
Für den Fall x1 ≤ 12 erhält man also ein Dreieck, wenn (x1 , x2 ) in der Menge A1 der
Punkte liegt, die die Bedingungen
0 ≤ x1 ≤ 21
1
2 ≤ x2
x2 ≤ x1 + 12
70
erfüllen. Für den Fall x1 >
1
2
ergibt sich entsprechend die Menge A2 der (x1 , x2 ) mit
1
2
< x1 ≤ 1
x2 ≤ 21
x2 ≥ x1 − 12
und A ist die Summe dieser beiden Mengen.
x2
1
A1
0.5
A2
x1
0.5
1
Abbildung 13: Das Ereignis Dreieck“
”
Mit der Dichte
f (x1 , x2 ) =





1
1−x1
1
x1
0
0 ≤ x1 ≤ 21 , x1 ≤ x2 ≤ 1
1
2 < x1 ≤ 1 , 0 ≤ x2 ≤ x1
sonst
71
erhält man daraus die Wahrscheinlichkeiten
P (A1 )
=
Z
1
f (x1 , x2 )d(x1 , x2 ) =
=
Z
0
P (A2 )
1
1 − x1
=
ln 2 −
=
Z
Z
dx2 dx1 =
Z
0
1
2
!
1
dx2 dx1
1 − x1
x1
dx1
1 − x1
1
2
f (x1 , x2 )d(x1 , x2 ) =
ln 2 −
1
2
1
2
x1 + 12
Z1
1
2
A2
=
Z
0
A1
1
2
x1 + 12
Z2
1
2
1
Z2
x1 − 21
!
1
dx2 dx1
x1
und zusammen
P (A) = P (A1 ) + P (A2 ) = 2 ln 2 − 1
10.6.4 Unabhängige Experimente
Hängt das Wahrscheinlichkeitsgesetz des zweiten Experiments nicht vom Ergebnis des
ersten ab, so ist f2 (x2 |x1 ) = f2 (x2 ). Werden also zwei Zufallsexperimente unabhängig
voneinander gleichzeitig oder nacheinander durchgeführt, so wird das Gesamtexperiment durch eine Dichte der Form
f (x1 , x2 ) = f1 (x1 ) f2 (x2 )
beschrieben.
72
(10.83)
11 Eindimensionale Verteilungen
Eine Verteilung auf der Menge R der reellen Zahlen wird auch eine eindimensionale
Verteilung genannt. In diesem Kapitel werden einige für diese Verteilungen spezifische
Themen behandelt. Es sind dies die Verteilungsfunktion als Charakteristikum für
solche Verteilungen und — analog zu den bei diskreten Verteilungen eingeführten
Größen — die Momente und der Begriff der Zufallsvariablen.
11.1 Die Verteilungsfunktion
Die absolutstetigen Verteilungen auf R, die sich durch eine Dichte beschreiben lassen,
d.h.
Z
P (B) = 1B (x)f (x)dx
bilden nur eine Teilklasse der Gesamtheit der Wahrscheinlichkeitsverteilungen auf der
reellen Zahlenachse. Eine vollständige Charakterisierung der eindimensionalen Verteilungen erhält man durch die Verteilungsfunktion:
Definition 11.1 Ist P eine eindimensionale Verteilung, so heißt die Funktion
F : R −→ R, definiert durch
F (t) := P (−∞, t]
(11.84)
die Verteilungsfunktion der Verteilung P .
Beispiel: Die Verteilungsfunktion der U[a, b]-Verteilung.
1
6
- t
a
b
Abbildung 14: Verteilungsfunktion der U[a, b]-Verteilung.
Es ist
P (−∞, t] =
λ ((−∞, t] ∩ [a, b])
λ ([a, b])
mit λ ([a, b]) = b − a. Wegen

 ∅
[a, t]
(−∞, t] ∩ [a, b] =

[a, b]
73
falls t < a
falls a ≤ t ≤ b
falls t > b
ergibt sich die Verteilungsfunktion zu

 0
t−a
F (t) =
 b−a
1
falls t < a
falls a ≤ t ≤ b
falls t > b
(11.85)
Die Abbildung 14 zeigt bereits die generelle Gestalt einer Verteilungsfunktion. Sie lässt
sich wie folgt charakterisieren:
Satz 11.1 Eine Verteilungsfunktion besitzt die folgenden fünf Eigenschaften:
0 ≤ F (t) ≤ 1
s≤t
t%∞
t & −∞
t & t0
⇒
⇒
⇒
⇒
F (s) ≤ F (t)
F (t) % 1
F (t) & 0
F (t) & F (t0 )
(F ist monoton nichtfallend)
(F ist rechtsstetig)
Beweis:
1. Da F (t) die Wahrscheinlichkeit eines Ereignisses—in diesem Fall (−∞, t]—ist, folgt
die erste Eigenschaft aus dem Axiom 1 (2.7).
2. Für s ≤ t ist (−∞, s] ⊂ (−∞, t], die Monotonie von F ergibt sich so aus Regel (2.12).
3. Für die dritte Eigenschaft betrachten wir eine beliebige monotone und nicht beschränkte Folge reeller Zahlen tn . Für die Intervalle In := (−∞, tn ] gilt dann In %
(−∞, ∞) = R und F (tn ) % 1 ist nichts anderes als die Eigenschaft (2.20) für monotone Folgen von Ereignissen mit den hier eingeführten Bezeichnungen.
4. Die beiden letzten Aussagen erhält man, indem man eine monoton fallende Zahlenfolge {tn } betrachtet, wobei im einen Fall tn & −∞ und im anderen tn & t0 . Für
die Intervalle In gilt dann In & ∅ bzw. In & (−∞, t0 ] und (2.21) liefert das Verhalten
von F .
Diese fünf Eigenschaften charakterisieren eine Verteilungsfunktion bereits vollständig,
denn man kann die folgende Aussage beweisen:
Satz 11.2 Zu jeder Funktion F : R −→ R mit den in Satz 11.1 aufgeführten Eigenschaften gibt es genau eine Verteilung P auf R mit P (−∞, t] = F (t) für alle t ∈ R.
Beispiel Die in Abbildung 15 dargestellte Funktion
0
falls t ≤ 0
F (t) =
1 − e−λt falls t > 0
(11.86)
mit einer Konstanten λ > 0 erfüllt alle Eigenschaften einer Verteilungsfunktion. Die
zugehörige Verteilung heißt die Exponentialverteilung mit Parameter λ oder kurz
die E(λ)-Verteilung.
Um einen der Anwendungsbereiche der Exponentialverteilung darzustellen, betrachten
wir für s ≥ 0 die Ereignisse As := (s, ∞). Die Komplementärmenge zum Intervall
(s, ∞) ist das Intervall (−∞, s], so dass
P (As ) = 1 − P (As ) = 1 − P (−∞, s] = 1 − F (s) = e−λs
74
1.4
1.2
1
0.8
0.6
0.4
0.2
0
−0.2
−5
−4
−3
−2
−1
0
1
2
3
4
5
Abbildung 15: Die Verteilungsfunktion der Exponentialverteilung
woraus sich die Gleichung
P (As+t ) = P (As )P (At )
für alle nichtnegativen rellen Zahlen s, t ergibt. Aus dieser Gleichung wiederum folgt
– auf dem umgekehrten Weg wie bei der Herleitung der geometrischen Verteilung in
Abschnitt 6.2.4– die Identität
P (As+t |As ) = P (At )
d.h. die Gedächtnislosigkeit. Die Exponentialverteilung ist somit das kontinuierliche
Gegenstück zur geometrischen Verteilung. Man benutzt sie beispielsweise zur Beschreibung der Lebensdauer nahezu verschleißfreier Geräte, wenn die Zeit nicht in diskreten
Beobachtungsintervallen, sondern kontinuierlich gemessen wird.
Die beiden Verteilungsfunktionen (11.85) und (11.86) sind in allen Punkten t ∈ R
stetig. Diese Eigenschaft gilt aber nicht generell für Verteilungsfunktionen. Für
eine streng monoton steigende Folge
t1 < t2 < . . . < tn < . . . < s
von reellen Zahlen mit limn→∞ tn = s gilt nämlich
∞
[
n=1
(−∞, tn ] = {t ∈ R ; t < s} = (−∞, s)
75
(11.87)
Der Limes s ist in dieser Vereinigungsmenge nicht enthalten, weil tn < s für alle n.
Wenn wir mit F (s−0) den Grenzwert der Funktionswerte F (tn ) für n → ∞ bezeichnen,
d.h. den linksseitigen Grenzwert der Funktion F an der Stelle s, so folgt aus (11.87)
und den Sätzen über monotone Ereignisfolgen, dass
F (s − 0) = P (−∞, s)
(11.88)
und wegen (−∞, s] = (−∞, s) + {s}
F (s) − F (s − 0) = P {s}
(11.89)
Eine Unstetigkeitsstelle der Verteilungsfunktion F an einer Stelle s bedeutet also,
dass das Elementarereignis {s} eine positive Wahrscheinlichkeit besitzt.
11.1.1 Berechnung von Intervallwahrscheinlichkeiten
Mit Hilfe der Verteilungsfunktion kann man die Wahrscheinlichkeiten aller Typen von
Intervallen berechnen.
1. Ein Intervall der Form (a, ∞) ist die Komplementärmenge zum Intervall (−∞, a],
so dass
P (a, ∞) = 1 − P (−∞, a] = 1 − F (a)
(11.90)
2. Für [a, ∞) gilt nach (11.88)
P [a, ∞) = 1 − P (−∞, a) = 1 − F (a − 0)
(11.91)
3. Für das Intervall (a, b] folgt aus (−∞, b] = (−∞, a] + (a, b] und dem Additivitätsaxiom für Wahrscheinlichkeiten
P (a, b] = F (b) − F (a)
(11.92)
4. Für das abgeschlossene Intervall [a, b] ist (−∞, b] = (−∞, a) + [a, b] und daher
P [a, b] = F (b) − F (a − 0)
(11.93)
Ist die Verteilungsfunktion stetig, so ist F (s) = F (s − 0) für alle s. Elementarereignisse besitzen in diesem Fall alle die Wahrscheinlichkeit Null und für alle Typen von
Intervallen I mit den Rändern a und b ist
P (I) = F (b) − F (a)
76
(11.94)
11.1.2 Verteilungsfunktionen und Dichten
Die beiden Verteilungsfunktionen (11.85) und (11.86) sind nicht nur stetig, sondern
sogar stückweise stetig differenzierbar. Daraus folgt, dass sie Stammfunktionen zu
integrierbaren Funktionen f (x) sind:
Z
Z t
f (x)dx
(11.95)
F (t) = 1(−∞,t] (x)f (x)dx =
−∞
Im Fall (11.85) der uniformen Verteilung ist das die Funktion

für x < a
 0
1
für a ≤ x ≤ b
f1 (x) =
 b−a
0
für x > b
und bei der Exponentialverteilung (11.86)
0
f2 (x) =
λe−λx
für x ≤ 0
für x > 0
(11.96)
(11.97)
Für die Integration wie in (11.95) ist es dabei unwesentlich, welchen Wert man den
Funktionen f1 und f2 an den Sprungstellen a, b bzw. 0 zuweist.
Da eine Verteilungsfunktion F monoton nichtfallend ist, ist nach (11.95) zugehörige
Funktion f fast überall nichtnegativ und wegen limt→∞ F (t) = 1 hat man
Z
Z ∞
f (x)dx =
f (x)dx = 1
−∞
Die Funktion f (x) ist also eine Dichte mit
Z
P (−∞, t] = F (t) = 1(−∞,t] (x)f (x)dx
für die zur Verteilungsfunktion F gehörige Verteilung P . Wie man zeigen kann — P
ist ja durch F eindeutig bestimmt — folgt daraus
Z
P (B) = 1B (x)f (x)dx
für alle Borelschen Mengen B. Dies bedeutet:
Satz 11.3 Ist die Verteilungsfunktion F von der Form (11.95), so ist die zugehörige
Verteilung P absolutstetig mit Dichte f .
11.1.3 Die Verteilungsfunktion einer diskreten Verteilung
Eine diskrete Verteilung z.B. mit der Ergebnismenge X = N0 und Wahrscheinlichkeitsfunktion f (n) kann man wie im vorhergehenden Kapitel beschrieben als eindimensionale Verteilung auffassen, bei der den Elementarereignissen {n} mit n ∈ N0 die
77
Wahrscheinlichkeit P {n} = f (n) und Borelschen Mengen B mit B ∩ N0 = ∅ die Wahrscheinlichkeit P (B) = 0 zugeordnet wird. Die Verteilungsfunktion dieser Verteilung ist
durch
X
f (n)
F (t) = P (−∞, t] =
n∈N0 ,n≤t
gegeben. In Abbildung 16 ist der Verlauf einer solchen Funktion dargestellt. Aus ihr
ersieht man, dass Verteilungsfunktionen von diskreten Verteilungen reine Treppenfunktionen sind, d.h. dass der Graph einer solchen Funktion nur aus Sprüngen und
horizontalen Teilstücken besteht.
6
1
[
[
[
[
6
f (0)
6
f (1)
6
f (3)
F (t)
)
6
f (2)
)
)
1
2
3
-t
Abbildung 16: Die Verteilungsfunktion einer diskreten Verteilung
11.2 Die Momente einer eindimensionalen Verteilung
Mit der physikalischen Interpretation der Dichte einer absolutstetigen eindimensionalen Verteilung als der spezifischen Dichtefunktion einer über die reellen Zahlenachse
kontinuierlich verteilten Wahrscheinlichkeitsmasse lassen sich die Konzepte aus dem
Kapitel 7 vollständig übertragen, wobei an die Stelle des Summenzeichens das Integral
tritt.
Sei P eine eindimensionale absolutstetige Verteilung mit der Dichte f (x).
Definition 11.2 Soweit die folgenden Integrale im Lebesgueschen Sinne existieren,
heißen
Z
mk = mk (P ) = xk f (x)dx
für k = 1, 2, . . . die k-ten (absoluten) Momente und
Z
m̂k = m̂k (P ) = (x − m1 (P ))k f (x)dx
78
für k = 2, 3, . . . die k-ten zentralen Momente der Verteilung P .
Speziell das erste Moment m1 heißt der Mittelwert und das zweite zentrale Moment
m̂2 die Varianz von P .
Analog zur Vorgehensweise im Kapitel 7 beweist man den Steinerschen Satz
m̂2 = m2 − m21
(11.98)
und die Ungleichung von Tschebyscheff
m̂2 (P )
ε2
mit der Menge Bε = {x ∈ X ; |x − m1 (P )| > ε}.
P (Bε ) ≤
(11.99)
11.2.1 Mittelwert und Varianz der Normalverteilung
Die Dichte
2
1
ϕ(x) = √ e−x /2
2π
der standardisierten Normalverteilung N (0, 1) konvergiert für x → ±∞ so schnell
gegen Null, dass die Funktionen x 7→ xk ϕ(x) für alle k = 1, 2, 3, . . . im Lebesgueschen
und im uneigentlich-Riemannschen Sinn integrierbar sind.
Die Funktion h(x) = xϕ(x) ist eine ungerade Funktion, d.h. h(−x) = −h(x). Das
Integral einer derartigen Funktion über ein zum Nullpunkt symmetrisches Intervall
(−a, a) ist stets Null, so dass
m1 := m1 (N (0, 1)) = 0
und die Varianz m̂2 gleich dem zweiten Moment m2 ist.
Zur Berechnung des zweiten Moments wenden wir die Regel der partiellen Integration
auf den Integranden
2
2
x2 e−x /2 = x xe−x /2
an, wobei der Term in runden Klammern die Stammfunktion
2
−e−x
besitzt. Damit ist
m2
=
=
/2
Z ∞ 2
1
√
x xe−x /2 dx
2π −∞
h
Z ∞
i∞
1
−x2 /2
−x2 /2
√
x(−e
)
−
(−e
)dx
−∞
2π
−∞
Wie oben angemerkt, konvergiert die Funktion in eckigen Klammern für x → ±∞
gegen Null, so dass
Z ∞
Z
1
−x2 /2
e
dx = ϕ(x)dx = 1
m2 = √
2π −∞
denn das Integral einer Dichte über den gesamten Ergebnisraum hat stets den Wert 1.
79
11.2.2 Die momenterzeugende Funktion
Analog zum Abschnitt 7.2.1 über momenterzeugende Funktionen bei diskreten Verteilungen nennen wir eine eindimensionale Verteilung P nichtnegativ, wenn P (−∞, 0] =
0. Ist die Verteilung absolutstetig, so folgt daraus, dass f (x) = 0 für alle x < 0 (evtl.
mit Ausnahme der x aus einer Nullmenge). In diesem Fall definieren wir die momenterzeugende Funktion für Argumente t < 0 als
Z
Z ∞
tx
M (t) = e f (x)dx =
etx f (x)dx
(11.100)
0
Ersetzt man die Variable t durch t = −s, so sieht man, dass es sich bei der momenterzeugenden Funktion einfach um die Laplace-Transformation der Dichte handelt. Sie
besitzt die gleichen Eigenschaften wie die momenterzeugenden Funktion von diskreten
Verteilungen:
Für t < 0 ist M (t) beliebig oft differenzierbar mit
M (k) (t) =
dk
M (t) =
dtk
Z
∂ k tx
e f (x)dx =
∂tk
Z
xk etx f (x)dx
lim xk etx f (x)dx =
Z
xk f (x)dx = mk (P )
und
M (k) (0) := lim M (k) (t) =
t→0
Z
t→0
Falls das k-te Moment nicht existiert, erhält man — da der Integrand nichtnegativ ist
— für M (k) (0) den Wert ∞.
11.2.3 Mittelwert und Varianz der Exponentialverteilung
Die Exponentialverteilung mit der Dichte (11.97) ist eine nichtnegative Verteilung.
Ihre momenterzeugende Funktion berechnet sich zu
Z ∞
Z ∞
tx
−λx
M (t) =
e λe
dx = λ
e(t−λ)x dx
0
0
Der Integrand besitzt die Stammfunktion
gegen Null konvergiert, so dass
1
(t−λ)x
,
t−λ e
M (t) =
die wegen (t − λ) < 0 für x → ∞
λ
λ−t
Die erste und zweite Ableitung von M (t) sind
M 0 (t) =
λ
2λ
und M 00 (t) =
(λ − t)2
(λ − t)3
woraus sich die Momente m1 = M 0 (0) = 1/λ, m2 = 2/λ2 und die Varianz m̂2 =
m2 − m21 = 1/λ2 ergeben.
80
12 Zufallsvariable
Das Konzept einer Zufallsvariablen wurde im Kapitel 8 für diskrete Verteilungen
erläutert. In diesem Abschnitt wird der Begriff der Zufallsvariablen präziser gefasst.
12.1 Zufallsgrößen
Wir betrachten zunächst Abbildungen X : Ω −→ Ω̂ mit beliebigen Mengen Ω und Ω̂
als Definitions- und Wertebereich.
12.1.1 Urbildmengen
Für die Wahrscheinlichkeitsrechnung sind vor allem die Urbilder
(X ∈ A) = {ω ∈ Ω ; X(ω) ∈ A}
(12.101)
(X ∈ A ∪ B) = (X ∈ A) ∪ (X ∈ B)
[
[
(X ∈
Ak ) =
(X ∈ Ak )
(12.102)
von Teilmengen A ⊂ Ω̂ von Interesse. Für das Urbild als Funktion dieser Teilmengen
gelten die folgenden Rechenregeln, wobei der Index k in den nachstehenden Gleichungen eine beliebige Indexmenge durchlaufen kann:
k
(12.103)
k
(X ∈ A ∩ B) = (X ∈ A) ∩ (X ∈ B)
\
\
(X ∈ Ak )
Ak ) =
(X ∈
(12.104)
(12.105)
k
k
(X ∈ A) = (X ∈ A)
(X ∈ Ω̂) =
Ω
(12.106)
(12.107)
Man beweist diese Gleichungen dadurch, dass man zeigt, dass jedes Element der Menge
auf der linken Seite auch ein Element der rechten Seite ist und umgekehrt. Am Beispiel
von (12.102) also
ω ∈ (X ∈ A ∪ B) ⇔
⇔
⇔
⇔
X(ω) ∈ A ∪ B
X(ω) ∈ A oder X(ω) ∈ B
ω ∈ (X ∈ A) oder ω ∈ (X ∈ B)
ω ∈ (X ∈ A) ∪ (X ∈ B)
Aus diesen Regeln ergeben sich die für die Wahrscheinlichkeitsrechnung wichtigen Folgerungen
(X ∈ ∅) =
A∩B =∅ ⇒
(X ∈ A + B)
X
(X ∈
Ak )
k
=
=
∅
(X ∈ A) ∩ (X ∈ B) = ∅
(X ∈ A) + (X ∈ B)
X
(X ∈ Ak )
k
81
(12.108)
(12.109)
(12.110)
(12.111)
12.1.2 Zufallsgrößen
Wenn man von der Wahrscheinlichkeit sprechen will, dass eine Abbildung X einen
Wert in einer vorgegebenen Menge A annimmt, d.h. von der Wahrscheinlichkeit des
Ereignisses (X ∈ A), so muss sichergestellt sein, dass diese Urbildmenge im Definitionsbereich der entsprechenden Wahrscheinlichkeit liegt.
Definition 12.1 Sind A bzw. Â σ-Algebren auf den Mengen Ω bzw. Ω̂ so heisst eine
Abbildung X : Ω −→ Ω̂ mit der Eigenschaft
(X ∈ A) ∈ A
für alle
A ∈ Â
(12.112)
A-Â-messbar.
Im Rahmen der Wahrscheinlichkeitsrechnung wird eine derartige Funktion anders bezeichnet. Sind Ω und A Bestandteile eines Wahrscheinlichkeitsraums (Ω, A, P ) so heißt
eine A-Â-messbare Abbildung X kurz eine Zufallsgröße. Die σ-Algebren, bezüglich
derer die Zufallsgröße messbar ist, werden dabei meist nicht erwähnt, da sie sich aus
dem Zusammenhang ergeben.
12.1.3 Die Verteilung einer Zufallsgröße
Ist (Ω, A, P ) ein Wahrscheinlichkeitsraum, Â eine σ-Algebra auf einer Menge Ω̂ und
X : Ω −→ Ω̂ eine Zufallsgröße, so liegen die Urbilder (X ∈ A) für alle A ∈ Â im
Definitionsbereich der Wahrscheinlichkeit P . Durch
P X (A) = P (X ∈ A)
erhält man daher eine wohldefinierte Mengenfunktion P
stabe P schon andeutet, gilt
(12.113)
X
: Â −→ R. Wie der Buch-
Satz 12.1 Die Abbildung P X ist eine Wahrscheinlichkeit.
Der Beweis dieser Aussage ist leicht nachzuvollziehen. Es ist lediglich mit Hilfe der
Rechenregeln für Urbilder nachzurechnen, dass sich die Axiome 1 bis 4 von der Wahrscheinlichkeit P auf die Funktion P X übertragen.
Bezeichnung: Die Wahrscheinlichkeit P X heißt die Verteilung der Zufallsgröße
X.
Zur schematischen Darstellung dieser Situation werden wir im folgenden stets das
Diagramm
X
(Ω, A, P ) −→ (Ω̂, Â, P X )
verwenden.
82
12.2 Zufallsvariable
Zufallsgrößen mit der Menge der reellen Zahlen als Wertebereich kommen besonders
häufig vor und erhalten daher eine spezielle Bezeichnung.
Definition 12.2 Eine Abbildung X : Ω −→ R auf einem Wahrscheinlichkeitsraum
(Ω, A, P ), die messbar bezüglich der σ-Algebra A und der σ-Algebra B der Borelschen
Mengen auf R ist, heisst eine Zufallsvariable.
Es ist unmöglich anhand dieser Definition nachzuprüfen ob eine vorgegebene Funktion
X : Ω −→ R eine Zufallsvariable ist, da es keine Methode gibt, nach der man alle
Borelschen Mengen erzeugen kann. Man kann aber zeigen, dass man sich zum Test der
Messbarkeit auf die speziellen Mengen
(X ≤ t) = (X ∈ (−∞, t]) = {ω ∈ Ω ; X(ω) ≤ t}
(12.114)
beschränken kann:
Satz 12.2 Eine Funktion X : Ω −→ R auf einem Wahrscheinlichkeitsraum (Ω, A, P )
ist genau dann eine Zufallsvariable, wenn für alle reellen Zahlen t die Urbilder (X ≤ t)
in der σ-Algebra A liegen.
Der Test der Messbarkeit nach diesem Satz lässt sich mit dem Problem verbinden, die
Verteilung P X der Zufallsvariable X zu bestimmen, denn die Verteilungsfunktion
F X dieser Verteilung ist nach (11.84) und (12.113) durch
F X (t) = P X (−∞, t] = P (X ∈ (−∞, t]) = P (X ≤ t)
(12.115)
gegeben. Für die praktische Anwendung heißt das: Wenn es gelingt, für alle rellen
Zahlen t die Größe F X (t) zu berechnen, so müssen alle Urbilder (X ≤ t) im Definitionsbereich der Wahrscheinlichkeit P liegen. X ist damit eine Zufallsvariable und
F X (t) die Verteilungsfunktion der Verteilung von X, die ja bekanntlich diese Verteilung vollständig charakterisiert.
Beispiel 1: Bestimme die Verteilung von X(s) = − ln(s) auf dem Wahrscheinlichkeitsraum (R, B, P ), wenn P die U(0, 1)-Verteilung ist.
Die U(0, 1)-Verteilung ist—vgl. (11.85)—durch
P (B) =
λ(B ∩ (0, 1))
= λ(B ∩ (0, 1))
λ((0, 1))
gegeben.
Der natürliche Logarithmus ln(s) ist nur für positive reelle Zahlen s definiert. Wie sich
aus den folgenden Berechnungen ergibt, ist es gleichgültig, wie man die Funktion X(s)
für Zahlen s ≤ 0 festlegt, da die Verteilung P dieser Menge die Wahrscheinlichkeit
Null zuordnet. Wir setzen der Vollständigkeit halber X(s) = 0 für nichtpositive s.
83
Zur Berechnung der Verteilungsfunktion F X (t) spalten wir die Menge (X ≤ t) auf:
(X ≤ t)
=
=
=:
{s ∈ R ; X(s) ≤ t}
{s ≤ 0 ; X(s) ≤ t} + {0 < s < 1 ; − ln(s) ≤ t}
+{s ≥ 1 ; X(s) ≤ t}
+
A−
t + Bt + At
−
+
Da die Mengen A−
t und At disjunkt zum offenen Intervall (0, 1) sind, ist P (At ) =
+
P (At ) = 0 und P (X ≤ t) = P (Bt ).
Für 0 < s < 1 ist − ln(s) > 0, so dass Bt = ∅, wenn t ≤ 0 und
Bt = {0 < s < 1 ; s ≥ e−t } = [e−1 , 1)
für t > 0.
Daraus folgt
F X (t) =
0
P [e−1 , 1) = 1 − e−t
für t ≤ 0
für t > 0
d.h. F X (t) ist die Verteilungsfunktion der Exponentialverteilung bzw. die Zufallsvariable X ist exponentiell verteilt mit Parameter λ = 1.
Beispiel 2: Beim Schießen auf eine Zielscheibe kommt es nicht auf die genaue Lage
des Treffpunkts an, sondern darauf, in welchem Ring der Treffer liegt. Wir denken
uns die Zielscheibe in eine Ebene mit cartesischem Koordinatensystem eingebettet,
wobei das Zentrum der Zielscheibe mit dem Koordinatenursprung zusammenfallen
soll. Die Treffpunkte sind dann durch Punkte (x1 , x2 ) aus dem R2 charakterisiert und
die Information, in welchem Ring der Treffpunkt liegt, ist im Abstand
q
X(x1 , x2 ) = x21 + x22
des Treffpunkts vom Zentrum enthalten.
Als Wahrscheinlichkeitsgesetz für die Treffpunkte wählen wir die absolutstetige zweidimensionale Verteilung P mit der Dichte
f (x1 , x2 ) =
1 − 1 (x21 +x22 )
e 2
2π
Die Mengen
(X ≤ t) = {(x1 , x2 ) ∈ R2 ;
q
x21 + x22 ≤ t} =: Bt
enthalten für t < 0 keine Elemente, da die Quadratwurzel nichtnegative Werte hat.
Für t ≥ 0 handelt es sich um die Kreisscheiben mit Radius t, also um zweidimensionale
Borelsche Mengen. X ist damit eine Zufallsvariable auf dem Wahrscheinlichkeitsraum
(R2 , B2 , P ) und für die Verteilungsfunktion F X (t) der Verteilung dieser Zufallsvariablen gilt
für t < 0
X
R0
F (t) = P (Bt ) =
f
(x
,
x
)d(x
,
x
)
für t ≥ 0
1
2
1
2
Bt
84
Zur Auswertung des Integrals parametrisieren wir die Menge Bt durch Polarkoordinaten:
x1
x2
= r cos(φ)
= r sin(φ)
mit 0 ≤ r ≤ t, 0 ≤ φ < 2π und der Jacobischen Funktionaldeterminante
∂(x1 , x2 )
=r
∂(r, φ)
Wegen
x21 + x22 = r2 (cos2 (φ) + sin2 (φ)) = r2
erhält man
Z t Z
1 − 1 r2
2
f (x1 , x2 )d(x1 , x2 ) =
dφ dr
re
2π
0
0
Bt
Z t
h
i
1 2 t
1 2
re− 2 r dφdr = −e− 2 r
=
Z
2π
0
0
=
− 21 t2
1−e
Die eindimensionale Verteilung mit der Verteilungsfunktion
(
0
für t ≤ 0
2
F (t) =
− 12 ( βt )
1−e
für t > 0
(12.116)
heißt die Rayleigh-Verteilung mit Parameter β (> 0).
Die Verteilung von X ist somit die Rayleighverteilung mit Parameter β = 1 und die
Wahrscheinlichkeit, dass der Treffpunkt in einem Ring liegt, von der Form
2
P (a ≤ X ≤ b) = P X [a, b] = F X (b) − F X (a) = e−0.5a − e−0.5b
85
2
13 Funktionen von Zufallsvariablen
Eine der häufigsten Problemstellungen in den Anwendungen der Wahrscheinlichkeitsrechnung ist die Bestimmung der Verteilung von Zufallsvariablen, die Funktionen anderer Zufallsvariablen sind, wie z.B.
Y1 (ω) = X12 (ω) + X22 (ω)
Y2 (ω) = a1 X1 (ω) + a2 X2 (ω) + a3 X3 (ω)
usw.
Wir betrachten in diesem Kapitel allgemein die folgende Situation:
Gegeben sind Zufallsvariable X1 , X2 , . . . , Xn auf einem Wahrscheinlichkeitsraum (Ω, A, P )
und m reelle Funktionen
yi = Gi (x1 , . . . , xn )
i = 1, . . . , m
von n reellen Argumenten x1 , . . . , xn .
Daraus werden Funktionen
Yi (ω) = Gi X1 (ω), . . . , Xn (ω)
(13.117)
gebildet.
Zur Vereinfachung der Schreibweise fassen wir diese Funktionen zu vektorwertigen
Abbildungen X : Ω −→ Rn , G : Rn −→ Rm und Y : Ω −→ Rm zusammen:
X(ω) = X1 (ω), X2 (ω), . . . , Xn (ω)
G(x) = G1 (x), G2 (x), . . . , Gm (x) mit x = (x1 , . . . , xn )
Y (ω) = Y1 (ω), Y2 (ω), . . . , Ym (ω)
Die Gleichungen (13.117) schreiben wir kurz
oder — ohne Argument —
Y (ω) = G X(ω)
Y =G◦X
(13.118)
(13.119)
und nennen Y die Komposition von X und G.
13.1 Zufallsvektoren
Um Wahrscheinlichkeiten berechnen zu können, müssen die Abbildungen X, G und Y
messbar bezüglich der jeweiligen σ-Algebren sein.
Wir nennen eine Abbildung X : Ω −→ Rn auf der Ergebnismenge eines Wahrscheinlichkeitsraums (Ω, A, P ), die bezüglich A und der σ-Algebra Bn der n-dimensionalen
Borelschen Mengen messbar ist, einen Zufallsvektor oder eine n-dimensionale Zufallsvariable.
86
Für jedes ω ∈ Ω ist der Wert X(ω) eines solchen Zufallsvektors ein Vektor, dessen
Komponenten wir mit Xk (ω) bezeichnen
X(ω) = X1 (ω), X2 (ω), . . . , Xn (ω)
Die dadurch festgelegten Funktionen Xk : Ω −→ R nennen wir die Komponenten
des Zufallsvektors X und schreiben kurz
X = (X1 , X2 , . . . , Xn )
Für die Beziehung zwischen Zufallsvektoren und Zufallsvariablen gilt der folgende Satz,
den wir nur zitieren aber nicht beweisen:
Satz 13.1 X = (X1 , X2 , . . . , Xn ) ist ein Zufallsvektor genau dann, wenn alle Komponenten Zufallsvariable sind.
Man kann also stets eine beliebige Anzahl Z1 , Z2 , . . . , Zm von Zufallsvariablen zu einer
vektorwertigen Funktion Z = (Z1 , . . . , Zm ) zusammen fassen und als Zufallsvektor
behandeln.
13.2 Der Kompositionssatz für Zufallsvektoren
Wie eingangs dieses Kapitels beschrieben, wird das Problem behandelt, die Verteilung
der Komposition Y = G ◦ X zu berechnen unter der Voraussetzung, dass die (ndimensionale) Verteilung P X des Zufallsvektors X und die Vektorfunktion G bekannt
sind.
Unter der Voraussetzung, dass Y ein Zufallsvektor ist, lässt sich diese Situation durch
das Diagramm
(Ω, A, P )
HH
X
HH
HH
Y =G◦X
H
-
HH
(Rn , Bn , P X )
G
HH
j
?
(R , Bm , P )
m
veranschaulichen.
Die Wahrscheinlichkeit P kann dabei einmal die Verteilung P Y des Zufallsvektors Y
auf (Ω, A, P ) sein und zum anderen die Verteilung P G der Abbildung G bezüglich des
Wahrscheinlichkeitraums (Rn , Bn , P X ). Wie dieses Diagramm schon suggeriert, gilt
der
87
Satz 13.2 Sind X : Ω −→ Rn und G : Rn −→ Rm Zufallsvektoren, dann ist auch
Y = G ◦ X ein Zufallsvektor und Y und G besitzen die gleiche Verteilung: P Y = P G .
Beweis: Zu zeigen ist, dass für beliebige Borelsche Mengen B ⊂ Rm das Urbild (Y ∈ B)
in der σ-Algebra A liegt und P Y (B) = P G (B) gilt.
1. Sei A = (G ∈ B). Da G ein Zufallsvektor ist, ist A eine Borelsche Menge im Rn
und für beliebige ω ∈ Ω gilt
ω ∈ (Y ∈ B) ⇐⇒ Y (ω) = G X(ω) ∈ B
⇐⇒ X(ω) ∈ (G ∈ B) = A
⇐⇒ ω ∈ (X ∈ A)
d.h.
(Y ∈ B) = (X ∈ A) = X ∈ (G ∈ B)
2. Da X ein Zufallsvektor ist, ist (X ∈ A) und damit (Y ∈ B) ein Ereignis aus A.
Y ist also auch ein Zufallsvektor.
3. Weiter gilt nach Definition der Verteilung einer Zufallsgröße
P Y (B)
= P (Y ∈ B) = P (X ∈ A) =
= P X (A) = P X (G ∈ B) =
= P G (B)
und damit, dass es sich bei P Y und P G um das gleiche Wahrscheinlichkeitsgesetz
handelt.
♦
13.3 Mehrdimensionale Verteilungen
Nach Satz 13.2 besteht das Problem jetzt also in der Bestimmung der Verteilung P G
in dem Schema
G
(Rn , Bn , P X ) −→ (Rm , Bm , P G )
wobei die Funktion G : Rn −→ Rm und die Verteilung P X als bekannt vorausgesetzt
sind.
Da wir uns in dieser Vorlesung nicht mit der allgemeinen Charakterisierung von ndimensionalen Verteilungen befassen, setzen wir für das Weitere die in der Praxis fast
ausschließlich relevante Situation voraus, dass die Verteilung P X absolutstetig
mit einer Dichte f (x) = f (x1 , x2 , . . . , xn ) ist:
Z
X
P (B) = 1B (x)f (x)dx
(13.120)
88
13.4 Marginalverteilungen
Als erstes versuchen wir, die Verteilungen der Komponenten eines Zufallsvektors zu
berechnen.
Definition 13.1 Die Verteilung P Xk der k-ten Komponente eines Zufallsvektors X =
(X1 , X2 , . . . , Xn ) heißt die k-te Marginalverteilung oder k-te Randverteilung von
P X.
Mit der Funktion Zk : Rn −→ R, Zk (x1 , x2 , . . . , xn ) = xk , lässt sich die k-te Komponente als Komposition Xk = Zk ◦ X darstellen. Es ist daher P Xk = P Zk und für
Borelsche Teilmengen B ⊂ R erhält man
Z
P Zk (B) = P X (Zk ∈ B) = 1(Zk ∈B) (x)f (x)dx
wenn P X die Dichte f besitzt.
Um die Vorgehensweise zu verdeutlichen, nehmen wir konkrete Zahlen: Sei n = 3 und
k = 2, x = (x1 , x2 , x3 ). Es gilt dann
(Z2 ∈ B) = {x = (x1 , x2 , x3 ) ; x2 ∈ B}
und wegen
x ∈ (Z2 ∈ B) ⇔ x2 ∈ B
ist
1(Z2 ∈B) (x) = 1B (x2 ).
Damit erhalten wir nach dem Satz von Fubini, wobei wir zur Verdeutlichung den
Integrationsbereich am Integralzeichen vermerken,
R
1
(x , x2 , x3 )f (x1 , x2 , x3 )d(x1 , x2 , x3 )
R3 (Z2 ∈B) 1
R R
R
=
1 (x ) R R f (x1 , x2 , x3 )dx1 dx3 dx2
R B 2
R
=
1 (x )f (x )dx2
R B 2 2 2
P Z2 besitzt also – wie aus der letzten Zeile ersichtlich – die Dichte
Z Z
f2 (x2 ) =
f (x1 , x2 , x3 )dx1 dx3 .
R
R
Im allgemeinen Fall erhalten wir für P Zk auf die gleiche Weise die Dichte
Z
Z
...
fk (xk ) =
f (x1 , x2 , . . . , xn )
| R {z R}
(n−1)-mal
dx1 . . . dxk−1 dxk+1 . . . dxn .
Bezeichnung: fk heißt die k-te Marginaldichte oder k-te Randdichte von f .
89
Beispiel: Die Marginaldichten von
−x
e 2
f (x1 , x2 ) =
0
falls x1 > 0 und x2 > x1
sonst
1. Marginaldichte:
R Ist x1 ≤ 0, so ist die Funktion x2 7−→ f (x1 , x2 ) identisch Null und
daher f1 (x1 ) = R f (x1 , x2 )dx2 = 0.
Für x1 > 0 ist x2 7−→ f (x1 , x2 ) nur im Bereich x2 > x1 von Null verschieden, so dass
Z ∞
Z ∞
Z
e−x2 dx2 = e−x1
f (x1 , x2 )dx2 =
f (x1 , x2 )dx2 =
f1 (x1 ) =
x1
x1
R
2. Marginaldichte:
R Ist x2 ≤ 0, so ist die Funktion x1 7−→ f (x1 , x2 ) identisch Null und
daher f2 (x2 ) = R f (x1 , x2 )dx1 = 0.
Für x2 > 0 ist x1 7−→ f (x1 , x2 ) nur im Bereich 0 < x1 < x2 von Null verschieden, so
dass
Z x2
Z x2
Z
e−x2 dx1 = x2 e−x2
f (x1 , x2 )dx1 =
f (x1 , x2 )dx1 =
f2 (x2 ) =
R
0
0
13.5 Stochastische Unabhängigkeit von Zufallsvariablen
Die stochastische Unabhängigkeit von Zufallsvariablen wird wie im diskreten Fall definiert:
Definition 13.2 Zufallsvariable X1 , X2 , . . . , Xn auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) heißen stochastisch unabhängig, wenn für beliebige Borelsche Mengen B1 ,
B2 , . . . , Bn aus R gilt
P (X1 ∈ B1 ) ∩ (X2 ∈ B2 ) ∩ . . . ∩ (Xn ∈ Bn )
= P (X1 ∈ B1 ) · P (X2 ∈ B2 ) · . . . · P (Xn ∈ Bn )
(13.121)
Mit Hilfe der Marginaldichten lässt sich feststellen, ob die Komponenten eines Zufallsvektors X = (X1 , X2 , . . . , Xn ) stochastisch unabhängig sind.
Satz 13.3 Sei X = (X1 , X2 , . . . , Xn ) ein Zufallsvektor, dessen Verteilung P X die
Dichte f besitzt. Dann gilt:
Die Komponenten X1 , X2 , . . . , Xn sind genau dann stochastisch unabhängig, wenn es
Dichten fk : R −→ R gibt, so dass für fast alle Vektoren x = (x1 , x2 , . . . , xn ) ∈ Rn
gilt
f (x1 , x2 , . . . , xn ) = f1 (x1 )f2 (x2 ) · · · fn (xn ).
Die fk sind dabei die Marginaldichten von f .
Beweis: Die linke Seite von (13.121) lässt sich wegen
(X1 ∈ B1 ) ∩ (X2 ∈ B2 ) ∩ . . . ∩ (Xn ∈ Bn ) = (X ∈ B1 × B2 × · · · × Bn )
90
mit dem kartesischen Produkt B1 × B2 × · · · × Bn der Mengen Bk und wegen der
Identität
1B1 ×B2 ×···×Bn (x1 , x2 , . . . , xn )
= 1B1 (x1 )1B2 (x2 ) · · · 1Bn (xn )
für die Indikatorfunktionen mit Hilfe der Dichte f durch ein Integral darstellen:
P ((X1 ∈ B1 ) ∩ (X2 ∈ B2 ) ∩ . . . ∩ (Xn ∈ Bn ))
X
= P
R (B1 × B2 × · · · × Bn )
= Rn 1B1 (x1 )1B2 (x2 ) · · · 1Bn (xn )f (x1 , x2 , . . . , xn )d(x1 , x2 , . . . , xn )
Wegen
P (Xk ∈ Bk ) = P Xk (Bk ) =
Z
(13.122)
1Bk (xk )fk (xk )dxk
erhält man für die rechte Seite von (13.121)
Qn
P (Xk ∈ Bk )
(13.123)
R
Qn k=1
1
(x
)f
(x
)dx
=
Bk
k k k
k
k=1
R
= Rn 1B1 (x1 )1B2 (x2 ) · · · 1Bn (xn )f1 (x1 )f2 (x2 ) · · · fn (xn )d(x1 , x2 , . . . , xn )
Sind die X1 , X2 , . . . , Xn stochastisch unabhängig, so folgt aus der Gleichung (13.121)
und diesen Darstellungen, dass für beliebige Borelsche Mengen Bk die Integrale (13.122)
und (13.123) gleich sind, woraus folgt, dass für fast alle x = (x1 , x2 , . . . , xn ) gilt:
f (x1 , x2 , . . . , xn ) = f1 (x1 )f2 (x2 ) · · · fn (xn ).
(13.124)
Ist umgekehrt die Dichte f von der Form
f (x1 , x2 , . . . , xn ) = g1 (x1 )g2 (x2 ) · · · gn (xn )
mit Dichten gk , so sind die Marginaldichten nach der obigen Formel gleich
fZk (xk )Z
...
=
g1 (x1 )g2 (x2 ) · · · gn (xn )
| R {z R}
(n−1)-mal
dx1 . . . Zdxk−1 dxk+1 . . . dx
Zn
= gk (xk )
g1 (x1 )dx1 . . .
gn (xn )dxn
R
R
|
{z
} |
{z
}
=1
=1
= gk (xk ),
d.h., es gilt (13.124). Daraus folgt aber wiederum für beliebige Borelsche Mengen Bk
die Gleichung (13.121), d.h., die stochastische Unabhängigkeit der Komponenten Xk .
Funktionen von Zufallsvariablen: Für die stochastische Unabhängigkeit von Funktionen von Zufallsvariablen benötigt man noch einen Satz, dessen Aussage unmittelbar
einleuchtet:
91
Satz 13.4 Sind X1 und X2 stochastisch unabhängige Zufallsvariable und sind Gi :
R −→ R für i = 1, 2 B − B-messbare Funktionen, so sind die Zufallsvariablen Y1 =
G1 ◦ X1 und Y2 = G2 ◦ X2 ebenfalls stochastisch unabhängig.
Beweis
Für eindimensionale Borelsche Mengen B1 und B2 sind—wie im Beweis des Kompositionssatzes 13.2 bereits verwendet—die Mengen Ai = (Gi ∈ Bi ) ebenfalls Borelsch und
es gilt (Yi ∈ Bi ) = (Xi ∈ Ai ). Daraus folgt wegen der stochastischen Unabhängigkeit
der Xi , dass
P [(Y1 ∈ B1 ) ∩ (Y2 ∈ B2 )]
= P [(X1 ∈ A1 ) ∩ (X2 ∈ A2 )]
= P (X1 ∈ A1 ) · P (X2 ∈ A2 )
= P (Y1 ∈ B1 ) · P (Y2 ∈ B2 )
und damit die stochastische Unabhängigkeit der Yi .
♦
13.6 Der Transformationssatz für Dichten
Eines der wichtigsten Hilfsmittel zur Berechnung der Verteilung eines Zufallsvektors
Y = G ◦ X bei bekannter Verteilung P X des Zufallsvektors X ist der sogenannte
Transformationssatz für Dichten. Wie im Abschnitt 13.2 dargelegt, ist die Verteilung
von Y gleich der des Zufallsvektors G in der durch das Diagramm
G
(Rn , Bn , P X ) −→ (Rn , Bn , P G )
beschriebenen Situation, wobei wir wieder annehmen, dass die Verteilung P X die Dichte f (x1 , . . . , xn ) besitzt und die Verteilung des Zufallsvektors G : Rn −→ Rn mit den
Komponentenfunktionen
y1
y2
= G1 (x1 , x2 , . . . , xn )
= G2 (x1 , x2 , . . . , xn )
..
.
yn
= Gn (x1 , x2 , . . . , xn )
(13.125)
berechnet werden muss. Für diese Verteilung gilt gemäß Definition
Z
P G (B) = P X (G ∈ B) = 1(G∈B) (x)f (x)dx
Eine Dichte g der Verteilung P G müsste dementsprechend so beschaffen sein, dass die
Gleichung
Z
Z
1B (y)g(y)dy = 1(G∈B) (x)f (x)dx
für beliebige Borelsche Mengen B des Rn erfüllt ist.
92
13.6.1 Der Parametrisierungssatz für Bereichsintegrale
Etwas Ähnliches findet man in der Analysis unter dem Stichwort Substitutionsformel
oder Parametrisierungssatz für Bereichsintegrale. Dort ist üblicherweise eine Funktion
g und eine Menge B vorgegeben, über die die Funktion integriert werden soll. Falls diese
Menge ein etwas kompliziertes Aussehen hat, versucht man sie zu parametrisieren, d.h.
eine einfachere“ Menge IB und eine Parametrisierung G : IB −→ B zu finden, die die
”
Menge IB bijektiv auf B abbildet. Unter Voraussetzungen, die weiter unten aufgeführt
werden, gilt
Z
Z
f (x)dx
(13.126)
g(y)dy =
IB
B
mit der Funktion
f (x) = g(G(x))|JG (x)|
(13.127)
Dabei ist JG (x) die Funktionaldeterminante von G, d.h. die Determinante der
Matrix der partiellen Ableitungen der Komponenten von G:



JG (x) = det 

∂G1
∂x1 (x)
∂G2
∂x1 (x)
..
.
∂Gn
∂x1 (x)
∂G1
∂x2 (x)
∂G2
∂x2 (x)
...
...
..
..
.
.
∂Gn
(x)
.
.
.
∂x2
∂G1
∂xn (x)
∂G2
∂xn (x)
..
.
∂Gn
∂xn (x)





In der Wahrscheinlichkeitsrechnung ist die Situation etwas anders gelagert. Hier ist die
Funktion f und die Parametrisierung vorgegeben und die Funktion g ist zu bestimmen.
Da aber die Gleichung (13.126) immer erfüllt ist, wenn die beiden Funktionen f und g
in der Beziehung (13.127) zueinander stehen, lässt sich dieses Problem einfach dadurch
lösen, dass man die Gleichung (13.127) nach der Funktion g auflöst.
g(G(x)) = f (x)
1
|JG (x)|
Setzt man jetzt y = G(x), was in Komponentenschreibweise das Gleichungssytem
(13.125) ist, und löst dieses System nach den Variablen xk auf:
oder
x1
x2
= G∗1 (y1 , y2 , . . . , yn )
= G∗2 (y1 , y2 , . . . , yn )
..
.
xn
= G∗n (y1 , y2 , . . . , yn )
(13.128)
x = G∗ (y)
mit der Umkehrabbildung G∗ von G, so erhält man
g(y) = f (G∗ (y))
93
1
|JG (G∗ (y))|
(13.129)
13.6.2 Der Transformationssatz für Dichten
Satz 13.5 Es gebe eine offene zusammenhängende Menge M ⊂ Rn so, dass für die
Dichte f (x) der Verteilung P X und den Zufallsvektor G : Rn −→ Rn die nachstehenden Bedingungen erfüllt sind:
1. Für x ∈
/ M ist f (x) = 0
2. Die Komponenten Gj (x) von G sind auf M stetig partiell differenzierbar und es
ist JG (x) 6= 0 für alle x ∈ M .
3. Ist M ∗ = G(M ) = {y ∈ Rn ; y = G(x) mit x ∈ M } das Bild der Menge M
unter G, so ist die Abbildung G : M −→ M ∗ bijektiv mit der Umkehrabbildung
G∗ : M ∗ −→ M .
Dann besitzt die Verteilung P G des Zufallsvektors G die Dichte
f (G∗ (y)) |JG (G1∗ (y))| falls y ∈ M ∗
g(y) =
0
sonst
(13.130)
Beweis: Es ist zu zeigen, dass für die Verteilung P G des Zufallsvektors G und Borelsche
Mengen B ⊂ Rn
Z
P G (B) =
1B (y) g(y)dy
mit der Funktion g(y) aus (13.130). Dazu wird das Problem schrittweise auf eine Situation zurückgeführt, auf die der Parametrisierungssatz anwendbar ist. Die einzelnen
Schritte sind in der Abbildung 17 veranschaulicht. Auf die mehr technischen Details
wie z.B. die Frage, ob die dabei auftretenden Mengen auch wirklich Borelsche Mengen
sind, gehen wir nicht ein.
1. Zunächst wird die Menge B zerlegt:
B = B ∩ M ∗ + B ∩ M ∗ =: B1 + B2
2. Da B2 disjunkt zur Bildmenge M ∗ von M unter der Abbildung G ist, muss das
Urbild (G ∈ B2 ) ganz im Komplement M von M liegen, denn aus x ∈ M würde
G(x) ∈ M ∗ folgen. Da f (x) = 0 für alle x ∈ M und die Funktion (13.130) auf M ∗
verschwindet, ist
Z
P G (B2 ) = P X (G ∈ B2 ) = 1(G∈B2 ) (x)f (x)dx
= Z
0
=
1B2 (y)g(y)dy
3. Da die Abbildung G nur auf M und nicht notwendig auf dem ganzen Rn umkehrbar
eindeutig ist, gibt es eventuell Punkte x ∈
/ M , die durch G in die Menge B1 abgebildet
werden:
(G ∈ B1 ) = {x ∈ M ; G(x) ∈ B1 } + {x ∈ M ; G(x) ∈ B1 } =: I1 + I2
94
n
n
Rx
Ry
G
M*
M
B1
I1
B2
B
I2
Abbildung 17: Zum Transformationssatz für Dichten
mit
P G (B1 ) = P X (G ∈ B1 ) = P X (I1 ) + P X (I2 )
4. Wegen I2 ⊂ M ist—s. Punkt 2—
X
P (I2 ) =
Z
1I2 (x)f (x)dx = 0
5. Die Funktion G eingeschränkt auf die Menge I1 als Definitionsbereich ist eine Parametrisierung der Menge B1 , denn I1 ist das Urbild von B1 , G ist auf M umkehrbar
eindeutig und erfüllt mit den Voraussetzungen 2 und 3 alle für den Parametrisierungssatz erforderlichen Bedingungen, so dass mit der durch (13.130) gegebenen Funktion
g gilt
Z
Z
Z
g(y)dy = 1B1 (y)g(y)dy
f (x)dx =
P G (B1 ) = P X (I1 ) =
B1
I1
6. Zusammen ergibt das
P G (B) = P G (B1 ) + P G (B2 ) =
Z
(1B1 (y) + 1B2 (y))g(y)dy =
Z
1B (y)g(y)dy
♦
Beispiel 1: X1 und X2 seien stochastisch unabhängige und mit Parameter λ exponentiell verteilte Zufallsvariable. Welche Verteilung besitzt der Zufallsvektor Y = (Y1 , Y2 )
mit Y1 = X1 + X2 und Y2 = X1 /X2 ?
95
1. Die Zufallsvariablen X1 und X2 werden als Komponenten eines zweidimensionalen Zufallsvektors X aufgefasst, dessen Verteilung wegen der stochastischen
Unabhängigkeit die Dichte f (x1 , x2 ) = f1 (x1 )f2 (x2 ) besitzt, wobei die Marginaldichten die der Exponentialverteilung mit Parameter λ sind. Das ergibt

 λ2 e−λ(x1 +x2 ) falls x1 > 0
f (x1 , x2 ) =
und x2 > 0

0
sonst
2. Die Menge
M
= {(x1 , x2 ) ; f (x1 , x2 ) > 0}
= {(x1 , x2 ) ; x1 > 0, x2 > 0}
ist offen und zusammenhängend und erfüllt automatisch die Voraussetzung 1 des
Transformationssatzes.
3. Dem Zufallsvektor Y entspricht die Abbildung G mit
y1
y2
= G1 (x1 , x2 )
= G2 (x1 , x2 )
= x1 + x2
= xx21
(13.131)
Diese ist auf der Menge M wohldefiniert und differenzierbar. (Was außerhalb
von M passiert, ist für den Transformationssatz irrelevant).
4. Die Funktionaldeterminante ist
1
JG (x) = 1
x
2
auf M .
1 x1 + x2
6= 0
− xx12 = − x22
2
5. Die Umkehrabbildung G∗ erhält man durch Auflösen des Gleichungssystems
(13.131) nach den Variablen x1 und x2 :
y1 y2
x1 = 1 +
y
(13.132)
y 2
x2 = 1 +1y
2
Aus (13.132) und (13.131) ist offensichtlich, dass die Menge M auf die Menge
M ∗ = {(y1 , y2 ) ∈ R2 ; y1 > 0, y2 > 0} = M
abgebildet wird.
6. f (G∗ (y)) und JG (G∗ (y)) erhält man dadurch, dass in den Formeln für die Funktionen f (x1 , x2 ) und JG (x1 , x2 ) die Variablen x1 und x2 durch die Variablen y1
und y2 gemäß (13.132) oder (13.131) ersetzt werden. Damit erhält man hier für
y = (y1 , y2 ) ∈ M ∗
f (G∗ (y))
JG (G∗ (y))
96
= λ2 e−λy1
(1 + y2 )2
= −
y1
7. Die Dichte des Zufallsvektors G bzw. Y ist daher

1
 y1 λ2 e−λy1 (1+y2 )2
g(y1 , y2 ) =

0
durch
falls y1 > 0
und y2 > 0
sonst
gegeben.
Aus der letzten Formel ersieht man zusätzlich noch, dass g(y1 , y2 ) = g1 (y1 )g2 (y2 ) mit
den Dichten
y1 λ2 e−λy1 falls y1 > 0
g1 (y1 ) =
0
sonst
und
g2 (y2 ) =
1
(1+y2 )2
0
falls y2 > 0
sonst
d.h. dass die Zufallsvariablen Y1 und Y2 stochastisch unabhängig sind.
13.6.3 Berechnung der Verteilung von Zufallsvariablen
Beispiel 2: X1 und X2 seien stochastisch unabhängige und im Intervall (0, 1) uniform verteilte Zufallsvariable. Welche Verteilung besitzt dann die Zufallsvariable Y =
X1 X2 ?
Es ist Y = G1 (X1 , X2 ) mit G1 (x1 , x2 ) = x1 x2 , d.h. man muss die Verteilung einer
Abbildung G1 : R2 −→ R1 berechnen. Auf diese Situation ist der Transformationssatz
für Dichten nicht direkt anwendbar, da eine solche Funktion nicht umkehrbar eindeutig
auf einer offenen Menge M ⊂ R2 sein kann.
Um ihn anwenden zu können, muss man zunächst die Funktion G1 durch eine weitere
Funktion G2 : R2 −→ R zu einer Abbildung G = (G1 , G2 ) des R2 in sich ergänzen, die
alle Voraussetzungen des Transformationssatzes erfüllt. Man erhält dann die Dichte
g(y1 , y2 ) der Verteilung P G dieses Zufallsvektors.
Die gesuchte Verteilung P Y = P G1 ist gemäß dieser Konstruktion gerade die erste
Marginalverteilung von P G . Ihre Dichte erhält man, wie im Unterabschnitt 13.4 ausgeführt, durch das Auswerten des Integrals
Z
g1 (y1 ) = g(y1 , y2 )dy2 .
Fortsetzung des Beispiels: Wegen der Unabhängigkeit der beiden Variablen X1
und X2 besitzt P X die Dichte f (x1 , x2 ) = f1 (x1 )f2 (x2 ), wobei die Marginaldichten
fi (t) = 1(0,1) (t) jeweils die Dichten der U(0, 1)-Verteilung sind. Mit
M = {x = (x1 , x2 ) ∈ R2 ; 0 < x1 < 1 , 0 < x2 < 1 }
ist also
f (x) =
1
0
97
x∈M
sonst
Außerhalb der Menge M ist die Dichte f identisch Null.
Wir ergänzen die Funktion y1 = G1 (x1 , x2 ) = x1 x2 durch y2 = G2 (x1 , x2 ) = x2 .
Auflösung dieser beiden Gleichungen nach den yi ergibt für x2 = y2 6= 0 die Umkehrfunktion G∗ :
x1 = yy21
x2 = y2 ,
wobei die Menge M umkehrbar eindeutig auf die Menge
M ∗ = {y = (y1 , y2 ) ; 0 < y1 < y2 < 1}
abgebildet wird. Die Funktionaldeterminante der Abbildung G ist
x x1 = x2
JG (x) = 2
0
1 und Einsetzen ergibt JG (G∗ (y)) = y2 . Da die Funktion f auf M konstant gleich 1 ist,
braucht man nichts weiter auszurechnen und erhält die Dichte
1 · y12
für 0 < y1 < y2 < 1
g(y1 , y2 ) =
0
sonst
für die Verteilung P G .
Für y1 ≤R 0 und y1 ≥ 1 ist g(y1 , y2 ) = 0 und damit auch die erste Marginaldichte
g1 (y1 ) = g(y1 , y2 )dy2 = 0. Für 0 < y1 < 1 erhält man
g1 (y1 ) =
Z
1
y1
1
dy2 = − log y1 .
y2
13.6.4 Affin lineare Transformationen
Funktionen der Form
Yi = ai1 X1 + ai2 X2 + · · · + ain Xn + bi
mit i = 1, 2, . . . , n lassen sich mit den Vektoren



Y1
X1
 Y2 
 X2



Y = .  , X= .
 .. 
 ..
Yn
Xn
und der Matrix



A=




 ,

a11
a21
..
.
a12
a22
..
.
...
...
..
.
a1n
a2n
..
.
an1
an2
...
ann
98



b=






b1
b2
..
.
bn





in Matrizenschreibweise zu
Y = AX + b
zusammenfassen, wobei X und Y jetzt als Spaltenvektoren von Zufallsvariablen zu
verstehen sind. Es ist Y = G ◦ X mit G(x) = Ax + b und JG (x) = det(A). Falls die
Matrix A nichtsingulär ist, ist die Abbildung G auf dem ganzen Rn bijektiv mit der
Umkehrfunktion G∗ (y) = A−1 (y − b), wo A−1 die Inverse der Matrix A bezeichnet.
Man kann also M = M ∗ = Rn wählen und erhält als Dichte der Verteilung von Y
g(y) =
1
f (A−1 (y − b))
|det(A)|
13.6.5 Faltungen
Um die Verteilung der Summe Y = X1 + X2 zweier Zufallsvariabler zu berechnen,
ergänzt man die Funktion G1 (x1 , x2 ) = x1 + x2 wie im obigen Beispiel 2 durch
G2 (x1 , x2 ) = x2 und erhält die affin lineare Abbildung
1 1
x1
G(x) =
x2
0 1
mit der Umkehrabbildung
∗
G (y) =
1
0
−1
1
y1
y2
=
y1 − y2
y2
Die Dichte des Zufallsvektors G ist dann wegen det(A) = 1 gleich g(y1 , y2 ) = f (y1 −
y2 , y2 ) mit der Dichte f des Zufallsvektors X = (X1 , X2 ) und die Dichte der Verteilung
der Zufallsvariable Y ist die erste Marginaldichte von g:
Z
f (y1 − y2 , y2 )dy2
g1 (y1 ) =
R
Sind die beiden Zufallsvariablen X1 und X2 stochastisch unabhängig, so ist f (x1 , x2 ) =
f1 (x1 )f2 (x2 ) und man erhält die Dichte von Y durch Bilden des Faltungsintegrals
der Dichten f1 und f2 :
Z
g1 (t) =
f1 (t − s)f2 (s)ds
(13.133)
R
Diese Dichte heißt üblicherweise die Faltungsdichte und wird mit f1 ∗ f2 bezeichnet.
Beispiel: Die Zufallsvariablen X1 und X2 seien stochastisch unabhängig und exponentiell verteilt mit Parameter λ, d.h.
λe−λx für x > 0
f1 (x) = f2 (x) =
0
für x ≤ 0
99
Da f2 (x) = 0 für nichtpositive x, kann man die Integration in Formel (13.133) auf den
Bereich der positiven rellen Zahlen beschränken:
Z ∞
g1 (t) =
f1 (t − x)λe−λx dx
0
Ist t ≤ 0, so ist bei nichtnegativer Integrationsvariable x auch das Argument t − x der
Funktion f1 kleiner oder gleich Null und damit der Integrand Null, so dass
g1 (t) = 0 für t ≤ 0
Ist t > 0, so ist der Integrand nur für 0 ≤ x ≤ t von Null verschieden, so dass
Z t
Z t
−λ(t−x)
−λx
2
g1 (t) =
λe
λe
dx = λ
e−λt eλx e−λx dx
0
0
Z t
= λ2 e−λt
1dx = λ2 te−λt
0
13.7 Berechnungsmethoden
Dieser Abschnitt bildet den Abschluss des Themas Verteilungen. Wir zeigen an einem Beispiel einige mögliche Wege zur Berechnung der Verteilung einer Funktion von
Zufallsvariablen auf. Das Problem lautet:
Bestimme die Verteilung der Zufallsvariablen Y = X12 + X22 , wenn X1
und X2 stochastisch unabhängige und N (0, 1)-verteilte Zufallsvariable auf
einem Wahrscheinlichkeitsraum (Ω, A, P ) sind.
Nach dem Leitmotto There is more than one way to do it für die Programmiersprache
Perl [30] führen wir drei Lösungswege vor, die aber bei weitem nicht die einzigen sind.
Als Diagramm stellt sich die Situation wie folgt dar:
(Ω, A, P )
X = (X1 , X2 ) (R2 , B2 , P X )
H
HH
HH
HH
Y
G(x1 , x2 )
HH
HH
j ?
(R, B, . )
100
Dabei ist G(x1 , x2 ) = x21 +x22 und die Verteilung P X besitzt nach Satz 13.3 und (10.81)
die Dichte
1 − 1 (x21 +x22 )
e 2
f (x1 , x2 ) = f1 (x1 )f2 (x2 ) = ϕ(x1 )ϕ(x2 ) =
2π
Nach dem Kompositionssatz 13.2 sind die Verteilungen der Zufallsvariablen Y und
G identisch. Zu berechnen ist daher die Verteilung P G bezüglich des Wahrscheinlichkeitsraums (R2 , B2 , P X ).
13.7.1 Berechnung der Verteilungsfunktion
Bezeichnet Br die Kreisscheibe mit Radius r, so ist
∅
2
2
(G ≤ t) = {(x1 , x2 ) ; x1 + x2 ≤ t} =
B√t
und die Verteilungsfunktion
für t < 0
für t ≥ 0
F G (t) = P G (−∞, t] = P X (G ≤ t)
der Verteilung P G besitzt den Wert F G (t) = 0 für t < 0 und
Z
G
X
√
f (x1 , x2 )d(x1 , x2 )
F (t) = P (B t ) =
B√t
für t ≥ 0.
Wie im Beispiel 2 des Abschnitts 12.2 über Zufallsvariable bereits berechnet, hat dieses
Integral den Wert
√ 2
1
1
F G (t) = 1 − e− 2 ( t) = 1 − e− 2 t
Die Verteilung von G und somit die von Y ist daher gemäß (11.86) die Exponentialverteilung mit dem Parameter λ = 1/2.
13.7.2 Anwendung des Faltungsintegrals
Die Zufallsvariablen Yi = Xi2 sind nach Satz 13.4 ebenfalls stochastisch unabhängig.
Sind g1 und g2 die Dichten der Verteilungen dieser Zufallsvariablen, besitzt die Verteilung von Y = Y1 + Y2 gemäß (13.133) die Faltungsdichte
Z
f Y (t) = g1 ∗ g2 (t) = g1 (t − x) g2 (x)dx
(13.134)
Dazu müssen zunächst diese Dichten berechnet werden. Wir beginnen mit den Verteilungsfunktionen:
F Yi (t) = P (Yi ≤ t) = P (Xi2 ≤ t)
Für t < 0 ist (Xi2 ≤ t) = ∅, weil die Zufallsvariable Xi2 nur nichtnegative Werte
annehmen kann, und daher F Yi (t) = 0.
Ist t ≥ 0, so gilt
√
√
√
√
(Xi2 ≤ t) = {ω ; Xi2 (ω) ≤ t} = ω ; − t ≤ Xi (ω) ≤ t} = (− t ≤ Xi ≤ t)
101
und
√
√ √
√
√ √
F Yi (t) = P (− t ≤ Xi ≤ t) = P (Xi ∈ [− t, t]) = P Xi [− t, t]
P Xi ist die N (0, 1)-Verteilung mit der stetig differenzierbaren Verteilungsfunktion
Φ(t), so dass nach (11.94)
√
√
√ √
F Yi (t) = P Xi [− t, t] = Φ( t) − Φ(− t)
Die Dichte gi erhält man in diesem Fall durch Ableiten der Verteilungsfunktion F Yi .
Für t < 0 ist gi (t) = 0 und für t ≥ 0 nach der Kettenregel für die Differentiation
gi (t) =
√
√ 1
√
d
1
d √
Φ( t) − Φ(− t) = ϕ( t) √ − ϕ(− t) √
dt
dt
2 t
−2 t
Da die Dichte ϕ —siehe Formel 10.81— eine gerade Funktion ist, d.h. ϕ(−x) = ϕ(x),
gilt weiter
√
√
1
1 1
1
gi (t) = √ (ϕ( t) + ϕ( t)) = √ √ e− 2 t
2 t
t 2π
Für die Faltungsdichte (13.134) ergibt sich wie im Beispiel des Abschnitts 13.6.5, dass
f Y (t) = 0 für nichtpositive t und im Bereich t > 0
f Y (t) =
Z
0
t
√
1
1
1
1
1 1
1 1 1
√ e− 2 (t−x) √ √ e− 2 x dx = e− 2 t
2
π
x 2π
t − x 2π
Die Variablensubstitution y =
dy
2
dx = t liefert
Z
t
0
so dass
p
1
(t − x)x
dx =
Z
1
−1
p
2
tx
0
t
p
1
(t − x)x
− 1 mit der Umkehrfunktion x =
1
1−
Z
y2
dy = arcsin(1) − arcsin(−1) =
t
2 (y
dx
+ 1) und
π
π
− (− ) = π
2
2
1 −1t
e 2
2
d.h. die Dichte der Exponentialverteilung mit dem Parameter λ = 1/2.
f Y (t) =
13.7.3 Anwendung des Transformationssatzes
Wenn man die Funktion y1 = G1 (x1 , x2 ) = x21 + x22 durch y2 = G2 (x1 , x2 ) = x22 zu
einer Abbildung G = (G1 , G2 ) : R2 −→ R2 ergänzt, so erfüllt diese zunächst einmal
nicht die Voraussetzungen des Transformationssatzes für Dichten.
1. Die Abbildung G besitzt die Funktionaldeterminante
JG (x1 , x2 ) = det
102
2x1
0
2x2
2x2
= 4x1 x2
die auf der Menge
N = (x1 , x2 ) ∈ R2 ; x1 = 0 oder x2 = 0
verschwindet. Dies stellt jedoch kein großes Problem dar, denn diese Menge —
das Achsenkreuz eines cartesischen Koordinatensystems im R2 — ist eine Nullmenge.
2. Alle Punkte (x1 , x2 ) 6∈ N werden durch G wegen x21 > 0 und x22 > 0 in die Menge
M ∗ = (y1 , y2 ) ∈ R2 ; 0 < y2 < y1
abgebildet. G ist jedoch nicht eindeutig umkehrbar, denn zu jedem (y1 , y2 ) ∈ M ∗
gibt es vier verschiedene Urbildpunkte
√
x11 = y1 − y2
√
x12 = y2
√
x21 = − y1 − y2
√
x22 = y2
√
x31 = − y1 − y2
√
x22 = − y2
√
x41 = y1 − y2
√
x42 = − y2
(13.135)
je einen in einem der vier offenen Quadranten M1 , M2 , M3 und M4 des R2
Wenn man jedoch die Abbildung auf einen dieser Quadranten einschränkt: G :
Mi −→ M ∗ , so besitzt sie dort eine Umkehrfunktion G∗i : M ∗ −→ Mi die
durch die entsprechende Gleichung aus (13.135) gegeben ist und es sind für diese
eingeschränkte Abbildung alle Voraussetzungen des Transformationssatzes erfüllt
(s. Abb. 18).
Das Urbild einer Borelschen Menge B ⊂ M ∗ unter G lässt sich in vier Anteile zerlegen,
die in den verschiedenen Quadranten liegen:
(G ∈ B) = I1 + I2 + I3 + I4
mit
Ii = (G ∈ B) ∩ Mi = {(x1 , x2 ) ∈ Mi ; G(x1 , x2 ) ∈ B}
Daher ist
P G (B) = P (G ∈ B) =
4
X
P (Ii )
i=1
Da durch G und G∗i die Menge Ii eineindeutig auf B abgebildet wird, ist
Z
Z
f (x)dx =
gi (y)dy
P (Ii ) =
B
Ii
mit
gi (y) = f (G∗i (y))
103
1
|JG (G∗i (y))|
Abbildung 18: Anwendung des Transformationssatzes
Unabhängig vom Quadranten gilt stets x21 + x22 = y1 , so dass
1 − 1 y1
e 2
2π
f (G∗i (y) =
Ferner ist
|JG (G∗i (y)|
q
√
√
√
√
= |4 · (± y1 − y2 )(± y2 )| = 4 y1 − y2 y2 = 4 y1 y2 − y22
denn durch die Bildung des Absolutbetrages geht die Information über das Vorzeichen
verloren. Die Funktionen gi (y) sind also alle gleich:
1
gi (y1 , y2 ) = e− 2 y1
8π
Damit ergibt sich
G
P (B) =
Z X
4
gi (y)dy =
B i=1
mit
g(y1 , y2 ) =
Z
p
1
y1 y2 − y22
4g1 (y)dy =
B
1 − 1 y1 1
1
p
e 2
2
π y1 y2 − y22
Z
g(y)dy
B
(13.136)
Das Urbild einer Menge B, die zu M ∗ disjunkt ist, ist entweder leer oder in der
Nullmenge N enthalten, so dass für eine derartige Menge
104
P G (B) = P (G ∈ B) =
Z
f (x)dx = 0
(G∈B)
Setzt man g(y) = 0 auf M ∗ und gleich (13.136) auf M ∗ , so gilt für beliebige Integrationsbereiche B
Z
P G (B) =
g(y)dy
B
d.h. g(y) ist Dichte der Verteilung P G des Zufallsvektors G.
Da jedoch nicht die Verteilung des Zufallsvektors sondern die seiner ersten Komponente
G1 zu bestimmen ist, muss noch die erste Marginaldichte
Z
g1 (y1 ) = g(y1 , y2 )dy2
berechnet werden.
Ist y1 ≤ 0, so liegt der Punkt (y1 , y2 ) in M ∗ . Für solche Punkte ist der Integrand
g(y1 , y2 ) und damit auch g1 (y1 ) gleich Null.
Für positive Argumente y1 liegt (y1 , y2 ) nur dann in der Menge M ∗ , wenn 0 < y2 < y1 ,
so dass nach (13.136)
g1 (y1 ) =
Z
y1
g(y1 , y2 )dy2
Z
1
1 − 1 y1 1 y1
p
e 2
dy2
2
π 0
y1 y2 − y22
0
=
Wie im vorhergehenden Abschnitt 13.7.2 vorgeführt, hat das letzte Integral den Wert
π, so dass das Ergebnis dieser Berechnungsvariante ebenfalls lautet, dass die Zufallsvariable X12 + X22 mit Parameter 1/2 exponentiell verteilt ist.
105
14 Erwartungswert und Varianz
Der Erwartungswert einer Zufallsvariablen X : Ω −→ R auf einem Wahrscheinlichkeitsraum (Ω, A, P ) wurde in dieser Vorlesung bisher definiert als der Mittelwert der
Verteilung P X dieser Zufallsvariablen:
P
y f X (y) falls P X diskret mit WF f X
X
R y∈X
EX = m1 (P ) =
X
yf (y)dy
falls P X absolutstetig mit Dichte f X
(14.137)
In diesem Kapitel werden die Konzepte Erwartungswert und Mittelwert auf alle Typen von Verteilungen erweitert und es werden Regeln für die Berechnung des
Erwartungswerts einer Funktion Y = G ◦ X von Zufallsvariablen hergeleitet.
Als Ansatzpunkt für Definition und Rechenregeln dient uns dabei die Formel (8.71)
X
X(ω) P {ω}
EX =
ω∈Ω
die im Abschnitt 8.3 für diskrete Wahrscheinlichkeitsräume (Ω, 2Ω , P ) bewiesen wurde.
Als Verallgemeinerung dieser Summe führen wir im folgenden Abschnitt für allgemeine
Wahrscheinlichkeitsräume (Ω, A, P ) das Konzept des P -Integrals ein.
14.1 Das P-Integral einer Zufallsvariablen
Wie beim Lebesgue-Integral beginnt man bei der Definition eines Integrals einer Zufallsvariablen X : Ω −→ R auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit einem
möglichst einfachen Typ von Funktionen, mit dem man in einem weiteren Schritt allgemeine Zufallsvariablen approximieren kann.
14.1.1 Treppenfunktionen
Eine Funktion X : Ω −→ R heißt eine Treppenfunktion, wenn es eine Partition
(Ak , k ∈ I) von Ω (s. Definition 4.2) mit einer endlichen oder abzählbar unendlichen
Indexmenge I und reellen Zahlen xk , k ∈ I, gibt, so dass X(ω) = xk für ω ∈ Ak .
6
x4
x2
x1 = x3
-Ω
A1
A2
A3
A4
Abbildung 19: Eine Treppenfunktion
106
Eine derartige Funktion kann man mit Hilfe der Indikatorfunktion in geschlossener
Form darstellen:
X
X(ω) =
xk 1Ak (ω)
(14.138)
k∈I
Ist ω ∈ Ak0 , so ist 1Ak0 (ω) = 1 und — da die Ak paarweise disjunkt sind — 1Ak (ω) = 0
für alle k 6= k0 , so dass die rechte Seite von (14.138) den Wert xk0 annimmt.
Wie in der Skizze 19 veranschaulicht schließen wir nicht aus, dass die Funktionswerte
xk von X auf mehreren der Mengen Ak gleich sind. Wenn man derartige Mengen
jeweils zu einer Menge zusammenfasst erhält man eine Darstellung der Form (14.138),
in der die Zahlen xk paarweise verschieden sind. Eine derartige Darstellung nennen
wir im folgenden eine Normaldarstellung der Treppenfunktion X.
In diesem Fall ist X = {xk ; k ∈ I} der abzählbare Wertebereich der Funktion X
und (X = xk ) = Ak . Da die Mengen Ak in der σ-Algebra A liegen, ergibt sich aus
Definition 8.1, dass eine Treppenfunktion nichts anderes ist als eine Zufallsvariable mit
diskreter Verteilung. Die Normaldarstellung lässt sich mit diesen Bezeichungen auch
als
X
X(ω) =
y · 1(X=y) (ω)
(14.139)
y∈X
schreiben.
14.1.2 Das P-Integral einer Treppenfunktion
Eine Treppenfunktion (14.138) heißt P-integrabel, wenn
X
|xk | P (Ak ) < ∞
(14.140)
k∈I
Ist die Treppenfunktion P -integrabel, so kann man zeigen, dass für jede andere Darstellung
X
yi 1Bj (ω)
X(ω) =
j∈J
bei der die Mengen Bj ∈ A nicht einmal paarweise disjunkt sein müssen, die Gleichung
X
X
yj P (Bj )
(14.141)
xk P (Ak ) =
j∈J
k∈I
gilt, d.h. der Wert der Summe ist nicht von der speziellen Darstellung sondern nur von
der Funktion X und der Wahrscheinlichkeit P abhängig. Daher legen wir fest:
Definition 14.1 Ist die Treppenfunktion (14.138) P -integrabel, so heißt
Z
X
xk P (Ak )
X(ω) P (dω) :=
k∈I
das P-Integral der Treppenfunktion X.
107
R
R
An Stelle von X(ω) P (dω) schreiben wir auch kurz X dP .
Wenn wir gemäß (14.141) die Normaldarstellung (14.139) von X verwenden, so ist
Z
X
X
y P X {y}
y P (X = y) =
X dP =
y∈X
y∈X
=
X
X
y f (y)
y∈X
= m1 (P X )
R
Das P -Integral X dP ist also nichts anderes als der Erwartungswert der diskreten
Zufallsvariablen X:
Z
X dP = EP X
14.1.3 Rechenregeln
1. Die Funktion X(ω) = 1 ist die Treppenfunktion, die auf der gesamten Menge Ω
den Wert 1 annimmt. Daher
Z
1 dP = P (Ω) = 1
(14.142)
2. Nach der Dreiecksungleichung für den Absolutbetrag ist
Z
Z
X
X
X dP = x
P
(A
)
≤
|x
|
P
(A
)
=
|X| dP
k
k k
k
k∈I
(14.143)
k∈I
mit der Funktion |X|(ω) := |X(ω)|
3. Linearkombinationen: Sind
X
X(ω) =
xk 1Ak (ω)
(14.144)
yl 1Bl (ω)
(14.145)
k
X
Y (ω) =
l
Treppenfunktionen mit Partitionen (Ak ) und (Bl ), so bilden die Mengen
Ckl = Ak ∩ Bl
wieder eine Partition (s. Abb. 20) und die Funktionen X und Y besitzen die
Darstellungen
XX
X(ω) =
(14.146)
xk 1Ckl (ω)
Y (ω)
=
k
l
k
l
XX
108
yl 1Ckl (ω)
(14.147)
A
k
C
km
Bm
Abbildung 20: Partitionen für die Additions- und Produktregel
Die Funktion Z(ω) = a X(ω) + b Y (ω) mit reellen Zahlen a und b ist auf den
Mengen Ckl jeweils konstant:
XX
(a xk + b yl ) 1Ckl (ω)
Z(ω) =
k
l
Sind X und Y beide P -integrabel, so gilt
Z
Z
XX
XX
a X dP + b Y dP = a
xk P (Ckl ) + b
yl P (Ckl )
k
=
k
=
l
XX
Z
k
l
(a xk + b yl ) P (Ckl )
l
Z dP
D.h. Z = aX + bY ist dann ebenfalls P -integrabel und es gilt
Z
Z
Z
(aX + bY ) dP = a X dP + b Y dP
(14.148)
4. Produkte von Treppenfunktionen: Sind (14.144) und (14.145) die Normaldarstellungen der Treppenfunktionen X und Y und sind X und Y stochastisch
109
unabhängig, so gilt wegen Ak = (X = xk ) und Bl = (Y = yl ), dass
P (Ckl ) = P (Ak ∩ Bl ) = P (X = xk ) ∩ (Y = yl )
= P (X = xk ) P (Y = yl ) = P (Ak ) P (Bl )
Für die Funktion Z(ω) = X(ω) Y (ω) mit der Darstellung
XX
Z(ω) =
(xk yl ) 1Ckl (ω)
k
folgt daraus
Z
Z
X dP
Y dP
=
X
k
=
=
xk P (Ak ) ·
XX
k
Z
l
X
yl P (Bl )
l
xk yl P (Ak ) P (Bl ) =
l
XX
k
xk yl P (Ckl )
l
Z dP
Also: Sind X und Y stochastisch unabhängige P -integrable Treppenfunktionen,
so ist XY P -integrabel und es gilt
Z
Z
Z
XY dP = X dP Y dP
(14.149)
5. Eine Zufallsvariable X heißt P-fast überall nichtnegativ, wenn X(ω) ≥ 0
für alle ω mit der eventuellen Ausnahme der Elemente einer Menge N ⊂ Ω mit
P (N ) = 0 gilt. Wir schreiben dafür
X(ω) ≥ 0 (P -f.ü.)
Bei einer Treppenfunktion X bedeutet das, dass bei jedem Summanden in der
Darstellung (14.138) entweder der Funktionswert xk nichtnegativ oder die Wahrscheinlichkeit der Menge Ak gleich Null (oder beides) ist. Daraus folgt, dass die
Summe in Definition 14.1 nichtnegativ ist oder, kurz zusammengefasst
R
X(ω) ≥ 0 (P -f.ü.) ⇒
X dP ≥ 0
(14.150)
14.1.4 Das P -Integral einer Zufallsvariablen.
Ist X eine (beliebige) Zufallsvariable, so sind die Mengen
Ank = X ∈ ( 2kn , k+1
2n ]
= {ω ∈ Ω ; 2kn < X(ω) ≤ k+1
2n }
mit n = 0, 1, 2, . . . und k = . . . , −2, −1, 0, 1, 2, . . . als Urbilder der Intervalle
k k+1
n
,
Ik =
2n 2n
110
Ereignisse aus A und bei festem n für verschiedene k paarweise disjunkt mit
Ω.
Die Folge der Treppenfunktionen
Xn (ω) =
X k
1An (ω)
2n k
P
k
Ank =
(14.151)
k
konvergiert für n → ∞ gleichmäßig gegen X, denn für alle k und alle ω ∈ Ank ist
k
k
1
< X(ω) ≤ n + n
2n
2
2
und daher
|X(ω) − Xn (ω)| = |X(ω) −
k
1
|≤ n
n
2
2
Für diese Treppenfunktionen gilt der
R
Satz 14.1 Existiert für ein n0 das P -Integral Xn0 (ω) P (dω), dann existieren die P Integrale aller dieser Treppenfunktionen und die Folge dieser P -Integrale konvergiert:
Z
Xn (ω) P (dω) =: IX
lim
n→∞
Ist (Yn ) eine weitere Folge von Treppenfunktionen, die gleichmäßig gegen X konvergiert, so existieren die P -Integrale aller dieser Treppenfunktionen und ihre Folge konvergiert ebenfalls gegen IX .
Definition 14.2 Der Limes IX Raus dem obigen Satz heißt
R das P-Integral der Zufallsvariablen X und wird mit X(ω) P (dω) oder kurz X dP bezeichnet.
Die Rechenregeln (14.143), (14.148), (14.149) und (14.150) für Treppenfunktionen
bleiben bei der Limesbildung erhalten. Sie gelten auch für die P -Integrale von beliebigen P -integrablen Zufallsvariablen.
14.1.5 Zusammenhang mit dem Lebesgue-Integral
Ist P eine absolutstetige Verteilung auf dem Rn mit der Dichte f (y) und X : Rn −→ R
eine Zufallsvariable, so ist das P -Integral von X ein spezielles Lebesgue-Integral:
Z
Z
X(y) f (y)dy
(14.152)
X(y) P (dy) =
Rn
Das Symbol P (dy) ist also in dieser Situation einfach als f (y)dy zu lesen.
Wir skizzieren den Beweis dieser Aussage ohne auf technische Details wie die Vertauschbarkeit von Summen oder Limites mit dem Integralzeichen einzugehen.
1. Ist X eine P -integrable Treppenfunktion,
X
X(y) =
yk 1Bk (y) ,
k
111
so gilt
Z
X(y) P (dy)
=
X
yk P (Bk ) =
k
=
Z
X
k
X
!
yk
Z
1Bk (y) f (y)dy
yk 1Bk (y) f (y)dy =
k
Z
X(y) f (y)dy
2. Ist X eine beliebige P -integrable Zufallsvariable und (Xn ) die Folge der Treppenfunktionen (14.151), die X gleichmäßig approximieren, so folgt aus Punkt 1, angewandt
auf Xn , und dem Satz von Lebesgue, dass
Z
Z
Z
Xn (y)f (y)dy
Xn (y) P (dy) = lim
X(y) P (dy) = lim
n→∞
n→∞
Z
Z
=
( lim Xn (y))f (y)dy = X(y)f (y)dy
n→∞
14.1.6 Komposition von Zufallsgrößen.
Der für das Folgende wichtigste Satz ist der über den Zusammenhang der P -Integrale
der Zufallsvariablen Y und G, wenn Y (ω) = G(X(ω)) mit einem Zufallsvektor X, also
in der durch das nachstehende Diagramm beschriebenen Situation.
X
(Ω, A, P ) H
HH
HH
HH
Y =G◦X
-
H
(Rn , Bn , P X )
G
HH
j
H
?
(R, B, P Y )
Satz 14.2 Ist G P X -integrabel, dann ist Y P -integrabel und es gilt
Z
Z
Y (ω) P (dω) = G(y) P X (dy)
Beweis. Wie oben übergehen wir wieder die Details.
1. Ist
X
G(y) =
gk 1Bk (y)
(14.153)
k
eine Treppenfunktion, dann auch Y , denn Y (ω) = G(X(ω)) nimmt auf den Mengen
Ak = (G ∈ Bk ) jeweils konstant den Wert gk an. Für ein P X -integrables G folgt daraus
Z
Z
X
X
X
gk P (Ak ) = Y (ω) P (dω)
gk P (X ∈ Bk ) =
gk P X (Bk ) =
G(y) P X (dy) =
k
k
k
112
2. Der allgemeine Fall von (14.153) folgt wieder aus dem Grenzübergang
Z
Z
Gn (y) P X (dy)
G(y) P X (dy) = lim
n→∞
Z
Z
Gn (X(ω)) P (dω) = G(X(ω) P (dω)
= lim
n→∞
Z
=
Y (ω) P (dω)
mit Treppenfunktionen Gn , die die Zufallsvariable G gleichmäßig approximieren.
♦
14.1.7 Die Momente einer eindimensionalen Verteilung
Ist P eine absolutstetige eindimensionale Verteilung mit der Dichte f (x) und ist die
Funktion Gk (x) = xk P -integrabel, so stellt nach (14.152) das P -Integral
Z
Z
k
x P (dx) = xk f (x)dx
gerade das k-te Moment der Verteilung P dar.
Das Gleiche gilt für den Fall, dass P eine diskrete Wahrscheinlichkeitsverteilung auf
einer abzählbaren Menge X ⊂ R mit der Wahrscheinlichkeitsfunktion f (x) ist. In
diesem Fall ist
X
y k 1{y} (x)
Gk (x) =
y∈X
eine Treppenfunktion und
Z
X
X
y k f (y)
y k P {y} =
xk P (dx) =
y∈X
y∈X
Als Verallgemeinerung unserer bisherigen Definitionen legen wir daher fest:
Definition 14.3 Ist P eine eindimensionale Verteilung und ist die Funktion x 7−→ xk
P -integrabel, so heisst
Z
mk (P ) =
xk P (dx)
(14.154)
das k-te Moment der Verteilung P .
Speziell m1 (P ) nennen wir wieder den Mittelwert.
Für die Funktionen Hk (x) = (x − m1 (P ))k erhält man wie oben
R
Z
k
k
P(x − m1 (P )) fk(x)dx falls P absolutstetig
(x − m1 (P )) P (dx) =
falls P diskret
y (y − m1 (P )) f (y)
und daher die
113
Definition 14.4 Ist P eine eindimensionale Verteilung und ist die Funktion x 7−→
(x − m1 (P ))k P -integrabel, so heisst
Z
m̂k (P ) = (x − m1 (P ))k P (dx)
(14.155)
das k-te zentrale Moment der Verteilung P .
Speziell m̂2 (P ) nennen wir wieder die Varianz der eindimensionalen Verteilung P .
14.2 Der Erwartungswert einer Zufallsvariablen
In der Wahrscheinlichkeitsrechnung nennt man das P -Integral einer Zufallsvariablen X
auf einem Wahrscheinlichkeitsraum (Ω, A, P ) üblicherweise den Erwartungswert von
X und bezeichnet ihn mit EP X. Falls aus dem Zusammenhang eindeutig hervorgeht,
bezüglich welcher Wahrscheinlichkeit P dieser Erwartungswert zu verstehen ist, lässt
man den Index meist weg:
Z
EX = EP X =
X(ω) P (dω)
(14.156)
Die Definition (14.137), die wir bisher verwendet haben, ist in den Fällen, dass P
diskret oder absolutstetig ist, nach wie vor gültig. Mit der Funktion G(x) = x ist
Y (ω) := G(X(ω)) = X(ω). Der Satz 14.153 liefert mit diesem Y
Z
Z
X(ω) P (dω) = x P X (dx)
so dass wir wegen Definition 14.3 sagen können:
Satz 14.3 Der Erwartungswert einer Zufallsvariablen ist der Mittelwert der Verteilung dieser Zufallsvariablen:
EX = m1 (P X )
Allgemeiner erhält man für k = 1, 2, 3, . . . und Gk (x) = xk bzw. Gk (X(ω)) = X k (ω)
die Beziehung
E(X k ) = mk (P X )
(14.157)
zwischen den Momenten und den Erwartungswerten von Potenzen einer Zufallsvariablen X.
Anmerkung zur Schreibweise: Anstelle von E(X k ) schreiben wir in der Folde kürzer
EX k . Um Zweideutigkeiten zu vermeiden, verwenden wir in den Fällen, in denen nicht
der Erwartungswert der k-ten Potenz der Zufallsvariablen sondern die k-te Potenz
ihres Erwartungswerts gemein ist, die Schreibweise (EX)k .
114
14.2.1 Rechenregeln für den Erwartungswert
Mittels des E-Operators formuliert lauten die Rechenregeln 14.1.3 für das P -Integral
von Zufallsvariablen wie folgt:
Regel 1: Für die konstante Zufallsvariable I(ω) = 1 gilt
E1 = 1
(14.158)
Regel 2: Für den Betrag |X|(ω) := |X(ω)| ist
|EX| ≤ E|X|
(14.159)
Regel 3: Sind X und Y P -integrable Zufallsvariable auf einem Wahrscheinlichkeitsraum
(Ω, A, P ), so ist auch die Linearkombination Z(ω) = aX(ω) + bY (ω) + c P integrabel und es gilt
E(aX + bY + c) = a EX + b EY + c
(14.160)
Die Zahl c ist dabei als die konstante Zufallsvariable I multipliziert mit c zu
verstehen.
Regel 4: Sind X und Y P -integrable stochastisch unabhängige Zufallsvariable
auf einem Wahrscheinlichkeitsraum (Ω, A, P ), so ist auch das Produkt Z(ω) =
X(ω)Y (ω) P -integrabel und es gilt
E(XY ) = (EX)(EY )
(14.161)
Regel 5: Ist die Zufallsvariable X P -integrabel und P -fast überall nichtnegativ, dann
ist ihr Erwartungswert nichtnegativ:
EX ≥ 0
falls
X(ω) ≥ 0 (P -f.ü.)
(14.162)
Regel 6: Gilt für zwei Zufallsvariable X und Y , dass mit der eventuellen Ausnahme
der ω aus einer Menge N ⊂ Ω mit P (N ) = 0 stets X(ω) ≤ Y (ω), so ist die
Differenz Y − X P -fast überall nichtnegativ und die Regeln 3 und 5 ergeben
zusammen
EX ≤ EY falls X(ω) ≤ Y (ω) (P -f.ü.)
(14.163)
14.2.2 Funktionen von Zufallsvariablen
Eine häufig auftretende Aufgabe ist die Berechnung des Erwartungswerts einer Funktion von einer oder mehreren Zufallsvariablen.
Ist X = (X1 , X2 , . . . , Xn ) ein Zufallsvektor, dessen n-dimensionale Verteilung P X
eine Dichte f (x) besitzt, und Y = G(X1 , X2 , . . . , Xn ) = G ◦ X eine Funktion der
Komponenten dieses Zufallsvektors, so gilt nach (14.153) und (14.152)
R
R
E Y = R G(X(ω))P (dω) = G(x)P X (dx)
(14.164)
=
G(x)f (x)dx
115
Um den Erwartungswert der Zufallsvariablen Y = G ◦ X zu erhalten, muß man also nicht die Verteilung P Y (= P G ) — etwa nach dem Transformationssatz — und
anschließend den Mittelwert
m1 (P Y ) dieser Verteilung berechnen. Es genügt, das LeR
besguesche Integral G(x)f (x)dx auszuwerten.
Diese Vorgehensweise ist auch dann möglich, wenn die Verteilung P Y gar keine Dichte
besitzt wie im folgenden
Beispiel 1: In einer Eisdiele wird an jedem Abend bei der Eisfabrik die gesamte Menge
q an Eis für den nächsten Tag bestellt. Der Einkaufspreis sei p1 Euro pro Mengeneinheit. Die Tagesnachfrage ist — unter anderem wetterbedingt — zufällig. Wir nehmen
an, daß es sich um eine exponentiell mit Parameter λ verteilte Zufallsvariable X handelt. Gemäß den gesetzlichen Vorschriften darf Eis, das am Abend noch nicht verkauft
ist, nicht gelagert, sondern muss vernichtet werden. Welche Menge an Eis muss —
bei einem Verkaufspreis von p2 Euro pro Mengeneinheit — bestellt werden, damit der
mittlere Gewinn maximal wird?
Der Gewinn in Abhängigkeit von der Nachfrage X und der Bestellmenge q ist die
Zufallsvariable Y = p2 min(X, q) − p1 q, die nach Regel (14.160) den Erwartungswert
EY = p2 E(min(X, q)) − p1 q
besitzt. Für die Zufallsvariable Z(ω) = G(X(ω)) mit G(x) = min(x, q) ist
(X ≤ t) falls t < q
(Z ≤ t) =
Ω
falls t ≥ q
denn Z(ω) nimmt für alle ω nur Werte an, die kleiner oder gleich q sind und für
X(ω) < q ist Z(ω) = X(ω).
Die Verteilungsfunktion F Z der Verteilung von Z ist damit gleich
P (X ≤ t) = F X (t) für t < q
F Z (t) = P (Z ≤ t) =
P (Ω)
=
1
für t ≥ q
Speziell an der Stelle t = q ist
F Z (q − 0) = lim F Z (t) = lim F X (t) = 1 − e−q < 1
t%q
t%q
und
F Z (q) = 1
F Z ist an dieser Stelle nicht stetig, es gibt keine Dichte und die Berechnung des Erwartungswerts gemäß Formel (14.157) scheidet aus.
Die Formel (14.164) dagegen liefert
116
EZ
=
Z
Z
min(x, q)f X (x)dx
∞
min(x, q)λe−λx dx
Z q
Z ∞
=
x λe−λx dx +
q λe−λx dx
=
0
0
=
und damit
q
1
1 − e−λq
λ
p2
1 − e−λq − p1 q =: g(q)
λ
Zur Berechnung der Maximalstelle setzen wir die Ableitung g 0 (q) der Funktion g gleich
Null:
g 0 (q) = p2 e−λq − p1 = 0
EY =
was die Maximalstelle
ergibt.
1
q = ln
λ
p2
p1
Beispiel 2: Die Verteilung der Zufallsvariablen Y = X12 + X22 mit N (0, 1)-verteilten
Variablen Xk lässt sich nicht immer bestimmen, da man ohne zusätzliche Annahmen
die (zweidimensionale) Verteilung des Vektors X = (X1 , X2 ) nicht zur Verfügung hat.
Mit den oben entwickelten Hilfsmitteln kann man aber wenigstens den Erwartungswert
berechnen. Es ist EY = E(X12 ) + E(X22 ) und wegen Xk2 = G(Xk ) mit G(t) = t2 weiter
Z
Z
Z
E(Xk2 ) = G(t)P X (dt) = t2 P X (dt) = m2 (P X ) = m2 (N (0, 1)) = t2 ϕ(t)dt = 1
Beispiel 3: Zur Berechnung des Erwartungswerts der Zufallsvariablen Y = max(X1 , X2 ,
. . . , Xn ) mit n stochastisch unabhängigen U(0, 1)-verteilten Zufallsvariablen Xk könnte
man natürlich analog zur obigen Vorgehensweise das Integral
Z
max(x1 , x2 , . . . , xn )f (x1 , x2 , . . . , xn )d(x1 , x2 , . . . , xn )
auswerten. Einfacher ist hier der Weg über die Verteilung der Zufallsvariable Y .
Wie in den Übungen behandelt, besitzt die Verteilung von Y die Verteilungsfunktion
F Y (t) = F X1 (t)F X2 (t) · · · F Xn (t)
wobei die Verteilungsfunktionen F Xk (t) alle gleich der Verteilungsfunktion der U(0, 1)Verteilung sind:

 0 für t ≤ 0
t für 0 < t < 1
F Xk (t) =

1 für t ≥ 1
117
Damit ist

 0
tn
F Y (t) =

1
für t ≤ 0
für 0 < t < 1
für t ≥ 1
Diese Verteilungsfunktion ist stückweise stetig differenzierbar. Die Dichte fn der Verteilung von Y erhält man also durch Ableiten von F Y .

für t ≤ 0
 0
ntn−1 für 0 < t < 1
fn (t) =

0
für t ≥ 1
Der Erwartungswert von Y ist gemäß Satz 14.3 gleich dem Mittelwert der Verteilung
von Y .
Z
Z 1
Z 1
n
EY = m1 (P Y ) = tfn (t)dt =
tntn−1 dt =
ntn dt =
n
+
1
0
0
14.3 Varianz und Kovarianz
In Definition 14.155 wurde die Varianz einer eindimensionalen Verteilung P in Verallgemeinerung der früher eingeführten Formeln als
Z
2
m̂2 (P ) = (x − m1 (P )) P (dx)
(14.165)
festgelegt.
Ist X : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit
der Verteilung P X , so ist nach Satz 14.3 ihr Erwartungswert gleich dem Mittelwert
ihrer Verteilung: EX = m1 (P X ) und unter Verwendung der Funktion G(x) = (x −
EX)2 lässt sich die Varianz dieser Verteilung in der Form
Z
X
m̂2 (P ) = G(x)P X (dx)
schreiben.
Mit der zusammengesetzten Zufallsvariablen Y = G ◦ X = (X − EX)2 folgt aus Satz
14.153 weiter, dass
Z
X
m̂2 (P ) = Y (w)P (dω)
und dieses P -Integral ist in anderer Bezeichnung der Erwartungswert:
m̂2 (P X ) = EY = E(X − EX)2
Dies führt uns zu der
Definition 14.5 Ist X : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und existieren die entsprechenden Erwartungswerte, so heißt
varP (X) = EP (X − EP X)2
die Varianz der Zufallsvariablen X.
118
Wie schon beim Erwartungswert vereinbart, lassen wir den Index P weg, wenn aus
dem Zusammenhang eindeutig hervorgeht, bezüglich welcher Wahrscheinlichkeit die
Varianz gebildet wird und schreiben
var(X) = E(X − EX)2
(14.166)
14.3.1 Die Ungleichung von Tschebyscheff
Da die Zufallsvariable Y (ω) = (X(ω) − EX)2 für alle ω ∈ Ω nichtnegative Werte
annimmt, folgt aus (14.162), dass stets
var(X) ≥ 0
(14.167)
Ist var(X) = 0, so lässt die Definition dieser Größe als P -Integral der nichtnegativen
Zufallsvariablen Y vermuten, dass ähnlich wie bei einem Lebesgue-Integral für im
wesentlichen alle ω ∈ Ω gilt Y (ω) = (X(ω) − EX)2 = 0 bzw. dass X(ω) für fast alle ω
konstant gleich dem Erwartungswert von X ist.
Zum Beweis dieser Aussage benötigen wir die in früheren Abschnitten bereits hergeleitete Ungleichung von Tschebyscheff in einer etwas allgemeineren Formulierung.
Satz 14.4 Für eine Zufallsvariable X : Ω → R auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) mit Erwartungswert EX und Varianz var(X) und beliebige positive Zahlen
ε > 0 gilt
var(X)
P (|X − EX| > ε) ≤
(14.168)
ε2
Beweis: Die Treppenfunktion Z(ω), die auf der Menge
B = {ω ∈ Ω ; |X(ω) − EX| > ε}
den Wert ε2 annimmt und außerhalb dieser Menge identisch Null ist, besitzt den
Erwartungswert
Z
EZ = Z dP = ε2 P (B) = ε2 P (|X − EX| > ε)
Außerdem ist für alle ω
2
Z(ω) ≤ Y (ω) = (X(ω) − EX)
so dass nach Regel (14.163) EZ ≤ EY oder
ε2 P (|X − EX| > ε) ≤ var(X)
Die Ungleichung (14.168) erhält man, wenn man beide Seiten dieser Ungleichung durch
ε2 dividiert.
♦
119
Um zu sehen, welche Konsequenzen die Eigenschaft var(X) = 0 besitzt, betrachten
wir die Mengen
1
Bn = {ω ∈ Ω ; |X(ω) − EX| > }
n
für n = 1, 2, 3, . . . . Ist |X(ω) − EX| > n1 , dann ist insbesondere auch |X(ω) − EX| >
1
n+1 , woraus folgt, dass die Folge dieser Mengen monoton aufsteigt, so dass nach (2.20)
limn→∞ P (Bn ) = P (B) mit der Menge
B=
∞
[
n=1
Bn = {ω ∈ Ω ; |X(ω) − EX| > 0} = (|X − EX| > 0)
Ist var(X) = 0, so folgt aus der Ungleichung von Tschebyscheff, dass
0 ≤ P (Bn ) ≤ n2 var(X) = 0
und damit P (B) = limn→∞ P (Bn ) = 0. Mit Hilfe des Komplementärereignisses B =
(|X − EX| = 0) = (X = EX) erhalten wir als Konsequenz daher
P (X = EX) = 1
d.h. mit der eventuellen Ausnahme ω aus einer Menge N mit P (N ) = 0 gilt X(ω) =
EX, was wir wie folgt formulieren:
Satz 14.5 Besitzt eine Zufallsvariable X die Varianz Null, so ist X(ω) P -fast überall
gleich einer konstanten Zahl c.
14.3.2 Rechenregeln für die Varianz
Algebraische Ausdrücke: Ausdrücke wie (X − EX)2 und ähnliche, die im folgenden
auftreten, stehen für Zufallsvariablen, d.h. Funktionen in Abhängigkeit vom Ergebnis
2
ω. Im vorliegenden Fall ist es die Funktion, die dem Ergebnis ω die Zahl (X(ω) − EX)
zuordnet. Diesen Term kann man mit den üblichen algebraischen Rechenregeln umformen:
2
(X(ω) − EX)2 = (X(ω)) − 2(EX) · X(ω) + (EX)2
Wenn man die linke und die rechte Seite dieser Gleichung gemäß der obigen Bemerkung
als Zufallsvariable schreibt, erhält man
(X − EX)2 = X 2 − 2(EX) · X + (EX)2
(14.169)
D.h. algebraische Ausdrücke, in denen Zufallsvariablen vorkommen, kann man mit den
aus der Algebra gewohnten Rechenregeln umformen.
Wenn man auf beide Seiten der Gleichung (14.169) den E-Operator anwendet und
beachtet, dass EX =: µ ein Skalar ist, erhält man unter Verwendung der Linearitätseigenschaft (14.159) des Erwartungswerts
E(X − EX)2 = E X 2 − 2µX + µ2
= E(X 2 ) − 2µEX + µ2
= E(X 2 ) − 2(EX)(EX) + (EX)2
120
oder
var(X) = E(X 2 ) − (EX)2
(14.170)
Für die Zufallsvariable Y = aX + b mit reellen Zahlen a und b erhält man mit den
obigen Vorschriften
var(Y ) = E(Y − EY )2
= E [(aX + b) − E(aX + b)]
= E [aX + b − aEX − b]
2
2
2
= E [aX − aEX]
= E a2 (X − EX)2
2
= a2 E (X − EX)
oder
var(aX + b) = a2 var(X)
(14.171)
Für die Varianz der Summe Y = X1 +X2 zweier Zufallsvariablen ergibt sich schließlich
var(X1 + X2 ) = E [(X1 + X2 ) − E(X1 + X2 )]
2
= E [(X1 − EX1 ) + (X2 − EX2 )]
= E(X1 − EX1 )2
2
+ 2E [(X1 − EX1 )(X2 − EX2 )]
+ E(X2 − EX2 )2
oder
var(X1 + X2 ) = var(X1 ) + 2 cov(X1 , X2 ) + var(X2 )
(14.172)
cov(X1 , X2 ) = E [(X1 − EX1 )(X2 − EX2 )]
(14.173)
mit
14.3.3 Die Kovarianz zweier Zufallsvariablen
Definition 14.6 Die Größe (14.173) heißt die Kovarianz der Zufallsvariablen X1
und X2 .
Mit den oben eingeführten algebraischen Rechenregeln für den Erwartungswertoperator läßt sich die Formel (14.173) etwas vereinfachen. Es ist
cov(X1 , X2 ) = E[X1 X2 − (EX1 )X2 − (EX2 )X1 + (EX1 )(EX2 )]
= E(X1 X2 ) − (EX1 )EX2 − (EX2 )EX1 + (EX1 )(EX2 )
= E(X1 X2 ) − (EX1 )(EX2 )
zusammengefaßt also
cov(X1 , X2 ) = E(X1 X2 ) − (EX1 )(EX2 )
(14.174)
Aus der Additionsregel (14.172) für die Varianz und der Produktregel (14.161) für den
Erwartungswert ergibt sich damit der
121
Satz 14.6 Sind die Zufallsvariablen X1 und X2 stochastisch unabhängig , so ist
cov(X1 , X2 ) = 0
und daher
var(X1 + X2 ) = var(X1 ) + var(X2 )
(14.175)
Warnung: Die Umkehrung dieser Aussage ist nicht immer richtig! Aus cov(X1 , X2 ) =
0 folgt normalerweise nicht, dass die beiden Zufallsvariablen stochastisch unabhängig
sind. Als (Gegen-)Beispiel betrachten wir einen Zufallsvektor X = (X1 , X2 ), der auf
der in Abbildung 21 dargestellten Menge
M = {(x1 , x2 ) ∈ R2 , |x1 | + |x2 | ≤ 1}
√
uniform verteilt ist. Nach Phythagoras ist M ein Quadrat mit der Kantenlänge 2
und der Fläche |M | = 2. Die Verteilung P X des Zufallsvektors X besitzt daher die
Dichte
1
falls |x1 | + |x2 | ≤ 1
2
f (x1 , x2 ) =
0 sonst
6x2
@
@
@
@
@
@
@
@
@
@
@
@
@
1 − |x1 |
@
@
x1
−(1 − |x1 |)
@
@
@
Abbildung 21: Beispiel zu Satz 14.6
Da die Dichte f in den beiden Argumenten symmetrisch ist: f (x1 , x2 ) = f (x2 , x1 ),
sind die beiden Marginaldichten gleich.
Z ∞
f2 (t) = f1 (t) =
f (t, x2 )dx2
−∞
122
Für t < −1 oder t > 1 ist f (t, x2 ) = 0 für alle x2 , so dass für diese Argumente
f2 (t) = f1 (t) = 0. Ist −1 ≤ t < 1, so ist
Z
∞
f (t, x2 )dx2 =
−∞
Z
1−|t|
−(1−|t|)
bzw.
f2 (t) = f1 (t) =
1
dx2 = 1 − |t|
2
−1 ≤ t < 0
0≤t≤1
1 + t falls
1 − t falls
Die Erwartungswerte der beiden Komponenten X1 und X2 des Zufallsvektors sind
Z
Z 1
EX2 = EX1 = tf1 (t)dt =
t(1 − |t|)dt = 0
−1
denn die Dichten fi (t) sind gerade und damit die Integranden tfi (t) ungerade Funktionen. Nach (14.174) und (14.164) ergibt sich daher die Kovarianz der beiden Zufallsvariablen X1 und X2 zu
cov(X1 , X2 )
= E(X1 X2 )
Z
=
x1 x2 f (x1 , x2 )d(x1 , x2 )
=
Z
1
1
x1 x2 d(x1 , x2 ) =
2
2
M
=
=
1
2
0
Z
1
−1
Z
1
x1
−1
Z
1−|x1 |
x2 dx2
−(1−|x1 |)
!
dx1
x1 · 0dx1
Die Zufallsvaribalen X1 , X2 sind aber nicht stochastisch unabhängig, denn z.B. auf
dem Dreieck
D = {(x1 , x2 ) ∈ R2 ; 0 < x1 < 1 , 1 − x1 < x2 < 1}
ist f (x1 , x2 ) = 0, während f1 (x1 )f2 (x2 ) = (1 − x1 )(1 − x2 ) > 0.
Weitere Rechenregeln: Aus der definierenden Formel (14.173) ergibt sich direkt,
dass für X1 = X2 = Y
cov(Y, Y ) = var(Y )
(14.176)
Da bei reellwertigen Zufallsvariablen stets X1 (ω)X2 (ω) = X2 (ω)X1 (ω), erhält man
cov(X1 , X2 ) = cov(X2 , X1 )
(14.177)
und aus den Rechenregeln für den Erwartungswert folgt schließlich noch, dass für
Konstante a und b gilt
cov(X1 + a, X2 + b) = cov(X1 , X2 )
123
(14.178)
Die wichtigste Eigenschaft der Kovarianz ist die Bilinearität: Für Zufallsvariablen
X, X1 , X2 , Y , Y1 und Y2 sowie Skalarfaktoren a1 , a2 , b1 und b2 gilt
cov(a1 X1 + a2 X2 , Y ) = a1 cov(X1 , Y ) + a2 cov(X2 , Y )
(14.179)
und
cov(X, b1 Y1 + b2 Y2 ) = b1 cov(X, Y1 ) + b2 cov(X; Y2 )
(14.180)
Die Eigenschaft (14.179) leitet man mit Hilfe der Rechenregeln für den Erwartungswert
auf die folgende Weise her:
cov(a1 X1 + a2 X2 , Y )
= E[a1 X1 + a2 X2 − E(a1 X1 + a2 X2 )](Y − EY )
= E(a1 X1 + a2 X2 − a1 EX1 − a2 EX2 )(Y − EY )
= E[a1 (X1 − EX1 ) + a2 (X2 − EX2 )](Y − EY )
= E[a1 (X1 − EX1 )(Y − EY ) + a2 (X2 − EX2 )(Y − EY )]
= a1 E(X1 − EX1 )(Y − EY ) + a2 E(X2 − EX2 )(Y − EY )
= a1 cov(X1 , Y ) + a2 cov(X2 , Y )
Zum Nachweis von (14.180) verwendet man (14.179) und (14.177) :
cov(X, b1 Y1 + b2 Y2 ) =
cov(b1 Y1 + b2 Y2 , X)
= b1 cov(Y1 , X) + b2 cov(Y2 , X)
= b1 cov(X, Y1 ) + b2 cov(X, Y2 )
Mann kann schließlich die beiden Gleichungen zusammenfassen und auf Linearkombinationen mit mehr als zwei Summanden ausdehnen. Wie man leicht nachvollzieht, gilt
!
m
n
m X
n
X
X
X
cov
ai Xi ,
bk Yk =
ai bk cov(Xi , Yk ) = a> CXY b
(14.181)
i=1
k=1
i=1 k=1
>
wobei a der Zeilenvektor mit den Komponenten ai , b der Spaltenvektor mit den
Komponenten bk und CXY die m × n-Matrix


cov(X1 , Y1 ) cov(X1 , Y2 ) . . . cov(X1 , Yn )
 cov(X2 , Y1 ) cov(X2 , Y2 ) . . . cov(X2 , Yn ) 




..
..
..
..


.
.
.
.
cov(Xm , Y1 ) cov(Xm , Y2 ) . . . cov(Xm , Yn )
ist.
14.3.4 Die Kovarianzmatrix eines Zufallsvektors
Für einen Zufallsvektor X = (X1 , X2 , . . . , Xn )

cov(X1 , X1 ) cov(X1 , X2 )
 cov(X2 , X1 ) cov(X2 , X2 )

CX = 
..
..

.
.
cov(Xn , X1 )
heißt die Matrix
...
...
..
.
cov(X1 , Xn )
cov(X2 , Xn )
..
.
cov(Xn , X2 ) . . .
cov(Xn , Xn )
124





(14.182)
die Kovarianzmatrix von X. Wegen (14.177) ist die Matrix CX symmetrisch. Ist
a> = (a1 , a2 , . . . , an ) ein beliebiger reeller Zahlenvektor, so besitzt die Zufallsvariable
Y = a1 X1 + a2 X2 + . . . + an Xn nach (14.176) und (14.181) die Varianz
!
n
n
X
X
var(Y ) = cov(Y, Y ) = cov
ai Xi ,
ak Xk = a> CX a
i=1
k=1
Da Varianzen stets nichtnegativ sind, ist für beliebige Vektoren a
a> CX a ≥ 0
d.h. die Matrix CX ist positiv semidefinit.
Gibt es einen Vektor a 6= 0 mit aT CX a = 0, so besitzt die Zufallsvariable Y = a1 X1 +
. . . + an Xn die Varianz Null und ist nach Satz 14.5 damit fast überall gleich einer
Konstanten c bzw. sind die Zufallsvariablen Xi fast überall affin linear abhängig.
125
15 Die Normalverteilung
Die Normalverteilung ist eine der wichtigsten Wahrscheinlichkeitsverteilungen in der
Praxis, weil aufgrund des sogenannten zentralen Grenzwertsatzes in vielen Situationen angenommen werden kann, dass experimentell gewonnene Messwerte zumindest näherungsweise als Werte von normalverteilten Zufallsvariablen aufgefasst werden
können.
Die eindimensionale Normalverteilung wurde bereits im Abschnitt 10.5 und in den
Übungen eingeführt. Ihre Eigenschaften werden im ersten Abschnitt dieses Kapitels
noch einmal zusammengefasst und es wird der Zentrale Grenzwertsatz formuliert und
interpretiert.
Der zweite Abschnitt befasst sich mit der mehrdimensionalen Normalverteilung.
15.1 Die eindimensionale Normalverteilung
Wie im Abschnitt 10.5 definiert, heißt die eindimensionale Verteilung P0 mit der Dichte
(10.81)
t2
1
ϕ(t) = √ e− 2
2π
die standardisierte Normalverteilung oder N (0, 1)-Verteilung. Sie besitzt den
Mittelwert
Z
m1 (P0 ) = tϕ(t)dt = 0
und die Varianz
m̂2 (P0 ) = m2 (P0 ) =
Z
t2 ϕ(t)dt = 1
Die Funktion X(t) = σt + µ mit reellen Parametern σ 6= 0 und µ besitzt als Zufallsvariable auf dem Wahrscheinlichkeitsraum (R, B, P0 ) die Verteilung P X mit der Dichte
f (x) = √
1
e−
(x−µ)2
2σ 2
(15.183)
2πσ 2
Diese Verteilung heißt die Normalverteilung mit Parametern µ und σ 2 oder
N (µ, σ 2 )-Verteilung. Ihren Mittelwert und ihre Varianz berechnen wir über den Erwartungswert und die Varianz der Zufallsvariablen X:
R
m1 (P X ) = EX
R = X(t)P0 (dt)
= RR(σt + µ)ϕ(t)dtR
= σ R tϕ(t)dt + µ R ϕ(t)dt
= σm1 (P0 ) + µ1
= µ
m̂2 (P X )
=
=
=
=
=
2
2
RvarX = E(X2− EX) = E(X − µ)
R (X(t) − µ) P02(dt)
(σt + µ − µ) ϕ(t)dt
RR
σ 2 R t2 ϕ(t)dt
σ 2 m̂2 (P0 ) = σ 2
126
Ist X eine N (µ, σ 2 )-verteilte Zufallsvariable, so ist — wie im allgemeinen Rahmen im
nächsten Abschnitt gezeigt wird — die Zufallsvariable Y = aX + b ebenfalls normalverteilt und zwar mit dem Mittelwert
m1 (P Y ) = EY = E(aX + b) = aEX + b = aµ + b
und der Varianz
m̂2 (P Y ) = var(aX + b) = a2 varX = a2 σ 2
Insbesondere folgt daraus, dass
1
Y = √ (X − µ)
σ2
(15.184)
eine N (0, 1)-verteilte Zufallsvariable ist.
15.2 Der Zentrale Grenzwertsatz.
X1 , X2 , X3 , . . . sei eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) mit Verteilungen P Xn und Verteilungsfunktionen
Fn (t) = P Xn ( −∞, t ] = P (Xn ≤ t)
Konvergieren diese Verteilungsfunktionen für alle Argumente t gegen die Verteilungsfunktion der N (0, 1)-Verteilung:
lim Fn (t) = Φ(t)
n→∞
so sagt man, dass für die Folge dieser Zufallsvariablen der Zentrale Grenzwertsatz(ZGS) gilt.
Diese Art von Konvergenz bedeutet also nicht, dass die Funktionen Xn in irgendeiner Weise gegen eine Grenzfunktion X konvergieren. Es bedeutet für die praktischen
Anwendungen nur, dass man bei genügend großem n“ annehmen kann, dass die Ver”
teilung der Zufallsvariable Xn näherungsweise die standardisierte Normalverteilung
ist.
Der klassische Fall einer Folge, für die der ZGS gilt, sind die normierten Partialsummen
einer Folge X1 , X2 , X3 , . . . von stochastisch unabhängigen Zufallsvariablen, die alle die
gleiche Verteilung besitzen. Die Partialsummen sind die Zufallsvariablen
Sn = X1 + X2 + · · · + Xn
Da die Xk alle die gleiche Verteilung besitzen, haben sie auch alle den gleichen Mittelwert und die gleiche Varianz:
EXk = µ varXk = σ 2
Für die Partialsummen folgt daraus
µn = ESn = EX1 + EX2 + · · · + EXn = nµ
127
und wegen der stochastischen Unabhängigkeit
σn2 = varSn = varX1 + varX2 + · · · + varXn = nσ 2
Von einer Folge von Zufallsvariablen mit unbeschränkt wachsenden Mittelwerten und
Varianzen kann man keine wie auch immer geartete Konvergenz erwarten. Man muss
sie geeignet normieren: Die Zufallsvariablen
1
1
Sn∗ = p (Sn − µn ) = √
(Sn − nµ)
2
σn
nσ 2
heißen die normierten Partialsummen der Xk , und zwar deshalb, weil sie die Erwartungswerte
1
ESn∗ = p (ESn − µn ) = 0
σn2
und die Varianzen
varSn∗
=
1
p
σn2
!2
var(Sn ) = 1
besitzen, also alle den gleichen Mittelwert und die gleiche Varianz wie die N (0, 1)Verteilung.
Einen Beweis für die Gültigkeit des ZGS für die Variablen Sn∗ und weitere Literaturverweise findet man in dem Buch [8].
Wie bei einem mathematisch derart interessanten Thema wie der Gültigkeit des Zentralen Grenzwersatzes unter möglichst schwachen Voraussetzungen zu erwarten, gibt
es eine Unzahl von Verallgemeinerungen des obigen Resultats.
Für die Praxis, etwa bei der Fehlerrechnung, kann man diese mathematischen Aussagen salopp auf den gemeinsamen Nenner bringen, dass ein Messfehler immer dann
näherungweise als normalverteilt angenommen werden darf, wenn er aus der Überlagerung vieler kleiner unabhängiger und nicht-systematischer Fehlerursachen resultiert,
wobei keine dieser Ursachen dominierend ist.
15.3 Die mehrdimensionale Normalverteilung
15.3.1 Die standardisierte Normalverteilung
Die Verteilung eines n-dimensionalen Zufallsvektors G = (G1 , G2 , . . . , Gn ), dessen
Komponenten stochastisch unabhängig und N (0, 1)-verteilt sind, besitzt die Dichte
ϕn (y1 , y2 , . . . , yn ) = ϕ(y1 )ϕ(y2 ) · · · ϕ(yn )
n
2
2
2
1
1
√
=
e− 2 (y1 +y2 +···yn )
2π
(15.185)
oder in Vektorschreibweise
ϕn (y) =
1
√
2π
128
n
1
e− 2 ||y||
2
(15.186)
mit der euklidischen Norm ||y|| =
nenten yk .
p
y12 + y22 + · · · yn2 eines Vektors y mit den Kompo-
Definition 15.1 Die n-dimensionale Verteilung Pn mit der Dichte (15.185) bzw. (15.186)
heißt die n-dimensionale standardisierte Normalverteilung.
Einen Zufallsvektor G, dessen Komponenten stochastisch unabhängig und N ( 0, 1 )verteilt sind, nennen wir im folgenden einen gaussischen Einheitsvektor.
15.3.2 Die mehrdimensionale Normalverteilung
Die allgemeine n-dimensionale Normalverteilung erhält man wie im eindimensionalen Fall als Verteilung einer linearen Abbildung auf dem Wahrscheinlichkeitsraum
(Rn , Bn , Pn ):
Für i = 1, 2, . . . , n sei
Xk (y1 , . . . , yn ) = ai1 y1 + ai2 y2 + · · · + ain yn + bi
Diese n Funktionen fassen wir zu dem Zufallsvektor
X(y) = Ay + b
mit



X(y) = 




b=

b1
b2
..
.
bn
X1 (y)
X2 (y)
..
.
Xn (y)



 ,







 und A = 


(15.187)



y=

y1
y2
..
.
yn



 ,

a11
a21
..
.
a12
a22
..
.
...
...
..
.
a1n
a2n
..
.
an1
an2
...
ann





zusammen. Nach dem Transformationssatz für Dichten besitzt die Verteilung P X des
Zufallsvektors X die Dichte
f (x) =
1
ϕn A−1 (x − b)
| det(A)|
Mit der symmetrischen und positiv definiten Matrix C = AA> (das > steht für Transponieren) erhält man
p
p
| det A| = pdet(A)2 = p
det(A) det(A> )
>
=
det(AA ) = det(C)
und
||A−1 (x − b)||2
=
=
> −1 (x − b)> A−1
A
(x − b)
(x − b)> C −1 (x − b)
129
und daraus für die Dichte f (x) die Formel
n
> −1
1
1
1
p
e− 2 (x−b) C (x−b)
f (x) = √
2π
det(C)
(15.188)
Satz 15.1 Ist C eine symmetrische und positiv definite n × n-Matrix und b ein ndimensionaler reeller Spaltenvektor, so ist die Funktion (15.188) eine Wahrscheinlichkeitsdichte.
Beweis
1. Ist die Matrix C von der Form C = AA> mit einer nichtsingulären n × n-Matrix
A, so wurde die Behauptung oben gerade dadurch bewiesen, dass f (x) die Dichte
der Verteilung des Zufallsvektors X ist.
Um die Behauptung für eine beliebige positiv definite symmetrische Matrix C
zu beweisen, muss man also nur noch zeigen, dass jede derartige Matrix eine
Zerlegung der Form AA> besitzt.
2. Eine positiv definite symmetrische Matrix C besitzt n positive reelle Eigenwerte
λ1 , λ2 , . . . , λn mit zugehörigen Eigenvektoren u1 , u2 , . . . , un . Die n Eigenwertgleichungen Cuk = λk uk kann man zu einer Matrixgleichung CU = U Λ zusammenfassen, wobei U = (u1 , . . . , un ) die n × n-Matrix mit den Eigenvektoren uk
und Λ die Diagonalmatrix mit den Eigenwerten λk als Diagonalelementen ist.
Die Matrix U ist eine Orthogonalmatrix, d.h. U U > = I (=Einheitsmatrix).
Multipliziert man die Gleichung CU = U Λ daher von rechts mit U > , so erhält
man
C
1
1
= U ΛU > = (U Λ 2 )(Λ 2 U > )
1
1
= (U Λ 2 )(U Λ 2 )>
= AA>
(15.189)
mit der Diagonalmatrix
 √

1

Λ2 = 

λ1
0
..
.
√0
λ2
..
.
...
...
..
.
0
...
0
0
0
..
√.
λn





♦
Definition 15.2 Ist C eine symmetrische positiv definite n×n-Matrix und b ein beliebiger n-dimensionaler reeller Vektor, so heißt die Verteilung mit der Dichte (15.188)
die n-dimensionale Normalverteilung mit Parametern b und C oder kurz
N (b, C)-Verteilung.
Als Hilfsmittel zur Herleitung der speziellen Eigenschaften der mehrdimensionalen
Normalverteilung benötigen wir die Umkehrung obiger Entwicklung:
130
Satz 15.2 Ist X ein n-dimensionaler N (b, C)-verteilter Zufallsvektor, so besitzt X
eine Darstellung der Form
X = AG + b
(15.190)
mit einer nichtsingulären Matrix A und einem gaussischen Einheitsvektor G.
Beweis
1. Sei A die Matrix aus (15.189) und H : Rn −→ Rn die affine lineare Abbildung H(x) = A−1 (x − b) mit der Umkehrabbildung H ∗ (y) = Ay + b und dem
Absolutbetrag
JH (x) = det(A−1 ) =
1
1
=√
| det A|
det C
der Funktionaldeterminante.
2. Für den Zufallsvektor G = H ◦ X = A−1 (X − b) ergibt sich aus dem Diagramm
(Ω, A, P )
H
-
X
HH
G=H ◦X
HH
H
(Rn , Bn , P X )
HH
HH
j
H
H
?
(Rn , Bn , . )
dass G die gleiche Verteilung wie H besitzt, deren Dichte sich nach dem Transformationssatz aus der Dichte (15.188) zu
1
g(y) = f H ∗ (y) · JH H ∗ (y) n
>
∗
−1
1
1
1
√
√
=
e− 2 H (y)−b C
2π
det C
n
1 > > −1
1
√
e− 2 y A C Ay
=
2π
H ∗ (y)−b
√
· det C
ergibt.
Aus
A> C −1 A = A> (AA> )−1 A = A> (A> )−1 A−1 A = I
131
folgt schließlich, dass
g(y) =
1
√
2π
n
1
e− 2 y
>
y
= ϕn (y) ,
also die Dichte der n-dimensionalen standardisierten Normalverteilung ist.
3. Durch Auflösen von G = A−1 (X − b) erhält man noch
X = AG + b
und damit die Behauptung.
15.3.3 Interpretation der Parameter
Mit Hilfe des Satzes 15.2 lässt sich auf einfache Weise ermitteln, welche Bedeutung
die Parameter b und C in der Dichte (15.188) der Verteilung des Zufallsvektors X
besitzen. In Komponentenschreibweise lautet die Gleichung (15.190)
Xi =
n
X
aik Gk + bi
(15.191)
k=1
Für die Erwartungswerte, Varianzen und Kovarianzen der Zufallsvariablen Gi gilt
EGi
varGi
= m1 (N (0, 1)) = 0
= E(Gi − EGi )2 = E(G2i ) = m̂2 (N (0, 1)) = 1
und für zwei verschiedene Indizes i und k wegen der stochastischen Unabhängigkeit
cov(Gi , Gk ) = E(Gi − EGi )(Gk − EGk ) = E(Gi Gk ) = 0
Nach den Rechenregeln für den Erwartungswert folgt daher aus (15.191)
EXi =
n
X
k=1
aik EGk + bi = bi
Für zwei Komponenten Xi und Xj gilt weiter
cov(Xi , Xj ) = E(Xi − EXi )(Xj − EXj )
!
! n
n
X
X
ajl Gl
= E
aik Gk
l=1
k=1
=
=
=
n X
n
X
k=1 l=1
n
X
k=1
n
X
aik ajl E(Gk Gl )
aik ajk E(G2k ) +
aik ajk
k=1
= cij
132
n X
X
k=1 l6=k
aik ajl E(Gk Gl )
wo cij die Komponenten der Matrix C bezeichnet.
Daraus folgt der
Satz 15.3 Ist X ein N (b, C)-verteilter Zufallsvektor, so ist b = EX der Erwartungswert und C = CX die Kovarianzmatrix dieses Zufallsvektors.
15.3.4 Stochastische Unabhängigkeit bei Normalverteilung
Ist die Matrix C bei einem N (b, C)-verteilten Zufallsvektor X eine Diagonalmatrix,

 2
σ1 0 . . . 0
 0 σ22 . . . 0 


C= .
. 
.. . .
 ..
. .. 
.
0
0
...
σn2
so wird die Dichte (15.188) zu
f (x1 , x2 , . . . , xn ) = f1 (x1 )f2 (x2 ) · · · fn (xn )
mit den Dichten
fi (t) = p
1
−
e
2
(t−bi )2
2σ 2
i
2πσi
der N (bi , σi2 )-Verteilungen. Das bedeutet, dass die Komponenten Xi des Zufallsvektors
stochastisch unabhängig und N (bi , σi2 )-verteilt sind. Da C genau dann eine Diagonalmatrix ist, wenn cov(Xi , Xj ) = 0 für alle i 6= j, erhält man eine Aussage über den
Zusammenhang zwischen Nullkovarianz und stochastischer Unabhängigkeit, der in dieser Form aber nur für die Normalverteilung gilt:
Satz 15.4 Ist X ein normalverteilter Zufallsvektor, so sind seine Komponenten genau
dann stochastisch unabhängig, wenn je zwei verschiedene Komponenten Kovarianz Null
besitzen.
15.3.5 Funktionen von normalverteilten Zufallsvariablen
Eine für die Anwendungen äußerst wichtige Eigenschaft der Normalverteilung ist die,
dass Linearkombinationen von normalverteilten Zufallsvariablen wieder normalverteilt
sind.
Zum Nachweis dieser Aussage benötigen wir den folgenden
Satz 15.5 Ist G ein n-dimensionaler gaussischer Einheitsvektor und U eine n × nOrthogonalmatrix, so ist
H = UG
ebenfalls ein gaussischer Einheitsvektor.
133
(Ω, A, P )
HH
-
G
HH
H
HH
HH
(Rn , Bn , P G )
X(y) = U y
HH
j
H
?
(Rn , Bn , . )
Beweis
Im Diagramm
ist P G die standardisierte n-dimensionale Normalverteilung und H besitzt die gleiche
Verteilung wie der Zufallsvektor aus (15.187) mit A = U und b = 0. Daraus folgt für
die Dichte (15.188), dass C = U U > = I mit det C = det I = 1, d.h.
n
1 >
1
e− 2 x x = ϕn (x)
f (x) = √
2π
Satz 15.6 Ist X ein n-dimensionaler N (b, C)-verteilter Zufallsvektor mit den Komponenten X1 , X2 , . . . , Xn , so ist die Zufallsvariable
Y = a1 X1 + a2 X2 + · · · + an Xn + c = a> X + c
normalverteilt mit Mittelwert
µ=
n
X
ai bi + c = a> b + c
i=1
und Varianz
σ2 =
n
n X
X
ai cik ak = a> Ca
i=1 k=1
Beweis
1. Mit der Darstellung X = AG + b nach Satz 15.2 lässt sich die Zufallsvariable Y
in der Form
Y
=
a> (AG + b) + c = (a> A)G + (a> b + c)
=:
=
α> G + µ
α1 G1 + α2 G2 + . . . + αn Gn + µ
134
p
schreiben. Mit der Norm kαk = α12 + α22 + . . . + αn2 des Vektors α und u1k :=
αk
kαk ist
Y = kαk(u11 G1 + u12 G2 + . . . + u1n Gn ) + µ
(15.192)
2. Der Zeilenvektor (u11 , . . . , u1n ) ist wegen
n
X
k=1
u21k =
n
1 X 2
αk = 1
kαk2
k=1
ein normierter Zeilenvektor und man kann ihn — wie aus der Matrizenrechnung
bekannt — durch n − 1 weitere Zeilen (ui1 , ui2 , . . . , uin ) zu einer Orthonormalbasis des Rn bzw. zu einer Orthogonalmatrix


u11 . . . u1n
 u21 . . . u2n 


U = .
.. 
 ..
. 
un1
...
unn
ergänzen. Nach Satz 15.5 ist dann




G1
H1
 G2 
 H2 




 ..  = U  .. 
 . 
 . 
Gn
Hn
ein gaussischer Einheitsvektor und speziell H1 eine N ( 0, 1 )-verteilte Zufallsvariable.
3. Nach (15.192) ist
Y = kαk H1 + µ =: σ H1 + µ
und aus dem Diagramm 22 ersieht man, dass Y normalverteilt ist mit Mittelwert
µ = a> b + c und Varianz σ 2 = kαk2 = ka> Ak2 = a> AA> a = a> Ca.
135
(Ω, A, P )
HH
-
H1
HH
Y
HH
HH
(R, B, P H )
Z(s) = σs + µ
HH
j
H
?
(R, B, . )
Abbildung 22: Zu Beweisteil 3
136
16 Grenzwertsätze
Im letzten Kapitel der Vorlesung beschäftigen wir uns unter anderem mit dem Thema,
das uns in der Einleitung den Einstieg in die mathematische Behandlung des Zufalls
lieferte, nämlich mit dem Gesetz der großen Zahlen.
Dabei wird ein Zufallsexperiment immer wieder durchgeführt und das Verhalten der
relativen Häufigkeit für das Eintreten eines bestimmten Ereignisses betrachtet, wenn
die Anzahl der Durchführungen gegen Unendlich strebt“.
”
Zur Modellierung dieser Situation führen wir einen Wahrscheinlichkeitsraum ein, der
das Entstehen einer unendlichen zufälligen Folge von Nullen und Einsen beschreibt.
16.1 Unendliche Bernoulli-Versuchsreihen
Als mathematische Abstraktion für ein Zufallsexperiment, bei dessen Durchführung
nur interessiert, ob ein bestimmtes Ereignis eintritt oder nicht, wählen wir ein BernoulliExperiment ({0, 1}, 2{0,1} , P0 ) (s. Abschnitt 5.3), wobei die 1 für dieses Ereignis steht
und die Erfolgswahrscheinlichkeit p = P0 {1} die Wahrscheinlichkeit für das Eintreten
dieses Ereignisses ist.
Die Ergebnismenge für die unendlichfache“ Wiederholung eines Bernoulli-Experiments
”
ist die Menge aller unendlichen 0-1-Folgen
Ω = {δ = (δ1 , δ2 , δ3 , . . .) ; δk ∈ {0, 1}}
(16.193)
Dabei steht δk für das Ergebnis der k-ten Durchführung des Bernoulli-Experiments.
Die Menge (16.193) ist überabzählbar. Jede 0-1-Folge δ1 , δ2 , δ3 . . . kann man nämlich
als Binärentwicklung einer reellen Zahl x mit 0 ≤ x ≤ 1 auffassen mit x als dem Wert
der Potenzreihe
2
3
1
1
1
x = δ1 · + δ2 ·
+ δ3 ·
+ ...
2
2
2
Die Mächtigkeit der Menge Ω ist also die des reellen Zahlenintervalls [0, 1].
Es ist daher nicht möglich, als σ-Algebra auf dieser Ergebnismenge einfach die Menge
aller Teilmengen zu benutzen, da es auf diesem Mengensystem keine Funktion P gibt,
die alle vier Axiome für Wahrscheinlichkeiten erfüllt. Zur Festlegung einer σ-Algebra
schlagen wir den gleichen Weg wie bei den n-dimensionalen Verteilungen ein und legen
fest, welche Teilmengen von Ω auf jeden Fall Ereignisse sein sollten.
Dazu führen wir die Zustandsvariablen Xk : Ω −→ {0, 1} mit
Xk (δ) = Xk (δ1 , δ2 , . . .) = δk
ein, die das Ergebnis der k-ten Durchführung des Experiments anzeigen und fordern,
dass dies Zufallsvariable sein sollen. Das bedeutet, dass die Urbildmengen
(Xk = δ̂) = {δ = (δ1 , δ2 , . . .) ; δk = δ̂}
(16.194)
für alle k = 1, 2, 3, . . . und alle δ̂ = 0, 1 in der festzulegenden σ-Algebra enthalten sein
sollen. Gleichzeitig soll dieses Mengensystem nicht größer als nötig sein, so dass wir
137
uns als σ-Algebra A auf Ω die kleinste σ-Algebra, die alle Mengen der Form
(16.194) enthält, vorgeben.
Die Wahrscheinlichkeit P , die wir auf dieser σ-Algebra studieren wollen, soll dadurch charakterisiert sein, dass es sich bei dem durch (Ω, A, P ) beschriebenen Zufallsexperiment um die unendlichfache Wiederholung immer des gleichen BernoulliExperiments handelt, wobei die Durchführungen unabhängig voneinander stattfinden.
Mit Hilfe der Zustandsvariablen kann man diese Forderungen mathematisch präzisieren:
1. Die Wahrscheinlichkeiten für die Ereignisse der Einzelexperimente sollen immer
gleich sein:
p
falls δ̂ = 1
P Xk = δ̂ = P0 {δ̂} =
(16.195)
1 − p falls δ̂ = 0
2. Die Zufallsvariablen Xk sollen stochastisch unabhängig sein. Für jede Auswahl
1 ≤ k1 < k2 < . . . < km von Indizes und δ̂1 , δ̂2 , . . . , δ̂m von Binärzahlen muss
i
h
P (Xk1 = δ̂1 ) ∩ (Xk2 = δ̂2 ) ∩ . . . ∩ (Xkm = δ̂m )
(16.196)
=
P (Xk1 = δ̂1 )P (Xk2 = δ̂2 · . . . · P (Xkm = δ̂m )
gelten.
Mit den Abkürzungen ]δ̂ = δ̂1 + δ̂2 + . . . + δ̂m und q = 1 − p kann man diese beiden
Forderungen zu
i
h
(16.197)
P (Xk1 = δ̂1 ) ∩ (Xk2 = δ̂2 ) ∩ . . . ∩ (Xkm = δ̂m ) = p]δ̂ q m−]δ̂
zusammenfassen.
In der Wahrscheinlichkeittheorie zeigt man die Gültigkeit des folgenden Satzes, auf
dessen Beweis wir hier verzichten.
Satz 16.1 . Es gibt genau eine Wahrscheinlichkeit P auf der σ-Algebra mit der Eigenschaft (16.197).
Den so eingeführten Wahrscheinlichkeitsraum (Ω, A, P ) nennen wir im Folgenden eine
unendliche Bernoulli-Versuchsreihe mit Erfolgswahrscheinlichkeit p.
16.2 Das Gesetz der Großen Zahlen
Die absolute und relative Häufigkeit eines Ereignisses bei n Versuchen kann man auf
einer unendlichen Bernoulli-Versuchsreihe als Zufallsvariable formulieren. Die Funktion
Sn (δ1 , δ2 , . . .) = δ1 + δ2 + . . . + δn
bzw.
Sn = X1 + X2 + . . . + Xn
138
(16.198)
gibt an, wie oft das Ereignis {1} bei den ersten n Durchführungen des BernoulliExperiments zustande gekommen ist und heißt demgemäß die Summe der Erfolge
nach n Versuchen. Die relative Häufigkeit des Eintretens der 1 ist dann durch die
Zufallsvariable
1
1
(16.199)
Hn = Sn = (X1 + X2 + . . . + Xn )
n
n
mit
1
Hn (δ1 , δ2 , . . .) = (δ1 + δ2 + . . . + δn )
n
gegeben.
Das Gesetz der grossen Zahlen besagt, dasss die Folge der Zufallsvariablen Hn für
n −→ ∞ in gewisser Weise gegen die Wahrscheinlichkeit p = P0 {1} konvergiert. Zur
Herleitung einer solchen Eigenschaft benötigen wir die Erwartungswerte und Varianzen
der beteiligten Zufallsvariablen.
Die Zustandsvariablen Xk sind Treppenfunktionen:
Xk (δ) = 1 · 1(Xk =1) (δ) + 0 · 1(Xk =0) (δ)
Der Erwartungswert, d.h. das P -Integral ist daher
EXk = 1 · P (Xk = 1) + 0 · P (Xk = 0) = p
Wegen
Xk2 (δ) = 12 · 1(Xk =1) (δ) + 02 · 1(Xk =0) (δ)
ist auch EXk2 = p und damit
2
var(Xk ) = EXk2 − (EXk ) = p − p2 = p(1 − p) = pq
Da die Zufallsvariablen Xk stochastisch unabhängig sind, gilt nicht nur für den Erwartungswert sondern auch für die Varianz die Additionsformel
ESn
varSn
= E(X1 + X2 + . . . + Xn ) = EX1 + EX2 + . . . EXn = np
=
=
var(X1 + X2 + . . . + Xn )
var(X1 ) + var(X2 ) + . . . + var(Xn )
= npq
Schließlich erhält man aus der Linearität des Erwartungswert-Operators und der Regel
(14.171) für die Varianz
1
1
EHn = E
Sn = ESn = p
(16.200)
n
n
2
1
1
pq
var(Hn ) = var
Sn =
(16.201)
var(Sn ) =
n
n
n
Die Ungleichung von Tschebyscheff (14.168) angewandt auf die relative Häufigkeit
P (|Hn − EHn | > ε) ≤
139
varHn
ε2
bzw.
pq
nε2
besagt dann, dass für eine beliebig kleine positive reelle Zahl ε
P (|Hn − p| > ε) ≤
lim P (|Hn − p| > ε) = 0
n→∞
(16.202)
oder— wenn man zum Komplementärereignis übergeht—
lim P (|Hn − p| ≤ ε) = 1
n→∞
(16.203)
Die Aussage (16.203), dass für n −→ ∞ die relative Häufigkeı́t mit Wahrscheinlichkeit 1 in einer beliebig klein vorgegebenen Umgebung der Wahrscheinlichkeit p des
Ereignisses liegt, ist natürlich eine sehr vorsichtig formulierte Forderung der Konvergenzeigenschaft. Daher heisst (16.203) bzw (16.202) auch das schwache Gesetz der
großen Zahlen.
Es gilt— was wir hier nicht beweisen wollen— auch das starke Gesetz der großen
Zahlen. Es besagt, dass es eine Menge N ∈ A mit P (N ) = 0 gibt, so dass für
alle Ereignisse δ, die nicht in N liegen, die Folge der Funktionswerte Hn (δ) gegen p
konvergiert:
n
o
P δ ∈ Ω ; lim Hn (δ) = p = 1
(16.204)
n→∞
16.3 Der Grenzwertsatz von Moivre und Laplace
Der Grenzwertsatz von Moivre und Laplace ist historisch gesehen der Vorläufer des
Zentralen Grenzwertsatzes, der im Abschnitt 15.2 des Kapitels über die Normalverteilung formuliert wurde.
Dabei wird die Folge der Zufallsvariablen
Sn = X1 + X2 + . . . + Xn
auf einer unendlichen Bernoulli-Versuchsreihe mit Erfolgswahrscheinlichkeit p betrachtet. Wie in Abschnitt 16.2 berechnet, ist
ESn = np
var(Sn ) = np(1 − p)
und
so dass die Zufallsvariablen
Sn∗ = p
1
np(1 − p)
(Sn − np)
alle den Erwartungswert 0 und die Varianz 1 besitzen.
Der Grenzwertsatz von Moivre und Laplace (bzw. der ZGS) besagt, dass für n gegen
Unendlich die Verteilung dieser Zufallsvariablen gegen die N (0,1)-Verteilung konvergiert, d.h.
lim P (a ≤ Sn∗ ≤ b) = Φ(b) − Φ(a)
(16.205)
n→∞
140
wobei Φ(t) die Verteilungsfunktion der N (0, 1)-Verteilung ist.
Dieses Resultat ermöglicht es uns, Wahrscheinlichkeiten für Zufallsvariablen mit Binomialverteilung bei großen Parameterwerten n näherungsweise mit Hilfe der Normalverteilung zu berechnen.
Für die Zufallsvariable Sn ist a ≤ Sn ≤ b genau dann, wenn
p
a − np
np(1 − p)
so dass für genügend große n
P (a ≤ Sn ≤ b) ≈ Φ
p
≤ Sn∗ ≤ p
b − np
np(1 − p)
b − np
np(1 − p)
!
−Φ
,
p
a − np
np(1 − p)
!
ist.
Die Folge der Wahrscheinlichkeiten P (a ≤ Sn ≤ b) konvergiert umso langsamer gegen
diesen Grenzwert, ja näher die Erfolgswahrscheinlichkeit p bei Null oder bei Eins liegt.
Eine der in der Statistik gängigen Faustregeln lautet daher, dass n genügend groß ist,
wenn
np(1 − p) ≥ 9
Beispiel: In einer Prüfung werden n = 40 Fragen gestellt, die nur mit ja oder nein zu
beantworten sind. Zum Bestehen der Prüfung sind mehr als m = 30 richtige Antworten erforderlich. Wie gross ist die Wahrscheinlichkeit, dass man diese Prüfung völlig
unvorbereitet durch reines Raten der richtigen Antworten besteht?
Den Prüfungsablauf kann man als Bernoulli-Versuchsreihe mit der Erfolgswahrscheinlichkeitp = 12 für das Erraten der richtigen Antwort auf eine Frage auffassen. Sn mit
n = 40 ist dann die Anzahl der richtigen Antworten. Wegen np(1 − p) = 10 können
wir näherungsweise mir der Normalverteilung arbeiten:
!
m − np
P (Sn > m) = 1 − P (Sn ≤ m) = 1 − P (−∞ ≤ Sn ≤ m) ≈ 1 − Φ p
np(1 − p)
In unserem Fall ist also
P (S40 > 30) ≈ 1 − Φ
√ 10
√
Den Wert Φ( 10) kann man mit den meisten Mathematik- und Statistikprogrammpaketen berechnen. Mit Matlab ergibt sich
P (S40 > 30) ≈ 0, 0008
Es dürfte daher zweckmässig sein, eine solche Prüfung nicht ganz unvorbereitet anzugehen.
141
16.4 Der Grenzwertsatz von Poisson
Der Grenzwertsatz von Poisson befasst sich mit dem Verhalten einer Folge von Binominalverteilungen, bei der nicht die Erfolgswahrscheinlichkeit p, sondern die Mittelwerte
np, d.h. die mittlere Anzahl der Erfolge, für n gegen Unendlich konstant bleiben. Er
stellt er eine weitere Möglichkeit zur approximativen Berechnung der Wahrscheinlichkeiten für binominalverteilte Zufallsvariable dar.
Satz 16.2 Ist P1 , P2 , P3 , . . . eine Folge von Binominalverteilungen mit den Wahrscheinlichkeitsfunktionen
n k
n−k
für k = 0, 1, . . . , n
k pn (1 − pn )
(16.206)
fn (k) =
0
für k > n
auf der Ergebnismenge N0 mit von n abhängigen Erfolgswahrscheinlichkeiten pn so,
dass für die Mittelwerte µn = npn dieser Verteilungen
lim µn = lim npn = µ
n→∞
(16.207)
n→∞
mit einer reellen Zahl µ > 0 gilt, so konvergieren diese Wahrscheinlichkeitsfunktionen
für n → ∞ gegen die Wahrscheinlichkeitsfunktion der Poisson-Verteilung mit Parameter µ:
µk
lim fn (k) = e−µ
(16.208)
n→∞
k!
Beweis
Für eine beliebige fest vorgegebene natürliche Zahl k und alle natürlichen Zahlen
n ≥ k kann man die Formel (16.206) für die Wahrscheinlichkeitsfunktion fn (k) wie
folgt umschreiben, wobei wir die Beziehung pn = µn /n verwenden:
n k
p (1 − pn )n−k
fn (k) =
k n
n(n − 1)(n − 2) . . . (n − k + 1) µn k (1 − pn )n
=
k!
n
(1 − pn )k
µkn n n − 1
1
µn n
n−k+1
=
1
−
...
k! n n
n
(1 − pn )k
n
1
= 1 und
(1−pn )k
k
k
µ
limn→∞ k!n = µk! , so dass nur
Wegen limn→∞ pn = 0 ist limn→∞
j = 0, 1, . . . , k − 1 sowie
µn n
1−
n
für wachsendes n ermittelt werden muss.
Für jede reelle Zahl ξ gilt (s. z.B. [16]), dass
n
ξ
= eξ
lim 1 +
n→∞
n
142
es gilt limn→∞
(n−j)
n
= 1 für
noch das Verhalten des Terms
(16.209)
bzw.
lim
n→∞
1−
n
µ n
(−µ)
= lim 1 +
= e−µ .
n→∞
n
n
(16.210)
Da aber unser Term (16.209) auch noch ein von n abhängiges µn enthält, können wir
dieses Resultat nicht direkt verwenden. Wegen der Voraussetzung limn→∞ µn = µ,
steht zu erwarten, dass die Folge der Größen (16.209) ebenfalls gegen e−µ konvergiert. Um diese Vermutung aber definitiv zu beweisen, müssen wir auf die Methode
zurückgreifen, mit der man üblicherweise die Konvergenz einer Folge nachweist: Wir
geben uns eine beliebig kleine positive Zahl ε vor und müssen dazu ein von dieser Zahl
abhängiges n0 = n0 (ε) finden, so dass für alle n ≥ n0 gilt
µn n
(16.211)
− e−µ < ε
1−
n
Wegen der Stetigkeit und Monotonie der Exponentialfunktion gibt es zu unserem ε ein
δ = δ(ε) > 0, so dass
e−(µ+δ) > e−µ −
ε
2
und e−(µ−δ) < e−µ +
ε
2
(16.212)
Aufgrund der Konvergenzeigenschaft (16.210) findet man zu diesem δ ein n1 , so dass
für n ≥ n1
n
n
µ−δ
ε
−(µ+δ)
(16.213)
1 − µ+δ
und
1
−
≥
e
−
≤ e−(µ−δ) + 2ε .
n
2
n
Ausserdem gibt es wegen limn→∞ µn = µ ein n2 , so dass für alle n ≥ n2
µ − δ ≤ µn ≤ µ + δ
bzw.
n n
µ+δ
µn n
µ−δ
1−
≤ 1−
≤ 1−
n
n
n
(16.214)
Die Zahlen n1 und n2 hängen dabei indirekt über δ von ε ab : n1 = n1 (ε), n2 = n2 (ε).
Aus (16.212) , (16.213) und (16.214) folgt zusammen , dass für n ≥ n0 (ε) = max (n1 (ε), n2 (ε))
die Ungleichungen
µn n
e−µ − ε < 1 −
< e−µ + ε
n
bzw. (16.211) gelten, womit unsere Vermutung bewiesen ist.
Insgesamt ergibt sich daraus die im Satz formulierte Behauptung
lim fn (k) = e−µ
n→∞
µk
k!
♦
Als Beispiel für diese Anwendung des Grenzwertsatzes von Poisson betrachten wir die
folgende Fragestellung:
143
Bei der Produktion von Magnetbandkassetten werden von einem unendlich
langem Magnetband laufend Stücke fester Länge abgeschnitten und in Kassetten eingelegt. Bei der Produktion treten auf dem unendlich langen Band
zufällig verteilt Beschichtungsfehler auf. Eine Kassette, die ein Bandstück
mit mehr als zwei Beschichtungsfehlern enthält, sei unbrauchbar.
Wie groß ist der Prozentsatz an unbrauchbaren Kassetten bei Bandstücken
einer Länge von l = 200m , wenn bei der Bandherstellung im großen Durchschnitt b = 3 Beschichtungsfehler auf L = 10.000m Bandlänge auftreten?
Im Durchschnitt kommen damit auf eine Kassette
µ=b·
200
l
=3·
= 0, 06
L
10.000
Beschichtungsfehler. Da die Fehler auf dem gesamten Band zufällig verteilt sind, ist
die Anzahl der Fehler für das Stück in einer Kassette ebenfalls zufällig. Bekannt ist
lediglich, dass auf eine große Anzahl M von Kassetten insgesamt etwa nM ≈ M µ von
Fehlern kommen.
Zur Herleitung der Wahrscheinlichkeitsverteilung der Anzahl der Fehler pro Kassette
denken wir uns M zunächst fehlerfreie Bandstücke nebeneinander gelegt und verteilen
nacheinander zufällig nM Beschichtungsfehler darauf.
Wenn wir uns zur Beobachtung ein Bandstück B unter diesen M fest auswählen, so
ist die Wahrscheinlichkeit, dass ein Fehler bei der zufälligen Verteilung auf B gelangt,
gleich
1
,
pM =
M
denn jedes Stück hat die gleiche Chance, den Fehler abzubekommen. Die sukzessive
Verteilung von nM Fehlern kann man dann als Bernoulli-Versuchsreihe der Länge nM
auffassen, mit der Erfolgswahrscheinlichkeit pM dafür, dass das Stück B mit einem
Fehler bedacht wird. Die Gesamtzahl der Fehler auf B entspricht daher der Summe
der Erfolge auf dieser Bernoulli-Versuchsreihe und das Wahrscheinlichkeitsgesetz ist
die Binominalverteilung.
Die Wahrscheinlichkeit, dass das Bandstück B genau k Fehler enthält, ist
nM k
pM (1 − pM )nM −k
(16.215)
fnM (k) =
k
Uns interessiert das Verhalten der Wahrscheinlichkeiten (16.215) für M → ∞ unter
der Annahme, dass sich die durchschnittliche Anzahl µM der Fehler pro Band bei M
Bändern immer mehr der Durchschnittszahl µ für die Gesamtproduktion annähert,
d.h.
nM
= lim nM · pM = µ
lim µM = lim
M →∞
M →∞
M →∞ M
Da bekanntlich mit einer Folge auch jede unendliche Teilfolge konvergiert, liefert uns
der Grenzwertsatz von Poisson
lim fnM (k) = f (k) = e−µ
M →∞
144
µk
k!
D.h. die Anzahl der Beschichtungsfehler auf einer zufällig aus der Gesamtproduktion
(charakterisiert durch M → ∞) ausgewählten Kassette ist Poisson-verteilt mit Parameter µ = 0, 06 und die Wahrscheinlichkeit, dass sie mehr als zwei Beschichtungsfehler
enthält, gleich
∞
X
f (k) = 1 − f (0) − f (1) − f (2) ≈ 0, 000034.
k=3
Wenn man relative Häufigkeiten mit Wahrscheinlichkeiten gleichgesetzt, so bedeutet
das, dass etwa 0,003 Prozent aller produzierten Kassetten unbrauchbar sind.
16.5 Die eindimensionale Irrfahrt
Die eindimensionale Irrfahrt ist das einfachste Modell zur mathematischen Beschreibung der Brownschen Bewegung: Ein Partikel bewegt sich in festen Zeittakten auf den
ganzzahligen Punkten der reellen Zahlenachse, wobei es jeweils entweder zum linken
oder zum rechten Nachbarpunkt springt. Die Auswahl der Sprungrichtung ist dabei
vom Zufall abhängig.
Wenn wir annehmen, dass ein Sprung nach rechts stets mit der gleichen Wahrscheinlichkeit p und einer nach links demgemäß mit Wahrscheinlichkeit q = 1 − p erfolgt und
die Sprungrichtungen stochastisch unabhängig voneinander sind, so können wir die
Folge der Sprungrichtungen als eine Bernoulli-Versuchsreihe mit der Ergebnismenge
Ω = {δ = (δ1 , δ2 , . . .); δk ∈ {−1, 1}}
modellieren, wobei δk = 1 dafür steht, dass der k-te Sprung nach rechts erfolgt und
δk = −1 dafür, dass er zum linken Nachbarpunkt geht. Die Position des Partikels
nach dem n-ten Sprung ist dann eine Zufallsvariable Sn .
Startet das Partikel aus der Position a ∈ ZZ , so sind die Zufallsvariablen S1 , S2 , . . .
gegeben durch
S1 (δ)
S2 (δ)
= a + δ1
= a + δ1 + δ2
..
.
Sn (δ)
= a + δ1 + . . . δn = Sn−1 (δ) + δn
oder unter Verwendung der Zustandsvariablen Xk (δ) = δk und der konstanten Funktion S0 (δ) = a
Sn+1 = Sn + Xn+1
(16.216)
Trägt man bei fest vorgegebenem δ = (δ1 , δ2 , . . .) die Postitionen S1 (δ1 ), S2 (δ2 ) . . . als
Punkte in einem kartesischen Koordinatensystem über den Abzissenwerten 1, 2, . . . ab
und verbindet man aufeinanderfolgende Punkte mit Geraden, so ergibt sich etwa das
in Abbildung 23 dargestellte Bild.
Mit dem Gedanken im Hintergrund, dass sich die Zick-Zack-Bewegung der Kurve in
dieser Abbildung zufällig entwickelt, ist es offensichtlich, warum die Folge der Zufallsvariablen S0 , S1 , S2 , . . . eine (eindimensionale) Irrfahrt heißt.
145
6
2
a = 1r
@
0
-1
@
r
@
@
@r
1@
@
2
r
3
4
r
@
@
@r
5
6
n
@
@r
Abbildung 23: Die eindimensionale Irrfahrt
16.5.1 Gewinnchancen beim Roulette
Wie groß ist die Wahrscheinlichkeit, dass Sie es schaffen, mit einem Startkapital von
20 Euro durch Roulettespielen auf ein Endkapital von 100 Euro zu kommen?
Diese Wahrscheinlichkeit hängt natürlich von der verfolgten Strategie ab, d.h. einmal,
auf welche Zahl- oder Farbkombination man setzt und zum andern, wieviel man pro
Runde einsetzt. Wir vereinfachen hier das Problem drastisch, indem wir annehmen,
dass wir in jeder Runde stets auf Rot“ setzen und dass es keine Sonderregelung für
”
den Fall gibt, dass die Null (Zero) auftritt.
Mit Wahrscheinlichkeit p = 18/37 erscheint Rot“ und man erhält seinen Einsatz
”
plus den gleichen Betrag als Gewinn. Der Kapitalbestand erhöht sich damit um den
Einsatz. Mit Wahrscheinlichkeit q = 19/37 kommt Schwarz“ oder Zero“ und der
”
”
Kapitalbestand vermindert sich um den Einsatz.
Was die Höhe des Einsatzes anbelangt, so gibt es zwei Extremfälle: die vorsichtige und
die kühne Strategie. Bei der kühnen Strategie setzt man bei jeder Runde soviel aus
dem momentanen Kapitalbestand, dass man im Fall des Gewinns so nahe wie möglich
an das vorgegebene Zielkapital z (=100 Euro) herankommt. Bei der vorsichtigen
Strategie setzt man in jeder Runde immer genau 1 Euro.
Wir behandeln hier die Letztere. Die Lösung für die kühne Strategie findet man im
Skript [29] zur Vorlesung Wahrscheinlichkeitsrechnung II.
16.5.2 Die vorsichtige Strategie
Wenn man δk = ±1 als Gewinn bzw Verlust in der k-ten Runde und a als das Startkapital interpretiert, so stellen die Zufallsvariablen S1 , S2 , . . . der eindimensionalen Irrfahrt
die Kapitalbestände nach den jeweiligen Runden dar.
Ist z das vorgegebene Zielkapital, so interessiert uns das Ereignis Ga ( Gewinn bei
”
Startkapital a“), dass die Kurve der eindimensionalen Irrfahrt irgendwann einmal das
146
Niveau Sn = z erreicht, ohne vorher auf das Niveau Sk = 0 abzusinken, denn letzteres
würde bedeuten, dass man kein Kapital zum Einsetzen mehr zur Verfügung hat, oder
— mit andern Worten — das Spiel verloren hat.
6
z
s
s
@
s
@
a s
s
@
@s
@
@
@s
s
@
s
@
@s
s
@
@s
-
1
2
3
n
Abbildung 24: Die vorsichtige Strategie
Die Menge Ga ist also die Vereinigung aller Mengen der Form
(S0 = a) ∩ (S1 > 0) ∩ (S2 > 0) ∩ . . . ∩ (Sn−1 > 0) ∩ (Sn = z)
über die Indizes n = 1, 2, . . .
Zur Berechnung der Wahrscheinlichkeiten
pa = P (Ga )
(16.217)
betrachten wir die Gewinnaussichten nach dem Ende der ersten Runde. Die Ereignisse
(X1 = 1) und (X1 = −1) , dass die erste Runde gewonnen bzw verloren wird, bilden
eine Partition der Menge Ω aller Folgen δ = (δ1 , δ2 , . . .):
(X1 = 1) + (X1 = −1) = {(1, δ2 , . . .) ; δk = ±1} + {−1, δ2 , . . .) ; δk = ±1} = Ω
und besitzen die Wahrscheinlichkeiten P (X1 = 1) = p und P (X1 = −1) = q für den
Gewinn bzw den Verlust einer Runde.
147
Die Formel (4.35) von der totalen Wahrscheinlichkeit lautet für diesen Fall also
P (Ga ) = P (Ga |(X1 = 1))P (X1 = 1) + P (Ga |(X1 = −1))P (X1 = −1)
= p P (Ga |X1 = 1) + q P (Ga |X1 = −1)
(16.218)
Zur Bestimmung der bedingten Wahrscheinlichkeiten P (Ga |X1 = 1) und P (Ga |X1 =
−1) lassen wir uns von der Abbildung 24 leiten.
Da die einzelnen Spielrunden als Einzelexperimente einer Bernoulli-Versuchsreihe stochastisch unabhängig angenommen werden, hat das Ergebnis der ersten Runde keinen
Einfluss auf die nachfolgenden Runden. Wenn man das Geschehen ab der zweiten
Runde betrachtet, hat man daher wieder eine unendliche Bernoulli-Versuchsreihe mit
der gleichen Erfolgswahrscheinlichkeit p vor sich und die Bedingungen (X1 = 1) bzw
(X1 = −1) besagen (vgl. Abbildung 24), dass man auf dieser Bernoulli-Versuchsreihe
eine Irrfahrt mit dem Startzustand a + 1 bzw a − 1 betrachtet. Die bedingten Wahrscheinlichkeiten P (Ga |X1 = 1) bzw P (Ga |X1 = −1) müssen daher mit den unbedingten Wahrscheinlichkeiten P (Ga+1 ) bzw P (Ga−1 ) dafür übereinstimmen, dass man mit
Startkapital a + 1 bzw a − 1 das Ziel z erreicht. Die Gleichung (16.218) lautet damit
P (Ga ) = p P (Ga+1 ) + q P (Ga−1 )
oder unter Verwendung von (16.217)
pa = p pa+1 + q pa−1
(16.219)
Man kann diese Argumentationskette natürlich streng mathematisch beweisen, wir
verzichten aber im Rahmen dieser Vorlesung darauf. Der Beweis wird in der Fortsetzungsvorlesung [29] über Markoffprozesse geführt.
Die Formel (16.219) ist nur für ein Startkapital 0 < a < z richtig. Da man mit
Startkapital a = 0 niemals spielen und daher auch nicht gewinnen kann, legen wir
p0 = P (G0 ) = 0
fest. Ist a = z , so hat man ohne zu spielen bereits sein Ziel erreicht, so dass wir
pz = P (Gz ) = 1
setzen können.
Bringt man alle Terme der Gleichung (16.219) auf die rechte Seite, so ergibt sich,
dass die Wahrscheinlichkeiten pa = P (Ga ) die Lösung einer homogenen linearen
Differenzengleichung mit konstanten Koeffizienten
p pa+1 − pa + q pa−1 = 0
(16.220)
mit den Randbedingungen
p0 = 0
und pz = 1
sind.
148
(16.221)
Lineare Differenzengleichungen. Bei einer homogenen linearen Differenzengleichung mit konstanten Koeffizienten [22] zweiter Ordnung wie
b2 xn + b1 xn−1 + b0 xn−2 = 0
(16.222)
ist eine Zahlenfolge x0 , x1 , x2 , . . . gesucht, die für alle n die Gleichung (16.222) erfüllt.
Ein Ansatz der Form xn = z n ergibt in (16.222) eingesetzt
(b2 z 2 + b1 z + b0 )z n−2 = 0 ,
woraus man ersieht, dass für eine Lösung von (16.222) z eine Nullstelle des sogenannten
charakteristischen Polynoms
C(z) = b2 z 2 + b1 z + b0
sein muss. Genauer gilt (s. [22]):
• Besitzt das charakteristische Polynom zwei verschiedene Nullstellen z1 und z2 ,
so sind die Lösungen von (16.222) von der Form
xn = c1 z1n + c2 z2n
• Besitzt das charakteristische Polynom eine doppelte Nullstelle z0 , so sind die
Lösungen von (16.222) von der Form
xn = c1 z0n + c2 nz0n
Die Skalarfaktoren c1 und c2 sind dabei noch frei wählbar.
Die vorsichtige Strategie. Das charakteristische Polynom zu (16.220) ist pz 2 −z +q,
das wegen p + q = 1 die Nullstellen z1 = 1 und z2 = q/p besitzt. Ist p 6= 1/2, so ist
q/p 6= 1, d.h. die Nullstellen sind verschieden. Im Fall p = q = 1/2 hat man es mit der
doppelten Nullstelle z0 = 1 zu tun.
1. Fall p 6= 1/2: Die allgemeine Lösung von (16.220) ist hier
pa = c1 + c2 z2a
und die Randbedingungen (16.221) resultieren in dem linearen Gleichungssystem
p0
pz
= c1 + c2
= c1 + c2 z2z
=
=
0
0
für die Skalarfaktoren c1 und c2 , woraus sich die Lösung
a
q
−1
p
p a = z
q
−1
p
149
(16.223)
errechnet.
Die Wahrscheinlichkeit, aus 20 EURO auf diese Weise 100 zu machen, ist nach dieser
Formel etwa
p20 ≈ 0.0088
2. Fall p = 1/2: Hier ist die allgemeine Lösung pa = c1 + c2 a, was zusammen mit den
Randbedingungen
a
pa =
z
ergibt. Sind Verlust- und Gewinnwahrscheinlichkeit für jede Runde gleich, so ist die
Wahrscheinlichkeit, das Zielkapital zu erreichen, proportional zur Höhe des eingesetzten Startkapitals.
150
Literatur
[1] Christoph Bandelow: Einführung in die Wahrscheinlichkeitstheorie. B.I. Wissenschaftsverlag, Mannheim 1989
[2] Frank Beichelt: Stochastik für Ingenieure. Teubner, Stuttgart 1995
[3] Karl Bosch: Elementare Einführung in die Wahrscheinlichkeitsrechnung. Vieweg,
Braunschweig 1979
[4] Theodor Bröcker: Analysis I. Heidelberg 1995
[5] Theodor Bröker: Analysis II Heidelberg 1995
[6] Harro Heuser: Lehrbuch der Analysis, Teil 1 Stuttgart 1995
[7] Harro Heuser: Lehrbuch der Analysis, Teil 2 Stuttgart 1995
[8] Kai Lai Chung: Elementare Wahrscheinlichkeitstheorie und stochastische Prozesse. Springer, Berlin 1978
[9] H. Dinges, H. Rost: Prizipien der Stochastik. Teubner, Stuttgart 1982
[10] William Feller: An Introduction to Probability Theory and its Applications I,II.
Wiley, New York 1968
[11] Alberto Leon-Garcia: Probability and Random Processes for Electrical Engineering. Addison-Wesley, Reading Mass. 1994
[12] B. W. Gnedenko: Lehrbuch der Wahrscheinlichkeitsrechnung. Harri Deutsch,
Thun 1978
[13] Hans Grabmüller: Mathematik für Ingenieure I-III. Vorlesungsskript, Erlangen
1999–2001, http://www.am.uni-erlangen.de/˜script
[14] M. Greiner, G. Tinhofer: Stochastik für Studienanfänger der Informatik. Hanser,
München 1996
[15] Franz Heigl, Jürgen Feuerpfeil: Stochastik, Leistungskurs. Bayerischer Schulbuch
Verlag, München 1975.
[16] K. Knopp. Theorie und Anwendungen der unendlichen Reihen. Springer, Berlin
1964.
[17] A. Kolmogoroff. Grundbegriffe der Wahrscheinlichkeitsrechnung.
[18] Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Vieweg, Braunschweig 1988
[19] Klaus Krickeberg: Wahrscheinlichkeitstheorie. Teubner, Stuttgart 1963
151
[20] Klaus Krickeberg, Herbert Ziezold: Stochastische Methoden. Springer Hochschultext, Berlin 1977
[21] Rudolf Mathar, Dietmar Pfeifer: Stochastik für Informatiker. Teubner, Stuttgart
1990
[22] Herbert Meschkowski: Differenzengleichungen. Göttingen 1959
[23] Rudolph Nelson: Probability, Stochastic Processes, and Queuing Theory. Springer,
New York 1995
[24] Athanasios Papoulis: Probability, Random Variables, and Stochastic Processes.
McGraw-Hill, Tokyo 1965
[25] Johann Pfanzagl: Elementare Wahrscheinlichkeitsrechnung. Walter de Gruyter,
Berlin 1991
[26] Georg Pflug: Stochastische Modelle in der Informatik. Teubner, Stuttgart 1986
[27] Alfréd Rényi: Wahrscheinlichkeitsrechnung. Berlin 1973
[28] Stefan Schäffler, Thomas F. Sturm: Wahrscheinlichkeitstheorie und Statistik
I,II. Schriftenreihe des Instituts für Angewandte Mathematik der TU München,
München 1994
[29] Friedrich Graef: Wahrscheinlichkeitsrechnung II für Informatiker und Ingenieure. Skript zur gleichnamigen Vorlesung, Erlangen 2002, http://www2.am.unierlangen.de
[30] Larry Wall, Randal L. Schwartz: Programming in Perl. O’Reilly, Sebastopol CA,
1990
152
Index
Abbildung
messbar, 82
Algebra
Mengen-, 11
sigma-, 14
Axiom, 12
Axiome
Kolmogoroff, 15
Elementar-, 11
global stochastisch unabhängig, 33
Komplementär-, 12
monotone Folge, 15
sicheres, 11
stochastisch unabhängig, 32
Summe, 13
unmögliches, 11
Verbund-, 10
Erfolgswahrscheinlichkeit, 138
Ergebnis, 8
Ergebnismenge, 8
Ergebnisraum, 8
Erwartungswert, 54, 114
diskrete Zufallsvariable, 108
Rechenregeln, 115
Experiment
Bernoulli-, 34
Produkt-, 33
stochastisch unabhängig, 72
zweistufiges, 69
Bayes, 28
Formel von, 28
Bernoulli
Experiment, 34
Versuchsreihe, 34
Bernoulli-Experiment, 137
Bernoulli-Versuchsreihe, 138
unendliche, 138
Bertrand, 26, 58
Paradoxon, 26, 58
Binomialformel, 20
Binomialkoeffizient, 20
Binomialverteilung
Berechnung, 141
Borelsche Mengen, 62
Faltung, 54, 99
Faltungsdichte, 99
Faltungsintegral, 99
Fermat, Pierre, 5
Funktion
momenterzeugende, 80
Funktionaldeterminante, 93
Dichte, 65
bedingte, 69
Exponentialverteilung, 77
Marginal-, 89
Rand-, 89
standardisierte Normalverteilung, 67
Transformationssatz, 92, 94
uniforme Verteilung, 66, 77
Dichtefunktion, 65
Differenzengleichung, 149
disjunkt, 11, 32
paarweise, 13
Galton-Brett, 9, 19, 35
reguläres, 19
Gedächtnislosigkeit, 39, 75
Gleichverteilung, 63
Grenzwertsatz
Moivre-Laplace, 140
Poisson, 142
zentraler, 127
Grenzwertsatz, zentraler, 127
Große Zahlen
empirisches Gesetz, 6
große Zahlen
eindimensionale Irrfahrt, 145
Einheitsvektor, gaussischer, 129
Ereignis, 5, 9, 10, 15
Additionsregel, 13
153
Gesetz, 138
schwaches Gesetz, 140
starkes Gesetz, 140
zentrales, 49, 79, 114
momenterzeugende Funktion, 47
Morgansche Regeln, 11
Häufigkeit
absolute, 6
bedingte relative, 25
relative, 6, 139
Nachwirkungsfreiheit, 41
Normalverteilung
eindimensional, 126
eindimensionale, 126
Mittelwert, 126
n-dimensionale standardisierte, 129
standardisierte, 67, 126
stochastische Unabhängigkeit, 133
Varianz, 126
Indikatorfunktion, 64
Integral
Lebesgue-, 64
Riemann-, 64
Intervall, 61
eindimensionales, 61
Inhalt, 62
n-dimensionales, 61
zweidimensionales, 61
Ordinarität, 41
P-fast überall nichtnegativ, 110
p-integrabel, 107
P-Integral, 106, 110
Treppenfunktion, 107
Zufallsvariable, 111
Parametrisierung, 93
Parametrisierungssatz, 93
Partition, 28
Pascal, Blaise, 5
Produkt
σ-Algebren, 34
cartesisches, 33
Wahrscheinlichkeiten, 34
Wahrscheinlichkeitsraum, 34
Produktexperiment, 33
Produktraum, 34
Kolmogoroff, 15
Kombinatorik, 18
Komposition, 86, 112
Kovarianz, 121
Bilinearität, 124
Rechenregeln, 123
Kovarianzmatrix, 125
Laplace, Pierre Simon de, 17
Laplace-Experiment, 18
Laplace-Transformation, 80
Lebensdauern, 38
Lebesgue-Integral, 111
Lebesguesches Maß, 63
Lotto, 23
Roulette, 146
Gewinnchancen, 146
kühne Strategie, 146
vorsichtige Strategie, 146
Méré, Chevalier de, 5
Mengenalgebra, 11
Mittelwert, 79, 113
diskrete Verteilung, 45
Exponentialverteilung, 80
geometrische Verteilung, 46
Normalverteilung, 79
Poissonverteilung, 46
statistische Interpretation, 46
Moment
absolutes, 47, 78, 113
Schubladenmodelle, 21
Schwerpunkt, 45
Stammfunktion, 77
Stationarität, 41
Steinerscher Satz, 48
stochastisch unabhängig
Zufallsexperimente, 33
Stochastische Unabhängigkeit
154
Zufallsvariable, 90
stochastische Unabhängigkeit, 32
globale, 33
Zufallsvariable, 53
Substitutionsformel, 93
Summe der Erfolge, 35, 139
Poisson-, 40
Rand-, 89
Rayleigh-, 85
uniforme, 63, 73
Verteilungsfunktion, 73
Zufallsgröße, 82
Verteilungsfunktion, 73
totale Wahrscheinlichkeit, 28
Transformation, affin lineare, 98
Transformationssatz, 92, 94
Treppenfunktion, 106
Normaldarstellung, 107
p-integrabel, 107
P-Integral, 107
Würfel, 8
regulärer, 17
Wahrscheinlichkeit, 15
a posteriori, 29
a priori, 29
bedingte, 25
Dichte, 65
diskrete, 36
Ereignis, 6
Erfolgs-, 34
geometrische, 57
Produkt-, 34
totale, 28
Wahrscheinlichkeitsdichte, 65
Wahrscheinlichkeitsfunktion, 36
Wahrscheinlichkeitsraum, 8, 15
diskreter, 36
Wahrscheinlichkeitsverteilung, 15
Wartezeiten, 38
Umkehrabbildung, 93
Ungleichung
Tschebyscheff, 48, 119
Urbildmengen, 81
Urnenmodelle, 21
Varianz, 79, 114, 118
diskrete Verteilung, 48
Exponentialverteilung, 80
geometrische Vereilung, 48
Normalverteilung, 79
Poissonverteilung, 48
Rechenregeln, 120
Verbundereignis, 10
Versuchsreihe, 34
Bernoulli-, 34
Verteilung
absolutstetige, 66
Binomial-, 38
Charakterisierung, 73
Dichte, 66
diskrete, 45, 77
eindimensional, 73
Exponential-, 74
geometrische, 38
Gleich-, 63
hypergeometrische, 38
Laplace-, 37
Marginal-, 89
n-dimensionale, 63
Zeitpunkte
zufällige, 40
Zielscheibe, 84
Zufallsexperiment, 5
Zufallsgröße, 82
Komposition, 112
Verteilung, 82
Zufallsvariable, 50, 83
diskrete, 50
Erwartungswert, 114
Faltung, 99
Funktionen von, 115
Kovarianz, 121
n-dimensionale, 86
P-Integral, 110, 111
stochastische Unabhängigkeit, 90
Varianz, 118
155
Verteilung, 52
Zufallsvariablen
Funktionen von, 86
Zufallsvektor, 86
Komponenten, 87
Kovarianzmatrix, 125
Zustandsvariable, 137
156