Inhaltsverzeichnis

Werbung
Inhaltsverzeichnis
Einleitung
1
1. Kombinatorik
9
1.1
Symbole der Kombinatorik
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.2
Einordnen von Objekten. Schrittweises Spezifizieren. . . . . . . . . . . . . . . . . . .
12
1.3
Das Prinzip des Schäfers. Äquivalenzklassen gleicher Mächtigkeit . . . . . . . . . . .
12
1.4
Permutationsgruppen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
1.5
Teilchen–Statistiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2. Die klassischen Verteilungen
21
2.1
Einige Approximationsformeln
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.2
Die Gewichte der Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.3
Einige kontinuierliche Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
2.4
Unabhängige identisch verteilte reellwertige Zufallsgrößen . . . . . . . . . . . . . . .
31
2.5
Zur Konstruktion des Poissonprozesses . . . . . . . . . . . . . . . . . . . . . . . . . .
35
2.6
Beta–Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
2.7
Approximative Normalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
2.8
Abnahmeprüfung, Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . .
48
Überleitung zum 3. Kapitel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
3. Erwartungswert und Kovarianz
53
3.1
Der Erwartungswert als lineares Funktional . . . . . . . . . . . . . . . . . . . . . . .
54
3.2
Sätze aus der Integrationstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
3.3
Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
3.4
Beispiele; symmetrisch abhängige Zufallsgrößen . . . . . . . . . . . . . . . . . . . . .
69
3.5
Gaußische Vektoren
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
3.6
Die Tschebyschevsche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
3.7
Lokationsschätzer
82
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4. Zufälligkeit, Entropie und Information
86
4.1
Unabhängige Zufallsgrößen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
4.2
Analytische Eigenschaften des Entropiefunktionals . . . . . . . . . . . . . . . . . . .
92
4.3
Die Entropie als Maßzahl für Zufälligkeit; Simulation . . . . . . . . . . . . . . . . . .
97
4.4
Exkurs : Konvexe Funktionen, die Jensensche Ungleichung . . . . . . . . . . . . . . 102
4.5
Huffman–Codes
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.6
Gestörte Kanäle
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.7
Beweis eines Satzes von Shannon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
i
ii
5. Irrfahrten auf Graphen, diskrete Potentialtheorie
120
5.1
Beispiele für Irrfahrten auf Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.2
Dirichlet–Problem und Poisson–Problem . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.3
Exzessive Funktionen, Optimales Stoppen . . . . . . . . . . . . . . . . . . . . . . . . 131
5.4
Rekurrente Irrfahrten
5.5
Irrfahrten in kontinuierlicher Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.6
Stationäre Markov–Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
5.7
Irrfahrten und elektrische Netzwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
5.8
Einige einfache Interaktionsprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6. Bedingte Wahrscheinlichkeiten
6.1
167
Elementare bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . 167
6.2
Nichtdiskrete bedingte Erwartungen; Ereignisfelder, Mengen von Zufallsgrößen . . . 173
6.3
Bedingte Varianz
6.4
Konstruktion von Wahrscheinlichkeitsbewertungen . . . . . . . . . . . . . . . . . . . 182
6.5
Gestoppte Irrfahrten durch einen Wurzelbaum
6.6
Martingale in diskreter Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
6.7
Kolmogorovs Gesetz der großen Zahlen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
. . . . . . . . . . . . . . . . . . . . . 189
. . . . . . . . . . . . . . . . . . . . . . . . . 206
A. ANHANG : Verbandstheoretische Grundlegung
212
A.1 Boolesche Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
A.1.1 Definition und Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
A.1.2 Teilalgebren und Homomorphismen
A.1.3 Der Satz von Stone
A.1.4
. . . . . . . . . . . . . . . . . . . . . . . 216
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
Der Satz von Loomis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
A.1.5 Die abstrakte Kennzeichnung der σ–Algebren
. . . . . . . . . . . . . . . . . 228
A.2 Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
A.2.1 Das intuitive Rechnen mit Zufallsvariablen
. . . . . . . . . . . . . . . . . . . 233
A.2.2 Darstellungstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
A.3 Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
A.3.1 Verteilungen auf polnischen Räumen . . . . . . . . . . . . . . . . . . . . . . . 256
A.3.2 σ–Vollständigkeit und σ–Additivität . . . . . . . . . . . . . . . . . . . . . . . 260
c Prof. Dr. H. Dinges,
18. Dezember 1998
Stochastik für Informatiker
(Prof. Dr. H. Dinges,
WS 98/99
Frankfurt a.M.)
Einleitung
Die Wahrscheinlichkeitstheorie ist nicht dafür da, dem Zufall ein Schnippchen zu
schlagen. Sie entwickelt eine Sprache, die es erlaubt, über Zufälliges mit Vernunft zu
reden. Mathematik treiben heißt, daß man mit den Gegenständen des Denkens operiert und rechnet. Wir wollen hier mit Zufallsgrößen und ihren Verteilungen rechnen,
insbesondere mit zufälligen Ereignissen und ihren Wahrscheinlichkeiten. Reellwertige
Zufallsgrößen und ihre Erwartungswerte sind begrifflich oft ähnlich aufzufassen wie
zufällige Ereignisse mit ihren Wahrscheinlichkeiten. Wir betrachten Zufallsgrößen mit
Werten in abstrakten Mengen E, die zunächst als abzählbar angenommen werden
und später auch sogenannte polnische Räume sein können.
Beispiel : Ein Stoß Karten wird gut gemischt. Der Spieler A erhält k Karten.
Was der Spieler A bekommt, ist durch eine Zufallsgröße mit Werten in der Menge
E aller k–tupel von Karten beschrieben. Das Ereignis Vier Asse in der Hand“ ist
”
ein zufälliges Ereignis. Ob es eintrifft, ist vom Zufall bestimmt. Die Anzahl der Asse
in der Hand ist eine reellwertige Zufallsgröße.
Zufälligen Ereignissen kann man (mit mehr oder weniger Verstand) Wahrscheinlichkeiten zuordnen; Zufallsgrößen kann man (mit mehr oder weniger Verstand)
Verteilungen zuordnen. Die Zuordnung von Wahrscheinlichkeiten und Verteilungen
gründet sich immer auf Hypothesen.
Das Berechnen von Verteilungen und Wahrscheinlichkeiten unter gewissen Hypothesen ist eine Kunst, die in der Wahrscheinlichkeitstheorie gepflegt wird. Man kann
dabei mathematische Fehler machen oder richtig rechnen. Wahrscheinlichkeitstheorie
ist Mathematik.
Ob die der Rechnung zugrundegelegten Hypothesen irgendeiner Wirklichkeit entsprechen, ist eine andere Frage. In der Statistik stellt man sich dieser weitergehenden
Frage; es wird nicht nur rein mathematisch operiert, sondern auch argumentiert. Es
wird nicht nur unter irgendwelchen Hypothesen gerechnet; die Hypothesen werden
auch entwickelt und in Frage gestellt.
Stochastik umfaßt Wahrscheinlichkeitstheorie und Statistik. Das Wort stammt von
Jakob Bernoulli (1654 – 1705), einem der Stammväter der Theorie. Sein berühmtes
und einflußreiches Buch (1713 posthum veröffentlicht) befaßt sich mit der ars co”
niectandi sive stochastice“. Coniectare heißt vermuten und στ oχaζσϑαi ist das
entsprechende griechische Wort. Es geht um die Kunst des vernünftigen Vermutens
in Situationen, wo der Zufall im Spiel ist oder ins Spiel gebracht werden kann.
1
2
Ob es den Zufall gibt und woher er gegebenenfalls kommt, wird in der Stochastik
selten diskutiert. Man kann auch Geschehnissen, die nach der vorherrschenden Meinung völlig deterministisch ablaufen, so gegenübertreten, als wenn Zufall im Spiele
wäre. Man sieht bei der stochastischen Betrachtungsweise manchmal mehr, worauf
es ankommt, als wenn man sich im Studium der vermuteten Gesetzmäßigkeiten festbeißt.
Die Vorlesung wendet sich nicht an solche Studenten, die möglichst schnell in ein
Gebiet der aktuellen Forschung eindringen wollen. Sie greift weder in irgendwelche
Tiefen mathematischen Schließens noch in irgenwelche Höhen statistischer Argumentationskunst. Wir diskutieren keine speziellen Fragen der statistischen Praxis; und
wir wollen uns andererseits nicht in der mathematischen Grundlegung verlieren.
Einige grundlegende Ergebnisse der Maßtheorie wollen wir ohne Beweis benützen.
Der wichtigste Satz ist der über die Existenz des Erwartungswerts einer beliebigen
positiven Zufallsgröße und der Satz über die Existenz von Wahrscheinlichkeitsmaßen
auf Produkträumen (gemeinsame Verteilungen von Zufallsgrößen). Die Beweistechniken der Maßtheorie werden wir nicht entwickeln; die Resultate, die wir brauchen,
sind auch ohne Beweis verständlich.
In den Vorlesungen sollen vor allem auch die Verbindungen der Wahrscheinlichkeitstheorie zu den für jedermann wichtigen mathematischen Disziplinen aufgezeigt
werden: Kombinatorik, Analysis, lineare Algebra. Außerdem soll Interesse geweckt
werden für Gebiete wie Informationstheorie, Warteschlangentheorie, Graphentheorie
u.dgl.
Das Programm für die ersten Wochen:
I. Die klassischen Techniken des Abz ählens. Binomial– und Multinomialkoeffizienten werden in stochastische Zusammenhänge gestellt. Die Künste des Abzählens
werden in Verbindung mit der elementaren Theorie der Permutationsgruppen gebracht.
II. Die klassischen Verteilungen. Die Stirling–Formel wird sich bei der Behandlung der Binomialverteilungen und der Poissonverteilungen nützlich erweisen.
In der Normalverteilung lernen wir eine erste und zwar eine besonders wichtige Verteilung auf einem nichtabzählbaren Raum kennen.
III. Erwartungswert und Varianz. Existenz des Erwartungswerts; einige
Grundtatsachen aus der Integrationstheorie werden ohne Beweis zur Sprache kommen. Der Begriff der Kovarianzmatrix wird Verbindungen zur linearen Algebra aufzeigen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
3
Einleitung
IV. Zufällige Wege durch binäre Bäume. In besonders einfachen Fällen werden Fragen der Simulation und der Codierung erörtert. Der Begriff der Entropie
(relative Entropie, Information) wird eine zentrale Rolle spielen.
Ein erster Blick auf zentrale Begriffsbildungen
Definition :
Ein Zufallsmechanismus heißt ein Laplace–Mechanismus, wenn er
aus einer endlichen Menge E ein Element auswählt, so daß jedes x, x ∈ E,
dieselbe Chance hat. Das Zufallsgeschehen wird durch eine E–wertige Zufallsgröße
X beschrieben.
Für jede Teilmenge B, B ⊂ E, gilt
Ws(X ∈ B) =
|B|
Anzahl der günstigen Fälle
=
.
|E|
Anzahl der möglichen Fälle
Die Vorstellung von einem Laplace–Mechanismus beinhaltet, daß man ihn mehrmals
unabhängig betätigen kann. Das Zufallsgeschehen wird durch
X = (X1 , . . . , Xn ), ein n–tupel von E–wertigen
Zufallsgrößen oder eine E × E × · · · × E–wertige Zufallsgröße beschrieben.
Unabhängigkeit bedeutet in diesem Fall, daß X = (X 1 , . . . , Xn ) selbst wieder eine
Laplace–Variable ist; jedes n–tupel von Punkten in E hat dieselbe Chance.
Beispiel : Ein Laplace–Würfel wird 4–mal geworfen. Was ist die Wahrscheinlichkeit des Ereignisses A, daß mindestens eine 6 auftritt.
Ein Paar von Laplace–Würfeln wird 24–mal geworfen. Was ist die Wahrscheinlichkeit
e daß mindestens eine Doppelsechs auftritt.
des Ereignisses A,
Lösung :
1) Ws(A) = 1 − Ws (nicht A)
= 1 − Ws(X1 6= 6, X2 6= 6, X3 6= 6, X4 6= 6)
4
= 1− 1−
= 1 − 65
nach der Näherungsformel
(1 − x)n ≈ e−nx ,
1
6
4
≈ 1 − e−2/3
wenn |x| klein und n groß ist .
e = 1 − Ws (nicht A)
e =1− 1−
2) Ws(A)
1
36
24
≈ 1 − e−2/3 .
Die Approximationen sind nicht sehr genau.
e ≈ 0.4914;
Genauere Zahlenwerte sind Ws(A) ≈ 0.5177; Ws( A)
1 − e−2/3 ≈ 0.4868.
c Prof. Dr. H. Dinges,
18. Dezember 1998
4
Abbildungen :
Es sei ϕ eine Abbildung
ϕ:E→F ;
ϕ : x 7−→ y = ϕ(x) .
Wenn X eine E–wertige Zufallsgröße ist, dann bezeichnet Y = ϕ(X) die F –
wertige Zufallsgröße, die im Falle, daß X den Punkt x spezifiziert, den Punkt ϕ(x)
liefert.
Bemerke : Wenn man einen binären Laplace–Mechanismus (Münzwurf) hat, dann
kann man ihn dazu benützen, eine Folge von unabhängigen
Y1 , Y 2 , . . .
zu realisieren, wobei
Ws(Y = y) = p(y)
mit p(y) ≥ 0,
P
auf F (endlich) vorgegeben werden kann
p(y) = 1 und 2N p(y) ist ganzzahlig für ein geeignetes N .
y∈F
Wie man die Beschränkung auf rationale p(y), die auch noch ein ganzzahliges
Vielfaches von
tieren.
N
1
2
sein müssen, loswird, werden wir im 4. Kapitel genau disku-
Verteilungen auf einer abzählbaren Menge
Definition :
a) E sei abzählbar. Jedem x ∈ E sei eine Zahl p(x) zugeordnet
p(x) ≥ 0
X
p(x) = 1 .
x∈E
Ein solches p(·) heißt eine Wahrscheinlichkeitsgewichtung über E.
b) Wir ordnen dann jedem B ⊆ E die Zahl
µ(B) =
X
p(x)
x∈B
zu und nennen die Mengenfunktion
µ(·) : B 7−→ µ(B)
das zur Gewichtung p(·) gehörige Wahrscheinlichkeitsmaß.
c Prof. Dr. H. Dinges,
18. Dezember 1998
5
Einleitung
Es sei X eine E–wertige Zufallsgröße. Jede Hypothese über das Zufallsgeschehen
führt zu einer Verteilung von X, (der Verteilung unter dieser Hypothese). Diese
Verteilung L(X) (das stilisierte L leitet sich von law , Verteilungsgesetz, ab) wird
durch ein Wahrscheinlichkeitsmaß µ(·) beschrieben
Ws(X ∈ B) = µ(B) =
X
µ({x}) =
x∈E
X
Ws(X = x) .
x∈B
Die Zahl µ(B) ist die Wahrscheinlichkeit (unter der betreffenden Hypothese), daß
X einen Wert in B annimmt.
In der Statistik betrachtet man die Zufallsgröße X unter konkurrierenden Hypothesen, etwa unter den Hypothesen Hϑ aus einer Familie {Hϑ : ϑ ∈ Θ}, wo Θ
eine Parametermenge ist. Man hat dann eine Schar von Verteilungen Lϑ (X):
Wsϑ (X ∈ B) = µϑ (B) =
X
µϑ ({x}) =
X
pϑ (x) .
x∈B
x∈E
Alle die pϑ (·) sind Wahrscheinlichkeitsgewichtungen
pϑ (x) ≥ 0
für alle x ∈ E ,
X
pϑ (x) = 1 .
x∈E
Wsϑ (X ∈ B) ist die Wahrscheinlichkeit des Ereignisses
Hypothese Hϑ .
{X ∈ B}
unter der
Beispiel :
Eine verbogene Münze wird geworfen. Der Wertebereich { Zahl“,
”
Wappen“} wird bequemerweise mit der Menge E = {0, 1} (1 für Zahl“, 0 für
”
”
Wappen“) identifiziert. Ein Münzwurf realisiert eine {0, 1}–wertige Zufallsgröße.
”
Ein n–tupel von Münzwürfen realisiert eine E n –wertige Zufallsgröße (X1 , . . . , Xn );
wir erhalten eine zufällige 0–1–Folge der Länge n.
Nehmen wir an, die Realisierungen seien unabhängig und identisch verteilt. Diese
Annahme schränkt die Schar der Hypothesen über L((X1 , . . . , Xn )) ein. Die Menge
der Hypothesen ist nun durch eine einzige Zahl p ∈ [0, 1] zu parametrisieren.
Wsp (Xi = 1) = p = 1 − Wsp (Xi = 0) .
Wenn δ = (δ1 , . . . , δn ) eine Null–Eins–Folge ist, dann ist
Ws((X1 , . . . , Xn ) = δ) = Wsp (X1 = δ1 , X2 = δ2 , . . . , Xn = δn )
= p|δ| (1 − p)n−|δ|
wobei |δ| die Quersumme von δ, d.h. die Anzahl der Einsen in δ bezeichnet.
c Prof. Dr. H. Dinges,
18. Dezember 1998
6
Es sei nun E nicht eine beliebige abzählbare Menge, sondern eine abzählbare
Teilmenge von IR. Die Verteilung L(X) einer E–wertigen Zufallsgröße X kann
man dann auch durch die Verteilungsfunktion beschreiben
Fϑ (x) = Wsϑ (X ≤ x) =
X
Wsϑ (X = y)
{y:y≤x}
Die Verteilungsfunktion Fϑ (·) ist eine monoton ansteigende Funktion mit
lim Fϑ (x) = 0 ,
x→−∞
lim Fϑ (x) = 1 ,
x→+∞
welche in jedem Punkte rechtsseitig stetig ist
lim Fϑ (x + h) = Fϑ (x)
h&0
für alle x ∈ IR .
Im vorliegenden Falle, wo X nur abzählbar viele Werte annehmen kann, handelt
es sich um eine reine Sprungfunktion. Der Begriff der Verteilungsfunktion
x 7−→ Fϑ (x) = Wsϑ (X ≤ x)
eignet sich aber auch dafür die Verteilung Lϑ (X) einer beliebigen IR–wertigen
Zufallsgröße X zu beschreiben. Wir werden im 2. Kapitel Beispiele sehen. Um eine
allgemeine Theorie zu entwickeln, braucht man einige Maßtheorie. In der Maßtheorie
zeigt man, daß
Wsϑ (X ∈ B)
für beliebige Borelmengen B
durch die Verteilungsfunktion Fϑ (·) eindeutig bestimmt ist. Außerdem kann man
beweisen, daß jede isotone rechtsstetige Funktion F (·) mit F (−∞) = 0, F (+∞) =
1 eine mögliche Verteilung L(X) bestimmt. Die allgemeine Theorie wird im
3. Kapitel nur angedeutet werden.
Utilitäten und erwartete Utilitäten
X sei eine E–wertige Zufallsgröße. Stellen wir uns einen Akteur vor, für den jedes
x ∈ E einen gewissen Nutzen f (x) hat; f (·) heißt die Utilitätsfunktion für diesen
Akteur. Der Zufall beschert dem Akteur den zufälligen Nutzen f (X); f (X) ist eine
reellwertige Zufallsgröße. Man schreibt
Eϑ f (X) =
X
Wsϑ (X = x)f (x)
x∈E
und nennt diese Zahl den (unter der Hypothese Hϑ ) erwarteten Nutzen; Eϑ f (X)
ist der Erwartungswert der Zufallsgröße f (X) unter der Hypothese Hϑ .
c Prof. Dr. H. Dinges,
18. Dezember 1998
7
Einleitung
Wenn f (·) auf E beschränkt ist oder wenn f (x) ≥ 0 für alle x ∈ E, dann hat
die obige unendliche Summe einen Sinn (im zweiten Fall kann der erwartete Nutzen
auch den Wert +∞ haben). Bedingt konvergente Reihen, wie etwa
1 1 1 1
+ − + − . . . = ln 2
2 3 4 5
kommen in der Theorie der Erwartungswerte nicht vor; sie können auch gar nicht vorkommen, da keine bestimmte Abzählung von E, d.h. keine bestimmte Reihenfolge
der Summanden ausgezeichnet ist.
Der erwartete Nutzen Eϑ f (X) kann interpretiert werden als der (unter der Hypothese Hϑ ) faire Preis für die Möglichkeit, den zufälligen Nutzen f (X) einzustreichen.
1−
Beispiele :
1) Es sei B eine Teilmenge von E. Dem Akteur ensteht der Nutzen = 1,
wenn ein x aus B realisiert wird und der Nutzen = 0, wenn das Ereignis
{X ∈
/ B} eintrifft. Der erwartete Nutzen ist Ws ϑ (X ∈ B).
2) Dem Akteur werden Karten gegeben. Der Nutzen f (x) der Hand“ x sei die
”
Anzahl der Asse in der Hand. f (X) ist die zufällige Anzahl der Asse in der
Hand. Eϑ f (X) ist die erwartete Anzahl der Asse in der Hand. Es gilt
Eϑ f (X) = 1 · Wsϑ (X liefert ein As)
+ 2 · Wsϑ (X liefert zwei Asse)
+ 3 · Wsϑ (X liefert drei Asse)
+ 4 · Wsϑ (X liefert vier Asse) .
Denken wir uns E irgendwie abgezählt. Stellen wir uns die Utilität f (·) durch
eine E–Spalte dargestellt und die (zur Hypothese Hϑ gehörige) Gewichtung pϑ (·)
durch eine E–Zeile. Eine Zeile mit einer Spalte im Sinne der Matrizenrechnung
multipliziert, liefert eine Zahl
pϑ f =
X
x∈E
pϑ (x)f (x) = Eϑ f (X) .
Nehmen wir an, der Akteur verfolgt mehrere Ziele (er plaziert z.B. mehrere Coupons auf einem Roulette–Tisch). Der Gewinn h(x) setzt sich additiv zusammen,
im einfachsten Fall h(x) = f (x) + g(x). Der (unter der Hypothese Hϑ erwartete)
Gesamtnutzen ist
Eϑ h(X) = Eϑ [f (X) + g(X)] = Eϑ f (X) + Eϑ g(X) .
Der Erwartungswert (unter einer festen Hypothese Hϑ ) ist ein lineares Funktional
auf dem Vektorraum aller möglichen Utilitätsfunktionen.
Intensive Beziehungen der Theorie der Erwartungswerte zur linearen Algebra werden
im 3. Kapitel entwickelt.
c Prof. Dr. H. Dinges,
18. Dezember 1998
8
Hinweis : Jeder weiß, was es heißt, daß zwei Zahlen gleich sind; jeder weiß, was
es heißt, daß zwei Mengen gleich sind. Wir wollen mit Zufallsgrößen rechnen. Wir
sparen uns grundlagentheoretische Erörterungen, was es heißen soll, daß zwei Zufallsgrößen gleich sind. Der angemessene Gleichheitsbegriff ist meistens der Begriff
der fastsicheren Gleichheit von Zufallsgrößen (bzgl. einer Schar von Hypothesen).
Der Leser sollte nicht darüber stolpern, daß in Fällen, wo allein schon aus rein logischen Gründen der Wert der reellwertigen Zufallsgröße X den Wert der Zufallsgröße
Y nicht übersteigen kann, wir dennoch schreiben X ≤ Y fast sicher. Die Anfügung
fast sicher“ dient einfach dem Hinweis, daß wir uns im Kalkül der Zufallsgrößen
”
bewegen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
1. Kombinatorik
Literatur :
H. Dinges und H. Rost:
Prinzipien der Stochastik,
Teubner Studienbücher, 1982
Kai Lai Chung:
Elementary Probability Theory with Stochastic Processes,
Undergraduate Texts in Mathematics, Springer 1974.
1.1
Symbole der Kombinatorik
Notation :
zugelassen)
k und n seien natürliche Zahlen (manchmal ist auch der Wert 0
a) k! := k(k − 1)(k − 2) . . . · 3 · 2 · 1 ;
0! = 1 = 1! .
b) [n]k = (gelesen:
n untere Faktorielle k“)
”
= n(n − 1) . . . (n − k + 1)
c) [n]k := ( n obere Faktorielle k“)
”
= n(n + 1) . . . (n + k − 1)
d)
:=
n
k
Speziell:
n
0
n(n − 1) . . . (n − k + 1)
[n]k
n!
=
=
k!
k!
k!(n − k)!
=1=
n
n
(Binomialkoeffizient
n über k“)
”
9
10
Die Binomialkoeffizienten für kleine k ≤ n schreibt man gerne als Pascals Dreieck
auf
1
1
1
1
1
1
1
3
4
6
1
3
5
1
2
1
6
4
10
15
10
1
5
20
15
1
6
1
...
Satz :
n
k
Sei n ∈ IN und k ≤ n. Dann gilt
+
n
k+1
=
n+1
k+1
.
Der Beweis kann durch einfaches Rechnen erbracht werden ( Übungsaufgabe!). Man
lernt aber mehr über Pascals
Dreieck durch eine kombinatorische Überlegung, die auf
n
der Interpretation von
beruht: Die Anzahl der k–Teilmengen einer n–Menge
k
n
ist gleich
. Das soll nun bewiesen werden.
k
Beweis : C(k, n) bezeichne die Anzahl der verschiedenen k–Mengen, die man
aus einer n–Menge auswählen kann. Offenbar gilt
C(1, n) = n ;
C(2, n) =
n(n − 1)
;
2
C(n − 1, n) = n .
Wir beweisen nun mit einem typischen kombinatorischen Argument:
C(k + 1, n + 1) = C(k, n) + C(k + 1, n) .
In der (n + 1)–Menge S sei ein Element s ∗ ausgezeichnet. Eine (k + 1)–Teilmenge
von S enthält s∗ oder sie enthält s∗ nicht. Eine (k + 1)–Menge, die s∗ enthält,
entspricht einer k–Teilmenge von S\{s ∗ }; davon gibt es C(k, n). Eine (k + 1)–
Menge, die s∗ nicht enthält, entspricht einer (k + 1)–Teilmenge von S\{s ∗ }; davon
gibt es C(k + 1, n). Damit ist die Behauptung bewiesen.
C(k + 1, n + 1) = C(k, n) + C(k + 1, n) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
1.1
11
Symbole der Kombinatorik
Korollar : (Binomischer Lehrsatz)
n
n
(a + b) = a +
n
1
a
n−1
b+
n
2
a
Für alle n gilt
n−2 2
b + ... +
n
n−1
abn−1 + bn .
Der Beweis ergibt sich leicht durch vollständige Induktion nach n mit Hilfe des
obigen Satzes. Wir bemerken die Spezialfälle:
n(n − 1)
n
n
2 = 1+n+
+
+ ... +
+1
3
n
−
1
2
n(n − 1)
n
± . . . + (−1)n−1
+ (−1)n .
0 = 1−n+
n−1
2
n
Die entsprechende Formel für mehrere Unbestimmte heißt der multinomische Lehrsatz. Die Koeffizienten bei den Monomen heißen die Multinomialkoeffizienten. Für
drei Unbestimmte haben wir
Satz :
X
n
(a + b + c) =
k1 +k2 +k3 =n
n
k1 k2 k3
a k1 b k2 c k3
mit
n
k1 k2 k3
=
n!
.
k1 !k2 !k3 !
Beweis : Man kann den Beweis durch vollständige Induktion nach n führen.
Lehrreicher ist die folgende Überlegung
(a + b + c)(a + b + c) . . . (a + b + c)
mit n Faktoren
Blindes Ausmultiplizieren liefert 3 n Monome mit dem Koeffizienten 1. In einem
Monom kommt k1 –mal a, k2 –mal b und k3 –mal c vor. k1 +k2 +k3 = n. Fixieren
wir (k1 , k2 , k3 ) ∈ ZZ+ × ZZ+ × ZZ+ mit k1 + k2 + k3 = n. Wieviele Möglichkeiten
gibt es auf die Plätze 1, 2, . . . , n Kugeln mit den Farben a, b oder c zu plazieren,
so daß genau k1 a–Kugeln, k2 b–Kugeln und die restlichen k3 = n − (k1 + k2)
n
c–Kugeln sind? Dazu wähle man zuerst die k1 Plätze für a–Kugeln. Es gibt
k1
Möglichkeiten. Unter
den
restlichen
n
−
k
Plätzen
müssen
wir
k
für
b–Kugeln
1
2
n − k1
Möglichkeiten. Insgesamt gibt es also
vorsehen. Es gibt
k2
n
k1
n − k1
k2
=
(n − k1 )!
n!
n!
=
k1 !(n − k1 )! k2 !(n − k1 − k2 )!
k1 !k2 !k3 !
Möglichkeiten.
c Prof. Dr. H. Dinges,
18. Dezember 1998
12
1.2
Einordnen von Objekten.
Schrittweises Spezifizieren.
k Objekte sollen auf n Plätze verteilt werden. Wieviele Möglichkeiten gibt es?
a) k Objekte werden k Plätze verteilt, so daß auf jedem Platz genau ein Objekt
zu liegen kommt. Es gibt k! Möglichkeiten,
z.B.
2
1
5
4
3
(für k = 5) .
k! ist auch die Menge der Permutationen von k Elementen. Jede Einordnung
entspricht einer Permutation.
b) k Objekte sollen auf n Plätze gelegt werden, so daß kein Platz mehrfach
belegt wird. Es gibt [n]k Möglichkeiten.
z.B.
1
.
5
4
.
2
3
1
2
3
4
5
6
7
(für n = 7, k = 5) .
Beweis durch schrittweises Spezifizieren: das erste Objekt findet n mögliche
Plätze; für das zweite haben wir (n − 1) mögliche Plätze; etc.
c) k Objekte werden auf n Plätze gelegt; wenn mehrere Objekte auf denselben
Platz kommen, werden sie in eine lineare Ordnung gebracht ( Türmchenbauen
”
auf n Plätzen“). Es gibt [n]k Möglichkeiten
1
3
z.B.
4
2
.
.
5
.
.
.
1
2
3
4
5
6
7
Beweis durch schrittweises Spezifizieren. Das erste Objekt findet n Plätze;
das zweite (n + 1) etc.
1.3
Das Prinzip des Schäfers.
Äquivalenzklassen gleicher Mächtigkeit.
Aufgabe : MISSISSIPPI. Wieviele verschiedenen Wörter kann man mit der ge11!
gebenen Population von Buchstaben bilden? Die Antwort 4!4!2!
wird sich unten
ergeben.
c Prof. Dr. H. Dinges,
18. Dezember 1998
1.3
Das Prinzip des Schäfers. Äquivalenzklassen gleicher Mächtigkeit
13
Zwei Beobachter treffen auf eine Herde von Schafen. Der erste Beobachter behauptet, es seien 104 Schafe. Auf die Frage des zweiten, wie er zu diesem Ergebnis
gekommen sei, antwortet er, er hätte die Anzahl der Beine gezählt und durch 4
geteilt.
Das Prinzip des Schäfers :
Die Mächtigkeit |Ω| einer Menge Ω ist zu
bestimmen. Identifiziere die Punkte ω ∈ Ω mit den Äquivalenzklassen einer Menge
(Ω∗ , ∼), wo alle Äquivalenzklassen dieselbe Mächtigkeit m haben. Dann gilt
|Ω| =
|Ω∗ |
.
m
Aufgabe :
Wieviele verschiedene Teilpopulationen vom Umfang k gibt es in
einer Grundmenge der Mächtigkeit n?
Eine Teilpopulation von E (auch Multiset genannt) wird beschrieben durch die
Vielfachheiten Z(x), mit welcher die Elemente x ∈ E in der Teilpopulation vorkommen. Z(·) ist die Abbildung E → ZZ+ , die jedem x die Vielfachheit Z(x)
zuordnet, mit welcher x in der Teilpopulation vorkommt.
Im MISSISSIPPI–Beispiel wird die Buchstabenpopulation beschrieben durch die
Funktion Z(·), die in den Punkten S“ und I“ den Wert 4, im Punkte P“
”
”
”
den Wert 2, im Punkte M“ den Wert 1 und überall sonst (auf E = Menge der la”
teinischen Buchstaben) den Wert 0 hat. Der Umfang der durch Z(·) beschriebenen
Population ist die Summe aller Z–Werte, die Quersumme“ kZk = n.
”
Nach diesen Vorbereitungen machen wir uns an die
Lösung der Aufgaben :
1) Für k = 1. In einer n–Menge gibt es genau n Teilpopulationen vom Umfang
k = 1.
2) Für k = 2. Eine Teilpopulation vom Umfang 2 ist entweder durch ein Paar
beschrieben oder durch eine Multiplizitätsfunktion, die in genau einem der n
Punkte den Wert 2 annimmt. Es gibt
n(n + 1)
n(n − 1)
+n=
2
2
Teilpopulationen vom Umfang 2.
Für k ≥ 3 wird ein unangeleitetes Abzählen kompliziert. Wir führen zwei Wege vor,
[n]k
n+k−1
führen.
=
die auf das Resultat
k
k!
c Prof. Dr. H. Dinges,
18. Dezember 1998
14
1. Methode : Erinnern wir uns ans Türmchenbauen. Jedes Türmchen liefert uns
eine Teilpopulation, wenn wir davon absehen, welche Objekte es waren, die auf den
Plätzen 1, 2, . . . , n gelandet sind. Wieviele (im alten Sinne) verschiedene Türmchen
liefern dieselbe Population?
Offenbar sind es k!. Da es [n]k verschiedene Türmchen gibt, gibt es nach dem
k
Prinzip des Schäfers [n]
k! verschiedene Teilpopulationen vom Umfang k über unserer
n–Menge der Plätze.
2. Methode :
Sei E = {1, 2, . . . , n}. Eine Teilpopulation repräsentieren wir
durch eine nichtfallende Folge wie z.B.
111335788
(k = 9) .
Wir bilden daraus die strikt steigende Folge
1 2 3 6 7 10 13 15 16
indem wir zum ersten 0 zum zweiten 1, zum dritten 2, . . . , zum k–ten Element
k − 1 dazuaddieren. Wir können so jede von 1 bis n + k − 1 aufsteigende Folge
der Länge k erhalten und die Zuordnung ist umkehrbar eindeutig. Es gibt genau
n+k−1
strikt aufsteigende Folgen von Zahlen aus {1, 2, . . . , n + k − 1}. (Hier
k
wurde das Prinzip des Schäfers nicht angewandt.)
Das Prinzip des Schäfers gibt Anlaß, an den Begriff der Äquivalenzrelation zu
erinnern. Eine binäre Relation ∼“ heißt eine Äquivalenzrelation, wenn gilt
”
(i) x ∼ x für alle x
(ii) x ∼ y =⇒ y ∼ x
(iii) x ∼ y, y ∼ z =⇒ x ∼ z
Für jedes x heißt {z : z ∼ x} = Ax die Äquivalenzklasse zu x. Zwei Äquivalenzklassen sind entweder identisch oder disjunkt. Die Gesamtheit der verschiedenen
Äquivalenzklassen liefert eine Partition der Grundmenge.
Definition: Ein ungeordnetes Paar von Teilmengen der Grundmenge Ω heißt
eine Partition von Ω, wenn A ∪ B = Ω, A ∩ B = ∅.
Ein ungeordnetes Tripel heißt Partition, wenn
A ∪ B ∪ C = Ω, A ∩ B = ∅, A ∩ C = ∅, B ∩ C = ∅ .
c Prof. Dr. H. Dinges,
18. Dezember 1998
1.3
Das Prinzip des Schäfers. Äquivalenzklassen gleicher Mächtigkeit
Wir schreiben Ω = A + B + C.
P
15
S
Wir schreiben Ω = i Ai , wenn Ω = i Ai und Ai ∩ Aj = ∅ für i 6= j, und
sprechen von einer Partition von Ω. Die nichtleeren A i heißen die Atome der
Partition. Eine Partition von Ω kann man mit einer Äquivalenzrelation über Ω
identifizieren.
Aufgabe : Ω sei eine Menge mit |Ω| = n. Wieviele verschiedene Partitionen
gibt es? Anders gefragt: Wieviele verschiedene Äquivalenzrelationen gibt es über der
Menge Ω?
Lösung für |Ω| = 4: Durch systematisches Auflisten finden wir die Antwort
15 = 1 + 6 + 3 + 4 + 1. Es gibt (soweit wir wissen) keine einfache Formel für den
allgemeinen Fall |Ω| = n.
Sei ϕ : Ω → E eine Abbildung von Ω nach E. Zu jedem y ∈ E betrachte das
volle Urbild {ω : ϕ(ω) = y} = ϕ−1 ({y}). Wir haben eine Partition
Ω=
X
ϕ−1 ({y}) .
y∈E
Die dazugehörige Äquivalenzrelation ist
ω 0 ∼ ω 00 ⇐⇒ ϕ(ω 0 ) = ϕ(ω 00 ) .
Jede Äquivalenzrelation über Ω, d.h. jede Partition von Ω kann man sich als durch
eine Abbildung entstanden denken. Man kann z.B. die Abbildung ϕ(·) wählen,
welche jedem ω seine Äquivalenzklasse zuordnet.
Lösung der MISSISSIPPI–Aufgabe : Betrachte 11 Scrabble–Klötzchen, auf
denen die Buchstaben notiert sind. Man kann sie auf 11! Weisen in Reihe legen.
Verschiedene Anordnungen der Klötzchen führen u.U. zum gleichen Wort. Zu jedem
Wort gibt es genau 4!4!2! verschiedene Anordnungen der Klötzchen. Das Prinzip des
Schäfers ist anwendbar. Wir werden auf das Prinzip in allgemeinerem Zusammenhang
nochmals zu sprechen kommen.
Aufgaben :
1) n Personen
sind versammelt. Jeder gibt jedem die Hand. Wieviele Handschläge
n(n − 1)
n
.
gibt es?
=
2
2
2) n Personen sind versammelt. Jeder klopft jedem auf die Schulter. Wie oft wird
geklopft? n(n − 1) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
16
Beachte : Wenn eine Menge abgezählt werden soll, machen Sie sich immer klar,
welches die Dinge sind, die zu zählen sind, und wann diese Dinge als gleich bzw. als
verschieden zu gelten haben!
1.4
Permutationsgruppen
Definition : Eine Permutation der Elemente einer endlichen Menge E ist eine
bijektive Abbildung von E auf sich.
E
π1
@
π2
@
R
@
- E
E
π
Permutationen kann man hintereinanderschalten. Die Gesamtheit aller Permutationen ist eine Gruppe. Sie hat die Ordnung |E|! ( volle symmetrische Gruppe“).
”
Eine Teilmenge der vollen symmetrischen Gruppe, die mit je zwei Elementen auch
das Produkt“ enthält, heißt eine Permutationsgruppe über E.
”
Für die Darstellung einer Permutation π sind verschiedene Methoden im Gebrauch.
Sei E = {a, b, c, d, e, f }. Eine Permutation π 1 wäre z.B.
π1 :
a
d
b
c
c
a
d
b
e
f
f
e
, a 7−→ d, b 7−→ c, . . .
Bequemer ist die Zyklusdarstellung desselben π 1
π1 : (a d b c) (e f ) .
Ein weiteres Beispiel: π2 = (b c) (a) (d f e).
Hintereinanderschalten von π1 und π2 (zuerst π1 dann π2 wie im Diagramm
oben) liefert das Produkt
π : (a f d c) (b) (e) .
Satz : Jede Permutation kann als Produkt von elementfremden Zyklen dargestellt
werden.
c Prof. Dr. H. Dinges,
18. Dezember 1998
1.4
17
Permutationsgruppen
Der Beweis ist offensichtlich.
..................................................
................
...........
..........
........
........
.......
.......
......
......
.
......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.....
...
.. . ......................
.
.
.
.
....
.
.
........
..
....
....
.
.
.
.
.
.
.
.
..
...
..
...
.
.
.
.
.
.
.
...
.
...........
..
.
.
.
.
...
.
.
.
.
.
.
.
...
.
.. ...
......
.
.
.
..
.
.
...
.
.
.
.
.
...........
...
.
. ...
.
.
...
.
.
.
.
.
.
.
.
...
... ...
. ...
..
.
..
.
.....
... ...
.
...
.
.
..
..
......
.
.
..
.......
... ...
.
.
.
.
...
...........................
...
... ..
...
..
..........
..
...
....
.
..
.
.
.
.
.
.
...
....
......................
..
.
...
.... .....
.
.
...
..
...
.. ....
...
..
.....
...
...
...
...
.
...
..
......
..
...
....
........
......
....
..
.
.
.
.
..
.
.....
.
.
.
.
.
.
.
.
.
.
.
................
.
.....
.. ...........
.....
......
..............
.....
.......
......
........
.......
.........
........
.
.
.
.
............
.
.
.
.
.
............................................................
1. Abzählaufgabe :
E sei eine Menge der Mächtigkeit |E| = n. Wieviele
verschiedene Permutationen gibt es, die aus genau k 1 Einerzyklen, k2 Zweierzyklen,
. . . , kn n–Zyklen besteht?
Beispiel :
n = 4. k1 = 0, k2 = 2, k3 = 0, k4 = 0. 2 · k2 = 4 = n.
Es gibt 3 Permutationen, die in der Zyklennotation genau zwei Zweierzyklen besitzen:
(1 2) (3 4); (1 3) (2 4); (1 4) (2 3).
Lösung :
Wenn k1 + 2k2 + . . . + nkn 6= n, dann gibt es gar keine.
Wenn
k1 + 2k2 + . . . + nkn = n,
dann ist die gesuchte Anzahl
n!
. (Das Prinzip des Schäfers ist anwendbar).
k 1 ! k 2 ! 2 k2 k 3 ! 3 k3 · . . . · k n ! n kn
2. Abzählaufgabe : A sei eine Menge ( Alphabet“) mit N Elementen ( Buch”
”
staben“). Ein angeordnetes n–tupel heißt ein Wort der Länge n über dem Alphabet
A. Es gibt offenbar N n verschiedene Wörter. Gegeben seien Zahlen ki mit
X
ki = n .
Wir suchen Wörter, in welchen k1 –mal der erste Buchstabe, k2 –mal der zweite, . . .
vorkommt. Wieviele verschiedene gibt es?
Antwort :
n!
=
k1 ! k 2 ! . . . k N !
n
k1 . . . k N
(Multinomialkoeffizient).
Für den Beweis empfiehlt es sich, das folgende Prinzip im Kopf zu haben.
Definition : G sei eine Permutationsgruppe über Ω. Es sei x ∈ Ω. Gx bezeichne
die Gruppe derjenigen π aus G, die x festlassen. G x heißt dann die Fixgruppe
von x.
c Prof. Dr. H. Dinges,
18. Dezember 1998
18
Definition : Man sagt von einer Permutationsgruppe G, daß sie transitiv auf
der Grundmenge Ω operiert, wenn es zu jedem Paar x, y mindestens ein π ∈ G
gibt mit π(x) = y.
Proposition : Wenn G transitiv auf Ω wirkt, dann haben alle Fixgruppen
dieselbe Mächtigkeit. |Gx | = m für alle x. Es gibt auch genau m Permutationen
in G, welche ein gegebenes x in ein gegebenes y überführen. Es gilt
|G| = m · |Ω| .
Die Anwendung auf Abzählprobleme geschieht folgendermaßen. Ω ist abzuzählen.
Man finde eine Permutationsgruppe, die transitiv auf Ω operiert. Man bestimme
die Mächtigkeit m der Fixgruppen.
Lösung der Abzählaufgabe : G sei die Gruppe aller Permutationen der Buchstaben in einem Wort der Länge n. (|G| = n!). Ω sei die Menge der Wörter mit ki
Buchstaben der i–ten Sorte. G operiert transitiv of Ω. x sei das Wort, welches
mit k1 Buchstaben der ersten Sorte beginnt, dann k 2 Buchstaben der zweiten
Sorte hat, . . .
Die Fixgruppe Gx hat k1 ! · k2 ! · . . . · kN ! Elemente
n! = (k1 ! · . . . · kN !) · |Ω| .
q.e.d.
Ein Beispiel aus der Geometrie : Es sei G die abstrakte Gruppe aller Drehungen, die einen Würfel in sich überführen. Jedes g ∈ G liefert eine Permutation
der
a) Eckenmenge E, |E| = 8
b) Menge F aller Flächen, |F | = 6
c) Menge K aller Kanten, |K| = 12.
Bestimme |G|. Außerdem: Wieviele g gibt es, die a) eine gegebene Ecke,
b) eine gegebene Fläche, c) eine gegebene Kante festlassen?
Antwort :
zu a): = 3;
zu b): = 4;
zu c): = 2
3 · |E| = 4 · |F | = 2 · |K| = 24 = |G| .
c Prof. Dr. H. Dinges,
18. Dezember 1998
1.5
19
Teilchen–Statistiken
1.5
Teilchen–Statistiken
A) n Teilchen sind auf z Zellen zu verteilen. Wenn das irgendwie bewerkstelligt
ist, sprechen die Physiker von einem Mikrozustand. Man muß zuerst fragen
1) Was sind die zulässigen Mikrozustände?
2) Wann sollen zwei Mikrozustände als gleich gelten?
Erst dann kann man fragen, wieviele gleichberechtigte“ Mikrozustände es gibt.
”
In der Tat muß man in der statistischen Physik drei Fälle unterscheiden:
1) (Boltzmann) : Die Teilchen haben ihre Identität. Zwei Mikrozustände sind nur
dann gleich, wenn jedes Teilchen in derselben Zelle liegt.
2) (Bose–Einstein) : Zwei Mikrozustände sollen gleich heißen, wenn die Besetzungszahlen aller Zellen dieselben sind.
3) (Fermi–Dirac) : Zulässige Mikrozustände sind nur die, wo jede Zelle höchstens
einmal besetzt ist ( Pauli–Verbot“). Der Mikrozustand orientiert sich ebenso”
wenig wie in 2) an einer Individualität der besetzenden Teilchen.
zu Fall 1) : Es gibt NB (z, n) = z n gleichberechtigte Mikrozustände.
n
P n1 , . . . , n z
ni –mal besetzt ist. ( zi=1 ni = n).
Davon haben übrigens
die Eigenschaft, daß die i–te Zelle genau
[z]n
gleichberechtigte Mikrozustände.
n!
Die Mikrozustände entsprechen den Teilpopulationen vom Umfang n aus einer
Grundmenge mit z Elementen.
zu Fall 2) : Es gibt NBE (z, n) =
[z]n
z
gleichberechtigte Mikrozustände.
=
zu Fall 3) : Es gibt NF D (z, n) =
n
n!
Die Mikrozustände entsprechen den n–Teilmengen einer Grundmenge mit z
Elementen.
Die Anzahlen N (z, n) kann man auch durch Induktion nach z bestimmen. Wenn
man schon weiß, wieviele gleichberechtigte Mikrozstände es für z − 1 Zellen gibt,
dann gewinnt man N (z, n), indem man über alle Möglichkeiten summiert, wie man
die Besetzung der z–ten Zelle spezifizieren kann. Man überlegt zunächst N (1, n)
und hat dann für z > 1
c Prof. Dr. H. Dinges,
18. Dezember 1998
20
(i) NB (z, n) =
Pn
s=0
(ii) NBE (z, n) =
Pn
n
s
NB (z − 1, n − s)
s=0 NBE (z
− 1, n − s)
(iii) NF D (z, n) = NF D (z − 1, n) + NF D (z − 1, n − 1) .
Diese Formeln können natürlich auch ohne unsere Interpretationen betrachtet werden.
(i) z n =
n X
n
s=0
(ii)
(iii)
z+n
n
z
n
=
s
=
(z − 1)n−s
(klar aus dem binomischen Lehrsatz)
n X
z−1+k
k
k=0
z−1
n
+
z−1
n−1
(vgl. Satz in 1.1) .
B) Wir wollen Mikrozustände mit Hilfe eines Zufallsmechanismus spezifizieren, so
daß jeder gleichberechtigte“ Mikrozustand dieselbe Chance hat.
”
1. Fall (Boltzmann) : Wir ziehen aus einer Urne mit z Kugeln. Das Ergebnis
der ersten Ziehung spezifiziert die Zelle des ersten Teilchens. Es wird zurückgelegt
und unabhängig wieder rein zufällig gezogen etc. Nach n Ziehungen haben wir den
Mikrozustand spezifiziert. (Ziehen mit Zurücklegen)
2. Fall (Bose–Einstein) : Die dazu passende Disziplin des Ziehens aus einer Urne
heißt Pólyas Urnenschema: Man ziehe zuerst aus einer Urne mit z unterschiedlich
gefärbten Kugeln. Die gezogene sowie eine weitere derselben Farbe wird zurückgelegt.
Sodann ziehe man aus dieser neuen Urne mit (z+1) Kugeln. Die gezogene Kugel und
eine weitere derselben Farbe wird zurückgelegt, etc. Nach n Ziehungen spezifizieren
die Häufigkeiten der gezogenen Farben eine Teilpopulation vom Umfang n aus
einer Grundmenge mit z Elementen. Jede Teilpopulation hat dieselbe Chance.
(ohne Beweis!)
3. Fall
(Fermi Dirac) : Wir ziehen n–mal ohne Zurücklegen. Die Menge der
gezogenen Kugeln spezifiziert die Menge der besetzten Zellen. Man kann natürlich
auch auf einen Schlag mit einer Schaufel, die genau n Kugeln erfaßt, die Ziehung
vornehmen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
2. Die klassischen Verteilungen
Literatur :
W. Feller :
An Introduction to Probability Theory and Its Applications,
Vol. I, 3rd Ed., Wiley, 1968
H. Dinges und H. Rost:
Prinzipien der Stochastik,
Teubner Studienbücher, 1982
In der Stochastik interessiert man sich selten für absolute Häufigkeiten (Anzahl
der Möglichkeiten). Die relativen Häufigkeiten sind es, die als Wahrscheinlichkeiten interpretiert werden. Bei den relativen Häufigkeiten kommen Gesichtspunkte der
Approximation in den Blick. Es ist es nicht ratsam, die Quotienten großer Zahlen
ohne jede Vorbereitung numerisch auszuwerten, wenn es gilt, sich von der Größe der
Wahrscheinlichkeiten ein Bild zu machen. Man benützt die Methoden der Analysis um übersichtliche Approximationen zu erhalten. Wir behandeln die analytischen
Fragen hier etwas ausführlicher als üblich, um das Wissen derjenigen Studenten aufzufrischen, die sich zusammen mit der Stochastik über Analysis prüfen lassen wollen.
2.1
Einige Approximationsformeln
A) Aufgabe :
25 Personen sind versammelt. Mit welcher Wahrscheinlichkeit
haben sie alle an verschiedenen Tagen Geburtstag?
Die Anzahl der Möglichkeiten, k = 25 Objekte auf n = 365 Plätze so zu
verteilen, daß auf keinen Platz mehr als ein Objekt zu liegen kommt, ist [n] k . Die
Anzahl aller gleichberechtigten Möglichkeiten ist nk . Die Wahrscheinlichkeit ist
[n]k
nk
n n−1
n−k+1
...
n n
n 1
2
k−1
= 1· 1−
1−
... 1 −
.
n
n
n
=
21
22
Eine bekannte Näherungsformel besagt: Wenn n groß ist und k wesentlich kleiner,
dann gilt approximativ
[n]k
k2
∼
exp
−
nk
2n
!
.
In unserem Zahlenbeispiel ergibt sich die Wahrscheinlichkeit
exp −
625
2 · 365
= exp(−0.856) = 0.425 .
Plausibilitätsbetrachtung :
[n]k
1
− ln k = − ln 1 −
n
n
2
− ln 1 −
n
k−1
− . . . − ln 1 −
n
.
Die Taylor–Reihe für f (x) = − ln(1 − x) lautet
1
1
1
− ln(1 − x) = x + x2 + x3 + . . . + xn + . . .
2
3
n
wenn |x| < 1 .
(Man beachte, daß die gliedweise Differentiation die geometrische Reihe liefert
1
= 1 + x + x2 + . . . + xn−1 + xn + . . .
1−x
Als Summe der Taylor–Reihen −
[n]k
− ln k
n
k−1
X
=
j =
j=1
1
n
k−1
X
1
j
!
Pk−1
1
+ 2
2n
k−1
X
1
(k − 1) · k ,
2
j
j
n
2
1
+ 3
3n
j=1 ln 1 −
k−1
X
für |x| < 1 . )
!
j2 =
1
ergibt sich
k−1
X
j
3
!
+ ...
1
1
k ,...
(k − 1) k −
3
2
P
1
k m+1 .
. . . 1k−1 j m ist von der Größenordnung m+1
Wenn n so groß ist, daß n12 · 13 k 3 n1 · 21 (k − 1)k, dann haben wir
1
[n]k
≈ exp − k(k − 1)
nk
2n
.
B) Das arithmetische Mittel der Zahlen 1, 2, . . . , n ist n+1
2 . Der Schüler C.F.
Gauß konnte die Zahlen 1, 2, . . . , 100 so schnell addieren, daß sein Lehrer überrascht
war. (Ob Gauß das Prinzip des Schäfers anwandte, berichtet die Anekdote nicht.)
c Prof. Dr. H. Dinges,
18. Dezember 1998
2.1
23
Einige Approximationsformeln
Das geometrische Mittel der Zahlen 1, 2, . . . , n ist ungefähr
Stirlings Formel
n! ≈
√
2πn ·
n
n
e
n
e.
Genaueres sagt
.
Genauer
√
1
n
−n
n! = 2πn · n · e · exp S
n
1
12n
mit
>S
1
n
>
1
12n
−
1
360
·
1
n3
für alle n = 1, 2, . . ..
Logarithmisch geschrieben
1
1
1
ln n − n + ln(2π) + S
2
2
n
1
1
1
1
=
n+
ln n +
− n+
+ ln(2π) − T
2
2
2
2
ln n! =
mit T
1
n+ 21
n+
<
1
24
·
1
n+ 12
1
n+
1
2
!
für n = 0, 1, 2, . . ..
Plausibilitätsbetrachtung :
gilt dann
Es sei f (·) eine Funktion, die schön glatt ist. Es
n+ 21
f (k) + f (k + 1) + . . . + f (n) ≈
Z
f (x) dx .
k− 21
Wenden wir das auf f (x) = lnx an
n+ 21
ln[k(k + 1) · . . . · (n − 1)n] ≈
=
n+
1
1
ln n +
2
2
Z
k− 21
n+ 1
ln x dx = [x · ln x − x]k− 12
2
− n+
1
2
− k−
1
1
ln k −
2
2
+ k−
1
2
Für festes k und großes n bekommen wir die Hauptterme in der asymptotischen
Entwicklung von ln n!. Den
konstanten
Term 12 ln(2π) oder die Größenordnung des
gegen 0 strebenden −T
1
n+ 21
erhält man nicht so einfach. Wir kommen darauf
zurück.
c Prof. Dr. H. Dinges,
18. Dezember 1998
24
Man überzeuge sich mit dem Taschenrechner, daß Stirlings Formel schon für recht
kleine n eine brauchbare (d.h. mit einem kleinen relativen Fehler behaftete) Approximation von n! liefert. (Prüfe n = 3, 2, 1, 0).
Wozu braucht man Approximationsformeln für die Zahlen n!, die man doch auch
genau ausnehmen kann? Ein kleiner Taschenrechner schafft es sicher bis etwa n = 70.
Wie groß in etwa ist (70)! ?
These :
Eine Approximationsformel ist hilfreich, wenn
(i) die Ungenauigkeit erträglich ist (im interessierenden Bereich)
(ii) das Wesentliche klar hervortritt.
In diesem Sinne ist die Stirling–Formel sehr hilfreich, wie wir sehen werden.
2.2
Die Gewichte der Binomialverteilung
Ein Beispiel für eine binomialverteilte Zufallsgr öße X : Aus einer Urne, in
welcher die roten Kugeln die relative Häufigkeit p haben, wird n–mal mit Zurücklegen gezogen. Die Anzahl X der roten Kugeln in der Stichprobe ist binomialverteilt
zum Parameter (n, p).
Definition : Man sagt von einer Zufallsgröße X, sie sei binomialverteilt zum
Parameter (n, p), wenn
Ws(X = k) =
n
k
pk (1 − p)n−k
für k = 0, 1, . . . , n .
Versichern Sie sich mit Hilfe des binomischen Lehrsatzes, daß die Summe der angegebenen Gewichte tatsächlich 1 ergibt.
Satz :
Ein Experiment mit der Erfolgswahrscheinlichkeit p wird n–mal unabhängig durchgeführt. Die Anzahl X der Erfolge ist dann binomialverteilt zum
Parameter (n, p).
Beweis :
Das Ereignis {X = k} hat positive Wahrscheinlichkeit für
k = 0, 1, . . . , n. {X = k} tritt genau dann ein, wenn in k Versuchen
Erfolg und
n
in (n − k) Versuchen Mißerfolg eintritt. Es gibt genau
Möglichkeiten, die
k
Erfolge zu allokieren; jede dieser einzelnen Möglichkeiten hat die Wahrscheinlichkeit
pk (1 − p)n−k .
c Prof. Dr. H. Dinges,
18. Dezember 1998
2.2
25
Die Gewichte der Binomialverteilung
Wir werden die Gewichte
b(k; (n, p)) =
n
k
pk (1 − p)n−k
unten genauer studieren. Es sollte plausibel sein, daß für große n (und p ∈ (0, 1)
fest) alle diese Gewichte klein sind. Die Wahrscheinlichkeiten Ws(X = k) sind aber
nicht sehr klein, wenn k in der Nähe von n · p ist.
Man rechne zur Übung nach
b(k; (n, p)) < b(k + 1; (n, p))
falls
b(k; (n, p)) > b(k + 1; (n, p))
falls
k <n·p
k >n·p .
Wie klein ist das größte der Gewichte? (Benütze Stirlings Formel)
Aufgabe : In einer Urne befinden sich M rote und N − M schwarze Kugeln
(und sonst nichts). Man ziehe n–mal ohne Zurücklegen (n ≤ N ). X sei die Anzahl
der roten Kugeln in der Stichprobe.
Berechne die Gewichte h(k; (n, M, N )) := Ws(X = k).
Definition : Man sagt von einer Zufallsgröße X, sie sei hypergeometrisch verteilt
zum Parameter (n, M, N ), wenn gilt
Ws(X = k) = 1
N
n
M
k
N −M
n−k
für alle k ∈ ZZ .
M
(Für k < 0 und k > M ist
gleich 0 zu setzen; entsprechend für den zweiten
k
Faktor.) Prüfe, ob sich die angegebenen Gewichte zu 1 aufsummieren. Wenn dies auf
analytischem Wege schwerfällt, überlege das folgende wahrscheinlichkeitstheoretische
Argument.
Ziehen wir aus der Urne von oben n–mal. Wir wählen damit eine n–Menge aus der
N
aller Kugeln so aus, daß jede n–Menge dieselbe Chance hat. Wieviele der
–Menge
N
möglichen n–Mengen sind günstig für das Ereignis {X = k}?
n
Satz : Für die Gewichte h(k; (n, M, N )) der hypergeometrischen Verteilungen
gilt h(k; (n, M, N )) = h(k; (M, n, N )).
Beweis mit Hilfe einer Modellvorstellung : In einer Urne befinden sich N
weiße Kugeln (und sonst nichts). Versehen wir M Kugeln mit einem roten Punkt
und unabhängig davon rein zufällig n Kugeln mit einem grünen Punkt. Was können
wir über die Anzahl X derjenigen Kugeln sagen, die zwei Punkte erhalten haben?
c Prof. Dr. H. Dinges,
18. Dezember 1998
26
n
, M
Zum Nachdenken empfohlen : Wenn N sehr groß ist und N
N nicht
groß, dann ist die hypergeometrische Verteilung zum Parameter (n, M, N ) ähnlich
zur Binomialverteilung.
Definition : Man sagt von einer Zufallgröße X, sie sei poissonverteilt zum
Parameter λ, wenn
Ws(X = k) = e−λ ·
λk
k!
für k = 0, 1, 2, . . . .
Prüfe, daß sich die Gewichte zu 1 aufsummieren. (0 < λ < ∞).
Es gibt kein Urnenexperiment, welches exakt auf eine poissonverteilte Zufallsgröße
X führt. Es geht nur näherungsweise.
Die Poissongewichte p(k; λ) sind ähnlich zu
λ
den Binomialgewichten b k; n, n , wenn n groß ist. Die Poissonverteilung kann
also als eine Approximation gewisser Binomialverteilungen angesehen werden.
Sei k ∈ ZZ+ fest, λ ∈ (0, ∞) fest.
Satz :
Für n → ∞, pn =
1
n
λ gilt dann
lim b(k; (n, pn )) = p(k, λ) .
n→∞
Beweis :
n
k
1
λ
n
k λ
1−
n
n−k
λ
[n]k 1 k
λ 1−
= k
n k!
n
n λ
1−
n
−k
.
Der erste und der letzte Faktor konvergieren gegen 1, der vorletzte Faktor gegen e −λ .
Eine Situation, in welcher eine geometrisch verteilte Zufallsgröße vorkommt:
Ein Experiment mit der Erfolgswahrscheinlichkeit p wird unabhängig wiederholt. Die
Wartezeit T bis zum ersten Erfolg ist dann eine geometrisch verteilte Zufallsgröße mit dem Erwartungswert 1p . Es gilt:
Ws(T = k) = (1 − p)k−1 · p
für k = 1, 2, 3, . . .
c Prof. Dr. H. Dinges,
18. Dezember 1998
2.2
27
Die Gewichte der Binomialverteilung
Hinweis : Das p ist hier einfach als Parameter zu sehen, von Erwartungswerten
sprechen wir im nächsten Kapitel. Die Verteilung ist auf N = {1, 2, 3, . . .} konzentriert; manche Autoren betrachten auch geometrisch verteilte Zufallsgrößen, wo der
Träger der Verteilung {0, 1, 2, . . .} ist oder auch {m, m + 1, m + 2, . . .}; man muß da
also aufpassen.
Die Wartezeit bis zum ersten Erfolg, wenn man schon weiß, daß die ersten m − 1
Versuche erfolglos waren, ist in diesem Sinne auch eine geometrisch verteilte Zufallsgröße. Die Gewichte der Verteilung sind bis zu einer Stelle gleich Null, dann kommt
das größte Gewicht und von da an geht es mit den konstanten Faktor (1 − p) abwärts
von Gewicht zu Gewicht.
Satz :
Ws(T = k|{T ≥ m}) = c · (1 − p) für k = m, m + 1, . . ..
Bemerke :
Die Konstante ergibt sich aus der Normierung
1 = c · [(1 − p)m + (1 − p)m+1 + . . .] = c · (1 − p)m ·
Also c = p ·
1
1
= (1 − p)m · .
1 − (1 − p)
p
1
(1−p)m .
Der Satz heißt der Satz von der Gedächtnislosigkeit der geometrischen Verteilung. Die weitere Wartezeit ist immer noch geometrisch verteilt, wenn man bis zum
(m − 1)-ten Versuch erfolglos war. — Die Sprechweise wenn man schon weiß“ greift
”
vor.
Man kann aber schon hier definieren, was man unter einer bedingten Gewichtung
versteht.
Definition :
Sei X eine E-wertige Zufallsgröße, E abzählbar.
für x ∈ E
Ws(X = x) = p(x)
(Bemerke p(x) ≥ 0 für alle x und
P
x
p(x) = 1)
Sei B eine Teilmenge von B mit Ws(X ∈ B) > 0. Man definiert dann
p(x|B) =


 c · p(x)

 0
für
x∈B
für
x∈E\B
c so, daß die Summe der Gewichte gleich 1 ist, also c = Ws(X ∈ B),
p(x|B) =
1
· 1B (x) · p(x) für alle x ∈ B.
Ws(X ∈ B)
c Prof. Dr. H. Dinges,
18. Dezember 1998
28
Das Wahrscheinlichkeitsmaß zu dieser Gewichtung bezeichnet man mit
L(X|{X ∈ B}), die bedingte Verteilung von X, gegeben {X ∈ B}.
Für alle A ⊆ B bezeichnet man
Ws(X ∈ A|{X ∈ B}) =
X
p(x|B) =
x∈A
Ws(X ∈ A ∩ B)
.
Ws(X ∈ B)
Der konkrete Fall der geometrischen Verteilung mit bedingenden Ereignissen
{T ≥ m} ist analytisch besonders einfach - eben gerade wegen der Gedächtnislo”
sigkeit“ der geometrischen Verteilung. Die Ged ächtnislosigkeit wird uns bei der
Exponentialverteilung wieder begegnen. Die geometrische Verteilung ist als das
diskrete Analogon zur Exponentialverteilung zu verstehen. Der Parameter p der geometrischen Verteilung entspricht der Rate“ λ bei der Exponentialverteilung. Der
”
Parameter p1 entspricht dem Erwartungswert λ1 der Exponentialverteilung mit Träger
[0, ∞).
2.3
Einige kontinuierliche Verteilungen
Definition : Man sagt von einer Zufallsgröße U , sie sei gleichmäßig (oder uniform) verteilt im Intervall (0, 1), wenn
Ws(U ∈ (x, y)) = y − x
für alle 0 < x < y < 1 .
Man sagt von einer Zufallsgröße V , sie sei uniform verteilt im Intervall (a, b), wenn
Ws(V ∈ (x, y)) =
y−x
b−a
für alle a < x < y < b .
Beispiele :
1) Ein Glücksrad wird gedreht. Der Winkel
Intervall (0, 2π).
Φ ist dann uniform verteilt im
2) X sei uniform verteilt in (a, b) mit b − a sehr groß. Betrachte U := X − [X].
(Für jedes x ∈ IR bezeichnet [x] die größte ganze Zahl, die kleiner oder gleich
x ist). U ist annähernd uniform verteilt in (0, 1); U ist sogar exakt uniform
verteilt, wenn b − a ganzzahlig ist.
Definition : Man sagt von einer positiven Zufallsgröße T , sie sei exponentiell
verteilt mit dem Erwartungswert λ1 , wenn gilt
Ws(T > t) = exp(−λt)
für alle t > 0 .
Man schreibt auch
Ws(T ∈ (t, t + dt)) = λe−λt dt
für alle t > 0 .
und nennt λe−λt die Dichte der Exponentialverteilung mit dem Erwartungswert
c Prof. Dr. H. Dinges,
18. Dezember 1998
1
λ.
2.3
29
Einige kontinuierliche Verteilungen
Satz : Sei U gleichmäßig verteilt in (0, 1). X = − ln(1 − U ). Dann ist X
exponentiell verteilt mit dem Erwartungswert 1.
Beweis :
X ist eine positive Zufallsgröße. Für t > 0 gilt
Ws(X > t) = Ws(− ln(1 − U ) > t) = Ws(ln(1 − U ) < −t)
= Ws(1 − U < e−t ) = Ws(U > 1 − e−t ) = e−t .
Satz : Sei X exponentiell verteilt mit dem Erwartungswert λ1 und sei c > 0,
Y = c · X. Dann ist Y exponentiell verteilt mit dem Erwartungswert λc .
Beweis :
Y ist eine positivwertige Zufallsgröße. Für t > 0 gilt
1
Ws(Y > t) = Ws(cX > t) = Ws(X > t)
c 1
λ
t .
= exp −λ t = exp −
c
c
Definition : Man sagt von einer reellwertigen Zufallsgröße Z, sie sei standardnormalverteilt (oder N (0, 1)–verteilt), wenn
Ws(Z ∈ (x, y)) =
Die Funktion
Zy
1
1
√
exp − z 2 dz
2
2π
x
1
1
exp − z 2
ϕ(z) = √
2
2π
für alle x < y .
heißt die Dichte der Standardnormalverteilung oder auch die gaußische
Glockenkurve.
Satz :
Es gilt
+∞
R
ϕ(z)dz = 1.
−∞
Beweis :
[
Z
ϕ(z)dz]2 =
=
Z
ϕ(x)dx ·
Z Z
=
Z∞Z2π
=
Z∞
0 0
0
Z
ϕ(y)dy
1
1
exp − (x2 + y 2 ) dx dy
2π
2
1
1
exp − r 2 dϕ rdr
2π
2
1
r · e− 2
r2
dr = 1 .
c Prof. Dr. H. Dinges,
18. Dezember 1998
30
Definition :
Das unbestimmte Integral der gaußischen Glockenkurve heißt die
gaußische Fehlerfunktion
Φ(z) =
Zz
ϕ(y)dy .
−∞
Eine Zufallsgröße Z ist genau dann standardnormalverteilt, wenn
Ws(Z ∈ (x, y)) = Φ(y) − Φ(x)
für alle x < y .
Definition : Man sagt von einer reellwertigen Zufallsgröße X, sie sei
N (µ, σ 2 )–verteilt, wenn
Z :=
1
(X − µ)
σ
N (0, 1)–verteilt ist .
Eine Zufallsgröße X ist genau dann N (µ, σ 2 )–verteilt, wenn
Satz :
Ws(X ∈ (x, y)) = Φ
=
Zy
x
y−µ
σ
1
−Φ
x−µ
σ
1
exp −
2
√
2πσ 2
v−µ
σ
2 !
dv
für alle x < y .
Der Beweis ist einfach. Die Ableitung von Φ
1
√
2πσ 2
1
exp − 2 (x − µ)2
2σ
x−µ
σ
ist
.
Diese Funktion heißt die Dichte der Normalverteilung mit dem Mittelwert µ und
der Varianz σ 2 (µ ∈ IR, σ 2 > 0). Ihr Bild findet sich auf den Zehn–Mark–Scheinen
zusammen mit einem Bild von C.F. Gauß (1777–1855).
Satz : Es sei X N (0, 1)–verteilt und U = Φ(X). U ist dann in (0, 1) gleichmäßig
verteilt.
Beweis :
Φ(·) ist eine monotone Transformation, welche die reelle Achse auf
(0, 1) abbildet. Φ−1 (·) bezeichne die Umkehrabbildung.
Für 0 < u < v < 1 gilt
Ws (Φ(X) ∈ (u, v)) = Ws X ∈ Φ−1 (u), Φ−1 (v)
= Φ Φ−1 (v) − Φ Φ−1 (u)
c Prof. Dr. H. Dinges,
= v−u .
18. Dezember 1998
2.4
Unabhängige identisch verteilte reellwertige Zufallsgrößen
31
Verallgemeinerung : Es sei X eine Zufallsgröße mit Werten in einem Intervall
mit F (x) := Ws(X ≤ x) strikt monoton und stetig. U = F (X) ist dann in (0, 1)
uniform verteilt.
2.4
Unabhängige identisch verteilte reellwertige
Zufallsgrößen
Definition :
Man sagt von einem n–tupel von reellwertigen Zufallsgrößen
X1 , . . . , Xn , die Komponenten seien unabhängig identisch verteilt mit der Verteilungsfunktion F (·), wenn
Ws (X1 ∈ (x1 , y1 ], X2 ∈ (x2 , y2 ], . . . , Xn ∈ (xn , yn ])
= [F (y1 ) − F (x1 )] · [F (y2 ) − F (x2 )] · . . . · [F (yn ) − F (xn )]
= Ws(X1 ∈ (x1 , y1 ]) · . . . · Ws(Xn ∈ (xn , yn ])
für alle x1 < y1 , x2 < y2 , . . . , xn < yn . (Dabei ist F (·) eine isotone rechtsseitig
stetige Funktion, die sogenannte Verteilungsfunktion.) In dem Falle, wo F (·) eine
Dichte besitzt, d.h. F (x) =
Rx
p(y)dy, schreibt man auch
−∞
Ws (X1 ∈ (x1 , x1 + dx1 ), . . . , Xn ∈ (xn , xn + dxn ))
= p(x1 ) · p(x2 ) · . . . · p(xn )dx1 · . . . · dxn
Man sagt auch, die Xi seien unabhängige Wiederholungen einer Zufallsgröße X
mit der Verteilungsfunktion F .
Beispiel :
1) Ein Glücksrad wird n–mal unabhängig gedreht. Die Winkel Φ1 , . . . , Φn sind
dann unabhängige in (0, 2π) uniform verteilte Zufallsgrößen.
2) Eine Probe wird n–mal mit einer Präzisionswaage ausgewogen. Die registrierten Gewichte X1 , . . . , Xn sind unabhängig identisch verteilt (mit einer im allg.
nicht bekannten) Verteilungsfunktion F (·). F (x) = Ws(X ≤ x).
Mit unabhängigen (nicht notwendigerweise identisch verteilten) Zufallsgrößen
X, Y, Z, W, . . . werden wir uns später ausführlich beschäftigen. Die Vorstellung von
der unabhängigen Wiederholung eines Experiments ist aber so fundamental, daß wir
den Platz, wo der allgemeine Begriff der Unabhängigkeit in die Systematik paßt,
nicht abwarten wollen.
Satz : Es seien X, Y unabhängige N (0, 1)–verteilte Zufallsgrößen. Betrachte
für
√
den zufälligen Punkt (X, Y ) im IR2 den Abstand vom Nullpunkt R = X 2 + Y 2 .
R2 = X 2 + Y 2 ist dann exponentiell verteilt mit dem Erwartungswert = 2.
c Prof. Dr. H. Dinges,
18. Dezember 1998
32
Beweis :
Für alle t > 0 gilt
Ws(R2 > t) = Ws(X 2 + Y 2 > t)
Z Z
1
1
1
=
exp − x2 exp − y 2 dx dy
2π
2
2
{x2 +y 2 >t}
=
Z∞ Z2π
√
t 0
=
1
1
exp − u2 dϕ u du =
2π
2
− exp −
1 2
u
2
y
6
∞
√
t
= exp −
Z∞
√
t
1
t
2
1
exp − u2 u du
2
p
x2 + y 2
#
#
r=
#
#
#
# ϕ
b
x
@
b
@bb
@ b
@ bbdr
@
@
x = r · cos ϕ
y = r · sin ϕ
dx dy = r · dϕ · dr
Wie könnte man sich unabhängige standardnormalverteilte Zufallsgrößen X, Y besorgen, wenn man einen Zufallsgenerator hat, der in (0, 1) uniform verteilte Zufallsgrößen U, V liefert?
1. Methode :
teilt
X = Φ−1 (U ), Y = Φ−1 (V ) sind unabhängig standardnormalver-
Ws(X ≤ x) = Ws(Φ−1 (U ) ≤ x) = Ws(U ≤ Φ(x)) = Φ(x) .
Das Verfahren empfiehlt sich nur für solche Leute, die über Mittel verfügen, die
Funktion Φ−1 (·) bequem auszurechnen.
2. Methode :p Konstruiere einen zufälligen Punkt im IR2 mit dem zufälligen
Abstand R = (−2) ln(1 − U ) vom Ursprung und dem Winkel 2πV .
X = R cos(2πV ) ,
Y = R sin(2πV )
sind dann unabhängig standardnormalverteilt. In der Tat ist IL(X, Y ) rotationssymmetrisch und X 2 + Y 2 = R2 = (−2) ln(1 − U ) ist exponentiell verteilt mit dem
Erwartungswert = 2.
c Prof. Dr. H. Dinges,
18. Dezember 1998
2.4
33
Unabhängige identisch verteilte reellwertige Zufallsgrößen
Verallgemeinerung : (Chiquadratverteilungen)
Seien Z1 , . . . , Zn unabhängig N (0, 1)–verteilt,
X = Z12 + . . . + Zn2 .
Dann gilt für alle x > 0
Ws(X > x) = const
Z∞
1
n
y 2 −1 e− 2 y dy .
x
Beweis :
Ws(X ≥ x) =
Z
2 >x}
{z12 +...+zn
1
√
2π
n
1
exp − z12 + . . . + zn2 dz1 . . . dzn .
2
Der Integrand ist auf jeder Sphäre
n
(z1 , . . . , zn ) : (z12 + . . . + zn2 ) = y
konstant. Das Maß der Sphäre
q
o
z12
+ ... +
zn2
∈ (r, r + dr)
ist const ·r n−1 dr.
Die Konstante ist die Oberfläche der n–dimensionalen Einheitssphäre
Ws(X ≥ x) =
Z
√
x
1
const ·r n−1 e− 2
r2
dr .
Wir benutzen die Integrationsvariable y = r 2 , dy = 2rdr und erhalten die Behauptung.
Die Normierungskonstante ergibt sich aus Ws(X ≥ 0) = 1. Man kann sie leicht
durch die berühmte Gammafunktion ausdrücken:
Definition :
Γ(α) =
Z∞
0
(Gammafunktion)
uα−1 · e−u du
für α > 0
Die Γ–Funktion interpoliert die Fakultätsfunktion
Γ(n + 1) = n!
für n = 0, 1, 2, . . . .
c Prof. Dr. H. Dinges,
18. Dezember 1998
34
Für alle α gilt Γ(α + 1) = αΓ(α). (Beweis durch partielle Integration) Man kann
zeigen, daß Γ(·) die einzige logarithmisch konvexe Funktion mit Γ(1) = 1 ist,
welche die Funktionalgleichung αΓ(α) = Γ(α + 1) für alle α > 0 erfüllt. Stirlings
Formel gilt auch für die Gammafunktion
α
√
α
1
Γ(α + 1) = 2πα ·
· exp S
e
α
mit
1
12α
>S
1
α
>
1
12α
−
1 1
360 α3 .
Wenn man die Integraldarstellung etwas umformt, wird die Stirlingformel plausibel.
Plausibilitätsbetrachtung zur Stirlingformel
Γ(α + 1) =
Z∞
0
α
u ·e
−u
α
√
α
1
.
· exp S
du = 2πα
e
α
Wir gewinnen eine Integraldarstellung für exp S
exp S
1
α
=
1
√
2πα
=
r
=
r
Z∞ α
0
u
α
1
α
e−u+α du
α
2π
Z∞
v α · exp(−αv + α) dv
α
2π
Z∞
exp (−α[v − 1 − ln v]) dv
0
0
k(v)
-v
1
c Prof. Dr. H. Dinges,
18. Dezember 1998
2.5
35
Zur Konstruktion des Poissonprozesses
k(v) = v − 1 − ln v
Für große α kommt der weitaus überwiegende Anteil des Integrals vom Integral
über eine kleine Umgebung von v = 1.
Dort sieht der Integrand sehr ähnlich aus wie exp − α2 (v − 1)2
k 0 (v) = 1 −
k (v) =
Zv
k(v) =
Zv
0
1
,
v
k 00 (v) =
1
v2
k 00 (x)dx ,
1
0
k (y)dy =
1
r
Da
α
2π
Z
Zv
1
1
(v − x)k 00 (x)dx ≈ (v − 1)2 .
2
α
exp − (v − 1)2 dv = 1, haben wir also
2
exp S
1
α
−→ 1
für α → ∞ .
Genauere Analyse zeigt
1
>S
12α
1
α
>
ln(Γ(α + 1)) =
2.5
1
1
1
−
· 3 .
12α 360 α
1
1
α+
ln α − α + ln 2π + S
2
2
1
α
.
Zur Konstruktion des Poissonprozesses
Es sei h > 0 klein und λ > 0 fest. Ein Experiment mit der Erfolgswahrscheinlichkeit λ · h wird zu den Zeitpunkten h, 2h, 3h, . . . unabhängig wiederholt. Wir
bekommen eine zufällige 0–1–Folge ( 1“ für Erfolg, 0“ für Mißerfolg). Für jedes In”
”
tervall I = (x, y] ⊆ IR+ sei NI = Anzahl der Erfolge im Zeitintervall I. Offenbar
ist NI binomialverteilt. Wenn I1 , I2 , . . . , In disjunkte Intervalle sind, dann sind
NI1 , . . . , NIn unabhängige binomialverteilte Zufallsgrößen.
Wir können den Grenzübergang h → 0 (bei festem λ) hier nicht mathematisch
exakt durchführen. Wir nehmen den folgenden Existenzsatz ohne Beweis hin:
c Prof. Dr. H. Dinges,
18. Dezember 1998
36
Satz : (Existenz des poissonschen Punktprozesses)
Es existiert eine zufällige Punktmenge in IR, so daß für die Anzahlen der Punkte
in den Intervallen I1 , . . . , In gilt
1) NI ist poissonverteilt zum Parameter λ · |I| für jedes I.
2) Wenn I1 , . . . , In paarweise disjunkte Intervalle sind, dann sind N I1 , . . . , NIn
unabhängig.
Sprechweise : Eine zufällige Punktmenge mit den Eigenschaften 1) und 2) heißt
ein poissonscher Punktprozeß mit der Rate λ.
Poissonsche Punktprozesse sind äußerst wichtige Modelle. Sie finden z.B. Anwendung
bei der Modellierung des radioaktiven Zerfalls. N I ist die Anzahl der Teilchen, die im
Zeitintervall I zerfallen, d.h. die Anzahl der Knacke eines den Zerfall registrierenden
Geigerzählers.
Ein weiteres Beispiel haben wir in der Warteschlangentheorie. Im einfachsten Falle
nimmt man da nämlich an, daß die Kunden gemäß einem Poissonprozeß ins System
eintreten. NI ist die Anzahl der im Zeitintervall I ankommenden Kunden.
Bemerke : Ws(NI > 0) = 1 − exp(−λ · |I|);
Ws(NI > 1) = 1 − exp(−λ · |I|) − λ · |I| exp(−λ · |I|) ist klein von der Größenordnung
(λ · |I|)2 , wenn |I| klein ist.
Wenn für ein festes n I1 , . . . , In disjunkt sind mit der Länge ∆ klein, dann gilt
Ws(NI1 > 0, NI2 > 0, . . . , NIn > 0)
= [1 − exp(−λ · ∆)]n ≈ [λ · ∆]n
Ws(NIj > 0 für j = 1, . . . , n; NIj > 1 für mindestens ein j)
≈ n · [1 − exp(−λ∆)]n−1 · [1 − exp(−λ∆) − λ∆ exp(−λ∆)]
λ∆ n+1
.
≈ n
2
Für kleines ∆ ist diese Wahrscheinlichkeit wesentlich kleiner als [λ∆] n . Daraus
kann man ableiten, daß in einem Poissonprozeß mit Wahrscheinlichkeit = 1 keine
Doppelpunkte vorkommen. (Beweise können hier nicht geführt werden.)
Die Theorie des Poissonprozesses ist sehr einfach und transparent, wenn man sich
einmal an die Analysis gewöhnt hat. Der Ungeübte wird zunächst lieber noch ein
wenig mit dem diskreten Analogon arbeiten wollen, welches dadurch ausgezeichnet
ist, daß den Punkten t aus T = {. . . , −2h, −h, 0, +h, +2h, +3h, . . .} unabhängige
poissonverteilte Zufallsgrößen N{t} mit dem Erwartungswert λ · h zugeordnet
P
sind. Die Zufallsgrößen NI = t∈I N{t} sind poissonverteilt für jedes I; und für
paarweise disjunkte I1 , . . . , In sind die NIj unabhängig.
c Prof. Dr. H. Dinges,
18. Dezember 1998
2.5
37
Zur Konstruktion des Poissonprozesses
Wir wollen die Sache aber noch von einer anderen Seite betrachten, von der Seite
der sog. Wartezeiten.
Ein Experiment mit der Erfolgswahrscheinlichkeit p = h · λ wird zu den Zeitpunkten 0, h, 2h, 3h, . . . unabhängig durchgeführt. τ (m) bezeichne den Zeitpunkt des
m–ten Erfolgs nach 0. Es gilt τ (1) < τ (2) < τ (3) < . . . . Alle die τ (m) sind reellwertige Zufallsgrößen; die Wartezeit bis zum m–ten Erfolg ist nämlich endlich mit
Wahrscheinlichkeit 1.
Satz : Die Zufallsgrößen τ (1) , τ (2) − τ (1) , τ (3) − τ (2) , . . . sind unabhängig identisch
verteilt.
Dies folgt sofort aus der Konstruktion.
Wir studieren nun die Verteilung L(τ (m) ) im Grenzwert h → 0. Die Verteilung
L(τ (m) ) ist für endliches h auf {mh, (m + 1)h, . . .} konzentriert. Die Verteilungsfunktion
(m)
Fh
(t) := Wsh τ (m) ≤ t
,
t≥0
hat Sprünge in den Punkte t = n · h, n ∈ IN. Für h → 0 erhalten wir einen
(m)
Grenzwert Fh (t), welcher eine Verteilungsfunktion mit Dichte ist. Im Grenzwert
h → 0 strebt also L(τ (m) ) gegen eine Verteilung mit Dichte. Für m = 1 kommt
die Exponentialverteilumg mit dem Erwartungswert λ1 heraus. Für m = 2, 3, . . .
sind die Verteilungen etwas komplizierter; es handelt sich um spezielle Gamma–
Verteilungen, wie wir sehen werden.
m=1 :
Für t = nh haben wir
Ws τ (1) > t
= Ws τ (1) > nh
= Ws (die ersten n Versuche sind erfolglos)
= (1 − p)n
= (1 − hλ)(1/h)t −→ exp(−λt)
h→0
m=2 :
Ws τ (2) > t
= Ws (unter den ersten n Versuchen ist höchstens ein Erfolg)
t
= (1 − p)n + np(1 − p)n−1 = (1 − hλ)t/h +
· hλ(1 − hλ)t/h−1
h
c Prof. Dr. H. Dinges,
18. Dezember 1998
38
1
Ws τ (2) ∈ (t, t + h]
h
Unter den ersten n Versuchen befindet sich
genau ein Erfolg und der (n + 1)–te Versuch
ist ebenfalls ein Erfolg
=
1
Ws
h
=
1
np(1 − p)n−1 p = (tλ)(1 − hλ)t/h−1 λ → (tλ)e−λt λ
h
Ws τ
(2)
∈ (s, t] −→
Zt
!
(uλ)e−uλ λ du
s
Allgemeines m :
1
1
Ws τ (m+1) ∈ (t, t + h] =
Ws τ (m+1) = (n + 1)h
h
h
Unter den ersten n Versuchen befinden sich
genau m Erfolge und der (n + 1)–te Versuch
ist ebenfalls ein Erfolg
1
Ws
h
=
1
h
1
m!
=
=
!
n
pm (1 − p)n−m p
m
1
[n]m
(np)m (1 − p)n−m λ −→
(λt)m exp(−λt) λ
m
n
m!
Ws τ (m+1) ∈ (s, t] −→
Zt
1
(λu)m exp(−λu) λ du
m!
s
Definition : Man sagt von einer positiven Zufallsgröße X, sie sei gammaverteilt
mit E X = αλ , var X = λα2 , wenn
Ws(X ≤ x) =
Zx
0
1
(λt)α−1 e−λt λ dt
Γ(α)
für alle x > 0 .
Bemerke :
X ist genau dann gammaverteilt mit E X = αλ , var X = λα2 ,
wenn Y = λX gammaverteilt ist mit E Y = α, var Y = α. Die Zufallsgröße
V := αλ X = α1 Y ist gammaverteilt mit E V = 1, var V = α1
1
1
(αv)α e−αv dv
Γ(α)
v
r
1
α
1
exp (−α[v − 1 − ln v])
dv exp −S
=
2π
v
α
Ws(V ∈ (v, v + dv)) =
mit
1
12α
>S
1
α
>
1
12α
−
1
360
·
1
α3
.
c Prof. Dr. H. Dinges,
18. Dezember 1998
2.6
39
Beta–Verteilungen
Beispiele :
1) τ (m) sei die Wartezeit bis zum m–ten Punkt in einem Poissonprozeß mit der
(m) = m .
Rate λ. τ (m) ist dann gammaverteilt mit E τ (m) = m
λ , var τ
λ2
2) Die Gammaverteilung mit Erwartungswert = λ1 und Varianz =
Exponentialverteilung mit dem Erwartungswert = λ1 .
1
λ2
ist die
3) Wenn
T 1 , T2 , . . . , T m
unabhängig exponentialverteilt sind mit dem
1
Erwartungswert = λ , dann ist T1 + . . . + Tm gammaverteilt mit Erwarm
tungswert = m
λ und Varianz = λ2 .
4) Z1 , Z2 , . . . , Zn seien unabhängig N (0, 1)–verteilt.
X := Z12 + . . . + Zn2 ist dann gammaverteilt mit E X = n, var X = 2n. L(X)
ist die Chiquadratverteilung mit n Freiheitsgraden. Das Bild zeigt die Dichten
einiger Chiquadratverteilungen.
0.5
0.4
0.3
0.2
0.1
..
..
..
.. ...
.. .
.. ..
.. ..
.. .
.. ...
..
.....
..
....
...
....
..
..
...
...
.....
....
.
.. ..
.. ..
.
.. ...
... ...
n = 1.... .... .... ..
.. ...
n = 2.................
. ..
.. ..
. ..
n = 6........................
.. ..
. ..
..
.
.
.
..
...
.. .................................
.........
.. .............
........
.......
....... ...
.......
...
........
... ..
.
.
........
...
.. ..
.
........
.
.
....
..
..
.........
.
.
.
.
.
...
....
..........
..
.
.
...........
.
.
.
.
.
.. .
......
.............
..
.
.
.
.
.
.
.
.
.................
.........
.... ...
..
.........................
.
.
.
.
.
.
.
.... .... ....
.................
.....
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.. ....................... ....................
..
0
2.6
2
4
6
8
10
12
14
Beta–Verteilungen
Definition : Man sagt von einer Zufallsgröße X mit Werten in (0, 1), sie sei
betaverteilt zum Parameter (α, β), wenn
Ws (X ∈ (x, x + dx)) =
1
xα−1 (1 − x)β−1 dx .
B(α, β)
Die Normierungskonstante
B(α, β) =
Z1
0
xα−1 (1 − x)β−1 dx ,
betrachtet als Funktion der Variablen α, β, heißt die Betafunktion.
c Prof. Dr. H. Dinges,
18. Dezember 1998
40
Satz :
Für alle α, β > 0 gilt
B(α, β) =
Bemerke :
Γ(α) · Γ(β)
.
Γ(α + β)
Für natürliche m, n, 1 ≤ m ≤ n gilt
1
n!
=
= m·
B(m, n + 1 − m)
(m − 1)! (n − m)!
n
m
.
Beweis des Satzes :
1
Γ(α)
1 =
Z∞
x
α−1
0
1
Γ(α) · Γ(β)
=
e
1
dx ·
Γ(β)
−x
Z Z
Z∞
y β−1 e−y dy
0
xα−1 y β−1 exp(−(x + y)) dx dy .
Wir führen neue Integrationsvariable ein
w := x + y , u :=
x
,
x+y
x
(1 − u)w , dx dy = w du dw
=
uw ,
Γ(α) · Γ(β)
Γ(α + β)
y
=
=
1
Γ(α + β)
=
1
Γ(α + β)
=
Z1
0
Z Z
Z∞
w
w ∈ (0, ∞) , u ∈ (0, 1)
(uw)α−1 ((1 − u)w)β−1 e−w w du dw
α+β−1
e
−w
dw
Z1
0
0
uα−1 (1 − u)β−1 du
uα−1 (1 − u)β−1 du .
Die Stochastiker interpretieren diese Rechnung so:
Interpretation : Seien X und Y unabhängig gammaverteilt, X zum Parameter
(α, ∧), Y zum Parameter (β, ∧). E X = α, var X = α, E Y = β, var Y = β.
Seien
W =X +Y ,
U=
X
.
X +Y
Dann sind W und U unabhängig mit W gammaverteilt zum Parameter (α+β, ∧)
und U betaverteilt zum Parameter (α, β).
c Prof. Dr. H. Dinges,
18. Dezember 1998
2.6
41
Beta–Verteilungen
y
6
@
@
@ @
@
@ @
@
@ @ @
@
@
@
@
x+y =w
x
x+y
=u
-
x
Ws ({X ∈ (x, x + dx)} ∩ {Y ∈ (y, y + dy)})
1
1
=
xα−1 e−x dx
β−1
Γ(α)
Γ(β) y
e−y dy
1
1
=
wα+β−1 e−w dw
uα−1 (1 − u)β−1 du
Γ(α + β)
B(α, β)
= Ws ({W ∈ (w, w + dw)} ∩ {U ∈ (u, u + du)}) .
Wir beschreiben jetzt eine stochastische Situation, in welcher spezielle betaverteilte
Zufallsgrößen vorkommen, nämlich X(1) , X2) , . . . , X(n) , mit X(m) betaverteilt zum
Parameter (m, n + 1 − m). Die X(m) sind aber keineswegs unabhängig. Es besteht
eine sehr starke Abhängigkeit; es gilt nämlich
0 < X(1) < X(2) < . . . < X(n) < 1
(fast sicher ) .
X(m) ist die Wartezeit bis zum m–ten Erfolg“ in einer komplizierteren Situation
”
als der oben beschriebenen.
Satz : Es seien U1 , . . . , Un unabhängig in (0, 1) uniform verteilt. X(1) sei das
kleinste und X(2) das zweitkleinste unter den Uj usw. Dann ist X(m) betaverteilt
zum Parameter (m, n + 1 − m).
c Prof. Dr. H. Dinges,
18. Dezember 1998
42
Beweis :
Für m = 1 :
{X(1) ∈ (x, x + dx)} =
keines der Uj fällt in (0, x)
und eines fällt in (x, x + dx)
Ws(X(1) ∈ (x, x + dx)) = n dx (1 − x)n−1
Zy
Ws(X(1) ≤ y) =
0
n x0 (1 − x)n−1 dx
Für allgemeines m :
genau m − 1 der Uj fallen in (0, x)
{X(m) ∈ (x, x + dx)} =
und eines fällt in (x, x + dx)
n−1
n·
Ws(X(m) ∈ (x, x + dx)) =
m−1
· Ws(U1 < x, . . . , Um−1 < x, Um ∈ (x, x + dx), Um+1 > x, . . . , Un > x)
n
xm−1 (1 − x)n−m dx
= m·
m
Zy
1
Ws(X(m) ≤ y) =
xm−1 (1 − x)n−m dx
B(m, n + 1 − m)
0
Es besteht eine enge Beziehung zwischen den Binomialverteilungen und gewissen
Betaverteilungen und im ähnlichen Sinn zwischen den Poissonverteilungen und gewissen Gammaverteilungen.
Satz :
a) Für 1 ≤ m ≤ n und p ∈ (0, 1) gilt
1
B(m, n + 1 − m)
=
n
X
k=m
n
k
Zp
0
y m−1 (1 − y)n−m dy
pk (1 − p)n−k .
b) Für alle m ∈ IN und λ ∈ (0, ∞) gilt
1
Γ(m)
Zλ
0
y m−1 e−y dy =
∞
X
λk
k=m
k!
c Prof. Dr. H. Dinges,
e−λ .
18. Dezember 1998
2.7
Analytischer Beweis :
a)
Wir vergleichen die Ableitungen
1
pm−1 (1 − p)n−m =
B(m, n + 1 − m)
d
dp
b)
43
Approximative Normalität
d
dλ
n X
n
k=m
λk −λ
e
k!
k
!
=
k
p (1 − p)
n−k
!
=
n
m
n
m
m pm−1 (1 − p)n−m
mpm−1 (1 − p)n−m .
λk −λ
λk−1
e−λ −
e
(k − 1)!
k!
Summation über k = m, m + 1, . . . liefert
d
dλ
∞
X
λk
k=m
k!
e
−λ
!

d  1
=
dλ Γ(m)
Zλ
y
m−1
0
e
−y

dy 
Wahrscheinlichkeitstheoretischer Beweis :
Seien U 1 , . . . , Un Punkte auf
dem IR+ . Die Aussage, daß mindestens 4 Punkte links von p liegen, ist äquivalent
mit der Aussage, daß der drittkleinste links von p liegt. Entsprechend für alle m.
Für U1 , . . . , Un unabhängig in (0, 1) gleichmäßigverteilt sagt a) die Gleichheit der
Wahrscheinlichkeiten aus; für Uj = T1 + . . . + Tj mit unabhängigen exponentiell
verteilten Ti ergibt sich b).
2.7
Approximative Normalität
Annähernd gleich“ ist ein Begriff, den es in der reinen Mathematik nicht gibt. In der
”
angewandten Mathematik spielt er aber eine große Rolle: in gewissen Anwendungszusammenhängen gerät man nicht in die Irre, wenn man so tut als wäre a gleich b;
a ≈ b. π ≈ 3.14 z.B. ist zwar mathematisch unsinnig, aber praktisch oft ausreichend.
Was das für Zusammenhänge sind, in welchen eine Approximation tauglich ist, muß
man diskutieren; eine Approximation ist insofern oft eine Herausforderung.
Sehr ungenaue Approximationen sind meistens unnütz; auf der anderen Seite ist nicht
jede numerisch einigermaßen genaue ad–hoc“ Approximation nützlich. Schätzens”
wert sind Approximationen, die Zusammenhänge transparent machen, d.h. einfach
sind und auf Wesentliches hinweisen. Die Stirling–Formel ist von dieser Art. Manche
Taylor–Approximationen sind von dieser Art, aber bei weitem nicht alle.
Man kann Zahlen approximieren, man kann Funktionen approximieren, man kann
aber auch Wahrscheinlichkeitsverteilungen approximieren. Man kann z.B. die Binomialverteilung zum Parameter (n, p) durch die Poissonverteilung mit dem Parameter
np (oder durch die mit dem Parameter λ = (n + 1)p) approximieren. Wenn n
groß und p klein ist, empfiehlt sich eine solche Approximation für gewisse Zwecke.
Allerdings kann man die Approximation nicht im gesamten Bereich gebrauchen, was
c Prof. Dr. H. Dinges,
18. Dezember 1998
44
man daran sieht,daß die Poissonverteilungen
jede natürlich Zahl k mit einem po
λk −λ
belegt, während die Binomialverteilungen auf endliche
sitiven Gewicht = k! e
Mengen konzentriert sind.
Besonders beliebt sind in der Stochastik die Approximationen komplizierter Verteilungen durch geeignete Normalverteilungen N (µ, σ 2 ); man interessiert sich vor allem
für den zentralen“ Bereich, nicht für die großen Abweichungen vom Mittelwert.
”
Genauere Approximationen für annähernd normalverteilte Zufallsgrößen ergeben sich
manchmal aus dem sog. Prinzip der großen Abweichungen. Man erhält Approximationen der Verteilungsfunktion von der Gestalt
√ q
F (x) ≈ Φ ± 2 K(x) + H0 (x)
wobei K(x) eine in der Nähe des Zentrums“ x∗ konvexe Funktion ist mit
”
∗
0 ∗
00 ∗
K(x ) = 0, K (x ) = 0, K (x ) > 0 .
H0 (x) ist eine Korrektur mit H0 (x∗ ) = 0 und H000 (·) klein im Vergleich zu K 00 (·).
Wir gewinnen für unsere speziellen Verteilungen zunächst Approximationen der Dichten und leiten dann mit einem Plausibilitätsargument Approximationen der Verteilungsfunktionen von der obigen Gestalt ab.
Beispiel 1 : Für manche Zwecke empfiehlt es sich, die Betaverteilung
zum Pa
x∗ (1−x∗ )
∗
rameter (α, β) durch die Normalverteilung N x , α+β+1
oder auch durch
∗
∗
x (1−x )
β
α
zu approximieren, wobei x∗ = α+β
, 1 − x∗ = α+β
. Die ApproN x∗ , α+β
ximation ist (im zentralen Bereich) gut brauchbar, wenn α und β groß sind. Dies
wird plausibel, wenn man die Betadichte folgendermaßen umformt
1
Γ(α + β) α
x (1 − x)β
dx
Γ(α) · Γ(β)
x(1 − x)
=
s
p
x
1−x
x∗ (1 − x∗ )
exp α ln ∗ + β ln
x(1 − x)
x
1 − x∗
1
1
1
· exp −S
−S
+S
α
β
α+β
α+β
2π
mit S(·) aus Stirlings Formel. Die Funktion
K(x∗ , x) = x∗ ln
x∗
1 − x∗
+ (1 − x∗ ) ln
x
1−x
ist konvex als Funktion von x ∈ (0, 1) für jedes feste x∗ .
x − x∗
x∗ 1 − x ∗
+
=
x
1−x
x(1 − x)
1 − x∗
x∗
+
> 0 für alle x ∈ (0, 1) .
x2 (1 − x)2
K 0 (x∗ , x) = −
K 00 (x∗ , x) =
c Prof. Dr. H. Dinges,
18. Dezember 1998
dx
2.7
45
Approximative Normalität
Die Taylor–Entwicklung lautet
K(x∗ , x) =
1
1
∗ 2
∗ 3
(x
−
x
)
+
O
(x
−
x
)
.
2! x∗ (1 − x∗ )
Für die Betadichte haben wir also die Approximation
√ ∗
q
x (1−x∗ )
α+β
· exp (−(α + β)K(x∗ , x))
2π
x(1−x)
≈
s
· exp −S
1
α
−S
1
β
+S
1
α+β
dx
1
α+β
α+β
1
p
(x − x∗ )2
exp −
∗
∗
∗
2π
2 x (1 − x∗ )
x (1 − x )
dx .
Dies ist die Approximation durch die Dichte der Normalverteilung N x∗ ,
x∗ (1−x∗ )
α+β
.
Beispiel 2 : Die Gammaverteilung mit dem Erwartungswert = 1 und der Varianz
1
α hat die Dichte
1
1
(αy)α exp(αy) dy
Γ(α)
y
r
α
1
1
=
exp (−α[y − 1 − ln y]) dy exp −S
.
2π
y
α
Für große α kann man sie durch die Normalverteilung N 1, α1
denn
approximieren;
y − 1 − ln y = (y − 1) − ln(1 − (1 − y))
1
1
1
(y − 1)2 − (y − 1)3 + (y − 1)4 − . . .
=
2
3
4
für |y − 1| < 1 .
Beispiel 3 : (Normalapproximation der Bionomialverteilungen)
1
Wenn X binomialverteilt ist zum Parameter (n, p), dann ist L n+1
X + 21
auf
n− 1
3 1
5 1
1 1
2 n+1 , 2 n+1 , 2 n+1 ,
n+ 1
. . . , n+12 , n+12 konzentriert. Wir approximieren
n
pk (1 − p)n−k mittels der Stirlingformeln
zunächst die Gewichte b(k; (n, p)) =
k
die Punkte
n! =
s
2π
n+1
√
k! =
2π
√
(n − k)! =
2π
n+1
e
k+
e
1
2
n+1
!n−k+ 1
n−k+
e
1
n+1
exp −T
1
k+
exp S
2
1
2
!n−k+ 1
2
c Prof. Dr. H. Dinges,
exp −T
1
2
!!
1
n−k+
18. Dezember 1998
1
2
!!
46
Mit den Abkürzungen
z=
k+ 12
n+1
, 1−z =
b(k; (n, p)) = p
n−k+ 21
n+1
t(k, n − k) = S
haben wir
1
n+1
+T
1
k+ 21
+T
1
n−k+ 21
und
1
exp(−(n + 1)K(z, p)) exp(t(k, n − k))
2π(n + 1)p(1 − p)
wobei K(z, p) = z ln
z
p
+ (1 − z) ln
1−z
1−p
.
Dies führt zur Approximation
b(k; (n, p)) ≈
1
n+1
s
1
z+ 2(n+1)
≈
Z
1
z− 2(n+1)
(n + 1)
1 n+1
exp −
(z − p)2
2π p(1 − p)
2 p(1 − p)
s
1 n+1
n+1
exp −
(y − p)2
2π p(1 − p)
2 p(1 − p)
dy .
Es interessieren nun aber nicht so sehr die einzelnen
kleinen Gewichte; es soll viel
1
1
mehr die Wahrscheinlichkeit, daß n+1 X + 2 oder X selbst in ein vorgegebenes
Intervall fällt, verglichen werden mit der Wahrscheinlichkeit, daß eine normalverteilte
Zufallsgröße (mit geeignetem Mittelwert und geeigneter Varianz) in dieses Intervall
fällt.
m
X
b(k; (n, p))
k=`
≈
m+1/n+1
Z
`/n+1
s
1 n+1
n+1
exp −
(y − p)2
2π p(1 − p)
2 p(1 − p)
dy .
Der Integrand ist die Dichte der Normalverteilung N p, p(1−p)
. Sei Y norn+1
malverteilt mit E Y = (n + 1)p, var Y = (n + 1)p(1 − p). Dann haben wir also
den
Approximationssatz :
m
X
k=`
b(k; (n, p)) ≈ Ws(Y ∈ [`, m + 1]).
Dies bringt den berühmten Satz von deMoivre–Laplace zum Ausdruck. Dieser besagt, daß die Binomialverteilung zum Parameter (n, p) im zentralen Bereich für
große n durch die Normalverteilung N (np, np(1 − p)) oder auch durch die Normalverteilung N ((n + 1)p, (n + 1)p(1 − p)) approximiert werden kann. Die zweite
Fassung, so wie sie oben formuliert ist, verdient nach unserer Meinung den Vorzug,
c Prof. Dr. H. Dinges,
18. Dezember 1998
2.7
47
Approximative Normalität
weil sie eine gewisse Symmetrie beachtet. Wenn X binomialverteilt ist zum Parameter (n, p), dann ist (n − X) binomialverteilt zum Parameter (n, 1 − p). Unser
Approximationssatz liefert
m
X
k=`
b(k; (n, 1 − p)) ≈ Ws(Z ∈ [`, m + 1])
mit L(Z) = N ((n + 1)(1 − p), (n + 1)p(1 − p))
n−`
X
j=n−m
b(j; (n, p)) ≈ Ws((n + 1) − Z ∈ [n − m, n − ` + 1]) .
Dies ist genau wieder die Aussage des Approximationssatzes; denn
L((n + 1) − Z) = N ((n + 1)p, (n + 1)p(1 − p)) .
Beachte :
Bei der Ableitung der Normalapproximationen für die Binomialverteilung haben wir zweierlei Fehler gemacht:
1−z
z
+ (1 − z) ln
wurde durch den quadratischen Term in
p
1−p
der Taylorentwicklung ersetzt.
1) K(z, p) = z · ln
2) Das Integral einer gewissen Funktion über ein Intervall diente zur Approximation des Funktionswerts im Mittelpunkt.
Den Diskretisierungsfehler kann man vermeiden, wenn man die Beziehung zwischen
den Binomialschwänzen und den Betaschwänzen ausnützt. Die Approximation der
Betaschwänze kann man wesentlich verbessern, wenn man sich einige Mühe macht.
Eine Approximation, welche sich durch große Genauigkeit auszeichnet ist die folgende.
Satz : Sei X betaverteilt zum Parameter (α, β) = ((α+β)x ∗ , (α+β)(1−x∗ )). Es
gilt dann mit großer Genauigkeit für alle nicht allzukleinen α, β und alle x ∈ (0, 1)
√
Ws(X ≤ x) ≈ Φ ± 2
wobei K(x∗ , x) = x∗ ln
x∗
x
s
(α +
β)K(x∗ , x)
+ (1 − x∗ ) ln
+ H0
(x∗ , x)
1−x∗
1−x
e
+h
1
2K(x∗ , x) ∗
H0 (x , x) = − ln
x (1 − x∗ )
2
(x − x∗ )2
e 1, 1
= − min {(α + β)K(x∗ , x) + H0 (x∗ , x)} .
h
x
α β
∗
(ohne Beweis !)
c Prof. Dr. H. Dinges,
18. Dezember 1998
1 1
,
α β
!
,
48
Bemerke : Wenn man K(x∗ , x) durch den quadratischen Term in der Taylore gänzlich vernachlässigt, führt das auf die
entwicklung ersetzt und H0 (x∗ , x), h
Normalapproximation
√
Ws(X ≤ x) ≈ Φ ± 2
= Φ
s
s
1
1
(α + β)
(x − x∗ )2
∗
2 x (1 − x∗ )
α+β
(x − x∗ )
x∗ (1 − x∗ )
!
!
In ähnlicher Weise kann man die Schwanzwahrscheinlichkeit der Gammaverteilungen (und damit auch der Poissonverteilungen) approximieren.
Satz : Sei Y gammaverteilt mit E Y = 1, var Y = α1 . Es gilt dann mit großer
Genauigkeit für alle nicht allzukleinen α und alle y > 0
√
Ws(Y ≤ y) ≈ Φ ± 2
s
αL(y) + H0 (y) + e
h
!
1
α
wobei
L(y) = y − 1 − ln y
2L(y)
1
H0 (y) = − ln
2
(y − 1)2
1
e
h
= − min {αL(y) + H0 (y)} .
y
α
(ohne Beweis !)
2.8
Abnahmeprüfung, Konfidenzintervalle
In ähnlicher Weise, wie wir es hier für die Binomial– und Poissonverteilungen getan
haben, kann man auch die hypergeometrischen Verteilungen approximieren. Die analytischen Überlegungen sind aber naturgemäß noch komplizierter. Wir wollen sie hier
nicht ausführen, sondern uns stattdessen mit einer Anwendungssituation beschäftigen, in welcher die Approximation gute Dienste leistet. Eine solche Anwendungssituation ist die Theorie der Abnahmeprüfung in der statistischen Qualitätskontrolle.
A. Abnahmeprüfung :
Ein Produzent bietet einem Konsumenten ein Los von N Stück an. n Stück werden
überprüft; der Konsument nimmt das Los ab, wenn sich in der Stichprobe höchstens
c Prof. Dr. H. Dinges,
18. Dezember 1998
2.8
49
Abnahmeprüfung, Konfidenzintervalle
n
heißt die Inspektionszahl, c heißt die Abnahmezahl.
c defekte Stücke befinden. N
X bezeichne die Anzahl der defekten Stücke in der Stichprobe.
Der Produzent ist der Meinung, daß das Los mit sehr hoher Wahrscheinlichkeit an∗
genommen werden sollte, wenn der Anteil der defekten Stücke M
N höchstens p
ist. Der Konsument ist der Meinung, daß das Los mit sehr hoher Wahrscheinlichkeit
zurückgewiesen werden sollte, wenn der Anteil der defekten Stücke M
N größer als
∗∗
p ist.
Wsp∗ (X > c) heißt das Produzentenrisiko .
Wsp∗∗ (X ≤ c) heißt das Konsumentenrisiko .
Die Agenten müssen sich nun auf einen geeigneten Abnahmeplan (gegeben durch
(n, c)) einigen. Die Aufgabe der Mathematiker könnte z.B. so lauten: Finde (n, c),
so daß (zu vorgegebenen p∗ , p∗∗ ) das Produzentenrisiko und das Konsumentenrisiko
ca. 5% beträgt. Er kann für einige (n, c) die Kennlinie ausrechnen oder, noch besser,
durch eine transparente Approximationsformel den Agenten vor Augen führen. Die
Kennlinie beschreibt die Abnahmewahrscheinlichkeit als Funktion von p, dem Anteil
der defekten Stücke
β(p) := Wsp (X ≤ c)
Aus mathematischer Sicht ist β(p) die Schwanzwahrscheinlichkeit für eine hypergeometrisch verteilte Zufallsgröße X zum Parameter (n, M ; N ). Man kann versuchen,
sie durch die Schwanzwahrscheinlichkeit einer binomaialverteilten Zufallsgröße Y
zum Parameter (n, p) zu approximieren. Wenn n groß und p klein ist, dann
ist möglicherweise sogar die Poisson–Approximation gut genug um das Produzentenrisiko und das Konsumentenrisiko mit ausreichender Genauigkeit zu bestimmen.
Eine beliebte Faustregel besagt: Wenn weniger als 15% Inspektion gemacht werden
”
soll und weniger als 15% Defekte im Los erwartet werden, dann ist die Poissonapproximation genügend genau. Für schlechte Qualität, also insbesondere im Bereich
des Verbraucherrisikos liefert meist erst die Binomialapproximation genauere Werte
für die Abnahmewahrscheinlichkeiten. Wenn die Inspektion mehr als 15% des Loses
betrifft, muß man mit der hypergeometrischen Verteilung rechnen.“
Die nachstehenden Kurven zeigen, daß die Näherungen auf Kennlinien führen, die
insofern “konservativ“ genannt werden können, daß sie den Entscheidungsträgern
weniger versprechen, als was das Stichprobenverfahren wirklich leistet: dem Produzenten und dem Konsumenten erscheint aufgrund der näherungsweise errechneten
Kennlinie sein Risiko größer, als es in Wirklichkeit ist.
Für Losgrößen N = 100 und N = 1000 sind unten Abnahmewahrscheinlichkeiten
gezeichnet, die sich aus der jeweiligen Näherungsformel ergeben. HV beschreibt
diese Wahrscheinlichkeit exakt. Es bedeuten: HV: hypergeometrische Verteilung,
c Prof. Dr. H. Dinges,
18. Dezember 1998
50
BV: Binomialverteilung, PV: Poissonverteilung, M: Anzahl der defekten Objekte, c:
Abnahmezahl, n: Stichprobenumfang.
p :=
M
in Prozent notiert auf der Abszissenachse
N
.
........................ ..
.................. ............
....... ....
.
........... ........
........ ...
...... ....
........... ..
...............
...............
......
........................
. ..........
....... .............
. ... .....
....... ........
...
.....
.......
.......
........
....
.........
...
......... .
....
..........
.....
....... ...
....... ...
.....
....... ...
... ..
..............
... ..
..........
... .
...............
........... ...
... ...
15% Inspektion
......... ...
... .
........... ...
... ...
....... ..... ...
... .
.......... ...
.
... ...
...... .... ... ..
.
.
.
......... .. . ... .
100% I. ..... ....45%
I.
........... .. ...
... . .
....... ...... ... ..
...
.
....... .... . ... .
.... ....
....... .. ... .. ...
......... .... . –PV
–HV HV–........ ...–BV
HV–
...
......... ..... ....... ... ...
......
.....
.. ............ ..... .......
.....
.............
.
..
.
....
......
...........
......
.
.
....
BV
......
.
.
.
.......
... .
........
.....
.........
...... .
.
..........
.... ......
.............
....................... ...... ...... ......
0
2
4
6
8
10
Losgröße N = 100
12
14
16
18
20%
n
15
45
100
c
1
3
6
.... ... ..........
.... ........
.... ..............
......
. . ..
. ....
........ ............ ........ ........ ........ ........ ........................... ........ .......................... ........ ........ ........ ........ ........ ........ ........ ........
.
.. ..
... ....
.......
.. ...
....
... .....
.......
....
... ....
......
.......
.
..
.
... .....
......
..
..
.......
.......
...
.
...
..
.......
.
.
....
..
.
..
.......
......
...
.
.......
........
...
..
.......
......
...
..
.
.
...
..
...
...
..
..
...
...
...
...
.....
.
...
...
....
...
...
......
.
.
.
...
...
.....
.
...
.....
....
....
.....
......
.....
....
.
..... 20% I.
......40% I. .......60% Inspektion
... .
.....
....
.....
....
......
.. ..
......
.....
... .. HV–.... .–BV
....
.
... ...
.....
... .
... ...
... ..
... ...
... .
... .
....
... ..
... ..
......
... ...
... ..
... ...
.....
... ..
... ..
.....
.........
.
........ ........ ........ ........ ........ ................... ........ ........ ........ ........ ........................ ............ .......... ........ ........ ........ ........ ........
...........
.......... ....
.
.............. ... .................... .... ...
........ .... ....
0
2
4
6
8
10
Losgröße N = 1000
12
14
16
18
20%
n
200
400
600
c
5
30
70
Die obenstehenden Kurven sind numerisch berechnet. Man kann sie mit analytischen Mitteln zu approximieren versuchen. Eine besonders attraktive Form ergibt
c Prof. Dr. H. Dinges,
18. Dezember 1998
2.8
51
Abnahmeprüfung, Konfidenzintervalle
sich für die Näherungsformeln, wenn man die Schwanzwahrscheinlichkeiten des hypergeometrischverteilten X und des binomialverteilten Y folgendermaßen schreibt
β
M
N
= Ws(X ≤ c)
√ q
= Φ ± 2 K(N, M, n, c) + H0 (N, M, n, c) + Rest
√
Ws(Y ≤ c) = Φ ± 2
s
c+1
, p + h0
(n + 1)k
n+1
c+1
, p + rest
n+1
!
wobei die Funktionen K(·), H0 (·) bzw. k(·), ho (·) durch asymptotische Betrachtungen nahegelegt werden. Wir wollen dies aber hier nicht ausführen. Die konkreten
Rechnungen würden uns allzuweit ins Studium spezieller elementarer“ Funktionen
”
hineinführen.
Zum Abschluß der Überlegungen zur Approximation der klassischen Verteilungen
diskutieren wir noch ein weiteres Problem der elementaren mathematischen Statistik, nämlich das Problem der Konfidenzintervalle f ür den Parameter einer
Binomialverteilung.
B. Konfidenzintervalle für den Parameter der Binomialverteilung
Ein Experiment mit unbekannter Erfolgswahrscheinlichkeit ist n–mal unabhängig
wiederholt worden. Es sind x Erfolge beobachtet worden. Die Hypothese Hp , daß
die Erfolgswahrscheinlichkeit gleich p ist, kann zurückgewiesen werden, wenn x
sehr viel größer oder sehr viel kleiner als np ist. Man kann aber natürlich nicht ganz
sicher sein, daß das Ablehnen der Hypothese Hp zurecht erfolgt.
Der Statistiker wünscht vom Mathematiker eine Empfehlung: Weise diejenigen Hp
”
zurück, für welche p nicht im Intervall (p− , p+ ) liegt“.
Er wünscht also ein Verfahren, wie (p− , p+ ) zu n und x zu bestimmen ist; dieses
Intervall wird irgendeine Umgebung von nx sein. Wie groß aber ist dieses Konfi”
denzintervall“ zu wählen, wenn man das zufällige Ergebnis nicht überinterpretieren
will?
Der unkritische Statistiker wird zufrieden sein, wenn ihm der Mathematiker eine Tabelle liefert. Er wird dann dem Experimentator unter Berufung auf die Autorität
der Tabelle sagen: Die Erfolgswahrscheinlichkeiten p, die nicht im Konfidenzinter”
vall“ (p− , p+ ) liegen, können zurückgewiesen werden. So sieht die Praxis in der Tat
oft aus. Vom beratenden Statistiker wird nur gefordert, daß er die passende Tabelle
ausfindig macht und daraus die Zahlen p − , p+ entnimmt.
Welches ist nun die passende Tabelle und wie wird sie erstellt? Der kritische Statistiker weiß das nicht nur; er kann dem Experimentator auch erklären, warum im
vorliegenden Fall die herangezogene Tabelle tatsächlich die passende ist.
c Prof. Dr. H. Dinges,
18. Dezember 1998
52
Welche Aufgabe hat der Mathematiker, der die Tabellen erstellt hat, gelöst?
Betrachten wir eine Tabelle, die uns für eine beobachtete Anzahl von x Erfolgen
das Konfidenzintervall (p− (x), p+ (x)) für die Erfolgswahrscheinlichkeit anempfiehlt.
Sie sagt uns insbesondere, daß wir die Hypothese Hp− (x) verwerfen sollten, wenn
wir x oder mehr Erfolge beobachten. Das ist ein Verwerfen zu unrecht, wenn die
tatsächliche Erfolgswahrscheinlichkeit wirklich so klein ist. Wir machen einen Fehler
1. Art (Verwerfen der wahren Hypothese zu unrecht) mit der Wahrscheinlichkeit
Wsp (X ≥ x). Wir verlangen von der Tabelle (zu einer vorgegebenen Zahl α − , wie
etwa α− = 0.025)
Wsp (X ≥ x) ≤ α−
für alle p ≤ p− (x) .
Die Tabelle sagt uns weiterhin, daß wir Hp+ (x) verwerfen sollten, wenn wir x oder
weniger Erfolge beobachten. Von der Tabelle (zu einer vorgegebenen Zahl α + , wie
etwa α+ = 0.025) verlangen wir
Wsp (X ≤ x) ≤ α+
für alle p ≥ p+ (x) .
In der Tabelle zum Paar (α− , α+ ) =
Lösungen p− (x), p+ (x) der Gleichungen
Wsp− (X ≥ x) =
1
2
α, 12 α
z.B. liefert der Mathematiker
1
α = Wsp+ (X ≤ x) .
2
Um eine Vorstellung von den Lösungen p− , p+ zu bekommen, betrachten wir die
Gleichung
Λ Wsp
x + 21
X + 21
≥
n+1
n+1
!!
α
=Λ
2
2
2
1 −1 α
=
Φ
2
2
Die Näherung von oben liefert
(n + 1)k
!
x + 21
, p + h0
n+1
x + 21
,p
n+1
!
≈
1 −1 α
Φ
2
2
.
Die (natürlich nur numerisch zu ermittelnden) Lösungen pe− (x), pe+ (x) dieser Gleichung erweisen sich als sehr gute Näherungen für die gesuchten p− (x), p+ (x). Dagegen ist die Normalapproximation nach deMoivre–Laplace für die Praxis meistens
nicht hinreichend genau. Daher geben die Bücher über elementare mathematische
Statistik üblicherweise (p− (x), p+ (x)) in Tabellenform für ausgewählte n und ausgewählte α (etwa α = 0.05) (siehe z.B. Dinges/Rost: Prinzipien der Stochastik,
Teubner 1982, Seite 130, zu α2 = 0.025)
c Prof. Dr. H. Dinges,
18. Dezember 1998
2.8
53
Abnahmeprüfung, Konfidenzintervalle
Überleitung zu Kapitel 3
Wir haben gesehen, daß man sehr schnell tief in die konkrete Analysis hineingerät,
wenn man sich mit den klassischen Verteilungen beschäftigt oder gar mit den gemeinsamen Verteilungen. Im nächsten Kapitel ziehen wir uns wieder aus der speziellen
Analysis zurück. Das ist keine endgültige Verabschiedung der Analysis sondern nur
eine von der konkreten Analysis. In der höheren Stochastik braucht man auch abstraktere Analysis. Dort wird z.B. geklärt, was es heißt, daß eine Folge von Verteilungen konvergiert oder daß eine Schar von Verteilungen
stetig vom Parameter
abhängt.
In welchem Sinne konvergiert die Verteilung L √ 1
(X − np)
np(1−p)
mit X bino-
mialverteilt zu (n, p) gegen die Standardnormalverteilung N (0, 1)? Die Theorie
der Konvergenz von Verteilungen auf dem IR d ist der Anfang einer voraussetzungsvollen mathematische Theorie, die sich auch mit der Konvergenz von Verteilungen
auf Funktionenräumen befaßt oder auch mit der Konvergenz von Verteilungen auf
dem Raum der (lokalendlichen) Punktmengen (z.B. im Umfeld der Theorie des poissonschen Punktprozesses). Es handelt sich um ein interessantes Anwendungsfeld f ür
Begriffsbildungen aus der allgemeinen Topologie und der elementaren Funktionalanalysis.
Vom Standpunkt der elementaren Analysis aus gesehen sind Erwartungswert und
Varianz einer reellwertigen Zufallsgröße nichts weiter als Kenngrößen von Verteilungen. Der Erwartungswert erscheint als eine Kenngröße für die Lage ( Lokation“) einer
”
Verteilung; die Varianz (oder die Standardabweichung) einer Verteilung beschreibt
ihre Dispersion um den Erwartungswert. Der Standpunkt der elementaren Analysis führt nicht in natürlicher Weise hinein in die für die Stochastik zentrale Theorie
von Erwartungswert und Varianz. Diese überaus wichtige Theorie nimmt einen viel
abstrakteren Ausgangspunkt. Sie knüpft direkt an die lineare Algebra an; der Erwartungswert wird einfach als ein lineares Funktional behandelt, die Kovarianz als ein
bilineares Funktional. Im Unterschied zur elementaren linearen Algebra haben wir
es allerdings mit linearen (bzw. bilinearen) Funktionalen auf unendlichdimensionalen
Vektorräumen zu tun; nur dann, wenn das zugrundeliegende Zufallsexperiment nur
endlich viele Ausgänge hat, sind wir im endlichdimensionalen Fall.
Die technischen Schwierigkeiten, die durch die Unendlichkeit der Dimension entstehen, lassen sich auf einige Kernsätze der Maßtheorie zurückführen, die jeder Anfänger
ohne alle Beweise sehr leicht verstehen und sicher anwenden kann. Wir werden diese
Kernsätze im Folgenden wie Axiome behandeln. Wer sie hinterfragen will, ist auf die
Veranstaltungen oder Lehrbücher zur Maß– und Integrationstheorie zu verweisen.
Dem Anfänger kann man versichern: Der abstrakte Standpunkt, der den Erwartungswert in quasi axiomatischer Weise als ein lineares Funktional versteht, f ührt
keineswegs weit weg von den elementaren Fragestellungen der Stochastik. Der Erfolg
der abstrakten Betrachtungsweise ist darin zu sehen, daß die elementaren Tatsachen
mit Hilfe der passenden Begriffsbildung transparent werden.
c Prof. Dr. H. Dinges,
18. Dezember 1998
3. Erwartungswert und Kovarianz
Standpunkt der elementaren Analysis aus gesehen ist der Erwartungswert einer reellwertigen Zufallsgröße eine Kenngröße der Verteilung L(X), die etwas über die Lage
(oder Lokation) der Verteilung aussagt; die Varianz (oder besser die Wurzel aus der
Varianz) sagt etwas über die Streuung der Verteilung aus. Wenn man die Verteilung
verschiebt, verschiebt sich der Erwartungswert, während die Varianz unverändert
bleibt.
Wir wollen in diesem Kapitel Erwartungswert und Varianz nicht der Verteilung
L(X) zuordnen, sondern den Zufallsgrößen X selbst und schreiben E X bzw.
var X. Was wir über die Verschiebung gesagt haben, drückt sich in Formeln so aus:
E (X + a) = E X + a ,
var(X + a) = var X .
Es ist hier angebracht, die Konstante a als eine Zufallsgröße aufzufassen, die mit
Sicherheit den Wert a annimmt. X + a ist also als die Summe zweier Zufallsgrößen
zu interpretieren. (Denkt man an die Fortführung der Theorie der Erwartungswerte
zur Theorie der bedingten Erwartungswerte (vgl. Kapitel 5), so ist es auch angebracht, E X nicht als eine Zahl zu betrachten, sondern als eine Zufallsgröße, die mit
Wahrscheinlichkeit 1 den Zahlenwert E X annimmt.)
Die Quadratwurzel aus der Varianz heißt die Standardabweichung; sie hat ähnliche
Eigenschaften wie die Länge eines Vektors in der euklidischen Geometrie. Insbesondere gilt: wenn man die Verteilung um einen Faktor α streckt, multipliziert sich die
Standardabweichung mit dem Faktor |α|
q
√
var(αX) = |α| var X .
Der Erwartungswert einer IRd –wertigen Zufallsgröße erscheint vom Standpunkt der
Analysis als der Schwerpunkt der Verteilung, also als ein Punkt im IR d . Die Streuung einer Massenverteilung im IRd kann bekanntlich nicht durch eine Zahl oder
einen Vektor beschrieben werden; man braucht einen Tensor zweiter Stufe. Was f ür
die Mechanik der Trägheitstensor ist, ist für die Stochastik die Kovarianzmatrix.
Der Standpunkt der Analysis hat aber, wie schon oben für den eindimensionalen
Fall gesagt, für die Stochastik nur sehr begrenzte Fruchtbarkeit. Die Stochastiker
sehen Erwartungswert und Varianz nicht als Kenngrößen von Verteilungen, sondern
vielmehr als Kenngrößen der Zufallsgrößen selbst, Kenngrößen im Bezug auf eine Hypothese. Die Rechengrößen sind in der Stochastik die Zufallsgrößen selbst und nicht
ihre Verteilungen. Der Erwartungswert einer IR d –wertigen Zufallsgröße wird komponentenweise als ein d–tupel von Funktionalen verstanden. Wir bleiben vorerst beim
54
3.1
55
Der Erwartungswert als lineares Funktional
eindimensionalen Fall (d = 1). Der Erwartungswert bezüglich einer Hypothese Hϑ
wird als ein lineares Funktional auf einem Vektorraum von Zufallsgrößen verstanden. Der Definitionsbereich des Funktionals Eϑ (·) ist im allg. unendlichdimensional.
Es ist nur dann endlichdimensional, wenn wir es mit einem Zufallsexperiment mit
endlich vielen möglichen Ausgängen zu tun haben. Glücklicherweise lassen sich die
technischen Schwierigkeiten, die die Unendlichkeit der Dimension mit sich bringt,
leicht auf einige wenige Kernsätze konzentrieren. Diese Kernsätze, die in der Maß–
und Integrationstheorie bewiesen werden, wollen wir hier wie Axiome unbewiesen
hinnehmen. Der Anfänger kann sie leicht verstehen und sicher anwenden lernen, ohne ihre Beweise zu kennen.
3.1
Der Erwartungswert als lineares Funktional
Theorem : (Hauptsatz der Theorie des Erwartungswerts)
Zu jeder Wahrscheinlichkeitsbewertung P (·) eines Zufallsexperiments existiert genau ein Funktional E (·) auf dem Kegel der positivwertigen Zufallsgrößen mit den
Eigenschaften
1) E (1A ) = P (A) für jedes Ereignis A
2) E (λX) = λ · E X für alle reelle Zahlen λ ≥ 0 und alle X
3) E (X + Y ) = E X + E Y für alle X und Y
4) X1 ≤ X2 ≤ . . .; X = lim ↑ Xn =⇒ E X = lim ↑ E Xn
Das Funktional E (·) heißt der Erwartungswert bzgl. der durch die Hypothese
gegebenen Wahrscheinlichkeitsbewertung P (·) .
Im folgenden betrachten wir den Erwartungswert bzgl. einer fixierten Hypothese.
Statt P (A) schreiben wir Ws(A).
Bemerke :
1) Der Begriff des Erwartungswerts einer nichtnegativen Zufallsgröße verallgemeinert den Begriff der Wahrscheinlichkeit eines Ereignisses. Man kann nämlich
ein Ereignis A identifizieren mit der Zufallsgröße 1A , welche den Wert 1
annimmt, wenn A eintritt und sonst 0 ist. 1 A heißt die Indikatorvariable
zum Ereignis A.
c Prof. Dr. H. Dinges,
18. Dezember 1998
56
2) Aus den Eigenschaften 2) und 3) ergibt sich für eine positive Zufallsgröße X,
die nur endlich viele Werte x1 , . . . , xN annehmen kann
EX =
Beweis :
EX =
N
X
xi Ws(X = xi ) =
i=1
X=
X
i
P
i xi
X
x Ws(X = x) .
X
xi E 1{X=xi } =
1{X=xi }
E xi 1{X=xi } =
X
xi Ws(X = xi ) .
3) Der Erwartungswert einer nichtnegativen Zufallsgrößen ist entweder eine nichtnegative reelle Zahl oder +∞. Für eine nichtnegative Zufallsgröße X gilt
E X = 0 genau dann, wenn X = 0 (fast sicher bzgl. der zugrundeliegenden Hypothese). Bemerke auch X ≤ Y =⇒ E X ≤ E Y , d.h. E (·) ist ein
monotones Funktional.
4) Eine nichtnegative Zufallsgröße X heißt beschränkt (bzgl. der zugrundeliegenden Hypothese), wenn eine Zahl M existiert, so daß X ≤ M (fast sicher).
In diesem Falle gilt E X ≤ M . Eine nichtbeschränkte Zufallsgröße kann sehr
wohl einen endlichen Erwartungswert besitzen. Sei z.B. X poissonverteilt zum
Parameter λ. Es gilt dann
EX =
∞
X
k=0
k
∞
X
λ` −λ
λk −λ
e
= λ
e
= λ
k!
`!
`=0
λk −λ
e
= λ2 ; E X 2 = λ2 + λ
k!
E ((X − λ)2 ) = E (X 2 − 2λX + λ2 ) = (λ2 + λ) − 2λλ + λ2 = λ .
E (X(X − 1)) =
X
k(k − 1)
5) Man betrachtet auch Zufallsgrößen, die den Wert +∞ annehmen können
und man definiert E X = +∞, wenn Ws(X = +∞) > 0. Es gibt aber
auch Zufallsgrößen mit Werten in [0, +∞) (endlichwerte Zufallsgrößen), die
einen unendlichen Erwartungswert haben. Wenn z.B. X poissonverteilt ist
mit λ > 1e , dann hat Y = X X den Erwartungswert E Y = +∞; denn nach
Stirlings Formel
EY =
X
∞
1
λk −λ X
√
e =
k
ek λk exp −S
k!
2πk
k=1
k
1
k
e−λ
Ein interessanteres Beispiel einer endlichwertigen Zufallsgrößen
E T = +∞ ist das folgende:
c Prof. Dr. H. Dinges,
18. Dezember 1998
T
mit
3.1
57
Der Erwartungswert als lineares Funktional
Seien Y1 , Y2 , . . . unabhängig identisch verteilt mit
1
= Ws(Y = −1)
2
= Y1 + Y2 + . . . + Yn für n = 1, 2, . . .
Ws(Y = 1) =
Sn
T
= inf{n : Sn = 0}
(Zeitpunkt des ersten Gleichstands) .
Es gilt dann E T = +∞, wie man leicht beweisen kann.
6) Jede (fast sicher) aufsteigende Folge von Zufallsgrößen X1 ≤ X2 ≤ . . . besitzt
einen Limes X = lim ↑ Xn . Dieser mag (fast sicher) endlichwertig sein oder
nicht. Jedenfalls gilt nach 4) E X = lim ↑ E Xn .
Sei X irgendeine nichtnegative Zufallsgröße, M1 ≤ M2 ≤ . . . eine unbeschränkte Zahlenfolge und Xn = min{X, Mn }. Es gilt dann
E X = lim ↑ E (Xn ) .
Lemma :
Zu jeder nichtnegativen Zufallsgröße X
Folge X1 ≤ X2 ≤ . . . mit
existiert eine aufsteigende
1) X = lim ↑ Xn
2) Xn nimmt nur endlichviele Werte an.
Beweis :
Xn =
Betrachten wir zunächst ein beschränktes X. Setze
∞
X
k−1
k=1
2n
· 1{X∈( k−1
n
2
,
k
2n
]}
.
Xn entsteht
aus X durch Abrundung auf das größte darunterliegende Vielfache
n
1
von 2 . Es gilt X = lim ↑ Xn .
Die Konstruktion muß nur unwesentlich abgewandelt werden für den Fall eines unbeschränkten X. In jedem Fall gilt E X = lim ↑ E Xn .
Satz :
Für eine positivwerte Zufallsgröße X sei
F (x) = Ws(X ≤ x)
die Verteilungsfunktion (unter der gegebenen Hypothese). Es gilt dann
EX =
Z∞
0
[1 − F (y)] dy .
c Prof. Dr. H. Dinges,
18. Dezember 1998
58
1
....................................................................................................................................................................................................................................................................................................................
.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...............................
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........................
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ............
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .........
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .............
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...............
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...................
... . . . . . . . . . . . . . . . . . . . . . . . ..................................
.... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ................
.. . . . . . . . . . . . . . . . . . . . . ......
... . . . . . . . . . . . . . . . . . . . . ...
.... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .....
.. . . . . . . . . . . . . . . . . . . . ....
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....
... . . . . . . . . . . . . . . . . . . .....
.... . . . . . . . . . . . . . . . . . . . . . . .....................................................
.. . . . . . . . . . . . ..
... . . . . . . . . . . . ...
... . . . . . . . . . . . . . . . . . . . . . . ...
... . . . . . . . . . . . ...
... . . . . . . . . . . . . . . . . . . . . . . ...
... . . . . . . . . . . . ..
... . . . . . . . . . . .......
... . . . . . . . . . . . . . . . . . . . .........
... . . . . . . . . ...............
... . . . . . . ...............................
... . . ............
... . ..........
... ........
......
.............................................................................................................................................................................................................................................................................................................................................
........
F (x)
x
Beweis :
1) Der Integrand [1 − F (y)] ist eine antitone Funktion von y. Das Integral
(= Fläche unter der Kurve)
ist wohldefiniert. Wenn F (·) genügend schnell
R
nach +1 ansteigt, ist [1 − F (y)] dy < ∞; wenn F (·) allzu langsam nach
1 ansteigt, dann erhalten wir ein unendliches Integral, also E X = +∞. Wir
konzentrieren uns im Beweis auf den Fall E X < ∞ und auch da nur auf den
Fall X ≤ M (fast sicher). Dies ist der Fall, wo 1 − F (y) = 0 für alle y > M .
Den Beweis im allgemeinen Fall überlassen wir dem Leser.
2) Konstruieren wir wie im Lemma die X n , die nur die Werte 2kn annehmen,
und vergleichen wir die Verteilungsfunktionen F n (x) = Ws(Xn ≤ x) mit der
Verteilungsfunktion F (x) = Ws(X ≤ x). Wegen X n ≤ Xn+1 gilt für alle x
1 − Fn (x) = Ws(Xn > x) ≤ Ws(Xn+1 > x) = 1 − Fn+1 (x)
und lim ↑ Fn (x) = F (x) für jedes x, in welchem F (·) stetig ist. Aus
n→∞
bekannten Sätzen aus der elementaren Analysis folgt für die aufsteigende Folge
1 − Fn (·) antitoner Funktionen
lim ↑
Z
[1 − Fn (y)] dy =
Z
[1 − F (y)] dy .
k
2n
3) Andererseits gilt
E Xn =
Xk−1 F
−F
k−1
2n
2n
X
Xk−1 k−1
k−1
k
1
−
F
−
1
−
F
=
2n
2n
2n
2n
X
X k k−1
k
k
=
1
−
F
−
1
−
F
2n
2n
2n
2n
=
Z∞
1 X
k
1−F
−→
[1 − F (y)] dy .
n→∞
2n
2n
0
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.1
59
Der Erwartungswert als lineares Funktional
Beispiel : Ein Zufallsexperiment mit der Erfolgswahrscheinlichkeit p wird unabhängig wiederholt. T sei der Zeitpunkt des ersten Erfolgs. Berechne E T .
Ws(T > k) = Ws (die ersten k Versuche sind erfolglos) = (1 − p) k
ET
=
Z∞
=
∞
X
Ws(T > y) dy =
Ws(T > k)
k=0
0
k=0
∞
X
(1 − p)k =
1
1
=
.
1 − (1 − p)
p
Die Wartezeit bis zum ersten Erfolg hat den Erwartungswert
natürlich auch folgendermaßen berechnen
ET
=
∞
X
k Ws(T = k) =
k=1
= p
X
X
k(1 − p)k−1 =
1
p.
Man könnte E T
k(1 − p)k−1 p
1
;
p
denn für |x| < 1 gilt
1
1−x
2
d
=
dx
1
1−x
∞
X
d
=
dx
x
k
0
!
=
∞
X
kxk−1 .
1
Satz :
a) Sei X eine Zufallsgröße mit der Dichte p(x)dx.
Ws(X ∈ (x, x + dx)) = p(x) dx
Dann haben wir
F (x) =
Zx
p(y) dy
und
0
EX =
Z∞
xp(x) dx .
0
b) Es sei f (·) eine nichtnegative Funktion und Y = f (X). Es gilt dann
E Y = E f (X) =
Z
f (x) p(x) dx .
c Prof. Dr. H. Dinges,
18. Dezember 1998
60
Beweis :
Z∞
Die Aussage a) ergibt sich durch partielle Integration
xp(x) dx =
0
Z∞
[1 − F (x)] dx .
0
Die Aussage b) wollen wir hier nur im Falle beweisen, wo Y nur endlich viele Werte
annimmt
Y
=
X
y 1{Y =y}
X
Z
Ws(Y = y) = Ws(f (X) = y) =
X
y Ws(Y = y) =
y
Z
p(x) dx
{x:f (x)=y}
yp(x) dx =
{x:f (x)=y}
Z
f (x) p(x) dx .
Der allgemeine Fall ergibt sich aus einem Approximationsargument. Man kann Y
als monotonen Limes schreiben Y = lim ↑ Y n , wo Yn nur endlich viele Werte
annimmt.
Eine Anwendung des allgemeinen Begriffs des Erwartungswerts, dessen Bedeutung
erst später klar werden wird, wenn wir uns mit “Nullereignissen“, d.h. mit Ereignissen
mit der Wahrscheinlichkeit 0 befassen, ist das
P
Lemma von Borel–Cantelli : Seien A1 , A2 , . . . Ereignisse mit
Ws(An ) < ∞.
Dann ist das Ereignis, daß unendlich viele der A n eintreten, ein Nullereignis.
Beweis :
Sei N die Anzahl der eintretenden Ereignisse
N = 1A1 + 1A2 + . . . = lim ↑
n
Es gilt
↑E
E N = lim
n
P
n
X
1 Ai
!
=
n
X
∞
X
1 Ai .
Ws(An ) .
Wenn
Ws(An ) < ∞, dann hat N einen endlichen Erwartungswert; N ist also
insbesondere endlich–wertig mit Wahrscheinlichkeit 1.
∞
P
Ws(An ) = +∞ kann man im allgemeinen nicht schließen, daß
Bemerke : Aus
mit positiver Wahrscheinlichkeit unendlich viele der A n eintreten.
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.2
61
Sätze aus der Integrationstheorie
3.2
Sätze aus der Integrationstheorie
Notation :
1) Wenn α eine reelle Zahl ist, setzen wir
α+ = max{0, α} ,
α− = max{0, −α} .
Es gilt dann α+ + α− = |α| und α = α+ − α− .
2) Wenn f (·) eine reellwertige Funktion auf irgendeinem Definitionsbereich ist,
setzen wir
f + (x) = max{0, f (x)} ,
f − (x) = max{0, −f (x)} .
Es gilt dann f + + f − = |f | und f = f + − f − .
3) Wenn X eine reellwertige Zufallsgröße ist, setzen wir
X + = max{0, X} ,
X − = max{0, −X} .
Es gilt dann X + + X − = |X| und X = X + − X − .
Definition : Man sagt von einer reellwertigen Zufallsgröße X, daß sie (unter
einer gewissen Hypothese) einen endlichen Erwartungswert besitzt, wenn
E X+ < ∞
und
E X− < ∞ .
In diesem Falle definiert man
+
−
EX =EX −EX .
Bemerke :
X hat einen endlichen Erwartungswert genau dann, wenn E |X| < ∞.
Theorem :
Die Gesamtheit aller derjenigen Zufallsgrößen X, die bzgl. einer
gewissen Hypothese H einen endlichen Erwartungswert besitzen, ist ein Vektorraum.
Betrachten wir zwei Zufallsgrößen als äquivalent bzgl. H, wenn das Ereignis, daß
sie verschiedene Werte ergeben, ein Nullereignis bzgl. H ist. Die Gesamtheit der
Äquivalenzklassen ist ein Vektorraum L 1 (H). Der Erwartungswert EH (·) ist ein
lineares Funktional auf diesem Vektorraum.
c Prof. Dr. H. Dinges,
18. Dezember 1998
62
Beweis :
1) Betrachte X und Y aus L1 und Z = X + Y . Es gilt
|Z| ≤ |X| + |Y |
E (|X| + |Y |) = E |X| + E |Y | < ∞ =⇒ E |Z| < ∞ .
Allgemeiner: Für α, β ∈ IR gilt αX + βY ∈ L1 .
2) Wir zeigen E (αX) = α E X für alle α ∈ IR.
Zunächst für α ≥ 0: αX = α(X + − X − ) = (αX)+ − (αX)− , E (αX) = α E X.
Für α ≤ 0 haben wir (αX)+ = |α|X − , (αX)− = |α|X +
αX = (αX)+ − (αX)− = |α|(X − − X + ) = αX + − αX − : E (αX) = α E X .
3) Wir zeigen E (X + Y ) = E X + E Y . Betrachte die Summe
Z = X + Y = (X + − X − ) + (Y + − Y − ) = (X + + Y + ) − (X − + Y − ) .
Auf der anderen Seite gilt Z = Z + − Z − , also
Z + + (X − + Y − ) = Z − + (X + + Y + )
E Z+ + E X− + E Y − = E Z− + E X+ + E Y +
E Z = E Z+ − E Z− = E X+ − E X− + E Y + − E Y − = E X + E Y .
q.e.d.
Die Eigenschaft 4) ( Monotone Stetigkeit“) aus dem Hauptsatz hat nun wichtige
”
Konsequenzen für das lineare Funktional E (·) auf dem Vektorraum L1 (H):
Satz : (Satz von der monotonen Konvergenz)
Seien X1 ≤ X2 ≤ . . . Elemente aus L1 . Wenn E Xn beschränkt ist für n → ∞,
dann gilt X∞ := lim ↑ Xn ∈ L1 ; in jedem Falle aber gilt
E X∞ = lim ↑ E Xn .
Beweis : Betrachte Yn := Xn − X1 . Es handelt sich um eine aufsteigende Folge
nichtnegativer Zufallsgrößen.
Y∞ := lim ↑ Yn ;
E Yn ↑ E Y∞ .
Wenn E Y∞ < ∞, dann Y∞ ∈ L1 und X∞ = Y∞ + X1 ∈ L1
E Xn − E X1 = E Yn ↑ E Y∞ = E X∞ − E X1 .
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.2
63
Sätze aus der Integrationstheorie
Satz : (Lemma von Fatou)
Seien X1 , X2 , . . . aus L1 so, daß ein Y ∈ L1 existiert mit
Y ≤ Xn für alle n .
Dann gilt
inf Xn ≤ lim inf E Xn .
E lim
n→∞
n
Beweis :
o.B.d.A. Y = 0 also Xn ≥ 0 für alle n. Setze Yn := inf Xm . Es
m≥n
gilt E Yn ≤ inf E Xm und andererseits Y1 ≤ Y2 ≤ . . . . Daher gilt für
m≥n
X∞ := lim inf Xn = lim ↑ Yn
n→∞
E X∞
=
lim ↑ E Yn ≤ lim
n
n
inf E Xm
m≥n
= lim inf E Xn
n→∞
Satz : (Satz von der majorisierten Konvergenz)
Seien X1 , X2 , . . . ∈ L1 mit lim Xn = X ∗ (fast sicher). Wenn ein Y ∈ L1 existiert
mit |Xn | ≤ Y für alle n, dann gilt X ∗ ∈ L1 und die Erwartungswerte E Xn
konvergieren gegen E X ∗ . Kurz gesagt
E (lim Xn ) = lim(E Xn ) .
Beweis : Es gilt lim inf Xn = X ∗ = lim sup Xn (fast sicher). Fatous Lemma auf
(Xn )n und (−Xn )n angewandt liefert den Beweis.
Didaktische Anmerkung :
Die drei eben bewiesenen Sätze entsprechen den Hauptsätzen der Lebegueschen
Integrationstheorie. R In der klassischen Lebesgueschen Theorie studiert man das
Integral I(f ) = 01 f (x) dx als ein lineares Funktional auf dem Vektorraum
der Lebesgue–integrablen Funktionen über (0, 1). Alle Integrationstheorien brauchen Grenzübergänge. Das aus der Riemannschen Integrationstheorie bekannte Einschließungsargument, welches mit Obersummen und Untersummen arbeitet, erweist
sich als zu primitiv für eine befriedigende Integrationstheorie. Die elaborierteren
Zugänge zum Begriff des Integrals werden in der Anfängervorlesung selten behandelt. Der Preis, den man für die dem Anfängerverständnis naheliegende Riemannsche
Betrachtungsweise zu zahlen hat, ist ein Mangel an Flexibilität in den Anwendungen. In der Riemannschen Integrationstheorie entsteht keine Klarheit, unter welchen Umständen der Grenzübergang unter dem Integral erlaubt ist; die dort übliche
Voraussetzung der gleichmäßigen Konvergenz der Integranden ist zu stark für viele
wichtige Anwendungen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
64
Uns geht es hier um die Anwendungen des Hauptsatzes und nicht um den Beweis; der
Beweis würde einen längeren Exkurs in die Maßtheorie erfordern. Ein Proseminar
ist ein geeigneterer Platz für diese Überlegungen als eine Vorlesung über elementare
Stochastik.
Der diskrete Fall : Wir betrachten ein Zufallsexperiment mit abzählbar vielen
möglichen Ausgängen ω; ω ∈ Ω, Ω abzählbar. Ein solches Zufallsexperiment kann
durch eine Ω–wertige Zufallsgröße W beschrieben werden. Eine Hypothese über das
P
p(ω) = 1.
Zufallsgeschehen ist durch eine Gewichtung zu beschreiben: p(ω) ≥ 0
ω∈Ω
Jede zu unserem Zufallsexperiment gehörende reellwertige Zufallsgröße X ist durch
eine reellwertige Funktion f (·) auf Ω gegeben.
X = f (W ) =
X
f (ω) 1{W =ω} .
Jede nichtnegative Zufallsgröße besitzt einen (endlichen oder unendlichen) Erwartungswert
EX =
X
f (ω) Ws(W = ω) =
X
p(ω) f (ω) .
ω
ω
Nicht jede reellwertige Zufallsgröße Y = g(W ) besitzt einen Erwartungswert; E Y
ist endlich, wenn E Y + und E Y − endlich sind. Der Raum L1 aller Zufallsgrößen
mit endlichem Erwartungswert ist ein Vektorraum; dieser ist genau dann endlichdimensional, wenn L(W ) auf eine endliche Menge konzentriert ist, d.h. wenn es eine
P
endliche Teilmenge Ω∗ von Ω gibt, so daß
p(ω) = 1.
ω∈Ω∗
Wenn man für eine Zufallsgröße X = f (W ) den Erwartungswert mittels der ex”
pliziten“ Formel
EX =
X
p(ω) f (ω)
auszurechnen versucht, dann muß man eine unendliche Reihe mit (oft schwer zugänglichen) Summanden p(ω) f (ω) auswerten. Für viele wichtige Zufallsgrößen gibt es
bequemere Rechnungen, die auf einem raffinierteren Gebrauch der Linearität beruhen. Wir werden unten eine lange Reihe von Beispielen kennenlernen.
In unserem Spezialfall können wir die Linearität des Erwartungswerts ohne Zuhilfenahme des Hauptsatzes direkt beweisen. Die Rechnung ist eine beliebte Prüfungsfrage.
Satz : Es seien X und Y reellwertige Zufallsgrößen, die nur endlich viele Werte
annehmen können. Es gilt dann E (X + Y ) = E X + E Y .
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.3
65
Varianz und Kovarianz
Beweis :
X=
P
1{X=x} =
X +Y
=
x 1{X=x} ,
X
y
X
x,y
=
X
1{X=x,Y =y} ,
=
X
x
X
1{Y =y} =
y
!
1{X=x,Y =y} +
X
X
X
x
1{X=x,Y =y}
X
y
y
X
x
1{X=x,Y =y}
!
(x + y) Ws(X = x, Y = y)
x
X
!
Ws(X = x, Y = y) +
y
x Ws(X = x) +
x
3.3
y 1{Y =y}
x,y
x
=
P
(x + y) 1{X=x,Y =y}
x
E (X + Y ) =
Y =
X
y
X
y
y
X
Ws(X = x, Y = y)
x
!
y Ws(Y = y) = E X + E Y .
Varianz und Kovarianz
Definition
a) Für jede reellwertige Zufallsgröße X mit endlichem Erwartungswert definiert
man die Varianz (bzgl. der betreffenden Hypothese)
var X := E X 2 − (E X)2 .
b) Für jedes Paar reellwertiger Zufallsgrößen mit endlicher Varianz definiert man
die Kovarianz
cov(X, Y ) = E (XY ) − E X · E Y .
Satz :
Für jede reellwertige Zufallsgröße mit endlichem Erwartungswert gilt
0 ≤ var X ≤ +∞. Es gilt
1) var X = 0 ⇐⇒ X = E X fast sicher
2) Für jede Konstante a gilt var(X + a) = var X
3) var(αX) = α2 var X für alle α ∈ IR
4) var X < ∞, var Y < ∞ =⇒ var(X + Y ) < ∞ .
c Prof. Dr. H. Dinges,
18. Dezember 1998
66
Beweis : 0 ≤ E ((X − E X)2 ) = E (X 2 −2X E X +(E X)2 ) = E X 2 −(E X)2 = var X.
Daraus ergeben sich die Behauptungen 1) und 2). Die Behauptung 3) ist trivial. Wir
zeigen unten das sogenannte Parallelogrammgesetz
var(X + Y ) + var(X − Y ) = 2 var X + 2 var Y .
Daraus ergibt sich 4). Der Vektorraum der Zufallsgrößen, die bzgl. der Hypothese H
endliche Varianz haben, wird oft mit L 2 (H) bezeichnet. Es handelt sich um einen
Teilraum des L1 (H).
Bemerkung : Sei X eine Zufallsgröße mit endlichem Erwartungswert und der
Dichte p(x) dx. Es gilt dann
EX
=
var X
=
Z
Z
xp(x) dx ,
Z
|x|p(x) dx < ∞
(x − E X)2 p(x) dx =
Z
x2 p(x) dx − (E X)2 .
Satz : (Bilinearität der Kovarianz)
Seien X, Y, Z Zufallsgrößen mit endlicher Varianz. Es gilt dann
1) cov(X, X) = var X
2) cov(αX, βY ) = αβ cov(X, Y ) für alle α, β ∈ IR
3) cov(X + a, Y + b) = cov(X, Y ) für alle a, b ∈ IR
4) cov(X, Y ) = cov(Y, X)
5) cov(X + Y, Z) = cov(X, Z) + cov(Y, Z)
Beweis :
Die Aussagen 1) und 2) sind trivial.
E ((X − E X)(Y − E Y )) = E (XY − X E Y − Y E X + E X · E Y )
= E (XY ) − E X · E Y = cov(X, Y ) .
Daraus folgt 3). Die Aussage 4) ist trivial. Für den Beweis von 5) können wir o.B.d.A.
annehmen, daß E X = 0, E Y = 0. Wir haben dann
cov(X, Z) = E (XZ) ,
cov(Y, Z) = E (Y Z)
cov(X + Y, Z) = E ((X + Y )Z) = E (XZ) + E (Y Z)
= cov(X, Z) + cov(Y, Z) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.3
67
Varianz und Kovarianz
Definition : Die Quadratwurzel aus der Varianz heißt die Standardabweichung.
Für jedes Paar von Zufallsgrößen mit endlicher positiver Varianz ist der Korrelationskoeffizient die Zahl
cov(X, Y )
√
ρ(X, Y ) := √
var X · var Y
Satz : (Die Ungleichung von Cauchy–Schwarz)
Für jedes Paar von Zufallsgrößen mit endlicher positiver Varianz ist der Korrelationskoeffizient eine Zahl zwischen -1 und +1.
Beweis :
Wenn Y − E Y ein positives Vielfaches von X − E X ist, dann
ist der Korrelationskoeffizient = 1; wenn Y − E Y ein negatives Vielfaches von
X − E X ist, dann ist der Korrelationskoeffizient = −1. In allen anderen Fällen
gilt ρ2 (X, Y ) < 1, d.h.
(cov(X, Y ))2 < (var X)(var Y ) .
Der Beweis benützt einen Trick, der aus der linearen Algebra bekannt sein dürfte.
Für alle λ ∈ IR gilt var(X − λY ) > 0 ; also
0 < cov(X − λY, X − λY ) = var X − 2λ cov(X, Y ) + λ 2 var Y .
Die rechte Seite, als Funktion von λ betrachtet, ist eine quadratische Funktion
a − 2bλ + cλ2 mit a > 0, c > 0. sie strebt gegen +∞ für λ2 → +∞ und nimmt
)
an. Der Minimalwert ist
ihr Minimum im Punkte λ∗ = cb = cov(X,Y
var Y
a − 2bλ∗ + c(λ∗ )2 = a −
b2
= c[ac − b2 ] > 0 .
c
Dies ergibt die Behauptung.
Sprechweise : Man sagt von einem Paar reellwertiger Zufallsgrößen X, Y , sie seien unkorreliert, wenn cov(X, Y ) = 0. Man sagt von n reellwertigen Zufallsgrößen
X1 , . . . , Xn , sie seien (paarweise) unkorreliert, wenn
cov(Xi , Xj ) = 0
Satz :
für alle i 6= j .
Wenn X1 , . . . , Xn paarweise unkorreliert sind, dann gilt
var(X1 + . . . + Xn ) = var X1 + var X2 + . . . + var Xn .
c Prof. Dr. H. Dinges,
18. Dezember 1998
68
Beweis :

var(X1 + . . . + Xn ) = cov 
X
i
Xi ,
X
j

Xj  =
X
cov(Xi , Xj ) =
i,j
X
var Xi .
i
Satz : (Kosinus–Satz)
Seien X, Y Zufallsgrößen mit endlicher Varianz. Es gilt dann
var(X + Y ) = var X + var Y + 2 cov(X, Y ) .
Beweis :
cov(X + Y, X + Y ) = cov(X, X) + cov(X, Y ) + cov(Y, X) + cov(Y, Y ) .
Bemerkung : Im unkorrelierten Fall entspricht die Aussage dem Satz von Pythagoras, im allgemeinen Fall dem sogenannten Kosinussatz der euklidischen Geometrie
ka + bk2 = kak2 + kbk2 + 2kak · kbk cos(ˆ(a, b))
√
√
var X und
var Y entsprechen Längen in der euDie Standardabweichungen
klidischen Geometrie; der Korrelationskoeffizient entspricht dem Kosinus des eingeschlossenen Winkels.
Korollar :
var(X + Y ) + var(X − Y ) = 2 var X + 2 var Y .
Der Beweis ist triviale Folgerung aus der Bilinearität. Der entsprechende Satz in der
euklidischen Geometrie heißt das Parallelogrammgesetz:
ka + bk2 + ka − bk2 = 2kak2 + 2kbk2 .
Die Summe der Quadrate der Diagonallängen in einem Parallelogramm ist
zweimal die Summe der Quadrate der Seitenlängen.
Verallgemeinerung :
gilt dann
..............................................................................................................
......
.......... ...
.... ......
.......... ......
....
....
..........
...
....
.
....
..........
.
.
....
...
..
..........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
...
.............
....
....
.......... ......
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
....
..
.
...
..........
....
....
....
..........
...
...
.... .........
.... ......
... .............
..................................................................................................................
b
a
Seien X1 , . . . , Xn Zufallsgrößen mit endlicher Varianz. Es
var(X1 + . . . + Xn ) =
X
cov(Xi , Xj ) .
i,j
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.3
69
Varianz und Kovarianz
Notation : Ein n–tupel reellwertiger Zufallsgrößen X1 , . . . , Xn denkt man sich
als einen zufälligen Spaltenvektor X geschrieben. Man definiert den Erwartungswert
E X und die Kovarianzmatrix cov(X, X)




X1
E X1
 .. 
 .. 
X =  .  ,
EX = .  ,
Xn
E Xn


var X1 ,
cov(X1 , X2 ), . . . , cov(X1 , Xn )
 cov(X2 , X1 ),
var X2 ,
. . . , cov(X2 , Xn ) 


cov(X, X) = 

..
..


.
.
cov(Xn , X1 ), cov(Xn , X2 ), . . . ,
var Xn
Man schreibt auch
cov(X, X) = E (XX > ) − (E X)(E X)> .
Satz : Die Kovarianzmatrix C = cov(X, X) ist eine symmetrische positiv semidefinite Matrix.
Beweis : Bekanntlich nennt man eine symmetrische n × n–Matrix C mit den
Einträgen cij positiv semidefinit, wenn für alle ξ = (ξ1 , . . . , ξn ) gilt
ξCξ > ≥ 0 ,
d.h.
X
i,j
ξi cij ξj ≥ 0 .
In unserem Falle haben wir
0 ≤ var
X
i
ξi Xi
!


X
X
X
ξj Xj  =
ξi cij ξj .
= cov  ξi Xi ,
i
j
i,j
Notation : Sei X eine zufällige m–Spalte mit den Komponenten X 1 , . . . , Xm
und Y eine zufällige n–Spalte mit den Komponenten Y 1 , . . . , Yn . Dann definiert man die Kovarianzmatix cov(X, Y ) als die m × n–Matrix mit den Einträgen
cov(Xi , Yj ).
cov(X, Y ) = E (XY > ) − (E X)(E Y )> .
Satz :
Es sei X eine zufällige m–Spalte und A eine konstante (d.h. nicht
zufällige) d × m–Matrix. Es sei Y eine zufällige n–Spalte und B eine konstante
e × n–Matrix. Es gilt dann
cov(AX, BY ) = A cov(X, Y )B > .
c Prof. Dr. H. Dinges,
18. Dezember 1998
70
Beweis :
o.B.d.A. E X = 0, E Y = 0. Dann gilt auch E (AX) = 0, E (BY ) = 0.
cov(AX, BY ) = E ((AX)(BY )> ) = E (AXY > B > ) = A E (XY > )B > .
Satz : Sind X und Y
dann gilt
zufällige m–Spalten und Z eine zufällige n-Spalte,
cov(X + Y, Z) = cov(X, Z) + cov(Y, Z) .
Beweis :
o.B.d.A. E Z = 0 und in diesem Falle
cov(X, Z) = E (XZ > ) ,
cov(Y, Z) = E (Y Z > )
cov(X + Y, Z) = E ((X + Y )Z > ) = E (XZ > ) + E (Y Z > ) .
Die Bilinearität gilt auch für mehrere Summanden:


X
X
X
cov  Xi ,
Yj  =
cov(Xi , Yj ) .
i
j
i,j
Bemerke auch:
cov(X, Y ) = (cov(Y, X)) > .
3.4
Beispiele; symmetrisch abhängige Zufallsgrößen
1) Für die Gamma– und Betaverteilungen kann man Mittelwert und Varianz durch
elementare Integration ausrechnen.
1
xα−1 e−x dx für x > 0
Ws(X ∈ (x, x + dx)) =
Γ(α)
EX =
E X2 =
var X =
Ws(Y ∈ (y, y + dy)) =
EY
=
2
=
var Y
=
EY
Z∞
0
x
Γ(α + 1)
1
xα−1 e−x dx =
= α
Γ(α)
Γ(α)
Γ(α + 2)
= α(α + 1) ,
Γ(α)
2
2
2
E X − (E X) = α(α + 1) − α = α
1
y α−1 (1 − y)β−1 dy für 0 < y < 1
B(α, β)
Γ(α + 1)Γ(β) Γ(α + β)
α
B(α + 1, β)
=
=
B(α, β)
Γ(α + 1 + β) Γ(α)Γ(β)
α+β
Γ(α + 2)Γ(β) Γ(α + β)
α(α + 1)
=
Γ(α + 2 + β) Γ(α)Γ(β)
(α + β)(α + β + 1)
1
αβ
α + β + 1 (α + β)2
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.4
71
Beispiele; symmetrisch abhängige Zufallsgrößen
1∗ )
Es seien U1 , U2 , . . . , Un unabhängig in (0, 1) gleichmäßig verteilt und
U(1) ≤ U(2) ≤ . . . ≤ U(n) die angeordnete Stichprobe. U(k) ist also die Wartezeit
bis zum k–ten Punkt, betaverteilt zum Parameter (k, n + 1 − k), insbesondere
k
.
E U(k) = n+1
Aufgabe :
a) Machen Sie sich plausibel, daß die Zwischenräume
∆0 = U(1) , ∆1 = U(2) − U(1) , . . . , ∆n−1 = U(n) − U(n−1) , ∆n = 1 − U(n)
symmetrisch abhängig sind, d.h. daß
L(∆i0 , ∆i1 , . . . , ∆in ) = L(∆0 , . . . , ∆n )
für jede Permutation (i0 , i1 , . . . , in ) .
Hinweis :
Eine Kreislinie der Länge 1 mit einem ausgezeichneten Punkt
kann man mit den Einheitsintervall identifizieren. Eine Kreislinie der Länge 1
mit n + 1 rein zufällig plazierten Punkten entspricht der hier vorliegenden
Situation.
b) Beweise, daß für alle i 6= j
1
1
n + 2 (n + 1)2
1
cov(∆i , ∆j )
√
p
= − .
n
var ∆i var ∆j
cov(∆i , ∆j ) = (−1)
ρ(∆i , ∆j ) =
Hinweis :
Für alle k = 1, 2, . . . , n + 1 gilt
var(U(k) ) = var(∆0 + . . . + ∆k−1 )
= k var ∆0 + k(k − 1) cov(∆0 , ∆1 )
= var ∆0 [k + k(k − 1) ρ] .
Aus var(U(n+1) ) = 0 ergibt sich ρ = −
var(U(k) ) =
1
n.
Daraus ergibt sich für alle k
1
1
k(n + 1 − k) .
n + 2 (n + 1)2
c Prof. Dr. H. Dinges,
18. Dezember 1998
72
2) (Multinomialverteilungen)
Ein Versuch mit endlich vielen möglichen Ausgängen wird n–mal unabhängig
wiederholt. Nk bezeichne die Anzahl der Versuche mit dem k–ten Ausgang
(k = 0, 1, . . . , d). Betrachte den Zufallsvektor
N = (N0 , N1 , . . . , Nd )> .
Wenn pk die Wahrscheinlichkeit des k–ten Ausgangs ist, dann gilt
(i) E Nk = npk
(ii) var Nk = npk (1 − pk )
(iii) cov(Nk , N` ) = −npk p` für k 6= ` .
Beweis :
Wir können schreiben
N = Y1 + . . . + Y n
wobei Yj die zufällige Spalte ist, die in der k–ten Position eine 1 hat, wenn der
j–te Versuch den k–ten Ausgang ergibt, und in allen anderen Positionen eine 0 hat.
Die Yj (j = 1, 2, . . . , n) sind unabhängig mit der Kovarianzmatrix
cov(Y, Y ) = E (Y Y > ) − (E Y )(E Y )> .
Diese hat die Diagonalelemente pk − (pk )2 = pk (1 − pk ); der Eintrag in der Position
(k, `) außerhalb der Diagonale ist −p k p` .
Bemerke :
0=
N 0 + N1 + . . . + N d = n
1
var(N0 + . . . + Nd ) =
n
=
1X
1X
var Nk +
cov(Nk , N` )
n k
n k6=`
X
k
pk (1 − pk ) −
X
pk p` .
k6=`
3) (Hypergeometrische Verteilung)
Aufgabe : In einer Urne mit N Kugeln befinden sich M rote. Es wird n–
mal ohne Zurücklegen gezogen. Sn bezeichne die Anzahl der roten Kugeln in der
Stichprobe. Berechne E Sn und var Sn .
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.4
73
Beispiele; symmetrisch abhängige Zufallsgrößen
Es wäre sehr umständlich, Summen wie die folgenden auszurechnen:
E Sn =
∞
X
kh(k; n, M, N ) ;
k=0
2
E Sn =
∞
X
k 2 h(k; n, M, N ) ,
j=0
wo die h(k; n, M, N ) die Gewichte der hypergeometrischen Verteilung sind. Es gibt
einen viel einfacheren Weg.
Setze Yj = 1 oder = 0, je nachdem ob die j–te Ziehung eine rote Kugel ergibt
oder nicht. Es gilt
Sn = Y 1 + . . . + Y n
n
X
E Sn =
j=1
E Yj = n E Y1
var Sn = n var Y1 + n(n − 1) cov(Y1 , Y2 ) .
Die Yj sind nämlich symmetrisch abhängig, d.h.
L(Yi1 , . . . , YiN ) = L(Y1 , . . . , YN )
für jede Permutation (i1 , . . . , iN ) .
Insbesondere haben alle Yj denselben Erwartungswert und dieselbe Varianz.
var Yj = p(1 − p) .
E Yj = p = M
N ,
Für alle i 6= j gilt cov(Yi , Yj ) = cov(Y1 , Y2 ). Man kann cov(Y1 , Y2 ) leicht direkt
ausrechnen
E (Y1 Y2 ) =
M · (M − 1)
,
N ·N −1
cov(Y1 , Y2 ) = −p(1 − p)
1
.
N −1
Man kann die Rechnung aber auch durch einen Trick vermeiden. Für alle n gilt mit
1 ,Y2 )
ρ = ρ(Y1 , Y2 ) = cov(Y
var Y1
var Sn = nσ 2 + n(n − 1)σ 2 ρ = nσ 2 [1 + (n − 1)ρ] .
Für n = N ergibt sich var SN = 0 also 1 + (N − 1)ρ = 0, ρ = − N1−1 .
Für alle n haben wir also
var Sn = nσ
2
n−1
N −n
1−
.
= np(1 − p)
N −1
N −1
c Prof. Dr. H. Dinges,
18. Dezember 1998
74
3∗ ) (Ziehen ohne Zurücklegen)
In einer Urne befinden sich N Kugeln auf welchen Zahlen f (ω) notiert sind. Es
wird n–mal ohne Zurücklegen gezogen und über die auf den gezogenen notierten
Zahlen summiert
Sn = f (Z1 ) + f (Z2 ) + . . . + f (Zn ) .
Für n = 1 haben wir
E S1 =
N
1 X
f (ω) = f ,
n
var S1 = σ 2 =
Wir beweisen
var Sn = nσ 2
E Sn = n f ,
N
1 X
(f (ω) − f)2 .
N
N −n
.
N −1
Beweis : Die Summanden f (Zj ) sind symmetrisch abhängig; insbesondere gilt
für alle i =
6 j
cov(Yi , Yj ) = cov(Y1 , Y2 ) = σ 2 ρ
var Sn = nσ 2 + n(n − 1)σ 2 ρ = nσ 2 [1 + (n − 1)ρ] .
Aus var SN = 0 folgt ρ = −
var Sn = nσ 2 1 −
n−1
N −1
1
N −1 .
Daher
.
Aufgabe : Auf den Kugeln, die ohne Zurücklegen gezogen werden, stehen zwei
Zahlen f (ω) und g(ω). Betrachte
Sn =
n
X
f (Zj ) ,
Tn =
j=1
n
X
g(Zj ) .
j=1
Berechne cov(Sn , Tn ) .
4) (Pólya–Urnenschema)
In einer Urne befinden sich zum Zeitpunkt 0 N Kugeln. Es wird gezogen und dann
zusammen mit der gezogenen Kugel eine vom gleichen Typ in die Urne gelegt. Nach
n Ziehungen befinden sich also N + n Kugeln in der Urne,
(1)
Nn
vom ersten Typ ,
X
(2)
Nn
vom zweiten Typ , . . .
Nn(`) = N + n .
`
Die Typen der gezogenen Kugeln seien
Z1 , Z 2 , . . . , Z n .
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.4
75
Beispiele; symmetrisch abhängige Zufallsgrößen
a) Beweise, daß für alle Permutationen j1 , . . . , jn
L(Zj1 , . . . , Zjn ) = L(Z1 , . . . , Zn ) .
b) Jedem Typ η einer Kugel sei eine reelle Zahl f (η) zugeordnet. Es sei
f=
1 X
f (η) ,
N η
wobei über die Population der Typen η zum Zeitpunkt 0 summiert wird.
σ2 =
1 X
(f (η) − f)2 .
N η
Berechne für Sn = f (Z1 ) + . . . + f (Zn )
E Sn
und
var Sn .
5) (Wartezeiten im diskreten Fall)
In einem Kartenspiel mit N Karten befinden sich n Asse. Es wird aufgedeckt, bis
das erste As kommt, ∆0 Karten, dann weiter bis das zweite As kommt, ∆ 0 + ∆1
Karten usw. ∆0 + . . . + ∆n−1 ist die Position des letzten Asses,
∆n = (N + 1) − (∆0 + . . . + ∆n−1 ) .
Aufgabe : Zeige, daß ∆0 , . . . , ∆n symmetrisch abhängig sind.
+1
Folgerung E ∆0 = N
n+1 .
Beispiel : Bei einem normalen gut gemischten Skatblatt muß man im Mittel
Karten aufdecken, bis man zum ersten As kommt.
33
5
Bemerke : Die Verteilung L N 1+1 (∆0 + . . . + ∆k−1 ) könnte man als ein diskretes Analogon einer Betaverteilung zum Parameter (k, n + 1 − k) ansehen. Für
N → ∞ und festes n konvergiert
1
1
∆0 , . . . ,
∆n−1
L
N +1
N +1
gegen die Verteilung L(U(1) , U(2) , . . . , U(n) ), die wir in 1∗ betrachtet haben.
(ohne Beweis !)
c Prof. Dr. H. Dinges,
18. Dezember 1998
76
3.5
Gaußische Vektoren
Man weiß noch nicht sehr viel über die Verteilung eines n–dimensionalen
Zufallsvektors X, wenn man nur den Erwartungswert x ∗ = E X und die Kovarianzmatrix C = cov(X, X) kennt. (Außer natürlich, wenn C die Nullmatrix
ist; dann ist nämlich L(X) auf den Punkt x∗ konzentriert.)
Wenn C den Rang r hat, dann ist L(X) auf einen r–dimensionalen Teilraum
T konzentriert, und zwar, wie wir beweisen werden, auf den linearen Teilraum
∗
n
T = {x : x − x = Cy mit y ∈ IR } .
Das wichtigste Beispiel einer Verteilung eines Zufallsvektors X mit E X = x∗ und
cov(X, X) = C (wobei C beliebig positiv semidefinit ist) ist die Normalverteilung
N (x∗ , C). Die Normalverteilung N (x∗ , C) besitzt eine Dichte im IRn , wenn C
positiv definit ist, also eine Inverse C −1 besitzt. Die Dichte ist
p(x)dx =
1
√
2π
n
1
[det C]−1/2 exp − (x − x∗ )> C −1 (x − x∗ )
2
dx1 . . . dxn .
Das Rechnen mit den Dichten ist bei den meisten Gelegenheiten unangemessen. Wir
geben im folgenden eine kurze Einführung in die Theorie der gaußischen Zufallsvektoren im Sinne der sog. linearen Theorie. Den Hauptsatz, der die Normalverteilungen als lineare Bilder der Standardnormalverteilungen charakterisiert, können wir
allerdings nicht vollständig beweisen, da uns die Hilfsmittel aus der Fourier–Analyse
fehlen. Die Aussage des Hauptsatzes ist aber leicht zu verstehen. Der Leser sollte sich
zumindest das folgende Korollar fest einprägen: Unkorrelierte gemeinsam gaußisch
”
verteilte Zufallsgrößen sind unabhängig.“
Definition : Ein d–Tupel unabhängiger standardnormalverteilter Zufallsgrößen
heißt ein gaußischer Einheitsvektor.
Satz : Wenn Z1 , . . . , Zd unabhängig normalverteilt sind, dann ist jede Linearkombination
X = α 1 Z1 + . . . + α d Zd
normalverteilt;
L(X) = N (µ, σ 2 )
mit µ =
P
αj E Zi ,
σ2 =
P
α2i var Zi .
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.5
77
Gaußische Vektoren
Beweis : o.B.d.A. E Zi = 0 , var Zi = 1 für alle i. Die gemeinsame Verteilung
von Z1 , . . . , Zd ist dann die rotationssymmetrische Verteilung im IR d mit der Dichte
1
√
2π
d
1
exp − (z12 + . . . + zd2 ) dz1 . . . dzd .
2
Für jedes d–Tupel (α1 , . . . , αd ) mit
Verteilung. Insbesondere
P
α21 = 1 hat X = α1 Z1 +. . . +αd Zd dieselbe
L(X) = L(Z1 ) = N (0, 1) .
Definition :
Man sagt von einem
n–Tupel reellwertiger Zufallsgrößen
(X1 , . . . , Xn ), es sei (unter der Hypothese H) gemeinsam gaußisch verteilt,
wenn jede Linearkombination
Y = β 1 X1 + . . . + β n Xn
gaußisch verteilt ist.
Bemerke :
a) Die Komponenten eines gaußischen Einheitsvektors sind gemeinsam gaußisch
verteilt.
b) (X1 , . . . , Xn ) ist genau dann gemeinsam gaußisch verteilt, wenn
(X1 − E X1 , . . . , Xn − E Xn ) gemeinsam gaußisch verteilt ist.
c) Es sei X eine zufällige n–Spalte, deren Komponenten gemeinsam gaußisch
verteilt sind. Es sei B eine konstante m × n–Matrix. Dann ist Y = BX eine
zufällige m–Spalte, deren Komponenten gemeinsam gaußisch verteilt sind.
Sprechweise : Von einer zufälligen n–Spalte X sagt man, sie sei ein gaußischer
Vektor (unter der Hypothese H), wenn ihre Komponenten gemeinsam gaußisch
verteilt sind.
Satz (Hauptsatz) : Zu jedem gaußischen Vektor X mit E X = 0 gibt es
Matrizen A, B so, daß gilt
(i) Z = BX ist ein gaußischer Einheitsvektor
(ii) X = AZ (fast sicher).
Die gaußischen Vektoren sind also genau diejenigen Zufallsvektoren, die durch eine
lineare Transformation aus einem gaußischen Einheitsvektor hervorgehen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
78
Schritte des Beweises :
1) X sei ein n–dimensionaler gaußischer Vektor mit der Kovarianzmatrix C
vom Rang d. Angenommen B ist eine d × n–Matrix, so daß Z = BX ein
d–dimensionaler gaußischer Einheitsvektor ist. Dann gilt
Id = cov(Z, Z) = cov(BX, BX) = B · C · B > .
In der linearen Algebra sagt man: B bringt C auf Hauptachsengestalt. Man
findet die Spalten von B > als Eigenvektoren C y = λ y .
Der Eigenwert 0 hat die Vielfachheit n − d. Es existieren λ 1 , . . . , λd > 0 und
Spalten y1 , . . . , yd , so daß
y>
y
j j = 1/λj ,
C yj = λ j yj ,
y>
y
j i = 0 für i 6= j .
Diese Spalten yj nebeneinandergeschrieben ergeben eine n × d–Matrix, die
wir mit B > bezeichnen.

λ1
 0

CB > = B >  ..
 .
0
0
λ2
...
...
0
0
..
.
0
...
λd



 = B>Λ ,

BCB > = Id .
2) Wenn wir B so wählen, dann ist Z = BX ein d–dimensionaler gaußischer
Vektor mit der Identität Id als Kovarianzmatrix. Die Komponenten sind also
gemeinsam gaußisch verteilt und sie sind paarweise unkorreliert.
Lemma : Gemeinsam gaußisch verteilte Zufallsgrößen, die unkorreliert sind,
sind unabhängig.
Diese fundamentale Tatsache können wir hier nicht beweisen, da uns die Technik der charakteristischen Funktion nicht zur Verfügung steht.
3) Die Abbildung y 7−→ C y bildet den IRd auf einen d–dimensionalen Teilvektorraum T ⊆ IRn ab. BC hat den Rang d. Die Abbildung y 7−→ B y auf
T eingeschränkt, besitzt also eine Umkehrabbildung. (Sie bildet den IR d auf
T ab.) Sie wird durch eine n × d–Matrix A gegeben mit
AB x = x für alle x ∈ T .
In Matrizenschreibweise ABC = C.
4) Wir zeigen nun, daß A das im Hauptsatz Verlangte leistet. Für jede
auf T verschwindende Linearform ξ (Zeilenvektor) gilt ξC = 0, also
var(ξX) = ξCξ > = 0 .
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.6
79
Die Tschebyschevsche Ungleichung
ξX ist also fast sicher gleich 0. L(X) ist auf T konzentriert. Daraus ergibt
sich
ABX
X
= X fast sicher .
= AZ fast sicher mit Z = BX .
q.e.d
Bemerke : Die Schlüsse beweisen auch eine interessante Aussage über nicht notwendig normalverteilte Zufallsvektoren.
Satz :
Sei X ein n–dimensionaler Zufallsvektor mit E X = x∗ und
cov(X, X) = C. Wenn C den Rang r hat, dann ist L(X) auf den r–dimensionalen
Teilraum
T = {x : x − x∗ = Cy mit y ∈ IRn }
konzentriert. Es existiert eine r × n–Matrix B und eine n × r–Matrix A, so daß
BX unkorrelierte Komponenten hat und
X = x∗ + AB(X − x∗ ) fast sicher .
3.6
Die Tschebyschevsche Ungleichung
Wenn eine Zufallsgröße X kleine Varianz hat, dann weicht sie nur mit kleiner
Wahrscheinlichkeit substantiell vom Mittelwert E X ab. Diese Aussage wird durch
Tschebyschevs Ungleichung präzisiert.
Satz (Tschebyschevs Ungleichung) :
Ws(|X − E X| ≥ d) ≤
Beweis :
1
var X für alle d > 0 .
d2
Betrachte die Zufallsgröße
Y = d · 1{|X−E X|≥d} .
Es gilt |Y | ≤ |X − E X| ,
Y 2 ≤ (X − E X)2 , also
var X = E (X − E X)2 ≥ E Y 2 = d2 Ws(|X − E X| ≥ d) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
80
Beispiel :
Ein Experiment mit der Erfolgswahrscheinlichkeit p wird n–mal
unabhängig wiederholt. Die relative Häufigkeit der Erfolge Hn weicht dann nur mit
kleiner Wahrscheinlichkeit vom Mittelwert E Hn = p ab.
1 1
p(1 − p) .
d2 n
Die Abschätzung ist nicht gut; es gibt viel präzisere Abschätzungen, wie wir beim
Studium der Bionomialverteilungen gesehen haben. Für gewisse asymptotische Aussagen reicht sie aber aus.
Als Anwendung beweisen wir die allereinfachste Version eines wichtigen Satzes aus
der reellen Analysis (Approximationssatz von Stone–Weierstraß). Es geht dabei um
die gleichmäßige Approximation einer beliebigen stetigen Funktion durch Funktionen
aus einer Funktionenalgebra. In unserem Beispiel handelt es sich um die Algebra der
Polynome, betrachtet über dem Einheitsintervall [0, 1].
Ws{|Hn − p| ≥ d} ≤
Satz :
Zu jeder über [0, 1] stetigen Funktion f (·) existiert eine Folge von
Polynomen pn (·), die gleichmäßig gegen f (·) konvergiert.
Beweis : Einer Idee von S. Bernstein folgend schlagen wir eine konkrete Folge
pn (·) vor; mit Hilfe von Tschebyschevs Ungleichung beweisen wir die gleichmäßige
Konvergenz.
pn (ϑ) :=
n X
n
k=0
k
ϑk (1 − ϑ)n−k f
k
n
.
Wenn Hn die relative Häufigkeit der Erfolge bei einer Folge von n unabhängigen
identisch verteilten Versuchen ist, dann ist nH n unter der Hypothese, daß die
Erfolgswahrscheinlichkeit gleich ϑ ist, binomialverteilt zum Parameter (ϑ, n).
n
k
ϑk (1 − ϑ)n−k
f (Hn ) nimmt die Werte f n mit den Wahrscheinlichkeiten
k
an.
Eϑ f (Hn ) = pn (ϑ) .
Wir haben, wenn |f (·)| ≤ M (f ist beschränkt) für alle ε > 0
|pn (ϑ) − f (ϑ)| ≤ Eϑ |f (Hn ) − f (ϑ)|
≤ 2M Wsϑ (|f (Hn ) − f (ϑ)| ≥ ε) + ε .
Da f (·) gleichmäßig stetig ist, existiert zu jedem ε > 0 ein η > 0, so daß
{|f (Hn ) − f (ϑ)| ≥ ε} ⊆ {|Hn − ϑ| ≥ η}
Wsϑ {f (Hn ) − f (ϑ)| ≥ ε} ≤ Wsϑ (|Hn − p| ≥ η} ≤
1 1
ϑ(1 − ϑ) .
η2 n
Für genügend großes n ist das so klein, daß
|pn (ϑ) − f (ϑ)| ≤ 2ε .
q.e.d.
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.6
81
Die Tschebyschevsche Ungleichung
Faustregel :
Bei der Normalverteilung liegt 95% der Masse weniger als zwei
Standardabweichungen vom Mittelwert entfernt.
√
Ws(|X − E X| ≥ 2 var X) ≤ 0.05 .
Dies folgt aus Φ(−1.960) = 0.025 (siehe Tabelle). Die Tschebyschevsche Ungleichung ergibt hingegen nur die reichlich unscharfe Abschätzung
√
1
Ws(|X − E X| ≥ 2 var X) ≤ = 0.25 .
4
Sie benützt allerdings keinerlei Annahmen über den Typ der Verteilung. Es gibt
Beispiele für Verteilungen, wo eine Verbesserung der Abschätzung nicht möglich ist.
Ergänzung : Der Median
a) Neben dem Mittelwert einer Wahrscheinlichkeitsverteilung (d.h. Erwartungswert einer Zufallsgröße mit dieser Verteilung) ist der Median eine beliebte
Maßzahl für die Lage ( Lokation“). Die Zahl m heißt ein Medianwert für
”
L(X), wenn
Ws(X ≥ m) ≥
1
,
2
Ws(X ≤ m) ≥
1
.
2
(Wenn die Verteilungsfunktion strikt steigend ist, dann ist der Medianwert
eindeutig bestimmt.)
b) Neben der Standardabweichung ist die mittlere absolute Abweichung vom
Median eine beliebte Maßzahl für die Streuung
τ := E (|X − m|) .
c) Das Analogon zur Tschebyschevschen Ungleichung heißt die Markovsche Ungleichung
Ws(|X − m| ≥ d) ≤
1
1
E (|X − m|) = τ .
d
d
Der Beweis sei dem Leser überlassen.
Beispiel : Der Sortieralgorithmus Quicksort bringt eine Liste von n Zahlen
Z1 , Z2 , . . . , Zn in aufsteigende Reihenfolge. Der Bequemlichkeit halber nehmen wir
an, daß alle Zahlen Zi verschieden sind; jedem Zi steht also genau ein Platz πi
zu. Es gibt mehrere Versionen des Algorithmus; wir studieren die folgende:
Im ersten Schritt wird die erste Zahl Z 1 mit allen n − 1 anderen verglichen; sie
wird an die richtige Stelle π1 gerückt; die kleineren kommen nach vorn, die größeren
nach hinten. Im zweiten Schritt werden der Abschnitt bis π 1 und Abschnitt von π1
an nach demselben Verfahren weiterbehandelt.
c Prof. Dr. H. Dinges,
18. Dezember 1998
82
Beispiele :
1)
2)
6
8
3
5
1
7
5 Vergleiche
3
5
1
6
8
7
2+1 Vergleiche
1
3
5
6
7
8
keine weiteren Vergleiche nötig. Summe = 8
1
3
5
6
7
8
n − 1 Vergleiche
1
3
5
6
7
8
n − 2 Verleiche
...
(hier = 15). Nehmen wir an,
Die Summe ist (n − 1) + (n − 2) + . . . + 2 + 1 = (n−1)n
2
die Reihenfolge der Zi sei rein zufällig. Die Anzahl der nötigen Vergleiche ist dann
eine ganzzahlige Zufallsgröße An mit Werten ≤ (n−1)n
.
2
Wir berechnen M (n) = E An .
Der erste Schritt benötigt stets (n − 1) paarweise Vergleiche. Wenn Z 1 auf den
ihm zustehenden k–ten Platz gerückt ist, werden im zweiten Schritt im Mittel
M (k − 1) + M (n − k − 1) Vergleiche nötig.
Es gilt M (2) = 1 , M (1) = 0 , M (−1) = 0
M (n) = (n − 1) +
= (n − 1) +
M (n − 1) = (n − 2) +
n
1X
[M (k − 1) + M (n − k − 1)]
n k=1
n
2X
M (k − 1)
n k=1
X
2 n−1
M (k − 1)
n−1 1
nM (n) − (n − 1)M (n − 1) = 2(n − 1) + 2M (n − 1)
M (n) M (n − 1)
2(n − 1)
2
1
−
=
= 2
−
n+1
n
n(n + 1)
n+1 n
M (n)
n+1

= 2
= 2
Die Größenordnung von
Integral
Rb
a
1
x
1
2
n
X
j=2
n
X
n−1
X

2
1 
−
j + 1 j=1 j + 1
1
2
+
−2 .
j +1 n+1
j=1
+ 31 + 41 + . . . +
1
n+1
ergibt sich durch Vergleich mit dem
dx. Eine leichte Rechnung ergibt
2(n + 1)[ln(n + 1) − 2] ≤ M (n) ≤ 2(n + 1) · ln(n + 1) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.7
83
Lokationsschätzer
Bemerke :
lim
Man kann zeigen, daß
1
var An
n2
= c2 > 0 .
Nach Tschebyschevs Ungleichung gilt also
lim sup Ws(|An − 2n ln n| ≥ dcn) ≤
n→∞
1
für alle d > 0 .
d2
In diesem Sinne kann man sagen, daß Quicksort ungefähr 2n ln n paarweise
Vergleiche benötigt, um eine Menge von n Zahlen anzuordnen.
3.7
Lokationsschätzer
Betrachten wir unabhängige identisch verteilte reellwertige Zufallsgrößen
X1 , X 2 , . . . , X n ,
die wir als Messungen einer Größe interpretieren können;
2
2
E X = µ, E ((x − µ) ) = σ < ∞ .
Was eine Größe ist und was man unter einer Messung versteht, diskutieren wir hier
nicht. Positionsbestimmungen in der Astronomie sind geschichtlich die ersten Beispiele; es sind aber allgemeinere Zusammenhänge, die Pate gestanden haben bei der
Namensgebung für die im folgenden diskutierten abgeleiteten Zufallsgrößen und Zahlen. Die Zufallsgröße
X = Xn =
1
(X1 , . . . , Xn )
n
heißt der Stichprobenmittelwert. Die (zufällige!) Verteilung Mn auf IR, welche die
Gewichte n1 in die Punkte X1 + . . . + Xn legt, heißt die empirische Verteilung.
Die (vom Zufall abhängige) Varianz von Mn heißt die Stichprobenvarianz
V :=
n
1 X
(Xi − X)2 .
n
Diese Zufallsgröße V hat einen Erwartungswert
EV
= E (X1 − X)2 = cov X1 − X, X1 − X
= var X1 + var X −2 cov(X1 , X) =
c Prof. Dr. H. Dinges,
1−
1
σ2 .
n
18. Dezember 1998
84
Beachte, daß die Zufallsgröße
2
X
1
Xi − X
n−1
den Erwartungswert σ 2 = var X hat, was man damit zum Ausdruck bringt, daß
man sie einen erwartungstreuen Schätzer für var X nennt. Beachte auch, daß bei
all diesen Rechnungen nur die Unkorreliertheit der X i benutzt worden ist.
1) Nehmen wir an, daß die Xi normalverteilt sind mit der Varianz σ 2 . Der
Stichprobenmittelwert ist dann normalverteilt mit der Varianz n1 σ 2 . Für alle
c > 0 gilt also
1
Ws X −µ ≥ d √
n
σ
= 2Φ(−d) .
Speziell für d = 1.96 erhalten wir (aus einer Tabelle für die gaußische Fehlerfunktion Φ(·))
1
Ws X ∈ µ ± 1.96 √ σ
n
= 1 − 2Φ(−1.96) = 0.95 .
Mit 95% Wahrscheinlichkeit differieren der Stichprobenmittelwert X und der
”
1
σ.“
wahre Mittelwert der Meßgröße um höchstens den Betrag 1.96 −√
n
Dies ist nur dann eine praktisch nützliche Aussage, wenn σ 2 bekannt ist. Wenn
σ 2 unbekannt ist, dann freuen sich manche Praktiker über Näherungswerte für
die Zahlen p bzw. t in den Beziehungen
1 √
V
= p
Ws X ∈ µ ± 1.96 √
n
1 √
V
= 0.95 .
Ws X ∈ µ ± t √
n
Aus Tabellen für die sog. Studentschen t–Verteilungen kann man diese Werte
p bzw. t entnehmen.
2) Messungen in der Praxis sind manchmal annähernd aber nie exakt normalverteilt. Dennoch möchte man aus den Beobachtungswerten auf die Lage“ der
”
Verteilung L(X) schließen. Bei einem solchen Lokationsschätzungsproblem“
”
gibt es viele Fragen.
a) Was sollte man unter der Lage von L(X)“ verstehen? Der Erwartungs”
wert µ = E X ist nur einer von den vielen beliebten Lokationsparametern.
Ein anderer beliebter Lokationsparameter ist z.B. der Median von L(X).
Nehmen wir der Einfachheit halber an, daß der Median von L(X) eindeutig bestimmt ist, d.h. daß es genau eine Zahl m gibt mit
1
Ws(X ≥ m) = = Ws(X ≤ m) .
2
c Prof. Dr. H. Dinges,
18. Dezember 1998
3.7
85
Lokationsschätzer
b
Ein beliebter Schätzer für den Median ist der Stichprobenmedian“ X;
”
bei ungeradem Stichprobenumfang n ist er eindeutig bestimmt; er ist die
in der Mitte liegende der Beobachtungswerte.
b) Wenn man L(X − m) kennt, dann kann man ausrechnen, wie nahe der
b beim wahren Median m liegt.
Stichprobenmedian X

b ≥ m + √1 d = Ws  mindestens die Hälfte der
Ws X
n
Beobachtungen sind ≥ m +
√1
n
d

 .
Dies ist die Wahrscheinlichkeit, daß ein n–mal unabhängig durchgeführtes
der
Erfolgswahrscheinlichkeit
mit
Experiment
p = Ws X ≥ m + √1n nd = 12 − ε in mindestens der Hälfte der Fälle
erfolgreich ist. Diese Wahrscheinlichkeit kennen wir aus unserem Studium der Bionomialverteilungen recht gut. Wenn wir also wissen, wie X
um den Median herum streut, dann können wir mit wenig Mühe Zahlen
(n) (n)
d− , d+ ausrechnen, so daß
b ∈ m − √1 d(n) , m + √1 d(n)
Ws X
n −
n +
= 0.95 .
(n)
(n)
Wir können, wenn wir wollen, erreichen, daß d − = d(n) = d+
1
b
Ws X
−m ≤ √ d(n)
n
= 0.95 .
Man kann zeigen: Wenn L(X) in der Nähe des wahren Medians m
eine strikt positive stetige Dichte p besitzt, dann konvergiert d (n) für
b für große n
n → ∞. Man kann in diesem Fall sogar zeigen, daß X
ähnlich verteilt ist, wie eine normalverteilte Zufallsgröße
1 2
b
L X n ≈ N m, τ
n
mit τ = (2p(m))−1 . Die Mittel für den Beweis haben wir alle parat; für
eine technische Durchführung ist hier aber nicht der passende Ort.
3) Die Theorie der Lokationsschätzer ist eine hochentwickelte Theorie. Sie ist hier
nicht unser Thema. Ein kurzer Hinweis auf die sog. Huber–Schätzer sollte aber
das obige etwas abrunden. Bekanntlich gilt
(i) X ist derjenige Wert a, für welchen
X
(Xi − a)2
X
|Xi − b|
minimal ist .
b ist derjenige Wert b, für welchen
(ii) X
minimal ist .
c Prof. Dr. H. Dinges,
18. Dezember 1998
86
(iii) Sei X ∗ derjenige Wert c, für welchen
X
ρ(Xi − c)
minimal ist ,
wobei für ein fixiertes ` > 0
ρ(y) =
(
1
2
y2
|y| ` −
1
2
`2
für |y| ≤ `
für |y| ≥ ` .
Die Zufallsgröße X ∗ , als Schätzer für die Lage von L(x) betrachtet, heißt der
Huber–Schätzer zur Spannweite `. Es handelt sich um einen sehr beliebten
Lokationsschätzer, der bei geeigneter Wahl von ` die Vorzüge des Stichprobenmittelwerts und des Stichprobenmedians in erfreulicher Weise vereinigt. Die
Wahl von ` aufgrund von Vorwissen über die Verteilung von X und (oder)
aufgrund dessen, was man den Daten ansieht, ist allerdings ein Problem. Für
große n ist Xn∗ approximativ normalverteilt
∗
∗
L (Xn ) ≈ N x ,
1 ∗
v
n
.
Es ist aber nicht einfach, für eine vorgegebene Verteilung L(X − x∗ ) den Wert
v ∗ auszurechnen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
4. Zufälligkeit, Entropie und
Information
4.1
Unabhängige Zufallsgrößen
Der Begriff der Unabhängigkeit gilt als ein Grundbegriff der Stochastik. Unabhängigkeit ist ein Begriff, der sich auf mathematische Modelle, d.h. auf Hypothesen bezieht.
Zufallsexperimente, die in keinerlei kausalem Zusammenhang zueinander stehen, sind
in jedem vernünftigen mathematischen Ansatz als unabhängige Zufallsexperimente
zu modellieren. Umgekehrt kann man aber nicht jede an einem Modell ablesbare
Unabhängigkeit von Ereignissen oder von Zufallsgrößen auf das Fehlen kausaler Zusammenhänge zurückführen. Die mathematische Betrachtung kann sich nicht anheischig machen, den philosophischen Begriff des kausalen Zusammenhangs zu erfassen.
Unabhängigkeit ist als ein theoretischer Begriff zu behandeln; die Bedeutung zeigt
sich erst im Gebrauch innerhalb der Theorie. Die Anwendung ist dann ein Problem
anderer Art.
Definition : Man sagt von zwei Ereignissen A 1 , A2 , daß sie unabhängig sind
(bzgl. der gegebenen Wahrscheinlichkeitsbewertung P (·)), wenn
P (A1 ∩ A2 ) = P (A1 ) · P (A2 ) ;
Ws(A1 ∩ A2 ) = Ws(A1 ) · Ws(A2 ) ,
Man könnte auch sagen, A1 und A2 sind genau dann unabhängig, wenn die
Indikatorvariablen 1A1 , 1A2 unkorreliert sind:
E (1A1 · 1A2 ) − E (1A1 ) · E (1A2 ) = 0 .
Was es heißt, daß drei oder mehr Ereignisse unabhängig sind, werden wir unten
diskutieren; es heißt jedenfalls mehr als daß die Indikatorfunktionen 1 A1 , . . . , 1An
unkorreliert sind.
Seien X und Y Zufallsgrößen mit Werten in den abstrakten Räumen E bzw. F .
Man sagt, daß sie unabhängig sind (bzgl. der gegebenen Wahrscheinlichkeitsbewertung P (·)), wenn
P ({X ∈ B1 } ∩ {Y ∈ B2 }) = P (X ∈ B1 ) · P (Y ∈ B2 ) für alle B1 ⊆ E, B2 ⊆ F .
Wenn X und Y nur abzählbar viele Werte annehmen können, dann bedeutet
Unabhängigkeit von X und Y offenbar
P (X = x, Y = y) = P (X = x) · P (Y = y) für alle x, y .
87
88
Wenn X und Y Dichten haben, dann bedeutet Unabhängigkeit, daß sich die
Dichten zur gemeinsamen Dichte multiplizieren
r(x, y) dx dy = p(x) dx · q(y) dy .
Beispiele :
1) Aus einer Urne mit N Kugeln werden nacheinander zwei Kugeln X und Y
gezogen.
Beim Ziehen mit Zurücklegen (Hypothese Hm ) sind X und Y unabhängige
Zufallsgrößen.
Beim Ziehen ohne Zurücklegen (Hypothese H0 ) sind X
unabhängig. Es gilt nämlich
und Y
nicht
Ws(X = x, Y = y) = 0 falls x = y
1
1
Ws(X = x, Y = y) =
·
für alle x 6= y .
N N −1
2) Gegeben sei ein gutgemischter Stoß Karten der üblichen Art.
(32 Karten mit Werten aus E = {A, K, D, B, 10, 9, 8, 7} und Farben aus
F = {Kreuz, Pique, Herz, Karo} .)
X sei der Wert der ersten Karte, Y die Farbe der zweiten Karte. Dann sind
X und Y unabhängig. Viele Anfänger finden das überraschend!
Wir beweisen diese Unabhängigkeit durch eine Symmetrieüberlegung. Es gilt
Ws(X = x, Y = y) = p
für jedes Paar x, y ;
denn kein Wert x ∈ E ist vor irgendeinem anderen Wert x 0 ∈ E ausgezeichnet und keine Farbe y ∈ F ist vor irgendeiner anderen Farbe y 0 ∈ F
ausgezeichnet; kein Paar (x, y) ∈ E × F ist vor irgendeinem anderen Paar
(x0 , y 0 ) ∈ E 0 × F 0 ausgezeichnet
1=
X
x∈E, y∈F
Ws(X = x, Y = y) = 32 · p ,
Ws(X = x, Y = y) =
also
p=
1
32
1
1 1
= · = Ws(X = x) · Ws(Y = y) für alle x, y
32
8 4
Manche Anfänger finden die folgende Rechnung überzeugender:
p = P (X = König , Y = Herz )
= P (erste Karte = Herzkönig und zweite Karte ist Herz)
=
+ P (erste Karte ist ein anderer König und zweite Karte ist Herz)
3 8
1
1
1 7
·
+
·
=
(7 + 24) =
.
32 31 32 31
32 · 31
32
c Prof. Dr. H. Dinges,
18. Dezember 1998
4.1
89
Unabhängige Zufallsgrößen
3) X und Y seien unabhängig gammaverteilt mit
E X = α, var X = α,
E Y = β, var Y = β .
Dann sind W = X + Y und U =
U ist betaverteilt.
X
X+Y
unabhängig. W ist gammaverteilt,
Den Beweis entnehmen wir dem oben durchgeführten Beweis für die Formel
B(α, β) =
Γ(α) · Γ(β)
.
Γ(α + β)
(Aus dieser Formel allein folgt die Unabhängigkeit natürlich nicht; wir müssen
den Beweis durchgehen.)
4) U1 , U2 , . . . , Un seien unabhängig identisch verteilt. P sei die zufällige Permutation, die die Ui in aufsteigende Reihenfolge bringt. F sei die empirische
”
Verteilungsfunktion“
F (x) =
n
1X
1
1
.
· (Anzahl der i mit Ui ≤ x) =
n
n i=1 {Ui ≤x}
Dann sind P und F unabhängig.
Der Beweis ist eine einfache Symmetrieüberlegung.
Definition : Man sagt von einem n–tupel von Zufallsgrößen X1 , . . . , Xn
(Xi mit Werten in der abstrakten Menge E i ), es sei unabhängig bzgl. der Hypothese
H, wenn
Ws(X1 ∈ B1 , X2 ∈ B2 , . . . , Xn ∈ Bn )
= Ws(X1 ∈ B1 ) · Ws(X2 ∈ B2 ) · . . . · Ws(Xn ∈ Bn )
für alle B1 ⊆ E1 , B2 ⊆ E2 , . . . , Bn ⊆ En .
Definition : Man sagt von einem n–Tupel von Ereignissen A 1 , . . . , An , es sei
unabhängig bzgl. der Hypothese H, wenn die Indikatorfunktionen 1A1 , . . . , 1An
unabhängig sind, d.h. wenn für alle δ1 , . . . , δn mit δi ∈ Ei = {0, 1} gilt
Ws (1A1 = δ1 , 1A2 = δ2 , . . . , 1An = δn )
= Ws (1A1 = δ1 ) · Ws (1A2 = δ2 ) · . . . · Ws (1An = δn ) .
Bemerke : Aus der Tatsache, daß die Ereignisse A 1 , A2 , A3 paarweise unabhängig
sind, folgt nicht die Unabhängigkeit des Tripels.
c Prof. Dr. H. Dinges,
18. Dezember 1998
90
Beispiel :
Eine faire Münze wird zweimal unabhängig geworfen. Es sei
A1 =
der erste Wurf liefert Zahl“
”
A2 = der zweite Wurf liefert Zahl“
”
A3 = beide Würfe liefern dasselbe Ergebnis“
”
Die Ai sind nicht unabhängig; sie sind nur paarweise unabhängig.
Hinweis : X = (X1 , . . . , Xd )> sei ein gaußischer Vektor. ξ, η, ζ seien d–Zeilen,
so daß ξX, ηX, ζX unkorreliert sind. Dann ist das Tripel unabhängig. Was ein
gaußischer Vektor ist, wird später erläutert. Anfänger, die anderswo von gaußisch–
(oder normal–) verteilten Zufallsgrößen gehört haben, werden durch die Aussage gelegentlich verwirrt in dem Sinne, daß sie Unabhängigkeit und Unkorreliertheit als
verwandte Begriffe ansehen. Die Aussage gilt auch für mehr als drei Linearkombinationen.
Satz : Seien X und Y Zufallsgrößen mit Werten in den Räumen E bzw. F
und seien ϕ(·), ψ(·) Abbildungen von E bzw. F
Z = ϕ(X), W = ψ(Y ) .
Wenn X und Y unabhängig sind, dann auch Z und W . ( Unabhängigkeit
”
überträgt sich auf transformierte Zufallsgrößen.“)
Beweis :
Für B ⊆ E bezeichnet ϕ−1 (B) das volle Urbild
ϕ−1 (B) = {x : ϕ(x) ∈ B}
{Z ∈ B1 } = {X ∈ ϕ−1 (B1 )}
{W ∈ B2 } = {Y ∈ ψ
−1
P (Z ∈ B1 , W ∈ B2 ) = P (X ∈ ϕ
(B2 )}
−1
für alle B1 ⊆ E
für alle B2 ⊆ F
(B1 ), Y ∈ ψ −1 (B)) .
Wenn X und Y unabhängig sind, dann ist das das Produkt
= P (X ∈ ϕ−1 (B1 )) · P (Y ∈ ψ −1 (B2 )) = P (Z ∈ B1 ) · P (W ∈ B2 ) .
Korollar : Wenn X und Y unabhängig sind, dann gilt für jedes Paar reeller
Zufallsgrößen von der Form f (X), g(Y ) mit endlicher Varianz
E (f (X) · g(Y )) = E f (X) · E g(Y )
( reelle Zufallsgrößen, die von unabhängigen Zufallsgrößen abgeleitet sind, sind un”
korreliert“).
c Prof. Dr. H. Dinges,
18. Dezember 1998
4.1
91
Unabhängige Zufallsgrößen
Beweis : Man beweist das für U = f (X), V = g(Y ), die nur endlich viele Werte
annehmen können und geht dann zu monotonen Limiten über:

E
X
=
=
i
ui · 1{f (X)=ui } ·
X
X
j

vj · 1{g(Y )=vj } 
i,j
ui vj · E 1{f (X)=ui } · 1{g(Y )=vj }
i,j
ui vj · P (f (X) = ui ) · P (g(Y ) = vj )
X
= E
X
i
!

ui · 1{f (X)=ui } · E 
X
j

vj · 1{g(Y )=vj } 
Warnung : Anfänger, die sich in allzu engen Bahnen mit Zufallsgrößen beschäftigen, bringen manchmal die Begriffe Unabhängigkeit und Unkorreliertheit durcheinander. Die Verwirrung kann nicht entstehen, wenn man bei unabhängigen Zufallsgrößen
nicht vorschnell an reellwertige Zufallsgrößen mit endlicher Varianz denkt, sondern
an Zufallsgrößen mit Werten in abstrakten Räumen.
Richtig ist:
1) Unabhängige reellwertige Zufallsgrößen mit endlicher Varianz sind unkorreliert.
2) Unkorrelierte Indikatorvariablen sind paarweise unabhängig aber nicht notwendigerweise unabhängig.
3) Unkorrelierte gemeinsam gaußisch verteilte Zufallsgrößen sind unabhängig.
Exkurs : (Bedingte Wahrscheinlichkeiten, bedingte Verteilungen)
Manchmal kann man sich die (durch Rechnungen festgestellte) Unabhängigkeit von
X und Y plausibel machen, indem man sich in einem Gedankenexperiment davon
überzeugt, daß das Wissen, welchen Wert X annimmt, keinen Informationsgewinn
beinhaltet, wenn man darüber spekuliert, mit welcher Sicherheit man das Eintreffen des Ereignisses {Y ∈ B} erwartet. Dieser subjektivistische“ Denkansatz ist
”
mit Vorsicht anzuwenden; er zerstört die Symmetrie, die in der Definition der Unabhängigkeit liegt: und es gibt Beispiele, wo er die Intuition des Anfängers gründlich
in die Irre führt. Deshalb und auch aus mathematisch–technischen Gründen stellen
wir eine Diskussion der Begriffe bedingte Wahrscheinlichkeit“ und bedingte Ver”
”
teilung“ zurück. Wir bemerken hier nur, daß der Begriff der bedingten Verteilung
technisch unproblematisch ist, wenn die bedingende Zufallsgröße X nur abzählbar
viele Werte annehmen kann. Es gilt dann: X und Y sind unabhängig, wenn für
alle x mit P ({X = x}) > 0 und alle B ∈ F (Wertebereich von Y ) gilt
P ({X = x} ∩ {Y ∈ B})
= P ({Y ∈ B})
P ({X = x})
c Prof. Dr. H. Dinges,
18. Dezember 1998
92
In der Notation, die wir später entwickeln werden, nimmt das die folgende Gestalt
an:
X, Y unabhängig
X, Y, Z unabhängig
⇐⇒
⇐⇒
L(Y | X) = L(Y )
L(Y | X) = L(Y ) und L(Z | X, Y ) = L(Z) .
Bleiben wir hier lieber bei der elementaren, die Zufallsgrößen symmetrisch behandelnden Definition der Unabhängigkeit.
Definition : Man sagt von Zufallsgrößen X1 , X2 , X3 , daß sie unabhängig sind
(bzgl. der gegebenen Wahrscheinlichkeitsbewertung), wenn für alle B1 , B2 , B3 gilt
P ({X1 ∈ B1 } ∩ {X2 ∈ B2 } ∩ {X3 ∈ B3 })
= P ({X1 ∈ B1 }) · P ({X2 ∈ B2 }) · P ({X3 ∈ B3 }) .
Man sagt von Ereignissen A1 , A2 , A3 , daß sie unabhängig sind, wenn die Indikatorvariablen unabhängig sind.
Bemerkung : Die Ereignisse A1 , A2 , A3 sind genau dann unabhängig, wenn die
folgenden vier Gleichungen gelten
P (A1 ∩ A2 ) = P (A1 ) · P (A2 ) ;
P (A2 ∩ A3 ) = P (A2 ) · P (A3 )
P (A3 ∩ A1 ) = P (A3 ) · P (A1 ) ;
P (A1 ∩ A2 ∩ A3 ) = P (A1 ) · P (A2 ) · P (A3 )
Beweis : Eigentlich müßte man für den Nachweis der Unabhängigkeit 23 = 8
Gleichungen bestätigen, nämlich
P (1A1 = δ1 , 1A2 = δ2 , 1A3 = δ3 ) = P (1A1 = δ1 ) · P (1A2 = δ2 ) · (1A3 = δ3 )
wo δ1 , δ2 , δ3 die Werte 0 und 1 annehmen können. Vier dieser Beziehungen sind oben
geannnt, die nämlich, wo mindestens zwei der δj den Wert 1 haben. Die restlichen
vier Beziehungen kann man daraus aber ableiten; beispielsweise
P (1A1 = 1, 1A2 = 0, 1A3 = 0) = P (A1 ∩ Ac2 ∩ Ac3 )
= P (A1 ∩ Ac2 ) − P (A1 ∩ Ac2 ∩ A3 )
= P (A1 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 )
= p 1 − p 1 p2 − p 1 p3 + p 1 p2 p3
= p1 (1 − p2 )(1 − p3 ) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
4.2
93
Analytische Eigenschaften des Entropiefunktionals
4.2
Analytische Eigenschaften des Entropiefunktionals
Der einmalige Wurf einer fairen Münze liefert 1 bit Zufälligkeit.
abhängiges Werfen einer fairen Münze liefert n bits Zufälligkeit.
n–maliges un-
Der einmalige Wurf eines regelmäßigen Tetraeders liefert 2 bits Zufälligkeit; der einmalige Wurf eines regelmäßigen Oktaeders liefert 3 bits Zufälligkeit.
Wieviel Zufälligkeit liefert der einmalige Wurf eines fairen Würfels?
Definition : X sei eine Zufallsgröße mit Werten in der abzählbaren Menge E.
Es sei π(x) = Ws(X = x) für alle x ∈ E. Man ordnet dann X (oder, besser
gesagt, der Verteilung von X) die Zahl
H(X) = −
X
π(x) · lg2 π(x)
zu, die Entropie von L(X). (Beachte H(X) ≥ 0).
Man sagt : Die einmalige Realisierung von X liefert H(X) bits Zufälligkeit.
Daß dies eine vernünftige Sprechweise ist, wird sich aus den folgenden Überlegungen
ergeben. Man sollte sich vorstellen, daß die Produktion von Zufälligkeit Aufwand
erfordert und die Entropie den Aufwand mißt.
Beispiel : Die Gleichverteilung auf einer N –punktigen Menge E hat die Entropie lg2 N . Insbesondere liefert der einmalige Wurf eines fairen Würfels lg2 6 bits
Zufälligkeit. Wir werden sehen, daß alle anderen Verteilungen auf der N –punktigen
Mengen E weniger Entropie haben als lg 2 N .
Analytisches Lemma 1 :
a) Die Entropie der gemeinsamen Verteilung zweier Zufallsgrößen X, Y
höchstens gleich der Summe der Entropien der Marginalverteilungen
H(X, Y ) ≤ H(X) + H(Y ) .
b) Genau dann, wenn X und Y unabhängig sind, gilt
H(X, Y ) = H(X) + H(Y ) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
ist
94
Beweis :
1) Seien X und Y unabhängig
Ws(X = x, Y = y) = Ws(X = x) · Ws(Y = y)
für alle x ∈ E, y ∈ F .
Es gilt dann
H(X, Y ) = −
= −
X
x,y
Ws(X = x, Y = y) · lg 2 Ws(X = x, Y = y)
x,y
Ws(X = x, Y = y) · lg 2 (X = x)
X
−
X
x,y
Ws(X = x, Y = y) · lg 2 (Y = y)
= H(X) + H(Y )
2) Sei p(x) = Ws(X = x), q(y) = Ws(Y = y), r(x, y) = Ws(X = x, Y = y).
Es gilt dann
−H(X, Y ) + H(X) + H(Y )
=
X
x,y
=
X
r(x, y) lg r(x, y) −
r(x, y) lg
x,y
X
x
p(x) lg p(x) −
r(x, y)
.
p(x)q(y)
X
q(y) lg q(y)
y
Wir zeigen, daß dies stets ≥ 0 ist, und = 0 nur dann, wenn
r(x, y) = p(x)q(y) für alle x, y.
Wir leiten das aus einer allgemeineren Ungleichung her, aus dem
Seien ϕi ≥ 0,
Lemma :
X
ϕi ln
ϕi
≥0.
ψi
P
ϕi = 1, ψi ≥ 0,
P
ψi = 1. Dann gilt
(Wenn die Indexmenge I, in welcher i variiert, unendlich ist, dann kann die Summe
auch den Wert +∞ annehmen. Die Summe ist auch +∞ zu setzen, wenn es ein
i gibt mit ψi = 0, ϕi > 0. Die Summanden mit ϕi = 0 liefern keinen Beitrag.)
Beweis :
X
ϕi ln
ln x ≤ x − 1 für alle x > 0
X
X
ψi
ϕi
= −
ϕi ln
≥−
ϕi
ψi
ϕi
c Prof. Dr. H. Dinges,
X
X
ψi
−1 ≥−
ψi +
ϕi = 0 .
ϕi
18. Dezember 1998
4.2
95
Analytische Eigenschaften des Entropiefunktionals
Anwendungsbeispiel : Sei P eine auf N Punkte konzentrierte Gewichtung.
Es gilt dann H(P ) ≤ lg 2 N und H(P ) = lg 2 N genau dann, wenn P die
Gleichverteilung ist.
Beweis :
0≤
X
Sei Q die Gleichverteilung auf die N Punkte. Es gilt
p(x) lg2
p(x)
= −H(P ) + lg 2 N .
1/N
Hinweis : Das Lemma kann man auch leicht mit Hilfe der Jensenschen Unglei”
chung“ beweisen, die wir im Exkurs unten behandeln werden. Im kontinuierlichen
Fall definiert man die relative Entropie des Wahrscheinlichkeitsmaßes µ bzgl.
des Wahrscheinlichkeitsmaßes ν (auf einem beliebigen meßbaren Raum) wie folgt:
H(µ; ν) = +∞, falls µ nicht bzgl. ν totalstetig ist, und sonst
H(µ; ν) =
Z dµ
dµ
(X)
dµ = IE k
log
dν
dν
,
wobei X nach ν verteilt ist und k(t) = t log t. Es gilt H(µ; ν) ≥ 0 und = 0
nur dann, wenn µ = ν.
In unserem ersten Lemma wird die Gewichtung r(x, y) mit der Produktgewichtung
p(x) · q(y) verglichen.
Analytisches Lemma 2 : Sei X eine Zufallsgröße mit Werten in einer abzählbaren Menge E und ϕ(·) : E → F eine Abbildung. Es gilt dann
H(X) = H(ϕ(X)) +
X
y
Ws(ϕ(X) = y) · Hy
mit gewissen Zahlen Hy ≥ 0, die man als die Entropien von bedingten Verteilungen
deuten kann.
Beweis :
Wir berechnen im Falle H(X) < ∞ die Differenz H(X) − H(ϕ(X)) .
Dazu betrachten wir für jedes y ∈ F mit Ws(ϕ(X) = y) > 0 die Wahrscheinlichkeitsbewertung Py , welche in die Punkte x mit ϕ(x) = y das Gewicht
Ws(X = x)
setzt.
p(x|y) =
Ws(ϕ(X) = y)
H(Py ) := −
X
p(x|y) lg 2 p(x|y)
für jedes y mit Ws(ϕ(X) = y) > 0 .
x
c Prof. Dr. H. Dinges,
18. Dezember 1998
96
Es gilt
q(y) = Ws(ϕ(X) = y) ,
X
q(y) =
p(x) = Ws(X = x)
p(x) ,
p(x) = q(y)p(x|y) falls y = ϕ(x) .
{x:ϕ(x)=y}
Daher haben wir
H(X) − H(ϕ(X)) = −
= −
= −
X
p(x) lg 2 p(x) +
x
X
q(y)
y
X
y
q(y)
"
"
X
q(y) lg 2 q(y)
y
X
x
X
p(x|y) lg 2 p(x) − lg2 q(y)
p(x|y) lg 2
x
p(x)
q(y)
#
=
X
y
#
q(y) · Hy .
Bemerke : Genau dann gilt H(X) = H(ϕ(X)), wenn eine Abbildung ψ : F → E
existiert mit ψ(ϕ(X)) = X fast sicher.
Analytisches Lemma 3 : Seien P und Q Wahrscheinlichkeitsgewichtungen
auf einer abzählbaren Menge E. Es gilt dann für alle α ∈ (0, 1)
(1 − α)H(P ) + αH(Q) ≤ H((1 − α)P + α · Q)
≤ (1 − α)H(P ) + αH(Q) + H{1 − α, α} .
(Hierbei ist H{1 − α, α} := −(1 − α)lg2 (1 − α) − α · lg2 α die Entropie der auf zwei
Punkte konzentrierten Verteilung mit den Gewichten α, 1 − α . )
Die untere Abschätzung für die Entropie der Mischung“ (1 − α)P + αQ ist genau
”
dann exakt, wenn P = Q; die obere Abschätzung genau dann, wenn P und Q
trägerfremd sind, d.h. wenn für alle x ∈ E p(x) oder q(x) verschwindet.
Beweis :
1) Betrachte die konvexe Funktion k(t) = t lg 2 t für t > 0, k(0) = 0.
Für jedes x ∈ E gilt
k((1 − α)p(x) + αq(x)) ≤ (1 − α)k(p(x)) + αk(q(x))
H((1 − α)P + αQ) = −
X
x
k((1 − α)p(x) + αq(x))
≥ (1 − α)(−
X
k(p(x))) + α(−
= (1 − α)H(P ) + αH(Q) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
X
k(q(x))))
4.2
Analytische Eigenschaften des Entropiefunktionals
97
2) Bei disjunkten P und Q haben wir für alle x (Fälle unterscheiden !)
k((1 − α)p(x) + αq(x)
= (1 − α)p(x) lg 2 ((1 − α)p(x)) + αq(x) lg 2 (αq(x))
= (1 − α)p(x) lg 2 p(x) + αq(x) lg 2 q(x)
+ (1 − α)p(x) lg 2 (1 − α) + αq(x) lg 2 α .
Summation ergibt die untere Abschätzung.
3) Eine Zufallsgröße Z mit der Verteilung (1 − α)P + αQ kann man gewinnen
als das Bild einer {0, 1} × E–wertigen Zufallsgröße Z ∗ , die in zwei Stufen
realisiert wird: In der ersten Stufe führt man ein Experiment durch, welche
nur zwei mögliche Ausgänge 0 und 1 hat, den einen mit der Wahrscheinlichkeit
(1 − α), den anderen mit der Wahrscheinlichkeit α. Im Falle des Ausgangs
0 wird eine Zufallsgröße X mit der Verteilung P realisiert; im Falle des
Ausgangs 1 wird eine Zufallsgröße Y mit der Verteilung Q realisiert.
X ist mit Wahrscheinlichkeit (1 − α) durchzuführen, Y mit Wahrscheinlichkeit α; der erwartete Aufwand für die Durchführung von Z ∗ ist also
H(1 − α, α) + (1 + α)H(P ) + αH(Q) .
ϕ(·) projiziere {0, 1} × E auf E .
ϕ(Z ∗ ) hat die Verteilung (1 − α)H(P ) + αH(Q). Nach Lemma 2 gilt
H(ϕ(Z ∗ )) ≤ H(Z ∗ )
mit Gleichheit im Falle, daß P und Q disjunkt sind.
xq
.........1
...... ..............
.......
......
........
.....
.
.
.
.
.......
.
.
........
......
.......
..... .........................2
.
.
.
.
.
.
.
.
........
.
.......
.....................
.
.......
.
.
.
.
.
.
.
.
.
........
........
...............................
.
.
.
.
.
.......
........
...... ..............
...
.......
.
.
.
.
.
.
.......
......
...........3
....
...
.
.
.
.
.
.
.
.
.
.
.
.
.
........
.......
.....
........
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
............. ...
........
......
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
......
........
........
....
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.....
...... 4
............
..
.
........
....
........
........ .............
........
....
........ ..............
....... .............
.
.
.......
....... ...............
...... ..............
.
.
....
.
.
.
.
.
.
.
.
.
.
........ .......
.......
....
.......
....
.......
....
.....
........ ..............
........
...
......
....
....................
.....
1 ......................
....
......
... ..........
.
.
.
.
.
.
.
.
.
.
.
.
.
....
........
..
......
.......
.....
....
......
.......
........
.
....
......
.............
........
........
.... ..................................
.......
2 .....................
.................
........
.
.
.
...... ..............
.
.
.
....
.
.
............. ............
......
.
.
.
.
.
........
......
.......
......
........
.....
......
3 ...................
......
...... ..............
....
1−α
q
α
Xq
xq
xq
q
q
q
xq
x
q
Y
q
x
q
q
q
x
q
x4
Wir haben nun die analytischen Eigenschaften des Entropiefunktionals H(·) beisammen, die uns erlauben, die Entropie als Maßzahl für Zufälligkeit zu verstehen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
98
4.3
Die Entropie als Maßzahl für Zufälligkeit;
Simulation
Theorem :
(Simulation)
Wenn man ein Zufallsexperiment X mit Hilfe von unabhängigen fairen Münzwürfen
simulieren will, dann gilt für die zufällige Anzahl N der benötigten Würfe
E N ≥ H(X) .
Wenn man es schlau anstellt, dann kann man erreichen, daß für die zufällige Anzahl
N ∗ der benötigten Würfe gilt
E N ∗ ≤ H(X) + 2 .
Beispiele :
1) Sei Ws(X = x) = 14 , Ws(X = y) = 21 , Ws(X = z) = 41 . Wir werfen die
Münze: wenn das Ergebnis Zahl“ ist, sagen wir, X hätte den Wert y; wenn
”
das erste Ergebnis Wappen“ war, werfen wir nochmals und sagen je nach dem
”
Ergebnis ob X den Wert x oder z hat.
y
@
x
@ @
@
@ z
Die erwartete Anzahl von Würfen ist
E N∗ =
1
2
1+
1
2
H(X) = − 21 lg2
2=
1
2
3
2
−2
1
4
lg2
1
4
2) Wir wollen ein X simulieren mit
1
= Ws(X = x) = Ws(X = y) = Ws(X = z)
3
x
H
Hy
z x
@
@
H
Hy
@
@
@
z
@
@
@
@
@
EN
∗
= 2+
1
· E N∗
4
8
= 2.666 . . .
3
H(X) = lg2 3 = 1.5850
E N∗ =
c Prof. Dr. H. Dinges,
18. Dezember 1998
=
1
2
1 + 21 2
4.3
Die Entropie als Maßzahl für Zufälligkeit; Simulation
99
Der binäre Wurzelbaum hat x–beschriftete Blätter in den Tiefen 2,4,6,. . . .
Dem entspricht die Darstellung der Zahl Ws(X = x) = 31 durch den
Binärbruch
1
= 0.01010101 . . .
3
Das allgemeine Verfahren :
als Binärbrüche
p(x) =
∞
X
2−i δi (x) ,
Wir schreiben die Gewichte p(x) = Ws(X = x)
p(y) =
i=1
1 =
X
∞
X
2−i δi (y) , . . .
i=1
p(x) =
x
∞
X
i=1
2−i
X
δi (x) .
x
Wir sehen in der Tiefe i ein mit x beschriftetes Blatt genau dann vor, wenn
δi (x) = 1.
Dies liefert uns den Simulationsbaum. (vgl. unten das Lemma von Fano–Kraft)
B sei die Zufallsgröße mit Werten im Raum der Blätter b unseres binären Wurzelbaums. ϕ(·) ist die Beschriftung, also X = ϕ(B). Es gilt mit der Notation im 2.
analytischen Lemma
H(B) = H(X) +
X
x
p(x)H(B|x) ≥ H(X) .
Wir zeigen H(B|x) ≤ 2 für alle x und gewinnen daraus
H(B) ≤ H(X) + 2 .
Lemma :
Es gelte qi+1 ≤ 21 qi , i = 1, 2, . . . für die Gewichte
q1 , q 2 , . . . ≥ 0
mit
Es gilt dann H(Q) ≤ 2.
Beweis :
X
qi = 1 .
Sei H ∗ = sup{H(Q) : Q erfüllt die Bedingungen }
Es gilt H ∗ ≥ 2, wie man an der Gewichtung q1∗ = 12 , q2∗ = 41 , q3∗ = 81 , . . . sehen
kann
−
∞
X
i=1
2−i lg2 (2−i ) =
X
i2−i = 2 ,
c Prof. Dr. H. Dinges,
18. Dezember 1998
100
denn
P
nxn−1 =
d
dx
1
1−x
=
1
1−x
2
.
Wir bemerken außerdem, daß für jede Gewichtung Q, die den Bedingungen genügt,
q1 ≥ 12 gilt. Sei nun Q irgendeine solche Gewichtung. Wir schreiben sie als gewichtetes Mittel zweier disjunkter Gewichtungen (die ε i bezeichnen die δ–Gewichtungen)
Q = q1 ε1 + (1 − q1 )
∞
X
i=2
qi
εi = q1 ε1 + (1 − q1 )Q1 .
1 − q1
Q1 erfüllt die Bedingungen; jedes Gewicht ist höchstens halb so groß wie das voraufgehende Gewicht. Also H(Q1 ) ≤ H ∗ . Nach dem 3. analytischen Lemma über
das Entropiefunktional
H(Q) = q1 H(ε1 ) + (1 − q1 )H(Q1 ) − q1 lg2 q1 − (1 − q1 ) lg2 (1 − q1 ) .
Jede auf zwei Punkte konzentrierte Verteilung hat Entropie ≤ 1:
H({q1 , 1 − q1 }) = −q1 lg2 q1 − (1 − q1 ) lg2 (1 − q1 ) ≤ lg2 2 = 1 .
1 ∗
H +1 .
2
Dies gilt für alle Q, die den Voraussetzungen genügen, also
H(Q) ≤ (1 − q1 )H ∗ + 1 ≤
1
H∗ ≤ H∗ + 1 ,
2
Beispiel :
H∗ ≤ 2 .
q.e.d.
Simulieren wir X mit Ws(X = x) = 1 − 2 −n , Ws(X = y) = 2−n .
Für großes n ist die erwartete Anzahl der
x
x
@ @
x
@
x
@ @
@ y
Münzwürfe bis zum Ende in einem Blatt
≈
P
i=1
2−i i = 2
Die Entropie H(X) dagegen ist sehr klein
H(x) = −(1 − 2−n ) lg2 (1 − 2−n ) − 2−n lg2 2−n ≈ 0 .
Simulation einer langen Folge unabh ängiger Experimente
Wir wiederholen die Realisierung von
X
unabhängig
n–mal. Es seien
X1 , X2 , . . . , Xn unabhängig identisch verteilt mit
Ws(X = x) = p(x) ,
H(X) = h .
Wie wir gesehen haben, kann man
Münzwürfe simulieren, wobei
(X1 , X2 , . . . , Xn )
durch
nh ≤ E Nn ≤ nh + 2
c Prof. Dr. H. Dinges,
18. Dezember 1998
Nn
unabhängige
4.3
101
Die Entropie als Maßzahl für Zufälligkeit; Simulation
Satz : Zu jedem ε > 0 gibt es eine Simulationsmethode so, daß
lim n1 Nn = e
h≤h+ε .
n→∞
Beweis :
Man breche X1 , X2 , . . . in Blöcke der Länge k
(X1 , . . . , Xk ), (Xk+1 , . . . , X2k ), (X2k+1 , . . . , X3k ), . . .
Wähle k ≥ 1ε · 2 und wende die oben beschriebene Methode auf jeden Block an.
Für den i–ten Block braucht man N (i) Münzwürfe. Die N (i) sind unabhängig
identisch verteilt.
Etwas philosophisch angehaucht und außerhalb des mathematischen Pragmatismus
angesiedelt ist die folgende
Interpretation von H(X) als erwarteter Information
Bevor eine Zufallsgröße X realisiert wird, beschreibt die Verteilung L(X) (d.h. die
Gewichtung p(·) = Ws(X = ·) ) die Möglichkeiten. Wenn nun das Faktum, daß X
den Wert x angenommen hat, registriert worden ist, haben wir Information gewonnen. Die Zahl − lg 2 p(x) könnte man nun als die Größe dieses Informationsgewinns
ansehen. Diese ist (zufälligerweise) recht groß, wenn p(x) klein ist, d.h. wenn ein
recht unwahrscheinliches Ereignis {X = x 0 } registriert worden ist; sie ist (zufälligerweise) recht klein, wenn ein ohnehin mit großer Wahrscheinlichkeit zu erwartendes
Ereignis {X = x00 } registriert worden ist. Die erwartete Größe der Information ist
X
p(x) (− lg 2 p(x)) = H(X) .
x
Die drei analytischen Lemmata über das Funktional H(·) kann man nun folgendermaßen interpretieren:
1) Wenn ein Paar (X, Y ) beobachtet werden soll, dann ist die erwartete Information gleich H(X, Y ). Diese ist gleich H(X) + H(Y ), wenn X und Y
unabhängig sind. Im allgemeinen Fall haben wir
H(X, Y ) = H(X) + H(Y kX)
= H(X) +
X
x,y
= H(X) +
X
x,y
= H(X) +
X
x
mit q(y|x) =
r(x,y)
p(x)
−r(x, y) lg 2 r(x, y) +
−r(x, y) lg
"
p(x) −
X
r(x, y)
p(x)
X
p(x) lg 2 (p(x)
x
q(y) lg2 q(y|x)
y
#
= Ws(Y = y|X = x) falls Ws(X = x) > 0.
H(Y kX) kann also als die mittlere erwartete bedingte Information interpretiert
werden. Wir haben bewiesen H(Y kX) ≤ H(Y ) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
102
2) Wenn wir nicht X sondern nur ϕ(X) beobachten wollen, dann ist die erwartete Information gleich H(ϕ(X)); sie ist kleiner als die erwartete Information
H(X). Es gilt
H(X) − H(ϕ(X)) = H(Xkϕ(X)) =
X
y
Ws(ϕ(X) = y) · H(Py ) .
Dadurch, daß wir nur ϕ(X) beobachten, verschenken wir (mit der Wahrscheinlichkeit Ws(ϕ(X) = y)) die bei genauerem Hinsehen (auf X statt auf
ϕ(X)) zur Verfügung stehende erwartete bedingte Information.
3) Seien P und Q Wahrscheinlichkeitsgewichtungen und R = (1 − α)P + αQ.
Nehmen wir den Fall, wo P und Q trägerfremd sind. Wenn eine nach R
verteilte Zufallsgröße Z realisiert wird, dann entscheidet Z zunächst einmal,
ob wir in dem Träger von P oder in den von Q gelangen; diese Information
hat die Größe
H({1 − α, α}) = −(1 − α) lg 2 (1 − α) − α lg 2 α .
Darüber hinaus wird entweder (mit Wahrscheinlichkeit = (1 − α)) ein Punkt
im Träger von P spezifiziert, was die zusätzliche erwartete Information H(P )
gibt, oder es wird (mit Wahrscheinlichkeit = α) ein Punkt im Träger von Q
spezifiziert, was die zusätzliche erwartete Information H(Q) gibt.
Die gesamte bei der Realisierung von Z erwartete Information ist also
H(R) = H({1 − α, α}) + (1 − α)H(P ) + αH(Q) .
H(P )
X
HX
X
H
H
p(x)
X
HX
X
H
H
1−α
H(R)
q(y)
@
α@ @
H
H
H
@
@
@
H
H
H
H(Q)
Der Aufwand, um in ein Blatt des Wurzelbaums zu gelangen, setzt sich zusammen aus dem Aufwand, von der Wurzel wegzukommen, und dem Aufwand, im
Teilbaum in ein Blatt zu gelangen. Wir kommen darauf zurück, wenn wir die
Poisson–Gleichung diskutieren.
c Prof. Dr. H. Dinges,
18. Dezember 1998
4.4
Exkurs : Konvexe Funktionen, die Jensensche Ungleichung
4.4
103
Exkurs : Konvexe Funktionen,
die Jensensche Ungleichung
Definition : Eine reellwertige Funktion k(·) auf dem IR n heißt konvex, wenn
für alle x, y und λ ∈ (0, 1) gilt k((1 − λ)x + λy) ≤ (1 − λ)k(x) + λk(y)
y
x
z
z = (1 − λ)x + λy
k(z) ≤ (1 − λ)k(x) + λk(y)
Man betrachtet auch Funktionen mit Werten in (−∞, +∞]. Die Definition der
Konvexität bleibt dieselbe.
Bemerke :
Menge.
Der Endlichkeitsbereich einer konvexen Funktion ist eine konvexe
Eine Teilmenge U eines linearen Raums wird bekanntlich genau dann eine konvexe
Menge genannt, wenn
x, y ∈ U,
λ ∈ [0, 1] =⇒ (1 − λ)x + λy ∈ U .
Der Beweis der Aussage ist trivial.
Beispiele für konvexe Funktionen:
1) Jede affine Funktion ist konvex.
2) Wenn h und k konvexe Funktionen sind, dann ist auch das punktweise
Maximum m := h ∨ k eine konvexe Funktion; denn für beliebige x, y und
λ ∈ [0, 1] gilt
h((1 − λ)x + λy) ≤ (1 − λ)h(x) + λh(y) ≤ (1 − λ)m(x) + λm(y)
k((1 − λ)x + λy) ≤ (1 − λ)m(x) + λm(y) .
Also m((1 − λ)x + λy) ≤ (1 − λ)m(x) + λm(y) .
Satz :
k(·) sei konvex auf U . Sei πi ≥ 0,
Indexmenge ist. Für beliebige xi ∈ U gilt dann
k
X
πi xi ≤
X
P
i∈I
πi = 1, wo I eine endliche
πi k(xi ) .
Beweis durch vollständige Induktion nach n = |I|.
c Prof. Dr. H. Dinges,
18. Dezember 1998
104
Der Satz gilt auch für unendliches I. Der Beweis ist in diesem Falle etwas schwieriger.
Als Stochastiker bemerken wir, daß
tors X ist.
EX =
Ws(X = x) = πi
Andererseits gilt E k(X) =
P
X
P
πi xi der Erwartungswert eines Zufallsvek-
πi xi .
πi k(xi ). Wir haben also k(E X) ≤ E k(X).
In der vollen Allgemeinheit heißt diese Ungleichung Jensens Ungleichung.
Satz (Jensens Ungleichung) :
Funktion k(·) gilt
Für jeden Zufallsvektor X und jede konvexe
k(E X) ≤ E (k(X)) .
Es gibt im wesentlichen zwei Beweise dieser höchst nützlichen Ungleichung.
Der erste hält k(·) fest und schreitet von einfachen Verteilungen L(X) zu komplizierteren fort, wie wir das oben angedeutet haben.
Der zweite hält L(X) fest und schreitet von einfachen k(·) zu komplizierteren fort.
Für affine `(·) haben wir `(E X) = E `(X). Für das punktweise Supremum von
affinen Funktionen haben wir die Ungleichung. `( E X) ≤ E (k(X)) für alle ` ≤ k .
Nach dem Satz von Hahn–Banach, den wir anschließend behandeln, gilt Jensens
Ungleichung also für alle unterhalbstetigen konvexen Funktionen. Der allgemeine
Fall folgt dann sofort.
Sprechweise : Eine konvexe Funktion k, die sich als das punktweise Maximum
von endlich vielen affinen Funktionen darstellen läßt, heißt eine stückweise affine
konvexe Funktion. Eine konvexe Funktion, die sich als das punktweise Supremum
einer Familie affiner Funktionen darstellen läßt, heißt eine unterhalbstetige konvexe
Funktion. Für denjenigen, der den Begriff der Unterhalbstetigkeit kennt, gibt es hier
etwas zu beweisen, nämlich den
Satz : Jede unterhalbstetige konvexe Funktion ist das punktweise Supremum der
Familie aller ihrer affinen Minoranten
k(x) = sup `(x)
`∈M
wobei
M = {` : ` affin und `(·) ≤ k(·)} .
c Prof. Dr. H. Dinges,
18. Dezember 1998
4.4
105
Exkurs : Konvexe Funktionen, die Jensensche Ungleichung
Es handelt sich um eine Version des für die gesamte Funktionalanalysis höchst wichtigen Satzes von Hahn–Banach. Wir beweisen den Satz nicht; wir machen uns nur
durch das folgende Bild anschaulich klar, was er bedeutet.
k
```
`1
```
`````
```
``
`
`2
Satz : Eine zweimal differenzierbare Funktion f (·) auf einem Intervall ist genau
dann kovex, wenn f 00 (x) ≥ 0 für alle x.
Der Beweis ergibt sich leicht aus dem Mittelwertsatz der Differentialrechnung.
Beispiel :
Sei k(t) = t ln t für t ≥ 0, k(t) = +∞ für t < 0. k(·) ist konvex.
k 0 (t) = ln t + t ·
Beweis :
Bemerke :
1
t
,
k 00 (t) =
1
t
> 0 für alle t > 0 .
Wenn s 6= t und λ ∈ (0, 1) , dann gilt
k((1 − λ)s + λt) < (1 − λ)k(s) + λk(t) .
Als Anwendung erhalten wir den in 4.2 benötigten
Seien ϕi ≥ 0 ,
Satz :
X
ϕi ln
Beweis :
X
ϕi ln
ϕi
≥0.
ψi
Setze ti =
ϕi
ψi
P
ϕi = 1 ;
ψi ≥ 0 ,
P
ψi = 1. Es gilt dann
und k(ti ) = ti ln ti . Es gilt dann
X
X
ϕi X
=
ψi k(ti ) ≥ k( ψi ti ) = k(
ϕi ) = 0 .
ψi
Genau dann gilt
P
ϕi ln
ϕi
ψi
= 0, wenn ϕi = ψi für alle i.
c Prof. Dr. H. Dinges,
18. Dezember 1998
106
4.5
Huffman–Codes
Wir wollen Wörter über dem Quellenalphabet E = {x, y, . . .} in 0–1–Folgen
umcodieren, so daß die Codewörter von links her eindeutig entzifferbar sind ( Präfix–
”
Eigenschaft“). Codierungen dieser Art sind als günstig anzusehen, wenn die erwartete
Länge des eincodierten Textes möglichst kurz ist.
Man wird die Quellenwörter x1 , x2 , . . . im allg. nicht buchstabenweise eincodieren,
sondern lieber zuerst in Blöcke zerlegen, etwa in Blöcke gleicher Länge k
(x1 , . . . , xk ), (xk+1 , . . . , x2k ), (x2k+1 , . . . , x3k ), . . .
Es sind nun die Blöcke, die durch 0–1–Folgen variabler Länge von links her eindeutig
entzifferbar dargestellt werden sollen. Aus mathematischer Sicht ist das aber nichts
Neues; denn es gilt jetzt einfach Wörter über dem Quellenalphabet E k umzucodieren.
Der einfachste Fall ist der, wo die Quellenwörter die Realisierungen von unabhängigen identisch verteilten E–wertigen Zufallsgrößen X1 , X2 , . . . sind. Dies ist eine
Idealisierung; reale Quellen liefern die Buchstaben nicht unabhängig; sehr oft kann
man aber davon ausgehen, daß die Xi einen solchen stationären Prozeß bilden,
in welchem lange Blöcke nahezu“ unabhängig sind. Eine Codierung, die für un”
abhängige Blöcke mit den gegebenen Wahrscheinlichkeiten günstig ist, wird auch für
die tatsächliche Quelle günstig sein. Man braucht sich daher nur um die Wahrscheinlichkeitsverteilung auf der Menge der Buchstaben (bzw. der Blöcke) zu kümmern.
Beispiel : Eine Quelle liefert Wörter a a a a b a b b a a a b . . . mit unabhängigen
Buchstaben, wobei a die Wahrscheinlichkeit 0.9 und b die Wahrscheinlichkeit
0.1 hat. Wir zerhacken das Quellenwort in Blöcke der Länge 3 und haben also
unabhängige X1 , X2 , . . . mit
Ws(X = (a, a, a)) = (0.9)3 = 0.729
Ws(X = (b, a, a)) = (0.1) · (0.9)2 = 0.081
etc.
Für diese Quelle mit einem achtbuchstabigen Alphabet werden wir unten einen ziemlich günstigen binären Code konkret angeben.
Eine binären Präfixcode stellen wir ganz allgemein durch einen binären Wurzelbaum dar. Wie man vom Codebuch zum Codebaum gelangt zeigt das
Beispiel :
Sei E = {x, y, z, u, v}. Die Codewörter seien
C(x) = 101, C(y) = 011, C(z) = 010, C(u) = 111, C(v) = 110 .
c Prof. Dr. H. Dinges,
18. Dezember 1998
4.5
107
Huffman–Codes
Keines der Codewörter ist das Anfangsstück irgendeines anderen Codeworts
( Präfix–Eigenschaft“). Der zugehörige Codebaum ist
”
r
A
r u
rP
P
Pr v
r
r
H
r x
H
H
AAr
r y
rP
P
Pr
Die Blätter sind mit den
Buchstaben x, y, z, u, v beschriftet.
z
Der vorgeschlagene Code ist sicherlich nicht günstig; man kann ihn sofort durch eine
besseren ersetzen, z.B.
r u
rP
P
Pr v
r
r
H
Hr x
H
r
A
r y
AA
r HH
Hr z
r
A
oder
r u
rP
P
Pr v
r
H
Hr x
H
r y
AAr
HH
Hr z
In einem günstigen Code gibt es für alle Knoten, die nicht Blatt sind, genau zwei
ausgehende Kanten.
Wie erkennt man, ob ein Codebaum günstig ist?
Bei einem günstigen Code haben, intuitiv gesprochen, die Blätter b in großer Tiefe
|b| kleine Wahrscheinlichkeit π(b). Die Buchstaben mit großer Wahrscheinlichkeit
gehören zu Blättern in geringer Tiefe. Entscheidend ist die mittlere Tiefe
M (C) :=
X
b
|b| · π(b) =
X
x
|C(x)| · π(x)
wobei über die Menge der Blätter
summiert wird.
Satz :
b bzw. über die Menge der Buchstaben x
Sei π(·) eine Wahrscheinlichkeitsgewichtung auf dem Quellenalphabet E.
a) Für jeden binären Präfixcode C(·) gilt
M (C) ≥ H(π) = −
X
b
π(b) · lg2 π(b) .
b) Es existiert ein binärer Präfixcode C ∗ (·) mit
M (C ∗ ) ≤ H(π) + 1 .
Wir werden günstige Codes C ∗ konkret konstruieren, die sog. Huffman–Codes.
Zuerst beweisen wir aber a). Ein elementares aber wichtiges Hilfsmittel ist der
c Prof. Dr. H. Dinges,
18. Dezember 1998
108
Satz : (Ungleichung von Fano–Kraft)
Genau dann gibt es einen binären Wurzelbaum mit Blättern in den Tiefen
a1 , a2 , . . . , am , wenn
X 1 ai
2
≤1.
Beweis :
1) Gegeben sei ein binärer Wurzelbaum mit Blättern in den Tiefen a1 , . . . , am .
Lassen wir uns durch faire Münzwürfe
durch den Baum führen. Wir gelangen
ai
1
in ein vorgegebenes Blatt der Tiefe a i . Die
mit der Wahrscheinlichkeit 2
Wahrscheinlichkeit, daß wir überhaupt in einem der ausgezeichneten Blätter
landen, ist
X 1 ai
≤1.
2
2) Seien
a 1 , . . . , am
P 1 ai
gegeben mit
≤ 1. Die Existenz wird durch
2
a1
a2
vollständige Induktion nach m bewiesen. m = 2 ist trivial 21
+ 12
≤ 1.
o.B.d.A. können wir annehmen a1 ≥ a2 ≥ . . . ≥ am−1 = am . Nehmen wir
an, wir hätten bereits einen binären Wurzelbaum mit Blättern in den Tiefen
a1 , a2 , . . . , am−2 , am−1 − 1
m ai
X
1
≤ 1 =⇒
2
1
m−2
X
1
1
2
ai
am−1 −1
1
2
+
≤1
An das Blatt in der Tiefe
am−1 − 1
heften wir zwei Kanten
und erhalten den gewünschten Wurzelbaum mit Blättern in den Tiefen
a1 , . . . , am−2 , am−1 , am−1 .
Wir führen den Schluß von m − 1 auf m.
Beweis der Aussage a) des Satzes : Wir haben einen binären Wurzelbaum
mit Blättern in den Tiefen a1 , a2 , . . . , am . Wir belegen die Blätter mit Zahlen q(bi ),
so daß
q(bi ) ≥
ai
1
2
P ai
,
X
q(bi ) = 1 .
1
Wegen
≤ 1 ist das möglich. ai ≥ − lg2 q(bi ). Betrachten wir andererseits
2
die vorgegebene Gewichtung π(bi ). Es gilt nach Jensens Ungleichung
M (C) =
X
= −
π(bi ) · |C(bi )| ≥ −
X
π(bi ) lg2 π(bi ) +
X
X
π(bi ) lg 2 q(bi )
π(bi ) lg2
c Prof. Dr. H. Dinges,
π(bi )
q(bi )
≥ H(X) .
18. Dezember 1998
4.5
109
Huffman–Codes
Beweis von b)
(Konstruktion eines Huffman–Codes) :
P
Gegeben sind Zahlen π(x) ≥ 0,
π(x) = 1.
Bestimme k(x), so daß 2−k(x) ≤ π(x) < 2−k(x)+1 .
P k(x)
P
1
Es gilt
≤
π(x) = 1. Also gibt es einen binären Wurzelbaum mit
2
Blättern in den Tiefen k(x).
k(x) ≥ − lg 2 π(x) ≥ k(x) − 1 .
Für seine (bzgl. π(·) ) mittlere Tiefe gilt
M ∗ :=
Beispiel :
keiten
X
π(x) · k(x) ≤
X
π(x)[1 − lg 2 π(x)] = H(X) + 1 .
Wir haben 8 Buchstaben im Quellenalphabet mit den Wahrscheinlich0.729
0.081
0.081
0.081
0.009
0.009
0.009
0.001
hhh
hhhh
HH
5H
0.162 h
h
hhhh
hhhh
hhh
hh
7
hhh 0.271
6
hhh
hhhh
hhhh 0.109
4
HH
0.018
2H
H
HH
0.028
H
3H
HH
H
1
0.01
Die beiden kleinsten Wahrscheinlichkeiten werden jeweils zusammengefaßt in einem
Knoten, an den die Summe der Wahrscheinlichkeiten geschrieben wird.
Man kann (z.B. durch vollständige Induktion) tatsächlich zeigen, daß der Huffman–
Code in der Tat optimal ist, d.h. minimale mittlere Länge hat.
Die Konstruktion eines binären Quellencodes kann auch als die Konstruktion eines binären Fragebaums interpretiert werden. Ein Zufallsmechanismus wählt mit der
Wahrscheinlichkeit π(x) den Buchstaben x. Mit im Mittel möglichst wenigen Ja–
Nein–Fragen ist x zu erfragen. Im Beispiel müssen wir erfragen, welches a–b–Tripel
gewählt wurde. Die erste Frage wird sein: Ist es (a, a, a)? Wenn die Antwort Nein
ist, müssen wir weiterfragen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
110
Ja
Nein
{(a, a, a)} ?
(a, a, a)
(a, a, b)
PP
P
{(a, a, b), (a, b, a)} ?
{(a, a, b)} ?
PP
P
(a, b, a)
PP
P
{(b, a, a)} ?
(b, a, a)
(a, b, b)
PP
P
{(a, b, b), (b, a, b)} ?
{(a, b, b)} ?
PP
P
(b, a, b)
PP
P
{(b, b, a)} ?
(b, b, a)
PP
P
(b, b, b)
Merke : Die Anzahl der Ja–Nein–Fragen, die ein geschickter Frager im Mittel
braucht, um den Ausgang eines Zufallsexperiments mit der Gewichtung π(·) zu
erfragen, ist ungefähr gleich der Entropie von π(·). Der Unterschied ist durch Run”
dungsfehler“ zu erklären; er ist nicht größer als 1.
Was kommt nun heraus, wenn man einen langen Text mit Hilfe eines Huffman–
Codes in eine Null–Eins–Folge umcodiert? Wir erhalten eine von links her eindeutig
entschlüsselbare 0–1–Folge, die andererseits vom stochastischen Standpunkt nahezu wie eine Münzwurffolge aussieht; d.h. die Nullen und Einsen sind nahezu“ un”
abhängig mit Wahrscheinlichkeit = 12 . Das nahezu“ wollen wir hier nicht weiter
”
analysieren.
Heuristische Betrachtungen (über den Informationsgehalt einer
Quelle)
1) Wenn man einen langen Text in einer Zeitung liest, n Buchstaben über dem
endlichen Alphabet E, etwa
caabbda . . . addbcc ,
dann kann man zunächst noch nicht fragen, wieviel Information dieser Text
liefert. Denn Information bezieht sich immer auf eine der Betrachtung (einigermaßen willkürlich) zugrundegelegte Folge von Wahrscheinlichkeitsverteilungen
ν (1) , ν (2) , ν (3) ,
wobei für jedes n ν (n) die von ν (n+1) auf E n induzierte Gewichtung
ist. Man wird die Folge der ν (n) nicht ganz willkürlich festlegen, sondern aus
c Prof. Dr. H. Dinges,
18. Dezember 1998
4.5
111
Huffman–Codes
vergleichbaren Texten schätzen“. Dem tatsächlich beobachteten Text x(n)
”
kann man dann die Information“
”
− lg2 ν (n) (x(n) )
zuordnen. In vielen interessanten Fällen wird bei vernünftiger Wahl von
ν (1) , ν (2) , . . . diese Information“ des tatsächlich beobachteten Textes x(n)
”
ungefähr linear ansteigen. Um das genauer zu sagen, nehmen wir an, daß der
beobachtete Text aus einem Zufallsgeschehen entstammt, dessen Verteilung
µ(1) , µ(2) , µ(3) , . . . allerdings nicht bekannt ist. In den interessanten Fällen gilt
mit großer Wahrscheinlichkeit
I (n) := − lg2 ν (n) {X (n) }
≈ nh∗
mit großer Wahrscheinlichkeit. Die Zahl h ∗ ergibt sich durch Berechnung des
Erwartungswerts
E − lg2 ν (n) {X (n) }
= −
X
x(n)
µ(n) {x(n) } lg2 ν (n) {x(n) }
= H µ(n) +
X
µ(n) {x(n) } lg2
µ(n) ({x(n) })
ν (n) ({x(n) })
Wenn wir µ(1) , µ(2) , . . . kennen und ν (n) = µ(n) gewählt haben, dann bedeutet
das oben Gesagte, daß für große n
I (n) ≈ H µ(n) ≈ nh∗
mit großer Wahrscheinlichkeit. Wären in unserer Quelle Blöcke der Länge m
e(2m) = µ
e(m) ⊗ µ
e(m) und allgemeiner
unabhängig, dann hätten wir µ
e(km) = µ
e(m) ⊗ µ
e(m) ⊗ . . . ⊗ µ
e(m)
µ
e(km)
H µ
e(m)
= kH µ
für k = 2, 3, . . . .
Im allgemeinen stationären Fall haben wir
H µ(km)
≤ kH µ(m)
h∗ =
1
H µ(m) .
n→∞ n
lim
Das alles ist oberflächliche Heuristik. Es ist eine Herausforderung an die Mathematiker, für interessante stationäre Prozesse
X1 , X 2 , X 3 , . . . ,
µ(n) = L(X1 , . . . , Xn )
c Prof. Dr. H. Dinges,
18. Dezember 1998
112
zu beweisen, daß
1
1
H µ(m) =
H (L(X1 , . . . , Xm ))
m
m
konvergiert. Der Grenzwert verdient dann den Namen Information pro Zei”
chen“. Dies ist der Themenkreis des berühmten Satzes von Shannon und
Mc Millan.
2) Ein lehrreiches Experiment mit Schülern ist das folgende: Der Lehrer bittet
einen Schüler, eine möglichst willkürliche Null–Eins–Folge der Länge 100 zu
Papier zu bringen und andererseits 100 Münzwürfe zu registrieren. Der Lehrer
bietet an, zu erraten, welche der Folgen die ehrliche Zufallsfolge und welche die
Pseudo–Zufallsfolge ist. Der Lehrer könnte seine Entscheidung z.B. auf einen
Test basieren, ob die Runs“ von Nullen und Einsen in der vorgelegten Folge
”
geometrisch verteilt sind. Bei einer echten Zufallsfolge bilden nämlich die Runs
eine Folge unabhängiger Zufallsgrößen
N1 , N 2 , . . .
mit
Ws(N = 1) =
1
,
2
Ws(N = 2) =
1
,
4
Ws(N = 3) =
1
,
8
...
Die Erfahrung zeigt, daß die von den Schülern produzierten Pseudo–
Zufallsfolgen zwar (annähernd) unabhängige Runs besitzen, daß diese aber
nicht geometrisch verteilt sind; die Runverteilung ist in der Regel kürzerschwänzig. Das hat zur Folge, daß die Pseudo–Zufallsfolgen, die von den
Schülern produziert werden, in der Regel weniger als ein bit Information pro
Zeichen enthalten.
4.6
Gestörte Kanäle
Das Nachfolgende gibt einen ersten Eindruck von Shannon’s Informationstheorie.
Die bahnbrechende Arbeit von Claude E. Shannon aus dem Jahre 1948 trägt den
Titel A mathematical theory of communication“. Nachdem heute die Wörter In”
”
formation“ und Kommunikation“ Assoziationen hervorrufen, die weit über das von
”
Shannon Intendierte hinausgehen, wäre es vielleicht besser, von Shannons Theorie
der Redundanz zu sprechen.
Quelle
−→
gestörter
Kanal
c Prof. Dr. H. Dinges,
−→
Empfänger
18. Dezember 1998
4.6
113
Gestörte Kanäle
In der Quelle fällt im Laufe der Zeit viel Information an, die über den gestörten Kanal
dem Empfänger übermittel werden soll, und zwar mit sehr großer Wahrscheinlichkeit
korrekt. Wegen der zufälligen Störungen im Kanal empfiehlt es sich nicht, dem Kanal
allzu konzentrierte Information anzuvertrauen. Der eincodierte Text muß so redundant sein, daß der Empfänger, der den übertragenden Text decodiert, mit sehr kleiner Wahrscheinlichkeit falsch informiert wird. Wieviel Redundanz ist nötig; welche
Übertragungsgeschwindigkeit kann man bei geschickter Codierung der Information
erreichen? In den Fällen, die wir hier betrachten werden, stellt die Decodierung (d.h.
der zweite Pfeil im Diagramm) kein interessantes Problem dar. Es ist die Kanalcodierung (d.h. der erste Pfeil), die uns beschäftigen wird.
Wir betrachten den Fall, wo bei der Quelle große Mengen unabhängiger Binärzeichen anfallen. Eine Situation dieser Art liegt z.B. (näherungsweise) vor, wenn man
irgendeinen Urtext mit Hilfe des Huffman–Codes in die Quelle einspeist. In diesem
Sinne verdient der Gegenstand des vorigen Abschnitts den Namen Quellencodierung.
Nehmen wir an: Unser gestörter Kanal macht aus einer 0–1–Folge y der Länge n
eine zufällige 0–1–Folge X. Die Verteilung bezeichnen wir mit Ly (X). Wir stellen
uns vor, daß X mit großer Wahrscheinlichkeit nicht sehr verschieden von y ist, wenn
y eingegeben wird. Dabei messen wir den Abstand mit der Hamming–Metrik“
”
dist(y, x) :=

n
X

|xi − yi | =  Anzahl der Plätze, in welchen  .
x und y verschieden sind
i=1
Die Idee der Kanalcodierung ist die, daß man dem Kanal nur n–tupel aus einem
kleinen Repertoire eingibt; in den Kanal werden nur spezielle Codewörter y = γ(z)
eingespeist. Wenn die γ(z) hinreichend verschieden sind, dann kann der decodierende Empfänger mit großer Wahrscheinlichkeit korrekt entscheiden, welches Codewort
eingegeben wurde. Er schließt mit (großer Wahrscheinlichkeit korrekt), welches z
aus der Quelle kam.
Definition :
Bk bezeichne die Menge aller 0–1–Folgen der Länge k.
a) eine injektive Abbildung
γ : B k → Bn
heißt ein (n, k)–Code. γ(z) heißt das Codewort zu z.
b) Eine surjektive Abbildung
δ : B n → Bk
mit
δ(γ(z)) = z
für alle z ∈ Bk
heißt eine Decodierung zum (n, k)–Code γ(·) .
c) Der Quotient
k
n
heißt die Übertragungsrate.
c Prof. Dr. H. Dinges,
18. Dezember 1998
114
1. Beispiel :
(Repetitions–Code mit Übertragungsrate 1/3)
Quelle mit
Zeichen
0
1
Codierung
−→
−→
000
111
mögliche
Ausgänge
−→
−→
..
.
..
.
..
.
..
.
decodierte
Zeichen

−→
000

001
010


100

110

101
011


111
−→
0
−→
1
2. Beispiel : (Ein (4,2)–Code)
Die Blöcke der Länge k = 2 werden in Blöcke der Länge n = 4 codiert, wie folgt
0 0 −→
0000
0 1 −→
0111
1 0 −→
1001
1 1 −→ 1 1 1 0 .
Die Decodierung beschreiben wir verbal. Das Decodierungsverfahren hat jedem der
24 = 16 Quadrupel ein Paar zuzuordnen. Wir wollen das (reichlich willkürlich)
so machen: Das vierte Zeichen nehmen wir ernst, während wir unter den ersten
drei Zeichen höchstens einen Fehler in Betracht ziehen. Dies ergibt in der Tat ein
wohlbestimmtes Decodierungsverfahren.
Mit welcher Wahrscheinlichkeit ein gesendetes k–Tupel richtig decodiert wird, hängt
natürlich vom Wahrscheinlichkeitsgesetz ab, nach welchem der Kanal arbeitet. Wir
werden den unten definierten speziellen Kanal BSC(p) genauer untersuchen. Die
stochastische Modellierung realer Übertragungskanäle ist eine schwierige Aufgabe,
die wir hier nicht angehen können.
Man mag an Funkübertragung durch einen (elektrisch unruhigen) Raum denken.
Die Mariner–Mars–Sonden der NASA haben bis 1977 einen (32,6)–Code verwendet.
(Nach 1977 hat man auf ein System umgestellt, welches nicht in unser Schema paßt.)
Man mag auch an Speicherchips denken; der Zustand jedes Speicherplatzes (1 oder 0)
ist durch unkontrollierbare Entladungen (hervorgerufen durch thermische Bewegung,
radioaktiven Zerfall u.dgl.) ständig gefährdet. Derjenige, der den Zustand abruft,
c Prof. Dr. H. Dinges,
18. Dezember 1998
4.6
115
Gestörte Kanäle
findet nicht mit Sicherheit das Eingegebene vor. Der Cray–Rechner verwendet einen
(64,57)–Code. Um die (als ausreichend angesehene) Sicherung der Information zu
garantieren, werden also 64
57 ·N Speicherplätze gebraucht, wenn N bits Information
aufzunehmen sind. Die Entwerfer des Cray–Rechners halten also 10% Redundanz f ür
angemessen.
Wir betrachten den einfachsten Kanal, den man sich denken kann, den binären sym”
metrischen Kanal mit Fehlerwahrscheinlichkeit p “ (Kürzel: BSC (p)). Er überträgt
alle eingegebenen Zeichen unabhängig voneinander richtig mit Wahrscheinlichkeit
1 − p und falsch mit Wahrscheinlichkeit p.
Fehlerwahrscheinlichkeiten in Beispielen :
a) Übertragen wir ohne alle Quellencodierung einfach Zeichen für Zeichen, und
decodieren wir auch in trivialer Weise! Die Wahrscheinlichkeit, daß das Quellenwort z der Länge k falsch decodiert wird, ist für jedes z
!
k 2
1 − (1 − p) = kp −
p + . . . (≈ kp für kleine p) .
2
k
b) Benützen wir unseren Repetitionscode mit der Übertragungsrate 13 . Die Wahrscheinlichkeit, daß das Quellenwort z der Länge 1 falsch decodiert wird, ist
für alle z (z ∈ {0, 1})
Wsγ(z) (δ(X) 6= z) = 3p2 (1 − p) + p3
(≈ 3p2 für kleine p) .
Die Wahrscheinlichkeit, daß ein Quellenwort k der Länge z falsch decodiert
wird, ist für kleine p
≈ 1 − (1 − 3p2 )k ≈ 3kp2 .
c) Bei dem oben beschriebenen (2,4)–Code ist die Wahrscheinlichkeit, daß ein z
der Länge 2 falsch übertragen wird
h
i
Wsγ(z) (δ(X) 6= z) = 1 − (1 − p) (1 − p)3 + 3p(1 − p)2 ≈ p
für kleine p) .
Die Wahrscheinlichkeit, daß ein Quellenwort der Länge k (k gerade) falsch
decodiert wird, ist also etwa halb so groß wie die beim trivialen Code. Ist
diese Reduktion der Fehlerwahrscheinlichkeit nicht durch die auf 12 reduzierte
Übertragungsrate etwas hoch bezahlt?
Wirklich überzeugende Codes kann man nur mit einigem Aufwand konstruieren.
Zunächst einmal muß man den Text, der aus der Quelle kommt, in lange Blöcke
zerteilen (großes k). Wie lang dann die Codewörter zu sein haben, welche Übertragungsgeschwindigkeit nk der Kanal also bewältigen kann, das hängt vom Kanal ab.
c Prof. Dr. H. Dinges,
18. Dezember 1998
116
Lassen wir beliebig große k zu: Die maximal erreichbare Übertragungsgeschwindigkeit (bei beliebig klein vorgebbarer Fehlerrate) heißt die Kapazität des Kanals. Diese
Kapazität auszurechnen und eine passende Quellencodierung zu finden, ist eine Herausforderung an den Mathematiker.
Bemerkung :
Ein sehr allgemeines Decodierungsprinzip (für jede Art von
gestörten Kanälen) ist die Maximum–Likelihood–Decodierung. Man sucht zu dem
empfangenen Wort x dasjenige Codewort y = γ(z) für welches
Wsγ(z) (X = x) = max .
Wenn es mehrere Lösungen z 0 dieses Maximierungsproblems gibt, muß man irgendeine Festlegung treffen. Jedes δ(·) dieser Art heißt eine mit dem ML–Prinzip
verträgliche Decodierung. Das oben angegebene Decodierungsverfahren für unseren
(4,2)–Code ist mit dem ML–Prinzip verträglich (für jeden Kanal BSC (p)). Es hat
auch die Symmetrieeigenschaft, daß die Fehlerwahrscheinlichkeit für jedes aus der
Quelle kommende Paar dieselbe ist.
Der Satz von Shannon besagt, grob gesagt: Wenn man bei der Information pro
Zeiteinheit, die man dem Kanal zumutet, unterhalb einer kritischen Übertragungsgeschwindigkeit ( Kapazität“ des Kanals) bleibt, dann kann man mit Hilfe eines pas”
senden Codierungsverfahrens (und der ML–Decodierung) erreichen, daß das Übertragungssystem beliebig sicher ist.
Hohe Sicherheit (bei nahezu optimaler Übertragungsgeschwindigkeit) hat allerdings
ihren Preis. Zunächst einmal müssen die Mathematiker sich die Mühe machen, allen
Blöcken der Länge k mit Geschick Code–Wörter der Länge n zuzuordnen. Diese
Mühe ist nur einmal zu leisten. Der Rechenaufwand dagegen, um zu den empfangenen
n–Blöcken nach der ML–Methode die Code–Wörter zu suchen, stellt eine ständige
Belastung des Betreibers dar.
4.7
Beweis eines Satzes von Shannon
Satz : (Shannon 1948)
Für den binären symmetrischen Kanal mit der Fehlerwahrscheinlichkeit p (BSC (p))
hat die kritische Übertragungsrate den Wert
a∗ = 1 + p lg2 p + (1 − p) lg 2 (1 − p) = 1 − H({p, 1 − p}) .
Genauer gesagt: Seien a < a∗ und ε > 0 vorgegeben. Für alle genügend großen k
existiert dann ein (n, k)–Code γ ∗ mit n < k· a1 , so daß (bei jeder ML–Decodierung)
c Prof. Dr. H. Dinges,
18. Dezember 1998
4.7
117
Beweis eines Satzes von Shannon
die mittlere Fehlerwahrscheinlichkeit (gemittelt über alle k–Tupel z) kleiner als ε
ist.
1 X
Wsγ ∗ (z) (δ(X) 6= z) < ε .
2k z
Zahlenbeispiel : Wir betrachten einen Kanal, der die bits mit Wahrscheinlichkeit
1
1
haben wir die Kapazität
100 umdreht. Für den Kanal BSC 100
1
.
1.09
1 + p lg2 p + (1 − p) lg 2 (1 − p) ≈ 0.92 ≈
Für große k gibt es also eine im Mittel sehr sichere Übertragung, die sich auf Codewörter der Länge n < 1, 1k stützt. — Man kann es fast nicht glauben. Leider gibt
es nun aber keine einfache Konstruktion, die die Wahrheit der Aussage augenfällig
macht. Der Beweis von Shannons Satz hat ein großes Manko; denn von einem Existenzbeweis erhofft der mathematische Laie kurzatmig auch einen Hinweis auf eine
Konstruktion. Einen solchen Hinweis gibt der Beweis aber nicht. Der Wert a ∗ setzt
dem Bastler nur eine Marke, bis wohin er vielleicht kommen könnte, wenn es nach
einer schlauen Codierung sucht.
Shannon hat übrigens auch bewiesen, daß bei einer Übertragungsrate > a∗ der
Übertragungsfehler nicht klein gehalten werden kann. Dieses Resultat wollen wir
hier aber nicht herleiten.
Vorbereitende Bemerkungen über den Hamming–Abstand
a) Die Menge Bn = {0, 1}n kann man mit der Menge der Ecken eines n–
dimensionalen Würfels identifizieren. Wir betrachten sie einfach als einen metrischen Raum. Die r–Kugel um den Punkte y ist die Menge
Br (y) = {x : d(x, y) ≤ r} ,
d.h. die Menge der 0–1–Folgen, die sich in höchstens r Plätzen von y unterscheiden. (Wir werden uns für r in der Nähe von p · n interessieren.) Die
Anzahl der Punkte in der r–Kugel Br (y) ist für jedes Zentrum y
|Br (y)| = 1 +
n
1
+ ... +
n
r
.
Man beachte: Die Zahl 21n |Br (y)| kann man interpretieren als die Wahrscheinlichkeit, daß bei einem fairen Münzwurfexperiment der Länge n höchstens r
Erfolge eintreten. dafür haben wir in 2.7 eine sehr präzise Näherung gefunden.
√
1
2·
|B
(y)|
≈
Φ
−
r
2n
s
(n + 1)K
c Prof. Dr. H. Dinges,
r+1 1
,
n+1 2
+ H0
18. Dezember 1998
r+1 1
,
n+1 2
!
,
118
wobei uns H0 (·, ·) hier nicht zu interessieren braucht. Uns interessiert nur
1
= x∗ ln(2x∗ ) + (1 − x∗ ) ln(2(1 − x∗ ))
2
1
1
= 1 + x∗ lg2 x∗ + (1 − x∗ ) lg 2 x∗ .
K x∗ ,
ln 2
2
√ √
Uns genügt hier die grobe Abschätzung (gemäß Φ(− 2 u) ≈ e−u )
K x∗ ,
− lg2
r+1
1
|Br | ≈ (n + 1) 1 +
lg
n
2
n+1 2
r+1
n+1
n−r
+
lg
n+1 2
n−r
n+1
.
b) Wenn unserem Kanal ein n–tupel y eingegeben wird, dann gibt der ein
zufälliges X aus mit
Wsy (X = x) = pd (1 − p)n−d
mit d = d(x, y) .
Der Kanal verteilt die Einheitsmasse in y auf die Punkte x in der Nähe,
so daß der Hammingabstand binomialverteilt ist zum Parameter (n, p). Nach
Tschebyschevs Ungleichung gilt für
r = np +
r
2
np(1 − p)
ε
Wsy (X ∈
/ Br (y)) ≤
ε
.
2
Wir bemerken für später, daß für alle festen x
X
Wsy (X = x) = 1 =
y
X
Wsy (X = x) .
x
Beweis des Satzes :
1) Intuitiv gesprochen ist ein guter (n, k)–Code ein solcher, bei welchem die 2 k
Codewörter γ(z) paarweise einen großen Abstand haben. In diesem Falle
liegen die Verteilungen Lγ(z) (X) gut voneinander getrennt; es ist daher unwahrscheinlich, daß ein vom Codewort γ(z) hervorgerufenes x einem falschen
Codewort γ(z 0 ) zugerechnet wird; die Irrtumswahrscheinlichkeit ist klein für
alle möglichen Nachrichten z. Wir beschäftigen uns allerdings hier nicht mit
der Irrtumswahrscheinlichkeit als Funktion von z, sondern nur mit der über
alle z gemittelten Irrtumswahrscheinlichkeit
Π(γ) :=
1 X
Wsγ(z) (δ(X) 6= z) .
2k z∈B
k
Hierbei ist δ(·) eine mit dem ML–Prinzip verträgliche Decodierung. Welches
δ(·) man im Einzelnen wählt, wirkt sich nicht auf Π(γ) aus, wie man sich
leicht überlegt.
c Prof. Dr. H. Dinges,
18. Dezember 1998
4.7
119
Beweis eines Satzes von Shannon
2) Es wäre schön, ein γ ∗ zu finden mit Π(γ ∗ ) < ε; und zwar einen (n, k)–Code
γ ∗ mit nk = a∗ − δ mit einem kleinen δ > 0. Dieses Ziel erreichen wir hier
nicht; wir beweisen nur die Existenz eines solchen γ ∗ . Die Existenz ergibt sich
aus der Abschätzung
1 X
Π(γ) < ε ,
|Γ| γ∈Γ
wenn n genügend groß ist und nk ≤ a∗ − δ. Dabei ist Γ die Menge aller
(n, k)–Codes. Wir bemerken |Γ| = 2n (2n − 1) · . . . · (2n − 2k + 1). Wenn man
aus der Menge Γ rein zufällig einen auswählt, dann erhält man mit großer
Wahrscheinlichkeit einen guten Code.
3) Wir schätzen die Wahrscheinlichkeit einer Fehlklassifikation durch einen Erwartungswert ab
Wsγ(z) (δ(X) 6= z) ≤ IEγ(z) (gr (γ(z), X)) .
Hierbei ist r > 0 (wird später gewählt) und
h
i
gr (γ(z), x) = 1 − 1Br (γ(z)) (x) +
X
1Br (γ(z 0 )) (x) .
z 0 6=z
Daß die Abschätzung korrekt ist, ergibt sich so: Wenn für ein x gr (γ(z), x) = 0,
dann bedeutet das, daß x in der r–Kugel um γ(z) und in keiner r–Kugel um
ein anderes Codewort γ(z 0 ) liegt. Die ML–Decodierung liefert also γ(x) = z.
4) Wählen wir r = np +
q
2
ε
np(1 − p), dann haben wir


X
ε
IEγ(z) (gr (γ(z), X)) ≤ + IEγ(z) 
1Br (γ(z 0 )) (X) .
2
0
z 6=z
Der erste Summand ist nach Tschebyschevs Ungleichung größer als die Wahrscheinlichkeit, daß der Kanal das Codewort der Länge n an mehr als r Stellen
verändert. Die Summe ist die erwartete Anzahl der falschen r–Kugeln, die das
empfangene n–Tupel X enthalten. Wir haben also
Π(γ) ≤
1 X
ε
IEγ(z) 1Br (γ(z 0 )) (X) .
+ k
2 2 z 0 6=z
Hier haben wir es mit einer Doppelsumme mit 2 k (2k − 1) Summanden zu tun.
1 X
1 2k (2k − 1) X
ε
Π(γ) ≤ + k n n
IEy 1Br (y0 ) (X) .
|Γ| γ
2 2 2 (2 − 1) y0 6=y
Hier wird über alle Paare verschiedener n–Tupel (y, y 0 ) summiert. Die relative
k k −1)
Häufigkeit der Codes γ, wo y und y 0 Codewörter sind, ist nämlich 22n (2
(2n −1) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
120
5) Für jedes x ist
X
y0
1Br (y0 ) (x) = |Br |
die Anzahl der Punkte in der Hamming–Kugel vom Radius r. Außerdem gilt
für jedes der 2n verschiedenen x
X
Wsy (X = x) = 1 .
y
Die Doppelsumme über alle Paare
erhalten
(y, y 0 ) ist also leicht auszuwerten; wir
ε
1
1 X
Π(γ) ≤ + 2k n |Br | .
|Γ| γ
2
2
Damit dies
als ε wird, müssen wir nur k = k(n) so wählen, daß
kleiner
1
−k − lg2 2n |Br | > lg2 2ε .
Nach der in der vorbereitenden
Bemerkung diskutierten Abschätzung ist für
q
2
großes n und r = np + ε np(1 − p)
−k − lg2
1
|Br | ≈ −k + na∗ = −k + n[1 + p lg 2 p + (1 − p) lg 2 (1 − p)] .
2n
Damit ist Shannons Satz bewiesen.
Eine sehr gut lesbare Darstellung der Informationstheorie liefert
F. Topsøe: Informationstheorie, Teubner, 1973.
Zu empfehlen ist auch:
R.J. Elliece: The Theory of Information and Coding, Addison–Wesley, 1977.
c Prof. Dr. H. Dinges,
18. Dezember 1998
5. Irrfahrten auf Graphen, diskrete
Potentialtheorie
5.1
Beispiele für Irrfahrten auf Graphen
Gegeben sei ein kantenbeschrifteter gewichteter Graph mit der Knotenmenge E.
Der Graph darf sehr wohl Schleifen haben, also Kanten, die von x nach x führen.
Multiple Kanten lassen wir aber nicht zu; von x nach y gibt es höchstens eine
Kante. P (x, y) sei die Zahl, mit der die Kante von x nach y beschriftet ist. Wir
fordern
P (x, y) ≥ 0 für alle x, y ,
X
P (x, y) = 1 für alle x .
y
Wir benützen den kantenbeschrifteten Graphen zur Modellierung eines Systems, welches sich in den Zuständen x ∈ E befinden kann und sich im Zeittakt 0,1,2,. . .
zufällig weiterentwickelt. Wenn es sich im Zustand x befindet, dann wird es mit der
Wahrscheinlichkeit P (x, y) in den Zustand y überführt.
Sei X0 der zufällige Zustand zur Zeit 0. X1 , X2 , . . . bezeichne den zufälligen Zustand
zu den folgenden Zeitpunkten. Die Verteilung zur Zeit 0, die Anfangsverteilung sei
durch die Gewichtung π0 (·) beschrieben. Wir haben dann für alle n und alle
Wörter x0 , x1 , . . . , xn
Ws(X0 = x0 , X1 = x1 , . . . , Xn = xn )
= π0 (x0 ) · P (x0 , x1 ) · P (x1 , x2 ) · . . . · P (xn−1 , xn ) .
Wir beziehen uns immer wieder auf die folgende Vorstellungsweise:
In jedem Knoten x steht ein Zufallsmechanismus bereit, der entscheidet, wohin eine
Spielmarke, die aus x angekommen ist, zu schieben ist. Die Spielmarke wird zur
Zeit 0 gemäß π0 (·) in einen Knoten x gebracht. Mit Wahrscheinlichkeit P (x, y)
wird sie entlang der Kante (x, y) weitergeschoben. Die Zufallsmechanismen werden
immer wieder unabhängig betätigt. Die Spielmarke nimmt einen zufälligen Weg.
Dieser beginnt, bis zur Zeit n betrachtet, entsprechend dem Wort x 0 , . . . , xn mit
der angegebenen Wahrscheinlichkeit.
e heißt eine Falle, oder auch ein absorbierender Zustand, wenn
Ein Knoten x
e, x
e) = 1. Wenn die Spielmarke in der Falle x
e angekommen ist, dann bleibt
P (x
sie dort. Die Menge der Fallen heißt der Rand von E. Der Rand wird mit ∂E
bezeichnet. Die zufällige Zeit ζ, zu welcher die Spielmarke den Rand erreicht, hat
121
122
Werte in {0, 1, . . . , +∞}. ζ ist nicht notwendig endlich mit Wahrscheinlichkeit 1.
Wenn Ws(ζ < ∞) = 1, dann ist Xζ eine wohldefinierte Zufallsgröße mit Werten
e ∈ ∂E
in ∂E. In jedem Falle gilt für jeden absorbierenden Zustand x
e) = lim ↑ Ws(Xn = x
e) .
Ws(Xζ = x
n→∞
Wir studieren nun in einigen Beispielen die Wahrscheinlichkeit, einen bestimmten
Randpunkt zu erreichen.
Beispiele :
1) (Das zweite Problem des Chevalier de Méré, um 1654)
Zwei Spieler A und B tragen ein faires Glücksspiel aus. Ein Schiedsrichter
wirft wiederholt eine faire Münze; A bekommt einen Punkt gutgeschrieben,
wenn Zahl“ erscheint, B erhält einen Punkt auf sein Konto, wenn Wappen“
”
”
erscheint. Das Spiel endet, wenn einer der Spieler n Punkte erreicht hat; dieser
ist dann der Gewinner. Welche Aussicht auf Gewinn hat A beim Stande (k, `),
wo also A k und B ` Punkte auf dem Konto hat?
Wir repräsentieren die Aufgabenstellung Problem der gerechten Teilung des
”
Einsatzes“ durch einen kantenbeschrifteten Graphen; von jedem Knoten gehen
zwei Kanten aus. Beide sind mit 12 beschriftet. Eine Kante nach rechts entspricht einem Punktgewinn von A, eine Kante nach oben einem Punktgewinn
von B. Die Knoten entsprechen den Spielständen (k, `); der auf (k, `) folgende Spielstand ist (k+1, `) oder (k, `+1) mit Wahrscheinlichkeit 12 . Wenn das
Spiel beendet ist, interessiert der Spielstand nicht mehr; wir haben deshalb die
Spielstände, bei denen Gewinn von A bzw. Gewinn von B eintritt in einen
einzigen Knoten zusammengefaßt. Wir notieren die Gewinnwahrscheinlichkeit
von A vom Knoten (k, `) aus. Ohne Rechnen ergeben sich die Werte auf der
Diagonale und am oberen Rand.
0j
B gewinnt
...............
...... .
......
.....
.
.
.
.
.
......
......
◦
6
(0,1) ◦
6
(0,0) ◦
.....
........
....
...
...
-◦
6
..........
.........
......
......
......
......
......
.
- ◦..
...
...
...
...
...
...
...
...
............
..
.................................
.
...........
...
..
.
.
..
...
...
...
...
.
.
..
6
- ◦ (1,1) - ◦
6
6
-◦
(1,0)
A gewinnt
-◦
(2,0)
c Prof. Dr. H. Dinges,
.........
..............
.........
.
.....
..... .
.....
.....
....
.
......
.
.
.
.
.
.
.
......
.......
....
.
.
.
.
......
...
.
.
.
.
.
.....
.
..
.....
.
.
.
.
.
.
.
.
1/8 ................................. .. 1/4 ......................................... 1/2
...
.
.
..... ...
....
.....
........ .....
........
........
...
..
..
....
...
.
.
...
..
..
...
.
.
...
....
...
....
....
..
..
...........
...
.
.
.
.
.
.
.......................................... 1/2 .......................................... 3/4 .......................
.
.
..
...
.............
..........
.........
........
... .
...
...
...
...
.
.
...
...
...
.
...
...
...
...
...
...
...
...
..
.. .....
..
..
..
.
.......................................... 7/8
1/2 ..........................................
j
j
j
j
j
j
j
j
j
18. Dezember 1998
1j
5.1
123
Beispiele für Irrfahrten auf Graphen
Die Mittelwertregel ergibt für die Gewinnwahrscheinlichkeit
im Zustand (1,0) den Wert
11
16
,
im Zustand (0,1) den Wert
5
16
.
2) (Ein Problem von Ch. Huygens (1629–1695))
Zwei Spieler A und B treten mit einem Paar fairer Würfel gegeneinander an.
Es wird abwechselnd geworfen. B gewinnt, wenn er die Augensumme 7 wirft,
A gewinnt, wenn er die Augensumme 6 wirft. Wer hat die bessere Chance,
wenn A beginnt?
Wir modellieren das Problem durch einen Graphen mit vier Knoten.
..................................................................................................... j
a .j
5
.. ..
........... ....
...
36
A
...
...
...
...
.
...
...
..
...
...
....
..
..
...
..
..
.
5 ..
... 31
..
.
... 36
6 ..
....
...
...
..
...
..
...
...
...
..
...
..
.
.
... . ..
... .........
1
.. ...
6
.....................................................................................................
b j
a:
Spieler A ist am Zug
b:
Spieler B ist am Zug
A:
Spieler A hat gewonnen
B:
Spieler B hat gewonnen
B
j
Die Wahrscheinlichkeit mit einem Paar fairer Würfel die Augensumme 7
6
5
(bzw. 6) zu erreichen ist 36
(bzw. 36
). Aus der Mittelwertsregel erhalten wir
die Wahrscheinlichkeit x, daß A von a ausgehend das Spiel gewinnt und
die Wahrscheinlichkeit y, daß er von b ausgehend das Spiel gewinnt;
..................................................................................................... j
xj
1
5
... ..
........... ....
...
36
...
...
..
.
.
...
...
...
...
...
...
...
...
....
..
.
.
5 ...
31
...
6 ....
... 36
..
....
...
.
.
...
...
...
...
...
...
...
..
...
.
... .............
1
.. ...
6
.....................................................................................................
yj
x=
5
36
y=
1
6
x=
5
36
31
36
·1+
·0+
+
31
36
5
6
·y
·x
·
5
6
·x
(36 · 6 − 31 · 5)x = 5 · 6
0j
c Prof. Dr. H. Dinges,
x=
30
61
∼ 0.492 .
18. Dezember 1998
124
3) Ein Problem von A. Engel
Abel sagt zu Kain: Wir wollen eine Münze werden bis eines der Wörter 111
oder 101 erscheint; wenn zuerst 111 kommt, gewinnst Du, sonst gewinne ich.
Du siehst wohl ein, daß das Spiel fair ist, denn beide Wörter erscheinen mit
Wahrscheinlichkeit 81 . Welchen Vorteil hat sich Abel verschafft?
Wir modellieren das Spiel durch einen Graphen, dessen Ecken den Stadien
auf dem Weg zum Gewinn entsprechen.
Start
......
......
......
......
......
......
......
......
......
......
......
......
......
...... .
...............
.5
1
.....
....
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
...
.
...
...
...
...
...
..
...
...
...
.
...
.
...
.....
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
... ............
.
.
.
.
......... ......
.
...
...
.
..
.......
.............
........
......
......
.
.
.
.
.
.
......
......
......
......
......
.
.
.
.
.
.....
......
......
......
.5
.5
..............................................................................
.5
..
...
.5
111
.5
0
11
.5
...............................................................................
...............................................................................
........
.......
...
....
..
...
.
.
..
.
.
.
...
....
...
...
...
...
...
..
.
...
.
.
.
....
....
.....
.....
.......
.............................
10
...............................................................................
.5
.5
101
.5
Gesucht sind die Gewinnwahrscheinlichkeiten von Kain.
Die Kantenbeschriftung ist der Übersichtlichkeit halber weggelassen.
?
.....
...
...
...
...
...
....
..
...
....
..
...
...
...
...
...
...
...
...
...
.
...
..
...
...
...
..
...
..
...
.
.
...
...
...
...
...
...
...
...
..
...
.
.
...
...
....
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
...
... .............
.
............. ...
.
a
?
...
...
...
..
......
.........
........
......
......
.
.
.
.
.
.
......
......
......
......
......
.
.
.
.
.
..
......
......
......
......
?
......
......
......
......
.
......
......
......
......
......
......
......
......
......
...... ..
..............
...............................................................................
..
...
................................................................................
.........
.......
...
...
...
.
...
..
...
.
..
....
..
...
...
...
...
..
.
...
.
.
.
...
....
...
......
....
.........
.....
......................
?
1
...............................................................................
c Prof. Dr. H. Dinges,
..............................................................................
0
18. Dezember 1998
5.1
125
Beispiele für Irrfahrten auf Graphen
b
............................................................................... a
.....
....
..
...
...
....
..
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
...
...
...
...
...
...
...
..
...
.
...
...
...
..
...
...
...
...
..
.
.
...
...
....
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
...
... ............
.
.
.
.
......... .....
.
a
a
2
.
.. .....
..
........
........
........
...... .
......
......
.
.
.
.
.
.
......
......
......
......
......
.
.
.
.
.
....
......
......
......
?
......
......
......
.....
.
......
......
......
......
......
......
......
......
......
...... .
...............
+
.
...
4
................................................................................
........
........
..
...
...
...
..
.
...
....
..
....
..
...
..
..
...
..
...
.
.
.
...
.
.
.
....
...
.....
.......
......
............................
1 ...........................................................................
...
2
..............................................................................
1
0
Die Mittelwertsregel auf den Zustand 0 angewandt liefert
a=
1
1
a+ b ,
2
2
a=b.
Wenn schon eine 1 da war, gewinnt Kain mit Wahrscheinlichkeit
a=b=
1
2
a a 1
+ +
2 4 2
=
1
3
·a+ ,
8
4
a=
8 1
2
· = = 0.4 .
5 4
5
Vom Start aus hat also Kain die Gewinnwahrscheinlichkeit
a=
1
1
a + b = 0.4 .
2
2
Abel gewinnt mit Wahrscheinlichkeit 0.6.
c Prof. Dr. H. Dinges,
18. Dezember 1998
126
5.2
Dirichlet–Problem und Poisson–Problem
Das diskete Dirichlet–Problem
In den Beispielen war ursprünglich nur nach einer einzigen Zahl gefragt, der Wahrscheinlichkeit, von einem gegebenen Anfangspunkt x 0 aus irgendwann einmal eine
e zu erreichen. Es hat sich aber als günstig erwiesen, bei vorgevorgegebene Falle x
e
e zu erreichen, als Funktion von x 0 zu
benem x ∈ ∂E die Wahrscheinlichkeit, x
studieren.
e
Wir verallgemeinern ein wenig: Es sei eine Funktion f(·)
auf dem Rand ∂E
e
e) wird als die Auszahlung interpretiert, die der Spieler kassieren
vorgegeben; f(x
e erreicht. Wir fragen nach der erwarteten Auszahlung für einen im
kann, wenn er x
Zustand x startenden Spieler
f (x) = Ex (fe(Xζ )) .
Es gilt offenbar
f (x) =
X
P (x, y)f (y)
y
ex
e) = f(
e)
f (x
für alle x ∈ E\∂E
e ∈ ∂E .
für alle x
In den Beispielen ist es gelungen, dieses lineare Gleichungssystem zu lösen. Wir hatten
e
es da zwar nur mit solchen f(·)
zu tun, welche in einem Randpunkt den Wert 1
e
und in den übrigen Randpunkten den Wert 0 hat. Die Lösung für allgemeine f(·)
ergibt sich aber leicht durch eine Linearkombination dieser speziellen Lösungen. Wir
wollen nun das allgemeine Prinzip herausarbeiten, nach welchem die lineare Algebra
zur Lösung der wahrscheinlichkeitstheoretischen Probleme beiträgt.
Definition : E sei eine abzählbare Menge. Eine E × E–Matrix P (·, ·) heißt eine
stochastische Matrix, wenn alle Einträge nichtnegativ sind und alle Zeilensummen
= 1 sind
P (x, y) ≥ 0
für alle x, y ;
X
P (x, y) = 1
für alle x .
y
Wir ordnen der stochastischen Matrix P (·, ·) einen kantenbeschrifteten gerichteten Graphen zu, indem wir die x, y mit P (x, y) > 0 mit einer von x nach y
gerichteten Kante verbinden und diese Kante mit P (x, y) beschriften. Die Zahlen
an den von x ausgehenden Kanten summieren sich zu 1 für jedes x .
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.2
127
Dirichlet–Problem und Poisson–Problem
Problem : ( Dirichlet–Problem“)
”
e mit
Es sei P (·, ·) eine stochastische E × E–Matrix. ∂E sei die Menge aller x
e
e, x
e) = 1. Es sei eine Funktion f(·) auf ∂E gegeben. Finde alle Lösungen f (·)
P (x
des linearen Gleichungssystems
f (x) =
X
P (x, y)f (y)
y
ex
e) = f(
e)
f (x
für alle x ∈ E
e ∈ ∂E .
für alle x
Satz : Sei P (·, ·) eine stochastische E × E–Matrix und fe(·) eine beschränkte Funktion auf ∂E. Es existiert dann mindestens eine beschränkte Lösung des
Dirichlet–Problems.
Beweis :
1) Wenn ∂E leer ist, dann sind die Konstanten Lösungen. Wir werden später
Situationen kennenlernen, wo die Konstanten die einzigen Lösungen sind.
2) Für jedes x ∈ E betrachten wir die in x startende Irrfahrt. Wenn die Irrfahrt
den Rand jemals erreicht, dann nennen wir diesen Punkt X ζ . Wir setzen
f (x) = Ex (fe(Xζ ); {ζ < ∞}) =
=
lim
n→∞
X
e
x∈∂E
X
e
x∈∂E
ex
e) · Wsx (Xζ = x
e)
f(
ex
e) · Ws(Xn = x
e) .
f(
f (·) ist eine beschränkte Lösung des Dirichlet–Problems. Wir werden unten
Situationen kennenlernen, wo dieses f (·) die einzige Lösung des Dirichlet–
e
Problems mit den Randwerten f(·)
ist.
Notation :
a) Eine Funktion auf E notieren wir als Spaltenvektor. f 7−→ P f bildet in linearer Weise den Kegel der nichtnegativen Funktionen in sich ab. Die konstanten
Funktionen werden dabei in sich abgebildet.
b) Einen Zeilenvektor π bezeichnen wir als eine Gewichtung über E. Wenn
P
|π(x)| < ∞ sprechen wir von einer endlichen Gewichtung. π 7−→ πP bildet
in linearer Weise den Vektorraum der endlichen Gewichtungen in sich ab. Dabei
werden Wahrscheinlichkeitsgewichtungen in Wahrscheinlichkeitsgewichtungen
abgebildet.
c) hπ, f i bezeichnet das Matrizenprodukt, wenn
c Prof. Dr. H. Dinges,
P
π(x)f (x) wohldefiniert ist.
x∈E
18. Dezember 1998
128
Definition :
a) Eine Funktion h(·) heißt harmonisch, wenn sie endlichwertig ist und
h(x) =
X
P (x, y)h(y)
für alle x .
b) Eine Funktion f (·) heißt exzessiv, wenn
0 ≤ f (x) ≤ +∞
Lemma :
für alle x
und f ≥ P f .
Das punktweise Infimum exzessiver Funktionen ist exzessiv.
Beweis : Seien f und g exzessiv und h = f ∧ g das punktweise Minimum. Es
gilt h ≥ 0 und für alle x
X
f (x) ≥
y
P (x, y)f (y) ≥
g(x) ≥
Also h(x) ≥
≥
P
y
X
P (x, y)h(y)
y
X
P (x, y)h(y)
y
P (x, y)h(y). Ebenso sieht man, daß das punktweise Infimum einer
beliebigen Schar exzessiver Funktionen exzessiv ist.
Korollar : Zu jeder Funktion f (·) auf E (der Wert +∞ ist zugelassen) existiert
b
b
eine kleinste exzessive Majorante f(·).
f(·)
ist nämlich einfach das punktweise
Infimum aller exzessiven Funktionen über f (·). (Es kann wohl passieren, daß fb
identisch = +∞ ist.)
Lemma : ( Minimumprinzip“)
”
Es sei P (·, ·) eine stochastische E × E–Matrix (E endlich) mit der Eigenschaft,
daß es zu jedem x ∈ E einen Weg in einen Randpunkt gibt. Jede exzessive Funktion
f (·) und jede harmonische Funktion h(·) nimmt dann ihr Minimum am Rand an.
Beweis : Die Endlichkeit von E garantiert, daß f (·) bzw. h(·) den Minimalwert
m annimmt. Sei x∗ ein Minimalpunkt
m = f (x∗ ) ≥
X
y
P (x∗ , y)f (y) ≥
X
P (x∗ , y)m = m .
y
Alle y mit P (x∗ , y) > 0 sind also Minimalpunkte. Jeder Weg von x ∗ in einen
e ∈ ∂E enthält nur Minimalpunkte; insbesondere ist x
e selbst ein
Randpunkt x
Minimalpunkt.
Derselbe Schluß funktioniert auch für das harmonische h(·).
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.2
129
Dirichlet–Problem und Poisson–Problem
Satz : Es sei E endlich und P (·, ·) so, daß es von jedem x aus einen Weg
zu mindestens einem Randpunkt gibt. Das Dirichlet–Problem besitzt dann zu jeder
e
Randfunktion f(·)
genau eine Lösung.
Beweis : Die Existenz ist schon bewiesen. Seien f (·) und g(·) Lösungen des
e
Dirichlet–Problems für die Randfunktion f(·).
Die Differenz f (·) − g(·) ist eine
harmonische Funktion, die am Rande verschwindet. Der Minimalwert von f (·) − g(·)
ist also 0. Auch der Minimalwert von g(·) − f (·) ist 0. Also gilt f = g.
Das diskrete Poisson–Problem
Neben das Dirichlet–Problem stellen wir nun das sog. Poisson–Problem. Beim
Dirichlet–Problem ist ein homogenes lineares Gleichungssystem zu lösen, beim
Poisson–Problem dagegen ein inhomogenes Gleichungssystem. Wir nähern uns dem
Problem mit den Vorstellungsweisen der Irrfahrten auf Graphen.
Eine Spielmarke wird durch die nach P (·, ·) verteilten Zufallsmechanismen durch
den Graphen geschickt. Wenn sie von x aus weiter will, ist der Betrag ρ(x) zu
e ∈ ∂E sei ρ(x
e) = 0; d.h. am Rand entstehen keine Kosten.
bezahlen. Für alle x
Was sind nun die erwarteten Kosten für eine im Punkt x startende Spielmarke?
Offenbar gilt für die erwarteten Kosten
m(x) = ρ(x) +
X
y
e) = 0
m(x
P (x, y) · m(y)
für alle x ∈ E\∂E
e ∈ ∂E .
für alle x
Die Frage nach den Lösungen dieses inhomogenen linearen Gleichungssystems heißt
das Poisson–Problem zu ρ(·).
Satz : Es sei E endlich und die stochastische Matrix P (·, ·) so, daß es von
jedem x aus einen Weg zu einem Randpunkt gibt. Zu jedem ρ(·), welches am
Rande verschwindet, gibt es dann genau eine Lösung m(·) des inhomogenen linearen
Gleichungssystems
m(x) = ρ(x) +
X
P (x, y)m(y)
y
e) = 0
m(x
Beweis :
für alle x ∈ E
e ∈ ∂E .
für alle x
1. Eindeutigkeit : Sind m(·) und n(·) Lösungen des Poisson–Problems zu ρ(·),
dann ist m(·) − n(·) eine am Rand verschwindende harmonische Funktion,
also identisch = 0.
c Prof. Dr. H. Dinges,
18. Dezember 1998
130
2. Existenz : Sei ρ(·) ≥ 0 . Dem Irrfahrer, der den zufälligen Weg X0 , X1 , X2 , . . .
nimmt, entstehen die zufälligen Kosten
ρ(X0 ) + ρ(X1 ) + ρ(X2 ) + . . . ≥ 0 .
Wenn er gemäß π0 (·) startet, Ws(X0 = x) = π0 (x), dann sind die erwarteten
Kosten
Eπ0 (ρ(X0 ) + ρ(X1 ) + . . .) = hπ0 , ρi + hπ1 , ρi + . . . ,
wobei πn = Lπ0 (Xn ).
Man schreibt auch πn ρ entsprechend den Konventionen des Matrizenkalküls.
Offenbar gilt π1 = π0 P, π2 = π1 P = π0 P 2 , . . .. Die erwarteten Kosten sind
also
π0 (I + P + P 2 + . . .)ρ .
Wenn die Anfangsverteilung auf den Punkt x konzentriert ist, dann sind die
erwarteten Kosten der x–te Eintrag in der Spalte
m = (I + P + P 2 + . . .)ρ = ρ + P (I + P + . . .)ρ .
Es gilt
m(x) = ρ(x) +
X
P (x, y)m(y) .
y
Wir haben also eine Lösung des Poisson–Problems gefunden, wenn wir nachweisen können, daß m(x) < ∞ für alle x. Betrachten wir das spezielle ρ(·),
welches auf E\∂E identisch gleich 1 ist; in jedem inneren Punkt kostet das
Weiterkommen den Betrag 1. In diesem Falle haben wir
ρ(X0 ) + ρ(X1 ) + . . . = ζ = Zeit bis zum Erreichen des Randes .
Wenn wir Ex ζ < ∞ für alle x bewiesen haben, dann sind wir für alle ρ(·)
fertig; denn ρ(·) ist auf der endlichen Menge E beschränkt.
Warum hat nun die Zeit bis zum Erreichen des Randes einen endlichen Erwartungswert, ganz gleich wo wir starten?
Die Wahrscheinlichkeit, von x startend, wieder einmal nach x zurückzukommen, ist ≤ 1 − δ < 1 für alle x ∈ E\∂E. Die Wahrscheinlichkeit von
x startend, mindestens k–mal nach x zurückzukommen, ist ≤ (1 − δ)k .
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.2
131
Dirichlet–Problem und Poisson–Problem
Nx , die Anzahl der Besuche in x hat also endlichen Erwartungswert für jede
beliebige Anfangsverteilung π0
∞ > Eπ0 (Nx ) = Eπ0 1{X0 =x} + 1{X1 =x} + . . .
= π0 (I + P + P 2 + . . .) · 1{x} .
Summieren wir über alle x ∈ E\∂E, dann erhalten wir für ζ =
P
Nx
x∈E\∂E
∞ > Eπ0 ζ = π0 (I + P + P 2 + . . .) · 1{E\∂E} .
Eine wunderschöne Behandlung der Potentialtheorie aus dem Blickwinkel der Stochastik, die mit sehr geringen Vorkenntnissen studiert werden kann, liefert das B üchlein:
Dynkin, Juschkewitsch : Sätze und Aufgaben über Markovsche Prozesse
Springer 1969, Heidelberger Taschenbücher, Band 51.
c Prof. Dr. H. Dinges,
18. Dezember 1998
132
5.3
Exzessive Funktionen, Optimales Stoppen
Definition :
Sei 0 ≤ ρ(x) ≤ ∞ für alle x ∈ E. Dann heißt die Funktion
f := ρ + P ρ + P 2 ρ + . . . = (I + P + P 2 + . . .)ρ = Gρ
das Potential von ρ.
Satz :
Für jedes nichtnegative ρ ist das Potential Gρ eine exzessive Funktion.
Beweis : f := Gρ ist eine nichtnegative Funktion, die den Wert +∞ annehmen
kann. Wir müssen für jedes x zeigen f (x) ≥ P f (x). Wenn f (x) = +∞, ist nichts
zu zeigen. Wenn f (x) < ∞ dann haben wir
f (x) − P f (x) = ρ(x) ≥ 0 .
Für solche x haben wir P n f (x) ↓ 0; denn
P n f (x) = P n ρ(x) + P m+1 ρ(x) + . . . < ∞ .
Satz : (Riesz–Zerlegung)
Sei f eine exzessive Funktion mit
lim ↓ P n f (x) < ∞
für alle x .
Dann existiert eine nichtnegative harmonische Funktion h und eine nichtnegative
Funktion ρ, so daß
f = Gρ + h .
Beweis :
Betrachte fn := P n f .
f = f 0 ≥ f1 ≥ . . . .
Der absteigende Limes ist eine endlichwertige Funktion h und es gilt (nach dem
Lemma von Fatou)
P h = P (lim ↓ fn ) ≤ lim ↓ P fn = lim ↓ fn = h .
Es gilt sogar P h(x) = h(x) für alle x; denn für ein x mit P n f (x) < ∞ sind
die Funktionen fn+1 , fn+2 , . . . P (x, ·)–integrabel. Also gilt nach dem Satz von der
majorisierten Konvergenz
P (lim ↓ fm )(x) = lim ↓ (P fn )(x) = h(x) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.3
133
Exzessive Funktionen, Optimales Stoppen
Setze ρ(x) = +∞, wenn f (x) = +∞ und sonst
ρ(x) = f (x) − P f (x) .
Auf {x : ρ(x) < ∞} gilt
ρ + P ρ + . . . + P n ρ = (f − P f ) + P (f − P f ) + . . . + P n (f − P f )
= f − P n+1 f
Gρ = lim ↑ (f − P n+1 f ) = f − h .
Satz : (die kleinste exzessive Majorante)
Die kleinste exzessive Majorante einer beliebigen nichtnegativen Funktion f ergibt
sich als der aufsteigende Limes der Folge
f0 = f ,
Beweis :
f 1 = f0 ∨ P f 0 , . . . ,
fn+1 = f0 ∨ P fn , . . .
Daß die Folge aufsteigend ist, ergibt sich durch vollständige Induktion
fn−1 ≤ fn =⇒ P fn−1 ≤ P fn ;
fn = f0 ∨ P fn−1 ≤ f0 ∨ P fn = fn+1
Für den Grenzwert fb := lim ↑ fn gilt nach dem Satz von der monotonen Konvergenz6
P fb = lim ↑ P fn ≤ lim ↑ fn+1 = fb .
Wenn g irgendeine exzessive Majorante von f ist, dann gilt P f ≤ P g ≤ g, also
f1 ≤ g. Durch vollständige Induktion ergibt sich fn ≤ g für alle n und daher
fb ≤ g.
Stochastische Interpretation (Optimales Stoppen)
Wir geben dem Spieler, der sich im Zustand x befindet, die Wahl, entweder den
Betrag f (x) zu kassieren oder sich vom Zufall gemäß P (x, ·) in einen nächsten
Zustand versetzen zu lassen. Wie wird er seine Stopp–Strategie einrichten, um den
erwarteten Gewinn zu maximieren?
Vermindern wir zunächst einmal seine Chance, indem wir die Anzahl der Schritte auf
höchstens n limitieren. Für n = 1 wird der in x startende Spieler überlegen: Wenn
P
ich mich dem Zufall anvertraue und einen Schritt riskiere, dann ist
P (x, y)f (y)
y
der erwartete Gewinn; nur wenn dies echt größer als f (x) ist, lasse ich mich darauf
ein. Der erwartete Gewinn ist f1 = f0 ∨ P f0 im Fall n = 1.
Bezeichne fn (y) den erwarteten Gewinn, den der in y startende Spieler bei kluger
Stoppstrategie erreichen kann, wenn ihm noch höchstens n weitere Schritte gestattet
c Prof. Dr. H. Dinges,
18. Dezember 1998
134
sind. Wenn ihm sogar n + 1 weitere Schritte gestattet sind, wird er von x startend
entweder f (x) kassieren oder aber einen Schritt wagen, wenn
f (x) <
X
P (x, y)fn (y) .
y
Bei kluger Strategie gewinnt er so im Mittel
fn+1 = f ∨ P fn = fn ∨ P fn .
Die Stoppstrategien τn liefern ihm also bei Start in x die erwarteten Gewinne
fn (x) = Ex f (Xτn ) ≤ fn+1 (x) = Ex f (Xτn+1 ) ≤ . . .
Es ist nicht gesagt, daß die Folge τn ≤ τn+1 ≤ . . . mit Wahrscheinlichkeit 1 gegen
einen endlichen Wert τ∞ = lim ↑ τn konvergieren; der Spieler kann im allg. nicht
b
ganz den erwarteten Gewinn f(x)
realisieren, aber er kann diesem Supremum durch
eine geeignete Stoppstrategie doch beliebig nahekommen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.4
135
Rekurrente Irrfahrten
5.4
Rekurrente Irrfahrten
E sei abzählbar, P (·, ·) sei eine stochastische E × E–Matrix. Eine Gewichtung
π heißt invariant, wenn πP = π. Gibt es außer der trivialen Nullgewichtung noch
weitere invariante Gewichtungen? Wir interessieren uns besonders für nichtnegative
invariante Gewichtungen. Mit π(·) ist natürlich auch cπ(·) nichtnegativ invariant
für jedes c ≥ 0. Gibt es mehrere nichtnegative Gewichtungen, die sich nicht einfach
durch einen Faktor unterscheiden? Wir studieren einen Fall, in welchem diese Frage
eine einfache Antwort hat.
Sprechweise :
P (·, ·) sei eine stochastische E × E–Matrix (E abzählbar).
a) Ein Zustand x∗ ∈ E heißt rekurrent, wenn
∞
X
P n (x∗ , x∗ ) = +∞ .
n=0
b) Man sagt, daß y von x aus in n Schritten erreichbar ist, wenn es
x1 , . . . , xn−1 gibt mit
P (x, x1 ) · P (x1 , x2 ) · . . . · P (xn−1 , y) > 0 ,
m.a.W., wenn P n (x, y) > 0 .
c) Wenn es ein n ≥ 1 gibt, so daß y von x in n Schritten erreichbar ist, dann
sagt man, daß y von x aus erreichbar ist.
Bemerke : Wenn E ∗ die Menge aller vom rekurrenten Zustand x ∗ aus erreichbaren Punkte ist, dann ist die Einschränkung von P (·, ·) auf E ∗ × E ∗ eine
stochastische Matrix. Wir nehmen nun an, daß alle y ∈ E von x ∗ aus erreichbar
sind. Es gilt dann offenbar
X
P n (y, y) = +∞
n
für alle y ∈ E
und auch
X
n
P n (x, y) = +∞
für alle x, y ∈ E .
In diesem Falle heißt P (·, ·) eine irreduzible rekurrente stochastische Matrix.
a) Eindeutigkeit der invarianten Gewichtung
Satz : Zu einer stochastischen Matrix P (·, ·), die rekurrent und irreduzibel ist,
gibt es außer den Konstanten keine exzessiven Funktionen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
136
Beweis : Sei f (·) eine nichtnegative Funktion. Interpretieren wir f (x) als die
Belohnung, die ein Irrfahrer in x kassieren kann, wenn er es nicht lieber vorzieht
sich weiter der Irrfahrt anzuvertrauen. Der Irrfahrer erreicht von jedem Anfangspunkt
jeden Punkt y mit Sicherheit; denn er hat eine positive Chance von x ∗ aus und
diese Chance erneuert sich bei jedem Besuch in x ∗ . Wähle y so, daß f (y) >
supx f (x) − ε. Wenn sich der Irrfahrer beim ersten Besuch in y auszahlen läßt, hat
er den erwarteten Gewinn ≥ supx f (x) − ε. Die kleinste exzessive Majorante ist also
die Konstante supx f (x), eventuell = +∞.
Satz :
Es sei P (·, ·) rekurrent und irreduzibel und α(·) so, daß
α(x) > 0
für alle x ,
X
α(x)P (x, y) = α(y)
für alle y .
X
β(x)P (x, y) = β(y)
für alle y .
x
Andererseits sei β(·) so, daß
β(x) ≥ 0
für alle x ,
x
Es existiert dann eine Konstante C ≥ 0 so, daß
β(x) = C · α(x)
für alle x .
Betrachte die E × E–Matrix
Beweis :
Q(x, y) = α(y) · P (y, x) ·
1
.
α(x)
1) Es handelt sich um eine rekurrente irreduzible stochastisches Matrix; dann
X
1 X
α(y)P (y, x) = 1 für alle x
Q(x, y) =
α(x) y
y
Q2 (x, z) =
X
Q(x, y)Q(y, z)
y
=
1 X
1
P (y, x)P (z, y)α(z) = α(z)P 2 (z, x)
α(x) y
α(x)
Qn (x, z) = α(z) · P n (z, x) ·
1
α(x)
2) Betrachte die Funktion g(·) : g(y) =
X
Q(x, y)g(y) =
y
X
y
=
für alle n .
β(y)
≥ 0. Es gilt
α(y)
α(y)P (y, x) ·
1
β(y)
·
α(x) α(y)
1 X
β(x)
= g(x) .
β(y)P (y, x) ≤
α(x) y
α(x)
Also Qg ≤ g; g ist exzessiv, also konstant nach dem obigen Satz.
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.4
137
Rekurrente Irrfahrten
Die Existenz einer invarianten echt positiven Gewichtung α(·) wird später bewiesen.
Wir geben nun einige Beispiele für den Eindeutigkeitssatz.
Beispiel : (Einfache symmetrische Irrfahrt auf ZZ)
E = ZZ und
P (x, y) =





1
2
1
2
für y = x + 1
0
sonst
für y = x − 1
Wenn α(x) = 1 für alle x, dann
X
α(x)P (x, y) = α(y) für alle y.
x
P (·, ·) ist offensichtlich irreduzibel.
Wir zeigen, daß P (·, ·) rekurrent ist.
P
2n
(0, 0) =
2n
n
2
1
2
·
(2n)!
·
=
n!n!
2n
1
2
1
1
exp 0
= √
πn
n
(nach Stirlings Formel)
X
P 2n (0, 0) = +∞ .
n
Wir werden unten sehen, daß bei einer im Nullpunkt startenden einfachen symmetrischen Irrfahrt die erwartete Anzahl von Besuchen in x vor der Rückkehr nach 0
gleich 1 ist für alle x. (Man würde das auf den ersten Anhieb nicht vermuten.)
Beispiel : (Einfache symmetrische Irrfahrt auf ZZ2 )
Der Zustandsraum ist das Gitter ZZ2 . Jeder Punkt x hat vier nächste Nachbarn
y, die Punkte mit der Hammingdistanz 1
P (x, y) =
1
4
0
für y mit |y − x| = 1
sonst
Die konstante Gewichtung α(x) ≡ 1 ist invariant. P (·, ·) ist offenbar irreduzibel.
Wir zeigen die Rekurrenz
P
X
2n
(0, 0) =
2n
n
2n ·
1
2
·
2n
n
P 2n (0, 0) = +∞ .
2n
·
1
2
1
1
≈
· exp 0
πn
n
n
Bemerke : Die einfache symmetrische Irrfahrt auf dem Gitter ZZ d mit d ≥ 3
ist nicht rekurrent.
c Prof. Dr. H. Dinges,
18. Dezember 1998
138
Beispiel : (Geburts– und Todesprozeß)
Es sei E = {0, 1, 2, . . .}. Wir deuten x ∈ E als den Umfang einer Population. In
jedem Zeittakt kann ein Individuum dazukommen oder eines wegsterben.
Satz :
Es sei
P (x, y) =

0



px

q

 x
1 − p x − qx
falls
falls
falls
falls
|y − x| > 1
y =x+1
y =x−1
y=x
mit px > 0 für alle x, qx > 0 für x ≥ 1, px + qx ≤ 1 für alle x .
q1 · q 2 · . . . · q x
Setze gx =
für x = 1, 2, . . .
p1 · p 2 · . . . · p x
Die Matrix P (·, ·) ist genau dann rekurrent, wenn
∞
X
gx = +∞ .
x=1
Beweis :
Wir untersuchen die exzessiven Funktionen.
1) Für ein f (·) mit f ≥ P f gilt
f (0) ≥ p0 · f (1) + (1 − p0 )f (0) also f (0) ≥ f (1)
Für alle x ≥ 1 gilt
f (x) ≥ px · f (x + 1) + qx · f (x − 1) + (1 − px − qx )f (x)
px · [f (x + 1) − f (x)] ≤ qx [f (x) − f (x − 1)] .
Für die Zuwächse ∆x = f (x + 1) − f (x) gilt also
∆x ≤
qx
qx qx−1
q1
∆x−1 ≤
·
· ... ·
· ∆0 = gx · ∆0
px
px px−1
p1
f (x + 1) − f (0) = ∆x + ∆x−1 + . . . + ∆0
≤ [gx + gx−1 + . . . + g1 + 1] · ∆0 .
2) Wenn 1 + g1 + g2 + . . . < ∞, dann können wir eine nichtkonstante exzessive Funktion fa (·) zu genügend kleinem a > 0 konstruieren: fa (0) = 1,
fa (1) = 1 − a und
fa (x) = 1 − a(1 + g1 + . . . + gx−1 )
c Prof. Dr. H. Dinges,
für x = 2, 3, . . .
18. Dezember 1998
5.4
139
Rekurrente Irrfahrten
3) Im Falle 1 + g1 + g2 + . . . = +∞ beweisen wir die Rekurrenz. Es sei f ∗ (0) = 1
und allgemein f ∗ (x) die Wahrscheinlichkeit, von x ausgehend jemals die 0
zu treffen. f ∗ (·) ist eine beschränkte exzessive Funktion.
Nach den Überlegungen in 1) gilt
f ∗ (x + 1) − f ∗ (0) = [1 + g1 + . . . + gx ] · [f ∗ (1) − f ∗ (0)]
f ∗ (0) − f ∗ (1) = [1 + g1 + . . . + gx ]−1 · [f ∗ (x + 1) − f ∗ (0)] .
Dies impliziert f ∗ (0) − f ∗ (1) = 0 und f ∗ (x) = 1 für alle x, die Wahrscheinlichkeit von x ausgehend nach 0 zu gelangen ist 1; von 0 ausgehend kommt
man mit Sicherheit wieder nach 0 zurück.
b) Konstruktion der invarianten Gewichtung. Exkursionen
Wir betrachten einen Wurzelbaum mit der Blättermenge B und der Menge S
der inneren Knoten. Den von der Wurzel w weg gerichteten Kanten seien Zahlen
e t) = 1 für alle s ∈ S. Wir sprechen von einem
e t) ≥ 0 zugeordnet mit P Q(s,
Q(s,
t
kantenbeschrifteten Wurzelbaum.
Stellen wir uns einen Irrfahrer vor, der vom Knoten s gemäß den Wahrscheinliche ·) in einen der Folgeknoten geschickt wird. Die Zufallsmechanismen,
keiten Q(s,
die in den s ∈ S aufgestellt sind, operieren unabhängig. Sie operieren auch unabhängig, wenn demnächst der Irrfahrer mehrmals durch den Wurzelbaum geschickt
wird, immer wieder in der Wurzel beginnend, sobald ein Blatt erreicht ist.
e ·) assoziieren wir eine Knotenbeschriftung auf S ∪ B,
Zur Kantenbeschriftung Q(·,
nämlich
e
e 1 , s2 ) · . . . · Q(s
e n−1 , s) ,
qe(s) = Q(w,
s1 ) · Q(s
wenn (w, s1 , . . . , sn−1 , s) der Weg von der Wurzel nach s ist, q(w) = 1. qe(s) ist
also die Wahrscheinlichkeit, daß der Irrfahrer beim Durchlaufen des Baums von der
Wurzel aus den Knoten s passiert.
ζ bezeichne die zufällige Zeit bis zum Erreichen eines Blatts. Wir nehmen an, daß
e ·) so ist, daß ζ mit Wahrscheinlichkeit 1 endlich ist.
die Blätterbeschriftung Q(·,
Ew ζ kann endlich oder auch +∞ sein. Offenbar gilt
Eζ =
X
s6=w
qe(s) =
X
b∈B
|b|qe(b)
und andererseits, wegen qe(w) = 1 =
Eζ =
X
s∈S
qe(s) .
P
b∈B
qe(b)
Die Anzahl der Folgeknoten zu den s ∈ S mag übrigens durchaus abzählbar unendlich sein.
c Prof. Dr. H. Dinges,
18. Dezember 1998
140
Bemerkung : Im Falle, daß ζ mit Wahrscheinlichkeit 1 endlich ist, ist X ζ eine
Zufallsgröße mit Werten in der abzählbaren Menge B.
Man kann auch im Falle, wo ζ mit positiver Wahrscheinlichkeit den Wert +∞
annimmt, zeigen, daß es ein Wahrscheinlichkeitsmaß IP w (·) auf der Menge Ω aller
Wege durch den Baum gibt, so daß für alle s der Weg mit der Wahrscheinlichkeit
q(s) durch s läuft.
Betrachten wir als Beispiel den vollständigen binären Wurzelbaum, dessen sämtliche
Kanten mit 12 beschriftet sind. Die Menge Ω aller Wege kann man hier mit der
Menge aller Null–Eins–Folgen (δ1 , δ2 , . . .) identifizieren. Der zufällige Weg entspricht
einer Folge von unabhängigen Münzwürfen. IPw (·) entspricht dem Lebesguemaß auf
[0, 1], wenn man der Null–Eins–Folge (δ 1 , δ2 , . . .) die reelle Zahl
∞
P
i=1
2−i δi zuord-
net. Die abzählbar vielen Zahlen ∈ [0, 1], die in mehrfacher (d.h. zweifacher) Weise
durch eine Null–Eins–Folge repräsentiert sind, müssen wir uns als Wahrscheinlichkeitstheoretiker nicht bekümmern.
Das Beispiel zeigt, daß im Falle IPw (ζ < ∞) < 1 nichtdiskrete Maße auf der
überabzählbaren Ω ins Spiel kommen. Diesen Fall wollen wir hier nicht weiter
verfolgen.
Wir konstruieren nun eine rekurrente Irrfahrt S, indem wir die in einem Blatt
angekommene Irrfahrt sofort wieder in der Wurzel beginnen lassen und die Zufallsmechanismen bei jedem Durchgang immer wieder unabhängig betätigen. Das ergibt
eine Irrfahrt mit der Übergangsmatrix Q(·, ·) auf S. Einmaliges Durchlaufen des
Baums entspricht dann einer Exkursion der Wurzel in die Wurzel.
Satz :
Für die so konstruierte Irrfahrt X0 , X1 , X2 , . . . auf S ist q(·) eine
invariante Gewichtung. Es ist die einzige invariante Gewichtung mit q(w) = 1.
Der Beweis ist trivial.
Satz :
Sei P (·, ·) eine stochastische E × E–Matrix und x ∗ ein rekurrenter
Zustand. Setze π(x∗ ) = 1 und für y 6= x∗ π(y) = Ex∗ (Anzahl der Besuch in y
vor Rückkehr nach x∗ ). Es gilt dann
πP = π .
Beweis :
Sei B die Menge aller Wörter
b = (x∗ , x1 , . . . , xn−1 , x∗ ) mit xi 6= x∗ für alle i ≤ n − 1
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.4
141
Rekurrente Irrfahrten
und S die Menge aller Wörter
s = (x∗ , x1 , . . . , xj ) mit xi 6= x∗ für alle i ≤ j .
S∪B kann als Wurzelbaum mit der Wurzel (x ∗ ) verstanden werden. Wir beschriften
die Kanten mit
∗
e t) = Q((x
e
Q(s,
, x1 , . . . , xj−1 , x), ((x∗ , x1 , . . . , xj−1 , x, y)) = P (x, y) .
Wegen der Rekurrenz von x∗ erhalten wir eine Irrfahrt, die mit Wahrscheinlichkeit
1 in einem Blatt b ∈ B landet. Wir lassen die Irrfahrt nach Erreichen eines Blattes
sofort wieder in der Wurzel starten; m.a. Worten wir identifizieren alle Blätter mit
der Wurzel x∗ . Dies liefert uns eine rekurrente Irrfahrt auf S mit der invarianten
Gewichtung {q(s) : s ∈ S}
X
s∈S
q(s) = Ex∗ (τ{x∗ } ) ,
wobei Ex∗ (·) auf die P (·, ·)–Irrfahrt auf E bezogen ist und
τ{x∗ } = inf{n : n > 0, Xn = x∗ } .
Wir definieren nun für jedes y ∈ E, y 6= x∗
π(y) = IEx∗ (Anzahl der Besuche in y vor Rückkehr nach x∗ )
=
{s:s
π(x∗ ) = 1 .
X
endet in
Es gilt für alle y ∈ E
X
x
π(x) · P (x, y) =
q(s)
x}
X
x {s:s
=
{t:t
X
endet in
X
endet in
y}
q(s) · P (x, y)
q(t) = π(y)
y}
Also ist π(·) eine invariante Gewichtung, πP = π.
Bemerke :
X
x
π(x) =
X
x
q(s) = IEx∗ (τ{x∗ } ) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
142
Sei P (·, ·) die ZZ × ZZ–Matrix zur einfachen symmetrischen Irrfahrt
Beispiel :
P (x, x + 1) =
1
= P (x, x − 1) für alle x .
2
Die konstante Gewichtung π(x) = 1 für alle x ∈ ZZ ist invariant. Die erwartete
Anzahl der Besuche in y von x∗ = 0 aus bis zur ersten Rückkehr nach x∗ = 0 ist
π(y) = 1 für alle y.
Dieses Resultat mag überraschen. Bei oberflächlicher Betrachtung könnte man meinen, daß die erwartete Anzahl der Besuche in y vor der Rückkehr nach x∗ klein
ist, wenn y weit weg von x∗ liegt. Dies ist aber nicht so, wie der Satz zeigt.
c) Der Satz von Perron–Frobenius
Satz : (Perron 1903)
E sei endlich und Q(·, ·) sei eine E × E–Matrix mit nichtnegativen Einträgen so,
daß alle Potenzen Q2 , Q3 , . . . irreduzibel sind. Es gilt dann
a) Es gibt nur einen einzigen Eigenwert mit maximalem Betrag. Dieser Eigenwert
λ ist einfach.
b) Wenn man die Eigenzeile `(·) zu λ so normiert, daß
`Q = λ` ,
X
`(x) = 1 ,
dann gilt `(x) > 0 für alle x .
c) Die Eigenspalte r(·) zu λ normieren wir so, daß
Qr = λr ,
X
`(x)r(x) = 1 ,
dann gilt r(x) > 0 für alle x .
Es gilt
lim
n→∞
1
Qn (x, y) = r(x)`(y) .
λn
Beweis : Zu jeder Zeile ξ mit nichtnegativen Einträgen und
trachte man die Zeile η mit den Einträgen
η(y) = P
P
ξ(x) = 1 be-
X
1
ξ(x)Q(x, y)
x,y ξ(x)Q(x, y) x
Die Abbildung ξ 7−→ η bildet ein kompaktes Simplex in sich ab; nach dem Brouwerschen Fixpunktsatz existieren Fixpunkte. Wir haben also für einen solchen Fixpunkt
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.4
143
Rekurrente Irrfahrten
P
`Q = λ` mit λ > 0,
`(x) = 1. Wähle einen solchen Fixpunkt, für welchen λ maximal ist. Wegen der Irreduzibilität von Q hat er strikt positive Einträge, `(x) > 0;
denn wenn es eine zu ` nicht proportionale Eigenzeile è für den Eigenwert λ gäbe,
wäre für ein geeignetes c auch ` − c è eine Eigenzeile 6= 0 mit nichtnegativen
Einträgen, wobei aber `(x∗ ) − c è(x∗ ) = 0 für mindestens ein x∗ ; das ist unmöglich.
Ebenso gewinnt man die Eigenspalte r(·). Qr = λr,
Betrachte die Matrix
P (x, y) =
P
`(x)r(x) = 1.
1
1
·
Q(x, y) · r(y) .
r(x)
λ
Es handelt sich um eine stochastische Matrix. Für alle n gilt
P n (x, y) =
1
1
· n Qn (x, y) · r(y) .
r(x)
λ
P (·, ·) und alle Potenzen P 2 , P 3 , . . . , sind irreduzibel. Die invariante Gewichtung
e (·) mit
zu P (·, ·) ist π
X
e (x) = r(x) · `(x) ,
π
x
e (x)P (x, y) = π
e (y) .
π
Um c) zu beweisen, genügt es den folgenden Satz zu beweisen.
Satz : Es sei P (·, ·) eine stochastische Matrix, so daß P, P 2 , P 3 , . . . irreduzibel
sind. Es gilt dann
e (y) ,
lim P n (x, y) = π
n→∞
e (·) die einzige invariante Wahrscheinlichkeitsgewichtung zu P (·, ·) ist.
wobei π
Beweis :
X
y
e (y)P (y, x) = π
e (x) > 0 ,
π
Xπ
e (y)
P (y, x) = 1 .
e
y π (x)
Für jedes feste x betrachten wir die Gewichtung
py =
Es gilt
e (y)
π
P (y, x) .
e
π (x)
X
py = 1 und für jede Wahrscheinlichkeitsgewichtung π(·)
y
X
y
py ·
πP (x)
π(y)
=
.
e (y)
e (x)
π
π
c Prof. Dr. H. Dinges,
18. Dezember 1998
144
Nach Jensens Ungleichung gilt für jedes konvexe k(·)
πP (x)
k
e (x)
π
X
=k
y
π(y)
py ·
e (y)
π
!
≤
X
y
π(y)
py · k
e (y)
π
.
e (x) und summieren über x
Wir gewichten mit π
X
x
πP (x)
e (x) · k
π
e (x)
π
Xπ
e (y)
π(y)
e (x)
P (y, x) · k
π
e
e (y)
π
x
y π (x)
X
π(y)
e (y) · k
π
.
e (y)
π
y
X
≤
=
Für das Funktional
π 7−→ F (π) =
haben wir also
X
x
π(x)
e (x) · k
π
e (x)
π
F (π) ≥ F (πP ) ≥ F (πP 2 ) ≥ . . .
e . Daher
Wenn k(·) strikt konvex ist, dann gilt F (π) = F (πP ) nur für π = π
lim ↓ F (πP n )
πP
n
=
e)
F (π
e .
−→ π
Aus diesem Konvergenzsatz für die Potenzen aperiodischer stochastischer Matrizen
ergibt sich die Aussage c) des Satzes von Perron–Frobenius wie folgt
lim P n (x, y) = π(y) = r(y) · `(y)
n
1
1
lim
· n Qn (x, y) · r(y) = r(y) · `(y)
n r(x) λ
1
lim n Qn (x, y) = r(x) · `(y) ..
n λ
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.5
145
Irrfahrten in kontinuierlicher Zeit
5.5
Irrfahrten in kontinuierlicher Zeit
Stochastische Konstruktion
Sei λ(·) strikt positiv auf E und Q(·, ·) eine stochastische E × E–Matrix
mit verschwindender Diagonale. Denken wir uns in jedem Knoten x des Graphen
E einen Zufallsmechanismus postiert, der mit Wahrscheinlichkeit Q(x, y) auf den
Knoten y verweist. Die Zufallsmechanismen operieren unabhängig.
Seien T1 , T2 , . . . unabhängig exponentialverteilt mit E T = 1 und unabhängig von
den in den Knoten postierten Zufallsmechanismen. Ein Irrfahrer, der im Knoten X 0
1
beginnt, verweilt dort die Zeit λ(X
· T1 und springt dann gemäß Q(X0 , ·) in den
0)
1
· T2 und springt dann gemäß Q(X1 , ·)
Knoten X1 , verweilt dort die Zeit λ(X
1)
in den Knoten X2 , . . .. Nach ∞ vielen Sprüngen, wenn es solche in endlicher
Zeit geben sollte, wird der Irrfahrer in einem Zusatzpunkt ∂ ( Friedhofspunkt“)
”
e t ∈ E ∪ {∂} die Position zum Zeitpunkt t
festgehalten. Sei X
e t = X0
X
1
λ(X0 )
· T1 =: τ1
für
0≤t<
e t = X1
X
für
τ1 ≤ t < τ 1 +
et = ∂
X
für
ζ := lim ↑ τk ≤ t .
1
λ(X1 )
· T2 =: τ2
···
Offenbar gilt für alle x, y ∈ E
lim
h↓0
1
e t+h = y | X
e t = x = λ(x) · Q(x, y) .
Ws X
h
λ(x) heißt die Sprungrate im Punkt x; Q(·, ·) heißt die Skelettmatrix der Irrfahrt
e t : t < ζ}.
{X
Wir nähern uns diesen Irrfahrten in kontinuierlicher Zeit von seiten der Analysis.
Satz : Sei Q(·, ·) eine stochastische E × E–Matrix mit Q(x, x) = 0 für alle
x. λ(·) sei eine strikt positive Funktion auf E, die wir zunächst als beschränkt
annehmen. Wir setzen
A(x, y) = λx · Q(x, y)
für x 6= y
A(x, x) = −λx
für alle x
P t (·, ·) = exp(t · A) = I + tA +
1
2!
c Prof. Dr. H. Dinges,
t2 A2 +
1
3!
t3 A3 + . . .
18. Dezember 1998
146
Dann ist P t (·, ·) eine stochastische Matrix für alle t ≥ 0 und es gilt
P s · P t = P s+t für alle s ≥ 0, t ≥ 0 .
1
lim (P t+h − P t ) = P t · A = A · P t .
h↓0 h
Beweis :
1) Sind A, B kommutierende Matrizen, A·B = B ·A, mit beschränkten Summen
der Absolutbeträge der Zeileneinträge. Es gilt dann
eA · eB = eA+B .
In der Tat gilt für n = 0, 1, 2, . . .
(A + B)
A
e ·e
n
B
!
!
!
n
n n−2
n n−1
Bn
A
· B2 + . . . +
A
·B+
= A +
n
2
1
n
∞
X
1
=
k!
0
=
∞
X
1
n!
0
A
k
!
·
∞
X
1
0
`!
B
`
!
(A + B)n = eA+B .
Insbesondere gilt also
exp(sA) · exp(tA) = exp((s + t)A) .
2) Für unsere A(·, ·) sind alle Zeilensummen = 0. Damit sind auch die Zeilensummen von A2 , A3 , . . . gleich 0. Die Zeilensummen von
exp(tA) = I + tA +
1 2 2
t A +...
2!
sind = 1.
3) exp(tA) = lim (I +
n→∞
t
n
A)n
Für genügend kleine n hat I + nt A für t ≥ 0 nichtnegative Einträge. Also
ist P t eine stochastische Matrix für alle t ≥ 0.
4)
1
h
(P h − I) = A + O(h) für h → 0
(P t+h − P t ) = P t (P h − I) = (P h − I)P t .
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.5
147
Irrfahrten in kontinuierlicher Zeit
Sprechweise : Die eben konstruierte Schar {P t : t ≥ 0} heißt die stochastische
Halbgruppe zur infinitesimalen Matrix A. Die Matrix Q(·, ·) heißt Skelettmatrix zur Halbruppe. λx = −A(x, x) heißt die Sprungrate in x.
Wir betrachten nun den allgemeineren Fall, wo λ(·) auch unbeschränkt sein
kann. Wir beginnen aber vom anderen Ende. Dabei folgen wir den Bezeichnungen
im Standardwerk:
K.L. Chung: Markov Chains with Stationary Transition Probabilities
Springer Grundlehren Bd. 104 (1967).
E sei abzählbar. Eine E×E–Matrix P (·, ·) heißt substochastisch,
Definition :
wenn
X
P (x, y) ≥ 0 für alle x, y ;
y
P (x, y) ≤ 1 für alle x .
Eine Familie substochastischer Matrizen {P t (·, ·) : t ≥ 0} heißt eine Standard–
Halbgruppe, wenn
(i) P s · P t = P s+t für alle s, t
(ii) lim P s = I (d.h. P s (x, y) → 0 für alle x 6= y, P s (x, y) → 1 für alle x)
s→0
Lemma :
Für jede Standard–Halbgruppe existiert
A(x, y) = lim
s→0
1 s
P (x, y)
s
für alle x 6= y .
(ohne Beweis ! )
Wir setzen für alle x ∈ E
1
s→0 s
(iii) λx = −A(x, x) = lim
(1 − P s (x, x))
und nennen x eine stabilen (reinen) Zustand, wenn λ x < ∞. Die Zahl λx heißt
die Sprungrate im Zustand x.
Die Matrix
1
s→0 s
(iv) A = lim
(P s − I)
heißt die infinitesimale Matrix.
c Prof. Dr. H. Dinges,
18. Dezember 1998
148
Wir betrachten im folgenden nur Standard–Halbgruppen mit endlichen Sprungraten.
Satz :
a) Zu jeder E × E–Matrix A(·, ·) mit
A(x, y) ≥ 0
−A(x, x) ≥
X
für x 6= y
A(x, y)
y6=x
für alle x (λx = −A(x, x))
existiert mindestens eine Standard–Halbgruppe {P t : t ≥ 0} mit
lim
h↓0
1
(P h (x, y) − I(x, y)) = A(x, y) für alle x, y .
h
b) Es gibt in jedem Falle eine minimale solche Standard–Halbgruppe
{Pe (t) : t ≥ 0} zur Matrix A(·, ·). Wenn diese minimale Halbgruppe aus stochastischen Matrizen besteht, dann gibt es keine weiteren Standard–Halbgruppen.
Beweisskizze : Wir konstruieren die minimale Halbgruppe wie oben. Ein in x 0
startender Irrfahrer bleibt dort eine exponentiell verteilte Haltezeit mit dem Erwartungswert 1/λ(x0 ) und springt dann nach x1 mit der Wahrscheinlichkeit
Q(x0 , x1 ) =
1
· A(x0 , x1 )
λ x0
und in den Friedhofspunkt“ ∂ mit der Wahrscheinlichkeit 1 −
”
t
Pe (x, y) = Wsx
P
x1
Q(x0 , x1 ) usw.
(Irrfahrer befindet sich in y zur Zeit t)
liefert die minimale Standard–Halbgruppe.
Bemerke :
Auch im Falle −A(x, x) =
P
y6=x
nicht notwendigerweise stochastische Matrizen.
1. Beispiel :
t
A(x, y) für alle x sind die Pe (·, ·)
(Reiner Geburtsprozeß)
E = {0, 1, 2, . . .}
Q(x, x + 1) = 1 für alle x ,
−A(x, x) = λx ,
Q(x, y) = 0 für alle y 6= x + 1
A(x, x + 1) = λx .
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.5
149
Irrfahrten in kontinuierlicher Zeit
P
Wenn
mit
lim
1
λx
t
= +∞, dann existiert genau eine Standard–Halbgruppe { Pe : t ≥ 0}
1 eh
(P (x, y) − I(x, y)) = A(x, y) für alle x, y .
h
Man stelle sich eine Population vor, die mit der Rate λ x wächst, wenn sie aus
x Individuen besteht. Die Abstände zwischen den Zeitpunkten, wo sie wächst, sind
unabhängig exponentiell verteilt mit Erwartungswerten, deren Summe divergiert.
P
1
Wenn
λx < ∞, dann ”explodiert“ die Population vor dem Zeitpunkt t > 0 mit
positiver Wahrscheinlichkeit.
2. Beispiel :
(Einfachste Warteschlangen)
In ein System kommen in einem stationären Strom mit der Rate λ · dt Kunden. Wir
nehmen an, daß es sich um einen Poissonstrom im Sinne von Kapitel 2 handelt.
Die Kunden warten, daß ihr Anliegen bearbeitet wird und verlassen das System,
wenn das Anliegen fertig bearbeitet ist. Die Bearbeitungszeiten seien unabhängige
identisch verteilte Zufallsgrößen mit dem Erwartungswert µ1 . Um die Sache einfach
zu machen, nehmen wir an, daß sie exponentiell verteilt sind. Auf diesen Fall paßt
nämlich die Theorie der Markovprozesse ganz direkt. Die Anzahl der Kunden im
System ist dann nämlich eine Irrfahrt auf dem Zustandsraum E = {0, 1, 2, . . .}
a) Es mögen beliebig viele Bearbeiter zur Verfügung stehen. Die Matrix der
Sprungtendenzen ist dann
A(x, x + 1) = λ ,
A(x, x − 1) = xµ ,
A(x, x) = −(λ + xµ)
A(x, y) = 0 für |y − x| > 1 .
Ganz gleich, wo die Irrfahrt zur Zeit 0 beginnt, nach langer Zeit befindet sich
eine annähernd poissonverteilte Anzahl von Kunden im System. Der Erwartungswert E Xt der Anzahl der Kunden im System ist (für t → ∞)
lim E Xt =
t→∞
λ
.
µ
(Wir werden allgemeinere Geburts– und Todesprozesse im nächsten Abschnitt
behandeln.)
b) Es möge nur ein Bearbeiter zur Verfügung stehen
A(x, x + 1) = λ ,
−A(0, 0) = λ ,
A(x, x − 1) = µ für x = 1, 2, . . .
−A(x, x) = λ + µ für x = 1, 2, . . .
A(x, y) = 0 für |y − x| > 1 .
c Prof. Dr. H. Dinges,
18. Dezember 1998
150
Wenn λ < µ, dann entwickelt sich eine stationäre Warteschange, geometrisch
verteilt mit
lim Ws(Xt > 0) =
t→∞
λ
.
µ
Im Falle λ ≥ µ stellt sich kein stationärer Zustand“ ein.
”
Bemerke : Die Formel für E x im Fall a) und für Ws(X > 0) im Fall b) ergibt
sich aus einer Bilanzüberlegung, die man auch in allgemeineren Fällen anstellen kann.
In einem langen Zeitintervall T fällt die Arbeitslast µλ · T an. Sie muß bewältigt
werden. Im Fall a) sind stets X Bearbeiter am Werk. Die abgeleistete Arbeit ist
also T · E X. Im Fall b) ist die abgeleistete Arbeit T · Ws(X > 0).
Sprechweise : Wir denken an Irrfahrten auf dem Graphen mit den Knotenmenge
E . Die Knoten x heißen reine Zustände. Die Wahrscheinlichkeitsgewichtungen
auf E heißen gemischte Zustände. Ein gemischter Zustand heißt ein station ärer
Zustand, wenn er sich in der Zeit nicht verändert. Im Falle diskreter Zeit ist ein
P
stationärer Zustand eine Gewichtung ν(·) mit
ν(x)Q(x, y) = ν(y) für alle y.
x
Im Falle kontinuierlicher Zeit ist ein stationärer Zustand eine Gewichtung µ mit
µP t = µ für alle t.
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.6
151
Stationäre Markov–Ketten
5.6
Stationäre Markov–Ketten
Sei Q(·, ·) eine rekurente irreduzible stochastische E × E–Matrix und ν(·) die
invariante Gewichtung. (Sie ist bekanntlich bis auf eine multiplikative Konstante
eindeutig bestimmt.)
Wenn ν(·) ein Wahrscheinlichkeitsmaß, dann existiert ein stationärer E–wertiger
Prozeß
. . . , X−1 , X0 , X1 , X2 , . . .
mit der Eigenschaft
Ws(Xm = x0 , Xm+1 = x1 , . . . , Xm+` = x` )
= ν(x0 ) · Q(x0 , x1 ) · Q(x1 , x2 ) · . . . , ·Q(x`−1 , x` )
für alle m, alle ` ≥ 0 und alle x0 , . . . , x` .
Betrachten wir den zeitumgekehrten station ären Prozeß
. . . , Y−1 , Y0 , Y1 , Y2 , . . . = . . . , X1 , X0 , X−1 , X−2 , . . .
Es gilt für alle m, ` ≥ 0 und alle y0 , . . . , y`
Ws(Ym = y0 , Ym+1 = y1 , . . . , Ym+` = y` )
e 0 , y1 ) · Q(y
e 1 , y2 ) · . . . , · Q(y
e m−1 , ym )
= ν(y0 ) · Q(y
mit der Matrix
e
Q(y,
x) = ν(x) · Q(x, y) ·
Bemerke :
X
y
1
.
ν(y)
ν(x) · Q(x, y) = ν(y) =
X
z
e
ν(z) · Q(z,
y) .
Wir stellen uns zu Q(·, ·) einen Massenfluß durch den Zustandsraum vor. Im Knoten
x befindet sich zur Zeit m die Masse ν(x). In der Zeitspanne von m bis m + 1
fließt der Anteil ν(x)Q(x, y) nach y; durch die Kante (x, y) fließt also in jedem
Zeittakt die Masse ν(x)Q(x, y).
e ·). In jedem Zeittakt fließt
In derselben Weise erhalten wir einen Massenfluß zu Q(·,
die Masse
e
ν(y) Q(y,
x) = ν(x)Q(x, y)
e ·) ist also der zeitumgekehrte Fluß.
durch die Kante (y, x). Dieser Fluß zu Q(·,
c Prof. Dr. H. Dinges,
18. Dezember 1998
152
Sprechweise : Die rekurrente irreduzible stochastische E × E–Matrix Q(·, ·)
erzeugt einen zeitumkehrbaren Fluß durch E, wenn es eine Gewichtung ν(·)
gibt mit
ν(x)Q(x, y) = ν(y)Q(y, x) für alle x, y .
Man sagt in diesem Fall auch, daß die Gewichtung ν(·) die individuellen Bilanzrelationen erfüllt.
Bemerke :
a) Wenn ν(·) die individuellen Bilanzrelationen erfüllt, dann ist ν(·) eine stationäre Gewichtung; denn
X
ν(x)Q(x, y) =
x
X
x
ν(y)Q(y, x) = ν(y) für alle y ∈ E .
b) Wenn Q(·, ·) einen zeitumkehrbaren Fluß definiert, dann gewinnt man die
invariante Gewichtung ν ∗ (·) mit ν ∗ (x∗ ) = 1 sehr leicht folgendermaßen.
Für alle y mit Q(x∗ , y) > 0 haben wir
ν ∗ (y) = ν ∗ (x∗ ) ·
Q(x∗ , y)
.
Q(y, x∗ )
Für die z, die man in zwei Schritten von x ∗ aus erreichen kann, gewinnt
man ν ∗ (z) in derselben Weise.
c) Wenn man von einer Matrix Q(·, ·) nicht weiß, ob sie einen zeitumkehrbaren
Fluß erzeugt, dann kann man mit dem Ansatz in b) versuchen, ein ν ∗ aufzubauen. Wenn es da zu keinen Inkonsistenzen kommt, hat man die invariante
Gewichtung gefunden.
Beispiel : (Geburts– und Todesprozesse)
Sei Q(·, ·) eine rekurrente irreduzible stochastische
Q(x, x + 1) + Q(x, x − 1) = 1 für alle x.
ZZ + × ZZ+ –Matrix mit
Der stationäre Fluß ist zeitumkehrbar.
In einem Zeittakt kann nämlich die Masse nur um einen Schritt nach rechts oder
einen Schritt nach links verschoben werden. Wir haben
ν(x − 1)Q(x − 1, x) = ν(x)Q(x, x − 1) ;
denn es kann (wegen der Rekurrenz) nicht mehr Masse durch die Kante (x − 1, x)
nach rechts fließen als nach links.
ν(x)
Q(x − 1, x)
=
ν(x − 1)
Q(x, x − 1)
für alle x .
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.6
153
Stationäre Markov–Ketten
Bemerke :
Wenn der Graph zur Matrix Q(·, ·) in zwei Teilgraphen, die nur
e) verbunden sind, zerfällt, dann läuft im stationären
über eine einzige Kante (x∗ , x
Zustand über diese Kante ebensoviel Masse in die eine wie in die andere Richtung.
e) = ν(x
e)Q(x
e , x∗ ) .
ν(x∗ )Q(x∗ , x
Beim Geburts– und Todesprozeß ist jede Kante (x, x + 1) eine solche separierende
Kante.
Es ist unnatürlich, Geburts– und Todesprozesse in diskreter Zeit zu betrachten.
Wir studieren nun Prozesse in kontinuierlicher Zeit mit der Skelettmatrix Q(·, ·). Sie
sind dadurch gegeben, daß man in allen Knoten x Sprungtendenzen λ x vorgibt.
Die infinitesimale Matrix ist
A(x, x) = −λx
für alle x
A(x, y) = λx · Q(x, y)
für alle y 6= x .
Wenn die Sprungtendenzen λx nicht in unangenehmer Weise groß werden, dann
gibt es genau eine Standard–Halbgruppe P t : t ≥ 0} mit
lim
h↓0
1
(P h (x, y) − I(x, y)) = A(x, y) .
h
Man kann dann ohne die Gefahr von Mißverständnissen schreiben
P t = exp(t · A)
für t ≥ 0 .
Wir haben eine invariante Gewichtung µ(·)
µP t = µ für alle t ≥ 0
nämlich µ(x) =
X
x
1
λx
· ν(x), wo νQ = ν; denn für alle y
µ(x)A(x, y) = ν(y) ·
X 1
1
(−A(y, x)) +
ν(x) · λx Q(x, y) = 0 .
λy
λ
x6=y x
Wir haben einen stationären Prozeß {Xt : t ∈ IR} mit
Ws(Xt0 = x0 , Xt1 = x1 , . . . , xtl = x` )
= µ(x0 )P t1 −t0 (x0 , x1 ) · P t2 −t1 (x1 , x2 ) · . . . · P t` −t`−1 (x`−1 , x` )
für alle t0 ≤ t1 ≤ . . . ≤ t` und alle x0 , x1 , . . . , x` .
Zu diesem Prozeß gehört ein stationärer Massenfluß in kontinuierlicher Zeit. Im Zeitintervall (t, t + h) fließt durch die Kante (x, y) die Masse
µ(x)A(x, y)h + o(h) = ν(x)Q(x, y)h + o(h) für h → 0 .
Genau dann ist dieser zeitlich kontinuierliche stationäre Massenfluß zeitlich umkehrbar, wenn die Skelettmatrix Q(·, ·) einen zeitumkehrbaren Fluß in diskreter Zeit
hervorruft.
c Prof. Dr. H. Dinges,
18. Dezember 1998
154
Beispiel :
(Geburts– und Todesprozesse)
E = ZZ+ .
A(x, x + 1) = p(x) ,
A(x, x − 1) = q(x) ,
A(x, y) = 0 für |y − x| > 1 .
A(x, x) = −(p(x) + q(x)) .
Natürlich auch q(0) = 0) . p(x) > 0 für alle x .
a) Ein Markovprozeß mit
IP(Xh = y) − δ(x, y) = hA(x, y) + o(h)
für h → 0
heißt ein Geburts– und Todesprozeß in kontinuierlicher Zeit.
b) Die eingebettete Markov–Kette Y 0 , Y1 , . . . hat die Einschrittübergangswahrscheinlichkeit
Q(x, x + 1) =
p(x)
,
p(x) + q(x)
Q(x, x − 1) =
q(x)
.
p(x) + q(x)
c) Die individuellen Bilanzrelationen können erfüllt werden
µ({x})Q(x, x + 1) = µ({x + 1}) · Q(x + 1, x)
⇐⇒
für alle x ∈ ZZ+
µ({x + 1})
Q(x, x + 1)
=
µ({x})
Q(x + 1, x)
⇐⇒ µ({x}) = µ({0}) · p(0) ·
p(1) p(2)
p(x − 1) p(x) + q(x)
·
· ... ·
·
q(1) q(2)
q(x − 1)
q(x)
für alle x .
p(2)
Es hängt von der Folge p(1)
q(1) , q(2) . . . . ab, ob die Folge der Gewichte eine endliche
Summe hat. In jedem Falle gibt es aber ein σ–endliches Q–invariantes Maß.
d) Es hängt nicht nur von den Quotienten p(x−1)
q(x−1) sondern auch von den Beträgen
p(x) + q(x) ab, ob der zugehörige Prozeß in kontinuierlicher Zeit explodiert.
e) Für jede Funktion f haben wir
Af (x) =
X
A(x, y)f (y)
y
= p(x)[f (x + 1) − f (x)] − q(x)[f (x) − f (x − 1)]
p(x)
q(x)
= [p(x) + q(x)] ·
f (x + 1) − f (x) +
f (x − 1) .
p(x) + q(x)
p(x) + q(x)
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.6
155
Stationäre Markov–Ketten
Jedenfalls dann, wenn die Folge {p(x) + q(x) : x ∈ ZZ + } beschränkt ist haben
wir kAf k∞ ≤ const kf k∞ .
Es gibt aber auch noch andere Fälle, in welches es genau eine stochastische
Halbgruppe {P t : t ≥ 0} gibt mit
1
(P h − I)(x, y) −→ A(x, y)
h
für alle x, y .
(Beispiele unten!)
f) Wenn die Matrix A(·, ·) der Bedingung genügt
kAf k∞ ≤ const kf k ,
dann ist P t = exp(tA) eine wohldefinierte Halbgruppe stochastischer Matrizen. Wie oben finden wir ein endliches oder σ–endlices ρ mit
ρP t = ρ
für alle t .
ρ({x}) = µ({x}) · [A(x, x)]−1 ,
p(x)
ρ({x + 1})
=
.
ρ({x})
q(x + 1)
g) In eine Warteschlange kommen Kunden gemäß einem konstanten Poisson”
strom“ mit der Intensität grl. Für paarweise disjunkte Intervalle auf der
Zeitachse haben wir unabhängige Anzahlen von Kunden; diese Anzahlen sind
poissonverteilt mit dem Erwartungswert λ· Länge des Zeitintervalls.
(i) Nehmen wir an, daß jeder Kunde unabhängig von allen anderen die Schlange nach einer exponentiellen Zeit mit dem Erwartungswert = µ1 wieder
verläßt. Man sollte sich vorstellen, daß beliebig viele Schalter offen sind
und die Bearbeitung seines Problems eine exponentiell verteilte Zeit beansprucht.
Xt sei die Länge der Schlange zur Zeit t. {Xt : t ≥ 0} ist dann ein
Markovprozeß zum Generator A(·, ·) mit
A(x, x + 1) = λ für alle x ,
A(x, x − 1) = µx für x = 1, 2, . . .
A(x, x) = −(λ + µx) ,
A(x, y) = 0 für |y − x| > 1 .
Die bis auf eine multiplikative Konstante eindeutig bestimmte invariante
Verteilung ist die Poissonverteilung
1
ρ({x}) =
x!
x
λ
µ
λ
· exp −
µ
für x = 0, 1, 2, . . .
(ii) Nehmen wir an, daß nur ein Schalter geöffnet ist und jeder Kunde den
Schalter eine exponentiell verteilte Zeit T beansprucht, E T = µ1 mit
µ > λ.
c Prof. Dr. H. Dinges,
18. Dezember 1998
156
Die Länge der Schlange Xt ist ein Markovprozeß mit dem Generator
A(·)
A(x, x − 1) = µ für x = 1, 2, . . .
A(x, x + 1) = λ ,
A(x, x) = −(λ + µ) ,
A(x, y) = 0
für |y − x| > 1 .
Die stationäre Wahrscheinlichkeitsverteilung ist die geometrische Verteilung
λ
ρ({x}) = 1 −
µ
−1
für x = 0, 1, 2, . . .
Wenn µ ≤ λ dann explodiert der Prozeß.
Merke :
Im zeitkontinuierlichen Fallen lauten die individuellen Bilanzrelationen
ρ({x})A(x, y) = ρ({y})A(y, x) für alle x, y
Man kann nicht bei jedem A(·, ·) erwarten, daß es eine nichtnegative Lösung ρ(·)
gibt. Und, wenn es eine gibt, ist auch nicht klar, ob sie zu einem stationären Prozeß
Lµ (X) gehört; denn die Übergangshalbgruppe {P t (·, ·) : t ≥ 0} ist durch A(·, ·)
im allg. nicht eindeutig bestimmt.
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.7
157
Irrfahrten und elektrische Netzwerke
5.7
Irrfahrten und elektrische Netzwerke
Gegeben ist eine E × E–Matrix C(·, ·) mit
C(x, y) = C(y, x) ≥ 0
C(x) :=
X
für alle x, y ;
C(x, y) > 0
C(x, x) = 0
für alle x .
y
Wir interpretieren die Punkte von E als die Knoten in einem endlichen elektrischen
Netzwerk und die Zahl C(x, y) als die Leitfähigkeit der Verbindung von x nach
y. (Die Leitfähigkeit ist das Reziproke des Ohm’schen Widerstands.)
Die Gesamtheit der (x, y) mit C(x, y) > 0 macht E zu einem ungerichteten
Graphen ohne Schleifen und ohne Mehrfachkanten. Wir nehmen an, daß dieser Graph
zusammenhängend ist.
I. Irrfahrt im spannungslosen Zustand
Wir gewinnen eine stochastische E × E–Matrix, wenn wir definieren
P (x, y) =
1
· C(x, y) .
C(x)
Diese stochastische Matrix definiert eine irreduzible rekurrente Irrfahrt in diskreter
Zeit mit der stationären Verteilung C(·). (Wir verzichten darauf, die Gewichtung
auf die Gesamtmasse 1 zu normieren). In der Tat sind die individuellen Bilanzrela”
tionen“ erfüllt
C(x) · P (x, y) = C(y) · P (y, x)
für alle x, y .
Die stationäre Irrfahrt ist also reversibel.
Wir können auch eine Irrfahrt in kontinuierlicher Zeit mit C(·, ·) assoziieren, indem
wir die C(x, y) als Übergangsraten interpretieren. Ein Irrfahrer hält sich eine expo1
im Zustand x und springt dann
nentiell verteilte Zeit mit dem Erwartungswert C(x)
gemäß P (x, ·) in einen der Nachbarknoten. Für die Übergangswahrscheinlichkeiten
{P t (·, ·) : t ≥ 0} gilt P t = exp(t · A) mit
A(x, y) = lim
h&0
−C(x)
1 h
P (x, y) − δ(x, y) =
C(x, y)
h
für y = x
für y =
6 x.
Wir bemerken am Rande: Die stationäre Verteilung ist hier die Gleichverteilung auf
E. Für die Anzahl der Übergänge von x nach y in einer langen Zeit T gilt:
1
1
NT (x, y) =
C(x, y) .
T →∞ T
|E|
lim
c Prof. Dr. H. Dinges,
18. Dezember 1998
158
II. Spannungen
e
Wir wählen eine Teilmenge ∂E von E aus und geben uns dort eine Funktion f(·)
vor. Da der Graph zusammenhängend ist, gibt es von jedem Knoten aus einen Weg
in einen Randpunkt“. Wir stellen uns dazu vor, daß in den Randpunkten“ x des
”
”
Netzwerkes das Potential fe(x) durch Verbindung mit externen Spannungsquellen
e
= 0.) Im Netzwerk
fixiert wird. (Aus Bequemlichkeit nehmen wir an min f(x)
x∈∂E
fließen nun Ströme i(x, y) gemäß den Potentialdifferenzen in den Punkten x und
y und zwar (nach dem Ohm’schen Gesetz)
i(x, y) = C(x, y) · (f (x) − f (y)) = −i(y, x) .
Die Berechnung von f (·) erfolgt mittels des Kirchhoffschen Gesetzes. Dieses besagt, daß in den inneren“ Knotenpunkten genausoviel Strom zu– wie abfließt. Für
”
x ∈ E\∂E gilt also
0=
X
X
i(x, y) =
y
y
C(x, y)(f (x) − f (y))
"
= C(x) f (x) −
X
P (x, y)f (y)
y
#
.
f (·) ist also die (eindeutig bestimmte!) Lösung des Dirichletproblems
f (x) =
P
y
P (x, y)f (y) für x ∈ E\∂E
f (x) = fe(x)
für x ∈ ∂E .
Zur Erinnerung
Die Eindeutigkeit der Lösung ergibt sich aus dem Minimumsprinzip für harmonische Funktionen. Die Existenz gewinnt man am leichtesten durch
die Betrachtung der Irrfahrt zu P (·, ·) :
f (x) = Ex (fe(Xτ )) ,
wo τ der Zeitpunkt ist, zu welchem die (in x startende) Irrfahrt X 0 , X1 , . . . den
Rand zum ersten Male trifft. Wir werden unten eine andere Methode zur Bestimmung
von f (·) diskutieren.
Wir betrachten nun f (·) als gegeben und notieren
A = {x : f (x) =
X
y
P (x, y)f (y)} ⊇ E\∂E ,
H = {x : f (x) > P f (x)} ⊆ ∂E ,
N
= {x : f (x) < P f (x)} ⊆ ∂E .
In den Punkten aus A ist das Potential ausgeglichen“, in denen aus H ist es
”
hoch“, in denen aus N ist es niedrig“.
”
”
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.7
159
Irrfahrten und elektrische Netzwerke
III. Stromzufluß
e
Um das Potential f(·)
auf dem Rand in H ∪N aufrecht zu erhalten, müssen Ströme
in den hohen Rand H eingeleitet und vom niedrigen Rand abgeführt werden. Wir
nehmen einen zusätzlichen Knoten w dazu und definieren
i(w, x) = −i(x, w) = C(x)(f (x) − P f (x))
Beachte:
i(w, x) > 0
für
x∈H
i(w, z) < 0
für
z∈N
i(w, y) = 0
für
y∈A.
für alle x ∈ E .
P
e
i(w, ·) heißt der Ein– und Ausfluß zu f(·).
Die Zahl ej =
i(w, x) nennen wir
x∈H
den Gesamtfluß zu fe(·).
P
i(w, z); denn wegen f (y) − P f (y) = 0 für alle y ∈ E\(H ∪ N )
Beachte ej = −
haben wir
X
x∈H
z∈N
i(w, x) +
X
i(w, z) =
z∈N
=
=
X
y∈E
C(y)(f (y) − P f (y))
y∈E
C(y)f (y) −
X
X
y,x
X
C(x)P f (x)
x∈E
C(y, x)f (y) −
X
C(x)P (x, y)f (y) = 0 .
x,y
IV. Irrfahrt zur Randfunktion fe(·)
Wir konstruieren eine stationäre Irrfahrt in diskreter Zeit auf E ∪ {w}, bei der die
e
Flüsse die eben aus f(·)
abgeleiteten i(·, ·) sind. Der Übergangskern Pe (·, ·) ist
folgendermaßen zu bestimmen:
(i) Wenn x ∈
/ N ∪ {w}
Pe (x, y) = P (x, y) =
1
C(x, y) für y ∈ E ,
C(x)
Pe (x, w) = 0 .
1
i(w, y)
/ H.
= i(w, y) für y ∈ H und = 0 für y ∈
(ii) Pe (w, y) = P
e
i(w, x)
j
x∈H
(iii) Für z ∈ N definieren wir
Pe (z, w) = 1 −
e
f(z)
P f (z)
(hier ist die Annahme wichtig, daß min fe(z) = 0.)
c Prof. Dr. H. Dinges,
18. Dezember 1998
160
(iv) Für z ∈ N , y ∈ E setzen wir
Pe (z, y) = (1 − Pe (z, w)) · P (z, y) =
fe(z)
· P (z, y) .
P f (z)
In Worten: Von der Stromquelle“ w aus gelangt man gemäß Pe (w, ·) auf den hohen
”
Rand; die Übergangswahrscheinlichkeiten zwischen inneren Punkten sind die alten
P (·, ·); vom niederen Rand gelangt man mit einer gewissen Wahrscheinlichkeit in die
Stromquelle“ w und mit Wahrscheinlichkeiten proportional zu den alten zurück in
”
die alten Knoten.
Zur stochastischen Matrix Pe (·, ·) bestimmen wir die (bis auf eine Konstante) eine(·).
deutig bestimmte invariante Gewichtung µ
Satz
Die invariante Gewichtung zu Pe (·, ·) ist
e(w) = e
µ
j
e(y) = C(y) · f (y) für y ∈ E\N
µ
e(z) = C(z) · P f (z) für z ∈ N .
µ
Beweis
1) Das, was von y ∈ E nach x ∈ E hineinfließt, ist
e(y)Pe (y, x) = C(y)f (y)P (y, x) .
µ
Für alle x ∈ E haben wir somit
X
y∈E
e(y)Pe (y, x) =
µ
=
X
C(y)f (y)P (y, x)
y∈E
X
C(y, x)f (y)
y
= C(x)
X
P (x, y)f (y)
y
= C(x) · P f (x) .
e(x) ;
Für x ∈ N ist das das gewünschte µ
e(x) wegen P f (x) = f (x) ;
für x ∈ E\(N + H) ergibt sich µ
e(x) ;
für x ∈ H fehlt der Betrag C(x)(f (x) − P f (x)) zu µ
dies ist aber gerade der von w her geleistete Beitrag
e(w)Pe (w, x)
i(w, x) = µ
für x ∈ H.
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.7
161
Irrfahrten und elektrische Netzwerke
2) Von den Punkten
z
am niederen Rand fließt der Anteil
P f (z) − f (z)
P f (z)
nach w. Durch die Leitung von z nach w fließt also
e(z)Pe (z, w) = C(z)(P f (z) − f (z)) = −i(w, z) .
µ
Wir bemerken noch über die Flüsse im Inneren: Die konstruierte stationäre Irrfahrt
ist nicht reversibel. Die Differenz dessen, was (im stationären Zustand der Irrfahrt)
von x nach y fließt, und dem, was von y nach x fließt, ist gerade der Strom
i(x, y). In der Tat gilt
e(x)Pe (x, y) − µ
e(y)Pe (y, x) = C(x)f (x)P (x, y) − C(y)f (y)P (y, x)
µ
= C(x, y)(f (x) − f (y)) = i(x, y) .
Bemerke
Stellen wir uns eine Batterie vor, deren negativer Pol das Potential
e
0 hat, während das Potential f (w) am positiven Pol größer als max f(x)
ist. Wir
denken uns w mit x ∈ H durch eine Kante mit der Leitfähigkeit
C(w, x) =
i(w, x)
e
f (w) − f(x)
verbunden. Außerdem sei w mit z ∈ N durch eine Kante mit der Leitfähigkeit
C(z, w) =
i(z, w)
e
f(z)
e
verbunden. Wir haben dann das vorgegebene f(·)
auf ∂E durch einen geschlossenen
Stromkreis realisiert.
V. Thomsons und Dirichlets Minimalprinzip
Wir haben zu den Randspannungen
e
f(·)
auf
∂E
den Ein– und Ausstrom“ gewonnen
”
i(w, x)
für
x ∈ ∂E .
Wir erinnern an die Vorzeichen
X
i(w, x) > 0
für
i(w, z) < 0
für
i(w, y) = 0
für
i(w, x) = 0
.
x∈H ,
z∈N ,
y ∈ E\(H ∪ N ) ,
x
c Prof. Dr. H. Dinges,
18. Dezember 1998
162
e
Wir fragen nun, wie man aus i(w, ·) die Randspannungen f(·)+const
zurückgewine
nen kann. Wir werden f(·) durch ein Minimalprinzip kennzeichnen. Die folgenden
P
Konstruktionen gehen von einem beliebigen i(w, ·) mit
i(w, x) = 0 aus. Der
x∈E
Schlüsselbegriff für die Resultate ist die Energiedissipation“. Wir erinnern uns, daß
”
ein Strom I, der von einer Spannungsdifferenz U durch einen Ohm’schen Widerstand
R getrieben wird, die Leistung U I = RI 2 = R1 U 2 = CU 2 abgibt.
Sprechweise
Sei i(w, ·) irgendwie vorgegeben mit
P
x
i(w, x) = 0 .
a) Wenn j(x, y) = −j(y, x) für alle x, y ∈ E und
X
j(x, y) = i(w, x)
y∈E
für x ∈ E ,
dann nennen wir j(·, ·) einen Strom mit der Ein– und Ausströmung i(w, ·).
b) Für eine solche Strömung j(·, ·) nennen wir die Zahl
1X 2
1
1 X 2
j (x, y) R(x, y)
=
j (x, y)
2 x,y∈E
C(x, y)
2 x,y
die Energiedissipation.
Satz
(Thomsons Prinzip)
Sei f (·) eine Funktion auf E, i(x, y) = (f (x) − f (y))C(x, y) für alle x, y ∈ E und
i(w, ·) die dazugehörige Ein– und Ausströmung. Unter allen Strömen j(·, ·) mit
dieser Ein– und Ausströmung ist i(·, ·) derjenige mit minimaler Energiedissipation.
Beweis
Setze d(·, ·) = j(·, ·) − i(·, ·).
X
d(x, y) = 0 für alle x ∈ E.
Es gilt d(x, y) = −d(y, x) für alle x, y ∈ E und
y
1X 2
j (x, y)R(x, y) =
2 x,y
=
1X
(i(x, y) + d(x, y))2 R(x, y)
2 x,y
X
1X 2
i (x, y)R(x, y) +
i(x, y)d(x, y)R(x, y)
2 x,y
x,y
+
X
i(x, y)d(x, y)R(x, y) =
x,y
=
X
1X 2
d (x, y)R(x, y)
2 x,y
x,y
(f (x) − f (y))C(x, y)d(x, y)R(x, y)
x,y
(f (x) − f (y))d(x, y) = 0 .
X
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.7
163
Irrfahrten und elektrische Netzwerke
Dual zu Thomsons Prinzip ist die folgende Charakterisierung des Potentials f (·)
durch ein Minimalprinzip. Sie ist zwar auch von Thomson (≈ 1879) entdeckt worden,
wird aber üblicherweise nach Dirichlet benannt.
Satz
(Dirichlets Prinzip)
Unter allen Funktionen g(·) auf E mit
e
g(x) = f(x)
für x ∈ ∂E
hat die Lösung
dissipation
f (·)
des Dirichlet–Randwertproblems die minimale Energie-
1X
1X
(g(x) − g(y))2 C(x, y) ≥
(f (x) − f (y))2 C(x, y) .
2 x,y
2 x,y
Betrachte das innere Produkt“
”
X
1
(g(x) − g(y)) · C(x, y) · (f (x) − f (y)) .
hg, f i :=
2 x,y
Beweis
e
Sei L der Raum der g(·) mit g(x) = f(x)
für x ∈ ∂E. Die Funktion f (·) ∈ L
hat genau dann minimale Norm in L, wenn für alle g(·) ∈ L gilt
hg − f, f i = 0 ,
oder äquivalent damit
hg, f i = hf, f i .
Wir haben aber in der Tat wegen
i(x, y) = (f (x) − f (y)) · C(x, y) = −i(y, x)
mit
P
i(x, y) =: i(w, x) für alle x
y∈E
hg, f i =
=
=
1 X
(g(x) − g(y)) · C(x, y) · (f (x) − f (y))
2 x,y
1 X
(g(x) − g(y)) · i(x, y)
2 x,y
X
x
=
X
g(x) ·
x∈∂E
X
i(x, y)
y
g(x) · i(w, x)
= hf, f i für alle g ∈ L .
c Prof. Dr. H. Dinges,
18. Dezember 1998
164
Konsequenz
Die Lösung des Dirichlet–Randwertproblems kann man als Limes f = lim fn gewinnen. Beginne mit irgendeiner Funktion f 0 (·) auf E mit
e
f0 (x) = f(x)
für x ∈ ∂E, und konstruiere f1 , f2 , . . . wie folgt:
Wähle einen inneren Punkt x∗ , in welchem f0 (·) nicht harmonisch ist, und setze
f1 (x∗ ) =
X
P (x∗ , y)f0 (y),
y
f1 (x) = f0 (x) für x 6= x∗ .
f1 (·) hat eine echt kleinere Engergiedissipation als f 0 (·):
1X
1X
(f0 (x) − f0 (y))2 C(x, y) −
(f1 (x) − f1 (y))2 C(x, y)
2 x,y
2 x,y
=
X h
y
i
(f0 (x∗ ) − f0 (y))2 − (f1 (x∗ ) − f1 (y))2 C(x∗ , y)
= (f02 (x∗ ) − f12 (x∗ ))C(x∗ ) − 2f0 (x∗ )C(x∗ )
+ 2f1 (x∗ )C(x∗ )
X
P (x∗ , y)f1 (y)
X
P (x∗ , y)f0 (y)
= (f02 (x∗ ) − f12 (x∗ ))C(x∗ ) − 2(f0 (x∗ ) − f1 (x∗ ))C(x∗ )f1 (x∗ )
= (f0 (x∗ ) − f1 (x∗ ))2 C(x∗ ) > 0 .
Durchlaufen wir nun immer wieder die Punkte von E, in welchen die Funktion
noch nicht harmonisch ist, dann konvergiert die Funktionenfolge gegen die Funktion,
in welcher die Energiedissipation minimal ist.
Eine elementare Einführung in diese Betrachtungen findet sich bei P.G. Doyle &
J.L. Snell: Random Walks & Electrical Networks, The Carus Math. Monography
22 (1984).
Weitergehendes findet sich in F.P. Kelly : Reversibility and Stochastic Networks,
Wiley (1979).
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.8
165
Einige einfache Interaktionsprozesse
5.8
Einige einfache Interaktionsprozesse
Bisher haben wir uns einen einzelnen Irrfahrer vorgestellt, der durch eine Menge
von Plätzen (englisch sites“) irrt, getrieben von einer stochastischen Übergangsma”
trix J(i, j) oder (im Falle kontinuierlicher Zeit) getrieben von einer Matrix von
Sprungtendenzen A(i, j). Wenn wir nun mehrere Irrfahrer ins System setzen, dann
kann man im einfachsten (nicht besonders interessanten) Fall annehmen, daß sie sich
unabhängig bewegen. Interessanter wird es, wenn wir Interaktionen zulassen. Wir
interessieren uns hier nicht für die Individualität der Irrfahrer; wir achten nur darauf, wie stark besetzt die einzelnen Plätze i ∈ I zu den verschiedenen Zeiten sind.
Der Zustandsraum für die folgenden Markov–Prozesse in kontinuierlicher Zeit ist der
Raum Ξ der Konfigurationen über der endlichen Menge von Plätzen I. Es ist
allerdings so, daß nicht von jedem Anfangspunkt ξ (0) jede Konfiguration η erreichbar ist. Der Raum der von ξ (0) aus erreichbaren Konfigurationen ist eine Teilmenge
Ξ(0) . Wir suchen Gleichgewichtszustände für einige interessante Markov–Ketten mit
Zustandsraum Ξ.
I. Nullreichweiten–Interaktion
Sei I eine endliche Menge von Plätzen und J(·, ·) eine stochastische E × E–
Matrix, welche auf der Diagonalen verschwindet. Nehmen wir weiter an, daß J(·, ·)
P
J(i, j) = 1. Weiter sei eine Funktion c(·) auf ZZ+
doppeltstochastisch ist, d.h.
i
mit c(0) = 0 gegeben.
Eine Konfiguration ξ ∈ Ξ = (ZZ+ )I ist zu deuten als das System der Vielfachheiten,
mit welchen die Plätze besetzt sind; ξ gibt an, wieviele Teilchen auf den einzelnen
Plätzen sitzen.
Wir gewinnen folgendermaßen aus J(·, ·) und c(·) den Generator einer stochastischen Halbgruppe {P t : t ≥ 0} auf Ξ . Zunächst stochastisch formuliert: Wenn in
i n Teilchen sitzen, dann springt jedes von ihnen mit der Rate c(n) dt weg und im
Falle eines Sprungs mit Wahrscheinlichkeit J(i, j) nach j. Aus der Konfiguration
ξ wird dann also eine, die in i ein Teilchen weniger und in j ein Teilchen mehr
hat.
Dies gibt eine Matrix A(ξ, η), die außerhalb der Diagonalen Nullen überall dort hat,
wo ξ und η sich nicht in der einfachen Weise unterscheiden, daß an einer Stelle i
ein Teilchen weniger und an einer anderen Stelle j ein Teilchen mehr sitzt.
Man könnte schreiben
η = (δi ◦ βj )ξ = ξij
( Geburt in j“ und gleichzeitig Tod in i“) .
”
”
c Prof. Dr. H. Dinges,
18. Dezember 1998
166
Die Matrix A(·, ·) hat sehr viele Nullen, sie ist nur für sehr eng benachbarte Konfigurationen positiv mit A(ξ, ξij ) = ξi · c(ξi ) · J(i, j) und negativ in der Diagonalen
−A(ξ, ξ) =
X
i∈I
ξi · c(ξi ) = λ(ξ) .
Von einem ξ aus kann man höchstens diejenigen η erreichen, welche ebensoviele
Teilchen enthalten. Auf jeder dieser Mengen gibt es genau ein invariantes Wahrscheinlichkeitsmaß.
Berechnen wir dieses zunächst im Falle
a) J(i, j) = J(j, i) .
Wir versuchen, die individuellen Bilanzrelationen zu erfüllen, und finden
ρ({ξ}) = Z −1
Y 1
i∈I
ξi !
· λ(ξi )
mit
λ(n) =
1
,
c(1) · c(2) · . . . · c(n)
denn für alle i, j gilt
ρ({ξ}) · ξi · c(ξi ) · J(i, j) = ρ({ξij }) · ξi · c(ξj ) · J(j, i) .
b) Auch im Falle, wo J(·, ·) doppeltstochastisch ist, d.h.
X
J(i, j) = 1 ,
j
X
J(i, j) = 1 ,
i
rechnet man ebenfalls leicht nach, daß unser ρ({ξ}) invariant ist.
c) Allgemeinere Fälle sind kaum explizit zu behandeln.
Berühmte Beispiele :
1) c(n) = λ1 für alle n = 1, 2, . . .
Unser ρ(·) ist dann das Produkt von Poissonverteilungen oder besser
die Einschränkung des Produkts von Poissonverteilungen auf die Menge
P
ξ(i) = N } (λ = 1 o.B.d.A.).
{ξ :
i∈I
Dies entspricht der Maxwell–Boltzmann–Statistik.
2) c(n) = n1 für alle n = 1, 2, . . .
Die Sprungtendenz für jedes Teilchen auf einem Platz ist umso kleiner, je mehr
Teilchen dort liegen. Die invariante Verteilung ist hier die Einschränkung des
P
Produkts von Gleichverteilungen auf {0, . . . , N } I auf {ξ :
ξi = N } .
i∈I
Dies entspricht der Bose–Einstein–Statistik.
c Prof. Dr. H. Dinges,
18. Dezember 1998
5.8
167
Einige einfache Interaktionsprozesse
II. Einfache Exklusionsinteraktion
Sei Ξ = {0, 1}I . Jede Konfiguration ξ entspricht der Menge aller besetzten Plätze,
d.h. einer Teilmenge von I .
Wir definieren A(ξ, η) so: Übergänge von ξ nach η = (δi ◦ βj )ξ passieren mit
der Rate J(i, j), wenn ξi = 1 und ξj = 0; andere Übergänge in infinitesimaler
Zeit gibt es nicht.
A(ξ, ξ) = −
X
X
J(i, j) .
i:ξi =1 j:ξj =0
P
Wenn J(·, ·) irreduzibel ist, dann gibt es auf jedem {ξ : i∈I ξi = N } genau ein
invariantes Maß νN (·). Die gleichmäßige Verteilung auf Ξ ist invariant.
Dies entspricht der Fermi–Dirac–Statistik.
Verallgemeinerung :
A(ξ, (δi ◦ βj )ξ) = 0 ,
außer wenn ξi = 1, ξj = 0 .
Im übrigen darf diese Übergangsrate aber von ξ abhängen, z.B.
A(ξ, (δi ◦ βj )ξ) = ci (ξ) · J(i, j)
mit ci (ξ) > 0 falls ξi = 1. Es sei J(·, ·) irreduzibel.
Man kann in diesem Falle die individuellen Bilanzrelationen im allg. nicht erf üllen,
und man kann auch die invarianten Maße im allg. nicht explizit hinschreiben.
Es gibt aber den interessanten Spezialfall J(i, j) = J(j, i). Man kann dann durch
geschickte Wahl der Sprungtendenzen erreichen, daß das unten definierte Maß ρ N (·)
invariant wird.
Nehmen wir Ui,j (1, 1) = uij = uji für i 6= j,
im übrigen Ui,j (0, 0) = Ui,j (1, 0) = Ui,j (0, 1) = 0, und dazu

ci (ξ) = exp 
X
{j:j6=i}
−1
ρN ({ξ}) = ZN


Uij (ξi , ξj ) , falls ξi = 1

1 X
exp −
Ui,j (ξi , ξj ) .
2 i6=j
Man rechnet leicht nach, daß die individuellen Bilanzrelationen für ρN (·) erfüllt
sind.
Weitere Überlegungen dieser Art finden sich in F. Spitzer: Random Fields
and Interacting Particle Systems, Lecture Notes, Math. Assoc. of America (1971),
122 Seiten.
c Prof. Dr. H. Dinges,
18. Dezember 1998
6. Bedingte Wahrscheinlichkeiten
In einem informellen Sinn sind hier schon gelegentlich bedingte Wahrscheinlichkeiten
vorgekommen (z.B. bei den Lemmata zum Entropiefunktional). Wir skizzieren hier
nun die Anfangsgründe einer tiefergehenden Theorie.
6.1
Elementare bedingte Wahrscheinlichkeiten
e ein Ereignis, welches (bzgl. der WahrscheinlichkeitsbewerDefinition :
Sei B
tung P (·)) positive Wahrscheinlichkeit hat.
a) Für jedes Ereignis Ae heißt die Zahl
e :=
P (Ae | B)
e
P (Ae ∩ B)
e
P (B)
e .
die bedingte Wahrscheinlichkeit von Ae gegeben B
b) Für jede positive Zufallsgröße Z heißt die Zahl
e :=
E (Z | B)
1
e
P (B)
E (Z · 1Be )
e .
die bedingte Erwartung von Z gegeben B
Für Zufallsgrößen, die keinen Erwartungswert besitzen ( E Z + = +∞ = E Z − )
bleibt die bedingte Erwartung undefiniert; für reellwertige Zufallsgrößen mit
Erwartungswert definiert man
e := E (Z + | B)
e − E (Z − | B)
e .
E (Z | B)
Bemerke :
e = P (A
e | B)
e .
E (1Ae | B)
e ein. Dies reicht nicht aus
Die obige Definition führt ein bedingendes Ereignis B
für eine kraftvolle Theorie. Wir wenden uns den bedingenden Zufallsgr ößen und
später auch den bedingenden Teilereignisfeldern zu. Die Symbole
E (Z|X)
und
∗
E (Z| A )
sollen einen Sinn bekommen.
168
6.1
169
Elementare bedingte Wahrscheinlichkeiten
Definition :
Sei X eine Zufallsvariable (mit Werten in einem abstrakten
Raum E), welche nur abzählbar viele Werte annehmen kann. (Wir sprechen von
einer diskreten Zufallsgröße.)
pi = P (X = xi ) ≥ 0
X
pi = 1 .
Für jede positive Zufallsgröße Z definieren wir
E (Z | X)
als eine Zufallsgröße Z 0 = f (X), welche den Wert
zi = E (Z | {X = xi }) = f (xi )
annimmt, wenn das Ereignis {X = xi } eintritt.
E (Z | X) ist also eine Funktion von X, wobei die Funktion f (·) auf dem Wertebereich von X, die das Verlangte leistet, nur in den Werten x mit P ({X = x}) > 0
eindeutig bestimmt ist. E (Z | X) = f (X) .
Satz vom totalen Erwartungswert :
a) Wenn Z 0 = E (Z | X), dann E Z 0 = E Z .
f0 von der Gestalt A
f0 = {X ∈ B} gilt
b) Für jedes Ereignis A
Beweis :
E (1Ae0 · Z 0 ) = E (1Ae0 · Z) .
E (E (Z | X)) =
=
X
i
P (X = xi ) · E (Z | {X = xi })
i
E (Z · 1{X=xi } ) = E Z .
X
Wenn wir nur über die i mit xi ∈ B summieren, erhalten wir die Aussage b).
Speziell für Z = 1Ae
P
P e
e
1 = {X = xi } = B
i
e =
P (A)
X
i
haben wir für jede Partition des sicheren Ereignisses
e i ) · P (A
e|B
e i)
P (B
( Satz von der totalen Wahrscheinlichkeit“)
”
c Prof. Dr. H. Dinges,
18. Dezember 1998
170
Beispiel :
Ein Stoß mit 32 Karten wurde gut gemischt. Ein Spieler, welcher den
Gewinn 1 erhält, wenn die zweite Karte ein Herz ist, und sonst leer ausgeht, hat die
Gewinnerwartung
1
E Z = E 1{zweite Karte ist Herz} = .
4
Wenn ihm nun die Möglichkeit gegeben wird, die Farbe F
erfahren, dann ist seine Gewinnerwartung die Zufallsgröße
der ersten Karte zu
Z 0 = E (Z | F ) ,
7
welche den Wert 31
hat, wenn {F = Herz} eintritt, und den Wert
{F 6= Herz} eintritt. Wir haben
0
EZ =
8
31 ,
wenn
3 8
7 + 24
1
1 7
·
+ ·
=
= =EZ .
4 31 4 31
4 · 31
4
Die explizite Definition der bedingten Erwartung E (Z | X) gefällt dem Anfänger;
sie öffnet aber nicht die Tür zu einem tieferen Verständnis der Theorie. Im Hinblick
auf Verallgemeinerungen verdienen implizite Charakterisierungen des Operators
E (· | X) :
Z 7−→ E (Z | X)
den Vorzug. Die erste Charakterisierung, die wir hier diskutieren wollen, funktioniert
in der Tat für alle Z mit endlichem Erwartungswert; die zweite funktioniert nur für
die Z mit endlicher Varianz.
Vorbereitende Definition :
a) Die Gesamtheit aller Ereignisse von der Gestalt {X ∈ B} heißt das von X
erzeugte Ereignisfeld. Es wird üblicherweise mit AX bezeichnet.
b) Eine Zufallsgröße Y heißt AX –beobachtbar, wenn
{Y ∈ C} ∈ AX
für alle C .
Wenn wir den Begriff des Wertebereichs einer nichtdiskreten Zufallsgröße erörtern,
wird genaueres über die Art der Mengen B, die hier in Betracht genommen werden,
gesagt werden. Unter sehr allgemeinen Umständen gilt der
Hebungssatz :
Die Zufallsgröße Y ist genau dann AX –beobachtbar, wenn es
eine Abbildung f (·) gibt, so daß Y = f (X).
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.1
171
Elementare bedingte Wahrscheinlichkeiten
Im Kontext dieses Kapitels ist der Hebungssatz eine Selbstverständlichkeit, da X
als diskret vorausgesetzt ist. Es gibt aber etwas zu beweisen, wenn X nicht diskret
ist und Y Werte in einem abstrakten Raum annimmt.
Erste Charakterisierung der bedingten Erwartung E (· | X) :
Z sei eine Zufallsgröße mit endlichem Erwartungswert. Eine Zufallsgröße Z 0 repräsentiert genau dann die bedingte Erwartung E (Z | X), wenn gilt
a) Z 0 ist AX –beobachtbar.
b) ∀ Ae ∈ AX : E (Z · 1Ae) = E (Z 0 · 1Ae) .
Man notiert in diesem Falle
Z 0 = E (Z | X)
P –fastsicher.
oder
Z 0 = E (Z | AX )
P –fastsicher .
Der Zusatz P –fastsicher“ wird unten seine Aufklärung erfahren, wo wir uns mit dem
”
Gleichheitsbegriff für Zufallsgrößen in einem allgemeineren Kontext beschäftigen.
Man beweise als Übungsaufgabe: Wenn Z von X unabhängig ist, dann ist die
Konstante E Z ein Repräsentant der bedingten Erwartung.
Zweite Charakterisierung der bedingten Erwartung E (· | X):
Z sei eine Zufallsgröße mit endlicher Varianz. Eine Zufallsgröße Z 0 repräsentiert
genau dann die bedingte Erwartung E (Z | X), wenn gilt
a) Z 0 ist AX –beobachtbar.
b) Für alle AX –beobachtbaren Y gilt
0 2
2
E ((Z − Z ) ) ≤ E ((Z − Y ) ) .
Bemerke :
Bekanntlich ist der Erwartungswert a 0 einer Zufallsgröße Z mit
endlicher Varianz derjenige Punkt, bzgl. dem das quadratische Moment der Verteilung minimal (nämlich gleich der Varianz) ist.
a0 = E Z ⇐⇒ E (Z − a)2
ist minimal für a = a0 .
Der Steiner’sche Verschiebungssatz präzisiert die Aussage:
∀ a ∈ R : E (Z − a)2 = E (Z − E Z)2 + (E Z − a)2 = var Z + (E Z − a)2 .
Um die Verhältnisse im Umfeld der bedingten Erwartungen aufzuklären, definieren
wir im nächsten Abschnitt den Begriff der bedingten Varianz. Dort wird auch die
Äquivalenz der beiden Charakterisierungen (im Falle endlicher Varianz) klar werden.
c Prof. Dr. H. Dinges,
18. Dezember 1998
172
Anhang : Zur Interpretation bedingter Wahrscheinlichkeiten
Die bedingte Erwartung E (Z | X) heißt manchmal der Erwartungswert von Z,
wenn man den Wert von X schon kennt. Genauer müßte man sagen: wenn man
den Wert von X kennt und darüberhinaus nichts Relevantes erfahren hat.
Das folgende Beispiel zeigt, daß die Interpretation ihre Tücken hat.
Aufgabe :
Einem Spieler A werden verdeckt drei Karten vorgelegt, von welchen eine ein As ist. Der Spieler gewinnt, wenn er das As aufdeckt. Er deutet zunächst
auf eine Karte, die er in Erwägung zieht. Ein Schiedsrichter mischt sich ein. Er legt
offen, daß eine der nicht in Erwägung gezogenen Karten nicht das As ist, und bietet
dem Spieler an, seinen Tip nochmals zu überdenken. Wie ist die Gewinnwahrscheinlichkeit, wenn der Spieler die Gelegenheit nützt und die dritte Karte aufdeckt?
(In einer amerikanischen Fernsehshow hat man das mit drei Türen gemacht, wobei
hinter einer der Türen ein Auto als Preis wartete.)
Lösung :
Wenn der Spieler wechselt, gewinnt er mit Wahrscheinlichkeit 2/3; er
verliert nämlich genau in dem Fall, in dem er mit seiner ersten Erwägung richtig lag.
Modifikation der Szene :
Statt eines wissenden Schiedsrichters mischt sich
ein unwissender Spieler ein und deckt eine der vom Spieler A nicht in Erwägung
gezogenen Karten auf. Wenn diese aufgedeckte Karte das As ist, wird neu gemischt.
Wenn die aufgedeckte Karte nicht das As ist, darf der Spieler A seinen endgültigen
Tip abgeben. Sollte nun der Spieler A von der Möglichkeit des Umsattelns Gebrauch
machen, wenn die aufgedeckte Karte nicht das As ist?
Lösung :
Der Spieler A gewinnt mit Wahrscheinlichkeit 1/2, ob er nun umsattelt oder nicht.
Kommentar :
1) Im geänderten Szenario erfährt unser Spieler (im Fall, daß der Beobachter
nicht die Gewinnkarte aufdeckt) nichts, was ihm einen der beiden möglichen
Tips günstiger erscheinen ließe als den anderen. — Diese Aussage klingt einleuchtend. Wenn man aber einmal etwas gründlicher und allgemeiner darüber
nachdenkt, was es wohl heißen könnte, wenn jemand sagt, daß er das und jenes weiß und darüberhinaus nichts Relevantes über eine Sache weiß, dann
wird man früher oder später recht ratlos. Denken wir an den Verurteilten, dem
gesagt wird, daß er in der folgenden Woche exekutiert wird, und daß er den
Tag am Vortage seiner Exekution noch nicht wissen wird. Der Verurteilte
schließt, daß der Samstag nicht der Hinrichtungstag sein kann, weil sonst ja
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.1
173
Elementare bedingte Wahrscheinlichkeiten
am Freitag abend alles klar wäre. Nachdem nun aber der Samstag ausscheidet, kommt logischerweise auch der Freitag nicht in Betracht, weil ja sonst am
Donnerstag alles klar wäre, usw. Der Verurteilte kommt zum Ergebnis, daß
die ihm erteilte Auskunft in sich unsinnig ist. Als er dann am Donnerstag zur
Exekution abgeholt wird, muß er aber doch zugeben, daß er am Mittwoch noch
nichts gewußt hat. Bedeutet das nun, daß die Auskunft über sein Nichtwissen
am Vortage völlig irrelevant oder vielleicht sogar unsinnig ist ?
2) Unser Spieler im zweiten Szenario hat erfahren, daß eine der drei Karten nicht
in Betracht kommt und nichts Relevantes darüberhinaus: beide Möglichkeiten
haben dieselbe Wahrscheinlichkeit 1/2.
Unser Spieler im ersten Szenario hat aber offenbar etwas Relevantes erfahren.
Wenn er seinen vorläufigen Tip rein zufällig abgibt und dann wechselt, gewinnt
er mit Wahrscheinlichkeit 23 . Er hat offenbar nicht nur erfahren, daß die vom
Schiedsrichter aufgedeckte Karte eine Niete ist; der Schiedsrichter hat auch
einen Teil seines Wissens preisgegeben, zwar nicht in jedem Fall, aber doch mit
einer gewissen Wahrscheinlichkeit. — Und dies kann ein schlauer Akteur u.U.
ausnützen, wie das Beispiel zeigt.
c Prof. Dr. H. Dinges,
18. Dezember 1998
174
6.2
Nichtdiskrete bedingte Erwartungen;
Ereignisfelder, Mengen von Zufallsgrößen
Die Theorie der bedingten Erwartungen ist eines der Kernstücke von Kolmogorovs
Grundlegung der Wahrscheinlichkeitstheorie aus dem Jahre 1933. Kolmogorov zeigte
auf, daß zum Nachweis der Existenz (und P –fastsicheren Eindeutigkeit) von bedingten Erwartungen die Begriffsbildungen und Resultate der Maß– und Integrationstheorie, die zu Beginn des Jahrhunderts entwickelt worden sind, ausreichen. F ür
unsere Einführung steht uns die Maß– und Integrationstheorie nicht zur Verfügung.
Um das Rechnen mit bedingten Erwartungen auf sichere Füße zu stellen, stützen
wir uns auf ein Prinzip, welches wir zwar nicht beweisen, aber doch (nach einigen
Vorbereitungen) einwandfrei formulieren können. Die Vorbereitungen betreffen den
Begriff der Gleichheit von Zufallsgrößen sowie den Begriff der Meßbarkeit bzgl. eines
e (kurz: A
e –Beobachtbarkeit).
Ereignisfeldes A
Gleichheit :
Bei allen unseren (keineswegs ganz elementaren) Operationen mit
Zufallsgrößen konnten wir der Frage ausweichen, was es denn heißen soll, daß zwei
Zufallsgrößen gleich sind. Wir haben es verabsäumt, irgendwelche Gesamtheiten von
Zufallsgrößen zu Mengen wohlunterschiedener Objekte zu machen. — Ein solches
Versäumnis gilt übrigens dem Reinen Mathematiker unserer Tage als schwerer Kunstfehler. Rechengrößen müssen für ihn immer Elemente einer Menge sein.
Daß der Begriff der Gleichheit von Zufallsgrößen seine Tücken hat, fällt gelegentlich
schon im Schulunterricht auf, z.B. bei der Erörterung des sog. starken Gesetzes
der großen Zahlen.
Beispiel :
Denken wir uns ein Experiment mit unbekannter Erfolgswahrscheinlichkeit unendlich oft unabhängig wiederholt. Hn bezeichne die relative Häufigkeit
der Erfolge in den ersten n Wiederholungen. Nach dem sog. starken Gesetz der
großen Zahlen konvergiert die Folge H n . In irgendeinem Sinne gilt also
lim sup Hn = lim inf Hn .
Man kann die Aussage auch folgendermaßen ausdrücken: Für jedes ε > 0 konvergiert die absteigende Folge der Ereignisse
(ε)
AN
∞ [
:=
max Hn − min Hn > ε
N ≤n≤N
+`
N ≤n≤N +`
`=1
für N → ∞ gegen das Nullereignis.
Es ist für viele Anfänger unbefriedigend, wenn man ihnen sagt, daß es keine natürliche
Antwort auf die Frage gibt, was es denn heißt, daß der Durchschnitt einer absteigenden Folge von Ereignissen das unmögliche Ereignis“ ist. Es ist aber nicht daran
”
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.2
Nichtdiskrete bedingte Erwartungen; Ereignisfelder, Mengen von Zufallsgrößen
175
zu rütteln: Der Gleichheitsbegriff für Ereignisse und der daraus abgeleitete Gleichheitsbegriff für Zufallsgrößen ist ein Bestandteil der mathematischen Modellierung
und nicht durch die Wirklichkeit vorgegeben.
Im übrigen ist zu bemerken: Wenn man ein starkes Gesetz der großen Zahlen beweisen will, dann muß man sich auf einen abgeschwächten Begriff der Gleichheit von
oberem und unterem Limes beziehen, nämlich auf den Begriff der P –fastsicheren
Gleichheit für passende Wahrscheinlichkeitsbewertungen (siehe unten).
Wir wollen uns zunächst damit begnügen, den Gleichheitsbegriff für (E–wertige) Zufallsgrößen auf den Gleichheitsbegriff für Ereignisse zurückzuführen; den Gleichheitsbegriff für Ereignisse, der in der Theorie der σ–vollständigen Boole’schen Verbände
axiomatisch zu fassen wäre, wollen wir undiskutiert lassen.
In der Theorie, die wir hier ins Auge fassen, nehmen Zufallsgrößen ihre Werte stets
in sog. polnischen Räumen an; warum das eine vernünftige Forderung ist, können wir
allerdings hier nicht erläutern. Die wichtigsten Wertebereiche E sind für uns die
Räume Rd und die abzählbaren Mengen. (Die Rd –wertigen Zufallsgrößen heißen
bekanntlich auch Zufallsvektoren, die Zufallsgrößen mit Werten in einer abzählbaren
Menge heißen bekanntlich diskrete Zufallsgrößen.)
Definition :
Eine E–wertige Zufallsgröße Z ist dadurch gegeben, daß jedem
borelschen B ⊆ E ein wohlbestimmtes Ereignis {Z ∈ B} zugeordnet ist. Von der
Zuordnung ist zu fordern, daß sie ein σ–Homomorphismus ist, d.h.
{Z ∈ E} = sicheres Ereignis
{Z ∈ E\B} = ¬{Z ∈ B} für alle borelschen B
{Z ∈
∞
[
Bi } =
∞
[
{Z ∈ Bi } für alle Folgen B1 , B2 , . . . .
Die Zufallsgrößen Z1 und Z2 sind gleich, wenn die Ereignisse {Z 1 ∈ B} und
{Z2 ∈ B} für alle borelschen B gleich sind.
Bemerke :
Um die Gleichheit von Z1 und Z2 nachzuweisen, genügt es,
die Gleichheit der Ereignisse {Z1 ∈ S} und {Z2 ∈ S} für alle S aus einem
Erzeugendensystem der Borelalgebra nachzuweisen.
Es gibt auch noch ganz andere Beschreibungen der Gleichheit von Zufallsgrößen mit
Werten in einem metrischen Raum (E, d(·, ·)), z.B. gilt
Z1 = Z2 ⇐⇒ {d(Z1 , Z2 ) > 0} = Nullereignis .
Um das zu beweisen, müßten wir auf den Kalkül der Zufallsgrößen eingehen. Wir
müßten z.B. nachweisen, daß d(Z1 , Z2 ) eine wohldefinierte Zufallsgröße ist. Wir
wollen uns hier aber nicht in Grundlagenfragen verlieren, die im praktischen Umgang
mit Zufallsgrößen keine Rolle spielen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
176
Für den Kalkül der bedingten Erwartungen ist ein abgeschwächter Gleichheitsbegriff maßgeblich, ein Gleichheitsbegriff, der auf eine vorgegebene Wahrscheinlichkeitsbewertung P (·) Bezug nimmt. Dieser Begriff der P –fastsicheren Gleichheit,
der auch in anderen Zusammenhängen wichtig ist, wird folgendermaßen definiert:
Definition :
Sei P (·) eine Wahrscheinlichkeitsbewertung. Die E–wertigen
Zufallsgrößen Z1 und Z2 heißen P –fastsicher gleich, wenn
P ({Z1 ∈ B} 4 {Z2 ∈ B}) = 0
für alle borelschen B .
(4 bezeichnet die symmetrische Differenz von Ereignissen.)
Bemerke :
Man kann leicht zeigen
Z1 = Z2 P –fastsicher ⇐⇒ P ({d(Z1 , Z2 ) > 0}) = 0 .
Beispiel :
(fortgesetzt)
Denken wir an eine verbogene Münze, die von einem Zufallsmechanismus aus einem Reservoir ausgewählt und dann unabhängig geworfen wird. Man kann zeigen,
daß für jede so konstruierte Wahrscheinlichkeitsbewertung P (·) die Folge der H n
P –fastsicher konvergiert, d.h.
lim inf Hn = lim sup Hn
n→∞
n→∞
P –fastsicher .
P (| lim sup Hn − lim inf Hn | > ε) = 0 für alle ε > 0 .
(ε)
lim ↓ P (AN ) = 0
N →∞
für die oben konstruierten Folgen
(ε)
(A N )N .
Der P –fastsichere Grenzwert der Hn ist übrigens P –fastsicher gleich der (zufälligen!) wahren“ Erfolgswahrscheinlichkeit der vom Zufallsmechanismus gewählten
”
Münze.
Reichlich verkürzt drückt man diese Einsichten manchmal so aus: Die unbekannte
”
Erfolgswahrscheinlichkeit eines Experiments bestimmt sich aus dem Grenzwert der
relativen Häufigkeiten der Erfolge bei unabhängiger Wiederholung.“
Meßbarkeit :
Während in den elementaren Zugängen zur Maß– und Integrationstheorie die Meßbarkeitsstruktur als vorgegeben behandelt wird, muß die Meßbarkeit in der Theorie der bedingten Erwartungen zum Thema gemacht werden.
e eine Ereignisalgebra, d.h. ein σ–vollständiger Boole’scher Verband, dessen
Sei A
e –beobachtbare Zufallsgröße Z ist
Elemente als Ereignisse interpretiert sind. Eine A
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.2
Nichtdiskrete bedingte Erwartungen; Ereignisfelder, Mengen von Zufallsgrößen
177
e zugedadurch gegeben, daß den borelschen Mengen B Ereignisse {Z ∈ B} ∈ A
e
ordnet sind (wobei gefordert ist, daß B 7−→ {Z ∈ B} ∈ A ein σ–Homomorphismus
ist.)
e . Die Zufallsgröße Z heißt Ae0 –beobachtbar
Sei nun Ae0 ein Teilereignisfeld von A
e
0
oder A –meßbar, wenn
{Z ∈ B} ∈ Ae0
für alle borelschen B ,
oder anders gesagt, wenn das von Z erzeugte Ereignisfeld in Ae0 enthalten ist.
Die hier skizzierten Begriffe von Gleichheit und Meßbarkeit (bzgl. eines Teilereignisfeldes) reichen aus, um den Hauptsatz der bedingten Erwartungen zu formulieren.
Da wir hier den Beweis nicht führen, sprechen wir nicht von einem Satz sondern von
einem
Prinzip von der Existenz und der eindeutigen Bestimmtheit
der bedingten Erwartungen :
e0
e ; und sei A
Sei P (·) eine Wahrscheinlichkeitsbewertung auf einem Ereignisfeld A
e –beobachtbaren Zufallsgröße Z mit
ein Teilereignisfeld. Zu jeder reellwertigen A
0
E |Z| < ∞ existiert eine Zufallsgröße Z mit den Eigenschaften
a) Z 0 ist Ae0 –beobachtbar.
f0 ∈ Ae0
b) ∀ A
E (Z 0 · 1Ae0 ) = E (Z · 1Ae0 ) .
Jede weitere Zufallsgröße mit den Eigenschaften a) und b) ist P –fastsicher gleich Z 0 .
Man notiert
Z 0 = E (Z | Ae0 )
P –fastsicher,
und man sagt: Z 0 ist eine Version der bedingten Erwartung.
Anfänger haben häufig wenig Achtung vor reinen Existenzsätzen, d.h. vor Existenzsätzen, die kein konstruktives Element in sich tragen. Sie sind dann verblüfft,
wenn man aus Existenz– und Eindeutigkeitssätzen konkrete Rechenregeln ableiten
kann. Dies ist hier der Fall:
Satz :
Der Operator der bedingten Erwartungen E (· | Ae0 ) (zur Wahrscheinliche0 ) hat die Eigenschaften
e⊇A
keitsbewertung P (·) auf A
1) (Additivität)
Für alle Paare Z1 , Z2 gilt
E (Z1 + Z2 | Ae0 ) = E (Z1 | Ae0 ) + E (Z2 | Ae0 )
c Prof. Dr. H. Dinges,
P –fastsicher .
18. Dezember 1998
178
2) (Herausziehen von Faktoren)
Wenn W eine beschränkte Ae0 –meßbare Zufallsgröße ist, dann gilt für alle Z
E (W · Z | Ae0 ) = W · E (Z | Ae0 )
P –fastsicher .
3) (Monotone Stetigkeit)
Sei Z1 ≤ Z2 ≤ . . . P –fastsicher und Z = lim ↑ Zi P –fastsicher. Es gilt
E (Z | Ae0 ) = lim ↑ E (Zi | Ae0 )
P –fastsicher .
4) (Jensen’s Ungleichung)
Für jedes konvexe k(z1 , . . . , zd ) und jedes d–Tupel integrabler Zufallsgrößen
Z1 , Z2 , . . . , Zd gilt
E (k(Z1 , . . . , Zd ) | Ae0 ) ≥ k(E ((Z1 , . . . , Zd ) | Ae0 ))
P –fastsicher .
5) (Satz von der totalen Wahrscheinlichkeit)
e0 ⊇ A
f∗ (Ereignisfeld), dann gilt für alle Z
e⊇A
Wenn A
Beweis :
f∗ )
f∗ ) = E (Z | A
E (E (Z | Ae0 ) | A
P –fastsicher .
ad 1) Die Zufallsgröße Z 0 := E (Z1 | Ae0 ) + E (Z2 | Ae0 ) = Z10 + Z20 ist Ae0 –beobachtbar;
f0 ∈ Ae0 gilt
und für jedes A
E (Z 0 · 1Ae0 ) = E ((Z10 + Z20 ) · 1Ae0 ) = E (Z10 · 1Ae0 ) + E (Z20 · 1Ae0 )
= E (Z1 · 1Ae0 ) + E (Z2 · 1Ae0 ) = E ((Z1 + Z2 ) · 1Ae0 ) .
Also ist Z 0 eine Version der bedingten Erwartung E (Z1 + Z2 | Ae0 ) .
ad 2) Die Zufallsgröße Z ∗ := W · E (Z | Ae0 ) = W · Z 0 ist Ae0 –beobachtbar. Für jedes
e0 –beobachtbare W mit nur endlich vielen Werten W = P α · 1
A
i A
e0 und jedes
Ae0 ∈ Ae0 haben wir
i
∗
0
E (Z · 1Ae0 ) = E (W · Z · 1Ae0 ) =
=
X
X
αi · E (1Ae0 · Z 0 · 1Ae0 )
i
αi · E (1Ae0 · Z · 1Ae0 ) = E (W · Z · 1Ae0 ) .
i
Also ist Z ∗ eine Version der bedingten Erwartung von W · Z. Für allgemeine
e0 –beobachtbare W benützen wir eine monotone Approximation (von W +
A
und W − ) durch Zufallsgrößen mit endlich vielen Werten und wenden 3) an.
f0 ∈ A
e0 gilt
ad 3) Z ∗ := lim ↑ E (Zi | Ae0 ) = lim ↑ Zi0 ist Ae0 –beobachtbar. Für jedes A
∗
0
E (Z · 1Ae0 ) = lim ↑ E (Zi · 1Ae0 )
= lim ↑ E (Zi · 1Ae0 ) = E (Z · 1Ae0 ) .
Also ist Z ∗ eine Version der bedingten Erwartung E (Z | Ae0 ) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.2
Nichtdiskrete bedingte Erwartungen; Ereignisfelder, Mengen von Zufallsgrößen
179
ad 4) Jede konvexe (unterhalbstetige) Funktion k(·) auf dem Rd kann als Supremum
von abzählbar vielen affinen Funktionen dargestellt werden. Es genügt, die
Jensen’sche Ungleichung für Maxima von endlich vielen affinen Funktionen zu
beweisen. Der Beweis liegt auf der Hand.
∗
e ) P –fastsicher. Wir zeigen
ad 5) Sei Z 0 = E (Z | Ae0 ) P –fastsicher und Z ∗ = E (Z | A
∗
e ) P –fastsicher .
Z ∗ = E (Z 0 | A
e0 gilt
e∗ ∈ A
e ∗ –beobachtbar, und für jedes A
e∗ ⊆ A
Z ∗ ist A
E (Z ∗ · 1Ae∗ ) = E (Z 0 · 1Ae∗ ) = E (Z · 1Ae∗ ) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
180
6.3
Bedingte Varianz
Wie in 6.1 angekündigt, befassen wir uns nun mit der bedingten Varianz im allgemeinen Fall.
0
e . Für jede
e⊇A
Definition :
Sei P (·) eine Wahrscheinlichkeitsbewertung auf A
Zufallsgröße Z, welche endliche Varianz hat, definieren wir die bedingte Varianz
e 0 . Mit Z 0 = E (Z | A
e 0 ) definieren wir
gegeben A
e 0 ) := E ((Z − Z 0 )2 | A
e 0)
var(Z | A
Satz 1 :
P –fastsicher .
Es gilt
e 0 ) = E (Z 2 | A
e 0 ) − Z 02 .
var(Z | A
Beweis :
e 0 ) = 0 P –fastsicher gilt
Wegen E ((Z − Z 0 ) | A
2 e0
e 0)
) = E ((Z − Z 0 + Z 0 )2 | A
E (Z | A
e 0 ) + 2 · Z 0 · E (Z − Z 0 | A
e 0 ) + E (Z 02 | A
e 0)
= E ((Z − Z 0 )2 | A
0
e ) + Z 02 .
= E ((Z − Z 0 )2 | A
Satz 2 :
(Charakterisierung der bedingten Erwartung)
Wenn eine Zufallsgröße Z endliche Varianz hat, dann ist ihre bedingte Erwartung
e 0 –beobachtbare Zufallsgröße Z 0 , von welcher der quagekennzeichnet als diejenige A
dratische Abstand minimal ist. d.h.
e 0 –beobachtbar} .
E ((Z − Z 0 )2 ) = min{E (Z − Y )2 : Y ist A
Beweis :
0
e –beobachtbare Y gilt
Für jedes A
2 e0
e0)
) = E ((Z − Z 0 + Z 0 − Y )2 | A
E ((Z − Y ) | A
e 0 ) + 2(Z 0 − Y ) · E (Z − Z 0 | A
e 0 ) + (Z 0 − Y )2
= E ((Z − Z 0 )2 | A
e 0 ) + (Z 0 − Y )2 .
= var(Z | A
Wenn wir den Erwartungswert bilden, ergibt sich
e 0 ) + E (Z 0 − Y )2 .
E ((Z − Y )2 ) = E var(Z | A
Das Minimum wird nur erreicht, wenn Z 0 − Y = 0
P –fastsicher.
Bemerke :
Der Charakterisierungssatz verallgemeinert den oben erwähnten
Steiner’schen Verschiebungssatz.
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.3
181
Bedingte Varianz
Die Rechnung zeigt auch den
Satz 3 :
(Satz von der vollständigen Varianz)
0
0
e )) + var(E (Z | A
e ))) .
var Z = E (var(Z | A
Beispiele zum Begriff der bedingten Varianz :
(Summen zufälliger Länge)
1) Seien Y1 , Y2 , . . . unabhängig identisch verteilt mit endlicher Varianz, und sei
N eine davon unabhängige Zufallsgröße mit Werten in {0, 1, 2, . . .}. Für die
Summe
W = Y 1 + Y2 + . . . + Y N
gilt dann
E (W ) = E N · E Y
var(W ) = E N · var Y + (var N ) · (E Y )2
Beweis :
E (W | {N = k}) = k · E Y
E (W | N ) = N · E Y
EW
= E (E (W | N ))
= EN ·EY
var(W | {N = k}) = k · var Y
var(W | N ) = N · var Y
var W
= E (var(W | N )) + var(E (W | N ))
= E N · var Y + var(N · E Y ) .
Der erste Summand erfaßt die Schwankung von Y , der zweite die Schwankung
von N .
2) Y1 , Y2 , . . . seien unabhängig identisch verteilt mit var Y + < ∞ und
α = Ws(Y < 0) positiv. Wir berechnen Erwartungswert und Varianz von
X = Y1 + . . . + Yτ −1 ,
wobei τ = inf{k : Yk < 0} .
Sei Ye + eine Zufallsvariable mit der Verteilung L(Y | {Y > 0}). Offenbar ist
τ geometrisch verteilt mit E τ = α1 , var τ = 1−α
α2 .
E (X | {τ = k}) = (k − 1) · E Ye
E (X | τ ) = (τ − 1) · E Ye
+
+
+
E X = E (τ − 1) · E Ye
1
+
=
− 1 · E Ye
α
c Prof. Dr. H. Dinges,
18. Dezember 1998
182
var(X | {τ = k}) = (k − 1) · var Ye
+
var X = E (var(X | τ )) + var(E (X | τ ))
+
+
= E (τ − 1) · var Ye + var τ · (E Ye )2
1−α 2
1−α
+
+
· (E Ye )2 .
=
· E (Ye )2 +
α
α
Beispiel :
(Gaußische Vektoren)
Seien Z, X1 , . . . , Xm gemeinsam gaußisch verteilt mit dem Erwartungswert 0.
E (Z | (X1 , . . . , Xm )) ist dann eine Linearkombination der X j . Es gilt
E (Z | X) = ξX = ξ1 X1 + . . . + ξm Xm
P –fastsicher,
wenn ξ so gewählt ist, daß
Z − ξX und X unkorreliert sind .
Beweis :
o.B.d.A. nehmen wir an, daß die m × m–Matrix C = cov(X, X)
nichtsingulär ist. Es gibt dann genau eine m–Zeile ξ, so daß
0 = cov(Z − ξX, X), nämlich ξ = cov(Z, X) · C −1 .
Da Z − ξX und X gemeinsam gaußisch verteilt sind, folgt aus der Unkorreliertheit
die Unabhängigkeit. (Dieser Satz ist in Kapitel 3.5 diskutiert worden.)
Z − ξX ist daher unkorreliert zu jeder Zufallsgröße g(X)
0 = E ((Z − ξX) · g(X)) .
Es ist
2
2
2
E ([Z − (ξX + g(X))] ) = E [(Z − ξX) ] + E (g (X))
nur minimal, wenn g(X) = 0 fastsicher.
Also ist ξX die bedingte Erwartung. (Die ξ i heißen die Regressionskoeffizienten.)
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.4
6.4
Konstruktion von Wahrscheinlichkeitsbewertungen
183
Konstruktion von Wahrscheinlichkeitsbewertungen
Aus der Sicht eines Reinen Mathematikers, dem die intendierten Anwendungen einer
mathematischen Theorie als der Theorie äußerlich gelten, ist die Wahrscheinlichkeitstheorie ein Teilgebiet der Maßtheorie. Die Wahrscheinlichkeitstheorie ist in seinen Augen die Theorie der normierten Maße auf σ–vollständigen Boole’schen Verbänden,
allerdings in einer ihn merkwürdig anmutenden Terminologie: Die σ–vollständigen
e∈A
e heißen Ereignisfelder oder Ereignisalgebren; und für A
e
Boole’schen Algebren A
e
e
heißt P (A) die Wahrscheinlichkeit des Ereignisses A bzgl. der Wahrscheinlichkeitsbewertung P (·).
Man kann in der Tat eine rein mathematische Theorie auf den folgenden Axiomen
aufbauen:
e = 1 − P (A)
e für alle A
e∈A
e .
(i) P (¬ A)
e = P (A)
e + P (B),
e
e das Nullereignis ist.
(ii) P (Ae ∪ B)
wenn Ae ∩ B
(iii) Immer wenn eine Folge von Ereignissen monoton gegen das Nullereignis absteigt, dann konvergieren die P –Werte nach 0 :
Ae1 ⊇ Ae2 ⊇ . . . ,
∞
\
Aen = Nullereignis =⇒ lim & P (Aei ) = 0 .
Es fragt sich, wohin das Studium einer solchen Theorie den Anfänger führt. Es ergibt zwar durchaus anspruchsvolle Mathematik, wenn man Kolmogorovs Theorie
der bedingten Erwartungen und weiter die Theorie der Martingale auf einer formalen Grundlage entwickelt. Es ist aber fraglich, ob ohne die Vorstellungsweisen und
Metaphern der Stochastik ein adäquates Verständnis für die Reichweite der Theoreme entstehen kann. Das Erlernen der maßtheoretischen Techniken auf Vorrat wollen
wir dem Anfänger nicht empfehlen. Wir empfehlen das Studium der Maßtheorie im
Anschluß an eine erste Einführung in die Stochastik. Wir wollen hier einige Hinweise
geben, welche Rolle gewisse Teile der rein mathematischen Maßtheorie für die höhere
Stochastik spielen.
Die Stochastik muß die Wahrscheinlichkeitsbewertungen, die studiert werden sollen, aus eigener Kraft konstruieren; sie kann sich nicht auf (von der Natur oder
von irgendwem sonst) vorgegebene Gegenstände beziehen. Unsere Konstruktion des
Poisson’schen Punktprozesses und unsere Beschreibung von Irrfahrten, Warteschlangenprozessen u.ä. genügen zwar nicht allen Ansprüchen an mathematische Strenge,
ergeben aber doch schon eine erste Grundlage für mathematisch anspruchsvolle Problemlösungen. Man muß die Grundlagen etwas tiefer legen, wenn man auch stochastische Prozesse wie den der Brownschen Bewegung erfassen will. (Das Problem wurde
mit adhoc–Methoden zuerst von N. Wiener 1923 gelöst.) Ein zentraler Punkt in Kolmogorovs Grundlegung aus dem Jahre 1933 war die Beschreibung aller möglichen
gemeinsamen Verteilungen von unendlich vielen reellwertigen Zufallsgrößen; damit
wurde die Tür zu einer allgemeinen Theorie der stochastischen Prozesse aufgestoßen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
184
Es hat sich gezeigt, daß die Begriffe der Punktmengentopologie gute Dienste leisten,
wenn es gilt, interessante Wahrscheinlichkeitsbewertungen zu konstruieren. Auf die
entsprechende Maßtheorie auf topologischen Räumen können wir hier zwar nicht eingehen; wir wollen das Problem der Konstruktion von nichtdiskreten Wahrscheinlichkeitsbewertungen aber doch nicht ganz ausklammern. Wir werden einen Existenzsatz
für Wahrscheinlichkeitsmaße auf der Menge der Pfade durch einen Wurzelbaum unendlicher Tiefe exakt formulieren und plausibel machen; und wir werden anschließend
sehen, daß die elementare Konstruktion recht weit trägt, indem wir nämlich beliebige
abzählbar erzeugte Ereignisfelder mit solchen Wurzelbäumen in Verbindung bringen.
Ereignisfelder
Aus der Sicht des reinen Mathematikers ist ein Ereignisfeld nichts weiter als ein σ–
vollständiger Boole’scher Verband, d.h. eine partiell geordnete Menge, deren
Ordnung gewissen Forderungen genügt.
Aus der Sicht dessen, der ein Zufallsgeschehen modelliert, ist das Ereignisfeld die
Menge der beobachtbaren Ereignisse. Das Operieren mit Ereignissen wird von
den Anwendern als unproblematisch empfunden. Unter Mathematikern gilt es aber
als ausgemacht, daß das Operieren mit den Elementen eines abstrakten“ Boole’schen
”
Verbandes mehr Verständnisschwierigkeiten bereitet als das Operieren mit Teilmengen (einer Grundmenge Ω). Es wird daher aus didaktischer Rücksicht empfohlen,
davon auszugehen, daß die Ereignisse durch Teilmengen einer Grundmenge Ω dargestellt sind. Indem man die Punkte ω von Ω als Versuchsausgänge interpretiert
und die Ereignisse als Mengen von Versuchsausgängen, suggeriert man dem Studenten eine unproblematische Ähnlichkeit der kontinuierlichen Theorie mit der Theorie
der diskreten Zufallsexperimente. Diese didaktische Strategie geht für eine Weile gut;
wenn man es aber irgendwann doch nicht mehr vermeiden kann, ernsthaft von Nullmengen und vom Nullereignis zu reden, stellt sich heraus, daß die Ähnlichkeit mit
dem Diskreten ihre Grenzen hat und daß die Vorstellungswelt der Mengen von Versuchsausgängen einem tieferen Verständnis nicht dienlich ist. — Möglicherweise wird
die Wahrscheinlichkeitstheorie irgendwann ein Anlaß sein, die Kontroversen um das
Wesen des Kontinuums wieder aufzunehmen, die in der sog. Grundlagenkrise der
Analysis zu Beginn des Jahrhunderts heftig ausgefochten wurden und mit dem Sieg
der mengentheoretischen Betrachtung geendet haben.
Die inhaltliche Äquivalenz der Herangehensweisen an die Ereignisfelder (abstrakter Verband versus Mengensystem) ergibt sich aus einem berühmten Satz von Loomis
aus dem Jahre 1936. Der Satz besagt, daß jeder σ–vollständige Boole’sche Verband
σ–isomorph ist zu einer σ–Algebra modulo einem Nullmengenideal über einer geeigneten Grundmenge Ω. Die Konstruktion von Loomis ist allerdings in keiner Weise
geeignet, die intuitiven Vorstellungen von Ereignisfeldern zu fördern. Wir wollen die
unfruchtbare Frage nach einer natürlichen Wahl der Grundmenge vermeiden und
bevorzugen auch bei der Behandlung der diskreten Ereignisfelder den abstrakten
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.4
185
Konstruktion von Wahrscheinlichkeitsbewertungen
Standpunkt. Es gibt bei uns keine Versuchsausgänge ω; in diskreten Ereignisfeldern
gibt es aber sehr wohl Elementarereignisse.
e heißt diskret, wenn es von einer Partition
Definition :
Ein Ereignisfeld A
des sicheren Ereignisses erzeugt ist. Die Elemente der Partition heißen die Elemene oder auch die Atome. Offenbar besteht A
e aus der Gesamtheit
tarereignisse von A
aller Ereignisse, die sich als disjunkte Vereinigung der Elementarereignisse darstellen
e ist genau dann diskret, wenn es eine Zufallsgröße
lassen. Man kann auch sagen: A
e erzeugt. In diesem Fall
X mit abzählbar vielen möglichen Werten gibt, welche A
gilt
e = {{X ∈ B} : B Teilmenge des Wertebereichs} .
A
Die Atome sind diejenigen Ereignisse {X = x}, die nicht das Nullereignis sind.
e ein diskretes Ereignisfeld ist, dann ist es leicht, einen vollständigen ÜberWenn A
e zu gewinnen.
blick über alle möglichen Wahrscheinlichkeitsbewertungen auf A
e
Die Wahrscheinlichkeitsbewertung P (·) auf A ist vollständig beschrieben, wenn
man die Wahrscheinlichkeiten der Atome kennt. Wenn Ae1 , Ae2 , . . . die Atome sind,
dann sind die Zahlen pi = P (Aei ) nichtnegative Zahlen, die sich zu 1 aufsummieren.
Umgekehrt liefert jedes System von Zahlen p i mit pi ≥ 0
e:
Wahrscheinlichkeitsbewertung auf A
e =
P (A)
X
ei ⊆A}
e
{i:A
pi
P
pi = 1 eine
e .
für jedes Ae ∈ A
e ein beliebiges Ereignisfeld. Für jedes Teilsystem S
e ⊆A
e gibt es offensichtlich
Sei A
e
e
e
e = A ; man nennt B
e das von S
ein kleinstes S umfassendes Teilereignisfeld B
e
S
e ein Erzeugendensystem für B
e ist.
erzeugte Teilereignisfeld, und man sagt, daß S
e heißt abzählbar erzeugt, wenn es ein abzählDefinition :
Ein Ereignisfeld A
e
bares Erzeugendensystem für A gibt. Man beweist leicht das
e ist genau dann abzählbar erzeugt, wenn es eine
Lemma :
Ein Ereignisfeld A
Folge von Partitionen des sicheren Ereignisses gibt, deren Atome alle zusammene bilden. Man kann auch sagen: A
e ist
genommen ein Erzeugendensystem von A
genau dann abzählbar erzeugt, wenn es von einer Folge von diskreten Zufallsgrößen
e erzeugen:
Y1 , Y2 , . . . erzeugt wird. Gegeben seien Partitionen, die A
e
1 = Ae11 + Ae12 + Ae13 + . . .
e
1 = Ae21 + Ae22 + Ae23 + . . .
e
1 = Ae31 + Ae32 + Ae33 + . . .
..
.
c Prof. Dr. H. Dinges,
18. Dezember 1998
186
Wir konstruieren dazu eine aufsteigende Folge von diskreten Ereignisfeldern, eine
sog. diskrete Filtrierung
e0 ⊆ A
e1 ⊆ A
e2 ⊆ A
e3 ⊆ . . . .
A
ist das triviale Ereignisfeld, welches nur aus dem sicheren Ereignis e1 und
e n ist das von den ersten n Partitionen erzeugte
dem Nullereignis e0 besteht. A
Ereignisfeld.
e0
A
e n sind die Ereignisse der Gestalt
Wir bemerken : Die Atome von A
Ae1i1 ∩ Ae2i2 ∩ . . . ∩ Aenin ,
die nicht das Nullereignis liefern.
e n ist, dann gilt
Bemerke : Wenn P(·) eine Wahrscheinlichkeitsbewertung auf A
e1i ∩ A
e2i ∩ . . . ∩ A
eni ) = P(A
e1i ) · P(A
e2i | A
e1i ) · P(A
e3i | A
e1i ∩ A
e2i ) · . . .
P( A
n
1
2
1
2
1
3
1
2
. . . · P(Aenin ) | Ae1i1 ∩ Ae2i2 ∩ . . . ∩ Aen−1in−1 ) ,
falls die bedingenden Ereignisse echt positive Wahrscheinlichkeiten haben.
e0 ⊆ A
e1 ⊆ A
e 2 ⊆ . . . assoziieren wir nun einen WurzelZur diskreten Filtrierung A
e n ; ein Knoten
baum: Die Knoten s in der Tiefe n entsprechen den Atomen von A
t in der Tiefe n + 1 ist mit einem Knoten s in der Tiefe n genau dann verbunden,
wenn das entsprechende Ereignis Aet in dem Ereignis Aes enthalten ist.
A
@ 1
@
A
@ 0
@
@
@
@
@
A
@ 2
@
@
@
r
r
r
r
r
r
@
r
@
r
@
r
HH
Hr
Wurzelbäume
Wir betrachten einen Wurzelbaum, in welchem jeder Knoten S höchstens abzählbar
viele unmittelbare Nachfolger hat. Wir setzen nicht voraus, daß der Baum beschränkte Tiefe hat.
1) Die Menge aller Knoten (oder Scheitel“) bezeichnen wir mit S. Ein Scheitel,
”
der keinen Nachfolger hat, heißt ein Blatt. B bezeichne die Menge aller
Blätter. Die Elemente von S r B heißen die inneren Scheitel.
2) Eine endliche Folge von unmittelbar aufeinanderfolgenden
(s0 , s1 , . . . , sn ) nennen wir ein Wegstück (der Länge n).
c Prof. Dr. H. Dinges,
18. Dezember 1998
Scheiteln
6.4
Konstruktion von Wahrscheinlichkeitsbewertungen
187
3) Pfade beginnen für uns hier immer in der Wurzel. Pfade, die nicht in einem
Blatt enden, sind unendlich lang.
4) Ω bezeichnet die Menge aller Pfade. ζ(ω) bezeichnet die Lebenszeit des
Pfades ω: ζ(ω) = n, wenn ω in einem Blatt in der Tiefe n endet und
ζ(ω) = +∞ für unendlich lange Pfade ω.
5) Wenn ζ(ω) ≥ n, dann bezeichnet Zn (ω) den Scheitel von ω in der Tiefe
n. Für jedes n ist somit Zn∧ζ(ω) (ω) eine wohlbestimmte Abbildung von Ω
in S.
6) Für jeden Knoten s bezeichnet As die Menge aller durch s laufenden Pfade.
Bemerke, daß es für jedes Paar As1 , As2 nur die Möglichkeiten
A s1 ∩ A s2 = ∅
oder As1 ⊆ As2
oder As2 ⊆ As1
gibt. Für jedes s ∈ S r B ist As die disjunkte Vereinigung der At zu den
unmittelbaren Nachfolgern t von s.
Von den Kantenbeschriftungen zu den Scheitelbeschriftungen
Die Kanten (s, t) eines Wurzelbaums seien beschriftet:
P (s, t) ≥ 0 ,
X
t
P (s, t) = 1 für alle s ∈ S r B .
(Die Summe ist über alle t zu erstrecken, die unmittelbar auf s folgen.)
Ausgehend von der Kantenbeschriftung P (·, ·) konstruieren wir zu jedem s ∗
eine Scheitelbeschriftung π ∗ (·) = πs∗ (·) wie folgt
(i) π ∗ (s) = 1 für alle s auf dem Weg von der Wurzel bis s ∗ .
(ii) π ∗ (s) = 0, wenn As ∩ As∗ = ∅.
(iii) π ∗ (s) = P (s∗ , s1 ) · P (s1 , s2 ) · . . . · P (sk−1 , s), wenn (s∗ , s1 , s2 , . . . , sk−1 , s) der
Weg ist, welcher s∗ mit s verbindet.
Wir gewinnen aus dieser Scheitelbeschriftung π ∗ (·) eine Mengenfunktion Ps∗ (·),
welche zunächst nur für die Argumente As erklärt ist:
Ps∗ (As ) = πs∗ (s) für alle s ∈ S .
Wir interpretieren Pw (As ) als die Wahrscheinlichkeit, daß eine Irrfahrt, die von der
Kantenbeschriftung P (·, ·) reguliert wird, den Scheitel s trifft. Ps∗ (·) interpretieren
wir als die bedingte Wahrscheinlichkeit, wenn schon bekannt ist, daß die Irrfahrt
durch s∗ läuft. Die Interpretation findet ihre Rechtfertigung in einem Theorem,
dessen ausgereifte Form in der Literatur unter dem Stichwort Satz von Ionescu–
”
Tulcea“ zu finden ist.
c Prof. Dr. H. Dinges,
18. Dezember 1998
188
Satz :
Für jedes feste s∗ gibt es genau ein Wahrscheinlichkeitsmaß Ps∗ (·) auf
der von den As über Ω erzeugten σ–Algebra mit Ps∗ (As ) = πs∗ (s) für alle s ∈ S.
Beispiel :
Betrachten wir den vollständigen binären Wurzelbaum. Die Menge
Ω aller Pfade kann man mit der Menge aller Null–Eins–Folgen identifizieren; wenn
man der Null–Eins–Folge ω = (δ1 (ω), δ2 (ω), . . .) die Zahl
∞
X
i=1
2−i · δi (ω)
zuordnet, dann ist das nahezu eine Bijektion von Ω auf das Einheitsintervall [0, 1].
Die abzählbar vielen sog. dyadischen Punkte in [0, 1] haben zwei Urbilder, die übrigen Punkte haben genau ein Urbild. Wenn nun alle Kanten mit dem Wert 1/2 beschriftet werden, dann liefert der Fortsetzungssatz von Ionescu–Tulcea das Lebesgue–
Maß auf (0, 1].
Wir bemerken : Die Scheitel des vollständigen binären Wurzelbaums entsprechen
in natürlicher Weise den dyadischen Intervallen, die Scheitel in der Tiefe n den
dyadischen Intervallen
k
k−1
, n
n
2
2
,
k = 1, 2, 3, . . . , 2n .
Die zu unserer Kantenbeschriftung gehörende Scheitelbeschriftung ordnet also jedem
solchen dyadischen Intervall den Wert 1/2 n , d.h. seine Länge, zu.
Von den Scheitelbeschriftungen zu den Kantenbeschriftungen
e ein Ereignisfeld, welches von einer diskreten Filtrierung
Sei nun wie oben A
e n : n = 0, 1, 2, . . .} erzeugt wird.
{A
e . Wir gewinnen dazu
1) Sei P(·) eine Wahrscheinlichkeitsbewertung auf A
zunächst einmal eine Scheitelbeschriftung π(·) auf dem dazugehörigen Wurzelbaum:
π(s) = P(Aes ) = P(Ae1i1 ∩ . . . ∩ Aenin ) .
Wir bemerken, daß sich die π(·)–Werte in den unmittelbaren Nachfolgern t
P
von s zu π(s) aufsummieren: π(s) = t π(t) (für jedes s).
Ausgehend von π(·) gewinnen wir eine Kantenbeschriftung auf dem Teilbaum,
der aus den Scheiteln s mit π(s) > 0 besteht. Für die Kanten (s, t) dieses
Teilbaums setzen wir nämlich
P (s, t) =
π(t)
.
π(s)
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.4
Konstruktion von Wahrscheinlichkeitsbewertungen
189
Offenbar gelangt man mit der Konstruktion von oben von dieser Kantenbeschriftung zur gegebenen Scheitelbeschriftung π(·); sie liefert also nach dem
Satz von Ionescu–Tulcea ein Wahrscheinlichkeitsmaß auf der Menge der Pfade
auf dem Teilbaum.
e n : n = 0, 1, 2, . . .}
2) Auf dem Wurzelbaum, welcher von der Filtrierung { A
erzeugt wird, sei eine Scheitelbeschriftung gegeben, so daß für alle s gilt:
Wenn man die π(t) über alle t, die unmittelbar auf s folgen, summiert,
erhält man π(s).
e n eine WahrscheinlichkeitsbewerDiese Scheitelbeschriftung liefert auf jedem A
tung νn (·); und diese νn (·) setzen einander fort. Die Frage, ob solche ν n (·) zu
e gehören, ist im allgemeinen nicht
einer Wahrscheinlichkeitsbewertung auf A
einfach zu beantworten.
Ebenfalls nicht leicht ist es im allgemeinen, einen vollständigen Überblick über die
Gesamtheit aller Wahrscheinlichkeitsbewertungen auf einem gegebenen (abzählbar
e zu gewinnen. Gibt es überhaupt Wahrscheinlichkeitsbeerzeugten) Ereignisfeld A
wertungen auf einem vorgegebenen σ–vollständigen Boole’schen Verband? Die Frage
wird im Anhang A.3.2 diskutiert.
c Prof. Dr. H. Dinges,
18. Dezember 1998
190
6.5
Gestoppte Irrfahrten durch einen Wurzelbaum
Gegeben sei ein Wurzelbaum, in welchem jeder Scheitel s höchstens abzählbar unendlich viele unmittelbare Nachfolger hat. S bezeichnet die Menge der Scheitel,
B die Menge der Blätter; Ω bezeichnet die Menge aller Pfade (von der Wurzel
ausgehend, unendlich lang oder in einem Blatt endend); ζ(ω) bezeichnet die Lebenszeit (= Länge des Pfades ω). Zu s ∈ S bezeichnet A s die Menge aller durch
s laufenden Pfade; A ist die von As erzeugte σ–Algebra über Ω.
Beachte :
Die Konstruktionen in diesem Abschnitt beziehen sich auf Teilmengen von Ω, Funktionen auf Ω und Abbildungen von Ω. Wir wollen aber nicht
ganz auf die Sprache der Ereignisse und Zufallsgrößen verzichten. Die Menge As
wird als das Ereignis gedeutet, daß ein in der Wurzel startender Irrfahrer durch den
Scheitel s läuft. Die Mengen aus A werden mit den beobachtbaren Ereignissen
identifiziert.
Endliche Stoppzeiten
Eine Teilmenge von S nennen wir einen transversalen Schnitt durch den Baum,
wenn die dazugehörenden As eine Partition von Ω bilden, wenn also jeder Pfad ω
durch genau eines der As hindurchläuft. Einen transversalen Schnitt beschreiben
wir durch die Funktion σ(·), welche dem Pfad ω die Tiefe zuordnet, in welcher er
den transversalen Schnitt durchläuft. Zu einem solchen σ(·) bezeichnet Aσ die von
der Partition erzeugte diskrete σ–Algebra. Aσ heißt auch die Menge der bis zur
zufälligen Zeit σ(·) beobachtbaren Ereignisse. Die diskrete σ–Algebra Aσ wird
offenbar erzeugt von der Abbildung
Zσ : Ω → S
welche jedem Pfad ω seinen Scheitel in der Tiefe σ(ω) zuordnet, den Scheitel im
transversalen Schnitt also, durch welchen ω läuft. Wir bemerken weiter: Die Menge
{ω : σ(ω) = n} ist eine Vereinigung von Mengen A s zu Scheiteln s in der Tiefe
n (für n = 0, 1, 2, . . .).
Wir fragen nun umgekehrt, welche Funktionen σ(·) auf Ω zu einem transversalen
Schnitt gehören. Neben σ(·) ≤ ζ(·) ist zu fordern: Wenn σ(ω) = n und ω 0 bis
in die Tiefe n mit ω übereinstimmt, dann gilt auch σ(ω 0 ) = n (n = 1, 2, . . .).
Äquivalent damit ist die Forderung, daß die Menge {ω : σ(ω) = n} Vereinigung
von Mengen As zu Scheiteln s in der Tiefe n ist (für jedes n).
Beispiel :
Zu jedem n liefert ζ(·) ∧ n einen transversalen Schnitt. Die
dazugehörige diskrete σ–Algebra bezeichnen wir mit
∗
An := Aζ∧n .
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.5
191
Gestoppte Irrfahrten durch einen Wurzelbaum
Die Menge {ω : ζ(ω) ∧ n = n} ist die Vereinigung aller A s zu Scheiteln s in
der Tiefe n. Für jedes σ(·) zu einem transversalen Schnitt ist auf der Menge
{ω : σ(ω) = n} die Spur von Aσ gleich der Spur von A∗n ; mit anderen Worten
A ∩ {ω : σ(ω) = n} ∈ Aσ ⇐⇒ A ∩ {ω : σ(ω) = n} ∈ A∗n .
Wir werden den Begriff der Stoppzeit in einem allgemeineren Kontext benötigen
und definieren daher
Definition :
(Stoppzeit)
e
e n )n eine Filtrierung, d.h. eine aufsteigende Folge von
Sei A ein Ereignisfeld und (A
e
e
e2 ⊆ . . .
Teilereignisfeldern A0 ⊆ A1 ⊆ A
a) Eine Zufallsgröße σ(·) mit Werten in {0, 1, 2, . . . , +∞} heißt eine Stoppzeit
e n )n , wenn
bzgl. der Filtrierung (A
en
{σ ≤ n} ∈ A
für alle n .
e σ als die Gesamtheit aller Ereignisse
b) Für eine Stoppzeit σ(·) definieren wir A
e
e
A ∈ A mit
en
Ae ∩{σ ≤ n} ∈ A
für alle n .
e σ heißt die Gesamtheit der bis zur Zeit σ beobachtbaren Ereignisse.
A
Bemerke :
Wir lassen den Wert +∞ als möglichen Wert von σ(·) zu. Wenn
{σ = +∞} das Nullereignis ist, sprechen wir von einer endlichen Stoppzeit. Wenn
für eine Wahrscheinlichkeitsbewertung P (·) gilt P ({σ = +∞}) = 0, dann sagen
wir, σ(·) sei P –fast sicher endlich. Bemerke, daß eine (P –fast sicher) endliche
Stoppzeit nicht notwendigerweise (P–fast sicher) beschränkt ist.
Im Falle einer diskreten Filtrierung kann man die endlichen Stoppzeiten mit den
transversalen Schnitten durch den entsprechenden Wurzelbaum identifizieren.
Lemma :
a) Wenn σ und τ Stoppzeiten sind, dann auch σ ∧ τ und σ ∨ τ .
e σ ein Ereignisfeld, d.h. eine σ–vollständige
b) Für jede Stoppzeit σ(·) ist A
e
Boole’sche Algebra ⊆ A.
eσ ⊆ A
eτ .
c) Wenn σ(·) ≤ τ (·), dann gilt A
c Prof. Dr. H. Dinges,
18. Dezember 1998
192
d) Wenn σ ≤ τ beschränkte Stoppzeiten sind und
τn = (σ ∨ n) ∧ τ für n = 0, 1, 2, . . . ,
dann steigen die τn in kleinen Schritten auf von τ0 = σ bis zu τN = τ für
alle genügend großen N .
τn+1 =
τn + 1 = n + 1
τn
auf dem Ereignis {σ ≤ n < τ }
auf dem Komplement .
Beispiel :
Eine Münze wird unendlich oft geworfen. Wir modellieren das Zufallsgeschehen durch den vollständigen binären Wurzelbaum. Ω ist die Menge
der Pfade, die wir mit der Menge aller unendlichen Null–Eins–Folgen identifizieren: ω ↔ (δ1 (ω), δ2 (ω), δ3 (ω), . . .). Die Scheitel s in der Tiefe n wollen wir mit
den Null–Eins–Folgen der Länge n identifizieren. Für einen Scheitel s in der Tiefe
n ist As die Menge derjenigen unendlichen Null–Eins–Folgen, die in den ersten
n Positionen die Einträge von s haben. Für eine endliche Stoppzeit σ(·) ist Z σ
die Abbildung, welche der unendlichen Folge ω sein Anfangsstück der Länge σ(·)
zuordnet. Die Aσ –meßbaren Funktionen f (ω) = F (δ1 (ω), δ2 (ω), . . .) sind die, die
nur von den ersten σ Einträgen abhängen, die also denselben Wert in Punkten ω
und ω 0 haben, welche dieselben Einträge bis zur Position σ(ω) = σ(ω 0 ) haben.
Die Wartezeit bis zum ersten Erfolg“ ist eine Stoppzeit τ (·). Im Punkt (0,0,0,0,. . . )
”
hat sie den Wert +∞. Für alle übrigen ω haben wir τ (ω) < ∞. Bei allen
nichttrivialen Wahrscheinlichkeitsbewertungen ist τ (·) fast sicher endlich, aber nicht
fast sicher beschränkt.
Gehen wir zurück zu unserem Wurzelbaum. Es sei P (·, ·) eine Kantenbeschriftung
X
P (s, t) ≥ 0 ,
t
P (s, t) = 1 für alle s ∈ S r B .
Definition :
Eine Funktion f (·) auf der Scheitelmenge S heißt (bzgl. der
Kantenbeschriftung P (·, ·))
a) supermedian, wenn
f (s) ≥
X
t
P (s, t)f (t) für alle s ∈ S r B .
b) submedian, wenn
f (s) ≤
X
t
P (s, t)f (t) für alle s ∈ S r B .
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.5
193
Gestoppte Irrfahrten durch einen Wurzelbaum
c) konkordant, wenn
f (s) =
X
t
P (s, t)f (t) für alle s ∈ S r B .
Bei den supermedianen Funktionen läßt man den Wert +∞ zu und fordert
−
t P (s, t)f (t) < ∞ . Entsprechend erlaubt man bei den submedianen Funktionen den Wert −∞. Eine Funktion ist konkordant, wenn sie sowohl supermedian
als auch submedian ist. Jeder Satz über supermediane Funktionen (und später für
Supermartingale) ist auch ein Satz über submediane Funktionen (und später Submartingale). Es hat keine systematischen (sondern allenfalls traditionelle) Gr ünde,
wenn mance Sätze im Super“–Fall und andere im Sub“–Fall bewiesen werden.
”
”
P
Satz :
Wenn f (·) und g(·) supermediane Funktionen sind, dann ist auch das
punktweise Minimum supermedian. Sei nämlich h(s) = f (s) ∧ g(s). Dann gilt
X
t
P (s, t)h(t) ≤
X
t
P (s, t)f (t) ≤ f (s)
und ebenso
X
t
P (s, t)h(t) ≤ g(s) .
Es gibt reichlich konkordante Funktionen und zwar sogar auch nichtnegative konkordante Funktionen.
Konstruktion von konkordanten Funktionen
Sei P (·, ·) eine strikt positive Kantenbeschriftung mit zugehöriger Scheitelbeschriftung µ(·) .
1) Sei Q(·, ·) eine weitere Kantenbeschriftung.
Q(s, t) ≥ 0 ,
X
t
Q(s, t) = 1 für alle s ∈ S r B .
Die Scheitelbeschriftung zu Q(·, ·) sei ν(·); also
µ(s) = P (ω, s1 ) · P (s1 , s2 ) · . . . · P (sn−1 , s)
ν(s) = Q(ω, s1 ) · Q(s1 , s2 ) · . . . · Q(sn−1 , s) ,
falls (ω, s1 , s2 , . . . , sn−1 , s) der Weg von der Wurzel in den Scheitel s ist.
Der Quotient
f (s) =
ν(s)
µ(s)
ist dann eine konkordante Funktion.
c Prof. Dr. H. Dinges,
18. Dezember 1998
194
In der Tat gilt für die unmittelbaren Nachfolger t von s
µ(t) = µ(s) · P (s, t)
ν(t) = ν(s) · Q(s, t)
und daher
X
P (s, t)f (t) =
t
X
t
P (s, t) ·
ν(s) X
ν(s) · Q(s, t)
Q(s, t) = f (s) .
=
µ(s) · P (s, t)
µ(s) t
2) Sei auf der anderen Seite f (·) eine strikt positive konkordante Funktion. Wir
setzen dann
ν(s) = µ(s)f (s)
und
Q(s, t) =
ν(t)
ν(s)
und gewinnen so eine weitere strikt positive Kantenbeschriftung. In der Tat
gilt für alle s ∈ S r B
X
Q(s, t) =
X ν(t)
t
t
ν(s)
=
f (t)
1 X
P (s, t)f (t) = 1 .
=
µ(s) f (s)
f (s) t
X µ(t)
t
·
Wenn f (·) nichtnegativ, aber nicht strikt positiv ist, dann gewinnt man immerhin eine Kantenbeschriftung auf dem Teilbaum der Scheitel s mit f (s) > 0.
Interpretation :
1) Eine konkordante Funktion f (·) kann man sich als die Auszahlung in einem
fairen Spiel vorstellen. Ein Irrfahrer läuft durch den Wurzelbaum. In jedem
Scheitel s darf er f (s) kassieren und ausscheiden; er kann aber auch weitermachen und verliert dadurch im Mittel nichts an Gewinnerwartung; denn der
erwartete Gewinn nach einem weiteren Schritt ist
X
P (s, t)f (t) = f (s) .
t
Es ist wohl plausibel, daß der Spieler auch dann nichts an Gewinnerwartung
verliert, wenn er sich entscheidet, zur beschränkten Stoppzeit σ(·) die Auszahlung
Xσ = f (Zσ )
zu kassieren. Wir werden das im nächsten Abschnitt in allgemeinerer Form
beweisen.
2) Sei nun f (·) eine supermediane Funktion. Dem Spieler, der sich im Scheitel s
befindet, ist zu raten, sofort die Auszahlung f (s) zu kassieren; die Gewinnerwartung nach einem weiteren Schritt ist nämlich höchstens gleich f (s), und
die Sache wird nicht besser, wenn er zu einer beschränkten Stoppzeit kassiert.
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.5
195
Gestoppte Irrfahrten durch einen Wurzelbaum
Satz :
Wenn f (·) submedian ist, dann gilt für die Zufallsgrößen Xσ = f (Zσ ),
Xτ = f (Zτ ) zu jedem Paar beschränkter Stoppzeiten σ(·) ≤ τ (·)
Xσ ≤ E (Xτ | Aσ ) P –fastsicher .
Beweis :
1) Wie oben konstruieren wir Stoppzeiten (σ n )n , die in kleinen Schritten von
σ0 (·) = σ(·) zu τ (·) aufsteigen
σn (·) = (σ(·) ∨ n) ∧ τ (·)
und wir zeigen
Xσn ≤ E (Xσn+1 | Aσn ) P –fastsicher .
Es folgt dann
X σ = X σ0
≤ E (Xσ1 | Aσ ) ≤ E (E (Xσ2 | Aσ1 ) | Aσ )
= E (Xσ2 | Aσ ) ≤ E (E (Xσ3 | Aσ2 ) | Aσ )
= E (Xσ3 | Aσ ) ≤ . . . .
Da Xσn = Xτ für alle genügend großen n, folgt die Behauptung.
2) Die diskrete σ–Algebra Aσn ist von Zσn erzeugt. Auf einigen Atomen
As = {ω : Zσn = s} haben wir σn+1 (ω) = σn (ω). Auf den übrigen Atomen
As von Aσn , nämlich auf den
As ⊆ {ω : σ(ω) ≤ n < τ (ω)} ,
haben wir σn (ω) = n und σn+1 (ω) = σn (ω) + 1 = n + 1. Für diese gilt
P(Zσn+1 = t | {Zσn = s}) = P (s, t)
und somit
E (f (Zσn+1 ) | {Zσn = s}) =
X
t
P (s, t)f (t) ≥ f (s) .
Also haben wir fastsicher
E (Xσn+1 | Zσn ) ≥ Xσn .
c Prof. Dr. H. Dinges,
18. Dezember 1998
196
Bemerke :
Die Bedingung, daß τ (·) beschränkt ist, kann nicht ersatzlos aufgegeben werden. Zwar gilt für jede (P–fastsicher) endliche Stoppzeit τ (·), daß
σn (·) ↑ τ (·) (P–fast sicher). Daraus kann man aber im allg. nicht schließen, daß
E (Xτ | Aσ ) größer oder gleich dem aufsteigenden Limes lim ↑ E (Xσn | Aσ ) ist.
(Für den Kenner: Man braucht die gleichmäßige Integrabilität des Submartingals
(Xσn )n . )
Die Glücksspieler haben immer wieder darüber spekuliert, wie man sich bei einem
Schritt–für–Schritt fairen (oder sogar subfairen) Spiel durch geschicktes Plazieren der
Einsätze doch eine positive Gewinnerwartung sichern könne. Dem folgenden hypothetischen Spielsystem gab man den Namen Martingal: Der Spieler beteiligt sich an
einer Folge von Spielen, wo ihm im Falle von Gewinn“ das Doppelte des Einsatzes
”
ausgezahlt wird, während im Falle von Verlust“ der Einsatz verlorengeht.
”
Im ersten Spiel setzt er eine DM; solange er verliert, verdoppelt er für die nächste
Runde den Einsatz. Wenn nach k Runden zum ersten Mal Gewinn“ eintritt, dann
”
wird ihm von der Bank das Doppelte seines Einsatzes 2 k , also der Betrag 2k+1
ausgezahlt. Dem steht der bis dahin geleistete Einsatz gegenüber
1 + 2 + 22 + . . . + 2k = 2k+1 − 1 .
Der Spieler gewinnt also insgesamt mit Sicherheit 1 DM, wenn er nur sicher ist, daß
jemals Gewinn“ eintritt.
”
Dem steht die mathematische Aussage gegenüber, daß es bei einem in jedem Schritt
fairen Spiel kein Spielsystem mit echt positiver Gewinnerwartung gibt. Dieses Pa”
radoxon“ findet seine Aufklärung in der Martingaltheorie.
Martingal heißt übrigens auch ein bestimmter Hilfszügel im Zaumzeug des Pferdes.
Die Zusammenhänge in der Namensgebung scheinen nicht geklärt zu sein. Es ist
auch nicht klar, welche Vorstellungen J.L. Doob bewegt haben, das mathematische
Objekt, welches wir im nächsten Abschnitt studieren, Martingal zu nennen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.6
197
Martingale in diskreter Zeit
6.6
Martingale in diskreter Zeit
Die Martingale nehmen heute einen zentralen Platz in der Stochastik ein. Das liegt
daran, daß man häufig durch die Konstruktion passender Martingale verwickelte
Sachverhalte aufklären kann. In der Angewandten Mathematik geht es gerade um
solche Sachverhalte. Vom Standpunkt der Reinen Mathematik dagegen reduziert sich
die Theorie der Martingale (in diskreter Zeit) im wesentlichen auf zwei Aussagen, die
insofern nicht sehr tief liegen, als sie relativ einfach zu beweisen sind. Der eine Satz
ist der Satz vom ausgeschlossenen Spielsystem bzw. das Optional Stopping Theorem.
Der andere besagt, daß beschränkte Submartingale fastsicher konvergieren. Nachdem
wir die nötigen Begriffsbildungen in übersichtlichen Situationen vorbereitet haben,
wollen wir hier zum Abschluß die Beweise der Hauptsätze durchführen. Die Leser,
die noch keine Erfahrungen mit allgemeiner Maßtheorie haben, mögen sich an den
oben beschriebenen Situationen der diskreten Filtrierungen orientieren.
Definition :
Gegeben sei eine Filtrierung eines meßbaren Raums (Ω, A)
A0 ⊆ A1 ⊆ A2 ⊆ . . . .
Eine Stoppzeit τ (·) ist eine A–meßbare Funktion mit Werten in {0, 1, 2, . . . , +∞}
mit
{ω : τ (ω) ≤ n} ∈ An
für alle n .
Die Gesamtheit aller bis zur Zeit τ (·) beobachtbaren Ereignisse ist die σ–Algebra
Aτ aller Ereignisse A mit
A ∩ {τ ≤ n} ∈ An
für alle n .
Definition :
Eine Folge von Zufallsgrößen (Xn )n heißt adaptiert an die Filtrierung, wenn Xn An –meßbar ist für n = 0, 1, 2, . . ..
Sei P(·) ein Wahrscheinlichkeitsmaß auf (Ω, A). Eine adaptierte Folge (Xn )n mit
E (|Xn |) < ∞ für alle n heißt (bzgl. P(·))
Martingal , wenn für alle n gilt Xn = E (Xn+1 | An ) P–fastsicher ;
Submartingal , wenn für alle n gilt Xn ≤ E (Xn+1 | An ) P–fastsicher ;
Supermartingal , wenn ≥ an der Stelle von ≤ steht ;
c Prof. Dr. H. Dinges,
18. Dezember 1998
198
Ergänzende Bemerkungen
Manchmal betrachtet man statt des (Sub–,
Super–)Martingals lieber die Differenzenfolge
∆n := Xn − Xn−1 ,
n = 1, 2, . . . .
∆n ist An –meßbar mit
(∗)

≥ 0
E (∆n | An−1 )  = 0
≤0
für Submartingale
für Martingale
für Supermartingale .
Umgekehrt gewinnt man zu einer Folge (∆ n )n mit ∆n An –meßbar und (∗) ein
(Sub–, Super–)Martingal, wenn man (mit einem beliebigen A0 –meßbaren X0 ) setzt
Xn := X0 + ∆1 + ∆2 + . . . + ∆n .
Im Falle E (∆n | An−1 ) = 0 für alle n nennt man die Folge (∆n )n eine Martingaldifferenzenfolge.
Beispiel :
Seien ∆1 , ∆2 , . . . unabhängige Zufallsgrößen mit E (∆n ) = 0 für
alle n, dann ist der Summenprozeß
Sn = ∆ 1 + ∆ 2 + . . . + ∆ n
ein Martingal bzgl. der Filtrierung ( An )n , in welcher An die durch (S1 , . . . , Sn )
erzeugte σ–Algebra ist.
Doob’s Zerlegung :
Sei (Xn )n ein Submartingal und
∆n := Xn − Xn−1 ,
Dann liefert
e n = ∆n − E (∆n | An−1 ) .
∆
e n := X0 + ∆
e1 + ∆
e2 + ...∆
en
X
e n ist An−1 –meßbar mit
ein Martingal und An := Xn − X
0 = A0 ≤ A1 ≤ A2 ≤ A3 ≤ . . . P –fastsicher .
Beweis :
denn
Daß die Folge (An ) ansteigt, ist gerade die Submartingaleigenschaft;
e n = E (∆n | An−1 ) P –fastsicher .
An − An−1 = ∆n − ∆
In der Fachsprache drückt man den Sachverhalt so aus: Ein Submartingal (X n )
kann in eindeutiger Weise in ein Martingal und einen vorhersagbaren von 0 aus
ansteigenden Prozeß zerlegt werden:
e n + An
Xn = X
(mit A0 = 0) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.6
199
Martingale in diskreter Zeit
Theorem :
(vom ausgeschlossenen Spielsystem)
Sei Xn = X0 + ∆1 + . . . + ∆n ein Supermartingal und Hn ≥ 0 An−1 –meßbar für
alle n. (Man sagt: H ist vorhersagbar.) Dann liefert
Yn = H 1 · ∆ 1 + H 2 · ∆ 2 + . . . + H n · ∆ n
ein Supermartingal.
Beweis :
E (Yn − Yn−1 | An−1 ) = E (Hn · ∆n | An−1 ) = Hn · E (∆n | An−1 ) ≤ 0 .
Die Konstruktion hat sich als so wichtig erwiesen, daß man eine eigene Notation
geschaffen hat, nämlich
(Y )n = (H · X)n .
Beispiel :
Hn (ω)
Seien σ(·) ≤ τ (·) Stoppzeiten und

 = 0,
= 1,

= 0,
wenn n < σ(ω)
wenn σ(ω) ≤ n < τ (ω)
wenn τ (ω) ≤ n ,
kurz geschrieben Hn (ω) = 1[σ(ω),τ (ω)) (n) oder noch kürzer H = 1[σ,τ ) .
Man nennt den Prozeß (Hn )n das stochastische Intervall von σ(·) bis τ (·) (linksseitig einschließlich der Randpunkte, rechtsseitig ohne den Randpunkt).
Der Prozeß (Hn )n erfüllt die Voraussetzungen des Satzes vom ausgeschlossenen
Spielsystem; wir erhalten also ein Supermartingal Y zum Supermartingal X
(Y )n = (1[σ,τ ) · X)n .
Mit der Bezeichnung τn = (σ ∨ n) ∧ τ haben wir
Y n = X τn − X σ .
Interpretation :
Wir denken an einen Spieler, der sich (mit variablen
Einsätzen) an einer Serie von Spielen beteiligt. Im n–ten Spiel wird für den festen Einsatz h ≥ 0 die (zufällige!) Auszahlung h · ∆n ausgeschüttet und der
Einsatz zurückerstattet. Die Annahme, daß (Xn )n ein Supermartingal ist, bedeutet gerade, daß jedes einzelne Spiel ∆ n nichtpositive bedingte Erwartung hat (für
jemanden, der nicht in die Zukunft schauen kann, d.h. nur über das zur Zeit n − 1
verfügbare Wissen verfügt). Der Satz besagt: Auch wenn der Spieler seine Einsätze
Hn (jeweils mit dem Wissen, das zur Zeit (n−1) verfügbar ist!) irgendwie plaziert,
c Prof. Dr. H. Dinges,
18. Dezember 1998
200
bleibt er doch in einer unvorteilhaften Situation. Im Beispiel steigt der Spieler zum
Zeitpunkt σ(·) mit dem Kontostand Y σ = 0 ins Spielgeschehen ein und scheidet
zum Zeitpunkt τ (·) mit dem Gewinn“ Yτ = Xτ − Xσ wieder aus. Die Situation
”
ist insofern unvorteilhaft, als der Gewinn, den er zu einer beschränkten Stoppzeit
kassieren kann, stets negativen Erwartungswert hat: E (Yτ ) ≤ 0. Dies ergibt sich aus
dem folgenden Theorem:
Theorem :
( Optional Stopping Theorem“)
”
Sei (Xn )n ein Supermartingal und σ(·) ≤ τ (·) beschränkte Stoppzeiten. Es gilt
dann
E (Xτ | Aσ ) ≤ Xσ
P –fastsicher .
Beweis :
Wir führen den Beweis genauso wie oben im Spezialfall diskreter
Filtrierungen. Die Stoppzeiten
σn (·) = (σ(·) ∨ n) ∧ τ (·)
steigen von σ(·) in kleinen Schritten zu τ (·) auf und erreichen τ (·) nach endlich
vielen Schritten. Wir zeigen E (Xσn+1 | Aσn ) ≤ Xσn P –fastsicher. Wenn σn+1 nicht
gleich σn ist, dann hat σn den Wert n und σn+1 den Wert n + 1. Dies passiert
für die ω mit
σ(ω) ≤ n < τ (ω) ,
also auf dem Ereignis
An := {σ(·) ≤ n} r {τ (·) ≤ n} ∈ An .
Auf der Menge An haben Aσn und An dieselbe Spur. Also gilt
E (Xσn+1 − Xσn | Aσn ) = 1An · E (Xn+1 − Xn | An ) ≤ 0
P –fastsicher .
Hinweis für Kenner :
Wenn man an (Xn )n keine zusätzlichen Bedingungen stellt, dann kann man nicht erwarten, daß die Ungleichung für alle (fastsicher
endlichen) Stoppzeiten τ (·) gilt.
Man kann die Ungleichung aber für alle Stoppzeiten τ (·) beweisen, wenn das Supermartingal in dem folgenden Sinne gleichmäßig integrabel ist:
∀ε>0∃M ∀n
E (|Xn | · 1{|Xn |≥M } ) < ε .
Man kann hier sogar Stoppzeiten τ (·), die den Wert +∞ annehmen, zulassen,
wenn man Xτ auf der Menge {τ = +∞} als den Limes der X n definiert. (Daß
der Limes P –fastsicher existiert, werden wir sehen.)
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.6
201
Martingale in diskreter Zeit
Häufig wird dieser Satz, der die gleichmäßige Integrierbarkeit von (Xn ), nicht aber
die Beschränktheit der Stoppzeiten voraussetzt, als das Optional Stopping Theorem
bezeichnet. Den Begriff der gleichmäßigen Integrierbarkeit wollen wir hier aber nicht
weiterverfolgen.
Beispiel :
Konkretisieren wir das hypothetische Spielsystem Martingal“, wel”
ches wir am Ende von 6.5 diskutiert haben. Seien Z 1 , Z2 , . . . unabhängig mit
1
= Ws(Z = −1) (Martingaldifferenzen)
2
= Z1 + . . . + Zn (Martingal)
Ws(Z = 1) =
Xn
Hn (ω) = 2n−1 · 1[0,τ (ω)) (n)
(vorhersagbarer Prozeß) ,
wo τ (ω) = inf{n : Zn = +1} .
Für das Martingal (Y )n = (H · X)n haben wir
Yn (ω) =
1,
1 − 2n ,
wenn τ (ω) ≤ n
wenn τ (ω) > n .
Wenn nämlich τ (ω) = k ≤ n, dann steht den kumulierten Einsätzen 1+2+. . .+2k−1
der Gewinn 2k im k–ten Spiel gegenüber; wenn dagegen τ (ω) > n, dann ist der
Kontostand nach dem (n − 1)–ten Setzen vor dem n–ten Spiel
−1 − 2 − 22 − . . . − 2n−1 = 1 − 2n .
Das Martingal (Yn )n ist nicht gleichmäßig integrabel; denn für alle M > 1 und
genügend große n gilt
n
E (|Yn | · 1{|Yn |≥M } ) = (2 − 1) ·
1
1
=1− n .
2n
2
Es kann also keine Rede davon sein, daß der Erwartungswert für
gleichmäßig in n klein wird.
M → ∞
Lemma :
a) Wenn (Xn )n ein Martingal ist und k(·) eine konvexe Funktion, so daß die
Zufallsgrößen Yn = k(Xn ) endlichen Erwartungswert besitzen, dann ist (Y n )n
ein Submartingal.
b) Wenn (Xn )n ein Submartingal ist und k(·) eine isotone konvexe Funktion,
so daß die Zufallsgrößen Yn = k(Xn ) endlichen Erwartungswert haben, dann
ist (Yn )n ein Submartingal.
c Prof. Dr. H. Dinges,
18. Dezember 1998
202
Nach der Jensen’schen Ungleichung gilt
Beweis :
E (k(Xn+1 ) | An ) ≥ k(E (Xn+1 | An ))
P –fastsicher .
In der Situation b) schließen wir aus der Annahme
E (Xn+1 | An ) ≥ Xn
fastsicher
und der Isotonie von k(·)
E (Yn+1 | An ) = E (k(Xn+1 ) | An ) ≥ k(Xn ) = Yn
fastsicher .
Beispiele :
1) Wenn (Xn )n ein Martingal ist, dann ist (|Xn |)n ein Submartingal. Wenn
(Xn )n ein Submartingal ist, dann auch (Xn+ )n .
√
2) k(x) = x + 1 + x2 ist eine isotone, strikt konvexe Funktion. Für alle x ≥ 0
gilt k(x) ≤ 1 + 2x. Daher gilt:
Für jedes Submartingal (Xn )n ist Yn = k(Xn ) ein Submartingal mit
+
E (Yn ) ≤ 1 + 2 · E (Xn ) .
Wir werden den berühmten Martingalkonvergenzsatz nicht wie üblich mit
Doob’s Upcrossing Inequality“ beweisen, sondern unter Zuhilfenahme der Eigen”
schaften der Funktion k(·). Die Eigenschaften von k(·), die wir wirklich brauchen,
sammeln wir als
Vorbereitende Bemerkungen :
e und alle α > 0 ist
1) Für alle x
e) := {x : k(x) − [k(x
e ) + k 0 (x
e)(x − x
e)] < α}
Uα (x
e. Wir setzen
eine Umgebung von x
e, x) = k(x) − [k(x
e ) + k 0 (x
e)(x − x
e)]
F (x
e, x) ≥ 0 sowie
und bemerken F (x
e, x) ≥ α ⇐⇒ x ∈
e) .
F (x
/ U α (x
Zu jedem ε > 0 und jedem λ existiert ein α > 0, so daß für |x| ≤ λ der
e) kleiner ist als ε.
Durchmesser von Uα (x
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.6
203
Martingale in diskreter Zeit
2) Für beschränkte Zahlenfolgen (xn )n gilt
(xn )n konvergent
⇐⇒
⇐⇒
(m)
wobei τα
∀α>0∃m: ∀n≥m
∀α>0∃m:
τα(m)
xn ∈ Uα (xm )
= +∞ ,
:= inf{` ≥ m und x` ∈
/ Uα (xm )} .
3) Für Folgen von Zufallsgrößen (Xn )n , die fastsicher beschränkt sind, gilt
(Xn )n fastsicher konvergent
⇐⇒
⇐⇒
⇐⇒
∀ β > 0, α > 0 ∃m : P (X` ∈ Uα (Xm ) für alle ` ≥ m) ≥ 1 − β
∀ β > 0, α > 0 ∃m : P (τα(m) < ∞) < β
4) Für n > m gilt
{τα(m) ≤ n} = {F (Xm , Xτ (m) ∧n ) ≥ α}
α
α · 1{τ (m) ≤n} ≤ F (Xm , Xτ ∧n )
α
Theorem :
( Martingalkonvergenzsatz“)
”
a) Jedes normbeschränkte Martingal konvergiert fastsicher.
b) Wenn für ein Submartingal die Folge der Erwartungswerte E (Xn+ ) beschränkt
ist, dann konvergiert es fastsicher.
Beweis :
1) Aus der Beschränktheit von E (Xn+ ) folgt die Normbeschränktheit des Submartingals (Xn )n ; denn
E (|Xn |) = 2 E (Xn+ ) − E Xn ≤ 2 E (Xn+ ) − E X0 .
Die Formulierung b) hat den mnemotechnischen Vorteil, daß sie an den Satz aus
der elementaren Analysis erinnert: Jede nach oben beschränkte aufsteigende
Folge konvergiert. Die Submartingale gelten den Stochastikern als Analogon zu
den ansteigenden Folgen. Man präge sich ein: Jedes nach oben beschränkte
Submartingal konvergiert.
2) Wir haben gesehen: Wenn (Xn )n ein Submartingal ist, dann auch (Xn+ )n .
Wir betrachten für λ > 0 die Stoppzeit
τ = τλ := inf{k : Xk+ ≥ λ} .
c Prof. Dr. H. Dinges,
18. Dezember 1998
204
Das Optional Stopping Theorem angewandt auf τ ∧ n ≤ n liefert
Xτ+∧n ≤ E (Xn+ | Aτ ∧n )
E 1{τ ≤n} · Xτ+∧n
≤ E 1{τ ≤n} · Xn+
und wegen λ · 1{τ ≤n} ≤ Xτ+ · 1{τ ≤n}
P
λ · P (τ ≤ n) ≤ E 1{τ ≤n} · Xn+
max Xk ≥ λ
0≤k≤n
≤
1
E (Xn+ )
λ
(“Doob’s Maximumsungleichung“) .
Wenn E (Xn+ ) beschränkt ist, dann gilt für alle n
P (τλ < n) ≤
1
· const
λ
und somit
P
sup Xk+
k
> λ ≤ P (τλ < ∞) ≤
1
· const .
λ
Die Zufallsgröße supk Xk+ ist also fastsicher endlich.
Hinweis :
Die Abschätzung der Schwanzwahrscheinlichkeiten garantiert
nicht die Endlichkeit des Erwartungswerts; und in der Tat kann das Supremum einen unendlichen Erwartungswert haben. Als Übung studiere man das
altehrwürdige Spielsystem Martingal“ von oben.
”
3) Wenn (Xn )n ein normbeschränktes Martingal ist, dann sind (Xn+ )n und
(Xn− )n fastsicher beschränkt.
Jedes Submartingal ist die Summe aus einem Martingal und einem ansteigenden Prozeß ( Doob’s Zerlegung“). Wenn es normbeschränkt ist, ist also auch
”
(Xn− )n fastsicher beschränkt.
4) Sei (Xn )n ein normbeschränktes Submartingal und
Yn = k(Xn )
mit
k(x) = x +
p
1 + x2 .
(Yn )n ist ein normbeschränktes Submartingal. Setze
k+ = lim ↑ E (k(Xn )) = lim ↑ E (Yn ) .
n→∞
Zu vorgegebenen α > 0, β > 0 wähle m so groß, daß
E (Ym ) ≥ k+ − α · β .
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.6
205
Martingale in diskreter Zeit
(m)
Mit τ = τα
aus den vorbereitenden Bemerkungen betrachten wir für alle
n ≥ m die Stoppzeiten
m ≤ τα(m) ∧ n ≤ n .
Nach dem Optional Stopping Theorem gilt
k+ − αβ ≤ E (Ym ) ≤ E (Yτ ∧n ) ≤ E (Yn ) ≤ k+ .
Andererseits gilt
E (Yτ ∧n − Ym | Am ) = E (k(Xτ ∧n ) − k(Xm ) | Am )
= E k 0 (Xm )[Xτ ∧n − Xm ] | Am + E (F (Xm , Xτ ∧n ) | Am )
≥ k 0 (Xm ) E (Xτ ∧n − Xm | Am ) + E α · 1{τ (m) ≤n} | Am
α
Der erste Summand ist fastsicher positiv. Integration liefert
.
αβ ≥ E (Yτ ∧n ) − E (Ym ) ≥ αP (τα(m) ≤ n) ,
d.h.
P τα(m) ≤ n ≤ β
für alle n .
Nach der Vorbereitung 3) beweist das die fastsichere Konvergenz von (X n )n .
Bemerke :
Aus der fastsicheren Konvergenz X n → X∞ folgt bekanntlich
nicht die Konvergenz in der Norm. Zum Nachweis von
lim E (|Xn − X∞ |) = 0
n→∞
braucht man die gleichmäßige Integrabilität.
Beispiel :
(Zum Hauptsatz der Differential– und Integralrechnung“)
”
1) An sei die σ–Algebra über (0, 1], die von der Partition des Einheitsintervalls
in die dyadischen Intervalle
k−1
,
2n
k
,
2n
k = 1, 2, . . . 2n
erzeugt wird. Bekanntlich erzeugt die Mengenalgebra
über (0, 1].
∞
S
An die Borelalgebra
Der Wurzelbaum zur Filtrierung (An )n ist der vollständige binäre Wurzelbaum.
c Prof. Dr. H. Dinges,
18. Dezember 1998
206
2) Das Lebesguemaß entspricht der Kantenbeschriftung, die jede Kante mit
beschriftet.
3) Sei f (·) Lebesgue–integrabel und F (·) die Stammfunktion F (x) =
Xn (ω) = 2
n
k/2
Z
f (y) dy = 2n F
(k−1)/2n
k
2n
−F
k−1
2n
für ω ∈
f (y) dy.
0
Betrachte dazu für n = 0, 1, 2, . . . die Treppenfunktionen
n
Rx
1
2
k−1 k
, n .
2n
2
4) Die Folge (Xn )n ist ein normbeschränktes Martingal. Der Martingalkonvergenzsatz liefert die fastsichere Konvergenz X n → X∞ .
5) Das Martingal ist sogar gleichmäßig integrabel (ohne Beweis!). Daraus ergibt
sich
Z
|Xn − X∞ | → 0
und
X∞ = f
Lebesgue–fastsicher .
6) Man erinnere sich an die elementare Analysis: Man kann nicht für alle Stammfunktionen F (·) erwarten, daß die Folge der Differenzenquotienten
1
[F (x + hn ) − F (x)]
hn
für hn → 0 in einem vernünftigen Sinn konvergiert. Ohne einschränkende Voraussetzungen an den Integranden f (·) kommt man in der klassischen
Differential– und Integralrechnung nicht weit. Man sollte also nicht die Differenzenquotienten betrachten sondern die Mittelwerte über immer feiner werdende
Partitionen des Intervalls.
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.7
207
Kolmogorovs Gesetz der großen Zahlen
6.7
Kolmogorovs Gesetz der großen Zahlen
Das starke Gesetz der großen Zahlen lautet in seiner Urform: Wenn Z 1 , Z2 , . . .
unabhängige identisch verteilte Zufallsgrößen sind und die Verteilung L(Z) einen
endlichen Erwartungswert hat, dann konvergiert
1
(Z1 + Z2 + . . . + Zn )
n
fast sicher
und zwar gegen die Zahl E Z.
Es ist im Laufe der Zeit viel Mühe darauf verwendet worden, die Rolle der Voraussetzungen für die fastsichere Konvergenz ganz auch in allgemeineren Situationen
herauszustellen. Daß Zufallsgrößen ohne Erwartungswert nicht in die Theorie der
Gesetze der großen Zahlen passen, erkannte bereits Daniel Bernoulli (1700–1782).
Um dies zu beleuchten, diskutierte er z.B. das sog. Petersburger Paradox, welches
auch in modernen Lehrbüchern noch manchmal erscheint (siehe z.B. Durett). Allgemeinere Situationen schwächen entweder die Annahme der Unabhängigkeit ab oder
sie betrachten unabhängige nicht identisch verteilte Zufallsgrößen.
Wir wollen hier nicht umfassend über Grenzwertsätze berichten. Wir diskutieren
vielmehr einige Sätze, die sich natürlich an die obigen Überlegungen über Martingale
anschließen.
Als Verallgemeinerung der Tschebyschev’schen Ungleichung
Ws(|X − E X| ≥ ε) ≤
1
var X
ε2
beweisen wir die
Ungleichung von Kolmogorov
Seien Z1 , Z2 , . . . unabhängig mit E Zn = 0. Dann gilt für alle λ > 0 und alle n
Ws
max |Z1 + . . . + Zm | ≥ λ ≤
0≤m≤n
1
var (Z1 + . . . + Zn ) .
λ2
Beweis :
1) Wir schwächen die Voraussetzung ab, indem wir nur annehmen, daß Z 1 , Z2 , . . .
eine Martingaldifferenzenfolge ist. Es sei also eine Filtrierung gegen und eine
Folge von An –meßbaren und Zufallsgrößen Zn mit A0 ⊆ A1 ⊆ A2 ⊆ . . .
E (Zn | An−1 ) = 0
für alle n .
Die Folge der Partialsummen Xn := Z1 + . . . + Zn ist also ein Martingal mit
X0 = 0 .
c Prof. Dr. H. Dinges,
18. Dezember 1998
208
2) Betrachte die bedingten Varianzen der Zuwächse
Vn := E Zn2 | An−1
und ihre Erwartungswerte vn = E Vn . Wegen E (Xn | An−1 ) = Xn−1 haben
wir
2
var (Xn | An−1 ) = E Xn2 | An−1 − Xn−1
2
= E (Xn−1 + Zn )2 | An−1 − Xn−1
= E 2Xn−1 Zn + Zn2 | An−1
= Vn .
var Xn = E (var (Xn | An−1 )) + var (E (Xn | An−1 ))
= E Vn + var Xn−1
= vn + vn−1 + . . . + v1
= var Z1 + var Z1 + . . . + var Zn .
3) Mit diesen Notationen lautet die zu beweisende Behauptung
Ws
max
0≤m≤n
2
Xm
≥λ
2
≤
1
1
var Xn = 2 E Xn2 .
2
λ
λ
Der Beweis ergibt sich aus Doob’s Ungleichung angewandt auf das positive Submartingal (Xn2 )n . Für die Stoppzeit
2
τ = inf{m : Xm
≥ λ2 }
und die beschränkten Stoppzeiten τ ∧ n ≤ n haben wir wegen
Xτ2∧n · 1{τ ≤n} ≥ λ2 · 1{τ ≤n}
λ2 · Ws(τ ≤ n) ≤ E Xτ2∧n ≤ E Xn2 .
Sätze wie der folgende lassen sie einprägsam formulieren, wenn man sich einer allgemein üblichen Sprechweise bedient.
Sprechweise :
Man sagt von einer Folge reellwertiger Zufallsgrößen
Z1 , Z2 , Z3 , . . ., daß sie dem starken Gesetz der großen Zahlen genügt, wenn
1
n (Z1 + . . . + Zn ) fastsicher konvergiert.
Satz
( Kolmogorov’s Kriterium“)
”
Seien Z1 , Z2 , . . . unabhängig mit E Zn = 0. Wenn
∞
X
1
k2
var Zk < ∞ ,
dann genügt die Folge dem starken Gesetz der großen Zahlen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.7
209
Kolmogorovs Gesetz der großen Zahlen
Beweis :
1) Wir schwächen die Annahme wie oben ab: Z1 , Z2 , . . . sei eine Martingaldifferenzenfolge mit vn = E Zn2 . Wir fordern 1v22 + 2v22 + v332 + . . . < ∞. Wir zeigen,
daß die Folge
Tk :=
1 2
1
Xk = 2 (Z1 + . . . Zk )2
2
k
k
fastsicher nach 0 konvergiert.
2) Zu α > 0 und m betrachte die Stoppzeit
τ = τα(m) := inf{k : k ≥ m, Tk ≥ α2 } .
Wir zeigen
∀α>0
∀ε>0
∃ m : Ws τα(m) < ∞ < ε .
Es geht darum,
bei festem α > 0, m < n die Wahrscheinlichkeit
(m)
Ws τα ≤ n abzuschätzen. Als Grundlage dient unsere Annahme über die
Varianzen der Zuwächse des Prozesses.
3) Tτ ∧n · 1{τ ≤n} ≥ α2 · 1{τ ≤n}
α2 · Ws({τ ≤ n} ≤ E (Tτ ∧n ) = E Tm + E (Tτ ∧n − Tm ) .
Den Zuwachs Tτ ∧n − Tm schreiben wir als Summe
Tτ ∧n − Tm = (Tm+1 − Tm ) · 1{τ >m} + (Tm+2 − Tm+1 ) · 1{τ >m+1} + . . .
. . . + (Tn − Tn−1 ) · 1{τ >n−1}
Wir zeigen unten in 4)
E (Tk − Tk−1 ) · 1{τ >k−1} ≤
1
vk
k2
und haben dann für alle n
α2 · Ws(τ ≤ n) ≤ E Tm +
=
∞
X
1
v
2 k
k
k=m+1
∞
X
1
1
(v
+
.
.
.
v
)
+
vk .
1
m
2
m
k2
k=m+1
Es bleibt dann zu zeigen, daß diese Summe für m → ∞ nach 0 strebt.
Dies ist eine Angelegenheit der elementaren Analysis, die unter dem Namen
Kroneckers Lemma“ bekannt ist und anschließend beweisen wird.
”
c Prof. Dr. H. Dinges,
18. Dezember 1998
210
4)
Tk − Tk−1 =
=
1
1
(Xk−1 + Zk )2 −
X2
k2
(k − 1)2 k−1
"
k−1
k
2
#
− 1 Tk−1 +
2
1
Xk−1 Zk + 2 Zk2 .
k2
k
Wegen {τ > k − 1} ∈ Ak−1 und E (Zk | Ak−1 ) = 0 haben wir
E (Tk − Tk−1 ) · 1{τ >k−1} ≤
1
1
2
Z
·
1
≤ 2 vk .
E
{τ
>k−1}
k
k2
k
Lemma :
(Kroneckers Lemma)
Seien v1 , v2 , v3 , . . . Zahlen und
0 < b 1 < b2 < . . .
mit
lim bn = +∞
so, daß die Folge
sn :=
vn
v1 v2
+
+ ... +
b1
b2
bn
konvergiert. Dann gilt
lim
1
n→∞ bn
Beweis :
(v1 + . . . + vn ) = 0 .
(durch partielles Summieren)
bn+1 sn − (v1 + . . . + vn )
v1
v2
vn
= (bn+1 − b1 ) + (bn+1 − b2 ) + . . . + (bn+1 − bn )
b1
b2
bn
= (bn+1 − b1 )s1 + (bn+1 − b2 )(s2 − s1 ) + (bn+1 − b3 )(s3 − s2 ) + . . .
. . . + (bn+1 − bn )(sn − sn − 1)
= (b2 − b1 )s1 + (b3 − b2 )s2 + . . . + (bn+1 − bn )sn .
Wenn man durch bn+1 dividiert, erhält man eine Folge, die gegen s = lim s n
konvergiert. Also haben
1
bn+1
(v1 + . . . + vn ) −→ 0 .
Mit dem Ziel, das klassische Gesetz der großen Zahlen auf Kolmogorovs Kriterium
zurückzuführen, geben wir eine kleine Einführung in die
c Prof. Dr. H. Dinges,
18. Dezember 1998
6.7
211
Kolmogorovs Gesetz der großen Zahlen
Technik des Stützens
Lemma :
wenn
X
n
(truncation)
Eine Zufallsgröße Z hat genau dann einen endlichen Erwartungswert,
Ws(|Z| > n) < ∞ .
Der Beweis ist trival, wenn man bemerkt
E |Z| =
Z∞
Ws(|Z| > t) dt .
0
Korollar :
Seien Z1 , Z2 , . . . unabhängig identisch verteilt mit E |Z| = ∞. Die
Wahrscheinlichkeit, daß X n = n1 (Z1 + . . . + Zn ) konvergiert, ist dann gleich 0.
Beweis :
Xn =
Die Ereignisse An :=
X
1
1
1
X n−1 + Zn .
(Z1 + . . . + Zn ) = 1 −
n
n
n
Ws(An ) =
X
n
1
n
|Zn | > 1
o
sind unabhängig mit
Ws(|Zn | > n) = ∞ .
Nach dem zweiten Lemma von Borel–Cantelli treten mit Wahrscheinlichkeit 1 unendlich viele der An ein. Die Folge der X n hat daher mit Sicherheit unendlich
viele Sprünge einer vorgegebenen Höhe.
Lemma :
Seien Z1 , Z2 , . . . unabhängig identisch verteilt mit E Zn = 0. Sei
Yn = Zn · 1{|Zn |≤n} .
Dann gilt
1
1
(i) (Z1 + . . . + Zn ) − (Y1 + . . . + Yn ) −→ 0 fast sicher
n
n
(ii)
(iii)
1
E (Y1 + . . . + Yn ) −→ 0
n
X 1
n2
var Yn < ∞
c Prof. Dr. H. Dinges,
18. Dezember 1998
212
Beweis :
1) Nach dem Lemma von Borel–Cantelli treten nur endlich der Ereignisse {Y n 6=
Zn } ein; denn
X
Ws (Yn 6= Zn ) =
X
Ws(|Zn | > n) < ∞ .
(Z1 + . . . + Zn ) − (Y1 + . . . Yn ) konvergiert fastsicher
2) | E Yn | ≤ E |Yn | = E |Z| · 1{|Z|>n}
hat.
−→ 0, da |Z| endlichen Erwartungswert
3) Bemerke
1
1
1
+
+
+ ... ≤
2
2
k
(k + 1)
(k + 2)2
=
1
1
1
+
+
+ ...
2
k
k(k + 1) (k + 1)(k + 2)
1
2
1
+ <
2
k
k
k
Wenn (k − 1)2 < t < k 2 , dann gilt
h(t) :=
∞
X
1
n=1
n2
· 1(0,n2 ] (t) =
1
1
2
+
+ ... < .
2
2
k
(k + 1)
k
Also ist sh(s2 ) beschränkt
E Yn2 ≤ E (Z 2 ∧ n2 ) =
=
Z∞
0
∞
X
1
n2
n=1
E
Yn2
Zn2
Ws(Z 2 > t) dt
0
1(0,n2 ] (t) · Ws(Z 2 > t) dt
≤
Z∞
h(t) · Ws(Z 2 > t) dt
=
Z∞
h(s2 ) · Ws(|Z| > s) · 2s ds < ∞ .
0
0
Das Lemma liefert genau das, was wir brauchen für den
Beweis von Kolmogorovs starkem Gesetz der großen Zahlen :
Die unabhängigen Zufallsgrößen Yn − E Yn sind unabhängig mit Erwartungswert 0;
die mit n12 multiplizierten Varianzen haben eine endliche Summe. Das Kolmogorovsche Kriterium ist anwendbar und liefert die fastsichere Konvergenz von
1
(Z1 + Z2 + . . . + Zn ) .
n
c Prof. Dr. H. Dinges,
18. Dezember 1998
A. ANHANG :
Verbandstheoretische Grundlegung
Unsere Einführung entwickelt die Grundbegriffe der Stochastik (Ereignis, Zufallsgröße, Wahrscheinlichkeit) in Umgebungen, in welchen die Studenten des zweiten
Studienjahrs schon Erfahrungen oder zumindest Vorstellungen haben: Kombinatorik, elementare Analysis, lineare Algebra und Matrizenrechnung. Wir machen dann
weiter mit Informationstheorie, Bäumen und Graphen sowie schließlich (als Einladung in die höhere Stochastik) bedingten Erwartungen und Martingalen. Wir erwarten keine Kenntnisse in der (dem Anwender ohnehin kaum nahezubringenden) Maß–
und Integrationstheorie. Für diejenigen, die für ein tieferes Eindringen in die Stochastik feste mathematische Grundlagen brauchen, entwickeln wir nun im Anhang
eine verbandstheoretische Grundlegung, welche ohne Abstriche an der mathematischen Strenge den intuitiven Denkweisen der Stochastik mehr entgegenkommt als die
stochstikferne Maßtheorie. Dem nicht speziell an Grundlagen Interessierten wird es
genügen zu wissen, daß es eine Begründung gibt, so wie er weiß, daß die naive Mengenlehre in irgendeinem Sinne auch begründet werden kann. Die Begründung ist nicht
dafür gedacht, daß jeder Student sie studiert. Der Inhalt von A.1 ist wohlbekannt;
die Abschnitte A.2 und A.4 enthalten Neues.
A.1
Boolesche Algebren
A.1.1
Definition und Rechenregeln
Definition : Eine partiell geordnete Menge mit einem kleinsten und einem größten
Element (V, ⊆, 0, 1) heißt ein Boolescher Verband oder eine Boolesche Algebra,
wenn gilt
1) Zu je zwei Elementen a, b existiert das Minimum a ∧ b und das Maximum
a ∨ b.
(In einer partiell geordneten Menge heißt ein Element c das Minimum oder
auch das Infimum von a und b, wenn gilt
(i) c ⊆ a, c ⊆ b
und
(ii) ∀ d : (d ⊆ a, d ⊆ b) =⇒ d ⊆ c.
Analog ist der Begriff des Maximums erklärt.)
213
214
2) Zu jedem a ∈ V gibt es genau ein Element ¬a ∈ V mit
a ∧ (¬a) = 0
a ∨ (¬a) = 1 .
und
3) Für je drei Elemente a, b, c gilt
(a ∧ b) ∨ c = (a ∨ c) ∧ (b ∨ c)
(a ∨ b) ∧ c = (a ∧ c) ∨ (b ∧ c) .
Der Boolesche Verband heißt σ–vollst ändig, wenn gilt
4) Für jede Folge a1 , a2 , . . . existiert das Infimum
∞
V
an .
(Dabei qualifiziert a als Infimum, wenn a die größte untere Schranke ist,
d.h.
(i) a ⊆ an für alle n
(ii) ∀ b : (b ⊆ an für alle n) =⇒ b ⊆ a.
Das Infimum, wenn es existiert, ist offenbar eindeutig bestimmt; man bezeichnet
es mit
∞
V
n=1
an . Analog ist das Supremum einer Folge definiert.)
Rechenregeln : Aus den Axiomen 1), 2), 3) kann man viele nützliche Rechenregeln ableiten. Man kann Rechenfertigkeiten entwickeln. Wir erwähnen einige besonders wichtige Formeln
a∧b = b∧a ,
a∨b=b∨a
(a ∧ b) ∧ c = a ∧ (b ∧ c) ,
¬(¬a) = a ,
(a ∨ b) ∨ c = a ∨ (b ∨ c)
¬(a ∧ b) = (¬a) ∨ (¬b)
a ⊆ b ⇐⇒ a ∧ (¬b) = 0 ⇐⇒ (¬a) ∨ b = 1 .
Für den weiteren Kalkül lohnt es sich, die folgenden Notationen einzuführen.
Wir schreiben a + b = c oder auch a = c − b genau dann, wenn a ∧ b = 0 und
a ∨ b = c.
Wir schreiben a \ b für a − a ∧ b = a ∧ (¬b) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.1
215
Boolesche Algebren
Hinweis : Man kann die Rechenregeln in einem auch mit Hilfe der Operationen
\ und + beschreiben. a \ b ist für alle Paare (a, b), a + b dagegen nur für gewisse
Paare definiert.
Die Rechenregeln in einer Booleschen Algebra erweisen sich als Spezialfall von Rechenregeln in allgemeineren algebraischen Strukturen (H, 0, \, +). Solche algebraischen Strukturen haben wir ausführlich diskutiert in
H. Dinges: Zur Algebra der Maßtheorie. Bulletin of the Greek Math.
Soc. 19 (1978)
Das folgende Lemma werden wir beim Beweis des Satzes von Loomis brauchen.
Wenn (V, ⊆, 0, 1) ein σ–vollständiger Boolescher Verband ist, dann
Lemma :
gilt
a) Zu jeder Folge a1 , a2 , . . . existiert das Supremum
¬
∞
_
an =
∞
^
(¬an ) .
!
=
∞
W
an und es gilt
b) Für jedes b gilt
b∧
∞
_
an
∞
_
(b ∧ an ) .
Beweis :
zu a) Für jedes n gilt
V
V
(¬ai ) ⊆ ¬an ,
V
¬ (¬ai ) ⊇ an .
a := ¬ (¬ai ) majorisiert also alle an .
Wenn c alle an majorisiert, dann gilt
¬c ⊆ ¬an für alle n , also ¬c ⊆
^
(¬ai ), c ⊇ ¬
^
(¬ai ) = a .
Also ist a das kleinste Element aus V , welches alle a n majorisiert.
zu b) Für alle n gilt b ∧ an ⊆ b ∧
Betrachte c := b ∧
∞
W
an −
∞
W
∞
W
ai ; also gilt
(b ∧ an ) .
∞
W
(b ∧ an ) ⊆ b ∧
Für alle n gilt c ∧ (b ∧ an ) = 0, also c ∧ b ⊆ ¬an , c ∧ b ⊆
V
W
W
¬(c ∧ b) ⊇ ¬ (¬an ) = an , c ∧ b ∧ an = 0.
Andererseits gilt c ⊆ b ∧
W
an . Also gilt c = 0.
c Prof. Dr. H. Dinges,
18. Dezember 1998
∞
W
V
an .
(¬an ),
216
Aufgabe 1 : Es bedeuten a, b, c elektrische Relais oder Netze von Relais. Zwei
beliebige von diesen können in Reihe oder parallel geschaltet werden. Zwei Netze,
die miteinander in solcher Beziehung stehen, daß entweder durch beide Strom fließt
oder durch beide nicht, betrachten wir als äquivalent. a ∨ b bedeutet, daß a und
b parallel zu schalten sind, a ∧ b, daß sie in Reihe zu schalten sind.
Es bedeute ¬a ein Netz, das stets eingeschaltet ist, wenn a ausgeschaltet ist und
umgekehrt, 0 ein Netz, durch welches kein Strom fließen kann, und 1 ein Netz, durch
welches stets Strom fließt. Beweise, daß sämtliche Axiome einer Booleschen Algebra
erfüllt sind.
Hinweis : (a ∨ b) ∧ c = (a ∧ c) ∨ (b ∧ c) bedeutet z.B., daß es gleichgültig ist, ob
man zuerst a und b parallel schaltet und das so entstandene System mit c in
Reihe schaltet, oder ob man zuerst a und b in Reihe schaltet, dann b und c
in Reihe schaltet und danach die beiden so entstandenen Systeme parallel schaltet.
Die beiden Systeme sind miteinander äquivalent in dem Sinne, daß sie den Strom
gleichzeitig durchlassen oder nicht.
r
r a r
r b
r
r r c
r
r a r
r
=
r b
r c
r
r c
r
r
r
Ebenso überlege man das zweite Distributivgesetz
r
r a r
Aufgabe 2 :
r c
r b
r
r
r
=
r
r a r
r c
r
r r
r b
r c
r
r
r
Beweise, daß für beliebige System von Relais a, b, c gilt
(a ∧ b) ∨ (b ∧ c) ∨ (c ∧ a) = (a ∨ b) ∧ (b ∨ c) ∧ (c ∨ a) .
Beweise, daß diese Identität in jedem Booleschen Verband gilt. (Siehe auch unten:
Anwendung des Satzes von Stone.)
Aufgabe 3 : Zwei Plätze Q und S sind durch drei Straßenzüge verbunden,
wobei jeder Straßenzug einige Zugbrücken enthält, welche mit den unten angegebenen
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.1
217
Boolesche Algebren
Wahrscheinlichkeiten angehoben sind. Die Schließungen erfolgen unabhängig. Mit
welcher Wahrscheinlichkeit ist S von Q aus zugänglich?
r
Q
0.25r
@
@
@
0.1r
r
r
0.4r
0.1r
0.25r
r
r
r
0.1r
@
@
r
@
r
S
Die Antwort ist 0.952575.
Didaktische Hinweise :
1) Wir haben nicht den Eindruck, daß das formale Rechnen in Booleschen Algebren für den Studenten eine nützliche Vorübung ist, wenn es gilt, das Rechnen
mit Ereignissen einzuüben. Das Rechnen in Mengenalgebren erfüllt den didaktischen Zweck viel direkter. Die obigen Aufgaben verstehen wir daher lieber als
Anwendungen und nicht als Vorübungen.
2) Das Rechnen mit Ereignissen und Zufallsgrößen ist von den Techniken her dasselbe wie das Rechnen mit Mengen und Abbildungen. Wenn man die Isomorphie
jedoch von der didaktischen Seite her betrachtet, ergibt sich ein ganz anderer
Eindruck. Die abstrakte Mengenlehre ist arm an Bildern und Diagrammen;
man hat eigentlich nicht viel mehr zur Verfügung als Varianten des aus der
Schule bekannten Venn–Diagramms. Die Stochastik auf der anderen Seite lebt
von den vielfältigen Visualisierungsmöglichkeiten. An einem guten Diagramm
sieht man, was passieren kann; das Ereignis, um das es geht, wird bildlich
repräsentiert und nicht die Menge der Versuchsausgänge“, für welche das Er”
eignis eintritt. Die Bilder von Bäumen, Graphen, Pfaden u.dgl. sollen zeigen,
worauf es ankommt. Die Darstellung eines Ereignisses durch eine Menge zeigt
im allg. nichts. Sie ist didaktisch wertlos.
A.1.2
Teilalgebren und Homomorphismen
Definition :
Eine Teilmenge W einer
(V, ⊆, 0, 1) heißt Teilalgebra, wenn gilt
σ–vollständigen Booleschen Algebra
(i) a ∈ W =⇒ ¬a ∈ W
(ii)f a, b ∈ W =⇒ a ∧ b ∈ W
(Das Suffix steht für finit“.)
”
Man spricht von einer σ–vollständigen Teilalgebra, wenn auch noch gilt
(ii) a1 , a2 , . . . ∈ W =⇒
∞
V
ai ∈ W
c Prof. Dr. H. Dinges,
18. Dezember 1998
218
Bemerkungen :
1) Wir fordern nicht nur, daß die Teilmenge W mit der induzierten partiellen
Ordnung eine (σ–vollständige) Boolesche Algebra ist. Es ist wichtig, daß die
Infimumsbildung in W die Infimumsbildung in V ist.
2) Zu jeder Teilmenge S ⊆ V gibt es eine kleinste S umfassende Teilalgebra W
und eine kleinste S umfassende σ–vollständige Teilalgebra Wσ . W heißt
die von S erzeugte Teilalgebra, Wσ die von S erzeugte σ–vollständige
Teilalgebra. Wenn Wσ = V , dann nennt man S ein Erzeugendensystem
von V .
3) Wenn S abzählbar ist, dann ist W ebenfalls abzählbar. Wσ ist nur dann
abzählbar, wenn S endlich ist. Die Teilalgebra W heißt diskret, wenn sie ein
Erzeugendensystem besitzt, welches aus abzählbar vielen paarweise disjunkten
Elementen c1 , c2 , . . . besteht. In diesem Falle besteht W aus den endlichen
Summen und deren Komplementen; Wσ besteht aus den abzählbaren Summen,
die man mit diesen Atomen“ cj bilden kann.
”
Hinweis :
Alle für die Stochastik interessanten σ–vollständigen Booleschen
Verbände sind abzählbar erzeugt. Es bringt aber keine Vorteile, die abzählbare Erzeugtheit in die Begriffsbestimmung des Ereignisfeldes aufzunehmen.
Lemma :
Sei S = {s1 , s2 , . . . , sN }. Für alle Null–Eins–Folgen der Länge N
ε = (ε1 , . . . , εN ) definieren wir sε als den zu ε gehörenden Durchschnitt der
Elemente si bzw. ¬si nach dem Muster des Beispiels (N = 4)
ε = (1, 0, 0, 1) 7−→ sε = s1 ∧ (¬s2 ) ∧ (¬s3 ) ∧ s4 .
Die sε sind paarweise disjunkt. Die von S erzeugte Teilalgebra besteht aus den
N
Summen, die man mit diesen sε bilden kann. W hat also höchstens 22 Elemente.
Definition :
Eine Teilmenge J einer
(V, ⊆, 0, 1) heißt ein Ideal in V , wenn
σ–vollständigen Booleschen Algebra
(i) n ∈ J =⇒ n ∧ a ∈ J für alle a ∈ V
(ii)f n1 , n2 ∈ J =⇒ n1 ∨ n2 ∈ J .
Sie heißt σ–Ideal, wenn auch noch gilt
(ii) n1 , n2 . . . ∈ J =⇒
∞
W
ni ∈ J .
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.1
219
Boolesche Algebren
Lemma : Sei J ∗ irgendeine Teilmenge von V . Das kleinste J ∗ enthaltende
σ–Ideal J besteht aus den Elementen der Gestalt
n = a1 ∧ n∗1 + a2 ∧ n∗2 + . . .
mit ai ∈ V, ni ∈ J ∗ .
∞
W
Beweis : Jede abzählbare Vereinigung
(bi ∧ n∗i ) kann man auch als disjunkte
Vereinigung von Elementen ai ∧ n∗i schreiben. Die Gesamtheit dieser abzählbaren
Vereinigungen ist ein σ–Ideal.
Satz : Sei J ein σ–Ideal in V . Wir erhalten eine Äquivalenzrelation auf V ,
wenn wir definieren
a = b(mod J) ⇐⇒ a \ b ∈ J
und
b\a ∈J .
Die Menge V /J aller Äquivalenzklassen ist partiell geordnet, wenn wir setzen
a ⊆ b(mod J) ⇐⇒ a \ b ∈ J
Bezüglich dieser Ordnung ist V /J ein σ–vollständiger Boolescher Verband.
Der Beweis ist trivial.
Spezialfall :
mit
Sei A eine σ–Algebra über einer Menge Ω, d.h. ein Mengensystem
(i) Ω ∈ A
(ii) A ∈ A =⇒ Ω \ A ∈ A
(iii) A1 , A2 , . . . ∈ A =⇒
∞
S
Mit der Teilmengenrelation
Algebra.
(mengentheoretisches Komplement)
Ai ∈ A
⊆ ist
(mengentheoretische Vereinigung)
(A, ⊆, ∅, Ω)
eine
σ–vollständige Boolesche
Ein σ–Ideal N in einer σ–Algebra A nennt man auch ein Nullmengenideal.
Das Tripel (Ω, A, N) nennt man auch einen meßbaren Raum mit Nullmengenstruktur. Die Menge A / N aller Äquivalenzklassen ist eine σ–vollständige
Boolesche Algebra.
c Prof. Dr. H. Dinges,
18. Dezember 1998
220
Definition : Seien (U, ⊆, 0, 1) und (V, ⊆, 0, 1) σ–vollständige Boolesche Algebren
und η eine Abbildung von U in V mit
(i) η(0) = 0 ,
η(1) = 1
(ii) η(¬u) = ¬η(u) für alle u ∈ U
(iii) η
∞
W
ui =
∞
W
η(ui ) für alle Folgen u1 , u2 , . . . .
Dann heißt η ein σ–Homomorphismus von U . Die Menge der Elemente, die
η in die Null abbildet, heißt der Kern von η. (Es handelt sich offenbar um ein
σ–Ideal Nη in U .)
Das Bild von U in V bezeichnen wir mit V η . (Es handelt sich offenbar um eine
σ–vollständige Teilalgebra von V .)
Satz : (Homomorphiesatz)
Sei η : V ←− U ein σ–Homomorphismus. Dann gilt V η ' U/Nη (σ–isomorph).
Beweis :
u1 = u2 (mod Nη ) =⇒ η(u1 ) = η(u2 ) .
Wir können η also als eine Abbildung von U/N η auf Vη verstehen. Diese
Abbildung bildet die Menge der Äquivalenzklassen injektiv und surjektiv auf V η
ab. Die Umkehrabbildung eines bijektiven σ–Homomorphismus ist automatisch ein
σ–Homomorphismus.
Spezialfall :
Zu einer meßbaren Abbildung
ϕ : (Ω, A) −→ (Ω0 , A0 )
betrachten wir die Volle–Urbild–Abbildung“
”
η : A 3 {ω : ϕ(ω ∗ ) ∈ A0 } ←−| A0 ∈ A0 .
Es handelt sich um einen σ–Homomorphismus: denn
η(Ω0 ) = Ω
η(Ω0 \ A0 ) = Ω \ η(A0 )
η
∞
[
A0n
!
=
∞
[
η(A0n ) .
Das Bild von A0 unter η nennt man die von ϕ erzeugte Teil–σ–Algebra; man
bezeichnet sie mit Aϕ . Der Kern Kϕ besteht aus allen A0 mit {ω : ϕ(ω) ∈ A0 } = ∅.
Aϕ ist σ–isomorph zu A0 / Kϕ .
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.1
221
Boolesche Algebren
Finite Variante :
Es ist klar, was man unter einem Homomorphismus einer
Booleschen Algebra in eine andere Boolesche Algebra versteht. Genau so wie im σ–
vollständigen Fall beweist man den Homomorphiesatz und die Isomorphie des Bildes
mit dem Booleschen Verband der Äquivalenzklassen modulo dem Kern.
Satz : (Eindeutigkeitssatz)
Seien η 0 und η 00 σ–Homomorphismen
η0 : V ← U ;
η 00 : V ← U .
Wenn η 0 (s) = η 00 (s) für alle s ∈ S ⊆ U , dann stimmen η 0 und η 00 auf der von
S erzeugten σ–vollständigen Teilalgebra überein.
Beweis : Die Gesamtheit aller b ∈ U mit η 0 (b) = η 00 (b) ist eine σ–vollständige
Teilalgebra, welche S umfaßt.
Hinweise :
1) Es ist nicht leicht, Kriterien anzugeben, die garantieren, daß eine auf einem
Erzeugendensystem S ⊆ U vorgegebene Abbildung η 0 : V ← S zu einem
σ–Homomorphismus fortgesetzt werden kann. Im Falle, wo der Definitionsbereich V die Borelalgebra auf IR ist, werden wir unten einen Existenzsatz
beweisen. S ist dort die Menge der Abschnitte (−∞, s].
2) Leicht ist die Kennzeichnung aller σ–Homomorphismen, wenn der Zielraum
die triviale Boolesche Algebra ist, die nur aus den beiden Elementen 0 und 1
besteht. Dann ist nämlich ein Homomorphismus von U nichts anderes als ein
δ–Inhalt und ein σ–Homomorphismus nichts anderes als ein δ–Maß auf U .
Im nächsten Abschnitt werden wir sehen, daß die δ–Inhalte und die δ–Maße
so uninteressant nicht sind, wie es auf den ersten Blick scheinen mag.
3) Mit Wahrscheinlichkeitsmaßen, die keine δ–Maße sind, beschäftigen wir uns
erst in späteren Abschnitten dieses Anhangs. Diese Überlegungen haben dann
nichts mit dem Begriff des σ–Homomorphismus zu tun.
4) Der Kernpunkt unserer Theorie sind die Zufallsgrößen. Zufallsgrößen sind für
uns σ–Homomorphismen von der Borelalgebra eines polnischen Raums in ein
beliebiges Ereignisfeld hinein.
η : (V, ⊆, 0, 1) ←− (E, B, ∅, E)
B 7→ η(B)
=
{X ∈ B} .
Es wird sich zeigen, daß der Begriff der Konvergenz von Zufallsgrößen ein entscheidendes Hilfsmittel ist, um einen Überblick über die Gesamtheit V E aller
E–wertigen V –beobachtbaren Zufallsgrößen zu gewinnen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
222
A.1.3
Der Satz von Stone
Satz : (Stone, 1936)
Jede Boolesche Algebra ist isomorph zu einer Mengenalgebra.
Vorbemerkung zum Beweis : Um die Konstruktion von Stone durchsichtig zu
machen, bedienen wir uns des Begriffs des δ–Inhalts auf (V, ⊆, 0, 1). Die Punkte
ω von Stones Darstellungsraum Ω entsprechen nämlich den δ–Inhalten δω (·) auf
V.
Man kann einen δ–Inhalt auf vielerlei Weisen beschreiben.
1) Ein δ–Inhalt ist ein Punkt in {0, 1} V mit gewissen Eigenschaften. Die Menge
der δ–Inhalte ist also eine Teilmenge Ω von {0, 1} V . Es wird zu zeigen
sein, daß es viele δ–Inhalte gibt. Ω ist eine kompakte Teilmenge des Raumes
{0, 1}V , den wir mit der Produkttopologie ausstatten.
2) Ein δ–Inhalt partitioniert V
V = {a : δω (a) = 1} + {a : δω (a) = 0} = Vω(1) + Vω(0) .
Notwendig und hinreichend dafür, daß die Partitionierung V = V (1) + V (0) zu
einem δ–Inhalt gehört, sind die folgenden Bedingungen an V (1) :
(i) 1 ∈ V (1)
(ii) a ∈ V (1) ⇐⇒ ¬a ∈
/ V (1)
(iii) Für jedes b ∈ V gilt
a ∈ V (1) ⇐⇒ (a ∧ b ∈ V (1) oder a ∧ (¬b) ∈ V (1) ) .
Wir bemerken für später die Konsequenz
a ∈ V (1) , b ∈ V (1) ⇐⇒ a ∧ b ∈ V (1) .
3) Wir stellen uns die a ∈ V als Fragen vor, die einem Akteur ω vorgelegt
werden und die dieser in finitkonsistenter“ Weise mit Ja“ oder Nein“ be”
”
”
antwortet. Man braucht dem Akteur ω nicht alle Fragen a vorzulegen, um
herauszufinden, was die Menge V (1) der für ihn wahren Aussagen ist. Es
genügt, wenn man ihm die s aus einem Erzeugendensystem S vorlegt. Das
Erzeugendensystem S denken wir uns fest gewählt. Wenn der Akteur ω die
Fragen s1 , s2 , . . . , sn mit δ1 , δ2 , . . . , δn beantwortet (δi = 1, wenn si für
ihn wahr ist; δi = 0, wenn si für ihn falsch ist), dann entnehmen wir daraus, daß unter den Aussagen sε = sε11 ∧ sε22 ∧ . . . ∧ sεnn genau eine (und zwar
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.1
223
Boolesche Algebren
sδ = sδ11 ∧. . .∧sδnn ) wahr ist. Finite Konsistenz bedeutet, daß ein für ihn wahres
sδ niemals das Nullelement 0 ∈ V ist.
(Zur Notation ein Beispiel: S(1001) = s1 ∧ (¬s2 ) ∧ (¬s3 ) ∧ s4 ).
Lemma : Jedes finitkonsistente Antwortensystem (S, δ(·)) definiert genau einen
δ–Inhalt auf V .
Beweis :
Gestalt
Die Elemente der von S
a = a(1) + a(2) + . . . + a(N ) ,
erzeugten Booleschen Algebra haben die
(disjunkte Vereinigung)
wo jedes a(j) ein Durchschnitt von irgendwelchen s und ¬s mit s ∈ S ist.
Das Anwortensystem (S, δ(·)) sagt uns, ob irgendein a (j) für den Akteur wahr ist.
Höchstens eines kann für ihn wahr sein; und wenn es ein für den Akteur wahres a(j)
gibt, dann ist dieses nicht das Nullelement. Das Einselement a = 1 ist für den Akteur
wahr. Das finitkonsistente Antwortensystem liefert also genau einen δ–Inhalt.
Gibt es nun finitkonsistente Antwortensystem (S, δ(·))? Die Antwort ist positiv,
wie wir sofort zeigen werden. Wenn S überabzählbar ist, dann braucht der Nachweis
allerdings die transfinite Induktion oder das Zornsche Lemma in voller Schärfe.
e vor, der zunächst einmal nur
Konstruktion : Wir stellen uns einen Akteur ω
e
Antworten auf die Fragen aus S ⊆ S bereithält, und das in finitkonsistenter Weise.
e
e
e δ(·)).
e δ(·))
Sein Antwortensystem bezeichnen wir mit ( S,
Wir zeigen: Was immer (S,
sein mag, es läßt sich zu einem konsistenten Antwortensystem (S, δ(·)) fortsetzen.
e mit dem finitkonsistenten Antwortensystem
1) Nehmen wir an, dem Akteur ω
e
e
(S, δ(·)) wird eine weitere Frage s∗ ∈ S vorgelegt. Er hat, wenn er mit seiner
Antwort konsistent bleiben will, zweierlei zu beachten. Wenn es ein für ihn
wahres a0 gibt mit a0 ∧ s∗ = 0, dann kann er die Frage s∗ nicht mit Ja
beantworten. Wenn es ein für ihn wahres a00 mit a00 ∧ (¬s∗ ) = 0 gibt, dann
kann er s∗ nicht mit Nein beantworten. Die Annahme, daß beide Hemmnisse
auftreten, führt zum Widerspruch; denn a0 ∧ s∗ = 0, a00 ∧ (¬s∗ ) = 0 impliziert
a0 ∧ a00 = a0 ∧ a00 ∧ (s∗ ∨ (¬s∗ )) = (a0 ∧ s∗ ∧ a00 ) ∨ (a00 ∧ (¬s∗ ) ∧ a0 ) = 0 ,
was der Annahme widerspricht, daß a 0 und a00 für ihn wahr sind.
Dem Akteur bleibt also mindestens eine Möglichkeit, auch noch bei der Antwort
auf s∗ konsistent zu bleiben.
c Prof. Dr. H. Dinges,
18. Dezember 1998
224
e
e δ(·))
2) Machen wir die Gesamtheit aller finitkonsistenten Fortsetzungen von ( S,
zu einer partiell geordneten Menge
(Sα , δα (·)) ≤ (Sβ , δβ (·)) ⇐⇒ Sα ⊆ Sβ und δβ (s) = δα (s) für alle s ∈ Sα .
Eine totalgeordnete Familie solcher (S α , δα (·)) liefert uns ein finitkonsistentes
S
Sα . Das Zornsche Lemma garantiert nun die Existenz
Antwortensystem auf
α
maximaler Elemente. Aus 1) folgt, daß der Definitionsbereich eines maximalen
Elements die gesamte Menge S ist. Jedes maximale Element definiert uns
einen δ–Inhalt auf V , welcher auf Se die vorgegebenen Werte hat.
Beweis des Satzes von Stone : Bezeichne mit Ω die Menge aller δ–Inhalte
auf der Booleschen Algebra (V, ⊆, 0, 1)
ω 0 = ω 00 ⇐⇒ δω0 (a) = δω00 (a) für alle a ∈ V .
Jedem a ∈ V ordnen wir eine Teilmenge A a ⊆ Ω zu
Aa = {ω : δω (a) = 1} .
Die Abbildung
η : V 3 a 7−→ η(a) = Aa ⊆ Ω
ist dann ein injektiver Homomorphismus; denn
1) η ist ein Homomorphismus
(i) η(1) = Ω wegen δω (1) = 1 für alle ω ∈ Ω
(ii) η(¬a) = Ω \ η(a) wegen δω (¬a) = 1 ⇔ δω (a) = 0
(iii) η(a ∧ b) = η(a) ∩ η(b) (mengentheoretischer Durchschnitt);
denn δω (a ∧ b) = 1 ⇐⇒ δω (a) = 1 und δω (b) = 1 .
2) η ist injektiv, d.h. zu jedem a 6= 0 existiert ein δ–Inhalt δ ω (·) mit δω (a) = 1.
Jedes a 6= 0 enthält einen nichtleeren Durchschnitt der Art s ε , gebildet mit
gewissen s1 , s2 , . . . , sn ∈ S. Der Akteur handelt zunächst einmal finitkonsistent, indem er auf si mit εi antwortet. Dieses Antwortensystem läßt
sich zu einem finitkonsistenten Antwortensystem auf S fortsetzen. Für den
entsprechenden δ–Inhalt δω gilt δω (a) = 1.
Die Boolesche Algebra (V, ⊆, 0, 1) ist also isomorph zu der Mengenalgebra A
über Ω, die aus den Aa besteht.
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.1
225
Boolesche Algebren
Anwendung :
Zu jeder Booleschen Algebra gilt für jedes Tripel a, b, c
(a ∧ b) ∨ (b ∧ c) ∨ (c ∧ a) = (a ∨ b) ∧ (b ∨ c) ∧ (c ∨ a) .
Beweis : Die Inklusion ⊆ ergibt sich leicht aus den Axiomen; (man braucht dabei
sorgar nur die Existenz der Minima und Maxima in der geordneten Menge (V, ⊆));
denn
a ∧ b ⊆ a ∨ b,
a ∧ b ⊆ b ∨ c,
a∧b ⊆ c∨a ;
ebenso für b ∨ c und c ∧ a.
Der Beweis der Inklusion ⊇ macht mehr Mühe, wenn man von den Axiomen ausgeht. Wenn man aber den Darstellungssatz von Stone beherzigt, dann kann man so
tun als ab es sich um mengentheoretische Operationen handelte. Beide Ausdrücke
beschreiben die Menge aller ω, welche in mindestens zwei der Mengen a, b, c liegen.
Der abzählbare Fall : Um die Konstruktion zu verdeutlichen nehmen wir an,
daß die Boolesche Algebra V ein abzählbares Erzeugendensystem besitzt: S =
{s1 , s2 , . . .}.
1) Der Akteur beantwortet die Fragen s 1 , s2 , . . . der Reihe nach in finitkonsistenter Weise; er produziert damit eine Null–Eins–Folge δ 1 , δ2 . . . mit der
Eigenschaft, daß s(n) = sδ11 ∧ . . . ∧ sδnn 6= 0. Wenn ihm die nächste Frage
sn+1 vorgelegt wird, hat er nur zu beachten, daß er diese Frage nicht mit
Ja“ beantwortet, wenn s(n) (ω) ∧ sn+1 = 0 und nicht mit Nein“, wenn
”(n)
”
s (ω) ∧ (¬sn+1 ) = 0. Jedes konsistente n–tupel (δ1 , δ2 , . . . , δn ) kann er auf
mindestens eine Weise zu einer unendlichen Folge (δ 1 , δ2 , . . .) fortsetzen.
2) Wenn wir nicht an den einzelnen ω interessiert sind, sondern nur an der Menge
Ω ⊆ {0, 1}S , dann brauchen wir überhaupt kein Auswahlaxiom. Wir stellen uns
{0, 1}S als topologischen Produktraum vor. Ω ist eine kompakte Teilmenge;
Ω entsteht nämlich dadurch, daß wir in jeder Instanz n endlich viele offen–
abgeschlossene Teilmengen von {0, 1} S abziehen. Die Aa sind Vereinigungen
von Zylindermengen geschnitten mit Ω. Die Abbildung a 7−→ A a ist ein
Homomorphismus auf eine Mengenalgebra über Ω. Nur für den Nachweis der
Injektivität brauchen wir das Auswahlaxiom.
Beispiel : (Dedekindsche Schnitte)
1) Für jedes n und jedes 2n–tupel rationaler Zahlen
0 ≤ s 1 < t1 < s2 < t2 < . . . < s n < tn ≤ 1
c Prof. Dr. H. Dinges,
18. Dezember 1998
226
bilden wir den formalen Ausdruck
(s1 , t1 ] + (s2 , t2 ] + . . . + (sn , tn ] .
Wir machen die Menge dieser formalen Ausdrücke zu einem Booleschen Verband (V, ⊆, 0, 1):
Das minimale Element 0 ist durch die leere Summe (n = 0) gegeben; das
maximale Element 1 ist der formale Ausdruck (0, 1].
X
(s0i , t0i ] ⊆
X
(sj , tj ] ,
wenn zu jedem i ein j existiert mit sj ≤ s0i < t0i ≤ tj .
Die Axiome sind offensichtlich erfüllt.
2) Es ist leicht, eine zu (V, ⊆, 0, 1) isomorphe Mengenalgebra A∗ über einer
Grundmenge Ω∗ anzugeben. Ω∗ könnte Q ∩ (0, 1] oder sonst irgendeine im
Einheitsintervall (0, 1] dichte Menge sein und
η((s, t]) = {ω ∗ : ω ∗ ∈ Ω∗ , s < ω ∗ ≤ t}
η ist offensichtlich ein Isomorphismus. Für Stones Konstruktion ist es natürlich
unerheblich, von welchem Ω∗ man ausgeht.
3) V ist abzählbar. Die Gesamtheit S aller (0, r] (r rational) ist ein Erzeugendensystem. Sehen wir, was die Konstruktion von Stone in diesem Falle liefert.
Ein Akteur ω hat in finitkonsistenter Weise zu beantworten, ob für ihn (0, r]
wahr ist oder nicht. Der Akteur ω0 könnte z.B. alle (0, r] als wahr deklarieren; er ist damit konsistent. Der Akteur ω x könnte sich an einer rellen Zahl
x (0 < x ≤ 1) orientieren und ein (0, r] genau dann als wahr deklarieren,
wenn x ≤ r; er ist damit konsistent. Wenn x 0 6= x00 , dann auch ωx0 6= ωx00 .
Man überlegt sich sofort, daß es über diese ωx hinaus keine finitkonsistenten
Akteure gibt.
4) Die Menge Ω aus der Konstruktion von Stone ist also mit dem abgeschlossenen
Einheitsintervall [0, 1] zu identifizieren
η((s, t]) = {x : x reell mit s < x ≤ t} falls s 6= 0
η((0, r]) = {x : x reell mit x ≤ r}
P
Es ist klar, was η( (si , ti ]) ist.
Die Konstruktion entspricht der Konstruktion der Dedekindschen Schnitte. Die
Zerlegung S = {s : δx (s) = 1} + {s : δx (s) = 0} ist der Dedekindsche Schnitt
zur rellen Zahl x ∈ [0, 1].
Ein weiteres Beispiel, wo sich die Konstruktion von Stone explizit durchführen läßt,
findet sich in
G. Aumann: Reelle Funktion, Springer 1956. Seite 74.
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.1
227
Boolesche Algebren
A.1.4
Der Satz von Loomis
Satz : (Loomis, 1947)
Zu jeder σ vollständigen Booleschen Algebra (V, ⊆, 0, 1) gibt es einen meßbaren
Raum mit Nullmengenstruktur (Ω, Aσ , N) und einen σ–Isomorphismus
ησ : V −→ Aσ / N .
Vorbereitung :
Betrachte zunächst irgendeinen surjektiven Homomorphismus
von V auf eine Mengenalgebra A
η : V −→ A .
Dieser ist genau dann ein σ–Homomorphismus, wenn
a1 ⊇ a 2 ⊇ . . .
∞
^
ai = 0 =⇒
∞
\
η(ai ) = ∅ .
Die Bedingung ist notwendig. Daß sie auch hinreichend ist, sieht man so : Wir
betrachten eine beliebige Folge a1 , a2 , . . . mit a =
∞
W
ai und zeigen η(a) =
Für bn = a1 ∨ . . . ∨ an haben wir (a \ b1 ) ⊇ (a \ b2 ) ⊇ . . . und
∞
T
η(a \ bn ) = ∅. Andererseits
η(a) −
n
[
η(ai ) = η(a \ bn ) ,
∞
[
η(ai ) = η(a) −
∞
V
∞
S
η(ai ).
(a \ bn ) = 0, also
und im absteigenden Limes
η(a) −
∞
[
η(bn ) = ∅ .
Beweis des Satzes von Loomis :
Sei η ein surjektiver Homomorphismus : η : V → A. Eine Menge der Gestalt
∞
T
∞
V
ai = 0 nennen wir eine elementare Nullmenge. Sei Aσ die
N ∗ = η(ai ) mit
von A erzeugte σ–Algebra und N das von den elementaren Nullmengen erzeugte
σ–Ideal in A.
1) η trifft jede Äquivalenzklasse aus Aσ / N , mit anderen Worten : zu jedem
A ∈ Aσ existiert ein a ∈ V mit
A = η(a)(mod N) .
Die A mit dieser Eigenschaft bilden nämlich eine σ–Algebra.
Ordnen wir a die N–Äquivalenzklasse ησ (a) von η(a) zu, so ist
ησ : V −→ Aσ / N
ein surjektiver σ–Homomorphismus.
c Prof. Dr. H. Dinges,
18. Dezember 1998
228
2) Um die Injektivität von ησ zu zeigen, müssen wir nachweisen
η(a) ∈ N =⇒ a = 0 .
Äquivalente Formulierungen dieser Eigenschaft von η sind
η(a) ⊆
η(a) ⊆
η(a) ⊆
\[
n m
[\
^
η(anm ),
n m
[\
m
η(anm ),
_^
anm = 0 =⇒ a = 0
n m
n m
[\
anm = 0 für alle n =⇒ a = 0
η(anm )
n m
η(anm ) ⊆
=⇒ a ⊆
η(a) =⇒
_^
n m
anm ⊆
^_
n m
anm
a.
Die Injektivität ist gezeigt, wenn gezeigt ist, daß die Prämisse der letzten Implikation unverträglich ist mit der Aussage
b :=
^_
anm
n m
!
\ a 6= 0 .
Wir führen einen Widerspruchsbeweis für den Fall von Stones Konstruktion.
3) Seien a und die Doppelfolge
dann m(1), so daß (b ∧
b⊆
_
a1m
m
!
a1m(1) )
\a ,
(anm )
so, daß b :=
\ a 6= 0: denn
0 6= b =
_
m
VW
n m
anm
\ a 6= 0. Es gibt
(b ∧ a1m ) \ a .
Weiter gibt es m(2), so daß (b ∧ a1m(1) ∧ a2m(2) ) \ a 6= 0: denn
0 6= b ∧ a1m(1) =
_
m
(b ∧ a1m(1) ∧ a2m ) \ a .
In dieser Weise fortfahrend erhalten wir m(1), m(2), . . ., so daß
0 6= (b ∧ a1m(1) ∧ . . . ∧ anm(n) ) \ a für alle n .
4) Im Falle der Konstruktion von Stone ist η(a) die Menge der Akteure ω,
TS
welche die Frage a mit Ja“ beantworten.
η(anm ) ist die Menge der
”
n m
Akteure η, die für eine passende Folge m(1), m(2), . . . jede der Fragen a nm(n)
(n = 1, 2, . . .) mit Ja“ beantworten
”
\[
ω∈
η(anm ) ⇐⇒ ∀ n ∃ m(n) : ω ∈ η(anm(n) )
n m
⇐⇒
∃ m(·) : ∀ n ω ∈ η(anm(n) ) .
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.1
229
Boolesche Algebren
Die Prämisse
\[
n m
η(anm ) ⊆ η(a)
bedeutet also, daß ein Akteur ω, der zu irgendeiner Folge m(·) alle Fragen anm(n) mit Ja“ beantwortet, gezwungen ist, die Frage a mit Ja“ zu
”
”
beantworten. Nach der Konstruktion von Stone realisiert ein solcher Zwang
notwendigerweise schon nach endlich vielen Schritten, und zwar dadurch, daß
für ein hinreichend großen n
a1m(1) ∧ a2m(n) ∧ . . . ∧ anm(n) ∧ (¬a) = 0 .
Nach 3) gibt es aber eine Folge, für welche alle diese Durchschnitte ungleich 0 sind. Im Falle des Homomorphismus von Stone haben wir also
η(a) ∈ N =⇒ a = 0. Der σ–Homomorphismus
ησ : V −→ Aσ / N
ist injektiv.
e , als Boolesche Algebra betrachtet, nicht abzählbar erWenn ein Ereignisfeld A
zeugt ist, dann ist Stones Darstellungsraum Ω eine reichlich bizarre Menge. Die
Topologen mögen das vielleicht nicht so empfinden; denn immerhin ist Ω eine
kompakte Teilmenge des Produktraums {0, 1} V . Die Stochastiker fühlen sich durch
Stones Konstruktion jedenfalls nicht dazu animiert, sich unter Ω oder gar den Punkten ω etwas vorstellen zu wollen. Der Darstellungssatz von Stone gilt ihnen nur als
Bestätigung, daß alle Rechenregeln, die man aus der Mengenalgebra kennt, auch
in beliebigen Booleschen Algebren gelten. Der Darstellungssatz von Loomis garantiert darüberhinaus, daß das Rechnen in meßbaren Räumen mit Nullmengenstruktur
(Ω, A, N) ein getreues Abbild des Rechnens in Ereignisfeldern ist. Man darf allerdings die Nullmengenstruktur nicht unberücksichtigt lassen, wie der folgende Satz
zeigen wird. Wir halten fest: Die Gleichheit in der Menge und auch die Gleichheit
in der σ–Algebra A ist eine Fiktion; was allein zählt, ist die Gleichheit in A / N.
e.
A / N ist σ–isomorph zum Ereignisfeld A
A.1.5
Die abstrakte Kennzeichnung der σ–Algebren
Satz : Eine σ–vollständige Boolesche Algebra (V, ⊆, 0, 1) ist genau dann σ–
isomorph zu einer σ–Algebra, wenn sie viele δ–Maße zuläßt. Es ist zu fordern, daß
für jedes a 6= 0 ein δx (·) existiert mit δx (a) = 1. V ist in diesem Falle σ–isomorph
mit einer σ–Algebra über der Menge der δ–Maße.
c Prof. Dr. H. Dinges,
18. Dezember 1998
230
Beweis :
1) Wir zeigen zunächst, daß es Ereignisfelder gibt, die überhaupt keine δ–Maße
zulassen. Die Borelalgebra über dem Einheitsintervall modulo den Lebesgue–
Nullmengen ist ein solches Ereignisfeld.
Es sei δx (·) ein δ–Maß auf V . Für jede abzählbare Partition des sicheP
ren Ereignisses, e
1 = ∞
i=1 ai , gilt δx (ai ) = 1 für genau ein i(x). Die
σ–Additivität eines W–Inhalts ρ(·) kann man bekanntlich auch durch die monotone σ–Stetigkeit im Nullpunkt charakterisieren. Für δ–Inhalte bedeutet
die σ–Additivität von δx (·)
a1 ⊇ a2 ⊇ . . . δx (ai ) = 1 für alle i =⇒
∞
^
ai 6= 0 .
Betrachten wir eine Folge von Partitionen des sicheren Ereignisses
e
1=
X
(n)
ai
für n = 1, 2, . . .
i
(n)
Es gibt genau eine Folge in (x), so daß δx ain (x) = 1. Aus der σ–Additivität
von δx (·) folgt
∞
V (n)
ain (x)
6= 0. Wenn es nun in einem V
Partitionen gibt, so daß für jede Folge i(n)
∞
V
n=1
keine δ–Maße.
eine Folge von
(n)
ai(n) = 0, dann gibt es auf V
Im oben genannten Fall betrachte man die Folge der dyadischen Partitionen.
2) Es sei A eine σ–Algebra (über einer Menge Ω) und ζ : V −→ A ein
surjektiver σ–Homomorphismus.
Jeder Punkt ω ∈ Ω liefert dann ein δ–Maß δ ω (·) auf V
δω (a) = 1 ⇐⇒ ω ∈ ζ(a) .
Zwei Punkte ω 0 , ω 00 liefern genau dann dasselbe δ–Maß, wenn es kein A = ζ(a)
gibt, welches die Punkte trennt. Betrachte in Ω die Äquivalenzrelation
ω 0 ∼ ω 00 ⇐⇒ {A : A 3 ω 0 } = {A : A 3 ω 00 } .
Die Äquivalenzklassen bilden eine Menge D; ihre Punkte interpretieren wir
als δ–Maße. A, das Bild von V unter ζ können wir als eine σ–Algebra D
über D auffassen.
3) Sei V irgendein Ereignisfeld und D die Menge aller δ–Maße auf V . Betrachte
η : V 3 a 7−→ η(a) := {x : δx (a) = 1} ⊆ D .
Dies ist ein σ–Homomorphismus auf eine σ–Algebra D über D. η ist genau
ein σ–Isomomorphismus, wenn η(a) = ∅ =⇒ a = 0, also
a 6= 0 =⇒ Es existiert ein δ–Maß, welches a den Wert 1 gibt.
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.1
231
Boolesche Algebren
Fazit : Die Ereignisfelder, die zu einer σ–Algebra σ–isomorph sind, sind sehr
spezieller Natur.
Konstruktion : (Verkleinerung des Darstellungsraums)
Sei V eine σ–vollständige Boolesche Algebra (Ω, A, N), so daß V ' A / N (σ–
isomorph). Wir sagen von einem Ω∗ ⊆ Ω (Ω∗ nicht in A), daß es in Ω voll ist,
wenn jede A–meßbare Obermenge von Ω∗ nur um eine N–Menge von Ω abweicht.
Ω∗ ⊆ A, A ∈ A =⇒ A = Ω (mod N) .
Sei A∗ die Spur“ von A auf Ω∗ und N∗ die Spur von N
”
∗
∗
A = {Ω ∩ A : A ∈ A} ,
∗
∗
N = {Ω ∩ N : N ∈ N} .
Dann ist auch (Ω∗ , A∗ , N∗ ) ein Darstellungsraum für V , d.h. V ' A∗ / N∗ .
Beweis : η : A 3 A 7−→ Ω∗ ∩ A ∈ A∗ ist ein surjektiver σ–Homomorphismus.
Wir zeigen die Injektivität
Ω∗ ∩ A = Ω∗ ∩ B =⇒ Ω= (A 4 B) = ∅ =⇒ C(A 4 B) ⊇ Ω∗
!
=⇒ C(A 4 B) = Ω =⇒ A 4 B ∈ N .
q.e.d.
Bemerke : In derselben Weise können wir den Darstellungsraum für eine finite
Boolesche Algebra verkleinern.
Die Mengenalgebra A über Ω ist isomorph zu ihrer Spur A∗ über Ω∗ ⊆ Ω, wenn
Ω∗ ⊆ A ∈ A =⇒ A = Ω. Zum Beispiel können wir für die Boolesche Algebra aller
Pn
(si , ti ] von oben, Ω = [0, 1] als Ω∗ jede in (0, 1] dichtliegende Menge wählen.
Didaktische Konsequenz Es ist Schlamperei, wenn man den Studenten sagt:
Eine Ereignisalgebra ist eine σ–Algebra über einer Grundmenge, deren Punkte
man Versuchsausgänge nennt. Wahr ist: Jedes Ereignisfeld besitzt eine Darstellung
e ' A / N, wo (Ω, A, N) ein meßbarer Raum mit Nullmengenstruktur ist. Würde
A
man darauf bestehen, daß das Ereignisfeld wirklich σ–isomorph zu einer σ–Algebra
ist, so würde das bedeuten, daß man sich auf diejenigen σ–vollständigen Booleschen
Algebren beschränkt, die viele δ–Maße zulassen. Dafür gibt es keinen Grund. Wenn
man die Sätze von Stone und Loomis angemessen verwenden will, dann muß man
den Gleichheitsbegriff für Punkte im Darstellungsraum Ω und den für Teilmengen von Ω in Ω und in A zurücknehmen, so daß nur der Gleichheitsbegriff
in A / N bleibt. Wir dürfen eben nicht alle Ingredienzien der Konstruktion, welche
c Prof. Dr. H. Dinges,
18. Dezember 1998
232
vom Auswahlaxiom wilden Gebrauch machen, einzeln in den Blick nehmen. Alle Stochastiker wissen natürlich, daß man die strikte Gleichheit in der σ–Algebra nicht
ernstnehmen darf. Die wenigsten aber verraten dieses Wissen auch ihren Studenten.
Die Auskunft, daß Ereignisalgebren σ–Algebren sind, kann nach meinen Erfahrungen die Intuition der Studenten sehr leicht in eine falsche Richtung lenken. Wenn der
Anfänger statt mit Ereignisfeldern mit abstrakten meßbaren Räumen ohne Nullmengenstruktur konfrontiert wird, wenn er also über den abstrakten Gleichheitsbegriff
in Ereignisfeldern getäuscht wird, kann er leicht auf falsche Gedanken kommen. Ich
meine, daß man mit den Wahrscheinlichkeitstripeln als axiomatischem Fundament
einen an den Denkgewohnheiten der Anwender vorbeigehenden halbherzig allgemeinen Standpunkt etabliert, über den sich niemand freuen kann. Ein Bemühen um mathematische Sicherheit, das bei den Wahrscheinlichkeitstripeln landet, geht an der
Intuition ebenso vorbei, wie am Satz von Loomis. Es scheint mir offensichtlich zu sein,
e den geeigneten Rahmen
daß die abstrakten σ–vollständigen Booleschen Algebren A
e mit
bieten, in technischer wie in intuitiver Hinsicht. Wo es nötig ist, kann man A
Hilfe eines (Ω, A, N) darstellen. Die halbherzige Abstraktion stört die Begriffsentwicklung. Die volle Abstraktion braucht natürlich in einer Einführungsveranstaltung
nicht thematisiert zu werden; in einer Einführung kann man einiges unbewiesen und
unbegründet lassen. Man darf aber die intuitiven Vorstellungen nicht durcheinanderbringen. Nichtintuitive technisch unzureichende Beweis– und Begründungsansätze,
die falsche Fährten legen, müssen unbedingt vermieden werden.
Die Anwender rechnen mit Vorliebe ohne Ω nur mit Zufallsgrößen; denn um die
Zufallsgrößen läßt sich eine gesunde Intuition bauen. Zufallsgrößen nehmen Werte in
vernünftigen Räumen an. Über diese Werte läßt sich reden. (Mit der Schwierigkeit
kann man fertig werden, daß manche, an die Analysis gewöhnte Studenten nicht sofort
einsehen wollen, daß es möglicherweise das Ereignis {X = x} für jedes festgewählte x gleich dem unmöglichen Ereignis ist. Dazu später mehr.) Die Zufallsgrößen
sind das Konkrete für den Stochastiker. Es muß das Ziel der Einführungsveranstaltung sein, daß der Student mit ihnen mindestens ebenso souverän umgehen kann,
wie das unter den Anwendern der Brauch ist. Die Wahrscheinlichkeitstripel stören
dieses Programm; sie stellen eine mathematische Verkünstelung dar, die in der Angewandten Mathematik fehl am Platz ist. Insofern ist der Wunsch der Anwender nach
einer Stochastik ohne W–Tripel zu unterstützen. Das bedeutet natürlich nicht, daß
man die Erkenntnisse der Maßtheorie nicht zur Kenntnis nimmt. Die Erkenntnisse
der Theorie werden nur etwas abstrakter interpretiert, nämlich als Erkenntnisse für
Wahrscheinlichkeitsbewertungen auf abstrakten Ereignisalgebren.
Wozu dienen denn nun überhaupt die Ereignisalgebren, wenn die wirklichen Grundbausteine der Theorie die Zufallsgrößen sind? Die Antwort lautet: Die Rolle der
abstrakten Ereignisalgebra im Hintergrund ist es, die Zufallsgrößen auf einen gemeinsamen Boden zu bringen und den Gleichheitsbegriff festzuhalten.
Ein unüberlegt fixierter Darstellungsraum (Ω, A, N) kann für konkrete Fragestellungen ein Hemmnis sein. Man beginne daher nicht mit der Konstruktion eines Darstellungsraums. Oft ist es schon ein wesentlicher Schritt auf dem Weg zur Problemlösung,
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.1
233
Boolesche Algebren
wenn man eine passende Darstellung der relevanten Teilalgebra konzipiert hat. Man
braucht überzeugende Bilder um etwas zu sehen! Wie sollte man aber irgendetwas
ablesen können an einem Darstellungsraum, der mit Hilfe des Zornschen Lemmas
konstruiert“ worden ist? Konkrete Darstellungsräume (Ω, A, N) können nützlich
”
sein. Sie sind aber nicht die verbindliche Grundlage einer Modellierung. So, wie der
Student akzeptiert, daß ein Vektor kein Zahltupel ist, obwohl er durch ein Zahlentupel dargestellt werden kann, so kann er auch verstehen lernen, daß ein Ereignis keine
Teilmenge eines Grundraums ist, obwohl es durch eine solche dargestellt werden kann.
In seinen erkenntniskritischen Untersuchungen zur Entwicklung der Wissenschaft in
der Neuzeit schreibt E. Cassirer (1920): Gegenüber der empiristischen Lehre, die
”
die Gleichheit bestimmter Vorstellungsinhalte als eine selbstverständliche psychologische Tatsache hinnimmt und für die Erklärung des Prozesses der Begriffsbildung
verwendet, ist mit Recht darauf verwiesen worden, daß von Gleichheit irgendwelcher Elemente nur dann mit Sinn geredet werden kann, wenn bereits eine Hinsicht
festgestellt ist, in welcher die Elemente als gleich oder ungleich bezeichnet werden
sollen. Diese Identität der Hinsicht, des Gesichtspunkts, unter welchem die Vergleichung stattfindet, ist jedoch ein Eigenartiges und Neues gegenüber den verglichenen
Inhalten selbst.“
Dem stimmen wir zu. Die Frage, ob zwei Ereignisse gleich sind oder verschieden,
ist eine Frage der gedanklichen Konstruktion. Das hat noch nichts mit der Beziehung eines Modells auf die Wirklichkeit zu tun. Es gibt keine Gleichheit schlechthin.
Gleichheitsdefinitionen fallen nicht vom Himmel; sie müssen gemacht werden. Im Begriff der Ereignisalgebra kommt das klar und deutlich zum Ausdruck. Die Gleichheit
wird beim abstrakten Zugang ordentlich benannt. Hingegen werden im Begriff des
Darstellungsraums (Ω, A, N) Gleichheitsbegriffe ins Spiel gebracht, die dann wieder
zurückgenommen werden müssen, mit dem Effekt, daß am Ende nur der Gleichheitsbegriff in A / N übrigbleibt. Der Umweg lohnt sich nur, wenn die Mengen Ω und
A in Hinblick auf das jeweilige Problem geschickt gewählt werden.
c Prof. Dr. H. Dinges,
18. Dezember 1998
234
A.2
Zufallsgrößen
A.2.1
Das intuitive Rechnen mit Zufallsvariablen
Eine Zufallsgröße mit Werten im polnischen Raum E heißt auch ein zufälliger
Punkt oder ein zufälliges Element von E. Manchmal spricht man auch von einer
Zufallsvariablen. Die Bezeichnung Variable“ ist insofern passend, als das Operieren
”
mit Zufallsvariablen Analogien aufweist mit dem geläufigen (aber selten thematisierten) Operieren mit abhängigen“ und unabhängigen“ Variablen in der klassischen
”
”
Analysis. Wir werden sehen:
I. Variable kann man zusammenbauen: Wenn X 1 , . . . , Xd Variable sind, dann ist
X = (X1 , . . . , Xd ) eine Variable mit Werten im Produktraum. Variable kann
man in Funktionen (oder Abbildungen) einsetzen: Wenn X eine Variable ist
und g(·) eine Abbildung, dann ist
Y = g(X)
eine Variable.
II. Die Gesamtheit aller D–wertigen Variablen wird durch einen Vervollständigungsprozeß aus der Gesamtheit besonders einfacher D–wertiger Variablen
gewonnen.
III. Wenn g(·) im Limespunkt X = lim X (n) stetig ist, dann gilt
g(X) = lim g(X (n) ) .
IV. Bei funktionalen Zusammenhängen
Y = f (X, Z)
kann man unter gewissen Bedingungen die Rolle von unabhängigen“ und
”
abhängigen“ Variablen vertauschen. In diesem Falle hat man dann für ein
”
geeignetes g(·)
X = g(Y, Z) .
(Letzteres erinnert an den Satz von der impliziten Funktion.)
Unser Zugang zum Begriff der Zufallsvariablen ist eine Absage an die reduktionistische Herangehensweise, die den Namen Zufallsvariable“ als Synonym für eine
”
meßbare Abbildung (eines beliebigen meßbaren Raums in einen beliebigen meßbaren
Raum) benützt.
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.2
235
Zufallsgrößen
Prinzip I (Meßbarkeit)
Wenn g(·) eine borelmeßbare Abbildung ist
g(·) : D1 × . . . × Dd −→ E ,
dann kann man als Argumente auch Zufallsvariable X i (Xi mit Werten in Di ,
i = 1, . . . , d) einsetzen und erhält dann eine E–wertige Zufallsvariable
Y = g(X1 , . . . , Xd ) .
In der elementaren Analysis unterscheidet man zwischen den unabhängigen
Veränderlichen x1 , . . . , xd und der abhängigen Veränderlichen y = g(x1 , . . . , xd ).
Der Mathematiker wählt x = (x1 , . . . , xd ) ∈ D = D1 × . . . × Dd völlig frei, g(·)
rechnet ihm dann den Wert y aus. Diese Vorstellung paßt in der Stochastik nicht.
Sowohl die Werte der Xi als auch der Wert von Y wird vom Zufall spezifiziert.
Hier wie dort beschreibt g(·) die funktionale Abhängigkeit.
Didaktische These : Auch auf der elementarsten Ebene sollte man den Begriff
der Borelmeßbarkeit verwenden. Es legt der Intuition falsche Spuren, wenn manche Dozenten bei den Studenten den Eindruck erwecken, daß Borelmeßbarkeit von
Abbildungen eine technisch raffinierte Verallgemeinerung von stückweiser Stetigkeit
und Riemann–Meßbarkeit ist. Meßbarkeit manifestiert sich nicht durch angenehme
lokale“ Eigenschaften wie Stetigkeit oder Differenzierbarkeit. Auf die vollen Urbild–
”
”
Abbildungen“ kommt es an. Borelmeßbarkeit ist als theoretischer Begriff zu behandeln; was er bedeutet, kann sich nur aus der Art und Weise, wie man mit ihm umgeht,
erschließen. Es wäre völlig verfehlt, wenn ein Dozent (außerhalb einer Vorlesung über
Grundlagenprobleme der Analysis) den Studenten einen Eindruck davon vermitteln
wollte, durch welche Eigenschaften sich borelsche Mengen von nichtborelschen unterscheiden. Borelmengen sind einfach der Typ von Mengen, den man braucht, um
eine ordentliche Theorie zu betreiben.
e –beobachtbare Zufallsgröße)
Formale Definition :
(E–wertige A
e sei ein abstraktes Ereignisfeld (d.h. eine abstrakte σ–vollständige Boolesche AlA
e –beobachtbare Zufallsgröße
gebra), E sei ein polnischer Raum. Eine E–wertige A
X ist ein σ–Homomorphismus
e 3 {X ∈ B} ...................... B ∈ B .
X :A
e –beobachtbaren Zufallsgrößen.
e E bezeichnen wir die Menge aller E–wertigen A
Mit A
E
e
Die Gleichheitsdefinition in A ist klar:
X = Y ⇐⇒ {X ∈ B} = {Y ∈ B} für alle B ∈ B .
Die Gesamtheit aller Ereignisse {X ∈ B} mit B ∈ B heißt die von X erzeugte
eX ⊆ A
e . Die technische Begründung von Prinzip I ist der (nur mit
Teilalgebra A
einigem Aufwand) beweisbare
c Prof. Dr. H. Dinges,
18. Dezember 1998
236
e –beobachtbare Zufallsgrößen sind, Xi mit Werten
Satz : Wenn X1 , X2 , . . . , Xd A
in Ei , dann ist
X = (X1 , X2 , . . . , Xd ) eine Zufallsgröße mit Werten in E =
d
Y
Ei .
i=1
Es wäre wohl didaktisch ungeschickt, dem Studenten gegenüber diesen Satz zu problematisieren. Der Student wird ihn als Selbstverständlichkeit akzeptieren. Wenn die
Theorie in Ordnung ist, muß der Satz ja wohl gelten. Der maßtheoretisch sozialisierte Stochastiker wird kein Problem sehen: Das Produkt von polnischen Räumen
ist ein polnischer Raum (und das gilt sogar für abzählbare Produkte); und meßbare
Abbildungen des Grundraums Ω kann man zu einer meßbaren Abbildung in den
Produktraum zusammenfassen“.
”
Wir werden zeigen: Wenn man abzählbar viele Zufallsgrößen zusammenfaßt, entsteht
wirklich eine Zufallsgröße. (Überabzählbare Zusammenfassungen lehnen wir ab.)
In unserem Zugang bedarf der Satz eines Beweises. Zunächst haben wir nur: Jedem
Rechteck B1 ×. . .×Bd ist ein Ereignis ξ(B2 ×. . .×Bd ) = {X1 ∈ B1 }∧. . .∧{Xd ∈ Bd }
zugeordnet. Zu zeigen ist, daß ξ(·) sich in eindeutiger Weise zu einem σ–
Homomorphismus fortsetzen läßt. In unserem Beweis wird die Polnizität eine hilfreiche Rolle spielen.
Bemerkungen :
e –beobachtbaren Zufallsgrößen mit Werten in der zweipunktigen Menge
1) Die A
{0, 1} könnte man mit den Ereignissen Ae (oder vielleicht besser mit den
Indikatorfunktionen 1Ae identifizieren). Nach dem Darstellungssatz von Loomis
entsprechen diese den N–Äquivalenzklassen von {0, 1}–wertigen meßbaren
Funktionen auf dem Darstellungsraum (Ω, A, N).
1A : (Ω, A, N) → ({0, 1}, Potenzmenge) .
2) Wir werden sehen, daß man E–wertige Zufallsgrößen durch N–Äquivalenzklassen von meßbaren E–wertigen Funktionen auf (Ω, A, N) darstellen kann.
ϕ : (Ω, A, N) → (E, B) .
Die folgenden Bedingungen an die A–meßbaren Funktionen ϕ(·) und ψ(·)
sind äquivalent
i) ϕ(·) und ψ(·) stellen dieselbe Zufallsgröße X dar
ii) {ω : ϕ(ω) ∈ B} = {ω : ψ(ω)} ∈ B}(mod N) für alle borelschen B
iii) {ω : ϕ(ω) 6= ψ(ω)} ∈ N
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.2
237
Zufallsgrößen
Bemerke : Die Menge {ω : ϕ(ω) 6= ψ(ω)} ist A–meßbar, weil (ϕ, ψ)(ω)
eine meßbare Abbildung nach E × E ist und die Diagonale in E × E borelmeßbar ist.
3) Der Darstellungssatz von Loomis trägt nicht weit, wenn es darum geht, σ–
Homomorphismen einer beliebigen σ–Algebra A0 (über Ω0 ) in den Quotienten
A / N durch eine Punktabbildung darzustellen.
Zu einem σ–Homomorphismus
η : A / N ← A0 .
gibt es nicht notwendigerweise eine σ–Homomorphismus
ηe : A ← A0 ,
aus welchem das gegebene η durch Äquivalenzbildung hervorgeht. Und selbst
wenn wir ein solches ηe hätten, könnten wir es nicht notwendigerweise durch
die volle Urbildabbildung einer A–meßbaren Punktabbildung erzeugen. Es ist
im allg. nicht zu erwarten, daß es eine Punktabbildung ϕ(·) gibt, so daß gilt
ϕ : (Ω, A) → (Ω0 , A0 ) mit ηe(A0 ) = {ω : ϕ(ω) ∈ A0 } für alle A0 ∈ A0 .
Man braucht einige Struktur im Zielraum, wenn man zum σ–Homomorphismus
η eine Punktabbildung finden will.
Strategisches : Es wäre natürlich überhaupt nicht im Sinne unserer Didaktik,
wenn man den Studenten diese Grundlagenfragen vorlegte. Wir wollen den Studenten nur das Prinzip I vorlegen. Die übliche maßtheoretische Vorgehensweise ist sicherlich nicht gewissenhafter. Die motivierenden Beispiele legen es keineswegs nahe,
daß die Maßtheoretiker auch beliebige meßbare Abbildungen von beliebigen meßbaren Räumen als Zufallsgrößen gelten lassen wollen. Die Studenten, die sich an
Anwendungen orientieren wollen, stutzen zurecht, wenn sie von den Mathematikern
so überfahren werden. Es ist keine gute Tradition, daß die Mathematiker eine Kluft
aufreißen zwischen ihrer sauberen“ Betrachtungsweise und der Art und Weise, wie
”
die Anwender über Zufallsgrößen denken. Daß einige Willkür im Spiele ist, stellen
kritische Studenten schnell fest, wenn sie keine befriedigenden Anworten bekommen
auf die Frage, was es heißt, daß zwei Zufallsgrößen gleich sind oder fast gleich im
Hinblick auf eine (Schar von) Wahrscheinlichkeitsbewertung(en). Die Gleichheiten in
A und in Ω erweisen sich bei allen Beantwortungsversuchen nicht nur als mathematische Fiktion sondern auch als didaktische Probleme. Ein abstraktes Ereignisfeld
mit einer abstrakten Gleichheit erscheint uns nicht nur technisch sauberer, sondern
auch der Intuition näher zu sein. Im übrigen liegt unser Zugang auch auf der Linie
der Denkweise der professionellen Stochastiker. Man hält sich den Zwang vom Leibe,
den Grundraum auswechseln zu müssen, wenn es nötig wird, das Ereignisfeld anzureichern (bei randomisierten Entscheidungen beispielsweise). Das alte Ereignisfeld
bleibt im erweiterten Ereignisfeld als Teilereignisfeld bestehen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
238
Prinzip II (Folgenstetigkeit)
D und E seien polnische Räume. Sei X (1) , X (2) , . . . eine Folge von D–wertigen
e –beobachtbaren Zufallsgrößen, welche konvergiert
A
X = lim X (n) (sichere Konvergenz) .
n→∞
Für jede Abbildung h(·) : D → E, die im Limespunkt“ X stetig ist, gilt dann
”
h(X) = lim h(X (n) ) (sichere Konvergenz) .
n→∞
(Was es heißt, daß die Folge X (n) gegen X konvergiert, muß noch erklärt werden.)
Bemerkung : Die Menge der Unstetigkeitsstellen des borelmeßbaren h(·) ist
bekanntlich eine Borelmenge Dh . Zu fordern ist
{X ∈ D \ Dh } = e
1 (sicheres Ereignis) .
In der elementaren Analysis verwendet man viel Mühe darauf, eine solide Vorstellung
von einer konvergenten Folge zu entwickeln. Es ist vor allem der Begriff der Cauchy–
Folge, der entwickelt werden muß; erst in der Vervollständigung von Q zu IR
wird die Idee von der konvergenten Folge ergiebig. Genauso ist es in der Stochastik.
Die diskreten Zufallsgrößen sind der Ausgangspunkt. Alle anderen gewinnt man als
Limiten von Cauchy–Folgen diskreter Zufallsgrößen. In der Vervollständigung, der
e –beobachtbaren Zufallsgrößen gibt es dann viele
e E aller E–wertigen A
Menge A
konvergente Folgen.
Prinzip III (Vollständigkeit)
e
a) Jedes X ∈ A
gewinnen.
E
kann man als Limes einer Cauchy–Folge diskreter Zufallsgrößen
e
b) Jede Cauchy–Folge in A
E
konvergiert.
E
e und dem
Hinweis : Die Analogie zwischen dem Begriff der Cauchy–Folge in A
Begriff der Cauchy–Folge in E ist sehr verläßlich. Die Grenze der Analogie wird aber
dort erreicht, wo man (wie in der elementaren Analysis üblich) von der Folgenkonvergenz und Folgenstetigkeit zur Konvergenz und Stetigkeit in einem topologischen
Raum übergehen möchte. Die Logiker weisen gelegentlich (ohne große Resonanz)
darauf hin, daß man ein nicht gerade schwaches Auswahlaxiom braucht, wenn man
aus der Folgenstetigkeit einer Funktion f (x), 0 ≤ x ≤ 1, die ε–δ–Stetigkeit erschließen will. Den Studenten verrät man davon nichts. Der Begriff der Folgenstetigkeit verschwindet später still und leise. Wenn die Studenten Punktmengentopologie
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.2
239
Zufallsgrößen
studieren, wird ihnen nahegelegt, die Folgenstetigkeit nur noch als ein Kuriosum zu
sehen; sie sollen nur noch an Umgebungen, abgeschlossene Hüllen u.dgl. denken. In
der Stochastik kann die Folgenstetigkeit nicht verabschiedet werden. Der Begriff der
sicheren“ Konvergenz von Zufallsgrößen gehört zu keiner Topologie. Es ist wie beim
”
Begriff der fastsicheren Konvergenz in der Maßtheorie. Es gibt Folgen mit der Eigenschaft, daß jede Teilfolge eine konvergente Teilfolge besitzt und alle konvergenten
Teilfolgen denselben Limes haben und die dennoch nicht konvergieren. Das ist nach
Ansicht der Bourbaki–geschulten Mathematiker eine Pathologie des Konvergenzbegriffs. Die Bourbaki–orientierten Dozenten haben daher keine hohe Meinung vom Begriff der fastsicheren Konvergenz. Für sie ist es eher ein Kuriosum (welches allenfalls
wegen der Mühen beim Beweis interessiert), wenn irgendwo fastsichere Konvergenz
festzustellen ist. Demgegenüber betonen die nicht vom Bourbaki–System verdorbenen Stochastiker die zentrale Bedeutung der fastsicheren Konvergenz insbesondere
beim individuellen Ergodensatz, beim Martingalkonvergenzsatz, oder beim Beweis,
daß man viele stochastische Prozesse so einrichten kann, daß die Pfade rechtsstetig mit linksseitigen Limiten sind. Die pfadweise“ Betrachtung ist das Salz in der
”
Suppe der Stochastik. Sogar in der Theorie der schwachen Konvergenz (von Wahrscheinlichkeitsmaßen auf einem polnischen Raum) benutzt man mit großem Gewinn
den Begriff der fastsicheren Konvergenz: zu einer schwach konvergenten Folge von
Maßen konstruiert man fastsicher konvergente Zufallsgrößen mit den vorgegebenen
Verteilungen.
Definitionsbereich und Wertebereiche : In der elementaren Analysis muß der
Student Rechenschaft ablegen über den genauen Definitionsbereich jeder Abbildung
g(·). Dies ist z.B. dann wichtig, wenn nach der Umkehrbarkeit der Abbildung gefragt
ist. Gibt es zu
g(·) : D → E ein h(·) : E → D ,
so daß h(g(z)) = z für alle z ∈ D und g(h(x)) = x für alle x ∈ E? Für jedes z,
welches der Mathematiker in D wählt, soll der Bildpunkt g(z) durch h(·) wieder
nach z abgebildet werden. h(·) interessiert auf dem genauen Wertebereich E.
In der Stochastik ist die Frage nach dem genauen“ Definitionsbereich von g(·) fehl
”
am Platze. Der Zufall spezifiziert den Wert von Z; und in vielen Fällen ist für jedes
feste z ∗ das Ereignis {Z = z ∗ } das unmögliche Ereignis. In solchen Fällen kann
man g(·) in jedem einzelnen z ∗ abändern ohne den funktionalen Zusammenhang
X = g(Z)
zu verändern. Generell gilt für die Gleichheit funktionaler Zusammenhänge: Wenn
für g1 (·) : D → E , g2 (·) : D → E
e ,
{g1 (Z) 6= g2 (Z)} = {Z ∈ {z : g1 (z) 6= g2 (z)}} = O
c Prof. Dr. H. Dinges,
18. Dezember 1998
240
dann gilt
g1 (Z) = g2 (Z) .
Sei NZ die Gesamtheit aller borelschen Mengen N mit
e (unmögliches Ereignis) .
{Z ∈ N } = O
NZ ist dann ein σ–Ideal in der Borelalgebra über D. Wir erhalten eine Äquiva-
lenzrelation in der Gesamtheit aller borelmeßbaren Abbildungen g : D → E, wenn
wir definieren
g1 ∼ g2 ⇐⇒ {z : g1 (z) 6= g2 (z)} ∈ NZ .
NZ
Man kann übrigens zeigen
e ) für alle B ∈ B .
g1 ∼ g2 ⇐⇒ {g1 (Z) ∈ B} = {g2 (Z) ∈ B}( in A
NZ
Der funktionale Zusammenhang X = g(Z) bestimmt also g(·) nur bis auf diese
Äquivalenz.
Auch die Frage nach dem genauen“ Wertebereich von g(·) ist fehl am Platze. Wenn
”
wir h(X) bilden wollen, kommt es auf h(·) nur bis auf NX –Äquivalenz an.
Wertebereiche von Zufallsgrößen :
Unsere Zufallsgrößen X nehmen stets Werte in einem polnischen Raum E an;
und die transformierenden Abbildungen führen immer von einem polnischen Raum in
einen polnischen Raum. Wenn E 0 ≤ E, dann wollen wir gelegentlich eine E 0 –wertige
Zufallsgröße als eine E–wertige Abbildung auffassen; z.B. wollen wir manchmal
eine ZZ–wertige Zufallsgröße als eine reellwertige Zufallsgröße auffassen. Dabei ist
der folgende Satz aus der Theorie der polnischen Räume zu beachten: Jede Gδ –
Menge E 0 in einem polnischen Raum E ist selbst ein polnischer Raum (Bourbaki,
Topologie générale IX). Dabei versteht man unter einer G δ –Menge einen abzählbaren
Durchschnitt von offenen Mengen.
Sei X eine E–wertige Zufallsgröße und E 0 eine Gδ –Menge mit {X ∈ E 0 } =
sicheres Ereignis. Dann kann man X auch als eine E 0 –wertige Zufallsgröße X 0
auffassen. Umgekehrt kann man eine E 0 –wertige Zufallsgröße X 0 als eine E–wertige
Zufallsgröße X auffassen, wenn E 0 eine Gδ –Menge in E ist.
{X ∈ B} = {X 0 ∈ B ∩ E 0 } für alle borelschen B in E .
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.2
241
Zufallsgrößen
Beachte : Auch solche Auffassungswechsel führen nicht zu einem Begriff des ge”
nauen“ Wertebereichs einer Zufallsgröße X. Der Durchschnitt aller der Gδ –Mengen
E 0 mit {X ∈ E 0 } = sicheres Ereignis ist häufig leer. Im allgemeinen Fall ist die Suche
nach einem für X natürlichen“ Wertebereich sinnlos. Bei einer diskreten Zufalls”
größe X ∗ gibt es diese Schwierigkeiten nicht; man kann sehr wohl wirklich fragen,
welche Werte die Zufallsgröße nun wirklich annehmen kann. Dort hat man
e
1 = {X ∗ = x1 } + {X ∗ = x2 } + . . .
e einfach weglassen.
und man kann die xj mit {X ∗ = xj } = O
Bei diskreten X und Y zeichnen wir die Konstanzbereiche:
................................
.......
...........
......
........
.....
.......
....
......
.
.
.
.
...
...
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.
....
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
..
...
......... . .. . .............
.
.
.
.
.
...
... . .. . .. . .. . .. .....
..
.
.
.
.
...
... . .. . . . . . . . . ...
..
.
.
.
.
.
...
.
... . .. . .. . .. . . .. . .....
..
.
.
...
.
.
..... . .. . .. . .. . .... .... .....
...
...
.
. . . . ...
.
... . .. . .. . ..2
..
.
.
.
.
.... .. . .. . .. . . .. . .. . ..
...
................
.
...
.
.
.
.
.... . . . . . . .. . .. ...
.......................
.
..
.
..
.
.
.
.
.
.
.
.
.... . . . . . . . . ....
..
................................
.
.
.
..
.
.
.
.
.
..
.
.
.
.
.
.
........ . . . . .......
...................................
..
.
.
.
.
.
.
.
.
..
.
.
.
.
.
.
. . .
............
..
......................................................
...
.
.
.............................................
..
.
.
....
.
......................................
.
.
.
.
.
...
. ...........4
.
. ......
.................
..
...
.....................................
........................................
..
... . ..........
...
.......................................................
... ... . . . ............
...
.............
..
..
...........
.
.... ..... . . . . ....
..........
.
..
.
.
.. ....
........... ....
.
.......... ...
..... .... . . . . . ....
.... .
.
. .
.
..
.... ..... . . .1 . . ....
......... ....
.
... ... .
.... ..
.
..
.... ..
... ......... . .
. ...
.. .
... ............. . . .....
.. ....
......... ......
...
..
............
...
...
...
...
...
...
.
.
.
...
...
..........................
...
.................................. ...
...
....... ................................
...
.......................................
...
...................................................................
.
.
.
...
.
.....
.......... .. .. .. ..............................
. ..
...... .........................................3
........................................................
........... ........... ............
...........................
x
x
x
x
................................
.......
...........
......
........
.....
.......
.....
......
.
.
.
.
..
...
.
.
1
............ ...
.
.
.
.............. . .....
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
........ .
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.
........ . . . . . . . .....
..
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
....
.
.
...
. .
............ .
.................... . . . . . . . . . . . . .....
.
.
.
..
.
.
. . . .
. . .........
...
.. . . . . . . .2 . . . . ............................. ......
.
.
.
..
.
... . . . .
. . ..................... .. . .. . .. .. . ...
.... . . . . . . .............................. . .. .... .... .. . .. .......
.
.......... . . . . . . . . . . ..
...
... . . . ............................ . .. .... .... .. . .. .... .... .. .... .... ....
.
.
........... . . . . . . . . . . . . . . . . . ...
...
............. . . . . . . . . . . . . . . . . . . . . . . . . . . ..
........................ .. . .. . .. . . .. . .. . .. .. . .. . .. . . .. . .. . .. . . .. . ....
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..
.. ... .. .... .... .. . .. .... .... .. . .. .... .... .. .... .... .... .. .... .... ....
.
. . . . . . . . . . . . .3 . . . . . . . . . .
... . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . ......
.. . . . . . .. . .. . . .. . .. . .. . . .. . .. . . . . .. . .. . ...........................
.. .. .... .. . .. . .. .... .. . .. . .. .. . .. . .. .... .. ...............................................
...... .. . .. .... .... .. . .. .... .... .. .... .. ............................................................................
. .
.
. .. .
.
... . . . . .
........ .. . .. .... .... .. .... .................................................................................................... ....
. . . . . . . ....... .. . . ...................................
.... . . .. .... .. ...........................................................4
...
. .. .........
..... . ...................................................................................
...
..
................................................................
..
.
... ........................................
.
..............................
...
.................
...
...
...
...
...
...
...
.
..
...
...
...
....
...
...
...
.....
.
....
.
.
.
....
....
......
......
.......
.......
........
.........
.....................................
y
y
y
y
·
·
·
Nach alledem, was wir über die Unestimmtheit in den Wertebereichen gesagt haben, könnte es auf den ersten Blick überraschen, daß man die Frage nach der Umkehrbarkeit einer funktionalen Beziehung sehr wohl stellen kann. Die Frage
hat eine überraschend einfache Antwort. Die allgemeine Fassung des entscheidenden
Satzes heißt der allgemeine Hebungssatz. Wir beweisen ihn am Ende des nächsten
Abschnitts. Hier formulieren wir einen Spezialfall, der an den Satz von der implizit
gegebenen Funktion erinnern sollte.
Prinzip IV ( Hebungsprinzip“)
”
e –beobachtbare Zufallsgrößen und Y = f (X, Z) mit einem borelmeßSeien X, Z A
baren f (·, ·). Genau dann gibt es ein borelmeßbares g(·, ·) mit X = g(Y, Z), wenn
e (Y,Z) beobachtbar ist.
X bzgl. der von (Y, Z) erzeugten Teilalgebra A
Bemerke :
1) Fragen der Konvergenz von Zufallsgrößen oder der Stetigkeit von Abbildungen
scheinen hier keine Rolle zu spielen. Dennoch ist es wichtig, daß X Werte
c Prof. Dr. H. Dinges,
18. Dezember 1998
242
in einem polnischen Raum annimmt. Irgendwo versteckt spielt die Topologie
doch eine Rolle. Für meßbare Abbildungen, die Werte in abstrakten meßbaren
Räumen annehmen, kennen wir kein Hebungsprinzip.
2) Es gibt noch weitere gute Gründe für die Forderung, daß die Zufallsgrößen
Werte in polnischen Räumen annehmen. Im polnischen Fall hat man einen
guten Überblick über die Gesamtheit aller σ–Homomorphismen von B in
e , d.h. einen guten Überblick über die Gesamtheit A
e E aller E–wertigen A
e–
A
beobachtbaren Zufallsgrößen. Zu diesem Überblick verhilft uns das Vollständigkeitsprinzip. Die Zufallsgrößen sind die Limiten von Cauchy–Folgen diskreter
Zufallsgrößen.
Manchmal darf man sich auch im kontinuierlichen Fall die Partitionen des sicheren
Ereignisses wie Partitionen einer Grundmenge Ω vorstellen. Zwar entsprechen (nach
dem Satz von Loomis) die Ereignisse {X ∈ B} keinen Mengen sondern vielmehr
N–Äquivalenzklassen von Mengen. Zu jedem E existiert aber, wie wir unten im
Darstellungssatz beweisen werden, eine Abbildung ϕ(ω), wo {ω : ϕ(ω) ∈ B} das
Ereignis {X ∈ B} für alle B ∈ B repräsentiert. Das ist der Grund, daß Bilder wie
die folgenden die Intuition nicht irreleiten. Die Polnizität ist aber wichtig. Zu einem
σ–Homomorphismus
0
A/N ← A
mit einer σ–Algebra A0 , die nicht die Borelalgebra eines polnischen Raums ist, ist
das Bild schwerlich zu rechtfertigen.
Bei reellwertigen X und Y stellen wir uns Höhenlinien vor:
................................
...........
.......
......
......................
........
....
.......
...
.....
....
.
.
.
.
...
...
...........................
.
.
.
.
.
.
...
.
.
.
..... ......
..
...
....
.
.
.
.
.
.
.
.
.
....
......
...
...
...................
.
.
.
.
.
.
.....
...
....
00........... .............. ....
.
.
...
.
...
...
..... ....
.
.
.
.
.
.
.
.
.
.... .......
... ....
...
...
.... .....
.
.
.
... ...
...
.
......
....
.
.
.
.
.
.
.
....
...
... ....
... ..........
...
...
... ..
...
....
...
...
... ...
...
....
.
..................
... ..
.
.
.
....
...
...
..............
... ...
..
.
.
.
.
.
.........
...
...
...
......
..
.......
.
.
.
.
...
...
...
.......
..
..
.
.
.
......
...
... ... ........
......
..
.
.
.
.
...
... ... ......
......
..
.
...
... ... .....
.....
..
.....
.
.
.
.
...
... .. ....
.....
..
...
.....
.... .... ...
... ..........................................
...
..... ..
.....
..........
.. .....
...
....
.........
..
... ....
....
...
........
.. ....
...
....
...
.......
....
.......
...
.
.. .....
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 .....
.....
.... ... ..
......
.....
......
.... .. ..
.....
.......
...
... ......
... ...
........
...
... ..
.........
... .......
..
... .
..........
.....
.
... ..........
.
.............
..
........
.
..
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..............
..........
...
..
.
.
.
.
.
.
.
..................
...
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
................................
.
...
.
.
...
...
...
....
...........
............
... ..............
............ ....
........................................................ ........
....
...
....
.....
......
.......
.......
.........
.......
......................................
x
x
A.2.2
y0
.........................
00
...............
..........
............ ...
..... ..........
........ ...................
....
...... .... ...
..........
.
.
.
.
.
.
.
.
.
.................... ....................
.......
..... ...
.
.
.
.
.
.
...... .......
.
. ...
...
...
......
.. ... . ...... ... ...
...
... ...
.... .......... ...
... ......... ......... .... ....
..
.....
..
............ .................. .... ....
.........
. ...... ..... ....
.
... ....
.
.
.
.. ......
.
.
.
.
.
.
.
.
.
.
.. ..... .... ...... ... .....
.. .. .... ........
... ..
.. .... ........ .............. ...
... .. ..... ..
.. ....
.
.
.
.
.
...... ..
.. .
.....
.....
. ..
.
.....
......
....... ....
..
....
.. ... ...
.. ..
....... ... ... ..
... ...... ... ......
... .. ..
... ...
... ... .... .... ........ .... ....
.. ... ...
...
... ..
.....
... ..
... .. ....
..
............................................ ....
.
.
..
..... .....
......
... ....
... ... ............
...
.....
... . ..
...
... ... ... ... ........
... ...
... .. .... .... .... ................
. .. ..
.. .... ... ........ .... ..... .......
......
.. ...
.
.
.
.
... .. .... ..... .....
. ... ...
. ...
.. .......
..
.
.
.
.
.
.
.
.
.
..... .. ... ... .. ...
.
..... ..
...
.. ... .... .... ....
.......
.... .. .... .. ...
..
..
... ...
.. ..
.....
... .. .. .... .. ......
.. . ............................................. ....
.. ..... ..... ....... ..
.. ....
...........
.. ....... .. ..
.. ......... .... ........ .... ......... ....
.
.
....
.
.
.
........... ..... ....
.....
..... .. .....
.
.
. .
... ..................
. ... . ... .... ....
...
.... ........ ...
..
.......
...
... ........ .... .... ... ...
.... ............ ....
.. . . . .
..
..
.. ..............
. . ..........
..
.. ......... ....... ....
..
..
.
.
.
.
.
.
.
.
.
.
.
.
.
...........
.
.
.
.
...
. .... . ..... ... .
...
.......... .... ...............
...
... ......... ... .......... .......
... ....... ...
. .
...
...................
...
. .
..... ..
..
. ......
...... ..
... ..........
...
...
... ......................................................... .... ..... .....
... ... ........... ..
.
.
........... ..
. .. ......
.
.
... ...
.
.
.
.
.
.
.
.
.
.
.
... ...
.. ...........................................................................................
.....
.
.
.. ...
..
...
.. ...
... ...
....
.. ..
.. ..
...
... ....
.. ..
...
.. .....
..
..... .... ..... .....
......
............................
.
............... .. .. .. ...
.
.
.
.... ......................................................................... .......
. .
....
.. ......
..... .... .... ..... .....
..........
...... . .... ...
.......
............. ...
............... .......................
........
y
Darstellungstheorie
Dies ist nun wieder ein technischer Abschnitt. Für den fortgeschrittenen Stochastikstudenten soll dargelegt werden, welche harten mathematischen Sätze hinter den
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.2
243
Zufallsgrößen
Prinzipien des intuitiven Rechnens mit Zufallsgrößen stehen. Der Satz von Loomis
wird sich als ein höchst wirksames Beweisprinzip erweisen. Wir werden aber darauf
achten, daß die spezielle Konstruktion von Stone, (die ja hochgeradig unanschaulich ist und das Auswahlaxiom in der allerstärksten Version benützt,) den intuitiven
Gehalt der Aussagen nicht verdunkelt.
Reellwertige Zufallsgrößen :
Jedes reellwertige X ist jedenfalls eindeutig bestimmt durch die abzählbar vielen Ereignisse {X ≤ r} mit r rational; denn die Gesamtheit der Intervall
{(−∞, r] : r rational } erzeugt die Borelalgebra auf IR. Wir fragen nun, welche Scharen von Ereignissen ξ = [ξr , r rational ] geeignet sind, eine Zufallsgröße
X zu definieren: {X ≤ r} = ξr für alle r. Aus dem Studium der Gesamtheit X
aller definierenden Scharen ξ wird sich ein Hinweis auf den angemessenen Konvergenzbegriff in X ergeben. (X wird nicht zu einem topologischen Raum gemacht;
nur abzählbare Operationen sind erlaubt.)
Satz : (Charakterisierung der reellwertigen Zufallsgr ößen)
Sei ξ irgendeine isotone rechtsstetige Familie von Ereignissen {ξ r : r ∈ Q} mit
(i) r < s ⇒ ξr ⊆ ξs Isotonie .
(ii) ξx =
^
ξr für x rat. (Rechtsstetigkeit) .
r>x
(iii)
^
r
e ,
ξr = O
_
r
ξr = e
1.
Es gibt dann genau eine IR–wertige Zufallsgröße X mit
{X ≤ x} = ξx für alle x .
Der Beweis wird unten in aller Ausführlichkeit geführt.
Historischer Hinweis : In Kolmogorovs Grundlegung von 1933 und in vielen
darauf aufbauenden Untersuchungen gibt es nur reellwertige Zufallsgrößen. f (·) auf
Ω heißt A–meßbar, wenn
{ω : f (ω) ≤ λ} ∈ A für alle λ .
Die reellwertigen Zufallsgrößen spielen in mancherlei Beziehung eine besondere Rolle. Die Vorstellung, daß es sich bei f (·) um eine Abbildung handelt, ist nicht immer die natürliche. In der Integrationstheorie und in der Theorie der Banachräume
Lp (Ω, A, P ) steht der Abbildungsgesichtspunkt nicht vornean. Man erhält die Elemente f vielmehr durch einen Vervollständigungsprozeß aus der Menge der Linearkombinationen von Indikatorfunktionen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
244
Einer der Hauptpunkte in Kolmogorovs Grundbegriffen war die Theorie der bedingten Erwartungen auf der Grundlage des Satzes von Radon–Nikodym. Wenn man
dQ
in den Lehrbüchern behannachsieht, wie die Randon–Nikodym Dichten f = dP
delt werden, stellt man fest, daß die Vorstellung von einer Abbildung fernliegt. Es gibt
Beweise, die von Projektionen im L2 (Ω, A, P ) ausgehen, also zunächst mit Hilbertraumideen arbeiten, und dann mit einem Monotonieargument zu einer Projektion des
L1 (Ω, A, P ) gelangen. Andere Beweise stützen sich aauf die Jordan–Hahn–Zerlegung
von signierten Maßen: für jedes rationale r zerlegt man den Grundraum so, daß
Q − rP rein negativ ist auf dem einen Teil Ω r und rein negativ auf dem Rest
Ω \ Ωr . Die Zerlegung ist bis auf P –Nullmengen eindeutig. Es gilt
r < s =⇒ Ωr ⊆ Ωs (mod NP ) .
Dieses Bild haben wir in unserem Charakterisierungssatz vor Augen.
Besonderheiten der reellwertigen Zufallsgr ößen : Bei vielen Zugängen zu
den reellwertigen Zufallsgrößen spielt die Ordnungsstruktur und (oder) die Gruppenstruktur von IR eine wesentliche Rolle. Wenn das Hebungsprinzip in manchen
sonst sehr modernen Lehrbüchern nur für reellwertige Zufallsgrößen bewiesen wird,
dann ist das vermutlich auf die besonderen Bequemlichkeiten zurückzuführen, die
der Wertebereich IR bietet.
Für allgemeines polnisches E muß an die Stelle von Monotonieargumenten ein Approximationsprinzip allgemeinerer Art treten. Obwohl wir der Ansicht sind, daß dieses allgemeinere Approximationsargument das Vollständigkeitsprinzip (Prinzip III)
viel klarer herausarbeitet als die zunächst einmal angestellten Überlegungen über
monotone Konvergenz, hat u.E. der folgende erste Beweisansatz einigen didaktischen
Wert.
IR
e
e –beobachtbaren) Zufallsgrößen ist eines von
Die Gesamtheit A
der rellwertigen (A
denjenigen mathematischen Objekten, die mit Gewinn aus verschiedenen Blickwinkeln betrachtet werden können. Wir wollen uns nicht auf den knappsten Zugang
verlassen, da es darum geht, das Vorstellungsvermögen anzuregen und den Wunsch
nach Verallgemeinerung plausibel zu machen.
Der Standpunktwechsel bei der Behandlung reellwertiger Zufallsgrößen lohnt sich
sehr oft und sollte daher bei passenden Gelegenheiten immer wieder geübt werden.
Ein Student, beispielsweise, der Martingale nur als Folgen von Radon–Nikodym–
Dichten sieht, hat große Nachteile gegenüber einem, der es auch gelernt hat, Pfade zu
zeichnen und sich ein Bild von den Oszillationen zu machen. Ähnliches ist vom individuellen Ergodensatz zu sagen. Das Lemma von Garsia für E. Hopfs Maximallemma
oder das etwas ältere Lemma von A. Brunel beeindruckt den Funktionalanalytiker
durch Knappheit und durch die Nähe zu den geläufigen Begriffsbildungen der positiven Kontraktion; dem Stochastiker sagen Pfadbilder aber mehr. Pfadbilder entsprechen den im vorigen Kapitel empfohlenen Vorstellungsweisen. Im folgenden stellen
wir zu Beweiszwecken verbandstheoretische Überlegungen in den Vordergrund.
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.2
245
Zufallsgrößen
Der Bequemlichkeit halber charakterisieren wir nicht den Raum der reellwertigen
e –beobachtbaren ZufallsZufallsgrößen. Wir studieren vielmehr die IR + –wertigen A
größen. Wenn wir den Punkt +∞ hinzufügen, können (oder müssen) wir auf die
W
Forderung
ξr = e
1 verzichten. Es ist leicht, auf IR+ eine Metrik einzuführen, die
diesen Raum vollständig macht (mit der üblichen Definition der Konvergenz nach
+∞). Wir brauchen eine solche Metrik hier aber nicht.
Die Gesamtheit der IR+ –wertigen Zufallsgrößen als vollständig geordnete
Menge
1) X wird zu einer partiell geordneten Menge, wenn wir setzen
ξ ⊆ η ⇐⇒ ηx ⊆ ξx für alle x .
Man sieht leicht, daß gilt
ξ ≤ η ⇐⇒ ηs ⊆ ξt für alle rationalen s < t .
(X, ⊆) hat ein größtes und ein kleinstes Element und für jede Folge ξ (n) gibt
es das Supremum und das Infimum in X
η = X − sup ξ (n)
ξ = X − inf ξ
(n)
⇐⇒ ηx =
⇐⇒ ξx =
^
ξx(n)
n
^
y>x
ξey mit ξey =
_
ξy(n) .
n
e die man durch Supremumsbildung erhält muß rechtsstetig ge(Die Schar ξ,
macht werden.)
Wir schreiben η = lim ↑ ξ (n) , wenn ξ (1) ↓≤ ξ (2) ≤ . . . und η = X − sup ξ (n) .
Entsprechend
wir ξ = lim ↓ ξ (n) , wenn ξ (1) ≥ ξ (2) ≥ . . . und
schreiben
ξ = X − inf ξ (n) .
2) Jeder Folge ξ (n)
ξ∗ zuordnen
n
können wir den oberen Limes ξ ∗ und den unteren Limes
ξ ∗ := lim ↓ X − sup ξ (n) : n ≥ N ≥ lim ↑ X −inf ξ (n) : n ≥ N =: ξ∗ .
N
ξ (n)
Wir sagen von einer Folge
n
N
, daß sie gegen ξ konvergiert und schreiben
ξ = X − lim ξ (n) , wenn ξ∗ = ξ = ξ ∗ .
Offenbar konvergiert die Folge genau dann, wenn
^ _
N n≥N
ξs(n) ⊆
_ ^
(n)
ξt
für alle s < t .
N n≥N
c Prof. Dr. H. Dinges,
18. Dezember 1998
246
3) Für die Folge
ξ (n)
n
mit
ξs(n) = {X (n) ≤ s}
bedeutet die X–Konvergenz gegen ξ, daß für alle s < t gilt
(i) ξs ⊆
(ii)
W V
V W
N n≥N
N n≥N
{X (n) ≤ t}
{X (n) ≤ s} ⊆ ξt .
Diese Formeln bereiten auf die Definition der Konvergenz von E–wertigen
eE
Zufallsgrößen vor. Wir können im Raum der E–wertigen Zufallsgrößen A
keine Ordnung einführen. Dennoch werden die Formeln (i) und (ii) ähnlich
lauten.
4) Die Vollständigkeit von IR+ wird gebraucht, wenn man zu jedem X, welches
man als Limes erhält einen σ–Homomorphismus
e 3 {X ∈ B} ← B ∈ B
A
konstruieren will. Es kommt darauf an, daß für alle s < t < u (aus Q)
{X ≤ s} ⊆
_ ^
N n≥N
{X (n) ≤ t} ⊆
^ _
N n≥N
{X (n) ≤ t} ⊆ {X ≤ u} .
Zur Konstruktion des σ–Homomorphismus ziehen wir den Satz von Loomis
e ' A / N. Zu jeder rechtsstetigen
heran. Wir haben (Ω, A, N) , so daß A
isotonen Schar ξ = [ξs : s > 0, rational ] finden wir eine A–meßbare IR+ –
wertige Funktion f (ω), so daß
{ω : f (ω ≤ s} = ξs (mod N)
(s rational )
e einen Repräsentanten
Die Konstruktion erfolgt so: Wir wählen zu jedem ξs ∈ A
As ∈ A und setzen
As =
\
At
(mengentheoretischer Durchschnitt) .
t>s
As ist ein Repräsentant von ξs ; denn
s < t =⇒ As ⊆ At (mod N) .
Die Schar [As : s > 0} ist nun im mengentheoretischen Sinn isoton und
rechtsstetig. Setze
f (ω) = inf{s : ω ∈ As }
f (ω) = +∞, falls ω ∈
/
[
As .
s
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.2
247
Zufallsgrößen
Für alle reellen λ gilt
{ω : f (ω) ≤ λ} =
\
s>λ
As ∈ A .
f (·) ist also A–meßbar im klassischen Sinn und
B 3 B 7−→ {ω : f (ω) ∈ B} ∈ A
e –wertigen Zufallsgröße X zu ξ
liefert einen Repräsentanten der A
B 3 B 7−→ {X ∈ B} = N –Äquivalenzklasse von {ω : f (ω) ∈ B} .
5) Wenn f (ω) und g(ω) A–meßbare Repräsentanten von ξ bzw. η ∈ X sind,
dann gilt
ξ ≤ η( in X) ⇐⇒ {ω : f (ω) > g(ω)} ∈ N
⇐⇒ f ≤ g N –fast überall .
Wenn f (n) (ω) ein Repräsentant von ξ (n) ist, dann ist
g(ω) = sup{f (n) (ω)} ein Repräsentant von X − sup(ξ (n) )
n
h(ω) = inf {f (n) (ω)} ein Repräsentant von X − inf(ξ (n) ) .
n
Genau dann konvergiert (ξ (n) )n in X, wenn für N–fast alle ω
lim inf f (n) (ω) = lim sup f (n) (ω) .
n→∞
n→∞
Die Konvergenz in X entspricht also der N–fastsicheren Konvergenz A–
meßbarer IR+ –wertiger Funktionen.
Der vollständige Raum aller E–wertigen Zufallsgr ößen
e E mit allgemeinem polnischen E
Für den Beweis des Vollständigkeitsprinzips in A
steht uns keine vollständige Ordnung in E zur Verfügung. Wir müssen etwas anders
vorgehen. Dazu brauchen wir einige Vorbereitungen.
Notationen :
a) E bezeichnet einen polnischen Raum, ρ(·, ·) eine Metrik, die E vollständig
macht. Für A ⊆ E definieren wir
ρ(x, A) = inf{ρ(x, y) : y ∈ A}
für α > 0
Aα = {x : ρ(x, A) < α} = {x : ρ(x, y) < α für ein y ∈ A} .
b) K = K(x∗ , r) = {x : ρ(x∗ , x) < r} heißt die Kugel mit dem Radius r um den
Mittelpunkt x∗ . M = {x∗1 , x∗2 , . . .} sei eine überall dichte Menge. K sei die
Menge aller Kugeln zu x∗ ∈ M , r > 0 rational.
c Prof. Dr. H. Dinges,
18. Dezember 1998
248
Bemerke :
e, welches von E \ Aα einen Abstand < α hat, kann nicht in A liegen;
1) Ein x
e ∈ A, y ∈ E \ Aα =⇒ ρ(x
e, y) ≥ α. Also gilt
denn x
(E \ Aα )α ⊆ E \ A .
e ∈ A =⇒ K(x
e, α) ⊆ Aα
x
2)
e∈
e, α) ∩ A = ∅
x
/ Aα =⇒ K(x
Wenn nichts anderes gesagt ist, ist α > 0 rational angenommen.
3) K ∈ K, α > 0 rational =⇒ K α ∈ K.
4) Jede offene Menge U kann mit Kugeln ∈ K überdeckt werden.
e ist wie immer das unmögliche Ereignis. Wir betrachten
e sind fest. O
E und A
e –beobachtbare Zufallsgrößen X, Y, X (1) , X (2) , . . .
E–wertige A
Lemma :
X = Y ⇐⇒ {X ∈ K} ⊆ {Y ∈ K α } für alle K ∈ K, α > 0 .
Der Beweis ist trivial.
Definition : (Sichere Konvergenz)
Wir sagen, daß die Folge (X (n) )n sicher gegen X konvergiert und schreiben
X = lim X (n) (sicher) ,
wenn für alle K ∈ K, α > 0 gilt
(i) {X ∈ K} ⊆
(ii)
V W
N n≥N
W V
N n≥N
{X (n) ∈ K α }
{X (n) ∈ K} ⊆ {X ∈ K α }
oder äquivalent damit
(i’)
V
N
(ii’)
V
N
K α}
!
{X (n) ∈ K} ∧ {X ∈
/ K α}
!
{X ∈ K} ∧
W
n≥N
W
n≥N
{X (n)
∈
/
e
=O
e
=O
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.2
249
Zufallsgrößen
Das entspricht der Charakterisierung der deterministischen Folgen x 1 , x2 , . . ., die
gegen x konvergieren. Für jedes K, α sind die Möglichkeiten ausgeschlossen
(i) x ∈ K und xn ∈
/ K α für unendlich viele n
(ii) xn ∈ K für unendlich viele n und x ∈
/ Kα .
Wenn alle diese Möglichkeiten ausgeschlossen sind, gilt x = lim x n .
Definition : (Cauchy–Folge)
Wir nennen (X (n) )n eine Cauchy–Folge, wenn für alle K ∈ K, α > 0
(iii)
V
N
W
n≥N
W
{X (n) ∈ K} ∧
n≥N
{X (n) ∈
/ K α}
!
e
= O.
Man beweist leicht das
Lemma :
a) Wenn X und Y Limes von (X (n) )n sind, dann X = Y .
b) Jede konvergente Folge ist Cauchy–Folge. Insofern sind die Definitionen also
in sich stimmig. Die schlüssige Bestätigung der Definition ergibt sich aus dem
Vollständigkeitsprinzip, welches wir nun beweisen werden.
Konstruktion zum Beweis der Aussage a) im Prinzip III :
X sei eine Zufallsgröße. Wir approximieren X durch eine Folge X (n) , wo X (n)
nur Werte in M = {x∗1 , x∗2 , . . .} annimmt.
1) Für n = 1, 2, . . . wird E überdeckt durch die Kugeln
1
K x1 , n
2
1
, K x2 , n
2
,...
Dazu betrachten wir die Partition
(n)
E = B1
(n)
+ B2
+ ...
mit
(n)
B1
1
1
(n)
= K x1 , n , Bj+1 = K xj+1 , n
2
2
c Prof. Dr. H. Dinges,

\
j
X
i=1

(n)
Bi 
18. Dezember 1998
250
Wir erhalten eine Zufallsgröße X (n) , wenn wir setzen
(n)
{X (n) = xj } = {X ∈ Bj }
(n)
(n)
e
1 = {X ∈ B1 } + {X ∈ B2 } + . . . = {X (n) = x1 } + {X (n) = x2 } + . . . .
2) Wir zeigen X = lim X (n) . Betrachte K ∈ K, α > 0 beliebig und N so groß,
daß 21n < α für n ≥ N . Dann haben wir
(i)
(n)
xj ∈
/ K α =⇒ Bj
{X ∈ K}
(n)
X
=
j
e
∩ K = ∅, {X ∈ K} ∧ {X ∈ Bj } = O
{X ∈ K} ∧ {X (n) = xj }
X
⊆
sj ∈K α
{X ∈ K} ∩ {X (n) = xj }
{X ∈ K} ∧ {X (n) ∈ K α }
⊆
(n)
xj ∈ K =⇒ Bj
(ii)
{X (n) ∈ K}
X
=
xj ∈K
X
=
xj ∈K
⊆ Kα
{X (n) = xj }
(n)
{X ∈ Bj } ⊆ {X ∈ K α }
Daraus
1. {X ∈ K} ⊆
2.
W
n≥N
V
n≥N
{X (n) ∈ K α }
{X (n) ∈ K} ⊆ {X ∈ K α }
Die Konvergenz ist sogar gleichmäßig in dem Sinne, daß man N unabhängig von
K zu α bestimmen kann.
Damit ist die Aussage a) von Prinzip III vollständig bewiesen.
Bemerke : Im Falle E = IR+ können wir viel einfacher vorgehen. Wir erhalten
eine isotone gegen ein gegebenes X konvergierende Folge X (n) folgendermaßen
X (n) =
k−1
2n
= X∈
k−1 k
,
2n 2n
für k = 1, 2, . . .
Zum Beweis der Aussage b) in Prinzip III brauchen wir den allgemeinen
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.2
251
Zufallsgrößen
e = A / N; E ein polnischer Raum. Zu jedem
Darstellungssatz : Sei (Ω, A, N), A
E
e
X ∈ A existiert eine meßbare Abbildung
ϕ : (Ω, A) −→(E, B) ,
e ist, für alle
so daß {ω : ϕ(ω) ∈ B} ∈ A ein Repräsentant von {X ∈ B} ∈ A
borelschen B.
E
e
(Wir sagen in diesem Falle, daß ϕ ∈ AE ein Repräsentant von X ∈ A
ist.)
E
e .
Beweis : Es bezeichne DE die Menge der repräsentierbaren Elemente von A
E
E
e
Wir werden D = A
zeigen. Es ist bequem, E um einen isolierten Punkt ∂,
den Friedhofspunkt“ zu erweitern und (E ∪ {∂})–wertige Repräsentanten ϕ(·) zu
”
konstruieren mit {ω : ϕ(ω) = ∂} ∈ N.
E
e
1) Für jedes diskrete X ∈ A
gilt X ∈ DE
{X = x1 } + {X = x2 } + . . . = e1 in A .
Wähle Repräsentanten A0j ∈ A für {X = xj } und setze

A1 = A01 , Aj+1 = A0j+1 \ 
j
X
i=1

Ai  , j = 1, 2, . . . , A∂ = Ω \
∞
X
i=1
Ai
!
{ω : ϕ(ω) = xj } = Aj , {ω : ϕ(ω) = ∂} = A∂ .
Offenbar repräsentiert ϕ(·) das gegebene diskrete X.
2) Es seien X (n) ∈ DE mit (X (n) )n Cauchy–Folge. Wir zeigen die Existenz
eines Limes in DE . Die Cauchy–Eigenschaft besagt für alle K ∈ K, α > 0
N (K, α) :=
\
N


[
n≥N
{ω : ϕ(n) (ω) ∈ K} ∧
[
n≥N

{ω : ϕ(n) (ω) ∈
/ K α } ∈ N .
Für ein ω, welches in keiner dieser abzählbar vielen N–Mengen liegt, existiert
ein N = N (ω, K, α), so daß ϕ(n) (ω) ∈ K für mindestens ein n ≥ N =⇒
ϕ(n) (ω) ∈ K α für alle n ≥ N .
Für jedes solchermaßen reguläre ω existiert (wegen der Vollständigkeit von
E) der Limes ϕ(ω). Für die nichtregulären ω setzen wir ϕ(ω) = ∂.
3) Es ist zu zeigen, daß ϕ(·) A–meßbar ist.
Für jedes offene O haben wir
ϕ(ω) ∈ O ⇐⇒ ϕ(n) (ω) ∈ O für schließlich alle n
⇐⇒ ω ∈
\ [
N n≥N
{ω : ϕ(n) (ω) ∈ O} ∈ A
c Prof. Dr. H. Dinges,
18. Dezember 1998
252
4) Weiter gilt für jedes K ∈ K, α > 0 ϕ(ω) 6= ∂ und ϕ(n) (ω) ∈ K unendlich oft
=⇒ ϕ(ω) ∈ K α . Für das von ϕ(·) dargestellte X gilt also
^ _
N n≥N
{X (n) ∈ K} =
N
\ [
N n≥N
{ω : ϕ(n) (ω) ∈ K} ⊆ {X ∈ K α }
N
und nach 3)
{X ∈ K} = {ω : ϕ(ω) ∈ K}
N
=
\ [
N n≥N
{ω : ϕ(n) (ω) ∈ K} ⊆
N
^ _
N n≥N
{X (n) ∈ K}
E
e ).
Das zeigt X = lim X (n) (sichere Konvergenz in A
E
e
5) Nun läßt sich aber jedes X ∈ A
als Limes einer Folge diskreter X (n)
gewinnen. Also ist jedes X darstellbar. Und jede Cauchy–Folge hat einen
Limes.
Aus dem Satz von Loomis wissen wir, daß jedes Ereignisfeld σ–isomorph zu einem
A / N ist. Damit ist das Vollständigkeitsprinzip bewiesen.
Beweis von Prinzip II :
e = A / N an.
Wir nehmen wieder A
1) h : D → E borelmeßbar.
In D und E nehmen wir Metriken, bzgl. derer D bzw. E vollständig sind.
Betrachte zu ε > 0, δ > 0 rational
D δ,ε := {(x0 , x00 ) ∈ D × D : ρ(x0 , x00 ) < δ, ρ(h(x0 ), h(x00 )) ≥ ε}
ST
ε δ
D δ,ε ist eine Teilmenge der Diagonale; sie besteht aus denjenigen (x, x),
für welche h(·) in x unstetig ist. Die Menge der Unstetigkeiten von h(·) ist
also eine Borelmenge Dh .
2) Wählen wir Repräsentanten ϕ(ω) von X, ϕ(n) (ω) von X (n) .
Es gilt ϕ(ω) = lim ϕ(n) (ω) für alle ω außerhalb einer N–Menge. Nach
Voraussetzung ist auch {ω : ϕ(ω) ∈ Dh } ∈ N. Für alle regulären ω haben
wir
h(ϕ(ω)) = lim h(ϕ(n) (ω)) .
E
e ).
Das zeigt h(X) = lim h(X (n) ) (sicher in A
Der Satz von Loomis impliziert nun das Folgenstetigkeitsprinzip.
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.2
253
Zufallsgrößen
Beweis von Prinzip I :
e = A / N, X i ∈ A
e Ei , ϕi (ω) ∈ AEi , E =
A
∞
Y
Ei
i=1
ϕ(ω) = (ϕ1 (ω), ϕ2 (ω), . . .) : (Ω, A) −→(E, B)
Die meßbare Abbildung ϕ(·) repräsentiert die E–wertige Zufallsgröße
X = (X1 , X2 , . . .).
Satz :
e = A / N.
Sei wieder A
ϕ : (Ω, A) −→ (E, B)
ψ : (Ω, A) −→ (E, B) .
Die beiden meßbaren Abbildungen repräsentieren genau dann dieselbe Zufallsgröße
e E , wenn
X∈A
{ω : ϕ(ω) 6= ψ(ω)} ∈ N .
Beweis :
Die Bedingung ist offensichtlich hinreichend. Wenn ϕ(·) und ψ(·)
dasselbe X repräsentieren, dann haben wir für jedes Rechteck B × C ⊆ E × E mit
B∩C =∅
{ω : (ϕ, ψ)(ω) ∈ B × C} = {ω : ϕ(ω) ∈ B} ∩ {ω : ψ(ω) ∈ C}
e .
= {X ∈ B} ∧ {X ∈ C} ={X ∈ B ∩ C} = O
N
N
Das Komplement der Diagonalen in E × E kann man mit abzählbar vielen B × C
dieser Art überdecken. Dies ergibt
{ω : ϕ(ω) 6= ψ(ω)} = {ω : (ϕ, ψ)(ω) ∈
/ Diagonale} ∈ N .
q.e.d.
Der Hebungssatz, Einführung :
Sei Aϕ die von einer Punktabbildung
ϕ : Ω → (Ω0 , A0 )
erzeugte σ–Algebra.
Jedes A0 –meßbare g(ω 0 ) ist f (ω) = g(ϕ(ω)) Aϕ –meßbar.
c Prof. Dr. H. Dinges,
18. Dezember 1998
254
Der Hebungssatz in seiner einfachsten Version besagt, daß jedes reellwertige
Aϕ –meßbare f (·) von dieser Gestalt ist (wobei das darstellende g(·) allenfalls
in Ausnahmefällen eindeutig bestimmt ist).
Die Voraussetzung, daß f (·) reellwertig ist, erweist sich als unnötig. Es genügt
anzunehmen, daß der Wertebereich E ein polnischer Raum ist. Für jedes E–wertige
Aϕ –meßbare f (·) gibt es ein g(·) mit f (ω) = g(ϕ(ω))
(E, B)
.........
......
.....
.....
.
.
.
.
.....
....
.....
....
.....
.
.
.
.
...
.......
...
f (ω)
(Ω, Aϕ )
Bemerke :
.....
.....
g(ω 0 )
.....
.
.....
.
.....
ϕ
- (Ω0 , A0 )
Statt f (ω) = g(ϕ(ω)) können wir auch schreiben
{ω : f (ω) ∈ B} = ϕ−1 {ω 0 : g(ω 0 ) ∈ B}
für alle borelschen B .
In der Sprache der Zufallsgrößen besagt die oben formulierte Version des Hebungssatzes:
Zu jeder Aϕ –beobachtbaren Zufallsgröße X gibt es eine A0 –beobachtbare Zufallsgröße Y so, daß
{X ∈ B} = ϕ−1 ({Y ∈ B})
für alle borelschen B .
Wenn wir den Hebungssatz weiter verallgemeinern (und schließlich beweisen), wollen wir an der Voraussetzung festhalten, daß der Wertebereich der darzustellenden
Zufallsgröße polnisch ist. E sei ein fixierter polnischer Raum. Die Annahme der
Aϕ –Meßbarkeit ist es, die wir verallgemeiner wollen. Wenn wir Aϕ als das Bild von
A0 (bzgl. des σ–Homomorphismus ϕ−1 (·)) auffassen, ist klar, was zu tun ist: Wir
gehen zu allgemeinen Ereignisfeldern über.
Seien U und V Ereignisfelder und
η:V ← U
ein σ–Homomorphismus. Sei U E die Gesamtheit aller U –beobachtbaren E–
wertigen Zufallsgrößen. Zu jedem Y ∈ U E erhalten wir eine V –beobachtbare
Zufallsgrößen X ∈ V E , wenn wir definieren
{X ∈ B} = η({Y ∈ B})
für alle borelschen B ⊆ E .
Diese Abbildung bezeichnen wir
ηE : V E ← U E .
Der allgemeine Hebungssatz besagt nun, daß die Surjektivität von η die Surjektivität
von η E nach sich zieht.
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.2
255
Zufallsgrößen
Allgemeiner Hebungssatz :
Sei η : V ←− U ein surjektiver σ–Homomorphismus. Zu jeder V –beobachtbaren
Zufallsgröße X existiert dann ein U –beobachtbares Y mit
X = η E (Y ) .
Beweis .
1) Wir können annehmen
U
V
= A0 / N0 zu (Ω0 , A0 , N0 )
= A0 / N0η mit N0η ⊇ N0
η(·) ordnet den Elementen von A0 / N0 ihre Äquivalenzklassen modulo N0η
zu.
2) Zur (A0 / N0η )–beobachtbaren Zufallsgröße X existiert nach dem Darstellungssatz
ψ(ω 0 ) : (Ω0 , A0 ) −→(E, B)
mit {ω 0 : ψ(ω 0 ) ∈ B} = {X ∈ B} für alle B ∈ B.
0
Nη
Dieses ψ(ω 0 ) können wir auch zur Darstellung einer ( A0 / N0 )–beobachtbaren
Zufallsgröße Y benutzen
{ω 0 : ψ(ω) ∈ B} = {Y ∈ B} .
N
0
Es gilt X = η E (Y ).
B
.....
.
..
.....
.....
.....
.....
.
.
.
....
.....
.....
....
.....
.
.
.
.
.
.
.
.
..
{X ∈ ·}
V
Bemerkung :
beweisen.
.....
.
....
.
{Y ∈ ·}
....
.
.....
.
..........
η
U
Für E = IR+ kann man den Hebungssatz auch folgendermaßen
Zum gegebenen X betrachte die Schar
[ξr : r > 0, rat] = [{X ≤ r} : r > 0, rat] .
c Prof. Dr. H. Dinges,
18. Dezember 1998
256
Zu jedem dieser ξ ∈ V wählen wir ζer ∈ U mit
η(ξer ) = ξr .
Es gilt s < t =⇒ ξes ⊆ ζet (mod Nη ) .
Wir machen diese Schar isoton und rechtsstetig in U , indem wir setzen
ζx :=
^
r>x
ζer (Infimumbildung in U ) .
Offenbar gilt η(ζx ) = ξx = {X ∈ X} für alle x.
[ζx : x ≥ 0] definiert eine U –beobachtbare Zufallsgröße Y
η({Y ≤ x}) = {X ≤ x} .
Daraus folgt η({Y ∈ B}) = {X ∈ B} für alle B. Damit haben wir η IR+ (Y ) = X.
Spezialfall : (Beweis von Prinzip IV)
e –beobachtbare Zufallsgröße. Für jedes A
e Z –beobachtbare
Sei Z eine D–wertige A
X existiert ein borelsches g(·) mit X = g(Z)
E
.......
.......
.....
.....
.
.
.
.
.....
....
.....
....
.....
.
.
.
.
....
.......
..
.....
.
X
....
.
g
....
.
.....
-
Z
.....
.
D
e = A / N zu
Die Pfeile für X und Z sind symbolisch zu verstehen. Wenn A
(Ω, A, N) gebildet ist, dann werden X und Z durch N–fast eindeutig bestimmte
A–meßbare Abbildungen repräsentiert.
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.3
257
Wahrscheinlichkeiten
A.3
A.3.1
Wahrscheinlichkeiten
Verteilungen auf polnischen Räumen
Definition : Wenn E ein polnischer Raum ist, dann bezeichen wir mit M1 (E)
die Menge aller Wahrscheinlichkeitsmaß auf der Borelalgebra. Die Elemente µ, ν, . . .
heißen (Wahrscheinlichkeits–) Verteilungen auf E. Die wichtigsten Eigenschaften
von M1 (E) sind die folgenden: Die schwache Konvergenz macht M1 (E) zu einem
polnischen Raum. Die diskreten Verteilungen liegen dicht. Eine Teilmenge ist genau
dann bedingt kompakt, wenn sie straff ist.
Diese Theorie zu erlernen, ist ein Muß für jeden Mathematiker, der in der Stochastik
über die Anfangsgründe hinauskommen will. Sie ist ebenso wichtig wie die Martingaltheorie. Es gibt hervorragende Bücher über diese beiden für die höhere Stochastik
fundamentalen Richtungen der Maßtheorie. Wir halten es für günstig, wenn der Student diese Theorie erst dann in Angriff nimmt, wenn er schon einen Eindruck von der
elementaren Stochastik gewonnen hat. Die Denk– und Sprechweisen der elementaren
Stochastik sind eine gute Unterstützung beim Studium der Maßtheorie. Es erleichtert
den Umgang mit Verteilungen, wenn man sie als die Verteilungen von Zufallsgrößen
auf einem Ereignisfeld mit einer Wahrscheinlichkeitsbewertung interpretiert.
Es liegt fast auf der Hand, wie die Theorie der Räume M1 (E) mit unserer abstrakten
Theorie der E–wertigen Zufallsgrößen zu verbinden ist. Wir machen dennoch einige
Anmerkungen für den Kenner der Theorie.
Definition :
a) V sei eine σ–vollständige Boolesche Algebra, eine Ereignisalgebra also. Wir
nennen P (·) auf V eine Wahrscheinlichkeitsbewertung, wenn P (v) ≥ 0
für alle v und
e
1 = v1 + v2 + . . . =⇒ 1 = P (v1 ) + P (v2 ) + . . .
b) Wenn V eine σ–Algebra ist, sprechen wir wie üblich von einem Wahrscheinlichkeitsmaß.
Bemerke : Wenn P (·) eine Wahrscheinlichkeitsbewertung auf V
ein σ–Ideal mit
ist und N
P (v) = 0 für alle v ∈ N ,
dann können wir P (·) auch als Wahrscheinlichkeitsbewertung auf V /N deuten.
c Prof. Dr. H. Dinges,
18. Dezember 1998
258
Satz :
Sei η : V ←− U ein σ–Homomorphismus.
a) Jede Wahrscheinlichkeitsbewertung P (·) auf V liefert eine Bild–Wahrscheinlichkeitsbewertung Q = (P )η∗ auf U , wenn wir setzen
Q(u) = P (η(u)) .
b) Die Wahrscheinlichkeitsbewertungen auf V η stehen in eineindeutiger Beziehung zu den Wahrscheinlichkeitsbewertungen auf U/N η .
(Wie immer ist Vη das Bild und Nη der Kern von η.)
Der Beweis ist eine direkte Konsequenz des Homomorphiesatzes.
Sprechweise : Sei P (·) = Ws H (·) eine Wahrscheinlichkeitsbewertung auf der
Ereignisalgebra V ( Wahrscheinlichkeit unter der Hypothese H“).
”
a) Das Bildmaß bzgl. einer Zufallsgröße X heißt dann die Verteilung von X
unter der Hypothese H
µ = LH (X) = LP (X);
µ(B) = WsH ({X ∈ B}) = P ({X ∈ B}) .
b) Wenn
X 1 , X2 , . . .
V –beobachtbare Zufallsgrößen sind, dann heißt
(X
,
X
,
.
.
.)
die
gemeinsame
Verteilung der X i .
LH 1 2
Satz : Zu jeder Verteilung µ auf E = E1 ×E2 ×. . . existieren auf einer geeigneten
Ereignisalgebra V eine Wahrscheinlichkeitsbewertung P (·) und Zufallsgrößen
X 1 ∈ V E1 , X 2 ∈ V E2 , . . .
so daß LP (X1 , X2 , . . .) = µ . Wenn
g : E1 × E2 × . . . −→ F
eine borelsche Abbildung ist, dann ist L(g(X1 , X2 , . . .)) das Bild von µ bzgl. g(·).
Dieses Bild bezeichnen wir gelegentlich mit (µ)g ∗ .
ν(C) = (µ)g∗ (C) = µ({(x1 , x2 , . . .) : g(x1 , x2 , . . .) ∈ C})
= P ({g(X1 , X2 , . . .) ∈ C})
Die folgenden Beispiele zeigen, wie man den Satz benützen kann, um gewisse Konstruktionen und Tatsachen, die sich zunächst nur auf Verteilungen beziehen, mit Hilfe
der Sprache der Zufallsgrößen transparenter machen.
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.3
259
Wahrscheinlichkeiten
1. Beispiel : µ, ν, ρ seien Wahrscheinlichkeitsmaße auf IR mit den Verteilungsfunktionen F (x), G(x), H(x). Man definiert das Faltungsprodukt µ ∗ ν als das
Wahrscheinlichkeitsmaß mit der Verteilungsfunktion
(F ∗ G)(z) :=
+∞
Z
−∞
F (x − y)dG(y)
Dieses Faltungsprodukt gilt
µ∗ν = ν ∗µ
(µ ∗ ν) ∗ ρ = µ ∗ (ν ∗ ρ)
Beweis :
Denken wir uns unabhängige Zufallsgrößen
X, Y, Z mit L(X) = µ, L(Y ) = ν, L(Z) = ρ .
Dann haben wir L(X + Y ) = µ ∗ ν.
In der Tat gilt
Ws(X + Y ≤ z) = E 1{X+Y ≤z}
= E 1{X+Y ≤z} |X = E E 1{Y ≤z−X} |X
= E (G(z − X)) =
Z
G(z − x)dF (x) = (F ∗ G)(z) .
Diese Interpretation liefert sofort L(X + Y + Z) = µ ∗ ν ∗ ρ.
2. Beispiel : Ein Wahrscheinlichkeitsmaß µ auf IR heißt unbegrenzt teilbar,
wenn es zu jedem n ∈ IN ein Wahrscheinlichkeitsmaß µ 1/n gibt mit
µ1/n ∗ µ1/n ∗ . . . ∗ µ1/n = µ .
In der Sprache der Wahrscheinlichkeitstheorie heißt das: Zu jedem n gibt es auf
einem geeigneten Wahrscheinlichkeitsraum Zufallsgrößen X0 , X1/n , X2/n , . . . , X1 , so
daß die Zuwächse Xk/n −Xk−1/n unabhängig identisch verteilt sind und L(X) = µ.
Kolmogorov ging 1933 zunächst einmal nur davon aus, daß man über die Menge
der Wahrscheinlichkeitsmaße auf IR und auf IRk gut Bescheid weiß; man hat da
die Verteilungsfunktionen als handhabbare Beschreibungen von Maßen (auf Grund
des Fortzsetzungssatzes von Caratheordory). Kolmogorov zeigt, daß man durch verträgliche Scharen die Maße auf den unendlichen Produkträumen kennzeichnen; und
diese Kennzeichnung überträgt sich nach dem Satz von Ulam sofort auf Produkte
polnischer Räume.
c Prof. Dr. H. Dinges,
18. Dezember 1998
260
Q
Mit Kolmogorovs Version für überabzählbare Produkte
t Et haben wir nichts im
Sinn; die überabzählbaren Produkt–σ–Algebren sind uninteressant. Verteilungen für
stochastische Prozesse mit überabzählbarer Parametermenge werden im Endeffekt
immer als Wahrscheinlichkeitsbewertungen auf polnischen Funktionenräumen konN
struiert, selbst wenn in manchen Zugängen die pathologische Produktalgebra
Bt
zunächst irgenwo vorkommen mag. Die pfadweise Betrachtung ist die natürliche Herangehensweise; dabei spielt die fastsichere Konvergenz eine zentrale Rolle.
Die Theorie der Maße auf polnischen Räumen ist auch das wichtigste Mittel für die
Konstruktion von Wahrscheinlichkeitsbewertungen auf abstrakten meßbaren Räume ' A / N. In vielen konkreten
en (Ω, A) und auf abstrakten Ereignisfeldern A
Anwendungen bietet sich ein Darstellungsraum Ω an, der in natürlicher Weise eine
polnische Struktur trägt; man könnte sagen, daß (Ω, A) durch Vergessen der polnischen Struktur aus einem (E, B) entsteht. Das partielle Vergessen von Struktur
ist ein in allen Bereichen der Mathematik bewährtes Verfahren, um in der strukturverarmten Menge das, worauf es ankommt, deutlich hervortreten zu lassen. Viele
Wahrscheinlichkeitsbewertungen werden im Endeffekt aus einer Verteilung auf einem
polnischen Raum hergeleitet. R.M. Dudley beschreibt in dem Appendix E Patholo”
gies of compact nonmetric spaces“ seines Lehrbuchs Real Analysis and Probability“
”
(1989), wie die polnischen Räume zu ihrer zentralen Rolle gekommen sind.
Neben dem einfachen Vergessen der topologischen Struktur gibt es ein weiteres beliebtes Verfahren zur Konstruktion von Wahrscheinlichkeitsmaßen auf abstrakten
σ–Algebren. Der Grundraum wird in einer Weise verkleinert, daß die Spur der ursprünglichen σ–Algebra als Definitionsbereich des Maßes taugt. Man geht zu einer
Trägermenge mit dem äußeren“ Maß 1 über.
”
Satz : Sei (Ω, A, N) ein meßbarer Raum mit Nullmengenstruktur. Zu Ω ∗ ⊆ Ω
betrachte die Spuren“
”
∗
∗
A = {Ω ∩ A : A ∈ A} ,
∗
∗
N = {Ω ∩ N : N ∈ N} .
Sei P (·) eine Wahrscheinlichkeitsbewertung auf A / N mit
Ω∗ ⊆ A ⊆ A =⇒ P (A) = 1 .
Dann erhält man die Wahrscheinlichkeitsbewertung P ∗ auf A∗ / N∗ , wenn man
setzt P ∗ (Ω∗ ∩ A) = P (A) für alle A ∈ A.
Beweis :
Man muß nur zeigen, daß
Ω∗ ∩ A1 = Ω∗ ∩ A2 =⇒ P (A1 ) = P (A2 ) .
Dies ist einfach.
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.3
261
Wahrscheinlichkeiten
Aus algebraischer Sicht erscheint die Konstruktion noch einfacher.
Satz :
Sei P eine Schar von Wahrscheinlichkeitsbewertungen auf der σ–
vollständigen Booleschen Algebra (V, ⊆, e0, e
1). Sei N ein σ–Ideal in V , so
daß für alle n ∈ N P (n) = 0 für alle P ∈ P. Dann kann man P auch als
eine Schar von Wahrscheinlichkeitsbewertungen auf V ∗ = V /N auffassen. Wenn
(Ω∗ , A∗ , N∗ ) ein Darstellungsraum für V ∗ ist V ∗ ' A∗ / N∗ , dann liefert jedes
P ∈ P ein Wahrscheinlichkeitsmaß auf A∗ welches auf N∗ verschwindet.
A.3.2
σ–Vollständigkeit und σ–Additivität
Es leuchtet ein, daß man sich in der Wahrscheinlichkeitstheorie nicht auf endliche Verbindungen beobachtbarer Ereignisse beschränken will, wenn das nicht durch mathemtische Notwendigkeiten erzwungen ist. Abzählbare Vereinigungen und Durchschnitte
von Ereignissen bereiten der Vorstellungskraft keine nennenswerten Schwierigkeiten.
So haben die Anwender keine Probleme mit der Forderung der Mathematiker, daß die
Gesamtheit der beobachtbaren Ereignisse als ein σ–vollständiger Verband anzusehen
ist.
Wie aber kommt die σ–Additivität in die Stochastik? Warum sollten sich die Anwender dem Comment der Maßtheoretiker beugen? Kann man sich nicht auch sinnvolle
Modellierungen vorstellen, bei welchen die σ–Additivität der Wahrscheinlichkeitsbewertungen nicht gewährleistet ist? Unsere Antwort lautet: Schwierigkeiten mit der
σ–Additivität der ins Auge gefaßten Wahrscheinlichkeitsinhalte können nur daher
kommen, daß man den Gleichheitsbegriff für die beobachtbaren Ereignisse unpassend gewählt hat. Dies zu beweisen ist das Anliegen des folgenden Abschnitts.
Zunächst einmal verschaffen wir uns einen Überblick über alle möglichen Vervollständigungen einer Booleschen Algebra V zu einem Ereignisfeld V σ . Welche
dieser Vσ zu den ins Auge gefaßten Inhalten auf V passen, werden wir danach
diskutieren.
Satz :
Sei V eine Boolesche Algebra und (Ω, A) die Darstellung nach dem
Satz von Stone: v ↔ Av . Zu jedem σ–vollständigen Vσ , in welchem V als
Erzeugendensystem enthalten ist, existiert dann ein σ–Ideal N in Aσ , so daß
Vσ ' Aσ / N (σ–isomorph)
mit v ↔ N–Äquivalenzklasse von Av für alle v ∈ V .
Beweis :
e
1) Für den Beweis stützen wir uns auf die Konstruktion von Loomis zu V σ . Ω
bezeichne die Menge aller δ–Inhalte auf V σ .
e : δω
η(a) = {ω
e (a) = 1} für a ∈ Vσ .
c Prof. Dr. H. Dinges,
18. Dezember 1998
262
e σ bezeichne die von diesen η(a) erzeugte σ–Algebra und N
e das von den
A
elementaren Nullmengen erzeugte σ–Ideal. Nach dem Satz von Loomis gilt
e ,
e σ /N
Vσ ' A
e –Äquivalenzklasse von η(a).
wobei a ↔ A
e auf Vσ sei ω = π(ω
e ) die Einschränkung auf V ,
2) Für einen δ–Inhalt ω
aufgefaßt als ein δ–Inhalt auf V , d.h. als ein Punkt im Stoneschen Ω.
e
π(·) : (Ω, Aσ ) ←− Ω
eπ ⊆ A
e σ . Sie besteht aus den Mengen
erzeugt eine σ–Algebra A
e : π(ω
e ) ∈ A0 } mit A0 ∈ Aσ
{ω
und ist erzeugt von den Mengen
e : π(ω
e ) ∈ A v } = {ω
e : δω
π −1 (Av ) = {ω
e (v) = 1} mit v ∈ V .
Allgemein ist π −1 (A0 ) die Menge aller δ–Inhalte auf Vσ , deren Einschränkung
auf V zu A0 gehört.
3)
e π (σ–isomorph) .
π −1 : Aσ ←→ A
A ⊆ Aσ
..
.......
...
...
...
...
...
...
....
.
.......
...
................................................................
....
.
....
.
....
ζ .... .....
eπ
A
....
.
....
........
V
⊆ Vσ
.................................................
e σ /N
e
A
........
....
....
....
...
.
.
... σ
...
....
....
...
.
.
.
...
...
......
.......
η
e π ist offensichtlich eine Teil–σ–Algebra von A
e σ ; jedem Element ist im Sinne
A
eines σ–Homomorphismus ein Element aus V σ zugeordnet. Die zusammengesetzte Abbildung ζ ist ein σ–Homomorphismus mit ζ(A v ) = v für alle v ∈ V .
Da Vσ von V erzeugt ist, ist ζ surjektiv und nach dem Homomorphiesatz
gilt
Vσ ' Aσ /(Kern ζ) = Aσ / N
v ←→ N –Äquivalenzklasse von Av .
q.e.d.
Definition : Eine σ–vollständige Boolesche Algebra Vσ heißt eine Vervollständigung der Booleschen Algebra V , wenn
V ⊆ Vσ
und
V erzeugt Vσ .
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.3
263
Wahrscheinlichkeiten
Satz : (Ω, A) sei die Stonesche Darstellung von V ; v ↔ A v . Jedes σ–Ideal N
in Aσ , welches keines der Av enthält, definiert eine Vervollständigung
Vσ = Aσ / N . v ←→ N –Äquivalenzklasse von Av .
Der Beweis ist trivial. Wir haben damit einen vollständigen Überblick über alle
möglichen Vervollständigungen einer Booleschen Algebra V (bis auf σ–Isomorphie).
Definition :
Ein normierter Inhalt ρ(·) auf V
vollständigung Vσ , wenn
v (1) ⊇ v (2) ⊇ . . . lim & ρ(v (n) 6= 0 =⇒
∞
^
heißt Prämaß für die Ver-
v (n) 6= e0 (in Vσ ) .
Fortsetzungssatz von Caratheodory : Wenn ρ(·) ein Prämaß für Vσ ist,
dann besitzt es genau eine Fortsetzung zu einer Wahrscheinlichkeitsbewertung ρ(·)
auf Vσ .
Der Beweis ist genau so wie im Falle von σ–Algebren. Zuerst betrachtet man
aufsteigende Folgen
v1 ⊆ v 2 ⊆ . . .
v+ =
∞
_
vn
und definiert ρ+ (v + ) = lim ↑ ρ(vn ).
Man zeigt, daß ρ+ (·) auf V + wohldefiniert ist. Es gilt
v1 ⊆ v2 ⊆ . . . , v10 ⊆ v20 ⊆ . . .
∞
_
vm ⊆
Sodann definiert man für alle a ∈ Vσ
∞
_
vn0 =⇒ lim ↑ ρ(vm ) ≤ lim ↑ ρ(vn0 )
ρ(a) = inf{ρ+ (v + ) : v + ≥ a} .
Dieses ρ(·) ist dann die gesuchte Fortsetzung. Der Beweis ist wie im klassischen
Fall der Mengenalgebra. Daß je zwei Prämaße, die ρ(·) fortsetzen, gleich sind, sieht
man ebenfalls genau so wie im Mengenfall.
Satz :
V.
Sei Vσ = Aσ / N eine Vervollständigung von V und ρ(·) ein Inhalt auf
Sei ρb(·) der Inhalt auf A mit ρb(Av ) = ρ(v) und sei ρ∗ (·) seine Fortsetzung zu
einem Maß auf Aσ . Genau dann ist ρ(·) Prämaß für Vσ , wenn
ρ∗ (N ) = 0 für alle N ∈ N .
c Prof. Dr. H. Dinges,
18. Dezember 1998
264
Beweis :
1) ρb(·) ist Prämaß auf A. Wenn nämlich
Av(1) ≥ Av(2) ≥ mit Av(n) 6= ∅ für alle n .
Es gibt dann (nach der Konstruktion von Stone) eine δ–Inhalt δ ω (·) mit
δω (v (n) ) = 1 für alle n. Wir haben also
ein Prämaß.
∞
T
Av(n) 6= ∅. Auf A ist jeder Inhalt
2) Wenn ρ(·) so ist, daß ρ∗ (N ) = 0 für alle N ∈ N, dann kann man ρ∗
auch als eine Wahrscheinlichkeitsbewertung auf Aσ / N auffassen. Dieses ist
die eindeutige Fortsetzung von ρ(·) zu einer Wahrscheinlichkeitsbewertung
auf Vσ .
Satz : Sei P eine Menge von normierten Inhalten auf der Booleschen Algebra
V . Dann existiert eine Vervollständigung VP mit
1) Jedes ρ(·) ∈ P besitzt eine Fortsetzung zu einer Wahrscheinlichkeitsbewertung
auf VP .
2) Wenn Vσ eine weitere Vervollständigung ist, für welche alle ρ(·) ∈ P Prämaße
sind, dann existiert ein surjektiver σ–Homomorphismus
Vσ −→ VP .
Beweis :
Jedes ρ(·) liefert ein Nullmengenideal Nρ in Aσ . Betrachte
T
NP =
Nρ . VP = Aσ / NP ist die gesuchte am wenigsten differenzierende Verρ
vollständigung.
Konstruktion : Zur Verdeutlichung betrachten wir eine Boolesche Algebra V ,
die von einer abzählbaren Menge {s1 , s2 , . . .} erzeugt ist. Wir deuten die sn als
Fragen, die wir an die Natur richten können. Es geht jetzt aber nicht darum, daß uns
die Natur (im Zuge der Realisation des Experiments) diese Fragen mit Ja oder Nein
beantwortet. Wir bitten vielmehr einen Akteur, jeder zusammengesetzten Frage
s(n) = sε11 ∧ sε22 ∧ . . . ∧ sεnn
eine nichtnegative Zahl ρ(s(n) ) zuzuordnen, die angibt, mit welcher Sicherheit er
die Antwortenfolge (ε1 , . . . , εn ) erwartet; (εi = 1 für i–te Frage wird mit Ja
”
beantwortet“, εi = 0 für Antwort Nein.) Wir fordern vom Akteur Konsistenz in
dem folgenden Sinn
c Prof. Dr. H. Dinges,
18. Dezember 1998
A.3
265
Wahrscheinlichkeiten
1) 1 = ρ(e
1) = ρ(s1 ) + ρ(¬s1)
2) ρ(s(n) ) = ρ(s(n) ∧ sn+1 ) + ρ(s(n) ∧ (¬sn+1 ))
3) ρ(s(n) = 0 falls s(n) = e
0 (unmögliches Ereignis).
Ein solches ρ(·) sollte, intuitiv gesprochen, als eine Wahrscheinlichkeitsbewertung
gelten können. Die σ–Vollständigkeit des Ereignisfeldes und die σ–Additivität der
Wahrscheinlichkeitsbewertung sind jetzt Angelegenheit der mathematischen Konstruktion. Diese Konstruktion führen wir nun durch. Wir charakterisieren die meßbaren Räume mit Nullmengenstruktur (Ω∗ , A∗ , N∗ ), die geeignet sind, eine Fortsetzung
von ρ(·) zu einer Wahrscheinlichkeitsbewertung auf A∗ / N∗ zu tragen.
Die vom Akteur gelieferten Zahlen versammeln wir als Knotenbeschriftung im
binären Baum zu S; z.B.
...
...
..r
..r
.......
.......
.......
....... ρ
.......
.......
111
.......
.......
.
.
.
.
.
.
.
.
.
.
.
.
..
..
..r
..r
....
....
....
....
....
.... ρ11
....
....
.
....
....
....
...
.
.
.
...
..
.......
.... ..............
.......
.......
....
.......
.......
....
....... .............
....
.
.
.
.
.
.
.
.
.......
...
.......
....
.......
.......
....
.......
....
....
.....
....
....
....
....
....
....
....
....
....
....
....
....
....
...
.....
....
.......
....
.......
.... ..............
..........
.......
.......
.......
.......
.......
...
r
r
r
r
r
r
...
r
...
r
...
r
...
.
....
...
....
....
.
.
.
......
.......
... .............
.......
....
...
1 .................... ......................
....
.
.
.
.
.
.
.
.
.
.
.......
..
.....
....
....
10.......................
....
...
.......
....
....
....
....
....
...
....
....
....
....
0..........
...
..
....
.......
....
.......
....
.......
.... ..............
........
.......
.
00......................
....
r
ρ
r
r
ρ
1
r
ρ
r
ρ
r
...
ρ101
r
...
ρ100
r
...
ρ001
r
...
ρ000
In jeder Tiefe summieren sich die ρ–Werte zu 1; einige mögen auch = 0 sein. Diese
ρ–Werte sind die Gewichte der Atome der von {s 1 , . . . , sn } erzeugten Booleschen
Algebra V (n) .
∞
S
V = V (n) ist die von {s1 , s2 , . . .} erzeugte Boolesche Algebra. Zunächst einmal
beschreiben wir die Darstellung von Stone. Ω ist die Menge aller δ–Inhalte von ω.
Jedes ω entspricht einem unendlichen Pfad. Für ein s(n) ist As(n) die Menge der
Pfade, die durch den Knoten s(n) gehen; entsprechend ist Av für jedes v ∈ V
definiert. A ist die Mengenalgebra, die aus den A v besteht. ρ(·) liefert uns einen
Inhalt ρb(·) auf A. Dieser läßt sich zu einem Wahrscheinlichkeitsmaß ρ(·) auf Aσ
fortsetzen.
Jede Vervollständigung von V ist σ–isomorph zu einer Restklassenalgebra A / N,
wobei N ein σ–Ideal in A ist, welches keines der Av enthält. Wenn wir erreichen
wollen, daß ρ(·) zu einer Wahrscheinlichkeitsbewertung auf A / N Anlaß gibt, dann
dürfen wir N nicht zu groß wählen.
v (1) ⊇ v (2) ⊇ . . . lim & ρ(v (n) ) 6= 0 =⇒
c Prof. Dr. H. Dinges,
∞
\
Av(n) ∈
/N .
18. Dezember 1998
266
Mehr brauchen wir nicht! Es kommt nur darauf an, die abzählbaren Durchschnitte
absteigender Ereignisfolgen, deren Wahrscheinlichkeiten nicht nach 0 absteigen, vom
unmöglichen Ereignis in Vσ zu unterscheiden.
Beispiel :
von
Betrachten wir die abstrakte Boolesche Algebra V , die erzeugt wird
1
1
,1
¬s1 =
0,
=
2 2 1
1 1
3
1 3
,
,1
¬s2 =
0,
,
=
+
+
4
2 4
4 2 4 1 1
3 1
5 3
7
=
+
+
+
,
,
,
,1
8 4
8 2
8 4
8
s1
s2
s3
...
mit den durch die Notation nahegelegten Operationen ∨, ∧ und ¬. e1 = (0, 1],
e
0 = leere Summe, z.B.
s1 ∧ (¬s2 ) ∧ (¬s3 ) =
1 5
,
.
2 8
Der zu {s1 , s2 , s3 , . . .} gehörende binäre Baum ist der vollständige binäre Baum;
denn für jedes (ε1 , . . . , εn ) gilt sε11 ∧ sε22 ∧ . . . ∧ sεnn 6= e0. Die von {s1 , . . . , sn }
erzeugte Boolesche Algebra V (n) hat also genau 2n Atome:
e
1=
0,
1
+
2n
1 2
+ ... +
,
2n 2n
2n − 1
,1 .
2n
Der Stonesche Darstellungsraum ist die Menge Ω aller unendlichen 0–1–Folgen.
Wir können V nun z.B. folgendermaßen durch eine Mengenalgebradarstellen.
Wir
wählen irgendeine in (0, 1) dichte Menge Ω ∗ und setzen für v =
A∗v
k−1
k
:= x : x ∈ Ω , n < x ≤ n
2
2
∗
k−1 k
2n , 2n
und entsprechend für alle v ∈ V .
Das Überalldichtsein von Ω∗ garantiert, daß keines der A∗v mit v 6= e0 die leere
Menge ist. Die Operationen in A∗ = {A∗v : v ∈ V } sind die Mengenoperationen.
Nicht jeder Inhalt ρ(·) auf V ist ein Prämaß auf A∗ . Die Bedingung lautet
a(1) ≥ a(2) ≥ . . . lim & ρ(a(n) ) = 0 =⇒
c Prof. Dr. H. Dinges,
∞
\
A∗a(n) 6= ∅ .
18. Dezember 1998
A.3
267
Wahrscheinlichkeiten
Dies kann man als eine Bedingung an Ω ∗ verstehen oder, besser noch, als eine
Bedingung an die Äquivalenzrelation auf Aσ , die von der Gleichheit von Mengen
”
auf Ω∗“ geliefert wird.
Die von einem überalldichten Ω∗ gelieferten Darstellungen von V stellen nicht den
allgemeinsten Fall einer Vervollständigung von V dar. Für die allgemeinen Darstellungen braucht man allgemeine Nullmengenideale in Aσ , welche kein Stonesches Av
enthalten.
Wenn eine Münze mit unbekannter“ Erfolgswahrscheinlichkeit p unendlich oft
”
unabhängig geworfen wird, dann wird der Akteur mit der Hypothese Hp die Wahrscheinlichkeit ρ(·) so festlegen
ρ (sε11 ∧ . . . ∧ sεnn ) = p
P
εi
(1 − p)n−
P
εi
.
Bei der Wahl seiner Vervollständigung des Ereignisfeldes V hat der Akteur mit
einem einzigen Hypothese Hp große Freiheiten. Die Freiheiten sind umso eingeschränkter, je mehr Hypothesen auf dem Ereignisfeld in Betracht gezogen werden
sollen. Die Frage, ob das Ereignis der Nichtkonvergenz (der relativen Häufigkeiten
der Erfolge) das unmögliche Ereignis ist, hängt von der speziellen Wahl der Vervollständigung von V ab; sie ist nichts der Situation inhärentes.
c Prof. Dr. H. Dinges,
18. Dezember 1998
Zugehörige Unterlagen
Herunterladen