Stochastische Methoden - Fachbereich Mathematik

Werbung
Stochastische Methoden
Vorlesungsskript
Peter Mörters - Heinrich v. Weizsäcker
Universität Kaiserslautern
Fachbereich Mathematik
3. Auflage
Wintersemester 2009/10
2
Inhaltsverzeichnis
1 Wahrscheinlichkeitsräume und Zufallsvariablen
delle für Zufallsexperimente
1.1 Ein einführendes Beispiel . . . . . . . . . . . . .
1.2 Definition eines Wahrscheinlichkeitsraums . . .
1.3 Definition einer Zufallsvariable . . . . . . . . . .
1.4 Beispiele . . . . . . . . . . . . . . . . . . . . . .
1.5 Verteilungsfunktionen . . . . . . . . . . . . . . .
1.6 Übungsaufgaben . . . . . . . . . . . . . . . . .
als stochastische Mo.
.
.
.
.
.
9
9
12
16
17
26
29
2 Bedingte Wahrscheinlichkeiten und stochastische Unabhängigkeit
2.1 Einleitendes Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Definitionen, Folgerungen und Beispiele . . . . . . . . . . . . . . . . .
2.3 Unabhängigkeit und Produktexperimente . . . . . . . . . . . . . . . .
2.4 Mehr über Verteilungen mit Dichten . . . . . . . . . . . . . . . . . .
2.5 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
35
35
36
41
44
46
3 Erwartungswerte, Varianzen und das schwache
Zahlen
3.1 Erwartungswerte: Definition und Eigenschaften .
3.2 Varianzen und die Čebyšëvsche Ungleichung . . .
3.3 Nochmal: Verteilungen mit Dichte . . . . . . . . .
3.4 Erwartungswert, Kovarianz und Unabhängigkeit .
3.5 Das schwache Gesetz der großen Zahlen . . . . . .
3.6 Übungsaufgaben . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
51
51
57
59
60
63
67
4 Statistische Grundbegriffe
4.1 Schätzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Testen von Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Das Lemma von Neyman-Pearson und monotone Likelihood-Quotienten
4.4 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
70
76
78
79
81
5 Der zentrale Grenzwertsatz und die Normalverteilung
5.1 Binomial- und Poissonapproximation . . . . . . . . . . . . . . . . . . .
5.2 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . .
85
85
86
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Gesetz der großen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5.3
5.4
5.5
5.6
5.7
Die Normalverteilung . . . . . . . . . . . .
Konvergenz von Verteilungen . . . . . . .
Der Satz von de Moivre–Laplace . . . . . .
Der Beweis des zentralen Grenzwertsatzes
Übungsaufgaben . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
88
90
91
93
95
6 Unabhängige Folgen von Zufallsvariablen und das starke Gesetz der
großen Zahlen
101
6.1 Existenz von unabhängigen Folgen von Zufallsvariablen . . . . . . . . . 101
6.2 Konvergenz von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 102
6.3 Das starke Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . 105
6.4 Konvergenz von Reihen von Zufallsvariablen . . . . . . . . . . . . . . . 108
6.5 Die eindimensionale symmetrische Irrfahrt . . . . . . . . . . . . . . . . 112
6.6 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
7 Zufallsvektoren
7.1 Mehrdimensionale Dichten . . . . . .
7.2 Transformationssatz für Dichten . . .
7.3 Gauß-Vektoren, χ2 - und t-Verteilung
7.4 Übungsaufgaben . . . . . . . . . . .
8 Ein
8.1
8.2
8.3
.
.
.
.
119
119
121
122
126
mehrdimensionaler Zentraler Grenzwertsatz
Verteilungskonvergenz in metrischen Räumen . . . . . . . . . . . . . .
Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . .
Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
129
129
134
137
9 χ2 -Tests
9.1 Übungsaufgaben
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
139
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
10 Ergänzungen zur Verteilungskonvergenz
145
10.1 Konvergenz der Quantile bei Verteilungskonvergenz . . . . . . . . . . . 145
10.2 Der Satz von Glivenko-Cantelli . . . . . . . . . . . . . . . . . . . . . . 146
10.3 Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
11 Der
11.1
11.2
11.3
Poissonprozeß
149
Konstruktion eines Poisson-Prozesses . . . . . . . . . . . . . . . . . . . 150
Wartezeiten und Stoppzeiten . . . . . . . . . . . . . . . . . . . . . . . . 152
Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
12 Charakteristische Funktionen
12.1 Eigenschaften und Lévy’s Stetigkeitssatz . . . . . .
12.2 Diskrete charakteristische Funktionen (FFT) . . . .
12.3 Alternativer Beweis des Zentralen Grenzwertsatzes
12.4 Übungsaufgaben . . . . . . . . . . . . . . . . . . .
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
157
157
162
164
165
13 Einige Begriffe aus der Informationstheorie
13.1 Entropie und relative Entropie endlicher stochastischer Experimente
13.2 Codierung und Datenkompression . . . . . . . . . . . . . . . . . . .
13.3 Das erste Codierungstheorem von Shannon . . . . . . . . . . . . . .
13.4 Optimale Codes nach Huffman . . . . . . . . . . . . . . . . . . . . .
13.5 Empirische Verteilungen und Entropie . . . . . . . . . . . . . . . .
5
.
.
.
.
.
.
.
.
.
.
167
167
172
175
176
179
Vorwort zur 2. Auflage
Das vorliegende Vorlesungskript entstand nach der von Heinrich v. Weizsäcker im WS
00/01 gehaltenen Vorlesung Stochastische Methoden. Als Grundlage diente dabei das
’alte’ Skript von Peter Mörters aus dem Jahre 1997, das mit den ersten sechs Kapiteln
des jetzigen Textes weitgehend identisch ist.
Der Inhalt der Kapitel 1-5 und 7 ist der Kern der meisten Einführungen in die Stochastik, wobei in den Beweisen (insbesondere im zentralen Grenzwertsatz) natürlich viele
Varianten möglich sind. Da dieses Skript aus verschiedenen Vorlesungen entstanden
ist, ist der Gesamtumfang relativ groß. Bezüglich der Vorkenntnisse aus der Analysis
ist der Text für zweierlei Arten von Lesern geschrieben: Erstens für solche, die die
Integrationstheorie auf allgemeinen (σ-endlichen) Maßräumen schon kennen; zweitens
für solche, die nur das Lebesgue-Integral im Rn kennen. Für letztere sind an einigen
Stellen Verweise auf entsprechende Literatur angegeben, aber der zentrale Begriff des
Erwartungswertes ist auf das Lebesgue-Integral zurückgeführt.
Gedankt sei an dieser Stelle allen, die bei der Erstellung dieser zweiten Auflage beteiligt
waren. Insbesondere Hannah Markwig und Michael Kunte für das zur Verfügungstellen
ihrer gereinigten Vorlesungsmitschrift und Beate Siegler für das Eintippen großer Teile
des Textes.
Kaiserslautern, im Sommer 2001
Pascal Vogt, Heinrich v. Weizsäcker
Zur 3. Auflage
Während des WS 2009/10 wurde diese Auflage Kapitel für Kapitel herausgegeben.
Sie unterscheidet sich nur an wenigen Stellen deutlich von der zweiten Auflage. Nach
wie vor setzen wir die Kenntnis des Lebesgue-Integrals im Rn voraus. Der Gesamtumfang dieser Auflage ist weiter etwas gewachsen. Ein neues Kapitel über Entropie
und Codierung ist dazugekommen. Ferner sind auch die englischen Bezeichnungen der
wichtigsten stochastischen Fachbegriffe aufgeführt. Im Statistik-Teil haben wir einiges
aus Aufzeichnungen von Jürgen Franke übernommen. Wir bedanken uns bei ihm für
deren Überlassung.
Gegenüber dem Skript kürzte die Vorlesung dementsprechend gelegentlich ab oder sie
lieferte kleine Ergänzungen. Teile von Kapitel 6 und die letzten drei Kapitel sind als
optionale Zusätze gedacht. Im WS 2009/10 wurden Kapitel 11 und die ersten vier
Abschnitte von Kapitel 13 in der Vorlesung behandelt.
Zur Literatur: Wir geben eine kleine Auswahl historisch wichtiger Werke von Pionieren der Stochastik. Was die zahlreichen neueren Einführungen in die Stochastik angeht,
gibt es natürgemäß viele Überschneidungen. Wir können nur ein paar Titel erwähnen,
die wir öfters konsultiert haben. Wir empfehlen von den deutschen Lehrbüchern insbesondere die (wesentlich ausführlichere) Einführung [2] von H.-O. Georgii. Auch die
Textbücher [1] von K. L. Chung, [6] von K. Krickeberg und H. Ziezold und [5] von
6
U. Krengel haben wir gelegentlich herangezogen. Von der englischsprachigen Literatur
lohnt sich auf jeden Fall ein Studium des Textes [10] von D. Williams.
Kaiserslautern, Sommer 2010
Martin Anders, Heinrich v. Weizsäcker
7
Einleitende Bemerkungen
Stochastik ist die Mathematik des Zufalls. Stochastische Methoden werden also dann
angewandt, wenn der zu beschreibende Sachverhalt oder das zu beschreibende Experiment ein zufälliges oder unvorhersehbares Element enthält. Der Ausgang eines solchen Zufallsexperiments ist nicht durch logische oder andere durchschaubare Gründe
durch die Versuchsbedingungen determiniert. Damit die Unsicherheit über den Ausgang quantifiziert werden kann, muß man sich entweder auf eine subjektive Einschätzung
verlassen oder die Experimente sollten (zumindest gedanklich) wiederholbar sein und
zwar so, daß der Versuchsausgang bei unabhängig angestellten Wiederholungen nicht
stets der gleiche ist, sondern nur statistischen Regelmäßigkeiten folgt.
Um Zufallsexperimente mathematisch untersuchen zu können, muß man mathematische Modelle dafür bilden. Eine solche mathematische Modellbildung liegt jeder Anwendung von Mathematik zugrunde, sie ist natürlich nicht mathematisch zwingend
begründbar. Im ersten Kapitel werden wir einige typische Beispiele sehen, wie Zufallsexperimente durch mathematische Modelle, so genannte Wahrscheinlichkeitsräume,
modelliert werden können. In den folgenden Kapiteln werden wir dann die Mathematik dieser Modelle weiterentwickeln. Natürlich gelten für den Umgang mit diesen
Modellen dieselben Gebote der mathematischen Strenge wie in anderen Disziplinen
der Mathematik, wie der Analysis, der Geometrie, etc.
Die Stochastik läßt sich in zwei Hauptgebiete unterteilen: In der Wahrscheinlichkeitstheorie untersucht man Zufallsexperimente auf der Basis eines als bekannt angenommenen mathematischen Modells. Man interessiert sich für das Verhalten von Größen,
die aus dem Modell abgeleitet werden. In der (schließenden) Statistik untersucht man
Daten, indem man sie als Ausgang eines Zufallsexperimentes auffaßt. Das geschieht,
indem man ein stochastisches Modell in geeigneter Weise an die Daten anpasst. Wir
wollen in dieser Vorlesung die Grundlagen beider Gebiete legen, um sowohl die Anwendung einfacher stochastischer Methoden zu ermöglichen, als auch einen Einstieg in
weiterführende Vorlesungen über Wahrscheinlichkeitstheorie oder Statistik zu bieten.
8
Kapitel 1
Wahrscheinlichkeitsräume und
Zufallsvariablen als stochastische
Modelle für Zufallsexperimente
1.1
Ein einführendes Beispiel
Wir beginnen mit einem einfachen Beispiel; die Begriffe, die wir später noch präzise
definieren werden, sind fett gedruckt:
Ein roter und ein schwarzer Würfel werden geworfen. Zwar kann man die Ansicht vertreten, daß der Ausgang dieses Experiments durch die Gegebenheiten des Experiments,
wie Handhaltung des Würfelnden, Beschaffenheit der Würfel und der Oberfläche des
Spieltisches, etc. determiniert sind, aber der Zusammenhang zwischen diesen Gegebenheiten und dem Ausgang des Experiments ist sicher nicht durchschaubar, sodaß eine
stochastische Modellierung angemessen erscheint.
Indem man etwa die gewürfelte Augenzahl des roten Würfels als erste und die gewürfelte
Augenzahl des schwarzen Würfels als zweite Komponente schreibt, kann man die
möglichen Ausgänge des Würfelexperimentes durch die folgende Menge von Paaren
beschreiben:
Ω = {1, . . . , 6}2 = {(1, 1), . . . , (1, 6), (2, 1), . . . , (2, 6), . . . , (6, 1), . . . , (6, 6)} .
Dies ist die Grund- oder Ergebnismenge unseres Experiments. Die Elemente von
Ω sind die möglichen Elementarereignisse (’elementary events’) des Experiments
und werden auch als Ausgänge (’outcomes’) oder Realisierungen (’realization’)
bezeichnet.
Wir wollen mit A das System aller möglichen beobachtbaren Ereignisse (’events’)
bezeichnen. Dies ist eine Menge von Teilmengen von Ω, ein so genanntes Mengensystem. In unserem Beispiel ist A das Mengensystem P(Ω) aller Teilmengen von Ω, auch
Potenzmenge von Ω genannt. So entspricht zum Beispiel der Beobachtung es wurde
”
ein Pasch gewürfelt“ das Ereignis {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}. Zwar muß A
nicht immer, wie in diesem Modell, die gesamte Potenzmenge sein, aber wir wollen doch
gewisse, später genauer ausgeführte, Forderungen an die Reichhaltigkeit von A stellen.
9
So wird man zum Beispiel verlangen, daß die Menge Ω selbst zu A gehört, sie stellt
das so genannte sichere Ereignis (’sure event’) dar. Ist A ∈ A ein Ereignis, so soll
auch A trifft nicht ein“ ein Ereignis sein, das so genannte Komplementärereignis
”
(’opposite event’) . Dies ist die Menge aller Ausgänge ω, die nicht in A liegen, also
der Menge Ω \ A. Außerdem soll zu zwei gegebenen Ereignissen A1 , A2 ∈ A auch A1
”
oder A2 trifft ein“, also die Menge A1 ∪ A2 , und auch A1 und A2 treffen ein“, also
”
die Menge A1 ∩ A2 , ein Ereignis, also in A enthalten sein. Diese Reichhaltigkeitsforderungen bilden einen Teil des Begriffs meßbarer Raum (’measurable space’) oder
Stichprobenraum (’sample space’) (siehe nächster Abschnitt).
Eine Wahrscheinlichkeitsverteilung (’probability distribution’) ordnet jedem Ereignis seine Wahrscheinlichkeit, also eine Zahl aus [0, 1] zu. Wahrscheinlichkeitsverteilungen sind also Abbildungen P : A → [0, 1]. Auch hier müssen natürlich einige noch
zu spezifizierende formale Regeln eingehalten werden. Zum Beispiel soll das sichere
Ereignis mit Wahrscheinlichkeit 1 eintreten: P (Ω) = 1, und wenn ein Ereignis A1 ein
anderes Ereignis A2 impliziert, also A1 ⊆ A2 gilt, so soll das letztere Ereignis wahrscheinlicher sein, also P (A1) ≤ P (A2 ) gelten. Außerdem soll die Wahrscheinlichkeit,
daß mindestens eines von zwei Ereignissen A1 und A2 , die sich ausschließen, eintritt,
die Summe ihrer Wahrscheinlichkeiten sein. Wenn also für A1 und A2 gilt A1 ∩ A2 = ∅,
so muß P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) gelten.
In diesem Beispiel wollen wir, geleitet vom Prinzip vom unzureichenden Grund“
”
(Warum sollte eines der 36 Elementarereignisse wahrscheinlicher sein als ein anderes?) und der diese Überlegung unterstützende Beobachtung, daß bei langen Reihen
von Würfelwürfen jedes Elementarereignis etwa mit der Häufigkeit 1/36 auftritt, eine
Wahrscheinlichkeitsverteilung P : A → [0, 1] durch
6
6
1 XX
1A (i, j) für A ∈ A
P (A) =
36 i=1 j=1
erklären, wobei 1A , erklärt durch
1A (i, j) =
(
falls (i, j) ∈ A
,
sonst
1
0
die Indikatorfunktion von A ist. Die Abbildung P erfüllt auf jeden Fall die oben gestellten Forderungen.
Unser Zufallsexperiment wird nun durch das Tripel (Ω, A, P ) beschrieben, den Wahrscheinlichkeitsraum (’probability space’).
Angenommen, ein Beobachter erfährt von dem oben beschriebenen Experiment nur
die Summe aus den Augen der beiden Würfel. Wir modellieren diesen Beobachter
durch eine Abbildung, eine Zufallsvariable (’random variable’): Statt des Ausganges
ω ∈ Ω wird dem Beobachter also nur das Bild X(ω) unter einer Abbildung X : Ω →
Ω′ mitgeteilt. Hier ist Ω′ = {2, . . . , 12} und X(i, j) = i + j. Wenn wir mit A′ die
Potenzmenge von Ω′ bezeichnen, machen wir (Ω′ , A′) zu einem meßbaren Raum. Wir
können für jedes B ∈ A′ das Ereignis betrachten, das aus allen Ausgängen ω besteht,
die nach B abgebildet werden, also das Urbild X −1 (B) ∈ A. Dieses Ereignis, für das wir
10
kurz {X ∈ B} schreiben, hat die Wahrscheinlichkeit P (X −1 (B)). Man kann so eine
Wahrscheinlichkeitverteilung P ′ auf dem meßbaren Raum (Ω′ , A′ ) einführen, indem
man setzt
P ′(B) = P ({X ∈ B}) = P (X −1 (B)) = P ({ω ∈ Ω : X(ω) ∈ B}) .
P ′ heißt die Verteilung von X (’law of X’). Der Wahrscheinlichkeitsraum (Ω′ , A′, P ′)
beschreibt den vom Beobachter wahrgenommenen Teil des Experiments und ist der von
X induzierte Wahrscheinlichkeitsraum. Man kann P ′ in unserem Beispiel konkret
ausrechnen. So ergibt sich nach unserem Modell zum Beispiel die Wahrscheinlichkeit
für die Augensumme 4 durch
P ′ ({4}) = P ({(1, 3), (2, 2), (3, 1)}) = 3/36 = 1/12
und die Wahrscheinlichkeit für die Augensumme 5 ist
P ′({5}) = P ({(1, 4), (2, 3), (3, 2), (4, 1)}) = 4/36 = 1/9 .
Weitere interessante Zufallsvariable auf unserem Wahrscheinlichkeitsraum (Ω, A, P )
sind die Abbildungen X1 und X2 mit Wertebereich Ω1 = {1, . . . , 6}, die durch die
Projektion auf die beiden Komponenten
X1 (i, j) = i und X2 (i, j) = j
definiert sind. Dies entspricht der Beobachtung von nur einem der beiden Würfel. Bezeichnet man mit A1 die Potenzmenge von Ω1 , mit P1 die Verteilung von X1 und mit
P2 die Verteilung von X2 , so stimmen die von X1 und X2 induzierten Wahrscheinlichkeitsräume (Ω1 , A1, P1 ) und (Ω1 , A1, P2 ) überein. Es gilt nämlich
P1 ({i}) = P ({(i, 1), . . . , (i, 6)}) = 6/36 = 1/6 und
P2 ({i}) = P ({(1, i), . . . , (6, i)}) = 6/36 = 1/6
für alle i ∈ {1, . . . , 6}. Wenn Zufallsvariablen auf demselben Wahrscheinlichkeitsraum
definiert sind, kann man zahlreiche Operationen mit ihnen durchführen. So kann man
zum Beispiel die Zufallsvariablen X1 und X2 addieren. Es ergibt sich X1 + X2 = X,
wobei X die oben betrachtete Zufallsvariable ist.
Es ist typisch für die Modellbildung, daß man Ω zunächst sehr reichhaltig wählt, so
dass sich viele verschiedene Phänomene durch Ereignisse A ⊂ Ω beschreiben lassen,
man sich dann aber nur mit einer oder mehreren auf Ω definierten Zufallsvariablen und
deren Verteilung beschäftigt.
Mit diesem Beispiel im Hintergrund können wir uns jetzt an die formale Definition
wagen, die wir danach gleich wieder durch Beispiele beleuchten wollen. Wir beginnen
mit der Definition eines meßbaren Raumes.
11
1.2
Definition eines Wahrscheinlichkeitsraums
Definition 1.1. Sei Ω eine Menge und P(Ω) das System aller Teilmengen von Ω, die
Potenzmenge von Ω (’power set’). Eine Teilmenge A ⊆ P(Ω) heißt Mengensystem auf Ω. Ein Mengensystem A auf Ω heißt σ–Algebra auf Ω (’σ–algebra on Ω’),
wenn gilt
1. Ω ∈ A;
2. ist A ∈ A, so ist auch das Komplement (’complement’) Ac = Ω \ A ∈ A;
S
3. sind A1 , A2 , A3 , . . . ∈ A, so ist auch die Vereinigung ∞
i=1 Ai ∈ A.
Ein Paar (Ω, A) aus eine Menge Ω und einer σ–Algebra A auf Ω heißt meßbarer
Raum (’measurable space’) oder Stichprobenraum (’sample space’). Man nennt Ω
auch das sichere Ereignis (’sure event’). Die Elemente von Ω heißen Ausgänge,
Ergebnisse, Stichproben, Realisierungen (’outcomes’, ’results’, ’samples’, ’realisations’) oder Elementarereignisse. Die Elemente der σ-Algebra A heißen meßbare Mengen (’measurable sets’) oder Ereignisse (’events’).
Bemerkung 1a: Für beliebiges Ω ist zum Beispiel das Mengensystem P(Ω) aller
Teilmengen stets eine σ–Algebra, ebenso wie das Mengensystem {∅, Ω}.
Bemerkung 1b: Ist S ⊆ P(Ω) ein Mengensystem, so existiert nach Übungsaufgabe 1
eine minimale σ–Algebra, die S enthält. Sie heißt die von S erzeugte σ-Algebra über
Ω und wird mit σ(S) bezeichnet.
Bemerkung 1c: Ist Ω = Rn , so gibt es eine minimale σ–Algebra, die alle offenen
Mengen enthält. Diese heißt Borel–σ–Algebra1 B(Rn ). Ihre Elemente heißen BorelMengen.
Bemerkung 2: Aus 1. und 2. folgt sofort, daß auch ∅ immer ein Ereignis ist, das
unmögliche Ereignis (’impossible event’). Sind A1 , . . . , An Ereignisse, so erhält
man aus 3., durch Betrachtung der ergänzten Folge (Ai ) mit Ai = ∅ für alle i > n, daß
A1 ∪ . . . ∪ An =
∞
[
i=1
Ai ∈ A .
Da nach der de Morganschen Regel gilt
∞
\
Ai =
i=1
∞
h[
i=1
ic
Aci ,
folgt (mit Hilfe von 2. und 3.) aus A1 , A2 , A3 , . . . ∈ A, daß auch für die Schnittmenge
gilt
∞
\
Ai ∈ A .
i=1
1
Émile Borel (1871-1956)
12
Für endlich viele Ereignisse A1 , . . . An erhält man, indem man die Folge durch Ai = Ω
für i > n ergänzt, daß
∞
\
A1 ∩ . . . ∩ An =
Ai ∈ A .
i=1
Schließlich gilt für zwei Ereignisse A1 und A2 auch, daß
A1 \ A2 = A1 ∩ Ac2 ∈ A .
Weitere wichtige Bemerkungen zur Reichhaltigkeit von A, die ein wenig verdeutlichen,
warum wir die Forderung 3. sogar für unendliche Folgen gestellt haben, werden in
Aufgabe 2 erarbeitet. Es ist wichtig zu beobachten, daß wir nicht fordern, daß Vereinigungen von beliebig vielen Ereignissen ein Ereignis sind, sondern nur abzählbare
Vereinigungen zulassen.
Wir wollen nun die Regeln aufstellen, die eine Wahrscheinlichkeitsverteilung erfüllen
muß:
Definition 1.2. Sei (Ω, A) ein meßbarer Raum. Eine Abbildung P : A → [0, 1] heißt
Wahrscheinlichkeitsverteilung (’probability distribution’) oder ein Wahrscheinlichkeitsmaß (’probability measure’) auf (Ω, A), wenn gilt:
1. P (Ω) = 1, das sichere Ereignis hat die Wahrscheinlichkeit 1.
2. Ist eine Folge von Ereignissen A1 , A2 , A3 , . . . paarweise unvereinbar, gilt also Ai ∩
Aj = ∅ für i 6= j, so gilt
P
∞
[
i=1
∞
X
P (Ai ) .
Ai =
i=1
Diese Eigenschaft heißt σ–Additivität von P .
Dann heißt das Tripel (Ω, A, P ) Wahrscheinlichkeitsraum (’probability space’).
A.N. Kolmogorov 2 hat viele fundamentale Beiträge zur Wahrscheinlichkeitstheorie geleistet. Er veröffentlichte 1933 das Buch Grundbegriffe der Wahrscheinlichkeitsrech”
nung“ [4] und wird seitdem allgemein als der Begründer der auf dieser formalen Definition beruhenden modernen Wahrscheinlichkeitstheorie angesehen. Er war der erste,
der diesen maßtheoretischen Ansatz zur Wahrscheinlichkeitsrechnung zum Anlaß einer
systematischen mathematischen Theorie mit spezifischen Fragestellungen nahm. Wie
Sie schon an den Lebensdaten der anderen Mathematiker sehen, die in unserem Text
erwähnt werden, ist aber dieser Formalismus nur ein Schritt in einer langen Entwicklung. Einen frühen Vorschlag zu diesem Ansatz machte insbesondere F. Hausdorff 3 in
seinen Grundzügen der Mengenlehre“ [3].
”
2
Andrej Nikolaevič Kolmogorov (1903-1987) - Bei dieser Gelegenheit eine Bemerkung zur Schreibweise von eigentlich kyrillisch geschriebenen Namen. Um einigermaßen konsequent zu sein und den
Wechsel etwa zu englischen oder französischen mathematischen Texten zu erleichtern, verwenden die
so genannte wissenschaftliche Schreibweise.
3
Felix Hausdorff (1868-1942)
13
Bemerkung: Aus 2. folgt durch Wahl von Ai = ∅ für alle i sofort, daß P (∅) = 0,
das unmögliche Ereignis hat also Wahrscheinlichkeit 0. Damit erhält man auch die
endliche Additivität von P : Sind A1 , . . . , An paarweise unvereinbar, so gilt das auch
für die ergänzte Folge (Ai ) mit Ai = ∅ für alle i > n, und es folgt
P
n
[
i=1
Ai = P
∞
[
i=1
∞
X
Ai =
P (Ai ) =
n
X
P (Ai ) .
i=1
i=1
Man erhält so auch die Eigenschaft der Monotonie (’monotonicity’) von P . Gilt
nämlich für zwei Ereignisse A ⊆ B, so ist P (A) ≤ P (B) wegen
P (A) ≤ P (A) + P (B \ A) = P (A ∪ (B \ A)) = P (B) .
(1.1)
Wichtig ist der folgende Satz, der die so genannten Stetigkeitseigenschaften von Wahrscheinlichkeitsverteilungen schildert.
Satz 1.3. (Stetigkeitssatz) (a) Ist A1 ⊇ A2 ⊇ A3 . . . eine fallende Folge von Ereignissen, so gilt
∞
\
P
Ai = lim P (Ai) .
i→∞
i=1
(b) Ist A1 ⊆ A2 ⊆ A3 . . . eine wachsende Folge von Ereignissen, so gilt
P
∞
[
i=1
Ai = lim P (Ai) .
i→∞
Beweis. Wir beweisen zunächst (a). Es ist für jedes i
Ai =
∞
\
j=1
∞
∞
∞
\
[
\
Aj ∪ Ai \
Aj =
Aj ∪
Aj−1 \ Aj ,
j=1
j=1
j=i+1
wobei rechts lauter disjunkte Mengen vereinigt werden, denn für jeden Punkt in Ai der
nicht in allen Aj liegt ist, gibt es genau einen ersten Index j > i, für den der Punkt
nicht mehr in Aj liegt. Die Ereignisse auf der rechten Seite sind disjunkt, und aufgrund
der σ-Additivität von P ergibt sich
P (Ai ) = P
∞
\
j=1
Aj +
∞
X
j=i+1
P (Aj−1 \ Aj ).
Für i → ∞ strebt die Restsumme gegen 0, da die Reihe wegen der Endlichkeit der
linken Seite konvergiert. Dies beweist (a).
Teil (b) folgt aus (a) durch Übergang zu den jeweiligen Komplementen unter Verwendung der für alle Ereignisse gültigen Beziehung
P (Ac ) = 1 − P (A).
14
Eine weitere nützliche Eigenschaft von P ist die so genannte Subadditivität (’subadditivity’) bei nicht notwendig disjunkten Ereignissen.
Satz 1.4. Ist (Ω, A, P ) ein Wahrscheinlichkeitsraum und A1 , A2 , A3 , . . . eine beliebige
Folge von Ereignissen, so gilt stets
P
∞
[
i=1
∞
X
Ai ≤
P (Ai) .
i=1
Beweis. Für zwei Ereignisse A, B ist (B \ A) ⊂ B und daher wegen der Monotonie
P (A ∪ B) = P A ∪ (B \ A) = P (A) + P (B \ A) ≤ P (A) + P (B).
Hieraus folgt durch Induktion für jedes n ∈ N
P
n
[
i=1
Ai ≤
n
X
P (Ai ).
i=1
Schließlich kann man wegen der Stetigkeit nach oben aus dem letzten Satz den Grenzübergang
für n → ∞ durchführen und erhält die Behauptung.
Bemerkung: Wie in der letzten Bemerkung vorgeführt, erhält man auch die Subadditivität für endliche Folgen von Ereignissen.
Es ist nicht immer ganz einfach, Wahrscheinlichkeitsverteilungen mit gewissen vorgegebenen Eigenschaften zu konstruieren. Es wird aber oft dadurch erleichtert, daß man
die σ–Algebra nur so groß wählt, wie es für das zu betrachtende Problem unbedingt
nötig ist (natürlich ohne unsere oben formulierten Reichhaltigkeitsforderungen zu verletzen!). Dies ist ein wesentlicher Grund dafür, daß wir uns bei der Wahl von A nicht
auf die Potenzmenge beschränkt“ haben.
”
Beispiel: Eine wichtige Beispielklasse von Wahrscheinlichkeitsräumen ist bereits aus
der Theorie des Lebesgue-Integrals bekannt. Wir wollen an dieser Stelle daran erinnern:
Dort wird das Lebesgue-Maß λn als Erweiterung des Volumenbegriffs auf dem Mengensystem M aller (Lebesgue–)meßbaren Mengen in Rn definiert4 . M ist eine σ–Algebra,
die alle offenen Mengen und damit auch die Borel–σ–Algebra B(Rn ) umfasst; der Unterschied zu den Borel-Mengen besteht darin, dass auch alle nicht notwendig Borelschen
Teilmengen einer Menge vom Lebesgue-Maß 0 zu M gehören. Dieser Unterschied ist
aber für uns nicht wesentlich. Wir beschränken uns auf Borel-Mengen.
Ist Ω ∈ B(Rn ) eine Borel-Menge mit λn (Ω) = 1 (z.B. das offene oder abgeschlossene
Einheitsintervall, oder im mehrdimensionalen der Einheitswürfel [0, 1]n ) und bezeichnet
A das System aller Borelschen Teilmengen von Ω, so ist A eine σ-Algebra über Ω und
durch
P (A) = λn (A) für A ∈ A
wird eine Wahrscheinlichkeitsverteilung auf (Ω, A) definiert.
4
Henri Lebesgue, 1845-1941
15
1.3
Definition einer Zufallsvariable
Meistens betrachtet man nicht das vollständig präzisierte Ergebnis eines Zufallsexperimentes ω ∈ Ω, sondern nur eine jeweils relevante durch ω bestimmte Größe X(ω).
Definition 1.5. Eine Abbildung X : Ω → Ω′ , die einen Stichprobenraum (Ω, A) in
einen anderen Stichprobenraum (Ω′ , A′) abbildet, heißt meßbar (’measurable’), wenn
mit jedem A ∈ A′ auch das Urbild X −1 (A) in A liegt. Ist (Ω, A, P ) sogar ein Wahrscheinlichkeitsraum, dann heißt eine solche meßbare Abbildung auch Zufallsvariable
(’random variable’).
Für jede Zufallsvariable X : Ω → Ω′ und jedes A ∈ A′ ist also durch
{X ∈ A} := {ω : X(ω) ∈ A} = X −1 (A)
ein Ereignis definiert.
Satz 1.6. (und Definition) Ist X : Ω → Ω′ eine Zufallsvariable, die einen Wahrscheinlichkeitsraum (Ω, A, P ) in einen meßbaren Raum (Ω′ , A′) abbildet, so ist durch
PX (A) := P (X ∈ A) := P ({X ∈ A}) = P (X −1(A))
eine Wahrscheinlichkeitsverteilung PX auf (Ω′ , A′ ) definiert. Diese heißt Verteilung
von X (’law of X’) oder Bildverteilung von P unter X. Häufig wird die Verteilung einer Zufallsvariable auch mit L(X) bezeichnet (Abkürzung von ’law’). Der neue
Wahrscheinlichkeitsraum (Ω′ , A′ , PX ) heißt von X induzierter Wahrscheinlichkeitsraum.
Beweis. PX ist eine Abbildung von A′ nach [0, 1] und besitzt die Eigenschaft 1. aus
Definition 1.2, denn PX (Ω′ ) = P (X −1(Ω′ )) = P (Ω) = 1. Um die Eigenschaft 2. nachzuweisen, betrachte eine Folge A1 , A2 , . . . von paarweise unvereinbaren Ereignissen aus A′ .
Die Folge X −1 (A1 ), X −1 (A2 ), . . . besteht dann ebenfalls aus paarweise unvereinbaren
Ereignissen und folglich gilt
PX
∞
[
i=1
Ai
∞
∞
∞
∞
[
[
X
X
−1
−1
−1
=P X
Ai
=P
X (Ai ) =
P (X (Ai )) =
PX (Ai ) .
i=1
i=1
i=1
i=1
Bemerkung: Wir haben in Bemerkung 1b bzw. Aufgabe 1 gesehen, daß es zu einem beliebigen Teilmengensystem S von Ω immer eine kleinste σ–Algebra gibt, die S enthält;
die von S erzeugte σ-Algebra, geschrieben σ(S). Angenommen für die Auswertung eines Zufallsexperiments ist lediglich die Kenngrösse bzw. Zufallsvariable X : Ω → Ω′
erforderlich. Dann benötigen wir nur die Wahrscheinlichkeiten der Form P ({X ∈ B}),
wir müssen also nur die Einschränkung von P auf das Mengensytem
σ(X) := {X −1 (B) : B ∈ A′}
kennen. Man kann sich überlegen, dass σ(X) die kleinste σ–Algebra auf Ω ist derart,
daß X : Ω → Ω′ noch messbar ist. Man nennt sie auch die von X erzeugte σ-Algebra.
16
1.4
Beispiele
Wir wollen jetzt die abstrakte Definition durch einige Beispiele verdeutlichen, die
größtenteils in den Anwendungen häufig verwendete Modelle darstellen.
1.) Die Laplace–Verteilung
Dieses Modell verallgemeinert unser einleitendes Beispiel. Ist Ω eine (zunächst abstrakte) endliche Menge, etwa mit n Elementen, so wählt man als Ereignissystem A = P(Ω).
Auf unserem Stichprobenraum (Ω, A) können wir genau eine Wahrscheinlichkeitsverteilung P erklären, die jedem Elementarereignis die gleiche Wahrscheinlichkeit zuweist.
Dies ist die etwa mit dem Prinzip vom unzureichenden Grund motivierte Laplaceverteilung auf Ω, und ist durch 5
P (A) =
|A|
Anzahl der Elemente von A
=
für A ∈ A.
Anzahl der Elemente von Ω
n
gegeben. Es ist nicht schwer einzusehen, daß das so definierte Tripel (Ω, A, P ) ein Wahrscheinlichkeitsraum, der so genannte Laplacesche Wahrscheinlichkeitsraum, ist.
Man spricht auch von einem Laplace–Modell oder Laplace–Experiment.
Unser Wurf mit zwei Würfeln war ein solches Laplace–Experiment. Wir haben dabei
schon gesehen, daß man kompliziertere Modelle ableiten kann, indem man Zufallsvariablen auf Laplaceschen Wahrscheinlichkeitsräumen betrachtet.
2.) Urnenmodell Ia.
Ziehen mit Zurücklegen unter Berücksichtigung der Reihenfolge
Viele praktische Situationen gleichen in ihrer Struktur der folgenden: In einer Urne
befinden sich s schwarze und w weiße, ansonsten gleichartige Kugeln. Aus dieser Urne
werden nun nacheinander n Kugeln blind gezogen, ihre Farbe notiert und jeweils sofort
wieder zurückgelegt. Das Ergebnis dieses Experiments läßt sich als n–Tupel aus den
Ziffern 0 für schwarz und 1 für weiß kodieren. Als Stichprobenraum wäre Ω = {0, 1}n
mit dem Ereignissystem A = P(Ω) eine natürliche Wahl. Es ist aber nicht ganz klar,
wie man die Wahrscheinlichkeiten zu wählen hat. Eine Laplaceverteilung über diesem
Stichprobenraum kommt nicht in Frage, da etwa im Falle s > w Stichproben mit
mehr schwarzen als weißen Kugeln wahrscheinlicher sein müßten. Wir gehen daher
einen kleinen Umweg und leiten unsere gesuchte Wahrscheinlichkeitsverteilung her als
Verteilung einer geeigeten Zufallsvariable auf einem größeren Stichprobenraum, auf
welchem der Laplace-Ansatz gerechtfertigt ist.
Dazu nehmen wir an, daß die Kugeln unterscheidbar sind und bezeichnen sie mit Nummern von 1 bis N, wobei natürlich N = s + w. Die Menge der weißen Kugeln bezeichnen wir mit W und die Menge der schwarzen Kugeln mit S. Jetzt wählen wir Ω∗ =
{1, . . . , N}n und betrachten den Laplaceschen Wahrscheinlichkeitsraum (Ω∗ , A∗ , P ∗).
Wir notieren also nicht nur die Farbe, sondern sogar die Nummer der gezogenen Kugeln. Da alle Kugeln gleichberechtigt sind, gibt es nun keinen Grund, warum man ein
5
Pierre-Simon (Marquis de) Laplace, (1749-1827)
17
bestimmtes n–Tupel von Kugeln mit größerer Wahrscheinlichkeit zieht als ein anderes. Also ist hier das Laplace–Modell angemessen. Nun betrachten wir die Abbildung
X : Ω∗ → Ω, die durch
X(ω1∗, . . . , ωn∗ ) = (1W (ω1∗), . . . , 1W (ωn∗ ))
gegeben ist. X ist eine Zufallsvariable, die einen Beobachter modelliert, der von den
gezogenen Kugeln die Nummer ignoriert und nur die Farbe registriert. Der von X
induzierte Wahrscheinlichkeitsraum (Ω, A, P ) mit P = L(X) beschreibt gerade unser
Ziehen mit Zurücklegen. Es bleibt uns nur noch, die Verteilung L(X) zu beschreiben.
Dazu berechnen wir zunächst ihre Werte für alle einelementigen Mengen. Ist ω ∈
{0, 1}n , so gilt nach Definition des Laplaceschen Wahrscheinlichkeitsraums
L(X)({ω}) = P ∗ ({ω ∗ ∈ Ω∗ : X(ω ∗ ) = ω}) =
Anzahl der ω ∗ ∈ Ω∗ mit X(ω ∗) = ω
.
Anzahl der Elemente in Ω∗
Der Nenner ist hier N n . Bei der Bestimmung des Zählers hat man für die Auswahl der
j-ten Kugel, dh. für die j-te Komponente von ω ∗ jeweils w Möglichkeiten, falls ωj = 1
ist, und s Möglichkeiten, falls ωj = 0. Diese Auswahlen können frei kombiniert werden,
also ist der Zähler
w n̂ sn−n̂ , wobei n̂ = n̂(ω) die Anzahl der Einsen im n–Tupel ω
Pgleich
ist, also n̂(ω) = nj=1 ωj . Also ergibt sich für eine beliebige Menge A ∈ A, wenn man
p = w/N und q = s/N (= 1 − p) setzt,
P (A) =
X
ω∈A
L(X)({ω}) =
X w n̂(ω) sn−n̂(ω)
Nn
ω∈A
=
X
pn̂(ω) q n−n̂(ω) .
ω∈A
Für den nächsten Abschnitt merken wir uns, daß bei festen p der Wert L(X)({ω}) nur
von n̂(ω) abhängt.
Es ist übrigens eine naheliegende Frage, ob man auch ein Modell für unendlich viele
Züge (mit Zurücklegen) aus unserer Urne konstruieren kann. Dies würde dann das Studium von Grenzwertaussagen erlauben. Die Ergebnismenge dieses Experiments wäre
natürlicherweise die Menge aller Folgen in {0, 1}. Wir werden uns der Frage nach dem
geeigneten A und P in einem der späteren Kapitel zuwenden und damit die Tür zu
vielen anderen interessanten Beispielen öffnen.
3.) Urnenmodell Ib: Die Binomial-Verteilung.
Ziehen mit Zurücklegen ohne Berücksichtigung der Reihenfolge
Wir wollen nun die Reihenfolge der gezogenen Kugeln außer acht lassen. Wir stellen
uns also auf den Standpunkt eines Beobachters, der nach der Ziehung der n Kugeln
nur die Anzahl der gezogenen weißen Kugeln notiert. Dies modellieren wir durch eine
Zufallsvariable Y auf (Ω, A, P ) mit Werten in Ω0 = {0, . . . , n}. Wir versehen Ω0 mit
dem Ereignissystem A0 = P(Ω0 ) und definieren eine Zufallsvariable Y durch
Y (ω) =
n
X
ωj = n̂(ω) .
j=1
18
wobei n̂ schon im Beispiel 2 eingeführt wurde. Also ergibt sich für j ∈ {0, . . . , n},
wieder mit p = w/(w + s) und q = s/(w + s),
PY ({j}) = P ({ω : n̂(ω) = j})
= (Anzahl der Tupel in {0, 1}n mit genau j Einsen) · pj q n−j .
Die Anzahl der Tupel in {0, 1}n mit genau j Einsen
ist gleich der Anzahl der j–
elementigen Teilmengen von {1, . . . , n}, die man mit nj bezeichnet. Eine Formel zur
Berechnung dieser so genannten Binomialkoeffizienten ergibt sich induktiv:
Lemma 1.7. Die Anzahl der j-elementigen Teilmengen einer nichtleeren Menge mit
n Elementen ist im Fall 0 < j ≤ n
n · (n − 1) · · · · · (n − j + 1)
n!
n
.
(1.2)
=
=:
j!
(n − j)! j!
j
Ferner gilt für 1 ≤ j ≤ n die Pascalsche Formel
n
n
n+1
.
+
=
j+1
j
j+1
Beweis. Im Fall j = 0 beachte dass die leere Menge die einzige Teilmenge mit Null
Elementen ist. Sei also j > 0. Für das erste Element der zu bildenden j-elementigen
Teilmenge einer n-elementigen Menge, stehen n Kandidaten zur Auswahl. Für das
zweite n − 1 usw. Insgesamt hat man also n(n − 1) · · · · · (n − j + 1) Möglichkeiten
eine geordnete j-elementige Teilmenge auszuwählen. Da es aber j! Möglichkeiten gibt
eine Menge mit j Elementen zu ordnen erhalten wir für die gesuchte Anzahl gerade die
Formel (1.2).
Nun zum Beweis der Pascalschen Rekursionsformel. Der Fall j = 0 ist trivial, sei also
j > 0. Durch einfaches Nachrechnen ergibt sich
n(n − 1) · · · · · (n − j + 1) n(n − 1) · · · · · (n − j)
n
n
=
+
+
j+1
j
j!
(j + 1)!
n(n − 1) · · · · · (n − j + 1)(j + 1) + n(n − 1) · · · · · (n − j)
=
(j + 1)!
n(n − 1) · · · · · (n − j + 1)(j + 1 + n − j)
=
(j + 1)!
(n + 1)n · · · · · (n − j + 1)
n+1
=
=
j+1
(j + 1)!
Setzt man p = w/N, so erhält man für die Verteilung PY = L(Y ) folgenden Ausdruck
X n
pj (1 − p)n−j für A ⊆ {0, . . . , n}.
PY (A) =
j
j∈A
19
Die Wahrscheinlichkeitsverteilung PY ist ein Spezialfall der folgenden Situation:
Sei p ∈ [0, 1] eine beliebige Zahl, die so genannte Erfolgswahrscheinlichkeit (’success probability’). Dann modelliert man die Anzahl der Erfolge bei n unabhängigen
Versuchen durch den Wahrscheinlichkeitsraum (Ω, A, P ), wobei Ω = {0, . . . , n} mit
A = P(Ω) und
X
n j
p (1 − p)n−j .
P (A) =
bj wobei bj =
j
j∈A
Dies ist die so genannte Binomial-Verteilung mit den Parametern p und n, eines
der wichtigsten stochastischen Modelle. Wir haben dieses Modell für den Fall einer
rationalen Erfolswahrscheinlichkeit p = w/N aus unserem Urnenmodell und damit aus
dem Laplaceschen Modell hergeleitet.
Zur Wiederholung sei empfohlen, für ein vorgegebenes beliebiges rationales p ∈ [0, 1]
und beliebiges n eine Zufallsvariable auf einem geeigneten Laplaceschen Wahrscheinlichkeitsraum zu definieren, die zu den Parametern p und n binomialverteilt ist.
4.) Wartezeiten: Die geometrische Verteilung.
Wir betrachten wieder unsere Urne mit w weißen und s schwarzen Kugeln und nehmen
an, daß es mindestens eine weiße Kugel in unserer Urne gibt. Wir betrachten das in
Beispiel 2 eingeführte zugehörige Modell für n Züge mit Zurücklegen, den Wahrscheinlichkeitsraum (Ωn , An , Pn ) mit Ωn = {0, 1}n . Wir fragen nun nach der Wartezeit, bis
die erste weiße Kugel gezogen wurde. Das modellieren wir natürlich wieder durch eine
Zufallsvariable Xn mit Werten in {1, . . . , n, ∞}, wobei ∞ für das Elementarereignis
steht, daß keine weiße Kugel gezogen wurde, so daß Xn (ω) = min{i : ωi = 1}. Für
die Verteilung von Xn bestimmen wir die Wahrscheinlichkeit des Ereignisses {Xn = i}.
Wenn man wieder p = w/(s + w) und q = s/(s + w) setzt, erhält man
PXn ({i}) = Pn (0, . . . , 0 , 1, a1 , . . . , an−i ) ∈ {0, 1}n : a ∈ {0, 1}n−i .
| {z }
i − 1 Nullen
Ist k die Anzahl der Nullen in dem n − i-Tupel a, so ist
Pn ({(0, . . . , 0 , 1, a1 , . . . , an−i )}) = q i−1+k p1+n−i−k .
| {z }
i − 1 Nullen
Unter Berücksichtigung der Anzahl der Möglichkeiten folgt
PXn ({i}) =
n−i X
n−i
k=0
i−1
k
q i−1+k p1+n−i−k
= q p für i ≤ n,
Pn−i n−i k n−i−k
da nach der binomischen Formel k=0
q p
= (q + p)n−i = 1. Außerdem ist
k
natürlich
n
X
1 − qn
(1 − p)i−1 p = 1 − p
PXn ({∞}) = 1 −
= qn .
1
−
q
i=1
20
Wenn wir nun n gegen unendlich gehen lassen, konvergiert PXn ({∞}) gegen 0, da q < 1,
während PXn ({i}) für i ≤ n nicht von n abhängt, was uns dazu einlädt das folgende
Modell für die Wartezeit auf die erste weiße Kugel bei (potentiell) unendlich vielen
Zügen aufzustellen:
Sei p ∈ (0, 1] eine (beliebige) Erfolgswahrscheinlichkeit und q = 1 − p, Ω = {1, 2, . . .}
die Menge der natürlichen Zahlen und A die Potenzmenge von Ω. Dann ist durch
X
P (A) =
q i−1 p für A ∈ A
i∈A
eine Wahrscheinlichkeitsverteilung gegeben, die so genannte geometrische Verteilung (’geometric distribution’) zum Parameter p.
5.) Urnenmodell IIa.
Ziehen ohne Zurücklegen unter Berücksichtigung der Reihenfolge.
In einer Urne befinden sich wieder s schwarze und w weiße, ansonsten gleichartige Kugeln. Aus dieser Urne werden jetzt n Kugeln nacheinander gezogen und nicht wieder
zurückgelegt (dazu muß natürlich n ≤ s + w sein). Das Ergebnis dieses Experiments
läßt sich wieder als n–Tupel aus den Ziffern 0 für schwarz und 1 für weiß kodieren, wir
wollen also als Stichprobenraum wieder Ω = {0, 1}n mit dem Ereignissystem A = P(Ω)
wählen. Allerdings müssen wir für das veränderte Modell eine andere Wahrscheinlichkeitsverteilung P definieren, die wir wieder aus einem Laplace–Modell herleiten wollen.
Wir nehmen also wieder an, daß die Kugeln unterscheidbar wären und bezeichnen
sie mit Nummern von 1 bis N = s + w. Die möglichen Ausgänge beim Ziehen ohne
Zurücklegen lassen sich damit durch die Menge
Ω′ = {ω = (ω1 , . . . , ωn ) : ωi ∈ {1, . . . , N} und ωi 6= ωj für i 6= j}
beschreiben und es ist naheliegend anzunehmen, daß keiner dieser Ausgänge bevorzugt
ist. Wir betrachten also den Laplaceschen Wahrscheinlichkeitsraum (Ω′ , A′, P ′ ). Wir
bezeichnen die Menge der weißen Kugeln mit W und die Menge der schwarzen Kugeln
mit S. Nun betrachten wir die Abbildung X : Ω′ → Ω, die durch
X(ω1 , . . . , ωn ) = (1W (ω1 ), . . . , 1W (ωn ))
gegeben ist. Wieder ist X eine Zufallsvariable, die den Kenntnisstand eines Beobachters
modelliert, der von den gezogenen Kugeln die Nummer ignoriert und nur die Farbe
registriert. Der von X induzierte Wahrscheinlichkeitsraum (Ω, A, P ) mit P = L(X)
beschreibt jetzt unser Ziehen ohne Zurücklegen.
Für jedes ω ∈ Ω = {0, 1}n erhält man
Anzahl der ω ′ ∈ Ω′ mit X(ω ′) = ω
.
(1.3)
Anzahl der Elemente in Ω′
Der Nenner ist gerade die Anzahl der geordneten n-elementigen Teilmengen von {1, . . . , N},
dh. die Zahl der Möglichkeiten, eine n–elementige Teilmenge von {1, . . . , N} auszuwählen und dann anzuordnen. Diese Zahl heißt untere Faktorielle von N der
Länge n, wir schreiben (N)n . Eine einfache Induktion nach n liefert den Wert
P ({ω}) =
(N)n = N · (N − 1) · · · (N − n + 1) .
21
Bezeichnen wir jetzt wieder mit mit n̂ = n̂(ω) die Anzahl der Einsen in ω. Wenn
der Zähler in (1.3) nicht verschwindet, dh. wenn es ein ω ′ ∈ Ω′ gibt mit X(ω ′) = ω,
dann muss w ≥ n̂ und s ≥ n − n̂ sein. In diesem Fall ist dieser Zähler das Produkt
der Anzahl aller geordneten n̂–elementigen Teilmengen von W mit der Anzahl aller
geordneten (n − n̂)–elementigen Teilmengen von S, und es folgt für alle ω ∈ {0, 1}n
P ({ω}) =
(w)n̂(ω) (s)n−n̂(ω)
, f alls w ≥ n̂(ω), s ≥ n − n̂(ω)
(N)n
(1.4)
und P ({ω}) = 0 sonst.
6.) Urnenmodell IIb. Die hypergeometrische Verteilung.
Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge
Ähnlich wie wir es in Beispiel 3 beim Ziehen mit Zurücklegen gemacht haben, wollen
wir beim Ziehen von n Kugeln ohne Zurücklegen aus einer Menge von N = s+w Kugeln
die Reihenfolge außer acht lassen und die Verteilung der Anzahl der gezogenen weißen
Kugeln bestimmen. Wir betrachten also wieder die Zufallsvariable Y auf Ω = {0, 1}n
mit Werten in {0, . . . , n} mit
Y (ω) =
n
X
ωj = n̂(ω)
j=1
wobei Ω aber jetzt wie im vorangegangenen Beispiel mit der durch (1.4) gegebenen
Wahrscheinlichkeitsverteilung P versehen ist.
Zur Bestimmung der Verteilung von Y sei i ∈ {0, . . . , n}. Alle ω mit Y (ω) = i haben
gemäß (1.4) unter P das gleiche Wahrscheinlichkeitsgewicht. Für die Verteilung PY
dieser Zufallsvariable erhalten wir also
(w)i (s)n−i
.
PY ({i}) = (Anzahl der ω ∈ {0, 1}n mit Y (ω) = i) ·
(N)n
Die gesuchte Anzahl wird
bestimmt durch die Möglichkeiten, die i Einsen auf n Plätze
n
zu verteilen, ist also i . Also ist für A ⊂ {0, . . . , n}
s −w X (w)i (s)n−i
X wi n−i
X wi Nn−i
n!
=
PY (A) =
=
.
s+w
N
i! (n − i)! (s + w)n
n
n
i∈A
i∈A
i∈A
Diese Verteilung heißt hypergeometrische Verteilung (’hyper-geometric distribution’) zu den Parametern s, w, n bzw. N, w, n.
Wir beschreiben nun eine Gemeinsamkeit der bisher studierten Beispiele:
7.) Diskrete Verteilungen.
Die Ergebnismenge Ω = {ω1 , ω2 , . . .} ist endlich oder abzählbar unendlich, das Ereignissystem A ist die Potenzmenge von Ω. Die Wahrscheinlichkeitverteilung
P ist durch
P
eine —endliche oder unendliche— Folge p1 , p2 , . . . gegeben, so daß i pi = 1 und
X
P ({ωi}) = pi und daher P (A) =
pi .
i∈A
22
Man nennt einen solchen Wahrscheinlichkeitsraum (Ω, A, P ) einen diskreten Wahrscheinlichkeitsraum (’discrete probability space’). Er ist durch die Angabe der Folge p1 , p2 , . . . (im wesentlichen) vollständig
beschrieben und zu jeder endlichen oder
P
unendlichen Folge p1 , p2 , . . . mit i pi = 1 gibt es einen solchen Wahrscheinlichkeitsraum. Man nennt (p1 , . . . , pn ) bzw. (p1 , . . . , pn , . . .) einen (endlichen bzw. unendlichen)
Wahrscheinlichkeitsvektor (’probability
vector’). Für 0 < q < 1 konvergiert zum
P
i
Beispiel die geometrische Reihe ∞
q
gegen
q/(1 − q), so daß durch pi = (1 − q)q i−1
i=1
eine Wahrscheinlichkeitsfolge gegeben ist. Diese liefert natürlich die geometrische Verteilung mit Parameter p = 1 − q, und daher bezieht die geometrische Verteilung ihren
Namen.
Wir wollen nun Beispiele betrachten, die nicht in die Klasse der diskreten Verteilungen
gehören.
8.) Die Exponentialverteilung.
Wir suchen ein geeignetes Modell für die Lebenszeit eines verschleißfreien elektronischen Bauteils. Als Ergebnismenge bietet sich natürlich das Intervall Ω = [0, ∞) an.
Auf ein Ereignissystem einigen wir uns später, aber auf jeden Fall sollen alle Intervalle
der Gestalt (x, ∞), x ∈ [0, ∞), die der Beobachtung das Bauteil überlebt x Zeitein”
heiten“ entsprechen, Ereignisse sein, damit wir ein Minimum an sinnvollen Aussagen
über unser Modell machen können. Versuchen wir also zunächst diesen Ereignissen
Wahrscheinlichkeiten zuzuordnen. Dabei wollen wir die folgende Heuristik umsetzen:
Wir denken uns den dem Experiment zugrundeliegenden Zufallsmechanismus als das
Ziehen eines zufälligen Bauteils aus der gesamten Produktionsreihe. Dann entspricht
P ((x, ∞)) dem Anteil der Bauteile mit einer Lebensdauer länger als x in der Baureihe. Da unsere Bauteile keinen Verschleiß aufweisen, soll der Anteil der Bauteile, die
t + x Zeiteinheiten überleben, unter den Bauteilen, die t Zeiteinheiten überlebt haben,
gleich dem Anteil der Bauteile in der Gesamtserie sein, die x Zeiteinheiten überleben.
In Formeln
P ((t + x, ∞))
= P ((x, ∞)) für alle t, x ≥ 0.
P ((t, ∞))
Setzt man U(x) = P ((x, ∞)), so muß U : [0, ∞) → [0, 1] also der Funktionalgleichung
U(x + t) = U(x)U(t) mit U(0) = 1 genügen. Die Funktionen
U(x) = exp(−λx) für beliebiges λ > 0
lösen diese Funktionalgleichung. Es ist nicht schwer zu zeigen, daß dies auch die einzigen monotonen beschränkten Lösungen sind. Gibt es nun eine σ–Algebra A, die alle
Intervalle (x, ∞) enthält und eine Wahrscheinlichkeitverteilung P : A → [0, 1] mit
P ((x, ∞)) = U(x)? Wir werden später Sätze beweisen, die diese Frage in einem allgemeineren Zusammenhang beantworten. Für unsere Zwecke genügt jetzt:
Lemma 1.8. Sei F : [0, ∞) → [0, 1] eine stetige monoton wachsende, stückweise
differenzierbare Funktion mit
F (0) = 0 und
lim F (x) = 1 .
x→∞
23
Dann gibt es eine Wahrscheinlichkeitsverteilung P auf der σ–Algebra B = B(R) ∩
P([0, ∞)) mit der Eigenschaft, daß
P ([0, x]) = F (x) für alle x ∈ [0, ∞).
und für jedes Ereignis A ∈ B gilt
Z
P (A) =
f (x) dx wobei f (x) = F ′ (x) .
A
Beweis. Setze
f (x) = F ′ (x) und definiere eine Abbildung P : B → [0, ∞) durch
R
P (A) = A f (x) dx für alle A ∈ B . Dann ist (Ω, B, P ) ein Wahrscheinlichkeitsraum
und es gilt nach dem Hauptsatz der Infinitesimalrechnung für alle x ≥ 0
Z x
P ([0, x]) =
F ′ (y) dy = F (x) − F (0) = F (x) .
0
Um dieses Lemma auf unser Problem anzuwenden setzen wir F (x) = 1 − U(x). F
erfüllt die Voraussetzungen des Lemmas. Also gibt es eine Wahrscheinlichkeitsverteilung P auf der σ–Algebra B = P([0, ∞)) ∩ B(R) mit P ([0, x]) = F (x) oder, äquivalent,
P ((x, ∞)) = 1 − F (x). Also haben wir einen Wahrscheinlichkeitsraum (Ω, B, P ) konstruiert mit der Eigenschaft, daß
P ((x, ∞)) = exp(−λx) für alle x ≥ 0
und durch Ableiten erhält man f (x) = λ exp(−λx) für alle x ∈ R+ . Diese Verteilung
ist dann für allgemeine Borel-Mengen gegeben durch
Z
P (A) =
λ exp(−λx) dx für alle A ∈ B.
A
Diese Wahrscheinlichkeitverteilung heißt Exponentialverteilung (’exponential distribution’) zum Parameter λ > 0. Aus unserer heuristischen Herleitung wird deutlich,
warum die Exponentialverteilung gerne als Modell für die Lebensdauer verschleißfreier
Teile benutzt wird.
Bleibt eine wichtige Frage: Wenn wir eine Serie von Bauteilen haben und annehmen, daß
die Lebzeiten dieser Bauteile exponentialverteilt sind, wie können wir den Parameter λ
in unserem Modell geschickt wählen? Man wird den Parameter mit Hilfe der Lebzeiten
einer aus der Serie entnommenen Stichprobe schätzen. Wie das geht und wie groß man
diese Stichprobe wählen muß, um eine Schätzung von einer bestimmten Qualität zu
erhalten, werden wir im Kapitel 4 erfahren.
9.) Die uniforme Verteilung.
Die Berechnung von Wahrscheinlichkeiten läßt sich oft auf Volumen-Berechnungen
zurückführen. Dazu ein einfaches Beispiel:
24
Eine Zahnärztin erwartet am Freitagnachmittag zwei Patienten, mit denen nur vereinbart wurde, daß sie zwischen 3 und 5 Uhr kommen sollen, die Behandlung jedes dieser
Patienten dauert 30 Minuten. Wie groß ist die Wahrscheinlichkeit, daß einer der Patienten warten muß, wenn sonst kein Patient kommt und beide Patienten unabhängig
voneinenander zu einem zufälligen Zeitpunkt im angegebenen Zeitintervall kommen?
Die Ausgänge des Experimentes lassen sich - in Analogie zu unserem einleitenden Beispiel mit zwei Würfeln - als Punkt in dem Rechteck Ω = [3, 5] × [3, 5] beschreiben,
wobei die erste Komponenten die Eintreffenszeit von Patient A und die zweite Komponente die Eintreffenszeit von Patient B sei. Wenn keiner der Patienten einen Zeitraum
bevorzugt, ist es angemessen, eine Wahrscheinlichkeitsverteilung auf Ω zu definieren
indem man für jedes A aus der σ–Algebra A = B(R2 ) ∩ P(Ω) setzt
P (A) =
λ2 (A)
,
λ2 (Ω)
wobei λ2 das Lebesguemaß in R2 bezeichnet. Unsere gesuchte Wahrscheinlichkeit ergibt
sich dann als (1/4)λ2 ({(x, √y) ∈ Ω : |x − √y| < 21 }), wobei die gesuchte Fläche aus
einem Rechteck der Höhe 22 und Breite 3 2 2 und zwei rechtwinkligen Dreiecken mit
Kathetenlängen jeweils 1/2 besteht. Die gesuchte Wahrscheinlichkeit ist also 7/16.
Wir können also nach dem Vorbild dieses Beispiels auf einer beliebigen Borelmenge
Ω ⊆ Rn mit 0 < λn (Ω) < ∞ eine Gleichverteilung (’equi-distribution’) oder besser
uniforme Verteilung (’uniform distribution’) definieren, indem wir für jedes A aus
der σ–Algebra A = B(Rn ) ∩ P(Ω) setzen
P (A) =
λn (A)
,
λn (Ω)
Es ist leicht nachzuprüfen, daß P eine Wahrscheinlichkeitsverteilung und daher (Ω, A, P )
ein Wahrscheinlichkeitsraum ist.
10.) Verteilungen mit Dichte.
Hier wollen wir, wie in Beispiel 7, das gemeinsame einer Beispielklasse noch einmal hervorheben. In Beispiel 8 und 9 haben wir als Ergebnismenge eine Borelmenge Ω ⊆ Rn
gewählt, die wir mit der σ–Algebra A = B(Rn ) ∩ P(Ω) versehenR haben. Wir haben
dann eine Borel–meßbare Funktion f : Ω → [0, ∞] gefunden mit Ω f (x) dx = 1. (Im
Fall der uniformen Verteilung wäre diese f (x) ≡ λn1(Ω) .) Eine solche Funktion nennen
wir Wahrscheinlichkeitsdichte (’probability density’). Unsere Wahrscheinlichkeitsverteilung P : A → [0, ∞) ist dann durch
Z
P (A) =
f (x) dx
A
definiert. (Ein ausführlicher Beweis der σ-Additivität findet sich zu Beginn von Kapitel
7.) Ein solcher Wahrscheinlichkeitsraum (Ω, A, P ) heißt Wahrscheinlichkeitsraum
mit Dichte, P heißt Verteilung mit Dichte.
25
Eine abschließende Bemerkung zu diesem Abschnitt: Wir haben die hier eingeführten Modelle mit heuristischen Argumenten begründet (dies wurde in Beispiel 4
oder Beispiel 8 besonders deutlich). Dies tut aber der Tatsache keinen Abbruch, daß
wir, wenn wir uns einmal für ein stochastisches Modell entschieden haben —unabhängig
davon, wie befriedigend oder unbefriedigend die Begründung für die Wahl dieses Modells auch sein mag—, bei der mathematischen Behandlung des Modells die gewohnte
mathematische Strenge walten lassen.
1.5
Verteilungsfunktionen
Wir wollen uns in diesem Abschnitt speziell mit Wahrscheinlichkeitsverteilungen über
dem Ergebnisraum R beschäftigen, also Zufallsexperimenten, bei denen entweder Ω =
R ist oder X eine reellwertige Zufallsvariable ist, deren Verteilung PX uns interessiert. Unsere entscheidende Frage ist in ähnlicher Form bereits im Zusammenhang mit
Beispiel 8 gestellt worden:
Wann kann man zu einer Funktion F : R → [0, 1] eine Wahrscheinlichkeitsverteilung
P auf einer hinreichend großen σ–Algebra definieren mit
P ((−∞, x]) = F (x) für alle halboffenen Intervalle (−∞, x]
und wie sieht ein solcher Wahrscheinlichkeitsraum aus? Außerdem werden wir auch
die Frage beantworten, wie man solche Zufallsexperimente auf Computern simulieren
kann.
Um notwendige Kriterien für die Existenz einer solchen Verteilung herzuleiten, müssen
wir zunächst den umgekehrten Weg gehen und zu gegebenem Wahrscheinlichkeitsraum (R, B, P ) die Funktion F (x) = P ((−∞, x]) betrachten. Dazu muß die σ–Algebra
B natürlich alle Intervalle (−∞, x] enthalten. Dann enthält sie aber auch notwendigerweise alle komplementären
S Intervalle (x, ∞), alle halboffenen Intervalle (a, b], alle
offenen Intervalle (a, b) = n (a, b − 1/n] und schließlich alle offenen Mengen, denn jede
offene Menge ist ja darstellbar als die Vereinigung ihrer abzählbar vielen offenen TeilIntervalle mit rationalen Endpunkten. Also muß B auch die Borel–σ–Algebra enthalten,
die ja die kleinste σ–Algebra ist, die alle offenen Mengen enthält.
Definition 1.9. (a) Zu einem Wahrscheinlichkeitsraum (R, B, P ), wobei B die Borel–
σ–Algebra enthalte, definieren wir die Verteilungsfunktion (’distribution function’)
F : R → [0, 1] der Verteilung P durch
F (x) = P ((−∞, x])
(1.5)
für alle x ∈ R.
(b) Wenn X eine reellwertige Zufallsvariable von irgendeinem anderen Wahrscheinlichkeitsraum nach (R, B) mit Verteilung PX = P ist, dann heißt die Funktion F aus
(a) die Verteilungsfunktion von X und wird mit FX bezeichnet.
Wir ermitteln folgende Eigenschaften von F .
26
Satz 1.10. Sei F : R → [0, 1] eine Verteilungsfunktion. Dann ist F monoton nicht
fallend, rechtsstetig und es gilt
lim F (x) = 0 und
lim F (x) = 1 .
x→−∞
x→∞
Beweis. Die Monotonie ist klar, vgl. (1.1). Zum Nachweis der Rechtstetigkeit nehmen
wir an xn ↓ x, dh. dass xn von rechts gegen x strebt. Dann gilt für jedes n
F (xn ) = P ((−∞, xn ]) = P ((−∞, x]) + P ((x, xn ]) = F (x) + P ((x, xn ]) .
Da nach Satz 1.3
lim P ((x, xn ]) = P
n→∞
∞
\
(x, xn ] = P (∅) = 0 ,
n=1
folgt F (xn ) ↓ F (x), also die Rechtsstetigkeit. Der Grenzwert für eine Folge xn ↑ ∞
folgt nach Satz 1.3 durch
∞
[
lim F (xn ) = lim P ((−∞, xn ]) = P
n→∞
n→∞
(−∞, xn ] = P (R) = 1 ,
n=1
und für eine Folge xn ↓ −∞ folgt nach Satz 1.3 auch
lim F (xn ) = lim P ((−∞, xn ]) = P
n→∞
n→∞
∞
\
(−∞, xn ] = P (∅) = 0 .
n=1
Diese Eigenschaften stellen sich nun auch als hinreichend für die Existenz eines Wahrscheinlichkeitsraums, dessen Wahrscheinlichkeitsverteilung die Verteilungsfunktion F
hat, heraus.
Satz 1.11. Sei F : R → [0, 1] eine monoton wachsende, rechtsstetige Funktion mit
lim F (x) = 0 und
x→−∞
lim F (x) = 1 .
x→∞
Dann gibt es genau eine Wahrscheinlichkeitsverteilung P auf der Borel–σ–Algebra B(R)
mit der Eigenschaft, daß
P ((−∞, x]) = F (x) für alle x ∈ R.
Beweis. Zuerst zur Existenz von P . Wir wählen den Lebesgueraum ((0, 1), A, λ), wobei
λ die Einschränkung des Lebesguemaßes auf die σ–Algebra A = P((0, 1)) ∩ B(R)
bezeichnet, der eine uniforme Verteilung definiert. Wir wollen die gesuchte Verteilung
als Verteilung P = L(X) einer Zufallsvariablen X : (0, 1) → R konstruieren. Dazu
definieren wir X durch
X(t) = inf{x : F (x) ≥ t} = min{x : F (x) ≥ t} .
27
Die Grenzwerteigenschaften von F sichern, daß X eine wohldefinierte Abbildung ist.
Monotonie und Rechtsstetigkeit sichern, daß dieses Infimum auch angenommen wird.
Um zu zeigen, daß X meßbar ist, genügt es nach Übungsaufgabe 2 zu zeigen, daß die
Mengen X −1 ((−∞, a]) in A liegen. Es gilt aber, unter Ausnutzung der Rechtsstetigkeit
von F ,
X −1 ((−∞, a]) = {t ∈ (0, 1) : X(t) ≤ a} = {t ∈ (0, 1) : F (a) ≥ t} = (0, F (a)] ∈ A .
Das liefert nicht nur die Meßbarkeit von X, sondern auch folgende Gleichung für die
Verteilung PX von X
PX ((−∞, a]) = λ(X −1((−∞, a])) = λ((0, F (a)]) = F (a) ,
(1.6)
die genau besagt, daß die Verteilungsfunktion von PX gerade F ist.
Zum Beweis der Eindeutigkeitsaussage benötigen wir den Satz über die Eindeutigkeit
von endlichen Maßen (siehe zum Beispiel in dem Skript [9]), der natürlich insbesondere
für Wahrscheinlichkeitsmaße gilt. Die Aussage des Satzes sei hier nochmals wiederholt:
Sei (Ω, A) ein meßbarer Raum. Ein Erzeuger E einer σ-Algebra A (d.h. σ(E) = A) heißt
∩-stabil (’durchschnitt-stabil’), wenn für alle A, B ∈ E auch A ∩ B ∈ E gilt. Sind nun
µ und ν endliche Maße mit gleicher Gesamtmasse (d.h. µ(Ω) = ν(Ω) < ∞) auf (Ω, A)
die auf einem ∩-stabilen Erzeuger E von A übereinstimmen, d.h. es gilt µ(A) = ν(A)
für alle A ∈ E, dann stimmen µ und ν auf der ganzen σ-Algebra A überein.
Nun wollen wir die Eindeutigkeit des Maßes P mit diesem Hilfsmittel zeigen. Sei dazu
P̃ eine weitere Wahrscheinlichkeitsverteilung auf B(R), mit
P̃ ((−∞, x]) = F (x)
für alle x ∈ R.
Setzt man E := {(−∞, x] : x ∈ R}, so ist E ein Erzeuger von B(R). Ferner ist E
wegen (−∞, x] ∩ (−∞, y] = (−∞, min(x, y)] für alle x, y ∈ R ein ∩-stabiler Erzeuger
von B(R). Da P und P̃ auf E übereinstimmen, folgt aus dem Eindeutigkeitssatz für
endliche Maße, daß P und P̃ auf ganz B(R) übereinstimmen und daher gleich sind.
Die Verteilung P ist also eindeutig bestimmt.
Von ebenso großer Wichtigkeit wie der Satz ist die im Beweis angegebene Konstruktion,
die wir nocheinmal herausheben wollen. Da viele Computerprogramme eine Funktion
bereitstellen, die eine auf (0, 1) uniform verteilte Zufallsvariablen simulieren, ermöglicht
uns diese Konstruktion und insbesondere die Gleichung (1.6) die Simulation beliebiger
reellwertiger Zufallsexperimente.
Korollar 1.12. Ist ((0, 1), A, λ) der uniforme Wahrscheinlichkeitsraum auf (0, 1) und
die Zufallsvariable X : (0, 1) → R gegeben als so genannte verallgemeinerte Umkehrfunktion von F , das heißt
X(t) = min{x : F (x) ≥ t} ,
so hat der von X induzierte Wahrscheinlichkeitsraum (R, B(R), PX ) die Verteilungsfunktion F .
28
Schließlich betrachten wir noch einen Spezialfall, nämlich den Fall einer differenzierbaren Funktion.
Satz 1.13. Ist F wie im Satz zuvor und außerdem stückweise stetig differenzierbar mit
f (x) = F ′ (x), so ist durch
Z
P (A) =
f (x) dx für jede Borelmenge A ⊆ R,
A
eine Wahrscheinlichkeitsverteilung auf (R, B(R)) gegeben, deren Verteilungsfunktion F
ist.
Beweis. (R, B(R), P ) ist ein Wahrscheinlichkeitsraum. Ist f (x) = F ′ (x), so gilt nach
dem Hauptsatz der Differentialrechnung
Z x
P ((−∞, x]) =
F ′ (t) dt = F (x) − lim F (y) = F (x) .
y→−∞
−∞
Also ist F die Verteilungsfunktion von P .
1.6
Übungsaufgaben
Aufgabe 1. Sei Ω eine Menge und A ⊆ P(Ω) ein beliebiges Mengensystem. Zeige:
Es gibt eine σ-Algebra B auf Ω mit A ⊆ B, die in jeder A umfassenden σ-Algebra
enthalten ist.
Tip: Zeige, daß der Schnitt über eine beliebige Familie von σ-Algebren wieder eine
σ-Algebra ist.
Aufgabe 2.
(a) Zeige, daß für jeden meßbaren Raum (Ω, A) und jedes f : Ω −→ R = R ∪ {∞} die
folgenden Aussagen äquivalent sind:
(i) f −1 (U) ∈ A für alle offenen U ⊆ R,
(ii) f −1 (B) ∈ A für alle Borelmengen B ∈ B(R)
(iii) {ω ∈ Ω : f (ω) ≥ a} ∈ A für alle a ∈ R.
(iv) {ω ∈ Ω : f (ω) > a} ∈ A für alle a ∈ R.
Eine Funktion f : Ω −→ R, die eine der obigen Bedingungen erfüllt, heißt meßbar
.
(b) Sei nun (Ω, A) = (R, B(R)). Zeige, daß jedes stetige f : R → R meßbar ist. Gib
ein Beispiel einer meßbaren Abbildung f : R → R, die nicht stetig ist.
Aufgabe 3. Sei (Ω, A) ein meßbarer Raum. Zeige:
29
(a) Sind A1 , A2 , . . . ∈ A, so ist auch die Menge
{ω : ω ∈ Ai für unendlich viele i ∈ N}
in A.
(b) Sind f1 , f2 , f3 , . . . : Ω −→ R meßbar, so sind auch die Abbildungen
sup fi und lim sup fi
i→∞
i∈N
meßbar.
Aufgabe 4. Bei einem Wettspiel werden zwei nicht unterscheidbare faire Würfel geworfen. Der Wahrscheinlichkeitsraum (Ω, A, P ), beschreibe das Laplace-Experiment über
der Menge der verschiedenen Ergebnisse dieses Versuchs. (Der Laplace-Ansatz erscheint
hier vielleicht unnatürlich, erweist sich aber in gewissen physikalischen Situationen als
sinnvoll.) Wie groß ist die Wahrscheinlichkeit, daß
(a) der Unterschied der Augenzahlen größer als 2 ist?
(b) der Unterschied der Augenzahlen größer als die Hälfte der Augensumme ist?
Aufgabe 5.
(a) Für die Binomial-Verteilung mit Parametern n und Erfolgswahrscheinlichkeit p ∈
(0, 1] betrachten wir für 1 ≤ r ≤ n die Zufallsvariablen
Xr : Ω = {0, 1}n −→ {r, r + 1, . . . , n, ∞}
Xr ((ω1 , . . . , ωn )) = min(j ≤ n :
j
X
ωi = r).
i=1
Beschreibe den von Xr induzierten Wahrscheinlichkeitsraum.
(b) Leite aus a) ein stochastisches Modell für die Wartezeit auf den r-ten Erfolg bei
einer (potentiell) unendlichen Folge von unabhängigen Experimenten mit Erfolgswahrscheinlichkeit p ∈ (0, 1] her.
(c) Ein gewisser Mathematiker trägt immer jeweils eine Streichholzschachtel in seiner
rechten und eine in seiner linken Tasche. Wenn er ein Streichholz braucht, wählt er
zufällig eine seiner beiden Taschen aus (mit gleicher Wahrscheinlichkeit). Anfangs
enthalten beide Streichholzschachteln jeweils N Streichhölzer. Wenn unser Mathematiker zum ersten Mal entdeckt, daß eine seiner Streichholzschachteln leer ist, wie
groß ist die Wahrscheinlichkeit, daß in der anderen Schachtel jeweils 0, 1, 2, . . . N
Streichhölzer sind?
30
Aufgabe 6. Ein Sortiment von 20 Teilen gilt als gut“, wenn es höchstens 2 defekte
”
Teile enthält, als schlecht“, wenn es mindestens 4 defekte Teile enthält. Käufer und
”
Verkäufer des Sortiments kommen überein, 4 zufällig herausgegriffene Teile zu testen.
Nur wenn alle 4 in Ordnung sind, findet der Kauf statt. Der Verkäufer trägt bei diesem
Verfahren das Risiko, ein gutes Sortiment nicht zu verkaufen, der Käufer, ein schlechtes
Sortiment zu kaufen.
Gib ein passendes stochastisches Modell an. Wer trägt das größere Risiko?
Aufgabe 7. Ein Stab der Länge 1 wird zufällig in zwei Stücke gebrochen, so daß die
Länge des rechten Stücks auf dem Einheitsintervall uniform verteilt ist. Danach wird
ebenso zufällig der längere der beiden Stäbe in zwei Stücke gebrochen.
Gib ein geeignetes stochastisches Modell an. Wie groß ist die Wahrscheinlichkeit, daß
sich aus den entstandenen 3 Stäben ein Dreieck bilden läßt?
Aufgabe 8. (a) Zeige: Ist pn eine Folge mit 0 ≤ pn ≤ 1 und npn −→ λ, so gilt
bk (n) =
n
k
pkn (1 − pn )n−k −→ e−λ
λk
.
k!
Was bedeutet dies anschaulich für die Binomial-Verteilung?
(b) In eine Menge Teig werden M Rosinen geknetet, dann werden N Brötchen aus dem
gesamten Teig geformt. Gib ein stochastisches Modell an. Wie viele Rosinen sollte
man mindestens verwenden, damit ein Brötchen mit 95%-iger Wahrscheinlichkeit
mindestens eine Rosine enthält?
Aufgabe 9. Sei n ∈ N und k ∈ {0, . . . , n} fest. Bezeichne die Wahrscheinlichkeitsgewichte der hypergeometrischen und der Binomial-Verteilung mit
s w
n
und b(k; p) =
pk (1 − p)n−k .
h(k; w, s) = k s+wn−k
k
n
Falls für zwei Folgen (si ), (wi ) ⊆ N gilt
si → ∞, wi → ∞ und
wi
→ p,
w i + si
so zeige, daß für jedes k ∈ {0, . . . , n} gilt h(k; wi , si ) −→ b(k; p). Wie kann man dieses
Ergebnis anschaulich interpretieren?
Aufgabe 10. Für n ∈ N und λ > 0 sei (Ωn , An , Pn ) der Wahrscheinlichkeitsraum mit
Ωn = [0, ∞)n , An = B(Rn )∩P(Ωn ), der durch die Dichte f (x1 , . . . , xn ) = λn exp(−λ(x1 +
· · · + xn )) gegeben ist.
(a) Zeige, daß die Zufallsvariablen Xk : Ωn 7→ R, Xk (x1 , . . . , xn ) = xk für alle k, n ∈ N
zum Parameter λ exponentialverteilt sind.
(b) Beschreibe die Verteilung P
der Zufallsvariablen Yn : Ωn → {0, . . . , n}, die durch
Yn (x1 , . . . , xn ) = max(k : ki=1 xi < 1) gegeben ist.
31
(c) Benutze die Ergebnisse aus (a) und (b), um ein Modell für die Anzahl der Prozessoren aufzustellen, die benötigt werden, um einen Arbeitsplatzrechner für ein
Jahrzehnt zu betreiben (ein Arbeitsplatzrechner braucht einen funktionsfähigen
Prozessor, und wenn dieser ausfällt, wird er sofort ersetzt. Beachte, daß die Zahl
der Prozessoren nicht von vorneherein beschränkt ist). Vergleiche das Modell mit
den in Aufgabe 8 berechneten Grenzwerten und interpretiere das Ergebnis.
Aufgabe 11.
(a) In einer Urne befinden sich s schwarze und w weiße Kugeln. Aus dieser Urne werden
nun nacheinander zufällig Kugeln gezogen und nicht wieder zurückgelegt. Leite ein
stochastisches Modell für die Wartezeit auf die erste weiße Kugel aus unserem
Urnenmodell her.
(b) Die Urne enthalte 5 Kugeln. Vergleiche für w = 1, 2, 3, 4 und k = 1, 2, 3, 4, 5 die
Wahrscheinlichkeiten, daß die erste weiße Kugel im k-ten Zug erscheint im Fall
des Ziehens mit und ohne Zurücklegen. Stelle die Ergebnisse graphisch dar und
interpretiere sie.
Aufgabe 12.
(a) Definiere auf dem uniformen Wahrscheinlichkeitsraum (Ω, A, P ), Ω = [0, 1] und
A = B(R)∩P([0, 1]), eine zum Parameter λ > 0 exponentialverteilte Zufallsvariable
X : Ω −→ [0, ∞).
(b) Benutze Teil (a) um auf einem Computer eine Folge (Xn ) von unabhängigen zum
Parameter 1 exponentialverteilten Zufallsvariablen zu simulieren. Stelle diePErgebn
nisse der Simulation graphisch dar. Wie verhalten sich die Mittelwerte n1
i=1 Xi
für große n?
Aufgabe 13. Zu einem Wahrscheinlichkeitsvektor v = (p1 , . . . , pk ) soll eine Zufallsvariable X mit P (X = i) = pi simuliert werden. Schreibe eine Prozedur, die (mit Hilfe
einer uniformen Verteilung auf (0, 1)) für beliebige v und n eine Serie von n Simulationen der Zufallsvariablen X erzeugt, und stelle die Ergebnisse graphisch dar.
Aufgabe 14.
(a) Es sei X : Ω → Ω′ und A′ sei eine σ–Algebra auf Ω′ . Zeige, daß σ(X) := {X −1 (B) :
B ∈ A′ } eine σ–Algebra auf Ω ist.
(b) Nun sei Ω = Ω′ = R und A = A′ = B(R). Definiere eine Abbildung X : Ω → Ω′
via
n
X
X(ω) :=
ai 1Ai (ω).
Dabei seien ai ∈ R und Ai ∈ A mit
Sn
i=1
i=1
Ai = Ω sowie Ai ∩ Aj = ∅, sobald i 6= j.
(i) Zeige, dass X messbar ist von (Ω, A) nach (Ω′ , A′).
32
(ii) Was ist in diesem Fall σ(X)?
Aufgabe 15. Man möchte sich überzeugen, daß es in einer Menge ein Element mit
vorgegebener Eigenschaft gibt. Die von Paul Erdös eingeführte probabilistische Methode besteht darin zu beweisen, daß man bei zufälliger Wahl eines Elements aus dieser
Menge mit positiver Wahrscheinlichkeit ein Element mit der gewünschten Eigenschaft
wählt.
Insgesamt 12% der Oberfläche einer Kugel sind schwarz (und eine Borelmenge) und
der Rest ist weiß. Gibt es einen einbeschriebenen Würfel, dessen Ecken allesamt weiß
sind?
(a) Unter der Voraussetzung, dass es eine Wahrscheinlichkeitsverteilung auf der Menge aller in die Kugeloberfläche eingeschriebenen Würfel gibt, für die Lage jeder
Ecke eines zufällig ausgewählten Würfels gleichverteilt ist auf der Kugeloberfläche, beweise die Existenz eines geeigneten Würfels.
(b) (Etwas anspruchsvoller:) Konstruiere eine Wahrscheinlichkeitsverteilung wie in
(a).
33
34
Kapitel 2
Bedingte Wahrscheinlichkeiten und
stochastische Unabhängigkeit
2.1
Einleitendes Beispiel
Wir wollen die Begriffe der bedingten Wahrscheinlichkeiten und der Unabhängigkeit
durch ein Beispiel motivieren. Betrachten wir dazu noch einmal das Ziehen ohne
Zurücklegen aus einer Urne aus Beispiel 5. Der zugehörige Wahrscheinlichkeitsraum
ist durch Ω = {0, 1}n , A = P(Ω) und
P (A) =
X (w)n̂(ω) (s)n−n̂(ω)
(s + w)n
ω∈A
gegeben, wobei n̂(ω) die Anzahl der Einsen und n − n̂(ω) die Zahl der Nullen im n–
Tupel ω ist. Wie groß ist nun die Wahrscheinlichkeit im ersten, zweiten, dritten, etc. Zug
eine weiße Kugel zu ziehen? Da man die ersten beiden gezogenen Kugeln miteinander
vertauschen kann, ohne den Rest des Experiments zu beeinflussen, ist es einleuchtend,
dass die Wahrscheinlichkeit dafür, im zweiten Zug eine weiße Kugel zu ziehen, genau
so groß ist wie dafür, im ersten Zug eine weiße Kugel zu ziehen. Analoges sollte für die
späteren Kugeln gelten.
Um dies Argument in unseren Formalismus zu übersetzen, betrachten wir die Zufallsvariablen X1 , . . . , Xn , die durch
Xk (ω) = ωk wobei ω = (ω1 , . . . , ωn )
gegeben sind. Dann entspricht der Beobachtung, im k–ten Zug eine weiße Kugel zu
ziehen, das Ereignis {Xk = 1}. Um die Wahrscheinlichkeit dieses Ereignisses zu bew
. Nun betrachtet man die bijektive
rechnen, beobachtet man, daß P (X1 = 1) = w+s
Abbildung σk : Ω → Ω, welche die erste mit der k–ten Komponente vertauscht, also


 ωk j = 1
(σk (ω))j := ω1 j = k .


ωj sonst
35
Für jedes k ≤ n bildet σk die Menge der ω ∈ Ω mit ω1 = 1 bijektiv auf die ω ∈ Ω mit
ωk = 1 ab. In unserem Modell haben aber die Elementarereignisse {ω} und {σk (ω)},
für beliebiges ω ∈ Ω dieselbe Wahrscheinlichkeit. Dementsprechend gilt
P (Xk = 1) = P (σk {ω ∈ Ω : ω1 = 1}) = P ({ω ∈ Ω : ω1 = 1}) = P (X1 = 1).
Die Wahrscheinlichkeit, eine weiße Kugel zu ziehen ist also bei jedem Zug die gleiche
und entspricht dem Anteil der weißen Kugeln, die sich am Anfang in der Urne befinden.
Das setzt aber voraus, dass wir über den Ausgang der vorangegangenen Züge keine
Kenntnis haben.
Wenn wir aber über das Eintreten eines Ereignisses A Kenntnis erhalten, verändert
dies unser Wissen über das Experiment und damit auch unseren beschreibenden Wahrscheinlichkeitsraum. Diese Veränderung äußert sich in einer Veränderung der zugrundeliegenden Wahrscheinlichkeitsverteilung, die neue zu betrachtende Wahrscheinlichkeitsverteilung ist die bedingte Verteilung gegeben A.
2.2
Definitionen, Folgerungen und Beispiele
Definition 2.1. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und B ∈ A ein Ereignis
mit P (B) > 0. Für A ∈ A sei P (A|B), gegeben durch
P (A|B) =
P (A ∩ B)
.
P (B)
Die Zahl P (A|B) heißt bedingte Wahrscheinlichkeit von A gegeben B (’conditional
probability of A given B’). Die Funktion P (·|B) : A → [0, 1], A 7→ P (A|B) ist eine
Wahrscheinlichkeitsverteilung auf Ω, die bedingte Wahrscheinlichkeitverteilung
gegeben B.
Beispiel: Wenn wir in unserem Urnenbeispiel (ohne Zurücklegen) wissen, daß im ersten
Zug eine weiße Kugel gezogen wurde, so ändert sich unser Modell. Statt P müssen
wir jetzt die bedingte Wahrscheinlichkeitsverteilung gegeben das Ereignis {X1 = 1}
unseren Rechnungen zugrundelegen. Als neue Wahrscheinlichkeit für eine weiße Kugel
im zweiten Zug erhält man unter Verwendung der hypergeometrischen Verteilung für
die Anzahl der weißen unter den ersten beiden Kugeln
P (X1 = 1 und X2 = 1)
P (X1 = 1)
s −1
w
w
2
0
=
·
w+s
s+w
2
w−1
=
.
s+w−1
P (X2 = 1|X1 = 1) =
Wenn wir also darüber informiert sind, daß im ersten Zug eine weiße Kugel gezogen
wurde, entsprechen die Wahrscheinlichkeiten im zweiten Zug denjenigen bei einem Zug
aus einer Urne mit w − 1 weißen und s schwarzen Kugeln.
36
Wenn das Eintreten eines Ereignisses B die Wahrscheinlichkeit eines Ereignisses A
nicht beeinflußt, so heißen die Ereignisse A und B unabhängig. Dann gilt also
P (A) = P (A|B) =
P (A ∩ B)
P (B)
und wir erhalten die folgende Formulierung, in der P (B) > 0 nicht mehr vorausgesetzt
werden muß:
Definition 2.2. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und A, B ∈ A Ereignisse.
A und B heißen stochastisch unabhängig oder einfach unabhängig, wenn gilt
P (A ∩ B) = P (A) · P (B) .
Allgemeiner heißt eine Familie (Aλ )λ∈Λ von Ereignissen unabhängig, wenn für jede
endliche Teilmenge {Ai : i ∈ I} die folgende Produktformel gilt
!
\
Y
P
Ai =
P (Ai ) .
i∈I
i∈I
Bemerkung: Es genügt nicht, in der Definition der Unabhängigkeit einer Familie
von Ereignissen die Produktformel nur für zwei Ereignisse zu fordern: Betrachte dazu
auf dem Laplaceschen Wahrscheinlichkeitsraum auf Ω = {00, 01, 10, 11} die Ereignisse
A = {10, 11}, B = {01, 11} und C = {00, 11}. Dann ist P (A ∩ B) = P (A ∩ C) =
P (B ∩ C) = 1/4 und P (A) = P (B) = P (C) = 1/2, die Produktformel gilt also für alle
Paare von Ereignissen, aber A, B und C sind abhängig, da P (A ∩ B ∩ C) = 1/4 6= 1/8.
Hier ist eine nützliche Folgerung aus der Definition 2.1.:
Satz 2.3. (Formel von der totalen WS, Bayessche Formel)
Sei {B1 , B2 , . . .} eine Zerlegung von Ω in disjunkte Ereignisse von positiver Wahrscheinlichkeit. Dann gilt für jedes Ereignis A ∈ A die Formel von der totalen Wahrscheinlichkeit
X
P (A) =
P (Bk )P (A|Bk )
k
und falls P (A) > 0 die Bayessche Formel1
Beweis. Wir haben
P (Bi) · P (A|Bi)
.
P (Bi |A) = P
k P (Bk )P (A|Bk )
P (A) =
X
k
und
P (Bi |A) =
1
P (A ∩ Bk ) =
X
P (Bk )P (A|Bk ).
k
P (Bi ∩ A)
P (Bi ) · P (A|Bi)
=P
.
P (A)
k P (Bk )P (A|Bk )
Reverend Thomas Bayes (1702-1761)
37
Bemerkung: Die Situation des letzten Satzes läßt sich veranschaulichen als ein Relaisexperiment: Durch das erste Teilexperiment wird bestimmt, welches der Bk eintritt,
und im zweiten Teilexperiment wird über A entschieden, wobei dann in diesem zweiten
Teil natürlich die Wahrscheinlichkeiten zu bedingen sind auf den Ausgang des ersten Teils. Man kann die Formel der totalen Wahrscheinlichkeit also auch auffassen als
Berechnung der Wahrscheinlichkeit von A durch Fallunterscheidung über die verschiedenen denkbaren Begleitumstände. Die Bayessche Formel gibt in dieser Sichtweise eine
Vorschrift, wie sich die a priori Wahrscheinlichkeiten (’prior probabilities’) ’P (Bk ) vor
dem Gesamtversuch für diese Begleitumstände zu einer a posteriori Wahrscheinlichkeit (’posterior probability’) nach dem Gesamtversuch ändern, falls A der Ausgang des
zweiten Teils ist.
Der folgende nützliche Satz enthält unsere erste Anwendung des Unabhängigkeitsbegriffs.
Satz 2.4. (Lemma von Borel–Cantelli) 2
Seien A1 , A2 , . . . eine Folge von Ereignissen und A das Ereignis, daß unendlich viele
dieser Ereignisse eintreten, also
A = {ω ∈ Ω : ω ∈ Ak für unendlich viele k} .
P
(i) (Erstes Lemma von BC) Ist ∞
i=1 P (Ai ) < ∞, so ist P (A) = 0.
(ii) (Zweites Lemma von BC) Ist die Folge A1 , A2 , . . . unabhängig und gilt
∞, so ist P (A) = 1.
P∞
i=1
P (Ai ) =
Zum Beweis benötigen wir das folgende Lemma.
Lemma 2.5. Sind {Aλ : λ ∈ Λ} unabhängige Ereignisse, so sind auch die Komplementärereignisse {Acλ : λ ∈ Λ} unabhängig.
Beweis: Wir zeigen, daß aus der Unabhängigkeit einer beliebigen endlichen Menge
von Ereignissen {A1 , . . . , Ak } ⊆ {Aλ : λ ∈ Λ} die Produktformel für die Ereignisse {Ac1 , A2 , . . . , Ak } folgt:
P (Ac1 ∩ A2 ∩ . . . ∩ Ak ) = P (A2 ∩ . . . ∩ Ak ) − P (A1 ∩ . . . ∩ Ak )
k
k
k
Y
Y
Y
=
P (Ai ) −
P (Ai ) = (1 − P (A1 )) ·
P (Ai )
i=2
= P (Ac1 ) ·
i=1
k
Y
i=2
P (Ai ) .
i=2
Daraus folgt die Behauptung induktiv.
Beweis des Borel–Cantelli–Lemmas: In Übungsaufgabe 3 haben wir bereits gesehen,
daß
∞ [
\
Ak
A=
n=1 k≥n
2
Francesco Paolo Cantelli, (1875-1966)
38
ein Ereignis ist. Für jedes n gilt nun
P (A) ≤ P
∞
[
Ak
k=n
!
≤
∞
X
P (Ak )
k=n
P
und wenn
P (Ak ) konvergiert, geht die Restsumme gegen 0, woraus P (A) = 0 folgt.
Dies beweist (i).
Für 0 ≤ ai ≤ 1 gilt log(1 − ai ) ≤ −ai . Damit folgt für n < N
!
N
N
N
X
X
Y
ak .
log(1 − ak ) ≤ −
(1 − ak ) =
log
k=n
k=n
k=n
Wenn die Folge der Ereignisse (Ai ) unabhängig sind, so gilt nach dem letzten Lemma
!
!
N
N
N
X
Y
\
P (Ai ) .
(1 − P (Ai)) ≤ exp −
Aci =
P
i=n
i=n
i=n
Für N → ∞ konvergiert die rechte Seite gegen 0 und somit ist aufgrund der Stetigkeit
von P
!
!
!
∞ \
∞
∞
N
[
\
\
P (Ac ) = P
Acn = lim P
Ack = lim lim P
Ack = 0.
n=1 k=n
n→∞
n→∞ N →∞
k=n
k=n
Definition 2.6. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Man sagt, ein Ereignis
A tritt fast sicher oder fast immer ein, falls P (A) = 1 und es tritt fast sicher
nicht oder fast nie ein, falls P (A) = 0. In letzterem Fall nennt man A auch eine
P –Nullmenge.
Der
P erste Teil des Borel–Cantelli–Lemmas sagt also, daß im Falle der Konvergenz von
P (Ai) fast sicher nur endlich viele der Ereignisse Ai eintreten. Der zweite Teil sagt,
daß die Menge der Ausgänge, für die P
nur endlich viele der unabhängigen Ereignisse Ai
eintreten eine P –Nullmenge ist, falls
P (Ai) = ∞.
Korollar 2.7. (0–1–Gesetz)
Sind A1 , A2 , . . . unabhängige Ereignisse und A das Ereignis, daß unendlich viele dieser
Ereignisse eintreten, so ist P (A) ∈ {0, 1}.
Beispiel: Wir wissen aus Aufgabe 18, daß auf dem uniformen Wahrscheinlichkeitsraum
n
auf Ω = (0, 1) die Ereignisse An = {x ∈ P
(0, 1) : x · 2P
≤ 21 mod 1} unabhängig sind
mit P (An ) = P (Acn ) = 1/2. Folglich ist
P (Ai ) =
P (Aci ) = ∞ und es gilt nach
Borel–Cantelli
!
!
∞ \
∞
∞ \
∞
[
[
P
Aci = P
Ai = 1 .
n=1 i=n
n=1 i=n
39
Dies kann man so interpretieren: Die Dualzahldarstellung von (Lebesgue–)fast jeder
Zahl aus (0, 1) enthält unendlich viele Nullen und unendlich viele Einsen. Oder anders
ausgedrückt: Die Menge aller Zahlen in deren Dualdarstellung nur endlich viele Einsen
(bzw. Nullen) auftreten ist eine Nullmenge.
Der Unabhängigkeitsbegriff ist von zentraler Bedeutung, er läßt sich leicht von Ereignissen auf Zufallsvariablen erweitern: Zufallsvariablen sind unabhängig, wenn alle
Ereignisse, die von den Zufallsvariablen induziert“ werden, unabhängig sind. Genau
”
gesagt:
Definition 2.8. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine endliche oder unendliche Menge von Zufallsvariablen Xλ : Ω → Ωλ , λ ∈ Λ, heißt unabhängig, wenn
für jede endliche Indexmenge I ⊆ Λ und jede Wahl von meßbaren Mengen Ai ⊆ Ωi die
Ereignisse
{Xi ∈ Ai } für i ∈ I
unabhängig sind, das heißt wenn
P ({Xi ∈ Ai für alle i ∈ I}) =
Y
i∈I
P ({Xi ∈ Ai }) .
Ansonsten heißen die Zufallsvariablen abhängig.
Beispiel: Wir haben bereits gesehen, daß beim Ziehen ohne Zurücklegen die Zufallsvariablen X1 , . . . Xk , die das Ergebnis des ersten bis k-ten Zuges beschreiben, abhängig
sind (man mache sich noch einmal klar, daß die Definition der Unabhängigkeit verletzt
ist!). Betrachten wir nun das Ziehen mit Zurücklegen aus einer Urne wie in Beispiel 2,
d.h. den Wahrscheinlichkeitsraum, der durch Ω = {0, 1}n , A = P(Ω) und
X
P (A) =
pn̂(ω) q n−n̂(ω)
ω∈A
gegeben ist, wobei n̂(ω) die Anzahl der Einsen und n − n̂(ω) die Zahl der Nullen im
n–Tupel ω ist und p = w/(w + s) bzw. q = s/(w + s) die Anteile der weißen bzw.
schwarzen Kugeln in der Urne bezeichnen. Die Zufallsvariablen X1 , . . . , Xn , die die n
Züge beschreiben, sind durch
Xk (ω) = ωk , wobei ω = (ω1 , . . . , ωn ),
gegeben. Wir wollen zeigen, daß die X1 , . . . , Xn , anders als im Falle des Ziehens ohne
Zurücklegen zuvor, unabhängig sind. Zunächst gilt wieder wie dort P {X1 = 1} = p
und P {X1 = 0} = q (anschaulich: beim ersten Zug gibt es noch keinen Unterschied
zwischen Ziehen mit und Ziehen ohne Zurücklegen). Ferner haben wieder alle Xk die
gleiche Verteilung. Für jedes ω = (ω1 , . . . , ωn ) ∈ {0, 1}n gilt also
P ({Xk = ωk für alle k ≤ n}) = p
n̂(ω) n−n̂(ω)
40
q
=
n
Y
k=1
P ({Xk = ωk }).
(2.1)
Jetzt betrachten wir beliebige Ereignisse A1 , . . . , An aus der Potenzmenge von {0, 1}.
Dann ist wegen (2.1)
P ({Xk ∈ Ak für alle k ≤ n}) = P (A1 × . . . × An })
X
P ({Xk = ωk für alle k ≤ n})
=
ω∈A1 ×...×An
=
=
=
X
...
n
X Y
ωn ∈An k=1
ω1 ∈A1
n
Y X
k=1 ωk ∈Ak
n
Y
k=1
P ({Xk = ωk })
P ({Xk = ωk })
P ({Xk ∈ Ak }).
Fassen wir noch einmal die Situation beim Ziehen ohne und mit Zurücklegen zusammen:
Im ersten Fall sind die einzelnen Züge, also die Zufallsvariablen X1 , . . . , Xk voneinander abhängig, im zweiten Fall sind sie voneinander unabhängig. Die Verteilung jeder
einzelnen Zufallsvariablen Xk ist aber in beiden Fällen gleich, nämlich
w
s
P (Xk = 1) =
und P (Xk = 0) =
.
s+w
s+w
Die Abhängigkeitsstruktur der Zufallsvariablen läßt sich also nicht aus den einzelnen
Verteilungen der Xk ablesen, sondern wir müssen die Abbildungen Xk : Ω → {0, 1}
kennen.
2.3
Unabhängigkeit und Produktexperimente
Wir haben bisher gesehen, daß aus den beiden Verteilungen von zwei reellwertiger Zufallsvariablen X und Y nicht abgelesen werden kann, ob sie unabhängig oder abhängig
sind. Wir werden nun die Verteilung des Vektors (X, Y ) studieren und sehen, daß sie
die gesuchte Information enthält.
Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und
Xi : Ω → R für i ∈ {1, . . . , n}
endlich viele reellwertige Zufallsvariablen auf Ω. Auf R legen wir wieder die Borel-σAlgebra zugrunde.
Definition 2.9. Definiere die vektorwertige Zufallsvariable X durch
X : Ω → Rn , X(ω) = (X1 (ω), . . . , Xn (ω)) ,
wobei wir auf Rn die Borel-σ-Algebra zugrundelegen. Die Verteilung von X ist ein
Wahrscheinlichkeitsmaß PX auf (Rn , B(Rn )) und heißt gemeinsame Verteilung von
X1 , . . . , Xn .
41
Beachte, daß X nach Aufgabe 17a) meßbar ist, da für jeden Quader Q = (a1 , b1 ) ×
. . . × (an , bn ) ⊆ Rn gilt
n
\
Xi−1 ((ai , bi )) ∈ A
X −1 (Q) =
i=1
und das Mengensystem all dieser Quader die Borel-σ–Algebra auf Rn erzeugt.
Definition 2.10. Sind (Ω1 , A1 ), . . . , (Ωn , An ) messbare Räume, so nennt man die von
E := {A1 × · · · × An : A1 ∈ A1 , . . . , An ∈ An },
erzeugte σ-Algebra A1 ⊗ · · · ⊗ An auf Ω1 ×
N· · · × Ωn die Produkt-σ-Algebra von
A1 , . . . , An . Den messbaren Raum (×ni=1 Ωi , ni=1 Ai ) nennen wir Produktraum.
Seien P1 , . . . , Pn Wahrscheinlichkeitsverteilungen
auf den (Ωi , Ai). Eine Verteilung P
Nn
n
auf dem Produktraum (×i=1 Ωi , i=1 Ai ), so dass
P (A1 × · · · × An ) =
n
Y
i=1
Pi (Ai ) für alle Mengen Ai ∈ Ai
nennen wir Produktverteilung und schreiben P = P1 ⊗ · · · ⊗ Pn .
Die Produktverteilung ist eindeutig durch die Pi bestimmt, da das System der Produktmengen
{A1 × · · · × An : A1 ∈ Ai , . . . , An ∈ An }
ein ∩-stabiler Erzeuger der Produkt-σ-Algebra ist. Und stimmen zwei (Wahrscheinlichkeitsmaße auf einem ∩-stabilen Erzeuger überein, so auch auf der erzeugten σ–Algebra.
Beispiel: Es ist einfach, Produktverteilungen von diskreten Verteilungen zu konstru′
ieren. Für i ∈ N seien ωi ∈ Ω undPωi′ ∈ ΩP
abzählbar viele Punkte und pi , qi ∈ [0, 1]
Wahrscheinlichkeitsgewichte, also
pi =
qi = 1, und P bzw. Q die zugehörigen
Wahrscheinlichkeitsverteilungen über Ω bzw. Ω′ . Das heißt also
X
X
P (A) =
pi und Q(B) =
qi für beliebige Teilmengen A von Ω bzw. B von Ω′ .
i:ωi ∈A
i:ωi′ ∈B
Dann bilden die Produkte pij = pi qj wieder Wahrscheinlichkeitsgewichte, denn
X
pij =
∞
X
i=1
(i,j)∈N×N
pi
∞
X
qj = 1.
j=1
Wir können also eine Wahrscheinlichkeitsverteilung P ⊗ Q auf Ω × Ω′ definieren indem
wir setzen
X
P ⊗ Q(C) =
pi qj für jede Menge C ⊂ Ω × Ω′ .
(i,j):(ωi ,ωj′ )∈C
Dann gilt
P ⊗ Q(A × B) =
X X
pi qj =
i:ωi ∈A j:ωj ∈B
X
i:ωi ∈A
42
pi
X
j:ωj ∈B
qj = P (A) · Q(B).
Also ist P ⊗ Q eine Produktverteilung von P und Q. Sie ist offensichtlich die einzig
mögliche.
Der Zusammenhang zwischen Unabhängigkeit und Produktverteilungen ist ganz offensichtlich:
Satz 2.11. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und seien Xi : Ω → R für i ∈
{1, . . . , n} endlich viele reellwertige Zufallsvariablen auf Ω. Die Xi sind genau dann unabhängig, wenn ihre gemeinsame Verteilung PX die Produktverteilung der PX1 , . . . , PXn
ist.
Beweis. Beide Aussagen sind äquivalent zur Behauptung, daß
PX (A1 × · · · × An ) =
n
Y
i=1
PXi (Ai ) für alle Borelmengen Ai ⊆ R.
Der folgende Satz besagt, daß für vorgegebene Verteilungen deren Produktverteilung
stets existiert. Er wird aber in diesem Skript in dieser Allgemeinheit nicht wesentlich
verwendet. In den für uns wichtigen Spezialfällen der diskreten Verteilungen und der
Verteilungen mit Dichten geben wir die Produktverteilung direkt an.
Satz 2.12. (Existenz der Produktverteilung) Für je endlich viele Wahrscheinlichkeitsverteilungen existiert die Produktverteilung auf dem entsprechenden Produkt
raum.
Beweis. Hat man den Satz von Fubini für allgemeine Maßräume zur Verfügung, folgt
die Existenz der Produktverteilung direkt durch Induktion. Ansonsten hilft man sich
durch folgende Rechnung, die wir hier nur für n = 2 durchführen wollen. Definiere eine
Abbildung P : A1 ⊗ A2 → [0, 1] durch
Z
P2 (Ex ) P1(dx)
P (E) :=
Ω1
für alle E ∈ A1 ⊗ A2 . Diese Definition macht Sinn, da die x-Schnitte
Ex := {y ∈ Ω2 : (x, y) ∈ E}
A2 -meßbare Mengen sind und die Abbildung x 7→ P2 (Ex ) ebenfalls meßbar ist (siehe
Skript Analysis II). Wir müssen nun zeigen, daß P ein Maß ist und der Produktformel
genügt. Für paarweise disjunkte Mengen (Ei ) ⊆ A1 ⊗ A2 gilt
)
(
!
Z
∞
∞
[
[
Ei P1 (dx)
P2 y ∈ Ω2 : (x, y) ∈
P
Ei
=
i=1
=
=
Z
Ω1
i=1
∞
X
Ω1 i=1
∞
XZ
i=1
Ω1
P2 {y ∈ Ω2 : (x, y) ∈ Ei } P1(dx)
P2 {y ∈ Ω2 : (x, y) ∈ Ei } P1(dx) =
43
∞
X
i=1
P (Ei ).
Ferner ist für alle A1 ∈ A1 , A2 ∈ A2
Z
P2 {y ∈ Ω2 : (x, y) ∈ A1 × A2 } P1 (dx)
P (A1 × A2 ) =
Ω1
Z
P2 (A2 ) P1 (dx) = P1 (A1 ) · P2 (A2 ).
=
A1
Nun folgt auch sofort, daß
P (Ω1 × Ω2 ) = P1 (Ω1 ) · P2 (Ω2 ) = 1.
2.4
Mehr über Verteilungen mit Dichten
Wir wollen in diesem Kapitel Verteilungen mit Dichten näher erforschen. Wir sagen
kurz, daß die reellwertige Zufallsvariable X : Ω → R die Dichte f : R → [0, ∞) hat,
wenn die Verteilung von X durch die Dichte f gegeben ist, wenn also gilt
Z
P (X ∈ A) =
f (x) dx für alle Borelmengen A ∈ R.
A
Für zwei Verteilungen mit Dichte können wir die Produktverteilung einfach definieren:
es ist die Verteilung deren Dichte das Produkt der beiden Dichten ist.
Satz 2.13. Sind P und Q zwei Verteilungen mit Dichten f bzw. g, so ist die Produktverteilung P ⊗ Q gegeben durch
Z Z
P ⊗ Q(A) =
f (x)g(y) dx dy für alle Borelmengen A ⊆ R2 .
A
Beweis. Sei zunächst P ⊗ Q die durch die behauptete Gleichung definierte Funktion
auf der Produkt-σ-Algebra. Für zwei Borelmengen A1 und A2 aus R gilt nach dem
Satz von Fubini (siehe z.B. [9], Kapitel 7)
Z
Z
Z Z
g(y) dy = P (A1 )Q(A2 ) .
f (x) dx ·
f (x)g(y) dy dx =
P ⊗ Q(A1 × A2 ) =
A1
A1
A2
A2
Insbesondere ist die Funktion (x, y) 7→ f (x)g(y) auch eine Wahrscheinlichkeitsdichte3
und P ⊗ Q ist eine Wahrscheinlichkeitsverteilung. Offensichtlich ist sie die Produktverteilung.
Nun wollen wir untersuchen, wie die Verteilung der Summe zweier unabhängiger Zufallsvariablen mit Dichten aussieht. Seien zunächst X : Ω → R und Y : Ω → R beliebige
reellwertige Zufallsvariablen.
3
die so genannte Produktdichte
44
Lemma 2.14. X + Y : Ω → R ist eine Zufallsvariable.
Beweis. Nach Aufgabe 2 müssen wir zeigen, daß {ω ∈ Ω : X(ω) + Y (ω) > a} ∈ A für
alle a. Das folgt aus
[
{ω ∈ Ω : X(ω)+Y (ω) > a} =
[{ω ∈ Ω : X(ω) > p} ∩ {ω ∈ Ω : Y (ω) > q}]
p,q∈Q, p+q>a
wieder mit Aufgabe 2.
Wir führen jetzt die Faltung zweier Wahrscheinlichkeitsmaße mit Dichten ein.
Definition 2.15. Sind P und Q Wahrscheinlichkeitsverteilungen auf (R, B(R)) mit
Dichten f bzw. g, so ist die Faltung (’convolution’) P ⋆ Q die Wahrscheinlichkeitsverteilung auf (R, B(R)), die durch
Z
Z
P ⋆ Q(B) =
Q(B − x)f (x) dx =
P (B − y)g(y) dy ,
R
R
wobei B − x = {b − x : b ∈ B}, gegeben ist. Dies ist wieder eine Verteilung mit einer
Dichte, nämlich
Z
Z
f ⋆ g(z) =
g(z − x)f (x) dx =
f (z − x)g(x) dx .
R
R
Bemerkung: Die Korrektheit der obigen Formeln und die Behauptung, daß durch
sie eine Wahrscheinlichkeitsverteilung mit der angegebenen Dichte gegeben ist, ergeben
sich im Beweis von Satz 2.16.
Satz 2.16. Sind X, Y : Ω → R unabhängige Zufallsvariablen mit Verteilungen P (mit
zugehöriger Dichte f ) und Q(mit zugehöriger Dichte g), so hat die Zufallsvariable
S = X + Y die Verteilung P ⋆ Q(mit zugehöriger Dichte f ⋆ g).
Beweis. Für jede Borelmenge B ⊆ R gilt
PS (B) = P(X,Y ) ({(x, y) ∈ R2 : x + y ∈ B})
und nach Satz 2.13 und dem Satz
Z
PS (B) =
Z
=
Z
=
von Fubini gilt somit
Z
f (x)g(y) dx dy
{(x,y)∈R2 : x+y∈B}
Z
f (x)
g(y) dy dx
{y∈R : y∈B−x}
f (x)Q(B − x) dx = P ⋆ Q(B) .
Um zu sehen, daß P ⋆ Q die angegebene Dichte hat, formulieren wir den vorletzten
Ausdruck nocheinmal mit einer Substitution z = x + y um:
Z
Z
Z
Z
f (x)
g(y) dy dx = f (x)
g(z − x) dz dx
{y∈R : y∈B−x}
B
Z Z
=
f (x)g(z − x) dx dz .
B
Die alternativen Formeln folgen durch Vertauschen der Rollen von X und Y .
45
Beispiel: Ist P die uniforme Verteilung auf (0, 1), so hat P ⋆ P die Dichte 1(0,1) ⋆ 1(0,1) .
Die ist für y ≤ 0
Z
1
1(0,1) (y − x) dx = 0 ,
1(0,1) ⋆ 1(0,1) (y) =
0
für 0 < y < 1
1(0,1) ⋆ 1(0,1) (y) =
für 1 ≤ y < 2
1(0,1) ⋆ 1(0,1) (y) =
Z
Z
1
0
1(0,1) (y − x) dx =
1
0
1(0,1) (y − x) dx =
und für y ≥ 2
1(0,1) ⋆ 1(0,1) (y) =
Z
Z
Z
y
dx = y ,
0
1
y−1
dx = 2 − y
1
0
1(0,1) (y − x) dx = 0 .
Damit haben wir die Verteilung der Summe zweier unabhängiger auf (0, 1) uniform
verteilter Zufallsvariablen als Verteilung mit der (zeltförmigen) Dichte

0
wenn y ≤ 0,



y
wenn 0 < y ≤ 1,
f (y) =
2 − y wenn 1 < y ≤ 2,



0
wenn y ≥ 2,
vollständig beschrieben. Man skizziere die Funktion und mache sich klar, daß dies ein
plausibles Ergebnis ist. Man nennt diese Verteilung auch Dreiecks-Verteilung.
2.5
Übungsaufgaben
Aufgabe 16. (Laplacescher Folgesatz)
Eine Urne enthalte N Kugeln und zwar w weiße und s schwarze. Die Anzahl w der weißen Kugeln sei unbekannt, es sei jedoch bekannt, daß sie durch ein Laplace-Experiment
so festgelegt wurde, daß jeder der möglichen Werte w ∈ {0, . . . , N} die Wahrscheinlichkeit N 1+1 besitzt. Man habe n Kugeln ohne Zurücklegen zufällig entnommen und dabei
nur weiße Kugeln erhalten. Wie groß ist die Wahrscheinlichkeit, daß auch die (n + 1)-te
zufällig zu entnehmende Kugel weiß sein wird? Hängt diese Wahrscheinlichkeit von N
ab?
Hinweis: Es könnte nützlich sein, die Formel
X k N + 1
=
n+1
n
n≤k≤N
zu beweisen, etwa durch Interpretation der Summanden als Mächtigkeiten geeigneter
Mengen.
46
Aufgabe 17. Sei (Ω, A, P ) ein W-Raum, Ω′ eine Menge und M ein Mengensystem,
das die σ-Algebra A′ = σ(M) auf Ω′ erzeugt.
(a) X : Ω −→ Ω′ ist meßbar genau dann, wenn X −1 (M) ∈ A für alle M ∈ M.
(b) Sind {A1 , . . . , An } ⊆ A unabhängig, I ⊆ {1, . . . , n}, Bi ∈ {Ai , Aci , ∅, Ω} für alle
i ∈ I, so sind auch {Bi , i ∈ I} unabhängig.
Aufgabe 18. Sei (Ω, A, P ) der uniforme W-Raum auf Ω = (0, 1) und betrachte die
Ereignisse
1
An = {x ∈ (0, 1) : x · 2n mod 1 ≤ }.
2
(a) Zeige, daß die Ereignisse (An )n∈N unabhängig sind mit P (An ) = P (Acn ) = 21 .
(b) Definiere Zufallsvariablen
Yn : Ω −→ Σ = {0, 1}
durch Yn (t) = 1An (t) . Begründe, daß die Folge der Yn ein gutes Modell für eine
unendliche Folge unabhängiger Würfe mit einer fairen Münze darstellt.
Aufgabe 19. Peter und Paul werfen wiederholt eine Münze. Wenn Kopf kommt, erhält
Peter einen Punkt, wenn Zahl kommt Paul. Wer zuerst N Punkte hat, gewinnt. Wie
groß ist Peters Gewinnwahrscheinlichkeit zu einem Zeitpunkt, an dem er m < N Punkte
hat und Paul n < N Punkte?
Formuliere ein stochastisches Modell durch Angabe einer geeigneten Zufallsvariable auf
dem in Aufgabe 16 eingeführten Wahrscheinlichkeitsraum.
Aufgabe 20. Ein Vorsorgetest zur Krebs-Früherkennung habe eine Zuverlässigkeit von
90%, d.h. bei einer krebskranken Testperson ist der Test mit Wahrscheinlichkeit 0,9
”positiv” (d.h. es wird der Verdacht auf Krebs ausgesprochen) und bei einer gesunden
Testperson ist der Test mit Wahrscheinlichkeit 0,9 ”negativ” (d.h. es wird kein Verdacht
ausgesprochen). Die Testperson T gehöre zu einer Altersgruppe, in der 0,5% krebskrank
sind. Für T verlaufe der Test positiv. Man berechne die Wahrscheinlichkeit, daß T
tatsächlich Krebs hat.
47
Aufgabe 21. Gib Beispiele für eine Borel-Menge Ω ⊆ R2 mit λ2 (Ω) = 1, so daß auf
dem uniformen Wahrscheinlichkeitsraum (Ω, B(Ω), λ2 |Ω ) die Zufallsvariablen
X : (x, y) 7−→ x
Y : (x, y) 7−→ y
(a) unabhängig sind, d.h. für alle Borelmengen A, B ⊆ R gilt
P (X ∈ A und Y ∈ B) = P (X ∈ A) · P (Y ∈ B)
(b) abhängig sind, d.h. es gibt Borelmengen A, B ⊆ R mit
P (X ∈ A und Y ∈ B) 6= P (X ∈ A) · P (Y ∈ B)
Aufgabe 22. (a) Seien X und Y unabhängige Zufallsvariablen mit Werten in N und
seien P und Q deren Wahrscheinlichkeitsverteilungen auf (N, P(N)), die durch
Wahrscheinlichkeitsfolgen (pi ), (qi ) gegeben sind, d.h. P ({i}) = pi und Q({i}) = qi .
Definiere
i
X
(p ∗ q)i =
pk qi−k .
k=0
Zeige, daß ((p ∗ q)i ) eine Wahrscheinlichkeitsfolge ist und daß die durch
P ∗ Q(A) =
X
(p ∗ q)i
i∈A
gegebene Wahrscheinlichkeitsverteilung die Verteilung von X + Y ist.
(b) Eine Zufallsvariable X heißt zum Parameter λ > 0 Poisson-verteilt 4 Poisson
k
oder kurz Poisson(λ)-verteilt, wenn P (X = k) = e−λ λk! für jedes k ∈ N. Seien X
und Y unabhängige Zufallsvariable, die Poisson-verteilt sind zu den Parametern
λX bzw. λY . Zeige mit Hilfe von a), daß X + Y Poisson-verteilt ist mit Parameter
λX + λY .
(c) Die Anzahl der Kinobesucher in Kino A sowie in Kino B sei Poisson-verteilt mit
Parameter λ. Weiterhin sei die Anzahl der Kinobesucher in dem einen Kino unabhängig von der Anzahl in dem anderen Kino. Es sei nun die Gesamtanzahl n der
Kinobesucher bekannt. Berechne unter dieser Vorkenntnis die Wahrscheinlichkeit,
daß sich in Kino A genau k Leute befinden.
Aufgabe 23. Zeige: Sind X1 , . . . , Xn unabhängig, so sind für jedes k auch die Vektoren
(X1 , . . . , Xk ) und (Xk+1 , . . . , Xn ) unabhängig.
Tip: Benutze den Eindeutigkeitssatz für Wahrscheinlichkeitsmaße.
4
Siméon-Denis Poisson (1781-1840), Schüler von Laplace
48
Aufgabe 24.
(a) Man nennt die Funktion
Z
Γ : (0, ∞) ∋ β 7→
0
∞
xβ−1 e−x dx ∈ R
die Gamma-Funktion. Für β > 0, λ > 0 und x ≥ 0 definiere
fβ,λ (x) :=
λβ xβ−1 e−λx
.
Γ(β)
Zeige, dass die Funktionen fβ,λ Dichten auf R+ sind.
Die zu fβ,λ gehörige Wahrscheinlichkeitsverteilung wird Gamma-Verteilung zum
Skalenparameter λ und Formparameter β genannt; geschrieben Gamma(β, λ).
(b) Zeige, dass für festes λ > 0 und beliebige α, β > 0 gilt fα,λ ⋆ fβ,λ = constfα+β,λ .
Da notwendigerweise const = 1 gilt, folgere hieraus die Identität
Z 1
Γ(α) · Γ(β)
=
(1 − x)α−1 xβ−1 dx
Γ(α + β)
0
und
Gamma(α, λ) ⋆ Gamma(β, λ) = Gamma(α + β, λ).
49
50
Kapitel 3
Erwartungswerte, Varianzen und
das schwache Gesetz der großen
Zahlen
3.1
Erwartungswerte: Definition und Eigenschaften
In diesem Kapitel wollen wir reellwertigen Zufallsvariablen einen mittleren Wert oder
Erwartungswert zuordnen. Dazu müssen wir ein wenig Integrationstheorie entwickeln.
Wir betrachten zunächst den Fall diskreter, nichtnegativer Zufallsvariablen, wo wir den
Erwartungswert als gewichtetes Mittel der möglichen Werte von X definieren können.
Definition 3.1. Ist X : Ω → [0, ∞] eine diskrete Zufallsvariable, d.h. die endlich oder
abzählbar unendlich viele paarweise verschiedene Werte {x1 , x2 , . . .} ⊆ [0, ∞] annimmt,
und ist pi = PX ({xi }), so setzen wir
EX =
∞
X
i=1
P (X = xi ) · xi =
∞
X
i=1
pi · xi
und nennen EX den Erwartungswert (’expectation’) von X. Dieser kann endlich
oder unendlich sein und hängt nur von der Verteilung von X ab.
Beispiele:
• Ist A ⊆ Ω ein beliebiges Ereignis und Y = 1A , so ist EY = P (A).
• Seien x1 , . . . , xn nicht notwendig verschiedene reelle Daten. Dann nennt man die
Verteilung die jeden Wert xi proportional zur Häufigkeit seines Auftretens unter den x1 , . . . , xn gewichtet, die empirische Verteilung dieses Datenvektors.
Wenn, aber nur wenn die xi paarweise verschieden sind, ist die empirische Verteilung die Laplace-Verteilung auf der Menge {x1 , . . . , xn }. Wenn eine Zufallsvariable X gemäß der
Verteilung der x1 , . . . , xn verteilt ist, dann ist
Pempirischen
n
EX = x := (1/n) i=1 xi . Das arithmetische Mittel ist daher Spezialfall einer
Erwartungswertbildung. Sei etwa eine Population von n Personen gegeben und
51
xi das Alter in Jahren der i-ten Person. Dann ist das mittlere Alter in dieser
Population gerade der Erwartungswert einer zufällig aus der Population herausgesuchten Person.
• Ist X binomialverteilt zu den Parametern n und p, so ist
n n h i
X
X
n − 1 k−1
n k
n−k
p (1 − p)(n−1)−(k−1) = np
p (1 − p)
· k = np
EX =
k−1
k
k=1
k=0
nach der binomischen Formel.
• In den Übungen haben wir zum Parameter λ > 0 Poisson–verteilte Zufallsvariablen X : Ω → N kennengelernt. Für sie gilt
P (X = k) = exp(−λ)
λk
.
k!
Dann ergibt sich für den Erwartungswert
∞
∞
X
X λi
λk
exp(−λ)
· k = exp(−λ)λ
= λ.
EX =
k!
i!
i=0
k=1
Bemerkung Sind X, Y zwei diskrete nicht-negative Zufallsvariable auf dem gleichen
Wahrscheinlichkeitsraum, so ist E(X + Y ) = E(X) + E(Y ). Seien nämlich x1 , x2 , . . .
und y1 , y2, . . . die jeweils paarweise verschiedenen Werte von X und Y . Sei z1 , z2 , . . .
eine Aufzählung aller verschiedenen Werte der Form xi + yj . Dann ist
X
X
E(X) + E(Y ) =
xi P (X = xi ) +
yj P (Y = yj )
i
=
X
i
=
X
xi
X
X
m
=
X
P (X = xi , Y = yj ) +
j
X
yj
j
X
P (X = xi , Y = yj )
i
(xi + yj )P (X = xi , Y = yj )
i,j
=
j
zm
X
P (X = xi , Y = yj )
i,j:xi+yj =zm
zm P (X + Y = zm ) = E(X + Y ).
m
Im nächsten Satz werden wir eine alternative Formel für den Erwartungswert durch
ein Integral herleiten, die zwar im Zusammenhang mit diskreten Verteilungen etwas
künstlich aussieht, aber den Vorteil hat, dass sie sich direkt auch auf beliebige nichtnegative Zufallsvariable verallgemeinern läßt.
Satz 3.2. Für eine Zufallsvariable, die endlich oder abzählbar unendlich viele nichtnegative Werte {x1 , x2 , . . .} ⊆ [0, ∞] annimmt, gilt
Z ∞
EX =
P ({ω : X(ω) > t}) dt .
0
52
Beweis: Es gilt
EX =
∞
X
pi xi =
i=1
∞
X
i=1
pi
Z
∞
1(0,xi ) (t) dt =
0
Z
0
∞
X
{i:xi >t}
pi dt =
Z
∞
P ({X > t}) dt .
0
Diese Formel nutzen wir nun zur allgemeinen Definition des Erwartungswertes für
nichtnegative Zufallsvariable.
Definition 3.3. Ist X : Ω → [0, ∞] eine beliebige nichtnegative Zufallsvariable, so
setzen wir
Z ∞
Z ∞
Z ∞
EX =
P ({ω : X(ω) > t}) dt =
(1 − PX ((−∞, t])) dt =
(1 − F (t)) dt ,
0
0
0
wobei F die Verteilungsfunktion von PX ist. Wir nennen EX den Erwartungswert
von X. Der Erwartungswert kann endlich oder unendlich sein und hängt nur von der
Verteilung von X ab.
Beispiel: Ist X eine zum Parameter λ > 0 exponentialverteilte Zufallsvariable, so
erhalten wir für den Erwartungswert
Z ∞
1
EX =
exp(−λx) dx = .
λ
0
R
Bemerkung: In den meisten Lehrbüchern wird EX als Ω X dP definiert, wobei
die Definition des Intergrals auf allgemeinen Maßräumen als bekannt vorausgesetzt
wird. Unsere Definition setzt nur das eindimensionale Lebesgue-Integral voraus. Für
diejenigen Leser, die die allgemeinen Begriffe kennen, geben wir hier den Nachweis der
Äquivalenz dieser Definitionen: Nach dem Satz von Fubini der Maßtheorie ist in der
Tat
Z
Z Z ∞
Z ∞Z
Z ∞
X dP =
1[0,X(ω)) (t) dt dP =
1(t,∞) (X(ω)) dP dt =
(1 − F (t)) dt.
Ω
Ω
0
0
Ω
0
Es wird also die Größe der unter dem Graphen von X liegenden Menge {(t, ω) ∈
R+ × Ω : t < X(ω)} bezüglich des Produktmaßes λ1 ⊗ P auf verschiedene Weise
bestimmt.
Wir fassen im folgenden die grundlegenden Eigenschaften des Erwartungswertes für
nichtnegative Zufallsvariable zusammen.
Satz 3.4. Für für nichtnegative Zufallsvariable gelten
a) Ist X = 1A so ist EX = P (A).
b) E(aX + bY ) = aEX + bEY für alle a, b ≥ 0.
c) (monotone Konvergenz) Ist (Xn ) eine nicht-fallende Folge von ZV ≥ 0 mit X =
limn Xn , so gilt E(X) = limn E(Xn ).
53
Durch diese drei Eigenschaften ist der Erwartungswert von nichtnegativen Zufallsvariablen eindeutig charakterisiert.
Beweis: a) Dies haben wir schon eingangs bemerkt.
c) Wir ziehen den Beweis von c) vor, weil wir diese Aussage beim Beweis von b)
verwenden wollen. Für jedes t ≥ 0 ist das Ereignis {X > t} die aufsteigende Vereinigung
der Ereignisse {Xn > t}. Also ist P (X > t) = limn P (Xn > t). Mit dem Satz von der
monotonen Konvergenz für das Lebesgue-Integral gilt daher
Z ∞
Z ∞
lim E(Xn ) = lim
P (Xn > t) dt = lim
lim P (Xn > t) dt
n
n
n
n
0
0
Z ∞
= lim
P (X > t) dt = EX.
n
0
b) Es gilt mit der Substitutionsformel für a > 0
Z ∞
Z ∞
t
P ({X > s}) ds = a · EX .
E(aX) =
P ({X > }) dt = a
a
0
0
Es bleibt also nur noch die Additivität zu zeigen. Für diskrete Zufallsvariable ist sie
schon bewiesen. Für den allgemeinen Fall betrachte für X die approximierenden Zufallsvariablen Xn wobei Xn = 2kn falls 2kn ≤ X < k+1
. Der Wert Xn ist also das
2n
untere Ende desjenigen dyadischen Intervalls der Ordnung n, das X enthält. Dann
ist offenbar Xn ≤ Xn+1 , da jede dyadische Intervallzerlegung eine Verfeinerung der
vorangegangenen ist. Ferner ist X − Xn ≤ 2−n. Also sind die Voraussetzungen von
Teil c) erfüllt, dh. es gilt EXn → EX. Analog können wir Yn zu Y definieren. Dann
bildet die Folge Xn + Yn eine monotone Approximation von X + Y und es folgt
EX + EY = limn EXn + limn EYn = lim E(Xn + Yn ) = E(X + Y ).
Schließlich zur Eindeutigkeitsaussage:
Durch a) und b) ist der Erwartungswert für alle
P
ZV der Form X = ni=1 ai 1Ai eindeutig bestimmt, also für alle nichtnegativen X, die
nur endlich viele Werte annehmen. Durch monotonen Grenzübergang mit Eingschaft
c) erweitert sich diese Aussage auf abzählbar viele Werte. Dann ergibt sich die Eindeutigkeit für ein beliebiges X ≥ 0, indem man X wieder wie im Beweis der Addititvität
monoton durch diskret verteilte Xn approximiert.
Ferner gelten
Satz 3.5.
a) Ist P (X = Y ) = 1, so ist EX = EY .
b) Ist X ≤ Y , so ist EX ≤ EY .
c) Ist X = a konstant, so ist EX = a.
d) (Markovsche Ungleichung)
1
P (X ≥ a) ≤ a1 EX für alle a > 0.
e) Ist EX = 0 und X ≥ 0, so ist P (X = 0) = 1.
1
Andrej Andreewič Markov (1856-1922), Schüler von Čebyšëv
54
f ) Ist EX < ∞, so ist P (X < ∞) = 1.
Beweis: a) ist klar, da der Erwartungswert nur von der Verteilung der ZV abhängt.
b) Ist X ≤ Y , so ist P (X > t) ≤ P (Y > t) und daraus folgt die Behauptung durch die
Monotonie des Lebesgue–Integrals.
c) Ist X = a konstant, dann ist EX = Ea1Ω = aP (Ω) = a.
d) Sei A = {X ≥ a}. Dann ist X ≥ a auf A und X ≥ 0 auf Ac also zusammen X ≥ a1A
und damit aP (A) = E(a1A ) ≤ EX. Division durch a liefert die Behauptung.
e) Sei EX = 0. Nach der Markovschen Ungleichung gilt für jedes n ∈ N P (X ≥ 1/n) ≤
nEX = 0 und damit P (X > 0) = limn P (X ≥ 1/n) = 0.
f) Wieder wegen der Markovschen Ungleichung gilt P (X = ∞) = limn P (X ≥ n) ≤
limn 1/nEX = 0.
Durch Kombination der endlichen Additivität mit der monotonen Konvergenz erhalten
wir außerdem
Korollar 3.6. Für jede Folge von nichtnegativen Zufallsvariablen X1 , X2 , . . . gilt
E
∞
X
Xi =
i=1
∞
X
EXi .
i=1
Wir können schließlich dank Satz 3.4 auch Erwartungswerte für viele reellwertige Zufallsvariablen mit negativen Werten definieren.
Definition 3.7. Ist X : Ω → R eine reellwertige Zufallsvariable, so definieren wir
einen Positivteil durch
X(ω) wenn X(ω) ≥ 0,
+
X (ω) =
0
wenn X(ω) < 0,
und einen Negativteil
−
X (ω) =
−X(ω) wenn X(ω) < 0,
0
wenn X(ω) ≥ 0.
Wenn nun EX + < ∞ und EX − < ∞, so heißt die Zufallsvariable integrierbar und
wir sagen, daß der Erwartungswert von X existiert. Er ist definiert durch
EX = EX + − EX − .
Für eine nichtnegative oder integrierbare Zufallsvariable schreiben wir auch
Z
Z
EX = X dP = X(ω) dP (ω) .
Bemerkung 3.8. Auch in dieser Situation hängt EX nur von der Verteilung von X
ab, da die Verteilung von X die Verteilungen von X + und X − festlegt. Ferner ist EX
wieder linear als Funktion der integrierbaren ZV X. Schlißlich gilt |EX| ≤ E|X|.
55
Beweis: Die Homogenität EaX = aEX ergibt sich zunächst für a ≥ 0 und dann auch
durch Spiegelung für a < 0 unmittelbar aus Satz 3.4 b) und der Definition. Zum
Nachweis der Additivität seien X, Y integrierbar und Z = X + Y . Dann ist Z + − Z − =
Z = X + − X − + Y + − Y − und damit Z + + X − + Y − = Z − + X + + Y + . Die Additivität
für nicht negative ZV und Umordnen liefert die gewünschte Beziehung
EZ = EZ + − EZ − = EX + − EX − + EY + − EY − = EX + EY.
Die Abschätzung über den Betrag ergibt sich aus der Dreiecksungleichung für reelle
Zahlen:
|EX| = |EX + − EX − | ≤ EX + + EX − = E(X + + X − ) = E|X|.
In Abschnitt 3.3 werden wir noch einmal allgemein Erwartungswerte von Zufallsvariablen mit Dichte untersuchen. Zum Abschluß dieses Abschnitts noch einige Bemerkungen zum Erwartungswert als Kenngröße einer eindimensionalen Verteilung.
1. Man betrachtet den Erwartungswert einer Zufallsvariable oft als Zentrum ihrer Verteilung. Dementsprechend heißt eine Zufallsvariable X zentriert (’centered’), wenn
EX = 0. Ist X integrierbar, so ist X ′ = X − EX zentriert.
2. Eine Wahrscheinlichkeitsverteilung über R läßt sich veranschaulichen durch eine
Masseverteilung der Gesamtmasse 1. Wir illustrieren dies an einer diskreten Wahrscheinlichkeitsverteilung. Sie ist gegeben durch die Gewichte p1 , p2 , . . . und die verschiedenen Werte x1 , x2 , . . ., die die Stellen angeben, wo die Gewichte liegen. Der Schwerpunkt m einer solchen Massenverteilung läßt sich dadurch bestimmen, dass man die
Achse an der Stelle m unterstützt und die Gewichte links und rechts von m sich nach
dem Hebelgesetz die Waage halten. Dabei übt das Gewicht pi das an dem Punkt xi > m
angebracht ist, ein Drehmoment vom Betrag pi (xi − m) aus und entsprechend hat im
Fall xi < m das Drehmoment den Betrag pi (m − xi ). Ein Gewicht an der Stelle m übt
kein Drehmoment aus. Die den Schwerpunkt m charakterisierende Gleichgewichtsbedingung lautet also
X
X
pi (m − xi ) =
pi (xi − m).
Wegen
P
i
i:xi <m
i:xi >m
pi = 1 ist dies aber äquivalent zu der Bedingung
X
pi xi = m.
i
Also ist der Erwartungswert einfach der Schwerpunkt dieser Massenverteilung!
3. Eine wesentliche Eigenschaft des Erwartungswerts ist, dass er sehr empfindlich gegenüber dem Auftreten von Ausreißern in der Verteilung reagiert. Wenn einer der Werte
xi sehr weit von m entfernt ist, dann braucht es im Sinn der Waage nur ein geringes
Gewicht pi an dieser Stelle, um ein großes Gewicht auf der anderen Seite von m zu
kompensieren, das nah an m plaziert ist. Dieser Effekt ist manchmal nützlich, führt
56
aber gelegentlich zu Verfälschungen, wenn der Erwartungswert als Kenngröße für das
Zentrum der Verteilung benutzt wird. So ist etwa die mittlere Studiendauer einer Universität (dh. die erwartete Studiendauer eines rein zufällig ausgewählten Studierenden)
nur sehr eingeschränkt als Maßstab für die Effizienz des Studiums an dieser Universität
verwendbar. Aus diesen und ähnlichen Gründen wird in solchen Überlegungen oft der
Erwartungswert durch den Median ersetzt. Er unterdrückt den Einfluß der Entfernung.
Er bezeichnet einen Punkt, von dem aus gesehen links und rechts sich je die Hälfte der
Wahrscheinlichkeitsmasse befindet. Da sich an dieser Stelle selber ein positives Gewicht
befinden kann, ist die genaue Definition etwas komplizierter.
Definition 3.9. Eine Zahl γ heißt Median (median) einer eindimensionalen Wahrscheinlichkeitsverteilung P (bzw. einer Zufallsvariablen X mit dieser Verteilung), wenn
P ((−∞, m]) ≥ 12 und P ([m, +∞)) ≥ 21 .
Beispiele 1. γ = 12 ist der Median der Gleichverteilung auf dem Einheitsintervall.
2. γ = log(2)/λ ist der Median der Exp(λ)-Verteilung.
3. Sei P die Würfelverteilung: P (A) = #(A ∩ {1, . . . , 6})/6. Dann ist jede Zahl γ mit
3 < γ < 4 ein Median von P .
3.2
Varianzen und die Čebyšëvsche Ungleichung
Die Varianz ist eine Größe, die uns die erwartete (bzw. mittlere) quadratische Abweichung einer Zufallsvariable von ihrem Erwartungswert angibt. Sie kann wie folgt
definiert werden:
Definition 3.10. Ist X eine integrierbare Zufallsvariable, so heißt
i
h
2
Var X = E (X − EX)
√
die Varianz (variance) von X und σ(X) = Var X die Streuung oder Standardabweichung (standard deviation) von X. Die Varianz hängt nur von der Verteilung
von X ab. Man erhält auch (Steinerscher Verschiebungssatz)
i
h
Var X = E X 2 − 2XEX + (EX)2 = E(X 2 ) − (EX)2 .
Allgemeiner nennt man für k ∈ N (falls existent) E|X − EX|k das k–te zentrierte,
absolute Moment von X. Die Varianz ist also das zweite zentrierte Moment.
Bemerkung: Es gilt Var(aX) = a2 Var X und dementsprechend σ(aX) = |a|σ(X).
Beispiele: 1. Sei X verteilt gemäß der empirischen Verteilung der Daten x1 , . . . , xn .
Dann ist (vgl. das entsprechende Beispiel zum Erwartungswert zu Beginn des Kapitels)
n
n
1X
1X 2
Var X =
(xi − x̄)2 =
x − x̄2 .
n i=1
n i=1 i
57
Diese Zahl bezeichnet man auch mit dem Symbol √σ̂ 2 und nennt sie die empirische
Varianz dieser Daten. Dementsprechend ist σ̂ = σ̂ 2 ihre empirische Streuung. Aus
Gründen, die wir im nächsten Kapitel unter dem Stichwort Erwartungstreue (vgl. Definition 4.5) besprechen, wird zur Charakterisierung der Streuungsbreite der empirischen
Werte statt der Größe σ̂ 2 oft, etwa in Taschenrechnern fest einprogrammiert, die leicht
modifizierte Größe
n
1 X
2
s =
(xi − x̄)2
n − 1 i=1
benutzt.
2. Wir wollen den Erwartungswert und die Varianz einer auf (−a, a) uniform verteilten
Zufallsvariable X bestimmen. Wenn wir auf die Definition zurückgehen, schreiben wir
zunächst X = X + − X − und berechnen für beide Teile die Erwartungswerte. (Übrigens
beachte dass X + und X − keine Dichte haben, aber auch nicht diskret verteilt sind.)
Einfacher ist jedoch die Beobachtung, dass X und −X die gleiche Verteilung haben.
Daher ist EX = E(−X) = −EX und damit EX = 0. Um die Varianz zu berechnen
benötigen wir √
die Verteilungsfunktion von X 2 . Diese ist für 0 ≤ x ≤ a2 gerade G(x) =
2
P (X ≤ x) = x/a und für die Varianz folgt
Z a2
√
2
Var X = E(X ) =
1 − x/a dx = a2 − 2/3 · a3 /a = a2 /3 .
0
Die Varianz ist also umso größer, je größer a ist.
Der folgende einfache, aber oft wichtige Satz gibt eine grobe Abschätzung, mit welcher
Wahrscheinlichkeit wir große Abweichungen vom Erwartungswert beobachten — die
Schranke wird umso besser, je kleiner die Varianz ist. Beachte, dass die Abschätzung
wertlos, weil trivial, ist für ε ≤ σ(X), denn dann ist die rechte Seite ja ≥ 1, während
auf der linken Seite eine Wahrscheinlichkeit steht.
Satz 3.11. (Čebyšëvsche Ungleichung) 2
Für jede quadratisch integrierbare reelle Zufallsvariable gilt
P ({|X − EX| ≥ ε}) ≤
Var X
.
ε2
Beweis: Wir betrachten die nicht negative Zufallsvariable Y = (X − EX)2 und wenden
die Markovsche Ungleichung an auf Y und a = ε2 : Es folgt
P ({|X − EX| ≥ ε}) = P ({Y ≥ ε2 }) ≤
Var X
1
EY =
.
2
ε
ε2
Folgerung 3.12. Ist Var(X) = 0 so ist X fast sicher konstant.
Beweis: Die obige Ungleichung zeigt P (|X − EX| ≥ n1 ) = 0 für jedes n ∈ N. Die
Stetigkeit der Wahrscheinlichkeit impliziert P (X 6= EX) = 0.
2
Pafnutij L’vovič Čebyšëv (1821-1894)
58
3.3
Nochmal: Verteilungen mit Dichte
Wenn X eine Verteilung mit Dichte hat, kann man den Erwarungswert und die Varianz
durch eine Integration bezüglich der Dichte berechnen. Es gilt:
Satz 3.13. Sei X eine Zufallsvektor mit der Dichte fX : Rd → [0, ∞]. Die Funktion
g : Rd → R sei Borelsch.
R Genau dann hat die Zufallsvariable g(X) einen endlichen
Erwartungswert, wenn Rd |g(x)|fX (x) dx < ∞. In diesem Fall ist
Z
E(g(X)) =
g(x)fX (x) dx.
Rd
Insbesondere gilt im Fall d = 1 —falls der Erwartungswert existiert—
Z
Z
2
EX = x · f (x) dx und EX = x2 · f (x) dx .
Dann ist
2
2
Var X = EX − (EX) =
Z
2
x · f (x) dx −
Z
2
x · f (x) dx .
Beweis: Sei Y = g(X). Wegen Y ± = g ± (X) und der Tatsache, dass die Definition des
Erwartungswerts auf den nicht-negativen Fall zurückgeführt wird, können wir g ≥ 0
voraussetzen. Wir verwenden einem kleinen logischen Trick und fassen g selber als Zufallsvariable auf dem Wahrscheinlichkeitsraum (Rd , Bd , PX ) auf. Dann ist die Verteilung
von g gegeben durch
L(g)(B) = PX (g ∈ B) = P (g(X) ∈ B),
also hat die ZV g auf diesem neuen W-Raum die gleiche Verteilung und daher den
gleichen Erwatungswert wie Y = g(X). Also ist
Z
E(Y ) = EPX (g) =
g(x)fX (x) dx.
Rd
Warum gilt hier die zweite Gleichheit? Erstens ist für g = 1A mit A ∈ Bd tatsächlich
Z
Z
EPX (1A ) = PX (A) =
fX (x) dx =
1A (x)fX (x) dx,
Rd
A
R
andererseits ist die Zuordnung g 7→ Rd g(x)fX (x) dx additiv und positiv homogen
und sie ist nach dem Satz über monotone Konvergenz des Lebesgue-Integrals stetig
bei monotonen Grenzübergängen gn ↑ g. Da der Erwartungswert bezüglich PX aber
durch diese drei Eigenschaften eindeutig bestimmt ist, folgt die erste Behauptung. Die
angegebenen eindimensionalen Formeln sind offensichtliche Spezialfälle.
Beispiel: Ist X eine zum Parameter λ > 0 exponentialverteilte Zufallsvariable, so
erhalten wir durch zweimaliges partielles Integrieren
Z ∞
Z ∞
1
λ
2
x · λ exp(−λx) dx =
2 · 2 exp(−λx) dx = 2 · 2 .
λ
λ
0
0
Also ist Var X = 2 ·
1
λ2
−
1
λ2
=
1
.
λ2
59
3.4
Erwartungswert, Kovarianz und Unabhängigkeit
Wir wollen hier erstmals Produkte von Zufallsavariablen studieren. Es ist nicht schwer
einzusehen, daß für X : Ω → R und Y : Ω → R auch X · Y : Ω → R mit X · Y (ω) =
X(ω) · Y (ω) eine Zufallsvariable (also meßbar) ist.
Definition 3.14. Sind X und Y zwei Zufallsvariablen, die auf demselben Wahrscheinlichkeitsraum definiert sind, so heißt (falls existent)
h
i
Cov(X, Y ) = E (X − EX)(Y − EY )
die Kovarianz(’covariance’) von X und Y . Die Kovarianz hängt nur von der gemeinsamen Verteilung (!) von X und Y ab. Offenbar ist Var X = Cov(X, X). Ist
Cov(X, Y ) = 0, so heißen X und Y unkorreliert (’uncorrelated’)
Bemerkung 3.15. a) Die Kovarianz ist symmetrisch: Cov(X, Y ) = Cov(Y, X).
b) Die Kovarianz ist linear in beiden Variablen, z.B. gilt für alle a, b ∈ R, dass
Cov(aX + bX ′ , Y ) = aCov(X, Y ) + bCov(X ′ , Y ).
c) Cov(X, X) = Var(X).
Definition 3.16. Die durch
ρ(X, Y ) =
Cov(X, Y )
,
σ(X)σ(Y )
(bzw. ρ(X, Y ) = 0, falls der Nenner verschwindet) definierte Zahl heißt Korrelationskoeffizient (’correlation coefficient’) von X und Y .
Satz 3.17. Es gilt die Cauchy-Schwarz-Ungleichung |Cov(X, Y )| ≤ σ(X)σ(Y ), und
damit −1 ≤ ρ(X, Y ) ≤ 1.
Beweis: Ist σ(X) = 0 oder σ(Y ) = 0, so ist X = EX oder Y = EY fast sicher, also
Cov(X, Y ) = 0. Ist dagegen σ(X) = σ(Y ) = 1, dann gilt
0 ≤ Var(X−Y ) = Cov(X−Y, X−Y ) = σ 2 (X)−2Cov(X, Y )+σ 2 (Y ) = 2−2Cov(X, Y ),
dh. Cov(X, Y ) ≤ 1. Indem wir eventuell X durch −X ersetzen, ergibt sich die gleiche
Abschätzung auch für |Cov(X, Y )|.
3. Sei schließlich allgemein σ(X) > 0 und σ(Y ) > 0. Sei X ′ = X/σ(X) und Y ′ =
Y /σ(Y ). Dann ist σ(X ′ ) = σ(Y ′ ) = 1 und wir erhalten aus dem zweiten Schritt
|Cov(X, Y )|
= |Cov(X ′, Y ′ )| ≤ 1,
σ(X)σ(Y )
und daraus die Behauptung.
Positive Korrelation zwischen X und Y bedeutet dass die positiven Werte bei der
Bildung des Erwartungswertes in der Definition der Kovarianz überwiegen. Das bedeutet, dass wenigstens eine schwache Tendenz dazu besteht, dass bei den beiden ZV
60
die Abweichung von ihrem jeweiligen Erwartungswert in die gleiche Richtung gehen,
dh. beide Abweichungen positiv oder beide negativ sind. Die beiden ZV nehmen also
eher gleichzeitig überdurchschnittliche Werte an oder gleichzeitig unterdurchschnittliche Werte. Umgekehrt bedeutet eine negative Korrelation, dass die Abweichungen von
den jeweiligen Erwartungswerten eher in unterschiedliche Richtungen gehen.
Positive Korrelation zwischen X und Y wird oft interpretiert als ein kausaler verstärkender Einfluß der beiden Größen aufeinander. Dies führt aber häufig in die Irre. Ein
anschauliches Beispiel ist folgendes: Wenn X den Blutdruck einer zufällig gewählten
Person ist und Y das Einkommen dieser Person, so ist empirisch eine positive Korrelation zwischen X und Y beobachtet worden. Verstärkt das Einkommen den Blutdruck
oder umgekeht? Nein! Es sind nur sowohl Einkommen als auch Blutdruck der Tendenz
nach steigend mit zunehmendem Alter. Wenn etwa eine zufällig gewählte Person (Herr
oder Frau ω) überdurchschnittliches Einkommen hat, ist in der Regel anzunehmen,
dass sie schon über 25 Jahre alt ist, und in dem entsprechenden Bevölkerungsteil ist
der durchschnittliche Blutdruck eben höher als in der Gesamtbevölkerung, bei der z.B.
auch die Kinder berücksichtigt sind.
Wir wollen zeigen dass aber unabhängige integrierbare Zufallsvariable unkorreliert sind.
Dazu halten wir zunächst folgende wichtige Beobachtung fest:
Lemma 3.18. Sind X und Y unabhängige reellwertige Zufallsvariablen und f, g :
R → [0, ∞] meßbar, so sind auch die Verknüpfungen f ◦ X und g ◦ Y unabhängige
Zufallsvariablen.
Beweis: Für alle A1 , A2 ∈ B(R) gilt
P f (X) ∈ A1 und g(Y ) ∈ A2 = P X ∈ f −1 (A1 ) und Y ∈ g −1 (A2 )
= P X ∈ f −1 (A1 ) · P Y ∈ g −1(A2 )
= P f (X) ∈ A1 · P g(Y ) ∈ A2 .
Wir erhalten die Multiplikationsregel für den Erwartungswert von unabhängigen Zufallsvariablen.
Satz 3.19. Sind X und Y unabhängige integrierbare Zufallsvariablen, so gilt für die
Erwartungswerte
E X · Y = EX · EY .
Insbesondere sind unabhängige Zufallsvariablen, deren Erwartungswerte existieren, auch
unkorreliert.
Beweis: Auch dieses Ergebnis ist ein Spezialfall des Satzes von Fubini für allgemeine
Maße. Wenn wir diesen nicht verwenden wollen, können wir zum Beispiel wie folgt
61
argumentieren. Wir betrachten zunächst den Fall unabhängiger nichtnegativer Zufallsvariablen X, Y . Dann sind auch die diskreten Approximationen Xn und Yn , die wir im
Beweis der Additivität in Satz 3.4 b) verwendet haben, als Funktionen von X und Y
unabhängig. Sei jetzt n fest. Seien xi die Werte von Xn , yj die Werte von Yn und (zm )
alle verschiedenen Produkte xi yj . Dann ist analog zum Beweis der Additivität
X
X
E(Xn )E(Yn ) =
xi P (X = xi )
yj P (Y = yj )
=
X
i
j
(xi yj )P (X = xi )P (Y = yj )
i,j
=
X
(xi yj )P (X = xi , Y = yj )
i,j
=
X
m
=
X
zm
X
P (X = xi , Y = yj )
i,j:xi yj =zm
zm P (XY = zm ) = E(Xn Yn ).
m
Dabei haben wir in der dritten Gleichung wesentlichen Gebrauch der Unabhängigkeit
gemacht. Durch monotonen Grenzübergang erhalten wir auch E(XY ) = EXEY . Sind
X und Y beliebige unabhängige integrierbare Zufallsvariable, so folgt aus EXY =
EX + Y + − EX + Y − − EX − Y + + EX − Y − und der Tatsache, daß diese Paare jeweils
unabhängig sind, daß
EXY = EX + EY + − EX + EY − − EX − EY + + EX − EY − = EX · EY .
Schließlich folgt aus dieser Gleichung
Cov(X, Y ) = E(XY ) − E X(EY ) − E (EX)Y − (EX)(EY ) = 0 .
Bemerkung: Satz 3.19 gilt auch für Produkte von endlich vielen unabhängigen Zufallsvariablen, dies folgt per Induktion aus obigem, wenn man beachtet, daß aus der
Unabhängigkeit von X1 , . . . , Xn auch die Unabhängigkeit von X1 · · · Xn−1 und Xn folgt.
Unabhängige Zufallsvariablen sind unkorreliert, aber die Umkehrung dieser Aussage
gilt nicht. Der Begriff der Unabhängigkeit ist der wahrscheinlichkeitstheoretische richtige Begriff, um die gegeinseitige Einflußnahme der Zufallsvariablen zu beschreiben,
Unkorreliertheit hat aber gegenüber der Unabhängigkeit den Vorzug der leichteren
statistischen Nachweisbarkeit. Im Fall der Unabhängigkeit gilt nicht nur die Unkorreliertheit sondern auch noch die folgende stärkere Aussage:
Korollar 3.20. Sind X und Y unabhängige reellwertige Zufallsvariablen und f, g :
R → [0, ∞] meßbar, so sind alle integrierbaren Verknüpfungen f ◦ X und g ◦ Y unkorreliert.
62
Eine wichtige Folgerung aus diesem Satz ist die folgende Gleichung3 . Man kann sie
auffassen als den Satz von Pythagoras im Raum von zufälligen Fluktuationen.
Satz 3.21. (Additionssatz für Varianzen, Gleichung von Bienaymé)
Sind X1 , . . . , Xn unabhängig und integrierbar, so gilt für die Varianzen
Var
n
X
i=1
Xi =
n
X
Var Xi .
i=1
Beweis: Es gilt unter Verwendung der obigen Formel
h
i2
Var(X1 + X2 ) = E(X1 + X2 )2 − E(X1 + X2 )
= EX12 + 2E(X1 X2 ) + EX22 − (EX1 )2 − 2EX1 EX2 − (EX2 )2
= EX12 − (EX1 )2 + EX22 − (EX2 )2 = Var X1 + Var X2 .
Der Rest folgt durch Induktion.
Beispiel: Wir berechnen die Varianz der Binomial-Verteilung zu den Parametern n und
p mit Hilfe des Satzes von Bienaymé. Betrachte den Wahrscheinlichkeitsraum (Ω, A, P )
mit Ω = {0, 1}n , A = P(Ω) und P ({x}) = pi q n−i, wobei q = 1 − p und i die Anzahl
der Einsen im Tupel x ∈ Ω ist. Die Zufallsvariablen Xi (x) = xi sind dann unabhängig
und identisch
verteilt mit P (Xi = 1) = p und P (Xi = 0) = q. Die Zufallsvariable
Pn
Sn = i=1 Xi ist binomialverteilt zu den Parametern n und p. Da
Var Xi = EXi2 − (EXi )2 = p − p2 = p(1 − p) = pq ,
folgt mit dem Satz von Bienaymé, daß Var Sn = npq.
3.5
Das schwache Gesetz der großen Zahlen
Gesetze der großen Zahlen sagen aus, daß bei häufiger unabhängiger Wiederholung
eines Zufallsexperiments der Mittelwert der beobachteten Größen in einem geeigneten
Sinn gegen den Erwartungswert streben. Im Falle des schwachen Gesetzes zeigt man,
daß die Wahrscheinlichkeit einer Abweichung des Mittelwertes von Erwartungswerts
klein ist.
Satz 3.22. (Schwaches Gesetz der großen Zahlen)
Seien X1 , . . . , Xn : Ω → R unabhängige, integrierbare Zufallsvariablen mit gleichem
Erwartungswert EXi = EX1 und gleichmäßig beschränkter Varianz Var Xi ≤ M < ∞
für alle i. Dann gilt
3
n
1 X
M
Xi − EX1 | ≥ ε ≤ 2 → 0 für n → ∞.
P n i=1
εn
Bienaymé, Irénée-Jules (1796-1878)
63
Beweis: Betrachte die Zufallsvariable X =
letzten Abschnittes EX = EX1 und
1
n
Pn
i=1
Xi . Dann gilt nach den Sätzen des
n
M
1 X
Var Xi ≤
.
Var X = 2
n i=1
n
Nach der Čebyšëvschen Ungleichung gilt
n
Var X
1 X
M
Xi − EX1 | ≥ ε = P |X − EX| ≥ ε ≤
≤ 2 .
P 2
n i=1
ε
εn
Anwendungen: 1. Das Gesetz der großen Zahlen liefert eine Erklärung dafür, daß
ei häufigen unabhängigen identischen Wiederholungen eines bestimmten Experiments
die relative Häufigkeit des Eintretens eines Ereignisses meist nahe bei der Wahrscheinlichkeit des Ereignisses liegt. Man kann also Wahrscheinlichkeiten durch wiederholte
Beobachtung messen!
a) Betrachte etwa das Modell für das n–fache unabhängige Werfen einer Münze. Ist
Ak das Ereignis “Kopf im k-ten Münzwurf”, so sind die Zufallsvariablen Yk = 1Ak
unabhängig mit EYk = P (Ak ) = 1/2 und
Dann ist 1/n
Pn
Var Yk = EYk2 − (EYk )2 = P (Ak ) − P (Ak )2 = 1/4 .
i=1
Yi die relative Häufigkeit von Kopf in unserem Beispiel, und
n
1 X
1
Yi − P (A1 ) ≥ ε ≤
→ 0 für n → ∞.
P n i=1
4nε2
Also ist für große n die Wahrscheinlichkeit einer wesentlichen Abweichung der relativen
Häufigkeit von Kopf von der Wahrscheinlichkeit 1/2 klein.
b) Wir illustrieren, im partiellen Vorgriff auf das nächste Kapitel diese Abschätzungen
an einer Meinungsumfrage und gehen davon aus, dass man aus einer Gesamtpopulation
von N Leuten eine Stichprobe von n Personen zufällig aussucht und ihnen eine Ja/NeinFrage stellt. Man kann diese Fragen durch ein Ziehen aus einer Urne modellieren, wobei
man im Fall N >> n zur Vereinfachung Ziehen mit Zurücklegen ansetzen darf, so
dass die Fragen der Personen in der Stichprobenmenge als unabhängig voneinander
angesehen werden
Pn können. Ist Ai das Ereignis, dass Person i Ja sagt, und ist Xi = Ai
so ist Sn =
i=1 die absolute Anzahl der Ja-Sager in der Stichprobe. Wenn p der
Anteil der Ja-Sager in der Gesamtpopulation ist, dann ist L(Sn ) = Bin(n, p). Sei nun
p̂ = Snn der relative Anteil der Ja-Sager in der Stichprobe. Dann gilt also nach der
Čebyšëvschen Ungleichung
P (|p̂ − p| ≥ ε) ≤
64
p(1 − p)
.
nε2
Wenn n groß genug ist, approximiert der beobachtete Wert p̂ die tatsächlichen Wert
p bis auf ε genau, allerdings nur mit einer durch diese Ungleichung gegebenen Fehlerwahrscheinlichkeit. Die entscheidende Größe hierbei ist das Produkt nε2 . Wenn man
die Grenze der Irrtumswahrscheinlichkeit bei vorgegebenem ε halbieren will muss man
also den Stichprobenumfang verdoppeln. Wenn man dagegen bei gleicher Irrtumswahrscheinlichkeit das Toleranzintervall halbieren will, muss man den Stichprobenumfang
sogar vervierfachen!
Hier ist eine andere Formulierung des gleichen Effekts: Grob gesagt, gibt die Streuung
oder Standardabweichung einer Zufallsvariable im wesentlichen die Größenordnung eines “kritischen Bereichs” um den Erwartungswert an, in dem sich die Zufallsvariable
mit vorgegebener Wahrscheinlichkeit schwankt. Im Beispiel der Meinungsumfrage ist
p
p(1 − p)
√
.
σ(p̂) =
n
Die Größenordnung des kritischen Bereichs schrumpft also umgekehrt proportional zur
Wurzel aus dem Stichprobenumfang.
2. Ein Spiel heißt fair , wenn der Erwartungswert des Gewinns in jeder Runde gleich
dem Erwartungswert des Verlustes ist. Ist der Erwartungswert des Gewinns größer als
der Erwartungswert des Verlustes, so heißt das Spiel vorteilhaft.
Hier ist ein Beispiel einers Spiels, das in diesem Sinn vorteilhaft ist, das aber doch seine
Tücken hat! In jeder Runde des Spiels wird eine Münze geworfen, fällt Kopf, so wird
das Kapital des Spielers halbiert, ansonsten wird das Kapital um 60% aufgestockt. Der
erwartete Gewinn bei Startkapital x ist also 3x/10 und der erwartete Verlust ist x/4,
das Spiel ist also vorteilhaft.
Ein Spieler beginnt mit Startkapitel K0 = 1 und seine Kapital nach n Runden sei
Kn . Dies ist eine Zufallsvariable, die sich wie folgt beschreiben läßt: Wir modellieren
den Münzwurf wieder durch das Modell von Aufgabe 16, das heißt auf dem meßbaren
Raum (Σ, A) mit Σ = {0, 1}N und der Potenzmenge als σ-Algebra. (Das ist übrigens
hier die kleinste σ–Algebra, die die Koordinatenabbildungen Xi : (xn ) → xi meßbar
macht.) Wir haben wir ein Wahrscheinlichkeitsmaß P , so daß die Xi unabhängig sind
und P (Xi = 0) = P (Xi = 1) = 1/2. Dann setze
1
wenn Xi (ω) = 1,
2
Yi (ω) =
8
wenn Xi (ω) = 0.
5
Dann sind die Yi unabhängig und Kn = Y1 · · · · · Yn . Aus
EYi = (1/2)(1/2) + (1/2)(8/5) = 21/20 > 1
folgt nach Satz 3.19
EKn = (EY1 ) · · · (EYn ) = (21/20)n → ∞ .
Dennoch hat man mit sehr großer Wahrscheinlichkeit bald einen sehr geringen Kapitalstand. Wendet man nämlich das Gesetz der großen Zahlen auf die unabhängige Folge
log Yi an, so folgt aus
E(log Yi ) = (1/2) log(1/2) + (1/2) log(8/5) =: µ < 0
65
und der Tatsache, daß log Yi von endlicher Varianz ist (da die Zufallsvariable nur zwei
Werte annimmt), daß für ε = −µ/2 > 0 gilt
1
P Kn ≤ exp(−nε) = P
log Kn ≤ −ε
n
n
1 X
log Yi − µ| ≤ ε → 1 für n → ∞.
≥ P n i=1
Da exp(−nε) für n → ∞ exponentiell schnell gegen 0 strebt, hat man für großes n mit
sehr großer Wahrscheinlichkeit nahezu das gesamte Kapital verspielt. Muß man nicht
von einem solchen Spiel abraten?
Trotzdem geht der Erwartungswert des Kapitals gegen ∞. Ist das nicht paradox? Nun,
der Erwartungswert verdankt seinen hohen Wert vor allem den gelegentlichen Auftreten von sehr unwahrscheinlichen Glückssträhnen, die dann allerdings zu einer riesigen
Vervielfachung des Startkapitals führen würden, während man im typischen Fall verliert, allerdings aber eben nicht mehr als das Startkapital. In solchen Fällen, in denen
der Erwartungswert weit entfernt ist vom typischen Verhalten, ist nach der Ungleichung
von Čebyšëv offenbar die Varianz sehr groß.
Nachtrag: Ein Hörer der Vorlesung bemerkte richtig: Wenn man allerdings das Spiel oft
wiederholen dürfte und immer wieder mit dem gleichen Startkapital anfangen könnte,
käme nach dem Gesetz der großen Zahl irgendwann mit hoher Wahrscheinllichkeit doch
eine Glückssträhne, die die bisherigen Verluste mehr als wettmachen würde. Aber dazu
bräuchte man eben hohe Reserven, um die Wartezeit durchzustehen. Ein möglicher
Trick (vornehmer: Strategie), um sich mit dem Gesetz der großen Zahl auch bei begrenztem Startkapital die Eigenschaft vorteilhaft doch nutzbar zu machen, besteht
darin, zum Zweck der Varianzreduktion das Problem aufzusplitten, etwa wie folgt:
Bestimme zunächst einen Faktor f um den man sein Startkapital erhöhen möchte und
zwar sagen wir mit 95%-er Sicherheit. Zur Vereinfachung der Rechnung nehmen wir
21 n
das Startkapital x = 1 an. Wähle eine feste Zahl n so groß, dass EKn = ( 20
) > f und
2
wähle ε < EKn − f . Bestimme die Varianz vn = σ (Kn ) (vgl. die Aufgabe 27) und eine
natürliche Zahl m derart, dass
vn
< 0, 05.
mε2
Jetzt teilen wir unser bescheidenes Startkapital 1 weiter auf in m gleiche kleinere Teile
und spielen das Spiel m mal unabhängig voneinander mit Startkapital 1/m für jeweils
genau n Durchgänge - einerlei was dabei herauskommt.
Sei Zj , j = 1, . . . , m das EndPm
Kapital des j-ten Teilspiels von je n Runden und Z = j=1 Zj das Gesamtkapital zum
x
x
Schluß. Dann ist EZj = m
EKn > m
(f + ε) und Var(Zj ) = (1/m)2 vn für jedes j. Dann
wird EZ > f + ε und Var Z = vn /m. Also ist tatsächlich
P (Z ≥ f ) ≥ P (|Z − EZ| < ε) ≥ 1 −
wie gewünscht!
66
vn
Var Z
=1−
≥ 0, 95,
2
ε
mε2
3.6
Übungsaufgaben
Aufgabe 25. Während des 2. Weltkriegs wurde das folgende Bluttest-Schema entwickelt, um bei möglichst geringem Aufwand kranke Personen aus einer großen Zahl
(N ≫ 1) von Soldaten herauszufinden. Die zu untersuchenden Personen werden in
Gruppen von je k eingeteilt. Die Blutproben aller Individuen einer Gruppe werden
jeweils zusammengegossen und dann untersucht. Ist das Ergebnis negativ, so sind k
Personen mit einem einzigen Test als gesund identifiziert worden. Ist es aber positiv,
so müssen alle Angehörigen der betroffenen Gruppe einzeln untersucht werden (k + 1
Tests). Man nimmt an, daß eine Person mit Wahrscheinlichkeit p ≪ 1 krank ist und
daß alle Untersuchten unabhängig voneinander krank oder gesund sind.
(a) Berechne den Erwartungswert für die Anzahl der benötigten Bluttests (als Funktion von N, k und p), unter der Annahme, dass k die Anzahl N teilt. (Frage: Ist
der Test für alle p ∈ (0, 1) sinnvoll?)
(b) Man möchte die zu erwartende Anzahl der benötigten Bluttests möglichst gering
halten. Wie hängt das k, das den in Teil (a) berechneten Ausdruck minimiert, von
1
p ab? Finde dies optimale k für p = 100
und gib eine untere Abschätzung der
erwarteten Anzahl der eingesparten Tests, falls N = 500k.
Aufgabe 26.
4
(a) Sei X eine reellwertige integrierbare Zufallsvariable und α ∈ R. Zeige folgende
Verallgemeinerung des Steinerschen Verschiebungssatzes:
E(X − α)2 = E(X − EX)2 + (EX − α)2 .
Folgere, daß VarX = minα E(X − α)2 und (EX)2 ≤ E(X 2 ).
(b) (Cauchy-Schwarzsche Ungleichung)
Seien X, Y Zufallsvariablen mit E(X 2 ), E(Y 2 ) < ∞. Zeige, daß gilt
[E(X · Y )]2 ≤ E(X 2 ) · E(Y 2 ) .
Folgere, daß X, Y integrierbar sind.
Aufgabe 27. Berechne die Varianz vn = Var Kn für das am Ende des Kapitels geschilderte Spiel.
Aufgabe 28. X sei uniformverteilt auf dem Kreis B(0, 1) = {x ∈ R2 : |x| ≤ 1}. Was
ist der erwartete Abstand von X zum Ursprung?
Aufgabe 29. In einem Friseursalon arbeiten 5 Angestellte, die pro Haarschnitt 10
Minuten Zeit benötigen. Ein Kunde, der den Salon betritt, sieht, daß alle 5 Angestellten
arbeiten und noch weitere 4 Kunden warten. Wie groß ist der Erwartungswert seiner
Wartezeit, wenn der Zeitpunkt Xi , an dem der i-te Angestellte mit dem gegenwärtig
bedienten Kunden fertig ist, gleichverteilt in [0, 10] ist und die Xi unabhängig sind.
4
Jakob Steiner (1796-1863)
67
Aufgabe 30. X : Ω → R sei eine Zufallsvariable auf einem Wahrscheinlichkeitsraum
(Ω, A, P ). In Aufgabe 26 (a) wurde der Erwartungswert durch eine MinimierungsAufgabe charakterisiert. Zeige analog, daß a 7→ E |X − a| genau dann minimal wird,
wenn a ein Median von X ist.
Tip: Man kann die Differenz von Ya := |X − a| und Ym := |X − med(X)| auf einer
geeigneten Zerlegung von Ω betrachten.
Aufgabe 31. (Weierstrass-Approximation)
Sei f : [0, 1] → R eine stetige Funktion. Dann gibt es eine Folge von Polynomen
(Bn ), so daß Bn gleichmäßig gegen f konvergiert. Verwende dabei folgenden Ansatz:
Für p ∈ [0, 1], sei S1 , S2 , . . . eine Folge von (zum Parameter p) Bionomial verteilten
Zufallsvariablen. Setze Bn (p) := E f ( n1 Sn ) und benutze das schwache Gesetz der
großen Zahlen.
Aufgabe 32. Vor einem Bahnschalter steht eine laaaaange Schlange von Kunden und
wartet darauf bedient zu werden. Nimm an, dass die Bedienzeiten der Kunden unabhängig sind und dass die Bedienzeit eines Kundens uniform auf dem Zeitintervall
(0, 1)-Stunden verteilt ist. Jede volle Stunde möchte der Bahnbeamte eine Zigarettenpause machen. Falls einetunde vorbei ist, er aber gerade einen Kunden bedient, so
macht er die Pause, nachdem dieser Kunde gegangen ist. Berechne die erwartete Anzahl an Kunden, die der Bahnbeamte zwischen zwei Zigarettenpausen bedient.
68
Kapitel 4
Statistische Grundbegriffe
Man unterscheidet zwischen beschreibender und schließender Statistik. Die beschreibende Statistik beschäftigt sich mit der Erhebung, Sammlung und Darstellung von Daten.
Sie hat zunächst nicht direkt mit mathematischer Stochastik zu tun, auch wenn die Art
und Weise, auf die die Datensammlung entstehen, oft einen zufälligen Aspekt haben.
Die Daten werden gesammelt, weil man sich von ihnen Antworten auf inhaltliche Fragen an die zugrunde liegenden Verhältnisse erhofft - Antworten, die dann Rückwirkung
auf die Formulierung von mathematischen Modellen über das Zustandekommen der
Daten haben. Umgekehrt haben dann natürlich diese Modelle oft auch Rückwirkungen
auf die Art der Daten, die erhoben werden, bzw. wie sie erhoben werden.
Wir beschäftigen uns hier ausschließlich mit der schließenden Statistik. Sie betrifft
den stochastischen Teil dieser Modelle. Sie interpretiert die Daten als Ergebnisse eines Zufallsexperiments, also als Punkte eines Stichprobenraums (Ω, A), wobei aber die
zugrundeliegende Wahrscheinlichkeitsverteilung als zunächst mehr oder weniger unbekannt betrachtet wird.
Definition 4.1. Ein statistisches Experiment ist ein Tripel (Ω, A, {Pθ : θ ∈ Θ}),
wobei Θ die Parametermenge und jedes Pθ eine Wahrscheinlichkeitsverteilung über
dem Stichprobenraum (Ω, A) ist.
Der Parameter θ repräsentiert den unbekannten Teil des Modells und wir wollen mit
Hilfe des Experiments, dh. auf Grund der Beobachtung ω ∈ Ω Rückschlüsse auf diesen
Parameter ziehen. Die Daten sind meistens in Form von Vektoren (x1 , . . . , xn ) ∈ Rn
gegeben. In diesem Fall können wir also Ω ⊂ Rn ansetzen.
Beispiel: Bei einer Umfrage mit Stichprobenumfang n, wie sie am Ende des letzten
Kapitels geschildert wurde, ist der Parameter θ der unbekannte Anteil der Individuen
in der Gesamtpopulation, die die untersuchte Eigenschaft haben (weiße Kugeln in der
Urne, Ja-Sager, Patienten bei denen ein Medikament wirkt, Wähler einer bestimmten Partei usw.). Als Stichprobenraum können wir Ω = {0, 1}n wählen. In diesem
Fall bestehen die Daten aus der Information, an welchen Stellen der Stichprobe diese
Eigenschaft auftaucht. Die Verteilungen Pθ sind die Produktverteilungen
X
Pθ (A) =
θn̂(ω) (1 − θ)n−n̂(ω)
ω∈A
69
für θ ∈ Θ ⊂ [0, 1], wbei wir die Zahl der Einsen in dem n-Tupel ω = (ω1 , . . . , ωn ) ∈
{0, 1}n mit unserem alten Symbol n̂(ω) bezeichnet haben. Eine andere Möglichkeit des
Modells wäre Ω = {0, . . . , n}, dh. die Beobachtung besteht nur aus der Anzahl der
Individuen mit der untersuchten Eigenschaft in der Stichprobe. Dann arbeitet man
mit den Binomial-Verteilungen Pθ = Bin(n, θ).1 Diese zweite Wahl von Ω wird sich
in diesem Fall sogar als etwas effizienter erweisen, da die Daten in sparsamerer Weise
dargestellt sind, und man zeigen kann, dass keine wesentliche Information verloren geht.
(Dies ist auch ein Beispiel einer denkbaren Rückwirkung der stochastischen Theorie auf
die beschreibende Statistik.)
Wir unterscheiden zunächst zwei Arten von Rückschlüssen von der Beobachtung auf
den Parameter: Das Schätzen und das Testen.
4.1
Schätzen
Wir beginnen mit einer neuen Sprechweise.
Definition 4.2. Gegeben sei ein statistisches Modell (Ω, A, {Pθ : θ ∈ Θ}). Eine messbare Funktion T der Daten, dh. auf Ω, ist eine Statistik (’statistic’). Ist Θ ⊂ Rd , so ist
ein Schätzer (’estimator’) eine meßbare Abbildung θ̂ von Ω in den Parameterbereich
Θ.
Im obigen Beispiel mit Ω = {0, 1}n ist die Zahl aller Einsen, dh. die absolute Häufigkeit
der “Erfolge” in der Stichprobe, eine Statistik. Eine Statistik repräsentiert einen bestimmten Aspekt der Daten. Im Beispiel ist die aus n̂ abgeleitete Abbildung θ̂ : ω 7→
n̂(ω)
∈ [0, 1] ein Schätzer. Wenn wir schon mit Ω = {0, . . . , n} und den Binomialn
Verteilungen arbeiten, haben wir z.B. den durch p̂(k) = nk (k ∈ Ω) definierten Schätzer.
Wir sind natürlich an “guten” Schätzern interessiert, also an solchen, die, grob gesprochen, mit großer Wahrscheinlichkeit einen Wert nahe beim “wahren” Parameter liefern.
Definition 4.3. a) Gegeben sei ein statistisches Modell (Ω, A, {Pθ : θ ∈ Θ}), so dass
die Verteilungen Pθ diskret sind. Dann heißt die Funktion L : Θ × Ω → [0, 1] mit
L(θ, x) = Pθ ({x})
die Likelihood-Funktion. Die Log-Likelihood-Funktion ist gegeben durch
ℓ(θ, x) = log L(θ, x).
b) Ist dagegen Ω eine (Borelsche) Teilmenge des Rn und sind die Verteilungen Pθ durch
Dichten fθ gegeben, so sind die Likelihood-Funktion und die Log-Likelihood-Funktion
entsprechend gegeben durch L(θ, x) = fθ (x) und ℓ(θ, x) = log L(θ, x).
1
Wenn die Größenordnung der Gesamtpopulation die der Stichprobe nicht wesentlich übersteigt, ist
natürlich ein besserer Ansatz das Ziehen ohne Zurücklegen, der zu einer hypergeometrischen Verteilung
Hyp(N, M, n) führt. Dann wäre je nach Kenntnisstand die Zahl M oder auch das Paar (N, M ) der
unbekannte Parameter.
70
Manchmal wird auch L(θ|x) statt L(θ, x) geschrieben. Fast alle klassischen statistischen
Verfahren beruhen in irgendeiner Form auf der Likelihood-Funktion. Diese kann auf
verschiedene Weisen verwendet werden. Eine erste Idee zur Konstruktion von guten
Schätzern im obigen Sinn gibt das folgende Prinzip, das sich in recht allgemeinem
Rahmen durchführen läßt.
Maximum-Likelihood-Schätzer
Es ist eine plausible Annahme, daß ein Parameterwert λ, unter dessen zugehöriger
Wahrscheinlichkeitverteilung Pλ die beobachteten Daten von vornherein wahrscheinlicher waren als bei einem anderen Parameterwert, im allgemeinen näher am wahren
Parameter liegt als jener andere. Deshalb wählt man oft den Schätzer θ̂(x) so, daß
L(θ̂(x), x) = max L(θ, x) .
θ∈Θ
Ein solcher Schätzer θ̂ heißt Maximum–Likelihood–Schätzer für θ. Zur Berechnung
eines Maximum–Likelihood–Schätzers muß man also für jedes x ∈ Ω die Abbildung
Lx : θ → Pθ ({X = x}) ,
die zur Realisierung x gehörige Likelihood–Funktion untersuchen und ein Maximum
finden. Weil log streng monoton ist, kann man hierbei genauso auch mit der LogLikelihood-Funktion arbeiten.
Beispiele: 1. Beziehen wir das auf unser Beispiel mit der Umfrage, so müssen wir für
jedes Tupel x = (x1 , . . . , xn ) ∈ {0, 1}n , die Likelihood–Funktion
Lx : θ 7→ θn̂(x) (1 − θ)n−n̂(x)
maximieren. Dies geschieht in diesem Fall einfach durch differenzieren. Jedes Extremum
im Inneren des Intervalls [0, 1] erfüllt mit i = n̂(x) die Gleichung
iθi−1 (1 − θ)n−i − (n − i)θi (1 − θ)n−i−1 = 0 ⇐⇒ i(1 − θ) − (n − i)θ = 0 ⇐⇒ θ =
i
.
n
Die Lösung θ̂(x) = i/n dieser Gleichung stellt sich auch als Maximum heraus und damit
haben wir den Maximum–Likelihood–Schätzer gefunden. Dies ist gerade der relative
Anteil der Individuen in der Stichprobe, die die untersuchte Eigenschaft haben. Wenn
stattdessen die Daten schon in der vereinfachten Form i ∈ {0, . . . , n} vorliegen und die
Familie (Pθ ) aus den Binomial-Verteilungen besteht, unterscheidet sich die LikelihoodFunktion
n i
θ (1 − θ)n−i
L(θ, i) =
i
nur durch die von θ unabhängige Konstante ni von der obigen Likelihood-Funktion
und wir kommen wieder zu dem Maximum-Liklihood-Schätzer θ̂ = ni . Das Verfahren
bleibt also durch diese Vereinfachung der Daten unberührt.
71
2. Ein klassisches Problem ist die naturwissenschaftliche Messung einer Größe θ, (Länge
oder Gewicht eines Objekts, Entfernung eines Sterns o.ä.). Um die Genauigkeit der
Messung zu erhöhen, wird θ mehrmals gemessen und als natürlicher
Schätzer für den
Pn
1
unbekannten Wert bietet sich das Stichprobenmittel x̄ = n i=1 xi der Einzelmessungen an. Hier ist ein stochastisches Modell: Die Einzelmessungen sind mit einem
additiven Fehler behaftet, der durch eine reelle Zufallsgröße mit einer Dichte f modelliert wird. Jede Einzelmessung hat also die Dichte fθ (x) = f (x − θ). Man spricht in
diesem Fall von einem Lokations- oder Lage-Parameter . Die Daten x1 , . . . , xn werden aufgefaßt als Realisierungen von n u.i.v. reelle Zufallsvariablen X1 , . . . , Xn , wobei
jedes Xi die Dichte f (x − θ) hat. Dann ist Ω = Rn , A = Bn und Pθ ist die zugehörige
Produktverteilung, dh. die Wahrscheinlichkeitsverteilung mit der Dichte
(n)
fθ (x1 , . . . , xn )
=
n
Y
i=1
f (xi − θ).
Ein Maximum-Likelihood θ̂ = θ̂(x1 , . . . , xn ) maximiert diesen Ausdruck. Dies Problem
hat nur für spezielle Dichten f eine einfache Lösung. Wir betrachten drei Fälle.
2
x
2
a) f (x) = c exp(− 2σ
2 ) (Normalverteilung ). Dann ist
(n)
fθ (x1 , . . . , xn )
=c
n
n
Y
e−
(xi −θ)2
2σ 2
1
= cn e− 2σ2
Pn
2
i=1 (xi −θ)
.
i=1
P
P
Nun nimmt ni=1 (xi − θ)2 seinen minimalen Wert an der Stelle θ̂ = x̄ = n1 ni=1 xi
an. Dies können wir zum Beispiel sehen, indem wir die Übungsaufgabe 26 anwenden,
und zwar auf die “empirische” Verteilung der Daten x1 , . . . , xn . Damit ist also das
arithmetische Mittel θ̂ = x̄ sogar der ML Schätzer.
b) f (x) = 12 e−|x| . Die Dichte der Exp(1)-Verteilung wird also auf der negativen Halbachse gespiegelt und dann neu normiert, um wieder eine Dichte zu geben. Man nennt
dies auch eine zweiseitige Exponentialverteilung. In diesem Fall ist analog zum
obigen Fall
n
1 n Y −|xi−θ| 1 n − Pni=1 |xi −θ|
(n)
.
e
= e
fθ (x1 , . . . , xn ) =
2 i=1
2
P
Der Ausdruck ni=1 |xi − θ| wird durch den Median med(x1 , . . . , xn ) der (empirischen
Verteilung der) Werte x1 , . . . , xn minimiert. Daher ist in diesem Fall θ̂ = med(x1 , . . . , xn )
der ML-Schätzer.
1
3
c) f (x) = π(1+x
2 ) (Cauchy Verteilung). In diesem Fall ist die Berechnung des MaximumLikelihood Schätzers nur numerisch zugänglich.
1
sein muß, damit f auch wirklich eine Dichte ist. Der
Wir zeigen im nächsten Kapitel, dass c = √2πσ
Wert dieser Konstante ist aber für den Augenblick uninteressant. Die Verwendung des Buchstabens
σ wird sich dadurch rechtfertigen, dass σ 2 die Varianz der zugehörigen Verteilung ist
3
Augustin-Louis Cauchy (1789-1857)
2
72
Die Normalverteilung heißt auch Gauß-Verteilung. Schon C.F. Gauß4 benutzte sie
bei seinen astronomischen Berechnungen und eine seiner wichtigen Motivationen war
die in der folgenden Bemerkung ausgeführte Umkehrung der unter a) bewiesenen
Tatsache. Gauß nahm also als Modell für die Fehlerverteilung diejenige, bei der das
Maximum-Likelihood Prinzip vereinbar war mit dem Verfahren (Mittelwert), bei dem
man bequemsten rechnen kann.
Bemerkung 4.4. Sei f eine strikt positive stetig differenzierbare Dichte, derart dass
für n = 2, 3 das arithmetische Mittel von n unabhängigen Beobachtungen einer Zufallsvariable mit dieser Dichte der Maximum-Likelihood-Schätzer des Lage-Parameters
x2
θ ist. Dann gibt es eine positive Konstante σ 2 , so dass f (x) = const · e− 2σ2 .
Beweis: Wir betrachten die differenzierbare Funktion ϕ(x) = log f (x). Dann ist
(n)
log fθ (x1 , . . . , xn )
=
n
X
i=1
ϕ(xi − θ).
Die ML-Eigenschaft des Mittelwerts liefert mit Differenzieren
n
X
i=1
ϕ′ (xi − θ)|θ=x̄ = 0.
Sei speziell n = 2 und x1 = a, x2 = −a für ein a ∈ R. Dann ist x̄ = 0 und damit
ϕ′ (a) + ϕ′ (−a) = 0, dh. die Funktion ϕ′ ist antisymmetrisch. Nun seien a, b ∈ R.
gegeben und wir betrachten den dreidimensionalen Vektor x = (a, b, −(a + b)). Dann
ist wieder x̄ = 0 und damit ϕ′ (a + b) = −ϕ′ (−(a + b)) = ϕ′ (a) + ϕ′ (b). Die stetige
Funktion ϕ′ ist also linear, dh. es gibt eine Konstante α derart, dass ϕ′ (x) = αx. Damit
2
ist ϕ(x) = α x2 + c und f (x) = const exp(αx2 /2). Weil f integrierbar ist, muß α < 0
sein, wir können also α durch − σ12 ersetzen für ein geeignetes σ 2 > 0.
Zwei Qualitätskriterien von Schätzern
Wie gut ist nun ein Schätzer? Es gibt viele verschiedene und oft nicht gleichzeitig
erfüllbare Forderungen an einen Schätzer. Wir geben hier zwei Beispiele solcher Kriterien.
Eine natürliche Forderung an einen Schätzer ist zunächst die Forderung, daß wir im
Mittel richtig schätzen, konkret heißt das:
Definition 4.5. Sei (Ω, A) ein Stichprobenraum und {Pθ : θ ∈ Θ} ein statistisches
Modell mit Parameterraum Θ ⊆ R. Wir schreiben Eθ für den Erwartungswert bezüglich
Pθ , also für eine Zufallsvariable X auf (Ω, A) definiere
Z
Eθ X := X dPθ .
4
Carl Friedrich Gauß (1777-1855)
73
Ein Schätzer θ̂ heißt erwartungstreu (’unbiased’), wenn der Erwartungswert von θ̂
bezüglich jeder möglichen Verteilung Pθ gleich dem Wert θ ist, wenn also gilt
Eθ θ̂ = θ .
Die durch b(θ) = Eθ θ̂ − θ auf Θ definierte Funktion heißt Bias des Schätzers θ̂. Der
Schätzer θ̂ ist also genau dann erwartungstreu, wenn sein Bias verschwindet.
Beispiele 1. Wieder betrachten wir ein Binomialexperiment Bin(n, θ), θ ∈ [0, 1]. Dann
ist unser Schätzer θ̂ mit θ̂(k) = nk erwartungstreu, denn der Erwartungswert der
Binomial-Verteilung ist nθ, also Eθ θ̂ = nθ
= θ.
n
2. Sei f irgendeine Dichte auf R mit Erwartungswert 0. Sei wieder θ der Lageparameter, also fθ (x) = f (x − θ). Seien X1 , . . . , X
n unabhängig jeweils mit Dichte fθ . Dann
P
ist Eθ Xi = θ und damit wegen Eθ X̄ = n1 ni=1 Eθ Xi = θ der Schätzer θ̂ = X̄ erwartungstreu.
3. Seien jetzt wieder X1 , . . . , Xn unabhängig mit der gleichen Verteilung. Diesmal sei
aber Θ = R+ und θ = σ 2 die (gemeinsame) Varianz der Xi . Da der Schätzer X̄ des
Erwartungswerts ja der Erwartungswert der empirischen Verteilung des beobachteten
Datenvektors X1 , . . . , Xn ist, ist es naheliegend, auch als Schätzer für die Varianz die
Varianz dieser empirischen Verteilung, dh. die empirische Varianz zu nehmen:
n
n
1X
1X 2
θ̂ = σ̂ (X1 , . . . , Xn ) =
(Xi − X̄)2 =
X − X̄ 2 .
n i=1
n i=1 i
2
Um den Erwartungswert dieses Schätzers zu berechnen, beachten wir zunächst
EX̄ 2 = Var X̄ + (EX̄)2 = (Var X1 )/n + (EX1 )2 = σ 2 /n + (EX1 )2 .
Damit wird
n
n−1
1X
EXi2 − EX̄ 2 = Eσ2 X12 − (EX1 )2 − σ 2 /n = σ 2
.
Eσ̂ =
n i=1
n
2
Die empirische Varianz ist also nicht erwartungstreu. Sie wird es aber, wenn wir sie mit
n
dem Faktor n−1
multiplizieren. Daher verwendet man oft als Schätzer für die Varianz
den schon im Anschluss an deren Definition 3.10 angegebenen Wert
n
1 X
(Xi − X̄)2 .
s =
n − 1 i=1
2
Wenn wir in der Formel für die empirische Varianz den empirischen Mittelwert X̄ durch
den theoretischen Erwartungswert ersetzen, den man allerdings oft auch nicht kennt,
bekommen wir ebenfalls einen erwartungstreuen Schätzer für σ 2 .
Wichtiger als die Forderung der Erwartungstreue ist aber die Forderung, daß der mittlere (quadratische) Fehler des Schätzers klein ist.
74
Definition 4.6. Wir definieren den mittleren quadratischen Fehler (’mean square error’) eines Schätzers θ̂ als die Funktion
R(θ) = Eθ (θ̂ − θ)2 .
Nach dem Steinerschen Verschiebungssatz (übungsaufgabe 23(a)) gilt
2
R(θ) = Eθ (θ̂ − Eθ θ̂)2 + Eθ θ̂ − θ = Varθ θ̂ + b(θ)2 .
Der mittlere quadratische Fehler ist also die Varianz des Schätzers plus das Quadrat
des Bias.
Wünschenswert sind Schätzer, deren mittlerer quadratischer Fehler für alle (oder viele)
θ zugleich klein ist.
Beispiele: 1. In unserem
Analphabetenproblem haben wir einen Schätzer p̂ der Gestalt
Pn
Y /n, wobei Y = i=1 Xi . Wenn X die Verteilung P p hat, so ist Y zu den Parame= p, also ist unser Schätzer
tern n und p binomialverteilt und daher ist Ep p̂ = np
n
erwartungstreu. Der mittlere quadratische Fehler ist gleich der Varianz des Schätzers,
also
np(1 − p)
p(1 − p)
R(p) = Varp θ̂ =
=
,
2
n
n
er ist bei festem n maximal bei p = 1/2 und fällt bei wachsendem n. Man könnte
auch die erwartete relative oder prozentuale quadratische Abweichung des Schätzwertes
vom wahren Parameter betrachten, also Rrel (θ) = Eθ ( θ̂−θ
)2 . Dann ist in dem Beispiel
θ
. Dies ist sehr groß für kleine p. Die Schätzung einer kleinen ErfolgswahrRrel (p) = 1−p
pn
scheinlichkeit auch nur mit 50% Genauigkeit braucht sehr viele Versuche.
2. Analog sei im Beispiel der Messungen eine Einzelmessung Xi erwartungstreu mit
Varianz σ 2 . Dann ist das arithmetische Mittel θ̂ = X̄ auch erwartungstreu mit, nach
dem Additionssatz für Varianzen, von θ unabhängigen quadratischem Risiko
σ2
.
n
Wieder sehen wir: Die Genauigkeit der Messung wächst mit der Zahl der Messungen.
R(θ) =
Die Polynomial-Verteilung und das Schätzen mehrerer Parameter
Bisher waren in den Beispielen Θ ⊂ R. Natürlich gibt es auch allgemeinere Situationen. Ein einfache aber sehr flexible Beispiel-Situation ist folgende: Wir betrachten n
unabhängige identisch verteilte Beobachtungen, die in eine endliche Zahl l verschiedener
viele Zellen oder Klassen fallen können. Dabei sei (p1 , . . . , pl ) der Wahrscheinlichkeitsvektor der Wahrscheinlichkeiten, mit denen eine Beobachtung in die jeweilige Zelle fällt.
1
für k = 1, . . . , 37.) Wir
(Beispielsweise ist bei einer Roulette-Kugel l = 37 und pk = 37
erhalten empirische Häufigkeiten n̂1 , . . . , n̂l , wobei n̂k die Anzahl der Beobachtungen
ist, die in die k-te Zelle fallen. Für jedes k ist n̂k B(n, pk )-verteilt, also gilt
E(n̂k ) = npk und Var(n̂k ) = npk (1 − pk ).
Die Zufallsvariablen
n̂1 , . . . , n̂l , sind aber nicht unabhängig, denn sie erfüllen die GleiP
chung lk=1 n̂k = n.
75
l
Satz
Pl 4.7. Für den Zufallsvektor (n̂1 , . . . , n̂l ) und jedes l-Tupel (m1 , . . . , ml ) ∈ N mit
k=1 mk = n ist
n
ml
1
pm
P (n̂1 = m1 , . . . , n̂l = ml ) =
1 . . . pl .
m1 . . . ml
Dies ist eine Polynomial-Verteilung (oder Multinomial-Verteilung) (’multinomial distribution’) zu den Parametern (n, p1 , . . . , pl ). Sie geht im Fall l = 2 in die
Binomial-Verteilung B(n, p1 ) über.
Beweis: Dies ist eine Verallgemeinerung der Argumente aus Kapitel 1, die zur BinomialVerteilung geführt haben. Wir können das Ergebnis der n Beobachtungen durch einen
Punkt (k1 , . . . , kn ) in {1, . . . , l}n festhalten, Dabei ist ki die Klassen-Nummer der i-ten
Beobachtung und n̂k = #{i ≤ n : ki = k}. Dann ist wegen der Unabhängigkeit der
Beobachtungen P {(k1 , . . . , kl )} = pn̂1 1 · · · pn̂l l . Wir müssen jetzt noch bestimmen, in wievielen Fällen auf der rechten Seite die vorgegebenen Zahlen m1 , . . . , ml als Exponenten
auftreten. Der Multinomialkoeffizient
n!
n
=
m1 . . . ml
m1 ! · · · ml !
zählt, auf wieviele verschiedene Weise n Objekte in l Klassen verteilt werden können,
derart dass in die k-te Klasse gerade mk Objekte fallen. Das ist gerade die Anzahl aller
(k1 , . . . , kn ), für die n̂1 = m1 , . . . , n̂l = ml ist.
Wenn man die Wahrscheinlichkeiten (p1 , . . . , pk ) nicht kennt, ist es naheliegend, sie
durch p̂k = n̂nk zu schätzen. Sei Θ die Menge aller l-dimensionalen Wahrscheinlichkeitsvektoren. (Man nennt diese Menge auch den Einheitssimplex im Rl .) Dann ist also
θ̂ = (p̂1 , . . . , p̂l ) ein Schätzer im Sinn der Definition. In Verallgemeinerung des Falls von
Binomial-Verteilungen und durch Zurückführung auf diesen kann man zeigen, dass es
wieder der Maximum-Likelihood-Schätzer ist.
4.2
Testen von Hypothesen
Beispiel: Der Herausgeber eines statistischen Jahrbuches veröffentlicht unter vielen
anderen Zahlen jedes Jahr die Analphabetenquote unseres Landes. Aus Kostengründen
möchte er aber nicht alljährlich einen großen Lesetest durchführen, sondern die Zahl
des letzten Jahres nur dann durch eine neu ermittelte ersetzen, wenn er begründeten
Verdacht hat, daß sich die Quote tatsächlich geändert hat. Zu diesem Zweck erhebt er
in kleinerem Maßstab Daten, aufgrund deren er die Hypothese “die Analphabetenquote
hat sich nicht geändert” testen will. Nur wenn die Daten der Hypothese widersprechen,
wird er einen großangelegten Lesetest zur Ermittlung der neuen Quote starten.
Wir formulieren diese Situation abstrakt:
Definition 4.8. Sei (Ω, A, {Pθ : θ ∈ Θ}) ein statistisches Experiment.
a)Ein statistisches Entscheidungsproblem (’statistical decision problem’) ist gegeben durch eine nichtleere Teilmenge Θ0 ⊆ Θ, die Hypothese und der Aufgabe, zu
entscheiden, ob θ ∈ Θ0 oder ob θ ∈
/ Θ0 .
76
b) Ein Hypothesentest oder auch Test (auch englisch ’test’) ist gegeben durch ein
meßbare Teilmenge A von Ω, den Annahmebereich (’acceptance region’) . Das Komplement Ac heißt kritischer Bereich (’critical region’) oder Verwerfungsbereich
des Tests. Wenn die Beobachtung ω in A fällt, wird die Hypothese H : θ ∈ Θ0 nicht
verworfen oder angenommen, im anderen Fall ω ∈ Ac wird die Hypothese verworfen.
Bei diesem Vorgehen gibt es zwei mögliche Fehler:
1. Fehler erster Art (’error of the first kind’): Die Hypothese wird fälschlich
verworfen, dh. es ist θ ∈ Θ0 , aber ω ∈ Ac .
2. Fehler zweiter Art (’error of the second kind’): Die Hypothese wird fälschlich
nicht verworfen, dh. es ist θ ∈
/ Θ0 , aber ω ∈ A.
Meist sind die beiden Fehlermöglichkeiten unterschiedlich gravierend, man wählt Hypothese und Alternative immer so, daß Fehler der ersten Art gravierender sind, dh.
dass man sich im Fall der Ablehnung oder Verwerfung der Hypothese ziemlich sicher
sein kann. Zur Quantifizierung des Worts “ziemlich” kommen wir gleich.
Beispiel: Wir betrachten also wieder eine Reihe von n Leseprüfungen. Die Anzahl Y
der Nichtleser in der Stichprobe ist das Ergebnis eines Binomial-Experiments, gegeben
durch die Verteilungs-Familie {Bin(n, p) : p ∈ Θ = (0, 1)}. Im letzten Jahrbuch war
eine Analphabetenquote von 30% geschätzt worden und wir betrachten die Hypothese,
daß sich diese Quote nicht geändert hat, also H : p = 0.3 oder Θ0 = {0.3}. Nur
wenn der Versuch zur Verwerfung der Hypothese ausreicht, wird eine aufwendigere
Prüfungsreihe durchgeführt.
Bei der Konstruktion eines Tests gibt man sich für die Wahrscheinlichkeit eines Fehlers
erster Art eine Schranke α vor. Falls die Hypothese richtig ist, darf ein Fehler erster Art,
der ja zu ihrer Verwerfung führen würde, höchstens mit Wahrscheinlichkeit α passieren.
Definition 4.9. Ein Test der Hypothese θ ∈ Θ0 sei durch den Annahmebereich A ⊆ Ω
gegeben.
a) Sei α ein Zahl in (0, 1). Man sagt, der Test hat das Signifikanziveau α (’level of
significance’), wenn
sup Pθ (Ac ) ≤ α.
θ∈Θ0
b) Die Funktion β : Θ → [0, 1] mit
β(θ) = Pθ (Ac )
heißt Gütefunktion (’power function’) des Tests. Für jedes θ ∈
/ Θ0 heißt β(θ) die
Macht (’power’) des Tests in θ.
Je kleiner das Signifikanzniveau eines Tests ist, desto sicherer wird ein Fehler erster
Art vermieden. Typische Höchstwerte, die je Situation von α gefordert werden, sind
0.1, 0.05, 0.01 oder sogar 0.005.
77
Die Macht des Tests gibt im Fall θ ∈
/ Θ0 die Wahrscheinlichkeit dafür, dass kein Fehler 2.
Art geschieht, dass also die Hypothese tatsächlich verworfen wird. Da die Gütefunktion
meistens stetig vom Parameter abhängt, kann sie in der Nähe von Θ0 den Wert α nur
wenig überschreiten.
Bemerkung. Ist Θ ⊂ R, nennt man die Zahl δ = inf{|θ − θ0 | : β(θ) ≥ 1 − α, θ0 ∈ Θ0 }
die Trennschärfe des Tests zum Niveau α. Sie gibt den Mindestabstand, den ein
Parameter von Θ0 haben muss, damit für ihn die Fehlerwahrscheinlichkeit zweiter Art
auch unterhalb α liegt.
Beispiel: Wir betrachten wieder Y , die Anzahl der Leseunkundigen von den n zufällig
ausgewählten Prüflingen. Y ist zu dem unbekannten Parameter p ∈ (0, 1) und n binomialverteilt. Ein guter Test wird die Hypothese p = 0.3 sicher dann verwerfen, wenn
die Statistik
Y (x)
− 0.3
T (x) =
n
größer als ein kritischer Wert to oder kleiner als ein kritischer Wert tu ist. Die Größe
dieser Werte hängt vom gewünschten Signifikanzniveau ab. Möchte der Herausgeber
die Wahrscheinlichkeit unnötiger Ausgaben unter 5% halten und den Test anhand von
n = 20 Testpersonen durchführen, so wird man tu und to so wählen müssen, daß für
p = 0.3 gilt
P p (T (X) > to oder T (X) < tu ) = P p Y > 6 + 20to + P p Y < 6 + 20tu ≤ 0.05 .
Man rechnet einfach aus, daß P p (Y > 10) ≤ 0.018, aber P p (Y = 10) > 0.030 und,
daß P p (Y < 2) ≤ 0.008, aber P p (Y = 2) > 0.027. Also wählen wir to = 0.2 und
tu = −0.2. Das Signifikanzniveau des resultierenden Test ist das Signifikanzniveau sogar
97%! Die Hypothese ist zu verwerfen, wenn die Leseprüfung bei 20 zufällig ausgewählten
Personen mehr als 10 oder weniger als 2 Leseunkundige hervorbringt.
Beachte aber, daß, auch wenn die Analphabetenquote auf 10% gesunken ist, unser Test
noch mit einer Wahrscheinlichkeit von etwa 0.6 die Hypothese akzeptiert! Die Macht
1
β( 10
) des Tests an dieser Stelle ist also nur 0.4 und keinesweges nahe bei 1.
Man muss also eine Stichprobe mit einem größeren n durchführen. In diesem Fall werden die kritischen Werte näher an p = 0.3 heranrücken und die Trennschärfe des Test
wird sich verbessern. Die entsprechenden Rechnungen werden aber aufwändiger und es
empfiehlt sich, die Approximations-Methode des nächsten Kapitels zu verwenden.
4.2.1
Quantile
Die Bestimmung der kritischen Werte etwa in obigem Beispiel läuft darauf hinaus, zu
berechnen an welchen Stellen eine Verteilungsfunktion, hier die der Binomial-Verteilung
B(n, p), einen bestimmten Wert, z.B. 0.95 überschreitet. Wenn die betreffende Verteilungsfunktion F stetig ist, ist sie surjektiv nach dem Zwischenwertsatz, also kann man
zu jedem α ∈ (0, 1) die Gleichung F (qα ) = α lösen. Man ist also an einer Umkehrung
der Verteilungsfunktion interessiert. Bei diskreten Verteilungsfunktionen existiert diese
nicht auf dem ganzen Einheitsintervall, das führt zu der folgenden etwas komplizierteren Definition:
78
Definition 4.10. Sei P eine eindimensionale Wahrscheinlichkeitsverteilung und α ∈
[0, 1]. Dann heißt eine Zahl qα ∈ R ein α-Quantil von P, falls F (qα −) ≤ α ≤ F (qα ),
wobei F die Verteilungsfunktion zu P ist. Ein 12 -Quantil ist ein Median.
Eine Zahl qα ist also ein α-Quantil der Verteilung P , wenn jede Borel-Menge A ⊂
(−∞, qα ) höchstens die P -Wahrscheinlichkeit α und jede Borel-Menge B ⊂ (qα , ∞)
höchstens die P -Wahrscheinlichkeit 1 − α hat.
Die folgenden Beobachtungen folgen direkt aus der Definition.
Bemerkung 4.11. (a) Sei q eine Sprungstelle der Verteilungsfunktion F . Dann ist q
ein α-Quantil für genau die Zahlen α mit F (q−) ≤ α ≤ F (q).
(b) Für ein α-Quantil q gibt es noch andere Quantile zu dem gleichen α genau dann,
wenn F konstant ist in einem abgeschlossenen Intervall positiver Länge, das q enthält,
m.a.W. ein Quantil q ist eindeutig bestimmt genau dann, wenn F (z) < F (q−) für alle
z < q und F (z ′ ) > F (q) für alle z ′ > q; dies ist insbesondere der Fall, wenn F an der
Stelle q stetig ist und dort streng monoton wächst.
Es gibt verschiedene Möglichkeiten, eine verallgemeinerte Inverse einer Verteilungsfunktion F zu definieren. Eine Möglichkeit ist folgende:
F −1 (α) := inf{z : F (z) ≥ α} = sup{z : F (z) < α}.
Diese Funktion liefert das kleinste α-Quantil. Dies ist der Ansatz, den wir im Beweis
von Satz 1.11 gewählt haben: Das dortige Argument zeigte, dass für jede uniform auf
[0, 1] verteilte Zufallsvariable die Zufallsvariable F −1 (U) die Verteilungsfunktion F hat.
Eine zweite Möglichkeit ist
F̄ −1 (α) := inf{z : F (z) > α}.
Dies ist das größte α-Quantil und genau dann echt größer als F −1 (α), wenn F den
Wert α auf einem ganzen Intervall annimmt.
4.3
Das Lemma von Neyman-Pearson und monotone Likelihood-Quotienten
Die Wahl des Annahmebereichs eines Tests ist natürlich durch die Vorgabe des Niveaus
nicht eindeutig bestimmt. Man versucht den Annahmebereich zu vorgegebenem Niveau
so zu wählen, dass die Macht des Tests möglichst groß wird. Im Spezialfall einfacher
Hypothesen, dh. wenn Θ nur aus zwei Punkten besteht, gibt es eine optimale Wahl.
Satz 4.12. (Lemma von Neyman-Pearson5 ) Sei Θ = {θ0 , θ1 }. Sei ein Test der
Hypohese Θ0 = {θ0 } gegen die Alterative {θ1 } gegeben durch einen Annahmebereich
L(θ0 ,x)
≥ c} mit c > 0. Sei α = Pθ0 (Ac ). Dann gilt für jeden
der Form A = {x ∈ Ω : L(θ
1 ,x)
anderen Annahmebereich à mit Niveau α die Ungleichung Pθ1 (Ã) ≥ Pθ1 (A).
5
Jerzy Neyman (1894-1961) und Egon Pearson (1895-1980)
79
Beweis: Zur Vereinfachung schreiben wir P0 , P1 statt Pθ0 , Pθ1 . Ferner beschränken wir
uns auf den Fall von Dichten, dh. A = { ff01 ≥ c}.
Zunächst ist
P0 (A∩Ãc ) = P0 (Ãc )−P0 (Ac ∩Ãc ) ≤ α−P0 (Ac ∩Ãc ) = P0 (Ac )−P0(Ac ∩Ãc ) = P0 (Ac ∩Ã).
Damit wird
Z
1
1
f1 (x) dx ≥
f0 (x) dx = P0 (Ã ∩ Ac )
P1 (Ã ∩ A ) =
f
c Ã∩{ ff1 ≥ 1c }
c
Ã∩{ f1 ≥ 1c }
0
0
Z
Z
1
1
≥
P0 (Ãc ∩ A) =
f0 (x) dx ≥
f1 (x) dx
f
c
c Ãc ∩{ ff0 ≥c}
Ãc ∩{ f0 ≥c}
c
Z
1
1
c
= P1 (Ã ∩ A),
und insgesamt
P1 (Ã) = P1 (Ã ∩ A) + P1 (Ã ∩ Ac ) ≥ P1 (Ã ∩ A) + P1 (Ãc ∩ A) = P1 (A).
Selten hat man wirklich nur die Entscheidung zwischen zwei Parametern zu fällen.
Durch ähnliche Argumente kann man aber gelegentlich Tests für zusammengesetzte
Hypothesen auf Tests für einzelne Parameterwerte zurückführen:
Satz 4.13. (Monotone Likelihood-Quotienten) Seien Θ ⊂ R und Ω ⊂ R derart, dass
1 ,x)
für jedes Paar θ0 , θ1 von Parametern mit θ0 < θ1 der Likelihood-Quotient L(θ
eine
L(θ0 ,x)
monton nicht fallende Funktion von x ist. Dann ist für jedes z ∈ R die Funktion
θ 7→ Pθ ((z, ∞)) monoton nicht fallend, m.a.W. die Verteilungsfunktion Fθ (z) monoton
nicht wachsend in θ.
0 ,z)
. Nach
Beweis: Fixiere zwei Parameter θ0 , θ1 mit θ0 < θ1 und den Punkt z. Sei c = L(θ
L(θ1 ,z)
Voraussetzung ist der Likelihood-Quotient höchstens gleich c in (∞, z] und daher ist
Fθ1 (z) ≤ cFθ0 (z). Ein analoges Argument auf der rechten Seite liefert c(1 − Fθ0 (z)) ≤
1 − Fθ1 (z). Zusammen ist
1 − Fθ1 (z)
Fθ1 (z)
≤c≤
.
Fθ0 (z)
1 − Fθ0 (z)
Durch Ausmultiplizieren erhalten wir Fθ1 (z) ≤ Fθ0 (z).
Beispiele 1. Wir betrachten die Normalverteilungen N (θ, 1) mit θ ∈ Θ ⊂ R. Für
θ0 < θ1 ist
2
exp(− (x−θ2 1 ) )
L(θ1 , x)
θ02 − θ12
=
exp(
=
) exp((θ1 − θ0 )x)
2
L(θ0 , x)
2
exp(− (x−θ2 2 ) )
eine wachsende Funktion von x. Wir suchen einen Test zum Niveau α der Hypothese
Θ0 : θ ≤ θ∗ . Wir wählen einen Annahmebereich der Form Ax∗ = (−∞, x∗ ] wobei die
80
Zahl x∗ so gewählt ist, dass Pθ∗ (Acx∗ ) = α. Dann gilt für alle θ in der Hypothese nach
dem Satz über monotone Likelihood-Quotienten die gleiche Abschätzung. Also ist dies
ein Test zum Niveau α unserer Hypothese. Sei jetzt θ in der Gegenhypothese, also
θ > θ∗ . Dann ist der Likelihood-Quotient
L(θ∗ , x)
L(θ, x)
eine monoton nicht wachsende Funktion. Also können wir den Annahmebereich Ax∗
∗ ,x)
≥ c}. Damit ist auf unseren Test das Neymanschreiben in der Form Ax∗ = {x : L(θ
L(θ,x)
Pearson Lemma anwendbar und wir sehen, dass seine Macht an der Stelle θ mindestens
so groß ist wie die jedes anderen Test zum Niveau α der einpunktigen Hypothese
θ∗ , also insbesondere wie die Macht jedes anderen Tests von Θ0 zum Niveau α. Wir
sehen also, dass die Aussage des Neyman-Pearson Lemmas sich hier auch auf geeignete
zusammengesetzte Hypothesen bzw. Alternativen übertragt. Diese Idee funktioniert
auch für viele andere Verteilungsfamilien mit Dichten.
2. Im Binomial-Experiment ist die Voraussetzung des Monotonie-Kriteriums ebenfalls
leicht zu verifizieren. Wir können daher für die Konstruktion eines Tests der Hypothese
Θ0 = [0, θ∗ ] zum Niveau α einen Annahmebereich der Form A = {k : k ≤ k ∗ } wählen,
wobei k ∗ die kleinste Zahl ist mit Pθ∗ (Ac ) ≤ α. Dann gilt wieder wegen des Satzes
über monotone Likelihood-Quotienten die gleiche Abschätzung auch für alle θ ≤ θ∗ ,
dh. A ist ein Test unserer zusammengesetzten Hypothese. Allerdings ist wegen des
Sprungs zwischen k ∗ − 1 und k ∗ im allgemeinen das Niveau α = Pθ∗ (Ac ) dieses Tests
echt kleiner als α. Wieder handelt es sich für θ > θ∗ um einen Neyman-Pearson Test zu
dem Paar θ∗, θ, allerdings sagt das Neyman Pearson-Lemma jetzt nur etwas aus über
den Vergleich mit anderen Tests zu diesem kleineren Niveau α.
Schließlich ist folgendes eine allgemein verwendbare Methode, um Tests bei zusammengesetzten Hypothesen und Alternativen zu konstruieren. Man bestmmt zunächst,
z.B. mit der Maximum-Likelihood Methode, oder auch anders, Schätzer θ̂0 und θ̂1 für
die beiden Teil-Familien {Pθ : θ ∈ Θ0 } und {Pθ : θ ∈ Θ1 = Θ \ Θ0 }. Dann wählt
man als Annahmebereich einen der Neyman-Pearson-Form für die beiden geschätzten
Parameterwerte, also
L(θ̂0 (ω), ω)
A = {ω :
≥ c}.
L(θ̂1 (ω), ω)
Es zeigt sich theoretisch und praktisch, dass die so konstruierten Tests oft gut funktionieren.
4.4
Übungsaufgaben
Aufgabe 33. Ein Histogramm der relativen Häufigkeiten für die reellwertigen Daten
y1 , . . . , yn ist eine Funktion der Form
n
∞
1X X
ˆ
fn,x0 (x) =
1{y ∈B } 1{x∈Bj } ,
n i=1 j=−∞ i j
81
wobei Bj := [x0 + (j − 1)h, x0 + jh), x0 ∈ R, j ∈ Z, die Zellen des Histogramms sind.
Wenn die Daten die Realisierungen von n unabhängigen identisch verteilten Zufallsvariablen mit Dichte f sind, so kann fˆn,x0 als Näherung von f benutzt werden.
(a) Schreibe eine Prozedur, die zählt wieviele Daten yi in einer Zelle Bj liegen, wobei
x0 und die Zellenbreite h frei wählbar sind.
(b) Simuliere für n = 1.000, 10.000 und 100.000 jeweils n zum Parameter λ = 1 unabhängige exponentialverteilte Zufallsvariablen (vgl. Aufgabe 12). Benutze die Prozedur aus Teil (a) für eine graphische Darstellung der Histogramme fˆn,x0 in allen
Kombinationen aus n = 1.000, 10.000, 100.000 und Zellbreite h = 0.5, 0.1, 0.02.
Wähle in jedem der 9 Fälle x0 = 0.
(c) Man überlege sich ein geeignetes Maß, um die Qualität“ von fˆn,x0 als Schätzer für
”
die Dichte f zu ermitteln.
Tip: Für Aufgabenteil (c) ist es möglicherweise hilfreich die Histogramme aus Teil (b)
zusammen mit der Dichte f zu plotten.
Aufgabe 34. Dem Zöllner Franz Oberhuber ist die Nachricht zugespielt worden, daß
von den 40 Passagieren eines ankommenden Fährschiffes 2 Schmuggelware mit sich
führen. Da er nun einerseits nicht alle vierzig Personen kontrollieren kann, andererseits aber doch gern mindestens einen Schmuggler überführen möchte, um künftige
Schmuggler abzuschrecken, wählt er zufällig n der 40 Personen aus und kontrolliert
diese. Franz Oberhuber wählt dabei n so, daß mit einer Mindestwahrscheinlichkeit von
90% mindestens einer der Schmuggler bei der Kontrolle erwischt wird.
a) Man bestimme n exakt durch die Hypergeometrische Verteilung.
b) Man überlege sich eine näherungsweise Bestimmung von n durch Binomial-,
Poisson- und evtl. Normalapproximation. Vergleiche die Ergebnisse mit dem exakten Wert.
Aufgabe 35. Man zeige, dass (p̂1 , . . . , p̂l ) = ( n̂n1 , . . . , n̂nl ) der Maximum-LikelihoodSchätzer des Parameters θ = (p1 , . . . , pl ) einer Multinomialverteilung zum Umfang n
ist.
Aufgabe 36. Die Staatsbank von Puerto Banana möchte die Anzahl der im Umlauf
befindlichen 1000-Bananenpeso-Scheine feststellen, da die Unterlagen darüber in den
Wirren der letzten Revolution verloren gegangen sind. Bekannt ist, daß die Scheine
sechsstellige Nummern tragen, die mit 100.000 beginnend in aufsteigender Reihenfolge
ausgegeben wurden. Man nimmt an, daß noch alle Scheine im Umlauf sind. Um eine Schätzung durchzuführen, notiert ein Schalterbeamter die Nummern der ersten n
eingezahlten Scheine x1 , . . . , xn .
(a) Formuliere ein geeignetes statistisches Modell und finde den Maximum-LikelihoodSchätzer für die Anzahl der im Umlauf befindlichen Scheine.
82
(b) Gib eine kritische Bewertung dieses Schätzverfahrens.
Aufgabe 37. An N aufeinander folgenden Tagen werden je 1000 Fruchtfliegen Röntgenstrahlung ausgesetzt. Nach einiger Zeit werden die in der Nachkommenschaft aufgetretenen Mutationen gezählt: xi ist die Anzahl der mutierten Nachkommen der an Tag i
bestrahlten Fliegen. Wir nehmen an, daß die Experimente an den verschiedenen Tagen
sich nicht gegenseitig beeinflussen und daß eine Fliege mit geringer Wahrscheinlichkeit
p ≪ 1 unabhängig von den anderen Fliegen mutiert.
Begründe, warum die Poisson-Verteilung zur Modellierung geeignet ist. Berechne den
Maximum-Likelihood-Schätzer für den Parameter θ und den mittleren quadratischen
Fehler des Schätzers.
Aufgabe 38. Das Waschmittel ”Pallo” hat einen Marktanteil von 17%.
Der Hersteller initiiert nun eine Werbekampagne, um seinen Marktanteil zu steigern.
Nach Abschluß der Werbekampagne werden 2000 zufällig ausgewählte Haushalte nach
ihren Waschgewohnheiten gefragt und 362 geben an, ’Pallo” zu verwenden.
(a) Teste die Hypothese, daß die Kampagne versagt hat, gegen die Alternative, daß
sie den Marktanteil gesteigert hat.
Lege ein Niveau von 95% zugrunde.
(b) Teste zu demselben Niveau die Hypothese, daß die Kampagne den Marktanteil
gesteigert hat, gegen die Alternative, daß sie versagt hat.
Aufgabe 39. Wir wollen in dieser Aufgabe eine Monte-Carlo-Methode“ benutzen um
”
das Integral
Z 1
2
p :=
e−x dx
0
näherungsweise zu berechnen (für eine Erweiterung dieser Idee Aufgabe 54). Es sei
2
[0, 1] ∋ x 7→ f (x) := e−x ∈ [0, 1].
Es seien zunächst XNi , YNi , 1 ≤ i ≤ N, unabhängige auf [0, 1] gleichverteilte Zufallsvariablen. Dann gilt für jedes i ≤ N, daß
P (f (XNi ) ≥ YNi ) = p.
Als Schätzung für p wählen wir
p̂N :=
wobei
SN :=
N
X
i=1
1
SN
N
1{f (XNi )≥YNi } ∼ Bin(N, p).
(Man überzeuge sich selbst davon.)
83
(a) Schreibt ein Programm, welches N = 10, 100, 1.000, 10.000 und 100.000 Realisierungen von unabhängigen auf [0, 1] uniformverteilten Zufallsvariablen X, Y erzeugt.
Laßt für diese N den Schätzer p̂N berechnen und stellt die Funktion N 7→ p̂N graphisch dar.
(b) Schreibt ein Programm, welches N so bestimmt, daß die Wahrscheinlichkeit dafür,
daß p̂N mehr als 0, 01 vom wahren Wert p abweicht kleiner oder gleich 0, 05 ist.
Aufgabe 40. Nimm an, daß die Wahl des Rheinland-Pfälzischen Landtages mit folgendem Ergebnis endet: Die FDP bekommt 10% die CDU erreicht 30% der Stimmen.
(a) Das ZDF will nach der Wahl nochmal eine Umfrage durchführen. Wieviele Personen müssen befragt werden, damit mit einer Wahrscheinlichkeit größer als 95% das
Wahlergebnis (der CDU bzw. der FDP) um höchstens 1 Prozent vom Umfrageergebnis abweicht?
(b) Eine Pfälzer Lokalzeitung gibt sich damit nicht zufrieden und möchte die Genauigkeit des Verfahrens verdoppeln. In der Redaktion gibt es dazu zwei Vorschläge: Erstens man halbiert die maximale Abweichung des Wahlerergebnisses
vom Umfrageergebnis auf 0.5% oder zweitens, man nimmt statt mindestens 95%
nun 97.5% Wahrscheinlichkeit an. Was ist der Unterschied zwischen diesen beiden
Möglichkeiten? Diskutiere die obigen Zahlenbeispiele.
Tip: Benutze die Čebyšëvsche Ungleichung
Aufgabe 41. Wir untersuchen hier den MLS aus Aufgabe 36 näher. Sind X1 , . . . , Xn
die Nummern der gezogenen Scheine, dann ist der MLS für die wahre Anzahl θ der im
Umlauf befindlichen Scheine gegeben durch
θ̂n = max(X1 , . . . , Xn ) − 99999.
(a) Schreibt eine Funktion in die ihr die wahre Scheinanzahl θ, die Anzahl der gezogenen Scheine n (die Größe einer Stichprobe) und wie oft diese Anzahl gezogen wird
(also wieviele Stichproben M erzeugt werden) eingebt und die zu jeder Stichprobe
den Wert des Schätzers ausgibt.
Beachtet: Die Scheine werden von der Bank erst wieder in Umlauf gebracht nachdem alle n Nummern notiert wurden und bevor die nächste Stichprobe genommen
wird.
(b) Benutzt die Funktion aus Teil (a) um für θ = 200 ein möglichst kleines n zu
approximieren, für das
θ − Eθ θ̂n < 1.
(c) Es sei n0 ∈ N eure Approximation aus 41. Es seien M = 500 und θ̂1 , . . . , θ̂M
die Schätzungen für θ der Ausgabe obiger Funktion. Stellt den empirischen Erwartungswert dieser Schätzungen für n = 10, . . . , n0 zusammen mit dem wahren
Wert θ graphisch dar.
84
Kapitel 5
Der zentrale Grenzwertsatz und die
Normalverteilung
5.1
Binomial- und Poissonapproximation
In diesem Kapitel wollen wir nocheinmal auf zwei Ergebnisse aus den Übungen eingehen. In Aufgabe 9 und 8 haben wir Aussagen gemacht, die uns unter bestimmten Bedingungen erlauben die Wahrscheinlichkeitsgewichte der hypergeometrischen
Verteilung durch die Binomial-Verteilung, und die Wahrscheinlichkeitsgewichte der
Binomial-Verteilung durch die Poisson-Verteilung anzunähern. Solche Sätze heißen
Grenzwertsätze, sie sind für praktische Rechnungen von großer Bedeutung. Wir
haben gezeigt:
Satz 5.1. (Binomial– und Poissonapproximation)
(a) Ist n ∈ N fest und Xi eine Folge von Zufallsvariablen, die zu den Parametern si ,
wi und n hypergeometrisch verteilt sind, so daß
si → ∞, wi → ∞ und
wi
→ p,
w i + si
und ist Y eine zu den Parametern n und p binomialverteilte Zufallsvariable, so
gilt für jede Menge A ⊆ {0, . . . , n}, daß
lim P (Xi ∈ A) = P (Y ∈ A).
i→∞
(b) Ist Xn eine Folge von Zufallsvariablen, die zu den Parametern n und pn binomialverteilt sind, so daß limn→∞ npn = λ > 0, und ist Y zum Parameter λ
Poisson-verteilt, so gilt für jede endliche Menge A ⊆ N, daß
lim P (Xn ∈ A) = P (Y ∈ A).
n→∞
Auf Grund von Teil (b) dieses Satzes wird die Poisson-Verteilung auch gelegentlich als
das Gesetz der seltenen Ereignisse genannt. Warum?
85
Beachte, daß bei diesen Grenzwertsätzen nur Aussagen über die Form der Verteilungen gemacht werden und die Werte der Zufallsvariablen Xn keine Aussagekraft über
wahrscheinliche Werte von Y haben. Tatsächlich spielen die Zufallsvariablen Xn und
Y selbst in der Aussage des Satzes keine Rolle, sondern es wird nur eine Aussage über
ihre Verteilungen gemacht. Wir wollen in diesem Kapitel den zentralen Grenzwertsatz
kennenlernen, der in sehr großer Allgemeinheit eine Approximation von Verteilungen
von Summen unabhängiger, identisch verteilter Zufallsvariablen mit nahezu beliebiger
Verteilung zuläßt und für die stochastischer Praxis von riesiger Bedeutung ist.
5.2
Der zentrale Grenzwertsatz
Wir wollen in diesem Abschnitt den zentralen Grenzwertsatz formulieren und erläutern,
im nächsten Abschnitt einen wichtigen Spezialfall betrachten, und erst im letzten Abschnitt den Beweis durchführen.
Satz 5.2. (Zentraler Grenzwertsatz)
Für jedes n ∈ N seien X1n , . . . , Xnn unabhängige, reellwertige Zufallsvariablen mit γin =
E|Xin − EXin |3 < ∞. Betrachte die Zufallsvariablen
Sn =
n
X
Xin
und
i=1
Konvergiert dann für n → ∞
Sn⋆
Pn
n
n
Sn − ESn
i=1 (Xi − EXi )
= √
.
= p
Pn
n
Var Sn
Var
X
i
i=1
Pn
̺n := Pn
i=1
γin
n
i=1 Var Xi
so gilt
lim
sup
n→∞ −∞≤a<b≤∞
3/2 −→ 0 ,
Z b
n
o
1
2
⋆
e−x /2 dx = 0.
P Sn ∈ [a, b] − √
2π a
Bemerkungen: 1. Man kann jede reelle Zufallsvariable X mit positiver endlicher Varianz durch eine Verschiebung und anschließende Skalentransformation standardisieren (’to standardise’), dh. auf Erwartungswert 0 und Varianz 1 bringen, indem man
sie erst zentriert und dann durch die Streuung teilt:
X∗ =
Da ESn =
ist
Pn
i=1
X − EX
.
σ(X)
EXin und, nach dem Satz von Bienaymé, Var Sn =
Pn
n
n
Sn − ESn
⋆
i=1 (Xi − EXi )
= p
Sn = √
Pn
n
Var Sn
i=1 Var Xi
die standardisierte Summe der X1n , . . . , Xnn .
86
Pn
i=1
Var Xin gelten,
2. Wie in Satz 5.1 ist die Aussage des zentralen Grenzwertsatzes eine Aussage über die
Verteilungen der Zufallsvariablen Sn . Es ist daher nicht erforderlich, einen Wahrscheinlichkeitsraum zu kennen, auf dem alle X11 , X12 , X22 , . . . existieren, sondern es genügt, für
jedes n einen Wahrscheinlichkeitsraum zu kennen, auf dem Sn definiert werden kann.
3. Die Bedingung ̺n → 0 soll sicherstellen, daß die beteiligten Zufallsvariablen von
vergleichbarer Größenordnung sind. Betrachten wir dazu ein Beispiel: Sind Y1n , . . . , Ynn
unabhängig und zum Parameter pn Bernoulliverteilt, dh. mit qn = 1 − pn gilt
P (Yin = 1) = pn und P (Yin = 0) = qn ,
so ist EYin = pn , Var Yin = pn qn . Sn ist zu den Parametern n und pn binomialverteilt
und Var Sn = npn qn . Außerdem ist
γin = E|Yin − pn |3 = p3n qn + pn qn3 .
Folglich ist
n(p3n qn + pn qn3 )
.
(npn qn )3/2
√
Konvergiert pn langsam gegen 0, etwa pn = p/ n, so gilt limn→∞ ̺n = 0 und die Voraussetzungen des zentralen Grenzwertsatzes sind erfüllt, konvergiert pn schnell gegen
0, etwa pn = p/n, so gilt limn→∞ ̺n = √1p und der zentrale Grenzwertsatz gilt nicht (in
diesem Fall strebt die Verteilung von Sn nach Satz 5.1 gegen die Poisson-Verteilung !).
̺n =
Ein wichtiger Spezialfall unseres Satzes ist die folgende klassische Version des zentralen
Grenzwertsatzes.
Satz 5.3. (Klassischer zentraler Grenzwertsatz)
Sind X1 , X2 , . . . , unabhängige, identisch verteilte Zufallsvariablen mit µ = EXi < ∞,
σ 2 := Var Xi > 0 und E|Xi |3 < ∞, so betrachte
n
Sn⋆
1 X Xi − µ
.
=√
n i=1
σ
Dann gilt für alle −∞ ≤ a < b ≤ ∞
Z b
n
o
1
2
⋆
lim P Sn ∈ [a, b] = √
e−x /2 dx .
n→∞
2π a
Beweis: Wir setzen Xin = Xi und beobachten, daß
̺n :=
1
n3/2 σ 3
n
X
i=1
E|Xi − µ|3 =
E|Xi − µ|3
√
−→ 0 ,
σ3 n
da E|Xi − µ|3 < ∞ und σ 2 = E|X − EX|2 < ∞. Dies folgt aus der Jensenschen
Ungleichung, die wir gleich beweisen werden.
Bemerkung: Die Voraussetzung E|Xi |3 < ∞ läßt sich durch verfeinerte Beweismethoden zu Var Xi < ∞ abschwächen (vgl. letztes Kapitel).
87
Satz 5.4. (Jensensche Ungleichung) 1
Ist ϕ : R → R eine konvexe, meßbare Funktion und X eine Zufallsvariable, so daß EX
und Eϕ(X) definiert sind, so ist
ϕ(EX) ≤ Eϕ(X) .
Beweis: Eine Funktion ϕ : R → R ist konvex, wenn es für jedes x eine Gerade G
(die Stützgerade in x) gibt mit G(x) = ϕ(x) und G(y) ≤ ϕ(y) für y ∈ R. Dann gilt
für die Stützgerade in EX unter Ausnutzung der Eigenschaften des Erwartungswertes
ϕ(EX) = G(EX) = E(G(X)) ≤ Eϕ(X) .
Folgerungen: Wenn E|X|3 < ∞, so ist durch die Jensensche Ungleichung angewandt
auf die konvexe Funktion ϕ(x) = |x|3/2 auch
[E|X|2 ]3/2 = ϕ(E|X|2 ) ≤ Eϕ(|X|2)E|X|3 < ∞ ,
also E|X|2 < ∞. Mit ϕ(x) = x2 folgt auch [E|X|]2 ≤ E|X|2 < ∞ und insbesondere
sind Varianz, Erwartungswert und (durch Auflösen) auch E|X − EX|3 endlich.
5.3
Die Normalverteilung
Es ist nun eine interessante Frage, ob wir in unserer Grenzwertaussage
Z b
o
n
1
2
⋆
lim P Sn ∈ [a, b] = √
e−x /2 dx
n→∞
2π a
die rechte Seite, wie in Satz 5.1, als Verteilung einer Zufallsvariablen auffassen können.
Eine solche Verteilung hätte universellen Charakter, denn sie würde die normierten
Summen von jeder Folge unabhängig identisch verteilter Zufallsvariablen approximieren. Diese Verteilung gibt es tatsächlich, es ist die Standardnormalverteilung.
Satz 5.5. Für jedes µ ∈ R und σ 2 > 0 ist die Funktion ϕµ,σ : R → [0, ∞) mit
ϕµ,σ (x) = √
1
2πσ 2
e
−(x−µ)2
2σ 2
eine Wahrscheinlichkeitsdichte. Die zu dieser Dichte gehörige Wahrscheinlichkeitsverteilung heißt Normalverteilung zu den Parametern µ und σ 2 und im Falle µ = 0,
σ 2 = 1 schreibt man ϕ = ϕ0,1 und nennt die Verteilung einfach Standardnormalverteilung. In diesem Fall heißt die Funktion ϕ auch Gaußsche Glockenkurve.
Bemerkung: Man bezeichnet die zur Standardnormalverteilung gehörige Verteilungsfunktion Φ als Gaußsche Fehlerfunktion, also
Z x
−x2
1
e 2 dx .
Φ(x) = √
2π −∞
1
Johan Ludwig Jensen (1859-1925)
88
Dieses Integral läßt sich nicht geschlossen lösen, aber die Werte von Φ sind in vielen
Büchern tabelliert (z.Bsp. Krengel, Tabellenanhang).
Beweis: Es gilt durch Substituition
Z
Z
Z
−(x−µ)2
−x2
1
1
2
e 2σ dx = √
e 2 dx .
ϕµ,σ (x) dx = √
2π
2πσ 2
Ferner ist
hZ
Z Z
Z 2π Z ∞
i2
−x2 −y 2
−r 2
1
e 2 dx dy =
ϕ(x) dx =
e 2 r dr dθ ,
2π
0
0
durch Übergang zu Polarkoordinaten. Dieses Integral hat den Wert
2π[− exp(−r 2 /2)]∞
0 = 2π,
also sind die ϕµ,σ Wahrscheinlichkeitsdichten.
Warum tritt die Standardnormalverteilung an so entscheidender Stelle in Erscheinung?
Im Beweis des zentralen Grenzwertsatzes spielt die folgende wichtige Eigenschaft eine
tragende Rolle:
Satz 5.6.
(a) Ist X standardnormalverteilt, µ ∈ R und σ 2 > 0, so ist σX +µ zu den Parametern
µ und σ 2 normalverteilt.
(b) Sind X und Y unabhängig und zu den Parametern µ, σ 2 beziehungsweise ν, τ 2
normalverteilt, so ist X + Y zu den Parametern µ + ν und σ 2 + τ 2 normalverteilt.
Beweis: Siehe Übungsaufgabe 30.
Lemma 5.7. Ist X zu den
Parametern µ und σ 2 normalverteilt, so gilt EX = µ,
p
Var X = σ 2 und E|X|3 = 8/πσ 3 .
Beweis: Um nachzuweisen, daß die Parameter µ und σ 2 Erwartungswert und Varianz
der Normalverteilung sind, wollen wir uns auf die Standardnormalverteilung konzentrieren, die anderen Fälle lassen sich durch Satz 5.6 leicht darauf zurückführen. Für ϕ
können wir unsere Formeln aus dem vorherigen Kapitel anwenden
Z
EX = xϕ(x) dx = 0
aus Symmetriegründen und
Var X =
Z
1
x ϕ(x) dx = √
2π
2
89
Z
x2 · e
−x2
2
dx .
Durch partielle Integration folgt
Z
Z
Z
√
−x2
−x2
2 /2
−x
2
∞
2
) dx = −[x exp(−x /2)]−∞ − −e 2 dx = 2π .
x · e 2 dx = x · (xe
Also ist Var X = 1. Schließlich gilt auch (nach Übungsaufgabe 25)
Z ∞
Z
−x2
2
3
3
x3 · e 2 dx
E|X| = |x| ϕ(x) dx = √
2π 0
und durch partielle Integration
Z
Z ∞
−x2
3
2
dx = 2
x ·e
0
0
3
also E|X| =
5.4
√4
2π
=
q
∞
x·e
−x2
2
dx = 2 ,
8
.
π
Konvergenz von Verteilungen
Wir wollen an dieser Stelle den Konvergenzbegriff unserer Grenzwertsätze formalisieren. Es handelt sich dabei um einen Konvergenzbegriff von Verteilungen, nicht von
Zufallsvariablen.
Definition 5.8. Sind Pn und P Verteilungen auf R mit Verteilungsfunktionen Fn (x) =
Pn ((−∞, x]) und F (x) = P ((−∞, x]), so sagt man die Verteilungen Pn konvergieren
gegen P , wenn gilt
Fn (x) −→ F (x)
für alle Punkte x, in denen F stetig ist. Sind Xn , X Zufallsvariablen mit Verteilungen
Pn und P , so sagt man auch, daß Xn in Verteilung gegen X strebt.
Beispiele:
• Ist Xn = 1/n die konstante Zufallsvariable mit Wert 1/n und X0 = 0 die konstante Zufallsvariable mit Wert 0, so hat die Verteilung von Xn die Verteilungsfunktion Fn = 1[1/n,∞) und die Verteilung von X0 hat die Verteilungsfunktion
F = 1[0,∞). Also gilt limn→∞ Fn (x) = F (x) für alle x 6= 0.
• Sind X1 , . . . , Xn unabhängig identisch verteilt mit EXj = µ und Var Xj = σ 2 <
∞ so gilt nach dem schwachen
Gesetz der großen Zahlen für die Verteilung Fn
P
der Mittelwerte (1/n) nj=1 Xj
lim Fn (x) = lim P
n→∞
n→∞
n
1 X
n
j=1
1 falls x > µ
Xi ≤ x =
0 falls x < µ.
Also konvergiert die Verteilung der Mittelwerte gegen die Verteilung der konstanten Zufallsvariable X = µ, deren Verteilungsfunktion F (x) = 1[µ,∞) für alle x 6= µ
stetig ist (die Dirac Verteilung in µ).
90
Wir erhalten nun eine kompakte Umformulierung des klassischen zentralen Grenzwertsatzes.
Satz 5.9. (Klassischer zentraler Grenzwertsatz, zweite Formulierung)
Ist X1 , X2 , . . . eine Folge von unabhängigen, identisch verteilten, Zufallsvariablen mit
positiver Varianz und E|Xi |3 < ∞ und ist Sn⋆ die Folge der normierten Teilsummen,
so konvergiert die Verteilung von Sn⋆ gegen die Standardnormalverteilung.
5.5
Der Satz von de Moivre–Laplace
Wir wollen einen wichtigen Spezialfall des zentralen Grenzwertsatzes genauer betrachten. Wir wenden uns dazu einem konkreten Problem zu:
Wie schon des öfteren zuvor betrachten wir n unabhängige Wiederholungen eines Zufallsexperimentes und interessieren uns für die Anzahl derjenigen Wiederholungen, bei
denen ein bestimmtes Ereignis, das jedesmal die Wahrscheinlichkeit 0 < p < 1 hat,
auftritt. Formal modellieren wir diese Situation durch einen Wahrscheinlichkeitsraum
(Ω, A, P ) mit Ω = {0, 1}n , A = P(Ω) und P ({x}) = pi q n−i, wobei q = 1 − p und i die
Anzahl der Einsen im Tupel x ∈ Ω ist, und Zufallsvariablen Xi (x) = xi , wobei Xi = 1
bedeutet, daß unser Ereignis in der i–ten Wiederholung auftritt. Die Zufallsvariablen Xi
sind unabhängig und identisch
Pn verteilt und es gilt P (Xi = 1) = p und P (Xi = 0) = q.
Die Zufallsvariable Sn = i=1 Xi nimmt Werte in {0, . . . , n} an und bestimmt eben
die Anzahl derjenigen Wiederholungen, bei denen unser Ereignis auftritt. Wir wissen,
daß für jedes A ⊆ {0, . . . , n} gilt
X n
pk q n−k
P (Sn ∈ A) =
k
k∈A
mit anderen Worten Sn ist binomialverteilt zu den Parametern n und p. Für große
Werte von n ist allerdings die Berechnung dieser Werte praktisch kaum zu bewältigen.
Möchte man etwa ausrechnen, wie groß die Wahrscheinlichkeit ist, bei 600 Würfelwürfen
mindestens 90, aber höchstens 100 Sechsen zu erhalten, so muß man
100 X
600
k=90
k
(1/6)k (5/6)600−k
berechnen, was zu aufwendig ist. Hier hilft nur der zentrale Grenzwertsatz, von dem
wir folgenden Spezialfall betrachten.
Satz 5.10. (Grenzwertsatz von de Moivre–Laplace) 2
Ist 0 < p < 1 und Sn zu den Parametern n und p binomialverteilt, so gilt
β − np α − np = 0.
lim sup P α ≤ Sn ≤ β − Φ √
−Φ √
n→∞ α<β npq
npq
2
Abraham de Moivre
91
Bemerkung: Hier wird eine diskrete Verteilung, nämlich die Binomial-Verteilung,
durch eine Verteilung mit Dichte, die Standardnormalverteilung, angenähert.
Beweis: Unsere Zufallsvariablen X1 , X2 , . . . , Xn sind unabhängig, identisch verteilt mit
E|Xi |3 = p und wir können Satz 5.2 anwenden. Wir erhalten
lim
sup
n→∞ −∞≤a<b≤∞
n S − ES
o n
n
√
∈
[a,
b]
−
Φ(b)
−
Φ(a)
P
= 0.
Var Sn
√
Nun ist ESn = np und Var Sn = npq. Wir können an = (α − np)/ npq und bn =
√
(β − np)/ npq einsetzen und erhalten
n
o Sn − np
lim P an ≤ √
≤ bn − Φ(bn ) − Φ(an ) = 0.
n→∞
npq
Dann folgt die Behauptung, da
o
n
Sn − np
≤ bn = P α ≤ Sn ≤ β .
P an ≤ √
npq
Der Satz von de Moivre–Laplace erlaubt uns nun eine näherungsweise Lösung unseres
ursprünglichen Problems: Gesucht war für p = 1/6 und n = 600 der Wert von P (90 ≤
Sn ≤ 100). Wenn wir davon ausgehen, daß unser Grenzwert bereits greift (und was
√
bleibt uns anderes übrig), erhalten wir aus np = 100 und npq ≈ 9.13 die Annnäherung
P (90 ≤ Sn ≤ 100) ≈ Φ(0) − Φ(−1.095) = Φ(1.095) − 1/2 ≈ 0.36
durch eine Symmetriebetrachtung und die einschlägigen Tabellen. Eine kleine Zusatzüberlegung erlaubt hier aber die wesentliche Verbesserung des Schätzwertes. Da
Sn nur ganzzahlige Werte annimmt, ist
P (90 ≤ Sn ≤ 100) = P (89.5 ≤ Sn ≤ 100.5) .
Die zusätzliche Symmetrie führt zu einer schnelleren Konvergenz und wir erhalten
P (90 ≤ Sn ≤ 100) ≈ Φ(0.5/9.13) − Φ(−10.5/9.13) ≈ Φ(0.055) − Φ(−1.15) ≈ 0.397 .
Der exakte Wert liegt bei 0.4025. Man sollte diese Korrektur immer durchführen. Wenn
p nicht zu nahe bei 0 oder 1 liegt, erhält man schon für kleinere Werte von n brauchbare
Näherungen.
92
5.6
Der Beweis des zentralen Grenzwertsatzes
Wir wollen den Beweis in drei Schritten führen:
I. Sind die Zufallsvariablen Y1 , . . . , Yn unabhängig und zu den Parametern 0 und vj2
normalverteilt, so ist
n
X
⋆
Tn =
Yi
standardnormalverteilt, falls
Pn
j=1
i=1
vj2 = 1.
II. Für jede Funktion f ∈ C 3 (R) mit |f ′′′ (x)| ≤ C gilt
p
1 + 8/π
⋆
⋆
· ̺n → 0 .
|Ef (Sn ) − Ef (Tn )| ≤ C
6
III. Für f = 1[a,b] gilt Ef (Sn⋆ ) = P (Sn⋆ ∈ [a, b]) und Ef (Tn⋆ ) = Φ(b) − Φ(a). Approximiere f also durch glatte Funktionen und benutze Teil II, um zu zeigen, daß für
jedes δ > 0 ein n = n(δ) existiert, so daß
P (Sn⋆ ∈ [a, b]) − (Φ(b) − Φ(a)) = |Ef (Sn⋆ ) − Ef (Tn⋆ )| ≤ √3δ .
2π
Hängt dieses n nicht von a, b ab, so ist Satz 5.2 bewiesen.
Aussage
direkt aus Satz 5.6b), die Summe der Yi ist nämlich zu den Parametern
PI folgt
0 und
vj2 = 1 normalverteilt, also standardnormalverteilt.
Wenden wir uns Aussage II zu. Wir beweisen folgendes Lemma:
Lemma 5.11. Sind X1 , . . . , Xn und Y1 , . . . , Yn unabhängige Zufallsvariablen mit
j =
PEX
n
2
3
3
EYj = 0, Var
P Xj = Var Yj = vj und E|Xj | , E|Yj | < ∞, und setzt man Rn = i=1 Xi
und Tn = ni=1 Yi , so gilt für jede Funktion f ∈ C 3 (R) mit |f ′′′ (x)| ≤ C , daß
|Ef (Rn ) − Ef (Tn )| ≤ (C/6)
n X
i=1
E|Xi |3 + E|Yi |3 .
Beweis: Nach der Taylorschen Formel gilt
f (x + h) = f (x) + h · f ′ (x) + h2 /2 · f ′′ (x) + R(x, h) ,
wobei für das Restglied gilt
|R(x, h)| ≤ |h3 /6 · f ′′′ (ξ)| ≤ C/6 · |h|3 .
Setzen wir nun x = Rn−1 , h = Xn und somit x + h = Rn , so erhalten wir daraus
Ef (Rn ) = Ef (Rn−1 ) + E Xn · f ′ (Rn−1 ) + E Xn2 /2 · f ′′ (Rn−1 ) + E R(Rn−1 , Xn ) .
93
Nun ist
E Xn · f ′ (Rn−1 ) = EXn · Ef ′ (Rn−1 ) = 0
und
Ebenso erhält man
1
E Xn2 /2 · f ′′ (Rn−1 ) = vn2 · Ef ′′ (Rn−1 ) .
2
1
Ef (Rn−1 + Yn ) = Ef (Rn−1 ) + vn2 · E f ′′ (Rn−1 ) + E R(Rn−1 , Yn ) .
2
Daraus folgt durch Subtraktion
Ef
(R
)−Ef
(R
+Y
)
=
ER(R
,
X
)−ER(R
,
Y
)
≤
(C/6)
E|Xn |3 +E|Yn |3 ) .
n
n−1
n n−1
n
n−1
n Analog sieht man
≤
(C/6)
E|Xn−1 |3 + E|Yn−1 |3 )
Ef
(R
+
X
+
Y
)
−
Ef
(R
+
Y
+
Y
)
n−2
n−1
n
n−2
n−1
n und durch Wiederholung dieses Argumentes folgt die Behauptung induktiv.
Um den zweiten Schritt abzuschließen, wenden wir dieses Lemma auf die Zufallsvariablen
n
X
Xjn − EXjn
√
Xj =
, wobei Sn =
Xjn ,
Var Sn
j=1
√
Pn
an. Beachte, daß j=1 Xj = Sn⋆ . Schreibe kurz sn Var Sn . Wir haben dann EXj = 0
Pn
2
⋆
und Var Xj = Var Xjn /s2n = vj2 . Beachte, daß
j=1 vj = Var Sn = 1. Wir wählen
ein Tupel Y1 , . . . , Yn von unabhängigen zu den Parametern 0 und vj2 normalverteilten
Zufallsvariablen.
Beachte, daß wir verwenden, daß es einen Wahrscheinlichkeitsraum gibt auf dem unabhängige Zufallsvariablen X1 , . . . , Xn und Y1 , . . . , Yn mit den vorgegebenen Verteilungen definiert werden können,
Pn wir verwenden also die Existenz von Produktverteilungen.
⋆
Nach Teil I ist Tn = i=1 Yi standardnormalverteilt. Außerdem ist E|Xj |3 = γjn /s3n
und nach Lemma 5.7 und der Jensenschen Ungleichung gilt
E|Yj |3 =
p
p
(Var Xjn )3/2 p
γjn
≤
.
8/π vj3 8/π
8/π
s3n
s3n
Mit unserem Lemma folgt dann
r n
p
n C X
1 + 8/π
8 γj
⋆
⋆
=C
1+
· ̺n
E f (Sn ) − f (Tn ) ≤
6 j=1
π s3n
6
und dies ist Aussage II.
Wenden wir uns nun Aussage III zu, die den Beweis abschließt. Für f = 1[a,b] und δ > 0
finden wir eine Funktion fδ : R → [0, 1] ∈ C 3 (R) mit |fδ′′′ (x)| ≤ κ(δ) und
1 wenn x ∈ [a, b],
fδ (x) =
0 wenn x 6∈ [a − δ, b + δ].
94
Die Zahl κ(δ) hängt dabei nur von δ nicht aber von a, b ab. Wir haben nun die Ungleichungskette
1[a−δ,b+δ] (x) ≥ fδ (x) ≥ 1[a,b] (x) = f (x) .
q
Es folgt, daß für k(δ) = κ(δ)/6 · (1 + π8 ) gilt
P (Sn⋆ ∈ [a, b]) =
≤
≤
=
Ef (Sn⋆ ) ≤ Efδ (Sn⋆ )
Efδ (Tn⋆ ) + k(δ) · ̺n
E1[a−δ,b+δ] (Tn⋆ ) + k(δ) · ̺n
P (T ⋆ ∈ [a − δ, b + δ]) + k(δ) · ̺n
n
= Φ(b + δ) − Φ(a − δ) + k(δ) · ̺n .
Genauso zeigt man
Beachte nun, daß
P (Sn⋆ ∈ [a, b]) ≥ Φ(b − δ) − Φ(a + δ) − k(δ) · ̺n .
1 |Φ(x) − Φ(y)| ≤ √ 2π
Z
x
−t2 /2
e
y
1
dt ≤ √ |x − y| .
2π
Man kann also, da ̺n → 0, zu gegebenem δ > 0, ein n unabhängig von a, b finden, so
daß
δ
k(δ) · ̺n ≤ √
2π
und erhält, wie gewünscht,
3δ
P (Sn⋆ ∈ [a, b]) − Φ(b) − Φ(a) ≤ √ .
2π
Dies beendet Teil III und damit den Beweis des zentralen Grenzwertsatzes.
5.7
Übungsaufgaben
Aufgabe 42. Für zwei Wahrscheinlichkeitsmaße P bzw. Q auf der gleichen σ-Algebra
A heißt
dT V (P, Q) := sup {|P (A) − Q(A)|}
A∈A
ihr Totalvariationsabstand .
(a) Zeigt, dass im Fall (Ω, A) = (N, P(N)) gilt
dT V (P, Q) =
∞
1X
|P ({n}) − Q({n})| .
2 n=1
Tip: Man kann die beiden Teilmengen A± von N betrachten, auf denen P ≥ Q
bzw. P < Q gilt.
95
(b) Was bedeutet es jeweils, wenn dT V (P, Q) = 0 oder dT V (P, Q) = 1?
(c) Sei Pn eine Folge von Wahrscheinlichkeitsverteilungen auf N, die (in Verteilung)
gegen eine Verteilung P kovergieren. Zeige: P (N) = 1 und dT V (Pn , P ) → 0.
(d) Sei 0 < p < 1 und q = 1 − p. Sei Sn zu den Parametern n und p binomialverteilt
und Pn sei die Verteilung der Standardisierung Sn∗ von Sn . Zeige: Die Folge (Pn )
konvergiert gegen N (0, 1), aber dT V Pn , N (0, 1) = 1 für alle n.
Aufgabe 43. In dieser Aufgabe soll die Konvergenz der Binomial-Verteilungen gegen
die Poisson-Verteilung aus Satz 5.1 näher untersucht werden.
(a) Berechnet für jede Kombination aus λ = 1, 34 , 21 , 41 und n = 100, 101, 102, . . . , 1000
den Totalvariationsabstand von Bin(n, nλ ) und Poi(λ).
(b) Berechnet für jede Kombination aus pn = n−1 + n−1,25 , n−1 + n−1,5 , n−1 + n−1,75
und n = 100, 101, 102, . . . , 1000 den Totalvariationsabstand von Bin(n, pn ) und
Poi(1). Stellt für jeden der vier Fälle pn = n−1 , n−1 + n−1,25 , n−1 + n−1,5 und
n−1 + n−1,75
{100, 101, . . . , 1000} ∋ n 7→ dT V (Bin(n, pn ), Poi(1))
im selben Plot graphisch dar.
(c) Findet eine (möglichst ’einfache’) Abbildung f : R+ → R die den funktionellen Zusammenhang zwischen n und dT V (Bin(n, n−1 ), Poi(1)) im Bereich n ∈
{100, 101, . . . , 1000} gut widerspiegelt. Stellt schließlich
{100, 101, . . . , 1000} ∋ n 7→ dT V (Bin(n, n−1 ), Poi(1))
und
{100, 101, . . . , 1000} ∋ n 7→ f (n)
gemeinsam graphisch dar.
Aufgabe 44. Sei X standardnormalverteilt. Zeige EX 4 = 3 und folgere Var X 2 = 2.
Aufgabe 45. (a) Sei X : Ω −→ R eine Zufallsvariable mit Dichte f : R −→ [0, ∞]
und ϕ : R −→ R ein Diffeomorphismus. Zeige, daß die Zufallsvariable ϕ ◦ X die
Dichte |(ϕ−1)′ | · f ◦ ϕ−1 hat. (Vgl. Kapitel 7 für eine mehrdimensionale Form
dieses Sachverhalts.)
(b) Zeige: Ist X standardnormalverteilt, µ ∈ R und σ 2 > 0, so ist σX + µ zu den
Parametern µ und σ 2 normalverteilt.
(c) Sei X zu den Parametern µ und σ 2 normalverteilt. Berechne für α ∈ R den
Erwartungswert E(eαX ).
(d) Zeige: Sind X und Y unabhängig und zu den Parametern µ, σ 2 bzw. ν, τ 2 normalverteilt, so ist X + Y zu den Parametern µ + ν und σ 2 + τ 2 normalverteilt.
96
Aufgabe 46. Es sei X eine Zufallsvariable mit
1
P(X = 1) = P(X = 2) = P(X = 9) = .
3
{Xi }i∈N sei eine Folge unabhängiger Zufallsvariablen mit Xi ∼ X für alle i ∈ N.
(a) Stellt für n = 1, 4, 16, 64 die zur Verteilung von
Yn := X1 + · · · + Xn
gehörige Wahrscheinlichkeitsfolge in Form eines Balkendiagramms zusammen mit
der Dichte der Normalverteilung N (µ, σ 2), mit µ = EYn und σ 2 = Var Yn , graphisch dar.
Hinweis: Verwendet die Formel für Faltung diskreter Verteilungen.
(b) Es seien P und Q Verteilungen auf (R, B(R)) mit zugehörigen Verteilungsfunktionen F und G. Dann nennt man (den Abstand der Verteilungsfunktionen bezüglich
der Supremumsnorm)
dK (P, Q) := sup |F (x) − G(x)|
x∈R
auch Kolmogorov-Abstand von P und Q. Berechnet für n = 1, 4, 16, 64 den
Kolmogorov-Abstand zwischen der Verteilung von Yn und N (µ, σ 2). Dabei seien
Yn , µ und σ 2 wie in Teil (a).
(Frage: Erhaltet ihr ein anderes Ergebnis, wenn ihr dK zwischen der Verteilung
der Standardisierung Yn⋆ und N (0, 1) berechnet?)
Aufgabe 47. (a) Eine Zufallsvariable X heißt lognormal-verteilt zu den Parametern µ und σ 2 , wenn loge X normalverteilt zu den Parametern µ und σ 2 ist. Hat
X eine Dichte und, wenn ja, welche?
(b) Das Einkommen der Kaiserslauterer Studenten soll durch eine Lognormal-Verteilung
modelliert werden. Wie müssen µ und σ 2 gewählt werden, wenn man weiß, daß
der Erwartungswert 600 Euro und die Standardabweichung 200 Euro beträgt?
Aufgabe 48. Sei (Ω, A, Pθ )θ∈Θ ) mit Θ ⊂ R ein statistisches Experiment mit einem
eindimensionalen Parameter. Seien tu , to zwei reellwertige Statistiken mit tu ≤ to . Das
zufällige Intervall [tu , to ] heißt ein Konfidenzintervall zum Vertrauensniveau 1 − α,
wenn für jeden Parameter θ gilt
Pθ {θ ∈ [tu , to ]} ≥ 1 − α.
Diese Aufgabe gibt ein Beispiel. Ein weiteres folgt in Aufgabe 67.
Simuliert, für jedes n = 100, 200, . . . , 1000 und i = 1, . . . , 1000, Realisierungen X1i , . . . , Xni
von unabhängig N (µ, σ 2)-verteilten Zufallgrössen. µ und σ 2 > 0 sind hierbei frei
wählbar; die einzigste Bedingung ist, daß, für feste i und n, X1i , . . . , Xni Realisierungen
97
von derselben N (µ, σ 2)-Verteilung sind. Berechnet für jedes i = 1, . . . , 1000 und jedes
n = 100, 200, . . . , 1000 die Grenzen des Intervalls
n
n
σ
σ
1X i
1X i
Xk − √ q0.975 ,
Xk + √ q0.975 )
(
n
n
n
n
k=1
k=1
(5.1)
und berechnet für jedes n = 100, 200, . . . , 1000 die relative Häufigkeit, daß das µ welches
ihr zur Simulation der jeweiligen X1i , . . . , Xni benutzt habt in das entsprechende Intervall
fällt. Stellt die errechneten relativen Häufigkeiten in Abhängigkeit von n graphisch dar.
Hinweis: q0.975 ist das 0.975-Quantil der Standardnormalverteilung. (d.h. ist Φ die
Gaußsche Fehlerfunktion, dann gilt Φ(q0.975 ) = 0.975.)
(Was passiert, falls man andere Quantile der Standardnormalverteilung in (5.1) verwendet?)
Aufgabe 49. (a) Seien X1 , . . . , Xn unabhängige, nichtnegative Zufallsvariablen mit
EXi = ∞. Zeige, daß für alle N ∈ N
!
n
1X
Xi > N −→ 1.
P
n i=1
Hinweis: Betrachte min(Xi , k) für verschiedene k ∈ N.
(b) Zeige, daß durch
1 1
π 1 + x2
eine Wahrscheinlichkeitsdichte gegeben ist. Eine Zufallsvariable X mit Dichte f
heißt Cauchyverteilt. Hat X einen Erwartungswert und, wenn ja, welchen?
Wie verhält sich für eine unabhängige Folge (Xi ) von Cauchyverteilten Zufallsvariablen und festes N ∈ N die Wahrscheinlichkeit
!
n
X
1
|Xi| > N
P
n i=1
f (x) =
für n → ∞?
Aufgabe 50.
a) Eine Maschine stellt Stifte variabler Länge her: Die durchschnittliche Länge der Stifte läßt sich einstellen, die Maschine arbeitet dann so genau,
daß die Länge von 90% der hergestellten Stifte von der vorgegebenen Länge um
weniger als 5 mm abweichen. Ingenieur Kowalski weiß aus Erfahrung, daß die
Längen der Stifte etwa normalverteilt sind. Wie muß er den Mittelwert bei der
Maschine einstellen, damit 98% der Stifte länger als 50 mm sind?
b) Zur Kontrolle, ob sich die Einstellung der Maschine von allein verändert hat,
nimmt Ingenieur Kowalski eine Stichprobe von 5 Stiften. Das arithmetische Mittel
der Längen beträgt 54,3 mm. Wie ist das arithmetische Mittel verteilt? Wir
nehmen an, daß sich die Genauigkeit nicht verändert hat. Läßt sich aus dieser
Stichprobe auf dem 95%-Niveau schließen, daß sich der Mittelwert verändert hat?
98
Aufgabe 51. Es sei Y eine Zufallsvariable mit EY = 0, Var Y = 1 und E |Y |3 < ∞.
Setze X := σY + µ für ein µ ∈ R und ein σ ∈ R+ . Weiterhin sei {Xi }i∈N eine Folge
unabhängiger Zufallsvariablen derart, daß L(Xi ) = L(X) für alle i ∈ N. Schließlich sei
n
1X
X̄n :=
Xi .
n i=1
a) σ sei bekannt. Konstruiert mit Hilfe des zentralen Grenzwertsatzes einen Test für
die Hypothese µ ≤ 1 zum approximativen Niveau α, d.h. gebt eine Folge {cn }
reeller Zahlen, so daß
lim sup Pµ (X̄ ≥ cn ) = α.
n→∞ µ≤1
b) Die Xi seien nun exponentialverteilt mit unbekanntem Parameter λ. Behandelt
die analoge Frage zu Teil a) für die Hypothese λ ≥ γ für eine festes γ.
Beachtet dass nun die Varianz auch unbekannt ist.
c) Ein übliches Qualitätsmaß für Festplatten ist die mittlere Zeit bis zum Ausfall,
mtbf (mean time before failure), d.h. der Erwartungswert µ der Zufallsvariablen,
die die Lebensdauer der Festplatte beschreibt. Die Lebensdauer wird durch eine
Exponentialverteilung modelliert. Die Beobachtung von 100 Platten ergibt eine
mittlere Lebensdauer von 85 200 h. Zu welchem Niveau wird bei dem obigen
Verfahren die Hypothese mtbf ≤ 83000 verworfen?
Aufgabe 52. Sei Sn zu den Parametern n und pn binomialverteilt. Sei Sn∗ die Standardisierung von Sn . Zeige: Wenn npn → ∞ und pn → 0, dann konvergiert Sn∗ in
Verteilung gegen eine N (0, 1) verteilte Zufallsvariable.
99
100
Kapitel 6
Unabhängige Folgen von
Zufallsvariablen und das starke
Gesetz der großen Zahlen
6.1
Existenz von unabhängigen Folgen von Zufallsvariablen
In diesem Kapitel wollen wir Eigenschaften von unabhängigen Folgen von reellwertigen
Zufallsvariablen
X1 , X2 , X3 , . . . : Ω −→ R
untersuchen. Es sei noch einmal daran erinnert, daß eine solche Folge unabhängig
heißt, wenn für jede endliche Indexmenge I ⊆ N und jede endliche Familie (Ai )i∈I von
Borelmengen die Produktformel
Y
P Xi ∈ Ai für alle i ∈ I =
P (Xi ∈ Ai )
i∈I
gilt. Das Studium dieser Folgen lohnt sich, da es eine große Zahl an Beispielen gibt,
die in Wahrscheinlichkeitstheorie und Statistik immer wieder auftreten. Die Existenz
der stochastischen Modelle sichert der folgende Satz.
Satz 6.1. Zu jeder Folge P1 , P2 , P3 , . . . von Wahrscheinlichkeitsverteilungen über einem
Meßraum (R, B) existiert ein Wahrscheinlichkeitsraum (Ω, A, P ) und eine unabhängige
Folge von Zufallsvariablen
X 1 , X2 , X3 , . . . : Ω → R ,
so daß die Zufallsvariable Xi die Verteilung Pi hat, das heißt, daß P (Xi ∈ A) = Pi (A)
für jede Borelmenge A ⊆ R.
Wir können mit unseren Mitteln keinen vollen Beweis dieses Satzes geben, aber wir
wollen gleich anschließend eine Strategie skizzieren, wie im reellwertigen Fall eine solche Folge von Zufallsvariablen konstruiert werden kann. Die Sätze der kommenden
101
Abschnitte nehmen keinen expliziten Bezug auf die Konstruktion dieses stochastischen
Modells.
Zur Zeit kennen wir nur das in Aufgabe 18 konstruierte Beispiel für eine unendliche
Folge von Zufallsvariablen Yi mit P (Yi = 0) = P (Yi = 1) = 1/2 auf dem uniformen
Wahrscheinlichkeitsraum zu Ω = (0, 1]. Wir wollen nun durch eine Verallgemeinerung
des Tricks aus Aufgabe 18 zu jeder Folge P1 , P2 , P3 , . . . von eindimensionalen Verteilungen eine unabhängige Folge von Zufallsvariablen X1 , X2 , X3 , . . . mit den vorgegebenen
Verteilungen auf dem uniformen Wahrscheinlichkeitsraum zu Ω = (0, 1] konstruieren.
Konstruktion: Definiere die Zufallsvariablen Yi wie in Aufgabe 18 durch
0 wenn 2i ω ∈ (k, k + 1/2] für ein k ∈ N,
Yi (ω) =
1 wenn 2i ω ∈ (k + 1/2, k] für ein k ∈ N.
Dort wurde gezeigt, daß die Yi unabhängig sind und P (Yi = 0) = P (Yi = 1) = 1/2.
Wir definieren nun Zufallsvariablen Xi,k , die durch Umindizierung von Yi nach dem
folgenden Cantorschen Diagonalschema entstehen
 
X1,1 X1,2 X1,3 . . . ,   Y1 Y3 Y6 . . . ,
Y2 Y5 Y9 . . . ,
X2,1 X2,2 X2,3 . . . ,
=
 
Y4 Y8 Y13 . . . .
X3,1 X3,2 X3,3 . . . ,
Da die Xi,k nur Umbenennungen der Yi sind, sind sie ebenfalls unabhängig und haben
dieselbe Verteilung wie die Yi . Für jedes ω konvergiert die Reihe
Zk (ω) =
∞
X
Xi,k (ω)
i=1
2i
.
Man kann zeigen, daß die Zufallsvariablen Zk unabhängig sind und auf dem Intervall
(0, 1] uniform verteilt sind. Wir betrachten die zu den Pi gehörigen Verteilungsfunktionen Fi und definieren, wie schon im ersten Kapitel, die Zufallsvariablen Xk durch
Xk (ω) = inf{x : Fk (x) ≥ Zk (ω)} .
Wieder sind die Xk unabhängig und nach Korollar 1.8 haben die Zufallsvariablen Xk
die Verteilungsfunktion Fk . Also ist die Verteilung von Xk auch Pk .
6.2
Konvergenz von Zufallsvariablen
Wenn man eine Folge von Zahlen hat, so ist eine der natürlichsten Fragen über die Natur
dieser Folge die Frage der Konvergenz der Folge. Dies gilt genauso für Folgen zufälliger
Zahlen, mit anderen Worten für Folgen von Zufallsvariablen. Wir wollen daher jetzt
zwei natürliche Konvergenzbegriffe für Zufallsvariablen einführen. Der erste Begriff,
die stochastische Konvergenz (’stochastic convergence’), ist durch das schwache
Gesetz der großen Zahlen motiviert.
102
Definition 6.2. Eine Folge von reellwertigen Zufallsvariablen X1 , X2 , X3 , . . . konvergiert stochastisch oder in Wahrscheinlichkeit (’convergence in probability’) gegen
eine auf demselben Wahrscheinlichkeitsraum definierte Zufallsvariable X, wenn für jedes ε > 0 gilt
n→∞
P Xn − X > ε −→ 0 .
Wir können nun das schwache Gesetz der großen Zahlen noch einmal mit anderen
Worten formulieren:
Satz 6.3. Ist X1 , X2 , X3 , . . . eine unabhängige Folge von integrierbaren Zufallsvariablen mit gleichem Erwartungswert µ und beschränkter Varianz, so konvergiert die Folge
n
Sn =
1X
Xi
n i=1
der Mittelwerte stochastisch gegen die konstante Zufallsvariable µ.
Wir haben Zufallsvariablen ursprünglich als (meßbare) Funktionen eingeführt und haben daher einen zweiten scheinbar natürlichen Konvergenzbegriff zur Verfügung, die
punktweise Konvergenz
Xn (ω) −→ X(ω) für alle ω ∈ Ω.
Um einen solchen Konvergenzbegriff für die Wahrscheinlichkeitstheorie interessant zu
machen, muß man ihn allerdings ein wenig modifizieren, um zu verhindern, daß Ereignisse, die nur mit Wahrscheinlichkeit 0 eintreten können, also P –Nullmengen, die
Konvergenz zerstören können.
Definition 6.4. Eine Folge von reellwertigen Zufallsvariablen X1 , X2 , X3 , . . . konvergiert fast sicher (’almost surely’) oder fast überall (’almost everywhere’) - abgekürzt
f.s. oder f.ü. bzw. englisch a.s. oder a.e. - gegen eine auf demselben Wahrscheinlichkeitsraum definierte Zufallsvariable X, wenn gilt
n
o
P ω : lim Xn (ω) = X(ω)
= 1.
n→∞
Bemerkung: Man beachte, daß {ω ∈ Ω : lim supn→∞ Xn (ω) > X(ω)} und {ω ∈
Ω : lim inf n→∞ Xn (ω) < X(ω)} Ereignisse sind (siehe Aufgabe 3) und damit auch
{ω : limn→∞ Xn (ω) = X(ω)} als das Komplementärereignis zur Vereinigung dieser
beiden Ereignisse ein Ereignis ist.
Hier ist eine nützliche Umformulierung der fast sicheren Konvergenz:
Lemma 6.5. Genau dann konvergiert eine Folge X1 , X2 , . . . von Zufallsvariablen fast
sicher gegen eine Zufallsvariable X, wenn für alle ε > 0 gilt
n
o
P ω ∈ Ω : |Xn (ω) − X(ω)|ε für unendlich viele n ∈ N
= 0.
103
Beweis: Wenn Xn (ω) → X(ω), so gibt es für jedes ε > 0 ein n ∈ N mit |Xi (ω)−X(ω)| ≤
ε für alle i ≥ n und daher ist
n
o n
o
ω : Xn (ω) → X(ω) ⊆ ω ∈ Ω : |Xn (ω) − X(ω)|ε für endlich viele n ∈ N .
Wenn also Xn → X fast sicher, so muß diese Menge Wahrscheinlichkeit 1 haben und
ihr Komplement hat folglich Wahrscheinlichkeit Null. Gilt andererseits für alle ε > 0
unsere Bedingung, so folgt durch Vereinigung über alle ε = 1/k, daß
n
o
P ω ∈ Ω : es gibt ein k mit |Xn (ω) − X(ω)|1/k für unendlich viele n ∈ N
= 0.
Also gilt durch Betrachtung des Komplementes
n
o
P ω ∈ Ω : für alle k gilt |Xn (ω) − X(ω)| > 1/k nur für endlich viele n ∈ N
= 1.
Diese Menge ist aber gerade die Menge aller ω, für die Xn (ω) → X(ω).
Wie hängen nun unsere beiden Konvergenzbegriffe miteinander zusammen? Es stellt
sich heraus, daß der Begriff der stochastischen Konvergenz schwächer ist.
Satz 6.6. Jede Folge X1 , X2 , . . . von reellwertigen Zufallsvariablen, die fast sicher gegen eine reellwertige Zufallsvariable X konvergiert, konvergiert auch stochastisch gegen
X. Die Umkehrung dieser Aussage gilt aber nicht immer.
Beweis: Wenn X1 , X2 , . . . fast sicher gegen X konvergiert, so gilt für jedes ε > 0 nach
Satz 1.2
lim sup P |Xn − X| > ε ≤ lim sup P |Xi − X| > ε für ein i ≥ n
n→∞
n→∞
∞ n
\
o
=P
|Xi − X| > ε für ein i ≥ n
= P |Xi − X| > ε für unendlich viele i = 0 ,
n=1
also konvergiert die Folge auch in Wahrscheinlichkeit.
Andererseits betrachten wir auf Ω = (0, 1] mit der uniformen Verteilung P Zufallsvariablen Xn,k für 1 ≤ k ≤ n, die durch
< ω ≤ nk ,
1 wenn k−1
n
Xn,k (ω) =
0 sonst,
definiert sind. Die Folge X1 , X2 , X3 , . . . sei nun die durch
X1,1 , X2,1 , X2,2 , X3,1 , X3,2 , X3,3 , . . .
gegebene natürliche Anordnung dieser Zufallsvariablen. Dann konvergiert diese Folge
in Wahrscheinlichkeit gegen 0, da
1
P |Xn,k | > ε ≤ ,
n
andererseits gibt es für jedes ω ∈ Ω und jedes n ∈ N ein 1 ≤ k ≤ n mit Xn,k = 1,
so daß Xm (ω) nicht gegen 0 streben kann und somit auch die Folge nicht fast sicher
konvergieren kann.
Es gibt aber dennoch eine teilweise Umkehrung dieses Satzes:
104
Satz 6.7. Wenn eine Folge X1 , X2 , . . . von reellwertigen Zufallsvariablen in Wahrscheinlichkeit gegen die reellwertige Zufallsvariable X strebt, so gibt es eine Teilfolge
Xn1 , Xn2 , . . . die fast sicher gegen X strebt.
Beweis: Nach Voraussetzung gilt für jedes k > 0
k
lim P |Xn − X| > 1/2 = 0 .
n→∞
Daher gibt es ein nk > nk−1 mit
1
P |Xnk − X| > 1/2k ≤ k .
2
Damit konvergiert also die Reihe
∞
∞
X
X
1
k
< ∞.
P |Xnk − X| > 1/2 ≤
2k
k=1
k=1
Nach dem Lemma von Borel–Cantelli gilt nun
P |Xnk − X| > 1/2k für unendlich viele k = 0
und dies bedeutet nach Lemma 6.5, daß Xnk → X fast sicher.
Man sieht anhand des Beispiels aus dem Beweis von Satz 6.6, daß der obige Satz
plausibel ist: Wählt man die durch X1,1 , X2,1 , . . . gegebene Teilfolge, so konvergiert
diese fast sicher.
6.3
Das starke Gesetz der großen Zahlen
Es ist eine interessante Frage, ob wir das schwache Gesetz der großen Zahlen verschärfen
können, indem wir statt stochastischer sogar fast sichere Konvergenz der Zufallsvariablen erzielen. Dies ist die Aussage des starken Gesetzes der großen Zahlen von Rajchman (1932). Die hier praktizierte Beweismethode ist typisch für die Argumentationsweise in einigen Bereichen der Wahrscheinlichkeitstheorie, Hauptingredienzen des
Beweises sind das Lemma von Borel–Cantelli und die Čebyšëvsche Ungleichung.
Satz 6.8. (Starkes Gesetz der großen Zahlen)
Ist X1 , X2 , X3 , . . . eine unabhängige Folge von integrierbaren Zufallsvariablen mit gleichem Erwartungswert µ und beschränkter Varianz, so konvergiert die Folge
n
1X
Sn =
Xi
n i=1
der Mittelwerte fast sicher gegen die konstante Zufallsvariable µ.
105
Beweis: Zunächst beobachten wir, daß es ausreicht, den Fall µ = 0 zu betrachten, da
wir ansonsten zu den Zufallsvariablen Xi − µ übergehen können. Ist nun M > 0 eine
obere Schranke für die Varianzen, so gilt nach dem Satz von Bienaymé
n
M
1 X
Var(Xi ) ≤
Var Sn = 2
n i=1
n
und, da ESn = 0, gilt nach der Čebyšëvschen Ungleichung für jedes ε > 0
M
P |Sn | > ε ≤ 2 .
nε
Daher konvergiert die Reihe
∞
∞
X
X
M
P |Sn2 | > ε ≤
<∞
n2 ε2
n=1
n=1
und wir erhalten nach dem Lemma von Borel–Cantelli, daß
P |Sn2 | > ε für unendlich viele n ∈ N = 0 .
Dies bedeutet nach Lemma 6.5 gerade, daß für die Teilfolge Sn2 von Sn gilt
Sn2 −→ 0 fast sicher.
(6.1)
Um von dieser Teilfolge auf die Konvergenz der Gesamtfolge zu schließen, müssen wir
zeigen, daß ein beliebiges Sk vom nächstgelegenen Sn2 nicht stark abweichen kann. Für
jedes k gibt es nun ein n, so daß n2 < k ≤ (n + 1)2 . Nach der Dreiecksungleichung gilt
für jedes solche k und jedes ω ∈ Ω
Sk (ω) ≤ Sn2 (ω) +
max
n2 <k≤(n+1)2
Wenn es uns nun gelingt zu zeigen, daß
Dn (ω) :=
max
n2 <k≤(n+1)2
k
1 X
X
(ω)
.
i
n2
2
i=n +1
k
1 X
X
(ω)
−→ 0 fast sicher,
i
n2
2
(6.2)
i=n +1
so folgt schließlich, daß auch Sk selbst fast sicher gegen 0 strebt.
Um nun (6.2) zu zeigen, wenden wir denselben Trick wie bisher auf unsere neue Folge
Dn an. Dazu zeigen wir zunächst, daß die Erwartungswerte von Dn2 quadratisch gegen
106
0 streben. Nach dem Satz von Bienaymé
EDn2
1
≤
n4
1
=
n4
1
=
n4
≤
(n+1)2
X
k=n2 +1
(n+1)2
X
k=n2 +1
(n+1)2
X
k
2
X
Xi
E
i=n2 +1
Var
k
X
Xi
i=n2 +1
k
X
Var Xi
k=n2 +1 i=n2 +1
4M
1
2n · 2n · M = 2 .
4
n
n
Nun gilt (wie im Beweis der Čebyšëvschen Ungleichung)
1
4M
P Dn > ε = E 1{Dn2 >ε2 } ≤ E 2 Dn2 ≤ 2 2 .
ε
εn
Also konvergiert die Reihe
∞
∞
X
X
4M
P Dn > ε ≤
< ∞.
2 n2
ε
n=1
n=1
Nach dem Lemma von Borel–Cantelli ist somit
P Dn > ε für unendlich viele n ∈ N = 0
und nach Lemma 6.5 folgt also, wie gewünscht, Dn −→ 0 fast sicher.
Bemerkungen:
• Wie auch schon im Beweis des schwachen Gesetzes braucht man nicht die volle
Strenge des Unabhängigkeitsbegriffs, sondern es genügt, daß die Zufallsvariablen
paarweise unabhängig oder sogar nur paarweise unkorreliert sind!
• Die Voraussetzung der Beschränktheit der Varianzen im Gesetz der großen Zahlen kann mit verbesserten Beweismethoden wegdiskutiert werden (Kolmogorov’s
Gesetz der großen Zahlen). Eine Verallgemeinerung des Gesetzes der großen Zahlen für Folgen von möglicherweise abhängigen Zufallsvariablen (die dann aber
eine stärkere Annahme an die gemeinsamen Verteilungen der Xi erfordert) ist
der Ergodensatz .
• Hier haben wir eine stärkere Rechtfertigung für das Heranziehen von relativen
Häufigkeiten bei der Definition von Wahrscheinlichkeiten als im schwachen Gesetz
der großen Zahlen: Wird ein Experiment unabhängig wiederholt und beobachten wir in jeder Wiederholung, ob ein bestimmtes Ereignis Ai , das jeweils die
Wahrscheinlichkeit p hat, eintritt oder nicht, so gilt
n
1X
1A −→ E1Ai = p
n i=1 i
107
fast sicher, also konvergiert die relative Häufigkeit, mit der das Ereignis eintritt,
sogar fast sicher gegen p.
6.4
Konvergenz von Reihen von Zufallsvariablen
P∞ 1
Aus der Analysis wissen wir, daß
die
harmonische
Reihe
n=1 n divergiert, wohingegen
P∞
n1
ihr alternierendes Gegenstück n=1 (−1) n nach dem Leibniz–Kriterium konvergiert.
Es ist nun eine naheliegende Frage, ob auch die Reihe
∞
X
εn
n=1
1
n
konvergiert, wenn εn zufällig gewählte Vorzeichen sind, genauer gesagt, wenn ε1 , ε2, ε3 , . . .
eine unabhängige Folge von Zufallsvariablen mit P (εn = 1) = P (εn = −1) = 1/2 ist.
Wir wollen diese Frage in diesem Kapitel mit Hilfe eines allgemeinen Satzes beantworten, der für eine Folge von unabhängigen Zufallsvariablen X1 , X2 , X3 , . . . mit EXn = 0
ein Kriterium für die fast sichere Konvergenz von Reihen der Form
∞
X
n=1
an · Xn
gibt. Das heißt natürlich, daß die Folge der Partialsummen fast sicher konvergiert.
Haupthilfsmittel in unserem Beweis ist die folgende Verallgemeinerung der Čebyšëvschen
Ungleichung.
Lemma 6.9. (Maximalungleichung von Kolmogorov)
P
Sind X1 , . . . , Xn unabhängige Zufallsvariablen mit EXj = 0 und ist Sj = jk=1 Xk , so
gilt für jedes ε > 0
Var S
n
P max |Sj | ≥ ε ≤
.
2
1≤j≤n
ε
Bemerkung:Da |Sn | ≤ max1≤j≤n |Sj | ist dies wirklich eine Verallgemeinerung der
Čebyšëvschen Ungleichung.
Beweis: Fixiere ε > 0 und definiere
n
o
Λ = ω ∈ Ω : max |Sj (ω)| ≥ ε .
1≤j≤n
Definiere eine Zufallsvariable
min{1 ≤ j ≤ n : |Sj (ω)| ≥ ε} falls ω ∈ Λ,
N(ω)
0
sonst.
Die Zufallsvariable N gibt an, wann die Folge der |Sj | erstmals ε überschreitet. Es folgt
108
nun
n
n
o
n
o
X
E 1Λ Sn2
=
E 1{N (ω)=k} Sn2
k=1
n
n
h
i2 o
X
=
E 1{N (ω)=k} Sk + (Sn − Sk )
k=1
n
o
n
o
n
X
2
≥
E 1{N (ω)=k} [Sk ] + E 1{N (ω)=k} 2Sk (Sn − Sk )
k=1
Nun ist die Zufallsvariable 1{N (ω)=k} Sk eine Funktion von X1 , . . . , Xk und die Zufallsvariable Sn − Sk ist eine Funktion von Xk+1 , . . . , Xn . Also sind sie unabhängig und es
gilt
n
o
n
o n
o
E 1{N (ω)=k} Sk (Sn − Sk ) = E 1{N (ω)=k} Sk E (Sn − Sk ) = 0 .
Daher ist
n o
n
o
2
2
Var(Sn ) = E Sn ≥ E 1Λ Sn
n
n
o
o X
n
n
X
2
2
E 1{N (ω)=k} ε
≥
E 1{N (ω)=k} [Sk ] ≥
k=1
2
2
= ε · P (Λ) = ε · P
k=1
max |Sj | ≥ ε ,
1≤j≤n
was zu beweisen war.
Satz 6.10. Ist X1 , X2 , X3 , . . . eine unabhängige Folge von integrierbaren Zufallsvariablen mit EXn =P
0 und beschränkter Varianz und an eine Folge von nichtnegativen
2
reellen Zahlen mit ∞
i=1 ai < ∞, so konvergiert die Reihe
∞
X
n=1
an · Xn
fast sicher.
Beweis: Sei M > 0 eine obere Schranke für die Varianzen. Bezeichne für n < N die
Partialsummen unserer Reihe mit Sn,N , also
Sn,N =
N
X
j=n
aj · Xj .
Dann gilt ESn,N = 0 und nach dem Satz von Bienayme
Var Sn,N =
N
X
j=n
Var aj Xj ≤ M ·
109
N
X
j=n
a2j .
Nach der zuletzt bewiesenen Maximalungleichung gilt für jedes ε > 0 und n < N
P
N
M X
a2j .
max |Sn,m | ≥ ε ≤ 2 ·
n≤m≤N
ε j=n
Setzt man nun Sn = supm≥n |Sn,m |, so gilt wegen der Stetigkeit von P , daß
∞ n
o
[
max |Sn,m| > ε
P |Sn | > ε = P
n≤m≤N
N =1
∞
M X 2
a .
= lim P max |Sn,m | > ε ≤ 2 ·
N →∞
n≤m≤N
ε j=n j
Daher ist für alle n
P sup |Sk | ≥ ε ≤ P sup |Sn,k | + |Sn | ≥ ε
k≥n
k≥n
= P |Sn | ≥ ε/2
∞
9M X
≤ P |Sn | > ε/3 ≤ 2 ·
a2j .
ε
j=n
Wieder mit der Stetigkeit von P und aus der Konvergenz der Reihe
P
a2j folgt, daß
∞ n
\
o
P lim sup |Sn | ≥ ε = P
sup |Sk | ≥ ε
= lim P sup |Sk | ≥ ε = 0.
n→∞
n=1
n→∞
k≥n
k≥n
Damit folgt schließlich
∞ n
o
[
lim sup |Sn | ≥ (1/k)
= 0.
P lim sup |Sn | > 0 = P
n→∞
k=1
n→∞
Also strebt die Folge Sn fast sicher gegen 0 und somit konvergiert die Reihe fast sicher.
110
Bemerkungen:
• Satz 6.10 ist ein Spezialfall des Kolmogorovschen Drei–Reihen–Satzes. Dieser gibt für eine Folge X1 , X2 , . . . von unabhängigen, reellwertigen Zufallsvariable
P
als hinreichendes und notwendiges Kriterium für die Konvergenz der Reihe Xn ,
daß für ein ε > 0 die drei Reihen
∞
∞
∞
n
o
n
o
X
X
X
P (|Xn| > ε) ,
E 1{|Xn |≤ε} Xn und
Var 1{|Xn |≤ε} Xn
n=1
n=1
n=1
konvergieren. In unserem Fall konvergiert die erste Reihe, da
Ma2n
Var(an Xn )
≤
nach Čebyšëv,
P (|an Xn | > ε) ≤
ε2
ε2
die zweite Reihe, da
n
n
o
o
E 1{|an Xn |≤ε} an Xn = E 1{|an Xn |>ε} an Xn p
p
≤
P ({|an Xn | > ε}) E{(an Xn )2 }
r
Ma2n p 2
M 2
≤
a nach Cauchy–Schwarz,
an M =
2
ε
ε n
und die dritte Reihe, da
n
o
n
o
2
2
Var 1{|an Xn |≤ε}an Xn ≤ E 1{|an Xn |≤ε}an Xn ≤ E a2n Xn2 ≤ Ma2n nach Steiner.
• Nach dem so genannten Lemma von Kronecker impliziert für eine fallend gegen 0
strebende Folge a1 , a2 , P
. . . von nichtnegativen Zahlen
P und beliebiges x1 , x2 , . . . die
Konvergenz der Reihe
an xn , daß die Folge an ni=1 xi gegen 0 strebt. Satz 6.10
ist also stärker als Rajchmans starkes Gesetz der großen Zahlen und impliziert
dieses bei Wahl von an = 1/n.
Unser Satz erlaubt es nun, die eingangs gestellte Frage zu beantworten:
Korollar 6.11. Ist ε1 , ε2 , . . . eine unabhängige Folge von Zufallsvariablen mit P (εn =
1)
P =2 P (εn = −1) = 1/2 und a1 , a2 , a3 , . . . eine Folge von nichtnegativen Zahlen mit
ai < ∞, so konvergiert die mit zufälligen Vorzeichen versehene Reihe
∞
X
εn an
n=1
fast sicher. Insbesondere konvergiert die mit zufälligen Vorzeichen versehene harmonische Reihe
∞
X
1
εn
n
n=1
fast sicher.
Bemerkung: Das hier angegebene Kriterium für die Konvergenz der Reihe
stellt sich auch als notwendig heraus.
111
P
(+/−)an
6.5
Die eindimensionale symmetrische Irrfahrt
Wir betrachten ein sehr altes wahrscheinlichkeitstheoretisches Problem: Ein Wanderer
bewegt sich auf den ganzen Zahlen. Er beginnt im Nullpunkt und jeder Schritt führt ihn
zu einem der beiden Nachbarpunkte seines Standorts und zwar zufällig, so daß er alle
Schritte unabhängig sind und er jeden Nachbarpunkt mit gleicher Wahrscheinlichkeit
besucht. Dieses Experiment läßt sich wie folgt modellieren:
Sei S0 = 0 der Startpunkt der Wanderung und X1 , X2 , X3 , . . . unabhängige Zufallsvariablen mit P (Xi = 1) = P (Xi = −1) = 1/2. Die Position des Wanderers nach n
Schritten ist dann
n
X
Sn =
Xi .
i=1
Da die Folge Xi nur Werte vom Betrag eins annimmt, kann die Folge der Sn nicht
konvergieren. Es stellen sich aber eine ganze Reihe natürlicher Fragen an den Weg, den
unser Wanderer zurücklegt:
• Wo ist der Wanderer nach n Schritten? Wie ist Sn verteilt?
• Wird der Wanderer wieder zurück zum Startpunkt finden? Wie groß ist
P (Sn = 0)?
Wir wollen diese Fragen in diesem Abschnitt beantworten.
Zunächst beobachten wir, daß der Wanderer in jedem Schritt von einer geraden zu einer
ungeraden Zahl oder von einer ungeraden zu einer geraden Zahl wandert. Er ist also
zu allen geraden Zeiten bei einer geraden Zahl und zu allen ungeraden Zeiten bei einer
ungeraden Zahl. Nehmen wir also einmal an, daß wir eine gerade Anzahl an Schritten,
etwa 2n, gemacht haben. Wie groß ist die Wahrscheinlichkeit, daß wir im Punkt 2j
sind?
Satz 6.12.
P (S2n = 2j) =
2n
n+j
2−2n = 2−2n
(2n)!
.
(n + j)!(n − j)!
Beweis: Wir wissen, daß die Zufallsvariable, die die Anzahl der Schritte vom Typ “+1”
zählt, also
n
X
1{Xi =1}
Yn =
i=1
zu den Parametern n und p binomialverteilt ist. Außerdem ist S2n eine Funktion von
Y2n nämlich
S2n = Y2n − (2n − Y2n ) = 2Y2n − 2n .
Folglich gilt
P (S2n = 2j) = P Y2n
=j+n
2n
n+j
112
2−2n = 2−2n
(2n)!
.
(n + j)!(n − j)!
Wir erhalten daraus auch eine Formel für die ungeraden Zeiten.
m
für alle Paare (m, k) ∈ N × Z für
Korollar 6.13. Es gilt P (Sm = k) = 2−m m+k
2
die entweder m und k beide gerade oder m und k beide ungerade sind.
Beweis: Wir erhalten aus dem letzten Satz die Behauptung für gerade m und k. Ferner
ist
P (S2n+1 = 2j + 1) = P S2n = 2j und X2n+1 = 1 + P S2n = 2j + 2 und X2n+1 = −1
= P S2n = 2j P X2n+1 = 1 + P S2n = 2j + 2 P X2n+1 = −1
2n
2n
−2n−1
2−2n−1
2
+
=
n+j+1
n+j
2n + 1
2−2n−1 .
=
n+j+1
Dies impliziert die Behauptung für ungerade m, k.
Damit haben wir formal die erste Frage beantwortet. Wir wissen jetzt, wo sich der
Wanderer mit welcher Wahrscheinlichkeit aufhält. Insbesondere wissen wir
P (S2n = 0) = 2−2n
(2n)!
.
n!n!
Für den nächsten Satz benötigen wir noch ein elementares Lemma. Es ist eine Version des so genannten Spiegelungsprinzips“. Dieser Name erklärt sich aus dem Beweis.
”
Lemma 6.14. Seien k, m, a, r ∈ N mit k < m. Dann ist die Zahl der Pfade von (k, a)
nach (m, r), die Null besuchen, gleich der Zahl aller Pfade von (k, −a) nach (m, r).
Beweis: Sei s = (sk , . . . , sm ) ein Pfad der ersten Art, d.h. sk = a, sm = r und s2l = 0
für ein l mit k < 2l < n. Sei l0 = min{l > k/2 : s2l = 0}. Wir spiegeln den Anfang
des Pfades s nach unten und erhalten einen Pfad s′ = (−a, . . . , s2l0 = 0, . . . , r) der
zweiten Art und man sieht leicht, daß die Zuordnung s 7→ s′ eine Bijektion zwischen
den betrachteten Pfadmengen darstellt.
Der folgende Satz zeigt eine etwas überraschende Gleichheit auf:
Satz 6.15. Es gilt
P (S2n = 0) = P (S1 6= 0, . . . , S2n 6= 0) = P (S1 ≥ 0, . . . , S2n ≥ 0).
Beweis: Aus Symmetriegründen ist P (S1 6= 0, . . . , S2n 6= 0) = 2P (S1 > 0, . . . , S2n > 0).
Sei (s0 , . . . , s2n ) ein Pfad mit si > 0 für alle i ≥ 1. Wenn man den Ursprung nach
(1, 1) verlegt, erhält man einen neuen Pfad (s′0 , . . . , s′2n−1 ) mit s′i ≥ 0 für alle i. Wegen
s′2n−1 > 0 läßt sich dieser Pfad auf zwei Weisen so fortsetzen, daß auch s′2n ≥ 0 ist.
113
Umgekehrt entsteht jeder nichtnegative Pfad auf diese Art aus einem strikt positiven
Pfad, d.h. es gibt doppelt so viele nichtnegative wie strikt positive Pfade. Daraus folgt
die erste Gleichheit. Die erste folgt aus dem Lemma und der folgenden Rechnung
P (S1 > 0, . . . , S2n
n
X
1
> 0) =
#{positive Pfade von (0,0) nach (2n,2r)}
22n
r=1
n
X
1
(#{alle Pfade von (1,1) nach (2n, 2r)}
2n
2
r=1
=
n
X
=
r=1
− #{alle Pfade von (1,-1) nach (2n, 2r)})
1
(P (S2n−1 = 2r − 1) − P (S2n−1 = 2r + 1))
2
1
P (S2n−1 = 1)
2
1
#{Pfade von 0 nach (2n − 1, 1)}
22n
1
(#{Pfade von 0 nach (2n − 1, 1)}
2n+1
2
+#{Pfade von 0 nach (2n − 1, −1)})
1
#{Pfade von 0 nach (2n, 0)}
2n+1
2
1
P (S2n = 0).
2
=
=
=
=
=
Nun wollen wir uns der folgenden Frage widmen: Wie stark fällt die Wahrscheinlichkeit,
daß der Wanderer im Nullpunkt ist, wenn die Zeit wächst? Um dies besser zu verstehen
benötigen wir die Stirling Formel , die von J. Stirling 1 1730 entdeckt wurde. Diese
Formel ist auch in vielen anderen Zusammenhängen in der Stochastik von Nutzen (man
kann sie etwa zum Beweis des Satzes von de Moivre-Laplace benutzen).
Satz 6.16. (Stirling Formel)
Es gilt
n!
√ =
n→∞ nn e−n n
lim
√
2π .
Wir wollen auf den Beweis hier verzichten, er kann im Buch von Krengel nachgelesen
werden. Mit Hilfe der Stirlingschen Formel erhalten wir nun
Satz 6.17. Die Wahrscheinlichkeit, √
daß der Wanderer zum Zeitpunkt 2n im Nullpunkt
ist, verhält sich asymptotisch wie 1/ nπ, das heißt es gilt
√
lim nπ · P (S2n = 0) = 1 .
n→∞
1
James Stirling (1692- 1770)
114
Beweis:
lim
n→∞
√
nπ·P (S2n = 0) = lim
n→∞
√
√ √
2n −2n
√
2n 2π
(2n)!
(2n)
e
nπ·2−2n
= lim nπ·2−2n
√ √ 2 = 1.
n
−n
n→∞
n!n!
(n e
n 2π)
Korollar 6.18. Es gilt ebenso
√
√
lim nπP (S1 6= 0, . . . , S2n 6= 0) = lim nπP (S1 ≥ 0, . . . , S2n ≥ 0) = 1.
n→∞
n→∞
Wir wollen nun mit Hilfe dieser Formel zeigen:
Unser Wanderer kehrt fast sicher zum Ursprung seiner Wanderung zurück. Man sagt,
die eindimensionale symmetrische Irrfahrt sei rekurrent (’recurrent’).
Satz 6.19.
P S2j 6= 0 für alle j ≥ 1 = 0 .
Beweis: Nach dem Stetigkeitssatz 1.2 gilt
∞ n
\
o
P S2j 6= 0 für alle j ≥ 1 = P
S2j 6= 0 für alle 1 ≤ j ≤ n
n=1
=
lim P S2j 6= 0 für alle 1 ≤ j ≤ n = 0 .
n→∞
Betrachten wir schließlich die erwartete Zahl der Besuche des Wanderers im Nullpunkt.
Satz 6.20. Wenn Rn die Anzahl der Besuche des Wanderers im Nullpunkt bis zur
Zeit 2n ist, so gilt
2
ERn
lim √ = √ .
n→∞
n
π
Beweis: Definiere Yn = 1{S2n =0} und sei
Rn = Y0 + · · · + Yn
die Anzahl der Besuche des Wanderers im Nullpunkt bis zur Zeit 2n. Der Erwartungswert von Rn ist
n
n
X
X
ERn =
EYj =
P ({S2j = 0})
j=0
j=0
und daher gilt
n
ERn
1 X
lim √ = lim √
P ({S2j = 0}) .
n→∞
n→∞
n
n j=1
115
Nach dem letzten Satz gibt es für jedes ε > 0 ein k, so daß für alle j ≥ k gilt
p
1 j · P (S2j = 0) − √ ≤ ε .
π
Daher ist
n
n
n
X
X
1
1
X
p
1
1
1
√ −ε ·
√ ≤
√ · jP ({S2j = 0}) ≤ √ + ε ·
√ .
π
π
nj
nj
nj
j=k
j=k
j=k
(6.3)
Durch Abschätzung mit Integralen erhält man, für n → ∞,
Z n
n
X
√
1
1
2 √
dx
√ ≤√
√ ≤ √ ( n − k − 1) −→ 2
n k−1 x
n
nj
j=k
und
Z n+1
n
X
√
1
2 √
dx
1
√ ≥√
√ ≥ √ ( n + 1 − k) −→ 2 .
n k
x
n
nj
j=k
Also konvergieren die obere und die untere Schranke in (6.3) und somit gilt auch (für
festes k)
n
X
1
√ P ({S2j = 0})
lim sup
n
n→∞
j=1
n
k
X
X
p
1
1
√ + lim sup
√ · jP ({S2j = 0})
≤ lim sup
n
nj
n→∞
n→∞
j=1
j=k
1
≤ 2 √ +ε .
π
und
n
n
1
X
X
p
1
1
√ P ({S2j = 0}) ≥ lim inf
√ · jP ({S2j = 0}) ≥ 2 √ − ε .
lim inf
n→∞
n→∞
n
π
nj
j=1
j=k
Da nun ε > 0 beliebig war, folgt, daß
n
ERn
2
1 X
lim √ = lim √
P ({S2j = 0}) = √ .
n→∞
n→∞
n
n j=1
π
Die erwartete Anzahle
p n der Besuche im Nullpunkt nach 2n Schritten verhält sich also
asymptotisch wie 2 π .
Das Modell der eindimensionalen symmetrischen Irrfahrt ist natürlich für die meisten praktischen Zwecke zu einfach. Bei der Modellierung von Glücksspielen wird man
verlangen, daß die Schritte eine kompliziertere Form haben können (also Xi eine andere Verteilung haben darf), für das Studium von zufälligen Teilchenbewegungen wird
116
man höherdimensionale Irrfahrten betrachten, also die Sn als Wanderung auf einem
höherdimensionalen Gitter oder einem Graphen modellieren, und schließlich möchte
man, zum Beispiel bei der Modellierung von Aktienkursen oder komplizierteren Teilchenbewegungen wie der Brownschen Bewegung, statt einer schrittweisen Bewegung
des Teilchens eine kontinuierliche Bewegung in der Zeit betrachten. All dies führt zu
interessanten mathematischen Fragen, die die Wahrscheinlichkeitstheorie und insbesondere ihre Teildisziplin, die Theorie stochastischer Prozesse, zu beantworten versucht.
6.6
Übungsaufgaben
Aufgabe 53. In der Ebene sind parallele Geraden im Abstand a gezogen. Auf die
Ebene wird zufällig eine Nadel der Länge l ≤ a geworfen. Dabei bedeutet zufällig,
daß der Abstand des Nadelmittelpunktes von der nächsten Geraden und der Winkel
zwischen der Nadel und dieser Geraden auf [0, a2 ] bzw. [0, π] unabhängig uniform verteilt
sind.
Dieses Experiment wird n Mal wiederholt, und Xn sei die Anzahl der Würfe, in denen
eine Gerade getroffen wird.
(a) Zeige, daß
2l n
fast sicher gegen π strebt.
·
a Xn
(b) Simuliere dieses Experiment im Falle a = 2l.
Aufgabe 54. (Monte Carlo-Verfahren in der numerischen Integration, vgl. auch Aufgabe 39) Sei X1 , X2 , . . . eine unabhängig identisch verteilte Folge von Zufallsvariablen
mit Dichte p : R → [0, ∞) und E|(f (Xi ))|2 < ∞.
(a) Zeige, mit Hilfe des starken Gesetzes der großen Zahlen, daß fast sicher
Z ∞
n
1 X
lim
f (Xj ) =
f (x) p(x) dx.
n→∞ n
−∞
j=1
(b) Berechne auf dieser Grundlage näherungsweise
Z ∞
Z πp
3
sin x dx,
e−x sin x dx.
0
0
(c) Gib eine Abschätzung für die Fehlerwahrscheinlichkeit
Z ∞
n
1 X
f (Xj ) −
f (x) p(x) dx| > ε}.
P {|
n j=1
−∞
Aufgabe 55. Sei X1 , X2 , . . . eine Folge unabhängig, identisch verteilter integrierbarer
Zufallsvariablen mit
EXi = µ, VarXi = σ 2 > 0 und E|Xi |3 < ∞.
117
Zeige, daß für alle α ≤
1
2
weder in Wahrscheinlichkeit noch fast sicher
lim
n→∞
n
1 X
(Xi − µ) = 0.
nα i=1
Hinweis: Benutze den zentralen Grenzwertsatz.
Aufgabe 56. (Cantellis starkes Gesetz der großen Zahlen)
Ist X1 , X2 , . . . , eine unabhängige Folge von integrierbaren Zufallsvariablen mit EXi =
µ, VarXi = σ 2 und so, daß für ein M > 0 gilt E|Xi |4 < M für alle i, so zeige:
(a) Es gibt ein C > 0 so, daß
"
#4 
n
n
n
X
X


σ 4 ≤ Cn2 .
E
(Xi − µ)
=
E (Xi − µ)4 + 6
2
i=1
i=1
(b)
X
n
Cn2
α
≤
(Xi − µ) ≥ εn
P .
α )4
(εn
i=1
Benutze (b) um zu folgern, daß in Wahrscheinlichkeit und fast sicher gilt
n
1 X
(Xi − µ) = 0
lim
n→∞ nα
i=1
für alle α > 43 .
Aufgabe 57. Eine Folge von reellwertigen Zufallsvariablen X1 , X2 , . . . definiert auf
einem Wahrscheinlichkeitsraum (Ω, A, P ) heißt Cesàro konvergent,2 falls es eine
Zufallsvariable X : Ω → R gibt, so daß
n
1X
Xi
n i=1
fast sicher gegen X konvergiert. Zeige: Ist X1 , X2 , . . . eine Folge von unabhängigen,
identisch verteilten Zufallsvariablen deren Erwartungswert nicht existiert, so ist die
Folge nicht Cesàro konvergent.
Aufgabe 58. Zeige, daß es eine Folge von unabhängigen, identisch verteilten Zufallsvariablen X1 , X2 , . . . gibt mit E|Xj | = ∞ für alle j, so daß
n
1X
Xi
n i=1
für n → ∞ in Wahrscheinlichkeit gegen 0 konvergiert.
Gehe dabei wie folgt vor: Wähle eine geignete Folge ai , so daß P (X = ±ai ) =
schließlich alle i, aii → 0 und E|X| = ∞.
1
i2
für
Aufgabe 59. Zeige, dass die symmetrische eindimensionale Irrfahrt nullrekurrent ist,
dh. ist T der Zeitpunkt der ersten Rückkehr zum Startpunkt, so ist E(T ) = ∞.
2
Ernesto Cesàro (1859-1906)
118
Kapitel 7
Zufallsvektoren
Wir wollen uns mit vektorwertigen Zufallsvariablen, so genannten Zufallsvektoren
(’random vectors’), beschäftigen.
7.1
Mehrdimensionale Dichten
Definition 7.1. Eine Zufallsvariable X : (Ω, A, P ) −→ (Rn , B(Rn )) nennen wir Zufallsvektor. Schreibt man X = (X1 , . . . , Xn ), so nennen wir die reellwertigen Zufallsvariablen Xi : (Ω, A, P ) −→ (R, B(R)) die Marginalien (oder Komponenten) des
Zufallsvektors X. Eine nicht-negative, Borel-messbare Funktion f : Rn −→ R heißt
(gemeinsame) Dichte von X, falls
Z
Z
PX (A) = . . . 1A (x1 , . . . , xn ) f (x1 , . . . , xn ) dx1 . . . dxn
für alle A ∈ B(Rn ).
Analog zum eindimensionalen, charakterisiert der folgende Satz Dichten von Zufallsvektoren.
Satz 7.2. Eine nicht-negative, Borel-messbare Funktion f : Rn → R ist Dichte eines
Wahrscheinlichkeitsmaßes auf Rn genau dann, wenn
Z
f (x1 , . . . , xn )dx1 . . . dxn = 1.
Rn
Ferner ist f eindeutig bis auf Nullmengen. Ein gegebenes f legt PX eindeutig fest.
Beweis: Ist f die Dichte des Zufallsvektors X so ist
Z
n
1 = PX (R ) =
f (x1 , . . . , xn )dx1 . . . dxn .
Rn
Ist andererseits f gegeben, dann definiert die Formel in Definition 7.1 ein W-Maß auf
B(Rn ), denn es gelten
Z
n
PX (R ) =
f (x1 , . . . , xn )dx1 . . . dxn = 1
Rn
119
und zudem für disjunkte Borelmengen A1 , A2 , . . . ∈ B(Rn ) mit A =
Satz über monotone Konvergenz
Z
PX (A) =
1A (x) f (x) dx
=
=
Z
S∞
i=1
Ai , nach dem
Rn
∞
X
Rn i=1
∞ Z
X
i=1
Rn
1Ai (x)f (x) dx
1Ai (x) f (x) dx =
∞
X
PX (Ai ).
i=1
Satz 7.3. (über Marginaldichten)
Sei X = (X1 , . . . , Xn ) ein Zufallsvektor mit gemeinsamer Dichte f , dann gilt
(a) für jedes i ∈ {1, . . . , n} ist die durch
Z
Z
fXi (xi ) = . . . f (x1 , . . . , xn ) dx1 . . . dxi−1 dxi+1 . . . dxn
| {z }
n−1
definierte Funktion fXi die Dichte der Komponente Xi .
(b) Die Komponenten X1 , . . . , Xn von X sind genau dann unabhängig, wenn
n
Y
f (x1 , . . . , xn ) =
fXi (xi ) λn − fast überall.
i=1
Bemerkung 7.4. Wir nennen die Dichten der Komponenten fXi Marginaldichten
des Zufallsvektors X. Aus Teil (a) des Satzes folgt, daß die gemeinsame Dichte f mehr
Information enthält als lediglich die Marginaldichten.
Beweis: Es genügt den Fall n = 2 zu betrachten. Sei also X = (X1 , X2 ).
Zu (a) Sei A ∈ B(R). Dann folgt mit dem Satz von Fubini für das Lebesgue-Maß
P (X1 ∈ A) = P ((X1 , X2 ) ∈ A × R)
Z Z
Z Z
f (x1 , x2 ) dx2 dx1 .
=
f (x1 , x2 ) 1A×R (x1 , x2 )dx1 dx2 =
A R
R
Also gilt fX1 (x1R) = R f (x1 , x2 ) dx2 . Durch Vertauschen der Rollen von X1 und X2
folgt fX2 (x2 ) = R f (x1 , x2 )dx1 .
Zu (b) Sei zuerst f (x1 , x2 ) = fX1 (x1 ) · fX2 (x2 ). Wir zeigen, dass X1 , X2 unabhängig
sind. Für A, B ∈ B(R) gilt, daß
Z Z
P ((X1 , X2 ) ∈ A × B) =
f (x1 , x2 ) 1A×B (x1 , x2 )dx1 dx2
Z Z
=
fX1 (x1 )fX2 (x2 ) 1A (x1 )1B (x2 ) dx1 dx2
Z
Z
=
fX1 (x1 )dx1
fX2 (x2 )dx2 = P (X1 ∈ A) · P (X2 ∈ B).
A
B
120
Seien nun umgekehrt X1 , X2 unabhängig. Somit müssen wir f (x1 , x2 ) = fX1 (x1 ) fX2 (x2 )
zeigen. Setze dazu
Z Z
P1 (C) :=
f (x1 , x2 ) 1C (x1 , x2 ) dx1 dx2
Z Z
P2 (C) :=
fX1 (x1 )fX2 (x2 )1C (x1 , x2 ) dx1 dx2 .
Wir zeigen, dass P1 (C) = P2 (C) für alle C ∈ M := {A × B : A, B ∈ B(R)}. Dann
folgt bereits P1 = P2 auf ganz B(R2 ) aus dem Eindeutigkeitssatz für Wahrscheinlichkeitsmaße, da M ein durchschnittsstabiler Erzeuger von B(R2 ) ist. Für A, B ∈ B(R),
gilt aber
P1 (A × B) = P ((X1, X2 ) ∈ A × B) = P (X1 ∈ A)P (X2 ∈ B)
Z
Z
=
fX1 (x1 )1A (x1 ) dx1 fX2 (x2 )1B (x2 ) dx2
Z Z
=
fX1 (x1 ) fX2 (x2 ) 1A×B (x1 , x2 ) dx1 dx2 = P2 (A × B) .
Aus P1 = P2 folgt schließlich, dass die diese beiden Maße definierenden Dichtefunktionen λn -fast überall gleich sind.
7.2
Transformationssatz für Dichten
Sei g : Rn −→ Rn eine Abbildung und X ein Zufallsvektor mit Dichte f. Kann man
aus f und g die Dichte von Y := g(X) berechnen? Der folgende Satz gibt eine Antwort
für injektive stetig differenzierbare Funktionen g.
Satz 7.5. (Transformationssatz für Dichten)
Sei S ⊂ Rn offen. Sei X = (X1 , . . . , Xn ) ein Zufallsvektor mit Werten in S und
(gemeinsamer) Dichte fX . Sei g : S −→ Rn injektiv, stetig differenzierbar, so dass
det Dg(x) 6= 0 für alle x ∈ S. Dann hat der durch Y := g(X) definierte Zufallsvektor
die Dichte fY wobei
fX (g −1 (y)) · | det Dg −1(y)| für y ∈ g(Rn )
fY (y) =
0
sonst
Beweis: Aus unseren Voraussetzungen an g und dem Satz über inverse Funktionen
folgt, dass g(S) offen ist und g −1 : g(S) −→ S auch stetig differenzierbar ist mit
det Dg −1(y) 6= 0 für alle y ∈ g(S). Sei jetzt B ⊂ g(S) offen. Dann gilt
Z
−1
P (X ∈ g (B)) = P (Y ∈ B) =
fY (y) dy
B
und andererseits mit der Integraltransformationsformel
Z
−1
P (X ∈ g (B)) =
fX (x) dx
g −1 (B)
Z
=
fX (g −1 (y)) | det Dg −1(y)| dy .
B
121
Weil die offenen Mengen einen ∩-stabiler Erzeuger der Borel-σ-Algebra bilden, folgt
die Behauptung aus dem Eindeutigkeitssatz für Wahrscheinlichkeitsmaße und der Tatsache, daß eine Dichte durch die zugehörige Verteilung fast überall eindeutig bestimmt
ist.
Etwas allgemeiner: Wir können uns noch etwas von der Voraussetzung der Injektivität von g lösen. Sei dazu S ∈ B(Rn ) mit S = S0 ∪˙ S1 ∪˙ . . . ∪˙ Sk und λn (S0 ) = 0
und Si offen i ≥ 1. Die Einschränkung g|Si von g auf Si erfülle die Voraussetzungen
des Satzes für i = 1, . . . , k, dann gilt

k

 P fX (g|−1(y)) | det Dg|−1(y)| falls y ∈ S g(Si )
Si
Si
i
i=1
.
fY (y) =


0
sonst
Dabei wird über alle die i mit 1 ≤ i ≤ k summiert, für die y ∈ g(Si) ist. Der Beweis
ist eine einfache Ausdehnung des obigen Arguments.
Beispiel Sei (X, Y ) ein Zufallsvektor mit Dichte f und Z := X · Y. Wir wollen
die Dichte von Z bestimmen. Dazu benutzen wir einen Trick, indem wir uns die
C 1 -Abbildung g : R2 −→ R2 mit g(x, y) = (x · y, x) definieren. Gemäß der obigen Verallgemeinerung des Transformationssatzes zerlegen wir R2 in S0 ∪˙ S1 mit
S0 := {(x, y) ∈ R2 |x = 0} und S1 := R2 \S0 . Dann gilt λ2 (S0 ) = 0 und g ist injektiv
0 1
−1
−1
−1
1
auf S1 mit g|S
(u, v) = (v, uv ). Wegen Dg|S
folgt | det Dg|S
| = |v|
. Also
=
u
1
1
1
1
−
2
v
v
gilt
−1
f (g|−1
S1 (u, v)) | det Dg|S1 (u, v) | für (u, v) ∈ g(S1 )
fg(X,Y ) (u, v) =
0 sonst
1
für v 6= 0
f (v, uv ) |v|
,
=
0
sonst
und somit nach dem Satz über die Marginaldichten
Z
u 1
fX·Y (u) = fZ (u) =
f (v, )
dv.
v |v|
R\{0}
7.3
Gauß-Vektoren, χ2- und t-Verteilung
Im folgenden wollen wir uns einer speziellen Klasse von Zufallsvektoren, den GaußVektoren zuwenden.
Definition 7.6. Ein Zufallsvektor X = (X1 , . . . , Xn )t heißt Standard-Gauß-Vektor,
wenn X1 , . . . , Xn unabhängige N (0, 1)-verteilte Zufallsvariable sind. Ferner heißt Y =
(Y1 , . . . , Yd )t Gaußvektor, falls ein n-dimensionaler Standard-Gauß-Vektor X, eine
d × n Matrix A und ein b ∈ Rd existieren, so dass Y = AX + b.
122
Ist X = (X1 , . . . , Xn )t ein Zufallsvektor, so definiert cij := Cov(Xi , Xj ) eine Matrix,
Cov(X) := (cij )i,j=1...n , die so genannte Kovarianzmatrix des Zufallsvektors X.
Lemma 7.7. Sei X ein n-dimensionaler Zufallsvektor mit Kovarianzmatrix Cov(X) =
C, A eine d × n Matrix, b ∈ Rn und Y := AX + b. Dann gilt Cov(Y ) = ACAt .
Beweis: Einfaches Nachrechnen unter Ausnützung der Bilinearität der Kovarianz.
Satz 7.8. (Charakterisierung von Kovarianzmatrizen)
Eine reelle quadratische Matrix C ist genau dann Kovarianzmatrix eines Zufallsvektors Y , wenn C symmetrisch und positiv-semidefinit ist. Der Zufallsvektor Y kann als
Gaußvektor gewählt werden.
Beweis: Sei C = Cov(Y ). Symmetrie ist klar, da Cov(Yi, Yj ) = Cov(Yj , Yi). Bleibt zu
zeigen, daß C ist positiv-semidefinit ist. Es gilt für alle (x1 , . . . , xn )t ∈ Rn ,
hCx, xi =
X
i,j
X
X
X
xi Yi) ≥ 0.
xi Cov(Yi , Yj ) xj = Cov(
xi Yi,
xj Yj ) = Var(
j
i
i
Sei nun umgekehrt C symmetrisch und positiv-semidefinit. Dann existieren eine orthogonale Matrix M und di ≥ 0, so dass


d1
0


..
C = Mt 
 M.
.
0
dn
Setze
 √

A := 
d1

0
..
0
.
√
dn

.
Sei X ein n-dimensionaler Standard-Gaußvektor. Dann ist Y := AMX ein Gaußvektor
und Cov(Y ) = M t At AM = C.
Satz 7.9. (Invarianz unter ON-Transformationen)
Sei X = (X1 , . . . , Xn )t ein Standard-Gaußvektor und A eine orthogonale n × n-Matrix.
Dann ist auch Y := AX = (Y1 , . . . , Yn )t ein Standard-Gaußvektor. Ferner sind die
Zufallsvariablen Y1 , . . . , Yn unabhängig.
Beweis: Nach dem Satz über die Marginaldichten und wegen der Unabhängigkeit der
X1 , . . . , Xn gilt für die Dichte von X, dass
fX (x1 , . . . , xn ) =
n
Y
i=1
fXi (xi ) = √
1
1 − 1 Pni=1 x2i
1
2
= √ n e− 2 ||x|| .
ne 2
2π
2π
123
Definiere nun g : Rn −→ Rn , durch X 7−→ AX . Dann ist g bijektiv und stetig
differenzierbar. Mit dem Transformationssatz und der Orthogonalität von A folgt
fY (y) = fg(X) (y) = fX (A−1 y) | det Dg −1(y)|
1
1
1
1
−1
2
−1
2
= √ n | det A−1 | e− 2 ||A y|| = √ n e− 2 ||A y||
2π
2π
n
Y 1
1 2
1
1
2
√ e− 2 yi .
= √ n e− 2 ||y|| =
2π
2π
i=1
Ebenfalls mit dem Satz über die Marginaldichten folgt nun, dass Y1 , . . . , Yn normalverteilt sind und dass sie unabhängig sind.
Definition 7.10. Sind X1 , . . P
. , Xn unabhängige N (0, 1)-verteilte Zufallsvariablen, so
nennt man die Verteilung von ni=1 Xi2 die Chiquadrat-Verteilung mit n Freiheitsgraden, kurz die χ2n -Verteilung.
Wie man leicht nachrechnet (Übung 63) hat die χ2n -Verteilung die Dichte
fn (x) = 1(0,∞)
1
n
−1 − x2
2
e .
x
2 Γ( n2 )
n
2
Folgerung 7.11. Wenn die Komponenten X1 , . . . , Xm eines Gauß-Vektors X unkorreliert sind, dann sind sie sogar unabhängig.
Beweis: Zunächst können wir die Komponenten mit Varianz 0 weglassen, weil dadurch
weder an der Voraussetzung noch an der Schlußfolgerung etwas geändert wird. Die
verbliebenen Komponenten können wir aus dem gleichen Grund als standardisiert voraussetzen, dh. wegen der Unkorreliertheit, dass die Kovarianzmatrix der Xi die mdimensionale Einheitsmatrix Em ist.
Sei jetzt X = AZ für eine m×n-Matrix A und einen Standard-normalverteilten Vektor
Z. Wir können n ≥ m annehmen. Für 1 ≤ i, k ≤ m gilt damit
n
X
j=1
aij akj
n
n
X
X
= Cov(
aij Zj ,
akj ′ Zj ′ ) = Cov(Xi , Xk ) = δik .
j=1
j ′ =1
Das bedeutet, dass die m Zeilen der Matrix A orthogonale Vektoren der Länge 1 im
Rn sind. Wir können daher die Matrix A durch Hinzufügen von n − m Zeilen zu einer
orthogonalen n × n-Matrix à ergänzen. Sei X̃ = ÃZ. Dann ist X̃ nach dem vorigen
Satz ein Standard-normalverteiler Vektor, insbesondere mit unabhängigen Komponenten. Andererseits sind seine ersten m Komponenten die X1 , . . . , Xm . Daraus folgt die
Behauptung.
Folgerung 7.12. Sei X ein Gauß-Vektor. Dann ist die Verteilung von X eindeutig
durch seine Kovarianzmatrix und den Vektor der Erwartungswerte bestimmt.
124
Beweis: Es genügt den zentrierten Fall zu betrachten. Sei C die Kovarianzmatrix von X.
Nach dem Satz über die Hauptachsentransformation gibt es eine orthogonale Matrix U
so dass UCU t Diagonalgestalt hat mit den Eigenwerten σ12 , . . . , σn2 von C. Sei Y = UX.
Dann ist Cov(Y ) = UCU t . Also sind die Komponenten von Y unkorreliert und damit
nach Folgerung 7.11 unabhängig. Damit ist die Verteilung von Y identifizierbar als
die Produkt-Verteilung der eindimensionalen Normalverteilungen N (0, σi2). Dadurch
ist dann auch die Verteilung von X = U t Y eindeutig bestimmt.
Folgerung 7.12 erlaubt die folgende Definition.
Definition 7.13. Sei C eine nicht-negativ definite n × n-Matrix und µ ∈ Rn . Dann
bezeichnet man mit N (µ, C) die eindeutig bestimmte Verteilung eines Gauß-Vektors
mit Erwartungswertvektor µ und Kovarianzmatrix C.
Folgerung 7.14. Sei XP= (X1 , . . . , Xn ) Standard-Gaußvektor.
Dann sind die beiden
Pn
n
1
1
2
2
Zufallsvariablen X := n i=1 Xi und S := n−1 i=1 (Xi − X) unabhängig, und es gilt
1
L(X) = N (0, n1 ) und L(S 2 ) = L( n−1
Z), wobei Z eine χ2n−1 -verteilte Zufallsvariable ist.
Beweis: Um den obigen Satz anwenden zu können, konstruieren wir eine orthogonale
Matrix A, aus deren Bildvektoren wir X und S 2 gewinnen wollen. Zunächst betrachten
wir den eindimensionalen Unterraum D := {(α, . . . , α)|α ∈ R} des Rn .
Dabei ist durch PD : Rn −→ Rn , x 7→ (x, . . . , x) die
Pn Projektion
Pnorthogonale
Pnnach D
n
(x1)
x
−
gegeben,
denn
für
alle
x
∈
R
gilt
hx
−
x1,
1i
=
=
i
i=1
i=1 i
i=1 xi −
Pn
1
⊥
n n i=1 xi = 0. Nun wählen wir eine ON-Basis b2 , . . . , bn von D 
und setzen
sie mit

b1


1
1
n
b1 = ( √n , . . . , √n ) zu einer ON-Basis des R zusammen. Setze A =  ... .
bn
A ist unsere gesuchte orthogonale Matrix. Nach dem vorherigen Satz folgt, dass die
Komponenten Yi = hbi , Xi von Y = AX unabhängig N (0, 1)-verteilt sind. Wegen
n
1 X
1
1
1
1
X=
Xi = √ h √ , . . . , √
, Xi = √ Y1
n i=1
n
n
n
n
und
S2 =
n
2
X
1
X − PD x2 = 1
PD⊥ X 2 = 1
hbj , Xibj n−1
n−1
n−1
i=2
n
n
X
X
1
1
2
hbj , Xi =
Y2
=
n − 1 i=2
n − 1 i=2 i
ist X unabhängig von S 2 und es ergibt sich
1
1
sowie L(S 2 ) =
χ2 .
L(X) = N 0;
n
n − 1 n−1
125
Bemerkung 7.15. Seien X1 , . . . , Xn unabhängig und N (µ, σ 2)-verteilt. Dann hat die
Zufallsgröße
Pn
n
√1
1 X
i=1 (Xi − µ)
n
√
(Xi − X)2 )
t :=
(mit S 2 =
2
n
−
1
S
i=1
eine Verteilung, die von µ und σ 2 unabhängig“ ist, das heißt alle Werte von µ und σ 2
”
liefern die gleiche Verteilung von t.
Beweis: Setze Xi′ :=
Wegen
Xi −µ
.
σ
t′ =
√1
n−1
folgt die Behauptung.
√1
n
Dann sind die Xi′ unabhängig N (0, 1)-verteilt.
Pn
qP
′
i=1 (Xi )
n
′
i=1 (Xi
−
=
√1 1
nσ
1
√1
n−1 σ
X ′ )2
Pn
i=1 (Xi
qP
− µ)
n
i=1 (Xi
−
=t
X)2
Die Verteilung von t heißt Student-Verteilung oder t-Verteilung mit n − 1 Freiheitsgraden und geht auf W. Gosset 1 zurück, der unter dem Pseudonym Student
veröffentlichte. Sie ist u.a. deswegen in der Statistik wichtig, weil man mit ihrer Hilfe
statistische Aussagen über µ machen kann, ohne σ 2 zu kennen, vgl. Aufgaben 64 und
65.
7.4
Übungsaufgaben
Aufgabe 60. Seien W und R unabhängige reellwertige Zufallsvariablen, wobei W auf
[0, 2π) uniform verteilt und R2 exponentialverteilt zum Parameter 12 sei.
(a) Zeige, daß R cos W und R sin W unabhängig standardnormalverteilt sind.
(b) Schreibe mit Hilfe von (a) eine Prozedur, die eine Folge von unabhängigen N (µ, σ 2)
verteilten Zufallszahlen simuliert.
Aufgabe 61. Seien X, Y unabhängige normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz σ 2 . Zeige, daß dann X + Y und X − Y unabhängige N (0, 2σ 2)verteilte Zufallsvariablen sind.
Aufgabe 62. Sei (X, Y ) ein Zufallsvektor mit gemeinsamer Dichte f . Bestimme die
Dichte von Z := X + Y . Vergleiche das Resultat mit der Definition der Faltung von
zwei Dichten.
Aufgabe 63. (a) Sei X eine standardnormalverteilte Zufallsvariable. Zeige, dass X 2
1
x
die Dichte f (x) = √12π x− 2 e− 2 hat.
(b) Mit Aufgabe 24 (a) folgere die Gleichung Γ( 21 ) =
1
William Sealy Gosset (1876-1937)
126
√
π.
(c) Mit Aufgabe 24 (b) folgere, dass die χ2n -Verteilung eine Γ( n2 , 21 )-Verteilung ist und
die in Anschluss an ihre Definition 7.10 angegebene Dichte hat.
Aufgabe 64. (a) Sein X, Y zwei unabhängige reelle Zufallsvariable mit den Dichten
f und g. Ferner sei Y > 0 f.s.. Gib eine Formel für die Dichte von X/Y .
(b) Seien X0 , X1 , . . . , Xn unabhängige N (0, 1)-verteilte Zufallsvariablen. Berechne
die Dichte der Verteilung
√
nX0
p
.
2
X1 + · · · + Xn2
Diese Verteilung heißt Student- oder t-Verteilung mit n Freiheitsgraden, vgl. auch
Bemerkung 7.15.
(c) Zeige, dass die Zufallsvariable t aus Bemerkung 7.15 tatsächlich eine t-Verteilung
mit n − 1 Freiheitsgraden hat.
Aufgabe 65. (Einstichproben-t-Test). Die Laufzeit des Akkus eines Notebooks wird
als N (µ, σ 2)-verteilte Zufallsvariable modelliert mit µ > 0.
(a) (Zum Nachdenken: Dies Modell steht im Widerspruch zur Tatsache, dass Laufzeiten
positiv sind. Warum kann der Ansatz doch sinnvoll sein?)
(b) Sei eine Stichprobe X1 , . . . , Xn gegeben. Gib zu jedem α ∈ (0, 1) einen Test zum
Signifikanz-Niveau α i) erstens zur Hypothese µ = 5 mit Gegenhypthese µ 6= 5
mit einem Annahmebereich der Form { X̄−5
∈ (cn,α , cn,α)} und ii) zweitens zur
s
Hypothese µ ≤ 5 mit Gegenhypothese µ > 5 mit einem Annahmebereich der Form
{ X̄−5
< bn,α }, genauer: drücke geeignete Zahlen bn,α und cn,α durch die Quantile
s
der entsprechenden t-Verteilung aus.
(c) Der Hersteller behauptet, dass die durchschnittliche Laufzeit mindestens 3,5 Stunden beträgt. Bei einer Stichprobe X1 , . . . , X10 mit 10 Notebooks ergibt sich eine
durchschnittliche Laufzeit von X̄ = 3, 25 Stunden mit einer empirischen Streuung
von s = 0, 31 Stunden. Kann die Behauptung des Herstellers auf dem Signifikanzniveau 5% verworfen werden? (Hinweis: Das 95%-Quantil der t-Verteilung mit 9
Freiheitsgraden liegt bei 1,833.)
Aufgabe 66. (Zweistichproben-t-Test) Um die Effizienz von zwei Kartoffelschälern
verschiedener Hersteller zu vergleichen, führte Stiftung Warentest folgenden Versuch
durch: Zehn ausgewählte Hausfrauen wurden an die Kartoffelschäler gewöhnt. Dann
sollte jede zuerst mit Schäler A, dann mit Schäler B eine festgelegte Anzahl von gleich
großen Kartoffeln schälen. Die dazu benötigte Zeit wurde gestoppt. Danach wurde das
Experiment in umgekehrter Reihenfolge der Schäler wiederholt. Die folgende Tabelle
zeigt die Mittelwerte der natürlichen Logarithmen der benötigten Zeiten:
127
Hausfrau
1
2
3
4
5
6
7
8
9
10
Schäler A
2.33
2.76
1.91
2.62
2.01
1.77
1.81
1.99
1.97
2.26
Schäler B
2.34
2.79
1.91
2.60
2.03
1.80
1.81
2.00
1.98
2.30
Benutze einen t-Test auf dem 5% Signifikanzniveau, um zu testen, ob sich die beiden
Kartoffelschäler in ihrer Effizienz unterscheiden.
Aufgabe 67. In Aufgabe 48 habt ihr so genannte Konfidenzintervalle zum Vertrauensniveau 0.95 für µ unter Kenntnis von σ 2 berechnet. Was passiert, falls σ 2 unbekannt ist?
Bearbeitet dazu dieselbe Aufgabenstellung wie in Aufgabe 48, nur daß die Intervalle
in (5.1) nun die Form
n
n
s
s
1X i
1X i
Xk − √ tn−1,0.975 ,
Xk + √ tn−1,0.975
n k=1
n
n k=1
n
√
q
Pn
Pn
1
1
i
i 2
und tn−1,0.975 das 0.975= n−1
haben. Dabei sei s :=
k=1 Xk − n
k=1 Xk
Quantil der Studentverteilung mit n − 1 Freiheitsgraden.
s2
Aufgabe 68. Sei f eine Wahrscheinlichkeitsdichte. Sei ferner X ein auf der Menge
S := {(x, y) ∈ R2 : y ≤ f (x)}
uniform verteilter Zufallsvektor. Bezeichne mit p1 : S → R definiert durch p1 (x, y) := x
die Projektion auf die erste Koordinate. Bestimme die Verteilung der reellwertigen
Zufallsvariablen p1 ◦ X.
128
Kapitel 8
Ein mehrdimensionaler Zentraler
Grenzwertsatz
P
Unser Ziel ist es etwas über die Verteilungskonvergenz der Zufallsgröße √1n ( ni=1 Xi − µ)
zu sagen, wobei diesmal X1 , . . . , Xn unabhängig und identisch verteilte Zufallsvektoren
(1)
(l)
mit Werten in Rl sind, und µ = (E(X1 ), . . . , E(X1 )) der Vektor der Erwartungswerte ihrer Komponenten ist. Unter geeigneten Voraussetzungen wollen wir zeigen, dass,
wenn C = Cov X1 ist,
!
n
1 X
L √
(Xi − µ) gegen N (0, C)
n i=1
in Verteilung konvergiert.
Bevor wir zum Beweis des zentralen Grenzwertsatzes für Zufallsvektoren kommen, stellen wir noch einige allgemeine Grundlagen über Verteilungskonvergenz zusammen. Wir
holen dabei etwas weiter aus als vielleicht unbedingt nötig, weil diese Begriffe später
in der Wahrscheinlichkeitstheorie noch sehr nützlich werden. Für die Anwendungen im
nächsten Kapitel reicht die Aussage von Satz 8.9 in Kombination mit dem Abbildungsprinzip aus Lemma 8.8.
8.1
Verteilungskonvergenz in metrischen Räumen
Definition 8.1. Sei (S, d) ein metrischer Raum und B(S) die zugehörige Borelσ-Algebra. Weiter seien Pn und P Wahrscheinlichkeitsmaße auf B(S). Dann heißt
(Pn )n∈N konvergent gegen P nach Verteilung oder schwach, falls für jede Funktion f ∈ Cb (S) (d.h. jede stetige, beschränkte und reellwertige Funktion auf S) gilt
Z
S
f (x) dPn (x) n−→
→∞
Z
f (x) dP (x).
S
Sind Xn , X Zufallsvariable mit Werten in S und PXn = Pn und PX = P, so sagen wir
auch: (Xn )n∈N konvergiert gegen X in Verteilung.
129
L X, L(X ) → L(X) und P |=⇒
Wir verwenden dabei folgende Schreibweisen: Xn →
n
Xn
PX . Bevor wir zeigen, dass dieser Begriff für S = R mit der eindimensionalen Verteilungskonvergenz zusammenfällt, beweisen wir ein paar andere äquivalente Formulierungen im allgemeinen Fall.
Satz 8.2. (Portmanteau Theorem)
Seien Pn , P Wahrscheinlichkeitsmaße auf B(S). Dann sind äquivalent:
(a) Pn |=⇒ P
(b) Für jede offene Menge U ⊂ S gilt lim inf n→∞ Pn (U) ≥ P (U).
(c) Für jede abgeschlossene Menge A ⊂ S gilt lim supn→∞ Pn (A) ≤ P (A)
(d) Für jede P -randlose Menge B gilt Pn (B) −→ P (B). Dabei ist eine Menge B
P -randlos, falls P (∂B) = 0 wobei ∂B = B ∩ B c ihr topologischer Rand ist.
Beweis: (a) =⇒ (b) Sei U eine offene Menge. Zunächst suchen wir irgend eine Folge
(fk )k∈N von Funktionen aus Cb (S) mit fk (x) ↑ 1U (x) für alle x ∈ S. Definiere zum
Beispiel
0 für x ∈
/U
c
fk (x) := min(1, k dist(x, U )) =
.
1 falls dist(x, U c ) ≥ k1
Dann ist die Folge (fk (x)) für jedes x ∈ S monoton nicht fallend. Ferner gilt fk (x) = 1
für schließlich alle k falls x ∈ U, weil U offen ist und daher jedes x ∈ U eine positive
Distanz zu U c hat. Also gilt
Z
Z
Z
(a)
fk dPn
P (U) =
1U (x) dP = sup fk dP = sup lim
k∈N n→∞ S
k∈N S
S
≤ sup lim inf Pn (U) = lim inf Pn (U) ,
k∈N
n→∞
n→∞
da aus an ≤ bn folgt: lim an ≤ lim inf bn .
(b) ⇐⇒ (c) Sei A abgeschlossen. Dann ist U = S\A offen.
Also gilt lim supn→∞ Pn (A) = lim supn→∞ (1 − Pn (U)) = 1 − lim inf n→∞ (Pn (U)), und
P (A) = 1 − P (U). Damit folgt, daß
lim sup Pn (A) ≤ P (A) ⇐⇒ lim inf Pn (U) ≥ P (U).
n→∞
n→∞
◦
◦
(c) =⇒ (d) Sei B ⊆ S P -randlos, also P (B\B) = 0, wobei B der offene Kern von B
◦
ist. Dann ist also P (B) = P (B). Dann folgt mit der Monotonie des Maßes
(c)
◦
lim sup Pn (B) ≤ lim sup Pn (B) ≤ P (B) = P (B)
n→∞
n→∞
◦
≤ lim inf Pn (B) ≤ lim inf Pn (B).
(b)
n→∞
130
n→∞
◦
Also konvergiert Pn (B) gegen P (B) = P (B) = P (B).
(d) =⇒ (a) Sei nun f ∈ Cb (S). Wir wollen zeigen, dass
R
R
f dPn n−→
→∞
f dP.
Dazu betrachten wir zunächst die Verteilungsfunktion F von f bezüglich P , also
F (z) = P (f ≤ z). Als Verteilungsfunktion hat F nur eine abzählbare Menge L von
Sprungstellen. Also liegt R \ L dicht in R. Definiere Bz := {f ≤ z}, dann ist Bz
◦
abgeschlossen und B z ⊇ {f < z}. Also gilt
◦
P (∂Bz ) = P (Bz ) − P (B z ) ≤ P (Bz ) − P (f < z) = F (z) − lim
F (z ′ ) = 0,
′
z ↑z
falls z ∈
/ L. Damit haben wir gezeigt, dass Bz eine P -randlose Menge ist, falls z ∈
/ L.
Um die Behauptung zu zeigen, definieren wir ein geeignetes fε . Sei ε > 0. Wegen der
obigen Dichtheit können wir endlich viele Punkte zi ∈ R\L finden mit zi < zi+1 ≤ zi +ε.
Setze
r
X
fε (x) :=
zi 1{zi <f (x)≤zi+1 } (x)
i=1
Dann gilt fε (x) = zi ≤ f (x) ≤ zi+1 ≤ fε (x) + ε auf
Ai = {zi < f (x) ≤ zi+1 } = Bzi+1 \Bzi .
Da jedes x in einem der Ai liegt, folgt, dass |fε (x) − f (x)| ≤ ε für alle x ∈ S. Damit
folgt
Z
Z
Z
| fε dPn − f dPn | ≤ |f − fε |dPn ≤ ε
für alle n sowie
|
Z
fε dP −
Z
f dP | ≤ ε .
Da die Mengen Bzi für alle i P -randlose Mengen sind, gilt nach Voraussetzung Pn (Bzi ) →
P (Bzi ) und somit auch
Z
fε dPn =
r
X
i=1
zi Pn (Ai ) =
r
X
i=1
zi [Pn (Bzi+1 ) − Pn (Bzi )] n−→
→∞
Da ε beliebig war, folgt mit den obigen Ungleichungen
R
r
X
i=1
f dPn n−→
→∞
Satz 8.3. Sei S = R. Dann ist Pn |=⇒ P äquivalent mit
(e) Fn (z) → F (z), für alle z, für die F stetig ist an der Stelle z
R
R
(f ) R f dPn −→ R f dP für alle f ∈ C 3 mit |f (3) | beschränkt.
131
zi P (Ai) =
R
Z
f dP.
fε dP.
Beweis: Wir beziehen uns auf die Notation von Satz 8.2. Wir zeigen (d) =⇒ (e) =⇒
(b) und (a) =⇒ (f) =⇒ (e).
(d) =⇒ (e). Unsere Voraussetzung ist also, dass für jede P -randlose“ Menge B gilt
”
Pn (B) −→ P (B). Sei z eine Stelle, an der F stetig ist. Dann ist (ähnlich wie im letzten
Beweisschritt des vorigen Satzes) die Menge B := (−∞, z] P -randlos. Also gilt
Fn (z) = Pn ((−∞, z]) = Pn (B) n−→
P (B) = P ((−∞, z]) = F (z).
→∞
(e) =⇒ (b) Sei V offen. Sei U :=
Für U ∈ U gilt dann
lim Pn (U) =
n−→∞
=
Sm
ai , bi Stetigkeitsstellen von F, m ∈ N .
i=1 (ai , bi ]
lim
n−→∞
lim
n−→∞
m
X
i=1
m
X
i=1
Pn ((ai , bi ])
Fn (bi ) − Fn (ai ) = P (U).
Zu V gibt es eine Folge (Uk )k von Mengen aus U mit Uk ↑ V . Dann gilt, ähnlich wie
im Beweis von (a) =⇒ (b),
P (V ) = sup P (Uk ) = sup lim Pn (Uk ) ≤ lim inf Pn (V ).
k
n→∞
k
n→∞
(a) =⇒ (f) ist trivial, da die Bedingung (f) schwächer ist als (a).
(f) =⇒ (e) hatten wir bereits beim Beweis des eindimensionalen Zentralen Grenzwertsatzes gezeigt.
Um den Beweis des eindimensionalen zentralen Grenzwertsatzes im mehrdimensionalen
imitieren zu können, beweisen wir einige Lemmata, die u.a. zeigen, dass man auch dort
statt stetigen Funktionen beliebig glatte Funktionen nehmen kann. Das erste Lemma
ist ein in der mehrdimensionalen Analysis gängiger Trick der Glättung durch Faltung
mit einer glatten Funktion.
Lemma 8.4. Sei µ ein endliches Maß auf B(Rd ). Sei ψ : Rd −→ R eine C ∞ -Funktion,
die samt allen Ableitungen beschränkt ist. Dann ist die Funktion
Z
ψµ (x) :=
ψ(x − y) µ(dy)
Rd
auch eine C ∞ -Funktion und es gilt Dα (ψµ ) = (Dα ψ)µ für alle Multiindizes α.
∂ψ
Beweis: Zunächst sei Dα = ∂x∂ i . Die Funktion ∂x
ist beschränkt, stetig und µ-integrierbar.
i
Die Funktion (t, z) 7→ ψ(tei +z) erfüllt die Voraussetzungen des Satzes über Vertauschbarkeit von Differentiation und Integration.
Also folgt:
Z
Z
∂ψ
ψ(x + h ei − y) − ψ(x − y)
∂ψ
(x) =
(x − y)dµ(y) =
dµ(y)
lim
∂xi µ
h
Rd ∂xi
Rd h→0
132
= lim
h→0
R
R
ψ(x + h ei − y)dµ −
h
ψ(x − y)dµ
=
∂
ψµ (x).
∂xi
Induktiv folgt, dass alle Ableitungen existieren und die angegebene Darstellung haben.
Lemma 8.5. Seien K, A disjunkte Teilmengen des Rd , wobei K kompakt und A abgeschlossen ist. Dann gibt es eine C ∞ -Funktion
0 für x ∈ A
d
f : R −→ [0; 1] mit f (x) =
1 für x ∈ K.
Beweis: Wir beweisen die Behauptung in drei Schritten. (1) Wir zeigen zuerst, daß ein
ε > 0, existiert, so daß K ε ∩ Aε = ∅ mit E ε := {x ∈ Rd : dist(x, E) < ε}.
Da die Funktion dist(x, A) stetig und strikt positiv auf K ist, nimmt sie auf K ihr
positives Infimum an. Dann ist jedes ε < 12 · inf x∈K {dist(x, A)} geeignet.
(2) Nun zeigen wir, daß es eine C ∞ -Funktion ψ gibt, die Wahrscheinlichkeitsdichte ist,
so dass ψ(x) = 0 falls ||x|| > ε.
Wähle eine C ∞ -Funktion ϕ auf R, so dass ϕ ≥ 0, ϕ(0) > 0 und ϕ(r) = 0 für r ≥ 1.
R
2
Setze ψ(x) = c · ϕ( ||x||
). Eine geeignete Wahl von c ∈ R erzwingt, dass Rd ψ(x)dx = 1,
ε2
so daß ψ wirklich eine Wahrscheinlichkeitsdichte
R ist.
(3) Nun definieren wir f . Wir setzen µ(E) = E 1K ε (x)dx für E ⊆ Rd und ε aus (1).
Dann ist 0 < µ(Rd ) = λn (K ε ) < ∞. Ferner sei ψ wie aus (2). Setze f := ψµ nach
Lemma 8.4. Dann ist f nach 8.4 eine C ∞ -Funktion.
Wir verifizieren die Eigenschaften von f :
(α) Sei x ∈ K. Wenn y ∈
/ K ε dann ist ||y − x|| ≥ ε, also ψ(x − y) = 0. Somit ist
f (x) =
Z
Rd
ψ(x − y) 1K ε (y) dy =
Z
|
Rd
Z
ψ(x − y)dy = 1.
ψ(x − y)dy −
(K ε )c
{z
} |
{z
}
1
0
(β) Sei x ∈ A. Wenn ψ(x − y) > 0 dann ist ||x − y|| < ε also y ∈ Aε und somit
y∈
/ K ε.
Damit
gilt 1K ε (y) ψ(x − y) = 0 für alle y ∈ Rd mit x ∈ A. Also ist f (x) =
R
1 ε (y) ψ(x − y) dy = 0 für x ∈ A.
Rd K
R
R
(γ) Ferner gilt 0 ≤ f (x) = Rd 1K ε (y) ψ(x − y)dy ≤ Rd ψ(x − y)dy = 1.
Lemma 8.6. Sei U ⊆ Rd offen. Dann existieren fm ∈ C ∞ mit beschränkten Ableitungen und fm ↑ 1U .
133
Beweis: Definiere Km := {x ∈ Rd : kxk ≤ m, dist(x, U c ) ≥ m1 }. Dann sind die Km
beschränkte und abgeschlossene Teilmengen von U. Also sind die Km insbesondere
◦
◦
c
kompakt und es gilt Km ⊆ K m+1 . Setze Am := K m+1 . Nun wählen wir gemäß
Lemma 8.4 eine C ∞ -Funktion fm : Rd −→ [0; 1] mit
0 für x ∈ Am
fm (x) =
1 für x ∈ Km
◦
Ferner gilt fm (x) ≤ 1 = fm+1 (x) für alle x ∈ K m+1 und fm (x) = 0 ≤ fm+1 (x) für alle
◦
S
x∈
/ K m+1 . Also ist fm ≤ fm+1 und es gilt fm (x) ↑ 1U (x), da U = ∞
m=1 Km , das heißt
fm (x) = 1 für schließlich alle m, falls x ∈ U.
Mit Hilfe von Lemma 8.6 und dem Beweis von (a)⇒(b) in Satz 8.2 ergibt sich schließlich
auch
Satz 8.7. Sei S = Rd . Dann sind
(a)-(d) aus dem PortmanteauR die Bedingungen
R
Theorem auch äquivalent zu (g) Rd f dPn −→ Rd f dP für alle f ∈ C ∞ mit beschränkten Ableitungen.
Die folgende Invarianzeigenschaft der Verteilungskonvergenz wird sich in vielen Situationen, wie zum Beispiel im Beweis des mehrdimensionalen zentralen Grenzwertsatzes
als nützlich erweisen.
Lemma 8.8. (Abbildungsprinzip der Verteilungskonvergenz)
Seien Pn , P Wahrscheinlichkeitsverteilungen über dem metrischen Raum (D, dD ) und
Qn , Q über dem metrischen Raum (E, dE ). Sei g : D → E stetig und es sei Qn =
Pn ◦ g −1 , Q = P ◦ g −1 . Dann folgt aus Pn |=⇒ P auch Qn |=⇒ Q.
Beweis:
Sei f R∈ Cb (E). Dann Rist f ◦ g ∈ Cb (D). Wegen Q(A) = P (g −1(A)) gilt
R
1 (x)dQ = D 1A (g(y))dP = D 1g−1 (A) (y)dP. Damit folgt
E A
Z
E
f (y) dQn =
Z
D
f (g(x)) dPn −→
Z
D
f ◦ g(x) dP =
Z
f (y) dQ.
E
8.2
Der zentrale Grenzwertsatz
Zur Motivation ein kleines Beispiel. Wir betrachten n unabhängige identisch verteilte
Beobachtungen und endlich viele Zellen oder Klassen, wobei γ1 , . . . , γl die Wahrscheinlichkeiten sind mit denen eine Beobachtung in die verschiedenen Zellen fällt.
1
für k = 1, . . . , 37. Wir beobachBeispielsweise beim Roulette ist l = 37 und γk = 37
ten n-mal und erhalten empirische Häufigkeiten n̂1 , . . . , n̂P
l , wobei n̂k die Anzahl der
Beobachtungen ist, die in die k-te Zelle fallen. Dabei gilt lk=1 n̂k = n.
134
Die n̂k sind binomial-B(n, γk )-verteilt, also gilt
E(n̂k ) = nγk und Var(n̂k ) = nγk (1 − γk ).
Der Zufallsvektor (n̂1 , . . . , n̂l ) ist polynomialverteilt, denn
n
P (n̂1 = m1 , . . . , n̂l = ml ) =
γ1m1 . . . γlml
m1 . . . ml
P
wobei lk=1 mk = n. (Dies ist eine Polynomial-Verteilung (oder Multinomialverteilung) zu den Parametern (n, γ1 , . . . , γl ). Sie geht im Fall l = 2 in die BinomialVerteilung B(n, γ1 ) über.) Wir betrachten nun die Zufallsvektoren X1 , . . . , Xn , wobei
Xi ∈ {e1 , . . . , P
el } und Xi = ek bedeutet: DiePi-te Beobachtung fällt in die k-te Klasse. Dann gilt ni=1 Xi = (n̂1 , . . . , n̂l ) und n1 ni=1 Xi = (γ̂1 , . . . , γ̂l ). Nun soll also der
mehrdimensionale Zentrale Grenzwertsatz unter anderem Nährungsformeln für Wahrscheinlichkeiten der Art
X
n
γ1m1 . . . γlml
P ((n̂1 , . . . , n̂l ) ∈ U) =
m1 . . . ml
(m1 ,...,ml )∈U
liefern.
Satz 8.9. (Der zentrale Grenzwertsatz)
Sei X1 , X2 , . . . eine Folge von unabhängig identisch verteilten Zufallsvektoren im Rl , so
dass alle Komponenten dritte Momente haben. Sei C die Kovarianzmatrix von X1 und
(1)
(l)
µ = EX1 = (EX1 , . . . , EX1 ). Dann gilt
n
1 X
(Xi − µ))|=⇒ N (0, C).
L( √
n i=1
Bemerkung. Zunächst wollen wir zeigen, dass im Fall detC =
6 0 dies äquivalent ist
zu
Z
Z
n
1
1 X
1
1
−1
E(f ( √
f (x) e− 2 hC x,xi dx
(Xi −µ))) −→ f (x) dN (0, C)(x) =
√ lp
n i=1
Rl
2π | det C|
für alle f ∈ Cb (Rl ).
Dies ist aber gerade die Definition der Verteilungskonvergenz, wenn wir zeigen, dass
für einen N (µ, C)-verteilten Zufallsvektor die Dichte fX gegeben ist durch
fX (x) = √
1
1
1
−1
p
6 0.
e− 2 hC (x−µ),(x−µ)i , falls det C =
2π | det C|
l
Da C positiv-semidefinit ist, existiert eine invertierbare Matrix A mit C = AAt . Setze
X0 = A−1 (X − µ) und g(X0) = A X0 + µ = X.
Dann folgt EX0 = 0 und Cov(X0 ) = A−1 C(A−1 )t = A−1 AAt (At )−1 = I. Also ist X0 ein
135
Standard-Gauß Vektor, dh. es ist fX0 (y) =
für Dichten folgt
√
1
− ||y||
2
le
2π
2
Nach dem Transformationssatz
fX (x) = fX0 (g −1(x)) | det Dg −1(x)|
||A−1 (x−µ)||2
1
2
= √ l e−
| det A−1 |.
2π
Wegen
||A−1(x − µ)||2 =
=
=
=
und
| det A−1 | =
folgt die Behauptung.
hA−1 (x − µ), A−1 (x − µ)i
h(A−1 )t A−1 (x − µ), (x − µ)i
h(AAt )−1 (x − µ), (x − µ)i
h(C −1 (x − µ), (x − µ)i
1
1
1
=p
=p
| det A|
| det A| | det At |
| det C|
Für den Beweis des Satzes zeigen wir zunächst ein Lemma für den Spezialfall daß die
Kovarianzmatrix die Einheitsmatrix ist, also Cov Xi = I.
Lemma 8.10. Seien X1 , . . . , Xn und Y1 , . . . , Yn unabhängige Zufallsvektoren mit EXi =
EYi = µ für alle i = 1, . . . , n und Cov(Xi ) = Cov(Yi) = I. Sei f : Rd −→ R eine C 3 Funktion
partiellen Ableitungen dritter Ordnung. Setze
Pn mit gleichmäßigPbeschränkten
n
Rn = i=1 Xi und Tn = i=1 Yi . Dann gilt
|E f (Rn ) − E f (Tn )| ≤ const
n
X
i=1
E(||Xi||3 ) + E(||Yi||3 ).
Beweis: Wir können OBdA µ = 0 annehmen. Sonst betrachte Xi′ = Xi − µ. Den Beweis
wollen wir nur andeuten, da er größtenteils analog zum eindimensionalen Fall ist. Wir
benutzen die mehrdimensionale Taylorformel
l
l
X
∂f
1 X ∂2f
f (x + h) = f (x) +
(x) hi +
(x)hi hk + O(||h||3)
∂xi
2 i,k=1 ∂xi ∂xk
i=1
∧
∧
wobei wir x mit Rn−1 und h mit Xn (bzw. x = Tn−1 und h = Yn ) identifizieren. Wegen
der Unabhängigkeit der Xi und Yi können wir wieder Produkt und Erwartungswert
vertauschen. Mit EXi = EYi = 0 erhalten wir wieder sukzessive die Behauptung. Beweis von Satz 8.9: (1) Für den Fall C = I beweisen wir Satz 8.9, indem wir Lemma
8.10 auf normalverteilte (standardnormal) Zufallsvektoren Y1 , . . . , Yn anwenden. Dann
erhalten wir wie im eindimensionalen die Aussage
!
n
1 X
Xi |=⇒ N (0, I).
L √
n i=1
136
(2) Sei k der Rang der Kovarianzmatrix C. Ohne Einschränkung können wir µ = 0
annehmen. Sei z ∈ Im(C ) ⊥ . Dann ist Varhz, Xi i = Var z T Xi = z T Cz = hz, Czi = 0,
also wegen
E(z T X) = z T E(X) = 0
auch z T X = 0 P − f s. Also gilt X ∈ Im(C) P − f s.
(3) Wähle eine lineare Abbildung I : Rl −→ Rk derart, daß die Einschränkung J|Im(C)
ein orthogonaler (skalarprodukterhaltender) Isomorphismus ist. Für die zu I gehorende
k × l Matrix J gilt: C ′ = JCJ T ist eine positiv definite k × k Matrix. Wähle A mit
C ′ = AAT und setze X̃i = A−1 JXi . Dann sind die X̃1 , X̃2 , . . . unabhängig identisch
verteilt mit
Cov(X̃i ) = A−1 JCJ T (AT )−1 = A−1 C ′ (AT )−1 = I.
Sei g : Rk → Rl die lineare Abbildung mit Matrix J T A. Dann gilt
g X̃i = J T AA−1 JXi = J T JXi = Xi P − f s.,
da Xi ∈ Im(C) P − f s. und J T Jx = x für alle x ∈ Im(C).
Nach dem ersten Beweisteil gilt
n
1 X
X̃i )|=⇒ N (0, I),
L( √
n i=1
und damit nach Lemma 8.8
n
1 X
Xi )|=⇒ N (0, C̃),
L( √
n i=1
wobei C˜ = J T A(J T A)T = J T AAT J = J T C ′ J = C.
8.3
Übungsaufgaben
Aufgabe 69. Seien X1 , X2 , . . . unabhängige zum Parameter 1 Poisson-verteilte Zufallsvariablen.
(a) Zeige mit Hilfe des zentralen Grenzwertsatzes, daß
P
( ni=1 Xi ) − n
√
n
in Verteilung gegen eine standard normalverteilte Zufallsvariable konvergiert.
(b) Benutze Teil (a) um zu zeigen, daß
lim e−n
n→∞
n
X
nk
k=0
137
k!
!
1
= .
2
n
n
Aufgabe 70.
√ Seien X ∈ R , n ∈ N unabhängige Standard-Gauss-Vektoren. Dann
n
gilt kX k − n konvergiert in Verteilung gegen eine N (0, 2)-verteilte Zufallsvariable.
Aufgabe 71. Seien X1 , . . . , Xn unabhängige normalverteilte Zufallsvariablen. Berechne die Dichte fn von
n
1 X Xi2 − E(Xi2 )
√
p
.
n i=1
V ar(Xi2 )
Zeige, daß
1 2
1
n→∞
fn (x) −→ √ e− 2 x
2π
für alle x ∈ R. Wie ist dieses Ergebnis zu interpretieren?
Aufgabe 72. Seien X1 , X2 , . . . , Xn unabhängig identisch verteilt mit EXi = 0 und
Var Xi = σ 2 . Zeige, dass der zweidimensionale Vektor (X̄, X̄ + s2 ) für n → ∞ in
Verteilung konvergiert und bestimme die Grenzverteilung.
138
Kapitel 9
χ2-Tests
In diesem Kapitel wird ein allgemeines Verfahren vorgestellt, mit dessen Hilfe die Hypothese, daß unabhängige identisch verteilte Beobachtungen eine bestimmte Verteilung
haben, getestet wird. Man kann das Verfahren auch so modifizieren, dass auch die Hypothese getestet werden kann, dass die unbekannte Verteilung aus einer vorgegebenen
Verteilungsfamilie stammt. Zunächst wird die erste Problemstellung im folgenden an
einem Beispiel näher erläutert.
Wir beobachten wieder, wie zu Beginn des letzten Kapitels unabhängig n-mal, in welche von l Zellen ein Versuch fällt (z.B. in welche von 37 Zellen eine Roulette-Kugel
fällt). Als Daten erhalten wir dann Zahlen n̂1 , . . . , n̂l , wobei n̂k die Häufigkeit darstellt, mit der die k-te Zelle besucht wurde. Wir stellen uns die Frage, ob unsere
Beobachtung mit der Hypothese die k-te Zelle wird mit Wahrscheinlichkeit pk getroffen vereinbar ist. n̂k wäre in diesem Fall B(n, pk )-verteilt, der Vektor (n̂1 , . . . , n̂l )
multinomialverteilt zu (n, p1 , . . . , pl ). Die empirischen Wahrscheinlichkeiten (p̂1 , . . . , p̂l )
(wobei p̂k = n̂nk ) würden gegen (p1 , . . . , pl ) konvergieren, etwas genauer erwarten wir
p
∧
n̂k ∼ n pk ± n pk (1 − pk ) (= Erwartungswert ± Streuung).
Idee Wir messen den Abstand von (p̂1 , . . . , p̂l ) zu (p1 , . . . , pl ) in geeigneter Weise.
Wenn der Abstand zu groß ist, verwerfen wir die Hypothese. Man verwendet als Maß
des Abstands die Testgröße
2
D =
l
X
(p̂k − pk )2 · n
k=1
pk
l
X
(n̂k − n pk )2
=
.
n pk
k=1
Zu vorgegenenem α wählt man γα so, dass P (D 2 γα ) = α. Der Verwerfungsbereich B
ist dann B = {D 2 > γα }. Falls die Beobachtung n̂1 , . . . , n̂l so ausfällt, dass D 2 > γα ,
sagt man Die Hypothese wurde zum Signifikanzniveau α verworfen“. Aufgrund des
”
folgenden Satzes wird dies Verfahren (einfacher) Chiquadrat-Test genannt.
Problem Wie bestimmt man γα ? Der Wert γα ist die Stelle, an der die Verteilungsfunktion von D 2 den Wert 1 − α annimmt, d.h. das (1 − α)-Quantil der Verteilung von
D2.
139
Die χ2 -Verteilung wurde schon in Kapitel 7 eingeführt. Die Definition sei hier noch
einmal wiederholt:
Definition 9.1. Sind X1 , . . . P
, Xn unabhängige N (0, 1)-verteilte Zufallsvariablen, so
nennt man die Verteilung von ni=1 Xi2 Chiquadrat-Verteilung mit n Freiheitsgraden, kurz χ2n -Verteilung .
Nach Übungsaufgabe 63 hat die χ2n -Verteilung die Dichte
fn (x) = 1(0,∞) (x)
1
2
n
Γ( n
)
2
2
n
x
x 2 −1 e− 2 .
Satz 9.2. Für n −→ ∞ konvergiert die Verteilung von D 2 gegen eine χ2l−1 -Verteilung,
also
P (Dn2 > γ) −→ P (ξ > γ),
wobei L(ξ) = χ2l−1 .
Um diesen Satz zu beweisen, benötigen wir noch ein Lemma.
Lemma 9.3. Für unabhängig identisch verteilte Zufallsvektoren X1 , . . . , Xn mit P (X1 =
ek ) = pk (mit ek ist hier der k-te Einheitsvektor gemeint) gibt es eine orthogonale
Ma 1

!
√
0
1 0 0
p1
..
..
,
, wobei C = Cov(X1 ), W = 
trix Q, so dass (QW ) C(QW )T =
.
. 1
1 0
0
0
0 0
T
√
pl
wenn p = (p1 , . . . , pl ) = E(Xi ).


1 A1


Beweis: C = Cov  ...  , wobei Ak = {ω : erste Beobachtung fällt in die k-te Zelle},
1 Al
wenn man die Xi entsprechend dem Vorangegangen als Zufallsvektoren betrachtet, die
beschreiben, in welcher Zelle die i-te Beobachtung landet. Es gilt
Var(1Ak ) = pk (1 − pk )
für k = k ′
Cov(1Ak , 1Ak′ ) =
E(1Ak · 1Ak′ ) − E(1Ak ) E(1Ak′ ) = −pk pk′ für k 6= k ′
Also hat C die folgende Form:

p1 (1 − p1 ) −p1 p2
−p1 p3 . . .
−p1 pl
.
..
 .
p2 (1 − p2 )
.
 .
 .
..
.
..
 ..
.
−pl p1
pl (1 − pl )



 
=

p1
0
0
..
.
pl


T
−p·p
 √ 
p1


.
Daraus folgt, W CW T = Il − (W p)(W p)T = Il − qq T mit q := W p =  ..  . Ferner
√
pl
Pl
T
2
die Matrix, die die Projektion auf die von q
ist ||q|| =
k=1 pk = 1. Also ist qq
140
erzeugte Gerade beschreibt. Daher beschreibt W CW T = Il − qq T die Projektion auf
das l−1-dimensionale orthogonale Komplement dieser Geraden. Zudem ist W CW T eine
symmetrische Matrix, also existiert nach dem Satz über die Hauptachsentransformation
eine orthogonale Matrix Q mit
QW CW T QT =
λ1
0
..
.
0
λl
!
,
wobei die λi die Eigenwerte von W CW T sind. Aber der obige Projektionsoperator
hat (l −!1)-mal den Eigenwert 1, einmal den Eigenwert 0, das heißt QW CW T QT =
1 0 0
..
.
.
0
1 0
0 0
Nun zurück zum
2
Beweis von Satz 9.1: χ2l−1 ist die Verteilung von Z12 + . . . + Zl−1
, wenn die Zi unk −npk
für
abhängig und N (0, 1)-verteilt sind. Definiere einen Vektor U mit U (k) = n̂√
npk
2
2
k1, . . . , l, dann gilt D = ||U|| . Wie im vorangehenden Lemma, wähle X1 , . . . , Xn unabhängig identisch verteilt mit P (X1 = ek ) = pk und Xi′ = Xi − p = Xi − E(Xi ).
(Anschaulich beschreibt Xi , in welche Zelle
 der i-teVersuch gefallen ist.) Sei wieder
wie im vorangegangenen Lemma W := 
1
√
p1
0
..
.
0
1
√
pl
 . Damit gilt dann
n
1
1 X ′
√
Xi = √ (n̂1 − np1 , . . . , n̂l − npl )
n i=1
n
und
n
1 X ′
U = W · (√
X ).
n i=1 i
L
Aus dem zentralen Grenzwertsatz folgt P √1 Pni=1 Xi′ −→ N (0, C). Sei Y ein N (0, C)n
verteilter Vektor. Setze Z := QW Y, Q sei wie im vorigen Lemma gewählt.
Dann ist Z
!
1 0 0
..
.
ein N (0, Cov(Z))−Vektor, wobei Cov(Z) = QW C(QW )T =
.
Pl
0
Pl−1
1 0
0 0
Es gilt kZk2 = i=1 Zi2 = i=1 Zi2 fast sicher, denn Zl = 0 fast sicher, da Var(Zl ) =
E(Zl ) = 0. Damit hat kZk2 eine χ2l−1 -Verteilung. Also gilt nach Lemma 8.8 und dem
zentralen Grenzwertsatz
PDn2 = PkU k2 = PkQU k2 = PkQW √1
n
Pn
i=1
Xi′ k2
L
−→ PkQW Y k2 = PkZk2 = χ2l−1 ,
(Wähle in unserem Fall g : Rl −→ R : x 7→ kQW xk2 .)
141
Beispiel
Ein amerikanisches Roulette hat die Ausgänge 1, . . . , 36, 0, 00. Es wird
4000-mal gedreht, die Ereignisse sind als Tabelle gegeben:
1 2 3 ···
121 89
36
0 00
109 111
Die Hypothese ist das Rad ist fair, das heißt, es gilt pk =
sich
38
X
(n̂k − npk )2
2
D =
≈ 61.
npk
k=1
1
38
für alle k und es ergibt
Wir wollen den Verwerfungsbereich zu α = 0, 05 suchen, das heißt γα so, dass P (C ≤
γα ) = 0, 95 wobei C χ237 -verteilt ist. Zur Bestimmung dieses Bereichs folgt sogleich
eine Bemerkung, hier sei nur gesagt, dass γα ≈ 51, 2 ist. Also wird die Hypothese zum
Niveau 0,05 verworfen.
Bemerkung zur Bestimmung von γα : In älteren Stochastikbüchern gibt es Tafeln, die zu verschiedenen α, J die 1 − α-Quantile der χ2J -Verteilung angeben. Für
J > 30 gibt es allerdings keine Tafeln. Wir benötigen
diese aber auch nicht, da C
PJ
2
2
2
P
als χJ -verteilte Zufallsvariable die Darstellung
2 ∼
i=1 Yi hat, also χJ = P J
i=1 Yi
P
PJ
J
2
2
2
2
N (E( i=1 Yi ), Var( i=1 Yi )) = N (JE(Y1 ), J Var(Y1 )) = N (J, 2J) (vgl. Aufgabe
√
44). Also hat C−J
asymptotisch eine N (0, 1)-Verteilung. Man sucht also zα , das (1−α)2J
Quantil der
√ N (0, 1)-Verteilung, das heißt P (Z ≤ zα ) = 1 − α, falls√Z N (0, 1)-verteilt
ist. Weil 2J Z + J eine N (J, 2J)- Verteilung hat, gilt für γα := 2Jzα + J,
√
P (C ≤ γα ) ∼ P ( 2J Z + J ≤ γα ) = P (Z ≤ zα ) = 1 − α.
Abschließend noch einige weitere Hinweise zum χ2 -Test:
1. Die einzelnen Zellen sind unter Umständen selten besucht. Es gibt verschiedene
Faustregeln, wie oft man beobachten sollte, damit der Grenzwert vernünftige
Werte liefert. Auf jeden Fall sollten in die einzelnen Zellen nicht zu wenige
Beobachtungen fallen. Bei geringer Beobachtungszahl ist das Arbeiten mit der
Polynomial-Verteilung sinnvoller.
2. Seien ξ1 , ξ2 , . . . Beobachtungen in dem Stichprobenraum (Ω, B). Sei P eine feste
Verteilung auf B. Um die Hypothese zu testen, dass die ξi unabhängig identisch Sverteilt mit Verteilung P sind, kann man den Stichprobenraum zerlegen
Ω = lk=1 Zk in disjunkte Zellen und zunächst auf Grund der Besuchshäufigkeiten
der ξi in diesen Zellen nach dem obigen Verfahren die vereinfachte Hypothese testen, dass die Zahlen pk = P (Zk ) die entsprechenden Besuchswahrscheinlichkeiten
sind. Wird diese Hypothese verworfen, muss auch die ursprüngliche Hypothese
verworfen werden. Auf diese Weise erhält man zu vorgegebenem α einen Test
zum Niveau α für die ursprüngliche Hypothese. Wird allerdings die Hypothese
nicht verworfen, ist man noch weit davon entfernt, die ursprüngliche Hypothese
als richtig anerkennen zu können.
142
3. Der χ2 -Test ist zur Überprüfung einer einpunktigen Hypothese (z.B. {(p1 , . . . , pl )})
geeignet. Häufig wird aber stattdessen nach dem Typ der zugrunde liegenden
Verteilung gefragt. Beispielsweise hat man die Zeiten von zufälligen Ausschlägen
eines Geiger-Zählers gegeben, und fragt, ob die Anzahl von Ausschlägen pro Minute Poisson-verteilt ist, wobei der zugehörige Parameter noch frei wählbar ist.
Hier soll nur ein Ansatz zur Lösung dieses Problems vorgestellt werden: Man
nimmt zunächst an, dass die Anzahl der Ausschläge zu einem unbekannten Parameter λ Poisson-verteilt ist. Der Parameter λ wird zum Beispiel nach dem
Maximum-Likelihood-Verfahren geschätzt, indem man zunächst den Beobachtungsraum N0 in l Klassen einteilt (vgl. hierzu die erste Bemerkung) und die Besuchshäufigkeiten dieser Klassen der Schätzung zugrundelegt. Man erhält dann
den Wahrscheinlichkeitsvektor (p1 (λ̂), . . . , pl (λ̂)). Man setzt nun in die Formel der
Testgröße D 2 diesen geschätzten Vektor an Stelle von p ein und führt damit den
obigen χ2 -Test durch. Dabei ist allerdings einleuchtend, dass der geschätzte Vektor, weil er von den empirischen Beobachtungen abhängt, besser zu diesen passt
als das theoretische p = (p1 (λ), . . . , pl (λ)). Daher ist der Abstand, der durch
D 2 gemessen wird, kleiner als beim χ2 -Test der Hypothese p. Erstaunlicherweise
kann man diesen Unterschied einfach berücksichtigen durch eine Reduktion der
Freiheitsgrade bei der χ2 -Verteilung um die Dimension des unbekannten Parameters. In dem Geiger-Zähler Beispiel ist dies gerade der eindimensionale PoissonParameter, also erhält man eine χ2l−1−1 -Verteilung für D 2 .
Die resultierende Entscheidungsvorschrift lautet dann: Ist der aus den Beobachtungen gewonnene Wert D 2 größer als das 1 − α-Quantil der χ2l−d−1 -Verteilung,
wird die Hypothese:
H0 : Die unbekannte Verteilung stammt aus der Familie (Pθ )θ∈Θ
verworfen. (Im Beispiel kommt man dann mit Irrtumswahrscheinlichkeit α zum
Schluss: Es handelt sich nicht um eine Poisson-Verteilung. Das kann etwa daran
liegen, dass die radioaktive Substanz während der Beobachtungsperiode gewechselt wurde.) Dieses Verfahren heißt χ2 -Anpassungstest (’test for goodness of
fit’). Es beruht auf folgendem Satz, den wir hier nur zitieren.
Satz 9.4. Sei (Pθ ) ein Familie von Wahrscheinlichkeitsverteilungen auf dem Stichprobenraum
(Ω, B) mit einem Parameter θ ∈ Θ, wobei Θ ⊂ Rd offen ist. Sei Ω =
Sl
k=1 Zk eine Zerlegung von Ω in l disjunkte Zellen, derart dass die Funktionen θ 7→
pk (θ) := Pθ (Zk ) glatt sind. Seien n̂1 , . . . , n̂l die empirischen Häufigkeiten der l Zellen
bei n Beobachtungen. Sei θ̂ ein Maximum-Likelihood-Schätzer für θ auf Grund dieser
Häufigkeiten. Sei
l
X
(n̂k − npk (θ̂))2
2
D =
.
npk (θ̂)
k=1
(n)
Für θ ∈ Θ sei Pθ
die zugehörige Produktverteilung. Dann gilt für alle γ > 0
wobei L(Y ) = χ2l−d−1 .
(n)
Pθ (D 2 > γ) −→ P (Y > γ)
143
9.1
Übungsaufgaben
Aufgabe 73. Gregor Mendel untermauerte im 19. Jahrhundert seine Theorie der
Vererbungslehre, indem er Erbsen kreuzte, die in Form und Farbe variieren. Durch
die Kreuzung entstehen in der 2. Tochtergeneration Erbsen mit den Eigenschaften
rund/gelb, rund/grün, kantig/gelb oder kantig/grün. Aus Mendels Theorie ergibt sich,
daß das Verhältnis dieser vier Phänotypen 9 : 3 : 3 : 1 sein sollte. Seine überlieferten experimentellen Daten sind 315, 108, 101 und 32 Erbsen mit den jeweiligen Ausprägungen
in der 2. Tochtergeneration.
(a) Überprüfe mit dem χ2 -Test zum Niveau α = 0, 05 die Theorie anhand der Daten.
Tip: Das 0, 95 - bzw. 0, 05 -Quantil der χ23 -Verteilung ist 7, 815 bzw. 0, 352.
(b) Passen die Daten nicht schon zu gut zur Theorie um tatsächlich wahr zu sein?
(c) Wie groß ist der Erwartungswert der Teststatistik unter der Hypothese? Beantworte diese Frage einmal mit der χ2 -Approximation und einmal ohne.
Aufgabe 74. (a) Seien (X1 , Y1 ), . . . , (XN , YN ) unabhängige indentisch verteilte Zufallsvariablen mit Werten in {1, . . . , m} × {1, . . . , n} und gemeinsamer Verteilung
P (Xi = j, Yi = k) = pjk , j = 1, . . . , m; k = 1, . . . , n.
Wie kann man einen Test auf Unabhängigkeit der Merkmalsausprägungen X und
Y als Spezialfall des χ2 -Anpassungstests durchführen?
(b) Benutze Teil (a), um an folgendem Beispiel zu testen, ob die Religionszugehörigkeit
Einfluß auf die Wahl des Ehepartners hat. Bei der Befragung von 13763 Ehepaaren
ergab sich folgende Tabelle:
Männer:
kath.
evang.
sonst.
keine
Frauen:
kath.
evang.
9919
693
782
344
248
27
812
108
sonst.
97
22
134
21
keine
293
44
22
197
Überprüfe die Hypothese ob die Religionszugehörigkeit der Ehepartner unabhängig
ist auf dem 1% Niveau. Die Erhebung der Daten wurde 1950 in Wien durchgeführt.
(Tip: Das 99%-Quantil der χ29 -Verteilung ist 21.7.)
144
Kapitel 10
Ergänzungen zur
Verteilungskonvergenz
10.1
Konvergenz der Quantile bei Verteilungskonvergenz
Im vorigen Kapitel brauchten wir für den χ2 -Test das (1 − α)-Quantil der Verteilung
von D 2 . Wir hatten bewiesen, dass D 2 in Verteilung gegen χ2l−1 konvergiert. Dies legt
die Frage nahe: Folgt allgemein aus der Verteilungskonvergenz auch die Konvergenz
der Quantile der betroffenen Verteilungen?
Satz 10.1. (Konvergenz der Quantile) Sei (Fn )n eine Folge von VerteilungsfunkL
tionen mit Pn −→ P, das heißt Fn (z) −→ F (z) für alle Stetigkeitsstellen z von F.
Sei α ∈ (0, 1). Sei qαn ein α-Quantil von Fn . Dann ist jeder Häufungspunkt der Folge
(qαn ) ein α-Quantil von F. Insbesondere erhalten wir, falls F nicht auf einem ganzen
Intervall konstant gleich α ist, die Konvergenz der α-Quantile.
Beweis: Wir erinnern zunächst daran (vgl. Abschnitt 4.2.1), dass für festes α das αQuantil zwar im allgemeinen nicht eindeutig bestimmt ist, aber das kleinste α-Quantil
durch F −1 (z) = inf{z : F (z) ≥ α} gegeben ist und das größte α-Quantil durch
F̄ −1 (z) = inf{z : F (z) > α}. Ferner sind diese beiden Zahlen genau dann gleich,
wenn F nicht auf einem ganzen Intervall konstant gleich α ist.
Sei jetzt t > F̄ −1 (α), das heißt es gibt ein z mit tz und F (z) > α. Dann existiert
in dem Intervall (z, t) eine Stetigkeitsstelle z ∗ von F . Für diese ist limn→∞ Fn (z ∗ ) =
F (z ∗ ) ≥ F (z) > α, also folgt Fn (t) > α für schließlich alle n. Dann gilt aber qαn ≤ t
für schließlich alle n und lim supn→∞ qαn ≤ t. Da t > F̄ −1 (α) beliebig gewählt war,
folgt lim supn→∞ qαn ≤ F̄ −1 (α). Analog beweist man lim inf n→∞ qαn ≥ F −1 (α). Also liegt
jeder Häufungspunkt der qαn zwischen dem kleinsten und dem größten α-Quantil, ist
also selber ein solches. Der letzte Satz der Behauptung ergibt sich aus dem zitierten
Eindeutigkeitskriterium für Quantile.
Als Anwendung ergibt sich, dass Verteilungskonvergenz stets durch eine fast sicher
konvergente Folge von Zufallsvariablen ’realisiert’ werden kann.
145
Korollar 10.2. Sei (Xn )n eine Folge von reellwertigen Zufallsvariablen und X eiL
ne reellwertige Zufallsvariable, so dass PXn −→ PX . Dann existieren Zufallsvariablen
Zn , Z auf dem Wahrscheinlichkeitsraum ([0, 1], B[0, 1], λ), so daß
(i) Zn −→ Z P -fast überall,
(ii) PZn = PXn , PZ = PX .
Beweis: Sei Fn die Verteilungsfunktion von Xn , F die Verteilungsfunktion von X. Setze
Zn (α) := Fn−1 (α), sowie Z(α) := F −1 (α).
Dann gilt λ{α : Zn (α) ≤ z} = Fn (z), also hat PZn die Verteilungsfunktion Fn , daraus
folgt PZn = PXn . Für alle α, außer denjenigen, für die der Wert α von F auf einem
ganzen Intervall angenommen wird, gilt Fn−1 (α) −→ F −1 (α) nach Satz 10.1, denn wie
im obigen Beweis verwendet, liefert die verallgemeinerte Inverse der Verteilungsfunktion
an der Stelle α ein α-Quantil. Es gibt aber nur abzählbar viele Intervalle, auf denen F
konstant ist, also nur abzählbar viele solcher Ausnahmepunkte α. Daher ist die Menge
dieser α eine λ-Nullmenge. Damit folgt Zn (α) −→ Z(α) λ-fast überall.
10.2
Der Satz von Glivenko-Cantelli
Wir erinnern an den Begriff der empirischen Verteilung, den wir schon bei der Einführung
des Erwartungswerts erwähnt hatten, vgl. das erste Beispiel nach Definition 3.1.
Definition 10.3. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Sei X1 , X2 , . . . eine Folge von Zufallsgrößen mit Werten im Beobachtungsraum (S, B) (zum Beispiel S = Rd ).
Definiere µ̂ωn : B −→ [0, 1] durch
n
µ̂ωn (B)
1X
1B (Xk (ω)).
:=
n k=1
Anschaulich ist dies der relative Anteil der Beobachtungswerte X1 (ω), . . . , Xn (ω), die
in die Menge B fallen. µ̂ωn ist die empirische Verteilung. Im Fall S = R ist die
Verteilungsfunktion von µ̂ωn gerade die empirische Verteilungsfunktion
F̂n (ω)(z) =
1
#{k ≤ n|Xk (ω) ≤ z} = µ̂ωn ((−∞, z]).
n
Man erinnere sich daß eine ein metrischer Raum S separabel genannt wird, wenn
es eine abzählbare Teilmenge S0 ⊆ S gibt, so dass S0 in S dicht liegt. Nun kommen
wir zum wichtigen Satz über die Konvergenz der empirischen Verteilung, der in großer
Allgemeinheit gilt.
146
Satz 10.4. (Satz von Glivenko-Cantelli) 1 Sei (S, d) ein separabler metrischer
Raum, B die Borel-σ-Algebra von S. Seien X1 , X2 , . . . unabhängig identisch verteilt
mit PXi = µ, wobei µ ein festes Wahrscheinlichkeitsmaß auf (S, B) ist. Dann gilt
P {ω : µ̂ωn konvergiert schwach gegen µ} = 1, das heißt die empirischen Verteilungen
konvergieren fast sicher gegen die theoretische Verteilung.
Beweis: Da S separabel ist, existiert eine abzählbare dichte Teilmenge S0 ⊂ S. Im Fall
S = Rd wähle zum Beispiel S0 = {(x1 , . . . , xd )|xi ∈ Q für allei = 1, . . . , d}. Damit ist
auch die Menge
M := {B1 (x1 , r1 ) ∪ . . . ∪ Bm (xm , rm )|xi ∈ S0 , ri > 0, ri ∈ Q}
abzählbar.
Zwischenbehauptung2 : Eine beliebige offene Teilmenge U S
von S ist die Vereinigung
aller Mengen aus M, die in U enthalten sind, also U = {Ci |Ci ∈ M, Ci ⊂ U}.
Hier ist ⊃“ klar. Für ⊂“ Sei x ∈ U. Da S0 dicht in S liegt, gibt es eine Folge
”
”
(xn )n ⊂ S0 mit xn → x. Weil U offen ist, gibt es ein ε > 0, so dass B(x, ε) ⊂ U.
Wähle rn ∈ Q mit rn < 2ε . Da xn → x, gibt es ein n0 ∈ N, so dass d(x, xn ) ≤ 2ε
für alle n ≥ n0 . Dann gilt für n ≥ n0 auch B(xn , rn ) ⊂ B(x, ε) ⊂ U. Die Kugeln
B(xn , rn ) sind
S für alle n ≥ n0 in M enthalten, und es gilt B(xn , rn ) ⊂ U, also ist
B(xn , rn ) ⊂ {Ci : Ci ∈ M, Ci ⊂ U} für alle n ≥ n0 . Es gilt aber x ∈ B(xn , rn ) für alle
n ≥ n0 , also x ∈ ∪{Ci : Ci ∈ M, Ci ⊂ U}. Daraus ergibt sich die Zwischenbehauptung.
Sei i nun fest, betrachte die Zufallsvariablen Yk = 1Ci (Xk ). Dann gilt P (Yk = 1) =
P (Xk ∈ Ci ) = PXk (Ci ) = µ(Ci) und genauso P (Yk = 0) = 1 − µ(Ci ). Dabei sind die
Yk unabhängig voneinander, weil sie Funktionen der Xk sind, und E(Yk ) = µ(Ci ), und
daher sind Y1 , Y2 , . . . unabhängig identisch verteilte reellwertige Zufallsvariablen, deren
Varianz endlich ist, also folgt aus dem starken Gesetz der großen Zahlen, dass
!
n
1X
Yk n−→
EY1 = 1.
P
→∞
n k=1
P
P
Aber n1 nk=1 Yk (ω) = n1 nk=1 1Ci (Xk (ω)) = µ̂ωn (Ci ), also gilt P (µ̂ωn (Ci ) −→ µ(Ci)) = 1.
Dies gilt für jedes gewählte i, also ist wegen der Abzählbarkeit von M auch
P (ω : µ̂ωn (Ci ) → µ(Ci) für alle Ci ∈ M) = 1.
Betrachte nun wieder eine beliebige offene Menge U ⊂ S. Wir wissen, daß M eine
Basis der Topologie von S ist, und M ist stabil unter Vereinigungen.
Daher kann man
S∞
eine Folge (Dl )l ⊂ M so wählen, dass D1 ⊂ D2 ⊂ . . . und l=1 Dl = U. Dann gilt
µ(U) = sup lim µ̂ωn (Dl ) ≤ lim inf µ̂ωn (U),
l∈N n→∞
n→∞
1
Valerij Ivanovič Glivenko (1896-1940)
In üblicher topologischer Sprechweise zeigen wir hier, dass in einem separablen metrischer Raum
eine abzählbare Basis der Topologie existiert, nämlich z.B. M.
2
147
also µ̂ωn −→ µ.
Es ist vielleicht nicht sofort ersichtlich, warum man in diesem Beweis nicht sofort
Yk (ω) := 1U (Xk (ω)) setzt, sondern den UmwegPüber die Ci macht. Das liegt daran,
daß für jedes Ci die Menge aller ω, für die n1 nk=1 Yk nicht gegen EY1 konvergiert,
eine Nullmenge bilden.
P Da die Menge der Ci abzählbar ist, ist auch die Menge aller ω,
für die für ein Ci n1 nk=1 Yk nicht gegen EY1 konvergiert, eine Nullmenge, daher folgt
unabhängig vom speziellen Ci µ̂ωn −→ µ. Offene Mengen gibt es dagegen überabzählbar
viele.
Der Satz von Glivenko-Cantelli wird gelegentlich Fundamentalsatz der Statistik genannt. Er besagt, daß sich jede Verteilung durch unabhängig identisch verteilte Beobachtungen tatsächlich empirisch asymptotisch identifizieren läßt.
10.3
Übungsaufgaben
Aufgabe 75. Seien Pn Verteilungen über R und Fn die zugehörigen Verteilungsfunktionen. Sei G eine Funktion mit G(z) = limn Fn (z) für alle z in einer dichten Menge
R ⊂ R.
(a) Wenn G die Verteilungsfunktion einer Verteilung P ist, dann konvergiert Pn gegen
P.
(b) Wenn limz∈R,z→∞ G(z) = 1 und limz∈R,z→−∞ G(z) = 0 gilt, dann gibt es eine
Verteilung P , gegen die die Pn konvergieren. Zeige, dass die Verteilungsfunktion
von P die Form F (x) = limz>x,z↓x,z∈R G(z) hat. Zeige, dass im allgemeinen F 6= G.
Aufgabe 76. Beweise im Spezialfall S = R den Satz von Glivenko-Cantelli mit Teil
(a) der vorigen Aufgabe. (Tip: betrachte z.B. R = Q.)
Aufgabe 77. (Hellysches Auswahlprinzip)3 Sei (Pn ) eine Folge von Verteilungen über
R mit folgender Eingenschaft: Zu jedem ε > 0 gibt es eine Zahl K < ∞ so dass für alle
n gilt Pn ([−K, K]) ≥ 1 − ε. Dann gibt es eine Teilfolge (Pnk ), die gegen eine Verteilung
P konvergiert. (Tip: Verwende ein Diagonalargument und Teil (b) von Aufgabe 75)
3
Eduard Helly (1884-1943)
148
Kapitel 11
Der Poissonprozeß
Es sollen zufällige Punkte, insbesondere zufällige Zeitpunkte modelliert werden, zum
Beispiel:
• Die Zeiten, in denen eine Schadensmeldung bei einer Versicherung eintrifft.
• Die Zeiten, zu denen ein Geiger-Zähler knackt.
• Die Zeiten, zu denen Kunden bei einem Schalter eintreffen.
Diese Zeitpunkte bilden jeweils eine zufällige, abzählbare Teilmenge des R+ . Für jedes
Intervall I ⊂ R+ sei NI die Anzahl der Punkte der zufälligen Menge, die in I fallen.
In den vorangegangenen Beispielen sind Zufallsvariablen NI , die den folgenden Eigenschaften genügen, eine gute Wahl zur Modellierung der Prozesse. Wir bezeichnen mit
|I| die Länge des Intervals I.
(A1) Für disjunkte Intervalle I1 , . . . , In sind NI1 , . . . , NIn unabhängig.
(A2) Ist I1 ∪I2 = I mit I1 ∩ I2 = ∅, so gilt NI1 + NI2 = NI .
(A3) Die Zufallsvariablen NI sind P-(α · |I|)-verteilt, wobei α > 0 die Intensität ist.
Diese Eigenschaften sind die Axiome des Poisson-Prozesses.
Beachte, dass in (A2) die Verteilung der Zufallsvariable NI durch die Verteilung der
beiden Summanden NI1 und NI2 wegen (A1) schon als deren Faltung festgelegt ist.
Dennoch ist durch (A3) diese Verteilung nicht überbestimmt, weil nach Aufgabe 22
die Faltung von Poisson-Verteilungen wieder eine Poisson-Verteilung ist, wobei sich die
Parameter (und die Intervall-Längen) addieren.
Die Wahl der Poisson-Verteilung in (A3) läßt sich auf verschiedene Weise rechtfertigen.
Man kann z.B. drei formal schwächere Eigenschaften (A1′ ), (A2′ ) und (A3′ ) dieser
zufälligen Prozesse aufstellen, und aus diesen die Axiome (A1) und (A3) herleiten,
(siehe etwa [5]). Die Grundidee ist dabei die im Abschnitt 5.1 bewiesene asymptotische
Ähnlichkeit zwischen Poisson-Verteilung und Binomial-Verteilung bei geeigneter Wahl
der Parameter. Ferner
149
(A1′ ) Die Ereignisse {NI1 = 0}, . . . , {NIn = 0} sind für disjunkte Ik unabhängig
(A2′ ) P (NI > 0) = α|I| + o(|I|)
(A3′ ) NI ∈ N fast sicher, P (NI ≥ 2) = o(|I|).
11.1
Konstruktion eines Poisson-Prozesses
Das obige Modell läßt sich ohne weiteres auf eine allgemeinere Grundmenge S anstelle
der positiven reellen Achse übertragen. Dabei kann man das α-fache der Intervalllänge
|I| durch µ(I) ersetzen, wobei µ ein geeignetes (beispielsweise σ-endliches) Maß auf
einer σ-Algebra B über S ist. Dies Maß heißt dann Intensitätsmaß. Im obigen Fall
ist µ = αλ1 wobei λ1 das Lebesgue-Maß auf den Borel-Mengen von R+ bezeichnet.
Einige Worte zur Motivation dieses allgemeineren Ansatzes: Sei etwa NI die Zahl der
Kunden, die bei einem Postschalter eintreffen. Wenn NI Poisson-verteilt ist mit Parameter µ(I), dann ist µ(I) die erwartete Anzahl der Kunden in dem Zeitintervall I. Die
Annahme µ(I) = α|I| aus (A3) impliziert also, dass die Intensität der Ankunftszeitpunkte zeitlich homogen sei, also dass etwa nachmittags im Mittel pro Stunde genauso
viele Kunden ankommen wie vormittags. Das ist unnötig einschränkend. Analog ist
die Intensität der α-Strahlung (das ist natürlich das “physikalische” α) aus dem Weltraum, die bei einer Meßstation auf der Erde trifft, vom Wetter abhängig. Wieder ist
die obige Homogenität unrealistisch. So hat man schon im Fall S ⊂ R Anlaß, andere Intensitätsmaße als Vielfache des Lebesgue-Maßes zuzulassen. Aber es zeigt sich,
dass auch zufällige Punktwolken in räumlichen Zusammenhängen (etwa die Lage von
Bakterien auf einer Petri-Schale oder die Lage kranker Bäume in einem Waldgebiet
oder die Zahl der Galaxien in einem bestimmten Himmelssegment) gelegentlich durch
das Poisson-Modell gut beschrieben werden, insbesondere wenn man bei der Wahl des
Intensitätsmaß nicht zu sehr eingeschränkt ist.
Wir wollen daher einen Poisson-Prozeß gleich in diesem allgemeineren Rahmen konstruieren. Dazu müssen wir einen Wahrscheinlichkeitsraum (Ω, A, P ) und Zufallsgrößen
NI : Ω −→ N0 finden, die die entsprechenden Versionen der Axiomen (A1),(A2) und
(A3) genügen.
Wir wählen zunächst eine Teilmenge S1 ∈ B von S mit µ(S1 ) < ∞. Konstruiere
zunächst Punkte, die in die Menge S1 fallen. Hierfür sei ν1 das Wahrscheinlichkeitsmaß
über der Menge S1 mit
µ(A)
ν1 (A) =
.
µ(S1 )
Wähle unabhängige Zufallsvariablen N, ξ1 , ξ2 , . . ., wobei N Poisson-(µ(S1 )-verteilt ist
und die ξi S1 -wertig und identisch verteilt sind mit L(ξi) = ν1 .1 Sei I ⊂ S1 , dann setze
NI := #({ξ1 (ω), . . . , ξS(ω) (ω)} ∩ I).
1
Die Existenz eines Wahrscheinlichkeitsraums, auf dem solche Zufallsvariable definiert sind, ergibt
sich aus Satz 6.1.
150
Wähle I1 , . . . , Im disjunkt, setze I0 := S1
Vereinigung ist disjunkt.
Sm
i=1 Ii . Dann ist S1 =
Sm
i=0 Ii ,
und die
Satz 11.1. (Existenz von Poisson-Prozessen, Schritt 1)
Die so gewählten Zufallsvariablen NI1 , . . . , NIm genügen den Axiomen (A1)-(A3), wobei
in (A3) der Poisson-Parameter α|I| durch µ(I) ersetzt wird.
Beweis: Die Bedingung (A2) ergibt sich unmittelbar aus der Definition der NI als Anzahl. Für (A1) und (A3) ist zu zeigen, dass für alle Kombinationen k0 , . . . , km von
nichtnegativen ganzen Zahlen gilt
m Y
(µ(Ii)ki
−µ(Ii )
e
·
P (NI0 = k0 , . . . , NIm = km ) =
.
k
!
i
i=0
Denn diese Formel impliziert erstens die Unabhängigkeit der NIi und zweitens, dass
die diese ZV die richtige Poisson-Verteilung haben, vgl. Abschnitt 2.3. Sei
A := {NI0 = k0 , . . . , NIm = km }
= {ω : N(ω) = k0 + . . . + km und #{l : l ≤ N(ω), ξl (ω) ∈ Ii } = ki ∀i}.
Ferner, setze
Ai := {ω : #{l, l ≤ N(ω), ξl (ω) ∈ Ii } = ki }.
Sei r = k0 + . . . + km . Wir erinnern uns daran, dass die Wahrscheinlichkeit dafür,
r unabhängige identisch verteilte Punkte so auf m Zellen aufzuteilen, dass in der iten Zelle gerade ki Punkte landen, durch eine Multinomialverteilung gegeben ist, vgl.
Abschnitt 4.1. Wegen der Unabhängigkeit der ZV N, ξ1 , ξ2 , . . . folgt
!
m
\
P (A) = P (N = r) · P
Ai N = r
i=0
r
· ν(I0 )k0 . . . ν(Im )km
= e
k0 . . . km
µ(S1 )r
r!
µ(I0 )k0 . . . µ(Im )km
= e−µ(I0 )+...+µ(Im ) ·
·
r! k0 ! . . . km !
µ(S1 )k0 +...+km
m ki
Y
−µ(Ii ) µ(Ii )
=
e
·
,
ki !
i=0
−µ(S1 )
r
µ(S1 )
·
·
r!
wie behauptet.
.
Schritt 2 Wir haben daher in einem ersten Schritt für jeden endlichen Maßraum
(S1 , B(S1 ), µ) einen Poisson-Prozess mit Intensitätsmaß µ gefunden. Für unendliche
Maßräume wie die ganze oder die positive reelle Achse mit dem Lebesgue-Maß gehen
wir davon aus, die Grundmenge S sei zerlegbar in eine Folge von disjunkten Mengen Sn
von endlichem Maß. Das ist nur sehr wenig einschränkend. Wir fassen uns bei diesem
zweiten Schritt etwas kürzer.
151
Nach Schritt 1 findet man für jede der Mengen Sn zufällige abzählbare Punktmengen
Zn , derart dass für alle meßbare Teilmenge I von Sn die Zählvariablen NI = #(I ∩ Zn )
Poisson-verteilt sind mit Parameter µ(I), so daß außerdem alle NI mit disjunkten I
unabhängig sind. Um dies für alle n gleichzeitig durchzuführen, verwendet man -wieder
mit Hilfe von Satz 6.1- eine Matrix
 1

N ξ11 ξ12 . . .
N 2 ξ21 . . .
,
...
wobei alle Einträge unabhängig voneinander sind, jedes Nn Poisson-µ(Sn )-verteilt ist,
n)
haben.
und die ξni in der n-ten Zeile alle die Verteilung νn = µ(·∩S
µ(Sn
Wenn man nun die so entstehenden zufälligen Punktmengen Zn ⊂ Sn vereinigt, erhält
man eine zufällige Punktmenge Z, die über die gewünschten Eigenschaften verfügt.
Für die meßbaren Mengen I, die Anteile von mehreren Sn haben, verwendet man die
Unabhängigkeit der Zeilen und wieder Teil (b) der Aufgabe 22.
11.2
Wartezeiten und Stoppzeiten
Wir kehren nun wieder zurück zum homogenen Fall eines Poisson-Prozesses auf R+
mit Intensität α, der durch die Eigenschaften (A1), (A2) und (A3) gegeben ist. Der
üblichen Schreibweise folgend, schreiben wir ab jetzt einfach Nt an Stelle von N[0,t] .
Offensichtlich läßt sich die ganze abzählbare Punktmenge, die den Zählvariablen NI
zugrunde liegt, aus der Familie (Nt )t≥0 rekonstruieren. Ferner setze
Sk := inf{t : N[0,t] ≥ k},
T1 := S1 , Tk := Sk − Sk−1 .
Damit ist Sk die Lage des k-ten Punkts, oder des k-ten Sprungs der monotonen Familie
(Nt ). Die Tk bezeichnen die Länge der Zwischenräume zwischen den einzelnen Punkten.
Sie heißen Wartezeiten (Interarrival times).
Ziel dieses Abschnitts ist der Beweis des folgenden Satzes. Er gibt u.a. eine alternative
Möglichkeit, einen Poisson-Prozess mit Intensität α zu simulieren, da ja Exponentialverteilte Zufallsvariable mit der Umkehrung der Verteilungsfunktion leicht zu simulieren sind, vgl. Aufgabe 12. Der Beweis ist technisch etwas anspruchsvoller. Er vermittelt
einen ersten Eindruck von einigen Ideen, die in der Theorie stochastischer Prozesse in
stetiger Zeit wesentlich sind.
Satz 11.2. (Verteilung der Wartezeiten)
Die Wartezeiten Tk sind unabhängig voneinander und jeweils Exp-(α)-verteilt.
Beweis: 1. Zunächst gilt offenbar für die erste Wartezeit T1 tatsächlich
P (T1 > b) = P (S1 > b) = P (N[0,b) = 0) = e−αb .
152
Die Schwierigkeit, die gleiche Beziehung für die späteren Wartezeiten zu beweisen, liegt
daran, dass die Unabhängigkeitsaussage in den Axiomen des Poisson-Prozesses nur für
feste Zeiten gefordert wird, wir sie aber auch für gewisse zufällige Zeiten brauchen.
Diesem Ziel gelten die nächsten Vorbereitungen.
2. Für t ≥ 0 sei Ft die kleinste σ-Algebra in unserem Wahrscheinlichkeitsraum, die alle
Ereignisse der Form {Ns = k} mit k ∈ N0 und s ≤ t enthält. Das ist die Menge aller
Ereignisse A, deren Eintreten durch das Verhalten des Poisson-Prozesses bis zur Zeit t
vollständig bestimmt ist, die so genannte σ-Algebra der t-Vergangenheit. Offensichtlich
ist die σ-algebra Ft desto umfangreicher, je größer t ist.
3. Wir wollen zeigen, dass für jedes A ∈ Ft und jedes b > 0 die Zufallsvariable N(t,t+b]
unabhängig ist von A. Sei k fest und K
T = {N(t,t+b] = k}. Das Ereignis K ist unabhängig
von allen Ereignissen der Form E = m
j=1 {NIj = kj } mit Ij ⊂ [0, t], also ist P (E|K) =
P (E) und diese Ereignisse bilden ein durchschnittsstabiles Erzeugendensystem von Ft .
Nach dem Eindeutigkeitssatz, der im Beweis von Satz 1.11 verwendet wurde, ist also
P (A|K) = P (A) für alle A ∈ Ft . Damit ist A unabhängig von K und daher auch von
N(t,t+b] .
4. Für Sk−1 gilt: Das Ereignis {Sk−1 ≤ t} = {N[0,t] ≥ k − 1} ist in Ft für jedes t.
Ein solcher zufälliger Zeitpunkt T , für den für alle t ≥ 0 gilt {T ≤ t} ∈ Ft , heißt
Stoppzeit. Sei T eine Stoppzeit. Setze nun
FT := {A ∈ AA ∩ {T ≤ t} ∈ Ft ∀t ≥ 0},
das sind alle Ereignisse A, deren Eintreten sich bis zur Zeit T entscheidet, die so
genannte T -Vergangenheit.
5. Die wesentliche Arbeit im Beweis des Satzes besteht im Beweis der folgenden Zwischenbehauptung: Für jede Stoppzeit T und jedes b > 0 ist die Anzahl NbZ der Poissonpunkte im Intervall (Z, Z + b] Poisson-Verteilt zum Parameter αb und unabhängig
von allen Ereignissen A ∈ FZ .
5. (i): Wir nehmen zunächst an, die Stoppzeit T nehme nur Werte in einem abzählbaren
Gitter
N0 h = {ih i ∈ N0 } an. Sei A ∈ FT . In diesem Fall gilt A ∩ {T = ih} = A ∩ {T ≤
ih} (A ∩ {T ≤ (i − 1)h}), da zwischen (i − 1)h und ih kein Wert angenommen werden
kann. Da T eine Stoppzeit ist, gilt damit A ∩ {T = ih} ∈ Fih für alle i. Dann ist
A∩
{NbT
= k} =
=
∞
[
i=1
∞
[
i=1
({T = ih, N(ih,ih+b] = k}) ∩ A
({T = ih} ∩ A ∩ {N(ih,ih+b] = k}).
Damit folgt unter Beachtung von Schritt 3
P (A ∩ {NbT = k}) =
=
∞
X
i=1
∞
X
i=1
P ({T = ih} ∩ A ∩ {N(ih,ih+b] = k})
P ({T = ih} ∩ A) · e−αb ·
153
(αb)k
(αb)k
= e−αb ·
· P (A).
k!
k!
Dabei gilt das vorletzte Gleichheitszeichen wegen der Unabhängigkeit von {X(ih,ih+b] =
k} und {T = ih} ∩ A, und das letzte ergibt sich wegen
∞
X
i=1
P ({T = ih} ∩ A) = P (
∞
[
{T = ih} ∩ A) = P (A).
i=1
5. (ii). T sei eine beliebige Stopzeit. Dazu nähert man T von oben durch Stopzeiten
T (n) an, die nur abzählbar viele Werte annehmen. Setze
Tn := (k + 1) · 2−n
auf dem Ereignis {k · 2−n < T ≤ (k + 1) · 2−n }. T (n) ist also der rechte Endpunkt
desjenigen links offenen und rechts abgeschlossenen dyadischen Intervalls der Länge
2−n , welches T enthält. Sei t > 0 beliebig. Sei kt ∈ N0 so dass kt · 2−n ≤ t < (kt + 1)2−n .
Dann gilt
{T (n) ≤ t} = {T (n) ≤ kt 2−n } = {T ≤ kt 2−n } ∈ Fkt ·2−n ⊂ Ft ,
also ist Tn tatsächlich eine Stoppzeit. Sei A ∈ FT . Dann gilt
A ∩ {T (n) ≤ t} = A ∩ {T ≤ kt · 2−n } ∈ Fkt ·2−n ⊂ Ft .
Also ist A ∈ FT (n) und man kann den 1. Fall auf Tn und A anwenden.
Mit Fall 1 folgt dann: NbTn ist Poisson-(αb)-verteilt und unabhängig von A. Die Zahl der
Poisson-Punkte in (Tn , Tn +b] konvergiert fast sicher gegen die Tahl der Poisson-Punkte
in (T, T + b], d.h. NbT = limn−→∞ NbTn fast sicher, und damit folgt
P (NbT = k) = lim P (NbTn = k) = e−αb ·
n−→∞
(αb)k
.
k!
Damit ist die Zwischenbehauptung bewiesen.
6. Mit A := {T1 > b1 , . . . , Tk−1 > bk−1 } ist A ∩ {Sk−1 ≤ t} ∈ Ft , es gilt also A ∈ FSk−1 .
S
Außerdem gilt {Tk > bk } = {Nbkk−1 = 0}, und damit wegen der Zwischenbehauptung
Damit folgt
S
S
P {Tk > bk A} = P {Nbkk−1 = 0A} = P {Nbkk−1 = 0} = e−αbk .
P (Tk > bk , . . . , T1 > b1 ) = P (Tk > bk A) · P (A)
= P (Tk > bk ) · P (A) = . . . = P (Tk > bk ) · . . . · P (T1 > b1 )
k
Y
e−αbi .
=
i=1
Dies beendet den Beweis.
154
Bemerkung 11.3. Aus dem Satzes kann man folgern, dass die Länge eines typischen
Intervalls zwischen zwei benachbarten Poisson-Punkten eine Exp(α)- verteilten Zufallsvariable ist, also gleich α−1 . Mit dieser Aussage muss man aber vorsichtig sein: Betrachten wir etwa dasjenige Intervall J zwischen zwei benachbarten Poisson-Punkten,
das den Punkt t = 1 enthält. Es wird rechts begenzt von dem ersten Poisson-Punkt
rechts von 1, nennen wir ihn Y . Für jedes b > 0 ist dann
P (Y > 1 + b) = P (N(1,1+b] = 0) = e−αb
und damit ist Y − 1 eine Exp(α) verteilte ZV, z.B. ist E(Y − 1) = α−1 . Andererseits
setzt sich das Intervall J zusammen aus seinem rechten Teil, dessen erwartete Länge wir
gerade berechnet haben und einem nicht-trivialen linken Teil. Daher ist die erwartete
Länge von J echt größer als die typische Länge. Ist das paradox? Nein: J ist eben kein
typisches Intervall: Wir haben die Zusatzinformation, dass J den Punkt 1 enthält.
11.3
Übungsaufgaben
Aufgabe 78. Sei X zum Parameter λ Poisson verteilt und Y die Anzahl der Erfolge in
X Bernoulli Versuchen mit Erfolgswahrscheinlichkeit p ∈ (0, 1). Zeige, daß Y und X −Y
unabhängige zu den Parametern λp und λ(1−p) Poisson verteilte Zufallsvariablen sind.
155
156
Kapitel 12
Charakteristische Funktionen
12.1
Eigenschaften und Lévy’s Stetigkeitssatz
Definition 12.1. Für eine vorgegebene Wahrscheinlichkeitsverteilung P auf B(Rd )
betrachte die Funktion P̂ : Rd −→ C, definiert durch
Z
ihX,ti
P̂ (t) := EP (e
)=
(eihX,ti )dP (x) = EP (coshX, ti + i sinhX, ti).
Rd
Sie heißt charakteristische Funktion von P .
Beachte, daß wegen |eihX,ti | = 1 dieser Erwartungswert stets existiert. Die praktische
Bedeutung dieser Funktion beruht nicht zuletzt auf der folgenden Rechenregel.
Satz 12.2. Seien X, Y unabhängige, d-dimensionale Zufallsvektoren. Dann gilt
ˆ
ˆ
\
P\
∗
P
(t)
=P
X
Y
X+Y (t) = PX (t) PY (t).
Beweis: Es gilt
eihX+Y,ti = eihX,ti+ihY,ti = eihX,ti eihY,ti .
Allgemein gilt auch für komplexwertige unabhängige Zufallsvariable Φ ,Ψ die Produktformel
E(ΦΨ) = E(Φ) E(Ψ),
denn es ist
E(ΦΨ) =
=
=
=
=
E((ReΦ + ImΦ i) (ReΨ + ImΨ i))
E((ReΦ ReΨ − ImΦ ImΨ + (ReΦ ImΨ + ImΦ ReΨ) i)
E(ReΦ ReΨ) − E(ImΦ ImΨ) + E(ReΦ ImΨ) i + E(ImΦ ReΨ) i
(E(ReΦ) + E(ImΦ i)) (E(ReΨ) + E(ImΨ) i)
E(Φ) E(Ψ).
Also gilt E eihX+Y,ti = PˆX (t) PˆY (t).
Zur vereinfachten Notation setzen wir im folgenden Satz d = 1.
157
(k)
Satz 12.3. Wenn E(|X|k ) < ∞, dann existiert die k-te Ableitung PˆX (t) und ist
stetig differenzierbar. Speziell im Fall k = 0 folgt, daß die Funktion PˆX (t) stetig ist.
d i Xt
e
dt
= i Xei Xt hat den Betrag |X|. Daher gilt
Z d i Xt d i xt < ∞.
e PX (dx) = E e dt
dt
Beweis: Die Zufallsvariable
Da das für alle X und t gilt, folgt mit dem Satz über Vertauschung von Differentiation
und Integration
f : t 7→ E(ei Xt )
ist differenzierbar mit
f ′ (t)
E(i Xei Xt ).
=
Nun zur Stetigkeit. Sei tn −→ t und setze Zn := i Xei Xtn . Dann folgt mit dem Satz
über majorisierte Konvergenz aus Zn −→ Xei Xt , dass E(Zn ) −→ E(i Xei Xt ), also
f ′ (tn ) −→ f ′ (t).
Lemma 12.4. Für die charakteristische Funktion gilt:
(a) P̂ (0) = 1
(b) P̂AX (t) = P̂X (AT t) für jede Matrix A.
Beweis: a) P̂ (0) =
R
e0 dP =
Rd
i hAX,ti
ˆ (t) = EP (e
b)PAX
R
1 dP = 1.
Rd
) = EP (ei hX,A
T ti
) = PˆX (AT t).
Beispiel Es werden nun für zwei Verteilungen die charakteristischen Funktionen berechnet.
1. Binomial-Verteilung. P (X = k) = nk pk (1 − p)n−k . Dann ist
P̂ (t) = E(ei Xt ) =
n
X
ei kt
k=0
n
k
pk (1 − p)n−k = (p ei t + (1 − p))n
nach dem binomischen Lehrsatz.
2. eindimensionale Normalverteilung. P = N (0; 1).Wir zeigen, dass
P̂ (t) =
Z∞
−∞
1
x2
t2
ei xt √ e− 2 dx = e− 2 .
2π
z2
Beweis: Wir betrachten die Funktion f (z) = e− 2 und integrieren über die Wege
158
γ1 : s 7→ −R + s(2R), γ2 : s 7→ R + s i t, γ3 : s 7→ R + s(−2R) + i t,
γ4 : s 7→ −R + i t − i t s. Setze γ := γ1 ⋆ γ2 ⋆ γ3 ⋆ γ4 .
Dann gelten
Z
z2
e− 2 dz = 0,
lim
R→∞
Z
2
− z2
e
dz = 0 und
lim
R→∞
γ2
γ
Z
z2
e− 2 dz = 0.
γ4
Daraus folgt
Z−R
ZR
√
(x+i t)2
x2
lim − e− 2 dx = lim
e− 2 dx = 2π
R→∞
−R
R→∞
R
und
Z∞
ei xt e−
x2
2
t2
dx = e− 2
√
2π.
−∞
Daraus ergibt sich die Behauptung.
Die gute Verträglichkeit der charakteristischen Funktion mit Unabhängigkeit von Zufallsvariablen zeigt sich auch in der folgenden Aussage. Ihre Umkehrung ist auch richtig,
wie man mit der Eindeutigkeitsaussage des Satzes 12.6 wird schließen können.
Satz 12.5. Seien zwei Zufallsvektoren X, Y mit Werten im Rd bzw Rm unabhängig.
Dann hat die charakteristische Funktion der gemeinsamen Verteilung Produktgestalt,
dh.
c c
\
P
(X,Y ) (s, t) = PX (s)PY (t)
gilt für alle s ∈ Rd , t ∈ Rm .
Beweis: Für die Produktverteilung PX ⊗ PY sind die Projektionen πx : Rd+m → Rd
und πy : Rd+m → Rm unabhängige Zufallsvektoren mit den Verteilungen PX und PY .
Ferner ist das d + m-dimensionale Skalarprodukt des Vektors (X, Y ) mit dem Vektor
(s, t) gerade die Summe hX, si + hY, ti
ˆ ) (s, t) = E(eihX,si+hY,ti ) = E(eihX,si )E(eihY,ti ) = PˆX (s)PˆY (t).
P(X,Y
Der nächste Satz hat zum einen eine große praktische Bedeutung zum Nachweis von
Verteilungskonvergenz. Dazu lernen wir später auch noch ein wichtiges Beispiel kennen, indem wir den zentralen Grenzwertsatz noch einmal mit dieser Methode beweisen
werden. Zum anderen folgt, daß ein Wahrscheinlichkeitsmaß durch Kenntnis der charakteristischen Funktion bereits eindeutig bestimmt ist. Dieser Tatsache verdanken die
charakteristischen Funktionen ihren Namen. Sie hilft, wenn man nachweisen will, daß
eine Zufallsvariable einer bestimmten Verteilung genügt.
159
Satz 12.6. (Lévy’s Stetigkeitssatz) 1
Seien Pn , P Wahrscheinlichkeitsverteilungen über dem Rd . Dann gilt Pn |=⇒ P in
Verteilung genau dann, wenn lim Pˆn (t) = P̂ (t) für alle t ∈ Rd . Insbesondere ist jede
n→∞
Wahrscheinlichkeitsverteilung eindeutig durch ihre charakteristische Funktion bestimmt
(vgl. Pn = P ).
Um diesen Satz zu beweisen, müssen wir noch zwei Lemmata zeigen.
Lemma 12.7. Sei σ > 0 und P eine Wahrscheinlichkeitsverteilung über dem Rd .
Definiere P σ := P ∗ N (0, σ 2 · I). Dann hat P σ eine Dichte f σ und diese ist gegeben
durch
Z
2
2
1
−i hx,ti − σ ktk
σ
2
P̂
(t)e
f (x) =
dt.
(2π)d
Rd
kzk2
Beweis: Sei φσ (z) = √ 1 2 d e− 2σ2 die Dichte einer N (0, σ 2 · I) - Verteilung. Dann wissen
2πσ
wir, dass f σ existiert. Ferner können wir es angeben,
Z
Z
σ
f (x) = φσ (x − y)P (dy) = φσ (y − x)P (dy).
Rd
Rd
Nach dem Beispiel wissen wir bereits, dass, wenn L(Y ) = N (0, I),
Daraus folgt, dass
−σ
d
c
N\
(0, σ 2)(t) = P
σY = PY (σt) = e
φσ (y − x) = √
= √
1
d
2π
1
d
σd
2π σ d
e−
Z
Rd
ky−xk2
2σ 2
=√
d
σ
√ de
2π
1
2π
d
σ 2 ktk2
− 2
σd
2 ktk2
2
.
N\
(0, σ12 )(y − x)
ei hy−x,ti dt.
Einsetzen liefert
Z Z
Z
σ 2 ktk2
σ 2 ktk2
1
1
i hy,ti
−ihx,ti − 2
−ihx,ti− 2
σ
e
dP
(y)
e
e
P̂
(t)
e
f (x) =
dt
=
dt,
(2π)d
(2π)d
Rd
Rd
Rd
wobei der Satz von Fubini angewendet wurde.
Lemma 12.8. (Lemma von Scheffé) 2
Seien
fn , f Wahrscheinlichkeitsdichten mit fn (x) → f (x) für λd -fast alle x. Dann gilt
R
|f − fn |(x) dx → 0, insbesondere gilt
Rd
Z
Z
fn (x)φ(x)dx →
f (x)φ(x) dx,
Rd
Rd
für alle beschränkten messbaren Funktionen φ.
1
2
Paul Lévy (1886-1971)
Henry Scheffé, 1907-1977
160
Beweis: Es gilt |fn − f | = f − min(f, fn ) + max(f, fn ) − f . Setze gn = f − min(f, fn )
und hn = max(f, fn ) − f . Wegen f − min(f, fn ) → 0 fast überall Rfolgt gn (x) → 0 fast
überall. Daher folgt mit dem Satz über majorisierte Konvergenz gn dx → 0. Ebenso
folgt mit f − fn = gn − hn , dass
Z
Z
Z
hn dx = fn − f + gn dx = 1 − 1 + gn dx → 0.
Also gilt
R
R
|f − fn | dx = gn + hn dx → 0. Daraus folgt, da φ beschränkt ist, dass
Z
Z
Z
fn φ − f φ ≤ |fn − f | dx kφk∞ → 0.
Beweis: von Satz 12.6
1. Wenn wir Pn |=⇒ P voraussetzen, dann gilt, da cos(hx, ti) und sin(hx, ti) stetige
beschränkte Funktionen sind, dass
Z
Z
Pˆn (t) =
cos(hx, ti) dPn (x) + i sin(hx, ti) dPn (x)
Rd
−→
Z
Rd
cos(hx, ti) + i sin(hx, ti) dP = P̂ (t).
Rd
2. Sei nun Pˆn (t) → P̂ (t) für alle t ∈ Rd . Zunächst zeigen wir für jedes σ 2 > 0, dass
Pnσ |=⇒ P σ , wobei Pnσ = Pn ∗ N (0, σ 2 · I) und P σ = P ∗ N (0, σ 2 · I) ist. Sei fnσ eine
Dichte von Pnσ und f σ eine von P σ . Dann gilt nach Lemma 12.7 außerhalb von
Nullmengen, dass
Z
2
2
1
σ
ˆn (t)e−i hx,ti − σ ktk
2
P
dt
fn (x) =
(2π)d
Rd
und
1
f (x) =
(2π)d
σ
Z
P̂ (t)e−i hx,ti −
σ 2 ktk2
2
dt.
Rd
σ 2 ktk2
Da die Integranden betragsmäßig durch e− 2 beschränkt sind, folgt mit der
Voraussetzung und dem Satz über majorisierte Konvergenz,R dass fnσ (x) −→
f σ (x) λd -fast-überall. Somit gilt nach dem Lemma 12.8, dass |fnσ −f σ | dx → 0,
was bereits Pnσ |=⇒ P σ impliziert.
Nun wollen wir Pn |=⇒ P zeigen. Wir wenden das Kriterium aus Satz 8.7 an. Sei
also φ ∈ C ∞ (Rd ) mit beschränkten Ableitungen gegeben. Dann ist φ nach dem
Mittelwertsatz der Differenzialrechnung insbesondere eine Lipschitz-Funktion 3 ,
3
Rudolf Lipschitz (1832-1903)
161
dh. es gibt eine Konstante L mit |φ(x) − φ(y)| ≤ L|x − y| für alle x, y ∈ Rd . Dann
gilt für jede Wahrscheinlichkeitsverteilung Q über dem Rd und jedes σ > 0
Z
Z
√
| φ dQ − φ dQσ | = |E(φ(X) − E(φ(X + σZ)| ≤ E(Lσ|Z|) ≤ dLσ
wobei X ein Zufallsvektor mit Verteilung Q und Z ein von X unabhängiger
Standard-Normalverteilter Vektor ist. Wegen Pnσ |=⇒ P σ folgt nun
Z
Z
Z
Z
√
√
σ
σ
lim sup φ dPn − φ dP ≤ lim sup φ dPn − φ dP + 2 dLσ = 2 dLσ
n→∞
R
n→∞
für jedes σ > 0, und damit φ dPn →
gewünschte Verteilungskonvergenz.
R
φ dP . Aus Satz 8.7 ergibt sich die
12.2
Diskrete charakteristische Funktionen (FFT)
Charakteristische Funktionen sind auch für numerische Berechnungen wichtig. Im folgenden soll es darum gehen, aus charakteristischen Funktionen für Wahrscheinlichkeitsverteilungen über N die Verteilung zu ermitteln.
n
P
pk εk also P = PX für eine Zufallsvariable X mit P (X =
Satz 12.9. Sei P =
k=1
n
P
k) = pk für k = 1, . . . , n und
pi = 1. Dann ist (pk )k=0,...,n schon durch die Werte
i=1
P̂ (2π nl )l=1,...,n eindeutig bestimmt, insbesondere also schon durch endlich viele Werte
der charakteristischen Funktion.
Beweis: Zunächst zeigen wir, dass für die Matrix
2π i kl
n
Fn = e
(12.1)
l,k=1,...,n
die umnormierte Matrix
kl
wobei uk = √1n e2π i n
√1 Fn
n
l=1,...,n
unitär ist. Das heißt, wir müssen huk , uk′ i = δk k′ zeigen,
∈ Cn .
1.
n
huk , uk i =
2. Sei k 6= k ′ .
1 X 2π i kl −2π i kl
n = 1
e ne
n l=1
n
n−1
X
1
l
1 X 2π i l (k−k′ )
1
′
′
e n
e2π i n (k−k )
huk , uk′ i =
= e2π i n (k−k )
n l=1
n
l=0
n
1 2π i 1 (k−k′ ) X 2π i l (k−k′ )
e n
e n
=
n
l=1
162
Pn
1
(k−k ′ )
2π i n
2π i nl (k−k ′ )
√1 F ∗
n n
√1 Fn
n
−1
6= 1 folgt l=1 e
= 0. Also gilt
=
.
Pn
Wegen P̂ (t) = k=1 ei kt pk ist damit P̂ 2π nl
= Fn ((pk )k=1,...,n ). Aus der InverDa e
l=1,...,n
tierbarkeit von Fn folgt die behauptete Eindeutigkeit.
Wir wollen nun zeigen, dass die Berechnung von Fm · z und Fm−1 · z in O(m ln(m))
Schritten durchgeführt werden kann. Wir wollen den Fall m = 2s betrachten und
beschränken uns im Beweis auf den Fall von F2n .
s
s
Satz 12.10. Sei z ∈ C2 . Dann lassen sich die Vektoren F2s · z und F2−1
s · z mit 2 · s · 2
Operationen berechnen.
s+1
sich rekursiv durch die
Beweis: Wir zeigen, dass der Vektor ẑ = F2s+1 · z, z ∈ C2
Beziehungen




zˆ1
ẑ2s +1
 .. 
 .. 
 .  = x̂ + ∆ŷ
 .  = x̂ − ∆ŷ
ẑ2s
ẑ2s+1
mit
x̂ = F2s


z2
 .. 
 . ,
z2s+1


ŷ = F2s 
z1
..
.
z2s+1 −1
(getrennt nach geraden und ungeraden Indizes) und

 − 2π i 1
0
e 2s+1 · · ·


..
..
..
∆ = 

.
.
.
i s
− 2π
2
0
· · · e 2s+1



berechnen lässt.
Induktionsanfang: Für s = 0 ist F2−1
0 = F20 = 1.
Induktionsschritt s → s + 1:
j
s+1
Sei also z ∈ C 2 . Setze γs (j) = e 2s 2π i . Dann ist
zˆk =
s+1
2
X
s
γs+1 (kl) zl =
l=1
2
X
s
γs+1(k2l) z2l +
l=1
2
X
l=1
γs+1 (k(2l − 1)) z2l−1 .
Wegen γs+1 (2j) = γs (j) folgt mit γs+1 (p + r) = γs+1(p) γs+1(r),
1.
s
zˆk =
=
2
X
l=1
2s
X
γs (kl) z2l + γs+1 (−k)
γs (kl) z2l + γs+1 (−k)
s −1
2X
l=0
2s
X
l=1
l=1
163
γs (kl) z2l−1
γs (kl) z2l−1
2. speziell für den Fall 2s + 1 ≤ k ≤ 2s+1 gilt noch wegen der 2s -Periodizität von γs
und wegen γs+1(k) = −γs+1 (k − 2s ), dass
s
zˆk =
2
X
l=1
s
(γs ((k − 2s )l) z2l ) − γs+1(−(k − 2s ))
2
X
l=1
γs ((k − 2s )l) z2l−1 .
Die Gleichungen in 1. und 2. verifizieren den Algorithmus. Nach Induktionsvoraussetzung brauchen wir zur Berechnung von x̂ und ŷ je 2 · s · 2s Operationen. Die Multiplikation mit ∆ führt zu 2s Operationen, ebenso die beiden Additionen. So kommen wir
auf 2 · 2 · s · 2s + 2 · 2s + 2 · 2s = 2(s + 1) · 2s+1 Operationen.
Bemerkung 1. Das Rechenverfahren des Satzes ist unter dem Namen Fast Fourier
Transform (FFT) bekannt.
2. Auf diese Weise können wir auch den Rechenaufwand bei der Faltung zweier Wahrscheinlichkeitsverteilungen p, q auf N mit einem Träger der Grössenordnung m = 2n
verkleinern: Direkte Faltung benötigt O(m2 ) elementare Operationen. Wegen
p ∗ q = F2−1
n ((F2n · p)(F2n · q))
kann man diesen Aufwand mit FFT jedoch auf O(m log m) reduzieren.
12.3
Alternativer Beweis des Zentralen Grenzwertsatzes
Wie bereits angekündigt, wollen wir nun den Zentralen Grenzwertsatz mit Hilfe der
Theorie der charakteristischen Funktionen beweisen. Dabei können wir sogar auf die
Voraussetzung der Existenz der dritten Momente verzichten. Wir bemerken, dass wir
jetzt eigentlich auch alle notwendigen Hilfsmittel zur Verfügung hätten, um - allerdings
mit einem leicht höheren Bezeichnungsaufwand - auch die mehrdimensionale Version
aus Kapitel 8 genauso zu beweisen.
Dazu sei die Aussage des Satzes zuerst noch einmal wiederholt.
Satz 12.11. (Zentraler Grenzwertsatz)
Seien X1 , X2 , ... unabhängige, identisch verteilte Zufallsvariable mit E(Xi ) = µ und
Var(Xi ) < ∞ für alle i. Dann gilt
n
1 1X
L
√
(Xi − µ) −→ N (0, 1).
n σ i=1
Beweis: Sei ohne Einschränkung E(Xi ) = 0 für alle i. Es soll gezeigt werden, daß für
alle t ∈ R gilt
lim P̂n (t) = P̂ (t),
n−→∞
164
wenn Pn die Verteilung von
√1 1
nσ
Pn
i=1
Xi ist, und P die Standard-Normalverteilung
L
ist. Dann folgt mit Satz 12.6, daß Pn −→ P . Die charakteristische Funktion der Normalverteilung wurde schon imP
Abschnitt 12.1 berechnet. Es muß also noch die charak1
1
teristische Funktion von √n σ ni=1 Xi berechnet werden. Nach Satz 12.2 gilt
P̂Pni=1 Xi =
n
Y
P̂Xi = (P̂X1 )n .
i=1
Aus Lemma 12.4 folgt
P̂ √1
1
nσ
1 1
1 1 n
Pn
√
√
(t)
=
P̂
(
t)
=
(
P̂
t) .
X
X
1
i=1 i
i=1 Xi
nσ
nσ
Pn
Setze s := √1n σ1 t. Mit der Taylorapproximation um 0 soll nun P̂X1 (s) näherungsweise
bestimmt werden:
P̂X1 (s) =
=
=
=
P̂ ′′ (0)
P̂X1 (0) + P̂X′ 1 (0) s + X21 s2 + o(s2 )
E(−X12 ei X1 0 ) 2
s + o(s2 )
1 + E(i X1 eiX1 0 ) +
2
1) 1 1 2
1 − Var(X
t + o(s2 )
2
n σ2
2
t
1 − 2n
+ o(s2 )
Damit gilt aber
P̂n (t) = P̂ √1
1
n σ
2
t2
1 1 n
2 n n→∞ −t
2
√
−→
e
t)
=
1
−
+
o(s
)
(t)
=
(
P̂
X
1
X
i
i=1
nσ
2n
Pn
nach der Eulerschen Formel. Dies ist aber genau die charakteristische Funktion der
Normalverteilung. Nach Lévys Stetigkeitssatz folgt die Behauptung.
12.4
Übungsaufgaben
Aufgabe 79. Zeige: Ist E(|X|k ) < ∞ für alle k ∈ N so gilt
Pc
X (t) =
∞
X
(it)k
k=0
k!
E(X k ).
Aufgabe 80. Bestimme die charakteristische Funktion einer Poisson-Verteilung und
einer Cauchy-Verteilung.
Aufgabe 81. Beweise Satz 5.1 (b) mit Hilfe von charakteristischen Funktionen.
Aufgabe 82. Sei µ eine Wahrscheinlichkeitsverteilung auf den natürlichen Zahlen N =
{0, 1, . . . }. Definiere ferner die Erzeugendenfunktion (’generating function’) G : [0, 1] →
[0, 1] von µ durch
∞
X
xn µ(n).
G(x) :=
n=0
Zeige wie man die charakteristische Funktion und die Erzeugendenfunktion auseinander
berechnen kann.
165
Aufgabe 83. Eine der klassischen Anwendungen der Erzeugendenfunktion ist die
folgende. Sei µ eine Wahrscheinlichkeitsverteilung auf den natürlichen Zahlen N =
{0, 1, . . . } mit positiver Varianz und {Xjn : j, n ≥ 1} ein Array von unabhängigen
µ-verteilten Zufallsvariablen mit Werten in N. Setzt man S0 = 1 und
Sn−1
Sn :=
X
Xjn
j=1
für n ≥ 1,
so beschreibt die Folge S0 , S1 , . . . die Entwicklung einer Population, die zur Zeit Null
mit einem Individuum startet und in jedem Zeitschritt jedes Individuum unabhängig
voneinander gemäß der Geburtenverteilung µ Nachwuchs produziert.
(a) Zeige, die Aussterbewahrscheinlichkeit der Population
π := P {Sn = 0 für ein n ∈ N}
ist der kleinste Fixpunkt von G.
(b) Zeige, daß π genau dann gleich 1 ist, wenn
∞
X
k=0
kµ(k) ≤ 1,
d.h. wenn der Erwartungswert für die Anzahl der Nachkommen eines Individuums
kleiner oder gleich 1 ist.
166
Kapitel 13
Einige Begriffe aus der
Informationstheorie
Informationstheoretische Überlegungen spielen eine wichtige Rolle in vielen Bereichen
der Wahrscheinlichkeitstheorie und Statistik. Umgekehrt ist Stochastik für Informationszwecke unerlässlich etwa bei Betrachtungen zur Effizienz von Daten-Übertragung.
Wir wollen in diesem Kapitel einfache Beispiele für beides geben.
Informationsübermittlung findet zwischen einem Sender und einem Empfänger statt.
Ob sie erfolgreich ist, hängt sowohl von den übermittelten Signalen als auch von den
Kenntnissen oder Verständnisfähigkeiten des Empfängers und des Senders ab.
Die mathematische Informationstheorie wurde in ihren wesentlichen Gründzügen von
dem Mathematiker und Elektrotechniker Claude Shannon1 [8] begründet. Seine ’Theory
of Communication’ sieht keine Rückkopplung zwischen Sender und Empfänger vor
und setzt quantifizierbare Wahrscheinlichkeiten bei den gesendeten Signalen und ihrer
Übertragungsgenauigkeit voraus.2
13.1
Entropie und relative Entropie endlicher stochastischer Experimente
In diesem Abschnitt besprechen wir folgendes einfache Modell: Der Empfänger weiss,
dass er genau eines von endlich vielen verschiedenen Signalen x1 , . . . , xn erhält. Außerdem geht er davon aus, dass das Signal xi mit einer Wahrscheinlichkeit pi kommt.
Seine Vorkenntnis ist also durch den endlichen Wahrscheinlichkeitsraum
({x1 , . . . , xn , P({x1 , . . . , xn }), P )
beschrieben, wobei P die diskrete Wahrscheinlichkeitsverteilung ist mit den Gewichten p1 , . . . , pn . Bis auf Isomorphie charakterisiert also der Wahrscheinlichkeitsvektor
(p1 , . . . , pn ) das Modell.
1
Claude Shannon (1916-2001)
Dies sind echte Einschränkungen, es gibt wichtige Bereiche des Informationsaustauschs, bei denen
daher dieser Ansatz zur Zeit noch wenig beitragen kann.
2
167
Unser erstes Ziel ist, eine Kenngröße H(p1 , . . . , pn ) zu finden, die den Informationsgewinn mißt, den der Empfänger durch die Mitteilung des Ergebnisses eines stochastischen Experiments erwarten kann, dessen möglichen Ausgänge die Wahrscheinlichkeiten pi haben. Wir nennen diese Zahl den Informationsgehalt des Experiments.
Alternativ kann man auch von einem Maß für die Unsicherheit sprechen, die durch die
Durchführung des Experiments beseitigt wird.
Es gibt eine Reihe charakteristischer Eigenschaften, die man von einem solchen Funktional erwartet. Zunächst ist es offensichtlich sinnvoll zu fordern, dass der Wert
H(p1 , . . . , pn ) nicht von der Reihenfolge seiner Argumente abhängt: Für jede Permutation π der Indexmenge {1, . . . , n} gilt
H(p1, . . . , pn ) = H(pπ(1) , . . . , pπ(n) ).
(13.1)
Man legt sich auf eine Maßeinheit fest: das bit (Abkürzung von ’binary digit’). Das
ist diejenige Informationsmenge, die man durch die Antwort auf eine Ja/Nein-Frage
(einfache Alternative) gewinnt, falls vorher maximale Unsicherheit darüber bestand, welche Antwort kommt; dies entspricht dem Werfen einer fairen Münze. Es soll
also
1 1
H( , ) = 1 (bit)
(13.2)
2 2
gelten. Sehr natürlich ist auch folgende
Additionsregel : Sind E1 und E2 zwei Experimente mit jeweiligem Informationsgehalt
H1 bzw. H2 , so hat die unabhängige Kopplung dieser beiden Experimente den Informationsgehalt H1 + H2 . Das bedeutet für unser Funktional: Sind p = (p1 , . . . , pr ) und
q = (q1 , . . . , qm ) zwei Wahrscheinlichkeitsvektoren, und ist p ⊗ q ein Wahrscheinlichkeitsvektor mit den n · m Komponenten pi ql , 1 ≤ i ≤ r, 1 ≤ l ≤ m so gilt
H(p ⊗ q) = H(p) + H(q)
(13.3)
Wenn H ein Funktional mit diesen Eigenschaften ist, kann man für n ∈ N den Wert
h(n) = H( n1 , . . . , n1 ) definieren. Er repräsentiert die Information, die mit der Durchführung eines Laplace-Experiments mit n Ausgängen gewonnen wird. Weil die unabhängige Kopplung zweier Laplace-Experimente wieder ein Laplace-Experiment ist,
gelten dann wegen (13.2) und (13.3)
h(2) = 1 und h(n · m) = h(n) + h(m).
(13.4)
Unter der natürlichen Zusatz-Annahme der Monotonie läßt sich h damit konkret angeben:
Satz 13.1. (Hartley) Die einzige nicht fallende Funktion h : N → R mit (13.4) ist
gegeben durch h(n) = log(n), wobei wir mit log den Logarithmus zur Basis 2 bezeichnen.
Beweis: Die Funktion h = log2 hat alle angegebenen Eigenschaften. Also reicht es zu
zeigen, dass h durch diese Eigenschaften eindeutig bestimmt ist. Zunächst ist offensichtlich h(2k ) = k für alle k. Sei jetzt n fest gewählt. Für jedes m sei s(m) die Zahl
168
mit 2s(m) ≤ m · n < 2s(m)+1 . Dann gilt h(2s(m) ) ≤ h(m · n) ≤ h(2s(m)+1 ) und damit
s(m) ≤ mh(n) ≤ s(m + 1) oder
s(m)
1
s(m)
≤ h(n) ≤
+ .
m
m
m
Also folgt h(n) = limm→∞
s(m)
,
m
dh. h(n) ist für jedes n eindeutig festgelegt.
Eine naheliegende Fortsetzung der Festlegung H( n1 , . . . , n1 ) = log2 n auf allgemeine
Wahrscheinlichkeitsvektoren ist gegeben durch die folgende Definition. Dabei verwenden wir die Konvention 0 log 0 = 0, die sich durch stetige Fortsetzung der für positive
x definierten Werte x log x ergibt.
Definition 13.2. Die Entropie
p = (p1 , . . . , pn ) ist die Zahl
(’entropy’)
H(p) = −
n
X
des
pi log pi .
Wahrscheinlichkeitsvektors
(13.5)
i=1
Ist X eine Zufallsvariable, die n verschiedene Werte mit den Wahrscheinlichkeiten
p1 , . . . , pn annimmt, so schreiben wir auch H(X) statt H(p) und nennen diese Zahl
auch die Entropie von X.
Offensichtlich sind die Bedingungen (13.1) und (13.2) nach wie vor gültig. Auch die
Additionsregel (13.3) gilt. Wir führen den Nachweis sogar für eine verfeinerten Additionsregel . Bei einem Relaisexperiment, bei dem zunächst ein Teilexperiment durchgeführt wird und dann ein vom Ausgang des Teilexperiments abhängiges zweites Experiment, ist der erwartete Informationsgewinn des ganzen Relaisexperiments gleich
der Summe des Informationsgewinns durch das erste Teilexperiments und dem Erwartungswert des Informationsgewinn des (zufälligen) zweiten Experiments. In dem
Spezialfall, wo der zweite Teil unabhängig ist von dem ersten Teilexperiment, gewinnt
man tatsächlich die obige Additionsregel zurück.
In formalisierter Form läßt sich diese Regel zum Beispiel so aussprechen: Sei Ω =
{(i, j) : 1 ≤ i ≤ r, 1 ≤ j ≤ m} und sei (wij )1≤i≤r,1≤j≤m ein Wahrscheinlichkeitsvektor
einer Verteilung P auf Ω. Für jedes i sei Bi = {(i, j) : 1P
≤ j ≤ m} das Ereignis,
dass die erste Komponente gleich i ist. Sei pi = P (Bi ) = j wij . Dann ist (pi )1≤i≤r
die Verteilung des ersten Teilexperiments, das in der Auswahl der ersten Komponente
besteht. Wir nehmen oBdA pi > 0 an. Für alle i, j sei qij = wij /pi die bedingte
Wahrscheinlichkeit, dass die zweite Komponente j ist, wenn die erste gleich i ist. Dann
ist
r
X
H((wij )) = H((pi)1≤i≤r ) +
pi H((qij )1≤j≤m ).
(13.6)
i=1
169
Dies ergibt sich aus folgender Rechnung:
H((wij )) = −
= −
= −
= −
= −
m
r X
X
wij log wij
i=1 j=1
r
m
X
X
wij
log wij
pi
pi
qij log pi qij
pi
i=1
r
X
i=1
r
X
j=1
m
X
j=1
pi log pi
i=1
r
X
i=1
m
X
j=1
pi log pi −
qij −
r
X
r
X
pi
i=1
X
qij log qij
j∈Bi
pi H((qij )j∈Bi ).
i=1
Den gleichen Sachverhalt kann man auch durch Zufallsvariable ausdrücken. Sind X
und Y zwei Zufallsvariable auf dem gleichen Wahrscheinlichkeitsraum mit den jeweiligen Werten x1 , . . . , xr und y1 , . . . , ym , dann ist die Verteilung des Paares (X, Y ) gegeben durch die Zahlen wij = P (X = xi , Y = yj ). Ferner ist für jedes i die bedingte
Verteilung von Y gegeben X = xi beschrieben durch den Wahrscheinlichkeitsvektor
(qij )j = (P (Y = yj |X = xi ))1≤j≤m. Daher ist die Zahl
H(Y |X) :=
r
X
i
P (X = xi )[−
m
X
j=1
P (Y = yj |X = xi ) log P (Y = yj |X = xi )],
also der Erwartungswert der Entropie der bedingten Verteilung von Y gegeben X. Man
nennt H(Y |X) auch die bedingte Entropie von Y gegeben X. Die obige Regel läßt
sich also auch so schreiben:
H(X, Y ) = H(X) + H(Y |X).
(13.7)
Sind X und Y unabhängig, so ist leicht zu verifizieren, dass H(X|Y ) = H(Y ) und man
erhält die einfache Additivität (13.3) zurück.
Man kann zeigen, dass die Entropie das einzige stetige Funktional auf den Wahrscheinlichkeitsvektoren ist mit den Eigenschaften (13.1), (13.2) und (13.6) bzw. (13.7).
Definition 13.3. Seien p und q zwei Wahrscheinlichkeitsvektoren der Länge n. Dann
heißt3
n
X
pi
D(p, q) =
pi log
(13.8)
qi
i=1
relative Entropie (’relative entropy’) oder Kullback-Leibler-Abstand von p und
q.
Neben 0 log 0 = 0 (vgl. Def. 13.2) setzen wir wieder aus Stetigkeitsgründen auch 0 log 00 = 0 und
x log x0 = ∞ für x > 0.
3
170
Offensichtlich ist dieser Ausdruck nicht symmetrisch in p und q. In der Tat ist z.B.
D(( 12 , 21 ), ( 14 , 34 )) = 21 (log 12 + log 32 ) aber D(( 41 , 34 ), ( 21 , 21 )) = 41 (log 12 + 3 log 23 ). Das Wort
Abstand ist aber immerhin durch folgende Aussage gerechtfertigt.
Satz 13.4. Für alle Wahrscheinlichkeitsvektoren ist stets 0 ≤ D(p, q) ≤ ∞ und es gilt
D(p, q) = 0 genau dann wenn p = q.
Beweis: 1. Wenn es einen Index gibt mit qi = 0 und pi > 0, dann ist offensichtlich
D(p, q) = ∞. In den anderen Fällen betrachten auf dem Wahrscheinlichkeitsraum
{1, . . . , n} mit der Verteilung q die Zufallsvariable X mit X(i) = pqii . Es ist E(X) =
P pi P
i qi qi =
i pi = 1. Wenden wir die Jensensche Ungleichung auf die konvexe Funktion
ϕ(x) = x log x an, erhalten wir
X pi
pi
0 = ϕ(E(X)) ≤ E(ϕ(X)) =
qi log = D(p, q).
qi
qi
i
2. Offenbar ist D(p, p) = 0. Umgekehrt sei D(p, q) = 0. Dann ist log pqii = 0 oder
P
P
pi = qi für alle Indizes i mit pi > 0. Also ist i:pi >0 qi = i:pi>0 pi = 1. Weil q ein
Wahrscheinlichkeitsvektor ist, verschwinden die anderen Komponenten von q, dh. es
ist auch qi = 0, falls pi = 0. Damit folgt p = q.
Korollar 13.5. Sei un = ( n1 , . . . , n1 ) die Gleichverteilung auf n Elementen. Für jeden
Wahrscheinlichkeitsvektor p der Länge n gilt H(p) ≤ log n, wobei Gleichheit genau
dann vorliegt wenn p = un .
Beweis: Der Satz impliziert
0 ≤ D(p, un ) = −(
X
pi ) log
1 X
+
pi log pi = log n − H(p).
n
i
Dabei gilt Gleichheit genau dann wenn p = un . Insbesondere ist H(un) = log n.
Wir schließen diesen Abschnitt mit einem kleinen Ausblick auf die Entropie kontinuierlicher Verteilungen. Sei zunächst u die Gleichverteilung auf einem endlich-dimensionalen
Quader [a, b]d . Dann ist die exakte Auswahl eines gemäß u verteilten Punktes informativer als die Auswahl eines gemäß und verteilten Punktes auf {1, . . . , n}d für jedes
n, denn letztere ist äquivalent zur Auswahl einer Zelle einer Partition des Quaders in
nd gleich große Zellen. Wegen H(und ) = d log n würde dies für den Ansatz H(u) = ∞
sprechen. Ein analoges Argument würde aber auch H(P ) = ∞ liefern für jede andere
Verteilung P auf [a, b]d mit einer Dichte f , auch wenn diese wesentlich stärker lokalisiert
ist als die Gleichverteilung. Um informationstheoretisch diesen Unterschied zwischen
diesen Verteilungen quantitativ zu fassen, ist es naheliegend, für große n die relative Entropie D (n) (P, u) der Einschränkungen dieser beiden Verteilungen auf die von
der obigen Zellen-Partition des Quaders induzierten endliche σ-Algebra zu betrachten.
Unter leichten Zusatzannahmen über die Vertauschbarkeit der Grenzwerte erhält man
Z b
(n)
X
P (Jin )
(n) P (Ji )
(n)
lim D (P, u) = lim
u(Ji )
log
=
f (x) log f (x) dx. (13.9)
(n)
(n)
n
n
u(J
)
u(J
)
a
i
i
i
171
Das Integral in (13.9) mißt in gewisser Weise, wieviel größer bei der Verteilung P die
Vorinformation über eine Zufallsgröße mit dieser Verteilung ist als bei der Gleichverteilung. Der Begriff der Entropie
stammt ursprünglich aus der Thermodynamik und
R
dort wird das Funktional Rn f (x) log f (x) dx die Entropie einer durch die Dichte f
induzierten Verteilung genannt. Wegen des fehlenden Minuszeichens im Vergleich mit
Definition 13.2 wird unser H(p) gelegentlich auch in physikalisch orientierter Literatur
Negentropie genannt.
13.2
Codierung und Datenkompression
Die Entropie hängt eng mit Fragen der Effizienz gewisser Algorithmen zusammen. Sei
wieder ein endlicher Wahrscheinlichkeitsvektor p der Länge n gegeben. Wir stellen uns
folgendes Spiel vor. Ihr Freund Peter führt den durch p beschriebenen Versuch durch.
Sei X = i ∈ {1, . . . , n} das Ergebnis und Sie wollen die Zahl i identifizieren durch
eine geeignete Folge von Fragen über das Ergebnis, die Peter mit Ja oder mit Nein
wahrheitsgemäß beantwortet. Dabei versuchen Sie die erwartende Anzahl der gestellten
Fragen zu minimieren. Es zeigt sich, dass dies Problem äquivalent ist zu einer möglichst
effizienten Codierung der Versuchsergebnisse, und zu Algorithmen führt, die bei der
Datenkompression eine wichtige Rolle spielen.
Beispiel: Sei n = 4 und p = ( 12 , 61 , 61 , 16 ). Dann beginnt eine primitive, aber durchaus
sinnvolle Fragestrategie etwa mit der Frage: Ist i = 1? Wenn die Antwort “Ja” kommt,
sind Sie fertig, bei “Nein” stellen Sie die zweite Frage i = 2? Wieder sind Sie fertig
bei “Ja” und bei “Nein” muss schließlich die dritte abschlißende Frage i = 3? gestellt
werden. Unter der Verteilung p ist die erwartete Anzahl der Fragen bei dieser Strategie
1
1 + 16 2 + 26 3 = 1 65 . Wir werden unter dem Stichwort Huffman-Code sehen, dass für die
2
Verteilung p dieser Wert durch keine andere Strategie unterboten werden kann. Für
die Gleichverteilung mit n = 4 hat dagegen diese Strategie eine erwartete Fragenzahl
von 41 (1 + 2 + 3 + 3) = 2 14 . Daher ist es im Fall der Gleichverteilung besser, z.B. mit der
Frage i ∈ {1, 2}? anzufangen, und dann noch genau eine Zusatzfrage zu stellen, denn
dabei brauchen Sie in jedem Fall, also auch im Erwartungswert genau 2 Fragen.
Definition 13.6. Ein binärer Code (’binary code’) c ist eine injektive Abbildung
einer endlichen Menge in die Menge aller endlichen Folgen von Elementen der Menge
{0, 1}. Die Bilder dieser Abbildung heißen die Wörter des Codes. Die Länge eines
Codeworts c(i) wird mit |c(i)| bezeichnet.
Es ist leicht einzusehen, dass eine Strategie von Ja/Nein Fragen, die erlaubt jedes
Element einer n-elementigen Ergebnismenge zu identifizieren, eindeutig einem binären
Code c auf der Menge {1, . . . , n} zugeordnet werden kann, indem “Ja” der Ziffer 1 und
“Nein” der Ziffer 0 zugeordnet wird. Dabei erhält man in den obigen Beispielen etwa
die beiden Codes
c(1) = 1, c(2) = 01, c(3) = 001, c(4) = 000,
beziehungsweise
c(1) = 11, c(2) = 10, c(3) = 01, c(4) = 00.
172
Wenn der Code bekannt ist, genügt es also statt dem Versuchsergebnis sein Codewort zu
übermitteln. Wenn nun mehrere Versuchsergebnisse hintereinander übermittelt werden
sollen, und die entsprechenden Codewörter hintereinander geschrieben werden, braucht
man zur “Decodierung” entweder ein eigenes Trennzeichen zwischen den Codewörtern
oder eine Methode, um zu erkennen, wann ein Codewort zu Ende ist, und wann das
nächste beginnt.
Das ist offensichtlich möglich, wenn keines der Codewörter Anfangsstück eines anderen
Worts des gleichen Codes ist. Dann ist die nächste Grenze zwischen zwei Codewörtern
immer dann gegeben, sobald es ein Codewort gibt, das mit der letzten Grenze begonnen
hat und gerade zu Ende gekommen ist. Man nennt einen Code mit dieser Eigenschaft
präfixfrei . Die beiden obigen Codes sind präfixfrei. Dagegen ist durch
c(1) = 11, c(2) = 10, c(3) = 0, c(4) = 01
ein Code definiert, bei dem c(3) Anfangsstück von c(4) ist, der also nicht präfixfrei ist.
Decodieren wir beispielsweise die Folge
1011001000.
Sie entsteht bei dem ersten der obigen Codes aus 12134 und bei dem zweiten Code aus
21424. Bei dem dritten Code sind zwar die beiden ersten gesendeten Symbole eindeutig
als 21 identifizierbar, die an der fünften Komponente beginnende Sequenz 0010 kann
aber bei diesem (schlechten) Code nicht eindeutig decodiert werden, sie könnte aus 332
oder aus 343 entstanden sein.
Wir kommen zu einer weiteren sinnvollen Zusatzforderung an die betrachteten Codes.
Da wir an kurzen Codewortlängen interessiert sind, betrachten wir nur Codes ohne
überflüssige Ziffern: Anders gesagt: Sei a ein Anfang eines Codeworts, der nicht
schon ein volles Codewort darstellt; dann gibt unter den Codewörtern, die mit a beginnen, sowohl solche mit dem Beginn a0 als auch mit dem Beginn a1. Denn wenn es
z.B. gar kein Codewort mit Beginn a1 gibt, könnte man bei allen Codewörtern mit
dem Beginn a0 diese Null streichen, ohne die übrigen Eigenschaften eines präfixfreien
Codes zu zerstören.
Bei einem Code c ohne überflüssige Ziffern hat jedes Codewort c(i) maximaler Länge
einen “Partner”, dh. ein anderes Codewort c(j), das sich von c(i) nur in der letzten
Ziffer unterscheidet. Sei etwa c(i) von der Form c(i) = a0. Dann ist a1 nach der
obigen Bemerkung der Anfang eines anderen Codeworts. Dieses kann aber wegen der
Maximalität nicht echt länger als a1 sein also ist a1 der gesuchte “Partner” von a0.
Ein gute Anschauung eines präfixfreien binären Codes ohne überflüssige Ziffern liefert
seine Darstellung durch einen binären voll besetzten Baum. Das leere Wort entspricht
der Wurzel des Baums. Die Knoten des Baums sind umkehrbar eindeutig indiziert
durch alle Anfänge der Wörter des Codes. Diejenigen Knoten des Baums, die zu vollen
Codewörtern gehören, haben keine Nachfolger in dem Baum und werden seine Blätter
genannt. Die anderen Knoten sind die so genannten inneren Knoten. Jeder innere
Knoten entspricht einem der obenerwähnten Anfänge eines Codeworts, der nicht schon
ein volles Codewort darstellt. Von ihm gehen genau zwei Äste ab.
Für das folgende nützlich ist
173
Satz 13.7. (Kraftsche Ungleichung) Seien l1 , . . . , ln endlich viele natürliche Zahlen.
Genau dann sind diese Zahlen die Codewortlängen eines präfixfreien binären Codes
ohne überflüssige Ziffern, wenn
n
X
2−li = 1.
(13.10)
i=1
Beweis: Wir beweisen die zunächst die Aussage (b) durch Induktion über n und beginnen mit n = 2. Ein präfixfreier binärer Code mit zwei Wörtern ohne überflüssige
Ziffern hat die beiden Wörter 0 und 1. Die entsprechenden Längen sind l1 = l2 = 1.
Dies ist auch die einzige Lösung der Gleichung (13.10) mit n = 2. Dies beweist den
Induktionsanfang.
Für den Induktionsschritt sei n ≥ 3 und die Behauptung sei bekannt für n − 1. Sei
zunächst c ein präfixfreier binärer Code ohne überflüssige Ziffern mit n Wörtern der
Längen l1 , . . . , ln . Wir wollen (13.10) beweisen. Durch Umordnen können wir annehmen,
dass die beiden Codewörter c(n − 1) und c(n) Partner im obigen Sinn sind, dh. sich nur
in der letzten Ziffer unterscheiden. Insbesondere ist ln−1 = ln . Durch Streichen dieser
letzten Ziffer entsteht ein neues Wort, das zusammen mit den ersten n−2 Codewörtern
einen präfixfreien binären Code mit n − 1 Wörtern ohne überflüssige Ziffern bildet und
den Längen l1 , . . . , ln−2 , ln−1 − 1. Nach Induktionsvoraussetzung ist dann
n
X
i=1
2
−li
=
n−2
X
i=1
2
−li
+2·2
−ln−1
=
n−2
X
2−li + 2−ln−1 −1 = 1.
i=1
Umgekehrt seien l1 , . . . , ln natürliche Zahlen mit Gleichheit in (13.10) gegeben. Sei
k = maxi li . Sei ohne Einschränkung ln = k. DannP
muss es einen weiteren Index i < n
n−1 −li
2 ein Vielfaches von 2−(k−1)
geben mit li = k. Sonst wäre
die Summe i=1
Pnämlich
n
−li
und damit die volle Summe i=1 2 kein Vielfaches von 2−(k−1) im Gegensatz zur Voraussetzung (13.10). Wir können also oBdA
annehmen, dass
= ln = k. Sei
Pn ln−1
Psogar
′
n−2 −li
−ln−1
−li
′
k−1
= i=1 2 = 1, also gibt
ln−1 = 2 . Dann gilt nach Voraussetzung i=1 2 +2
es nach Induktionsvoraussetzung einen präfixfreien binären Code c ohne überflüssige
′
Ziffern mit Längen l1 , . . . , ln−2 , ln−1
. Wenn wir von diesem Code die ersten n−2 Wörter
behalten und das letzte Codewort durch Anhängen der Ziffern 0 bzw. 1 mit zwei
neuen Codewörtern ersetzen, erhalten wir einen geeigneten Code mit Codewortlängen
l1 , . . . , ln .
Definition 13.8. Sei p = (p1 , . . . , pn ) ein Wahrscheinlichkeitsvektor und c ein präfixfreier
binärer Code mit den Codewortlängen l1 , . . . , ln . Wir nennen die Zahl
X
pi li
i
die mittlere Codewortlänge von c unter p. Der Code heißt optimal für p, wenn
es keinen anderen präfixfreien binären Code c′ gibt mit echt kleinerer mittlerer Codewortlänge unter p.
174
Für jede vorgegebene Länge gibt es nur endlich viele Codes, deren Codewortlängen
unter dieser Länge bleiben. Daher kann man, ausgehend von einem beliebigen Code,
durch Ändern des Codes die mittlere Codewortlänge nur endlich oft echt verbessern.
Daraus folgt, dass es sicherlich optimale Codes gibt. Der folgende Satz zeigt endlich
einen ersten Zusammenhang unserer Fragestellung mit der Entropie.
Satz 13.9. Sei p = (p1 , . . . , pn ) ein Wahrscheinlichkeitsvektor. Die mittlere Codewortlänge eines für p optimalen Codes erfüllt die Abschätzung
X
H(p) ≤
pi li ≤ H(p) + 1.
i
Beweis: Wir können voraussetzen, dass alle pi positiv sind. Sei c ein optimaler Code
mit den Codewortlängen l1 , . . . , ln . Der Code hat keine überflüssigen Ziffern, da sonst
durch deren Streichung die mittlere Wortlänge echt verkleinert würde. Daher erfüllt er
die Gleichung (13.10) und durch qi = 2−li wird ein anderer Wahrscheinlichkeitsvektor
definiert. Es gilt
X
X
X
−H(p) +
pi li =
pi log pi −
pi log(2−li ) = D(p, q) ≥ 0.
i
i
Dies beweist die erste Abschätzung. Für die zweite Abschätzung definieren wir li′ durch
′
′
li′ − 1 < − log pi ≤ li′ oder äquivalent 2−li ≤ pi < 2−li +1 . Dann ist also
X ′ X
2−li ≤
pi = 1.
(13.11)
i
i
Wir behaupten, dass man hier durch eventuelles Verkleinern der li′ sogar Gleichheit
erreichen kann. Nehmen wir an, in (13.11) gelte die echte Ungleichung. Die Summe
links ist eine dyadische Zahl. Wenn man den größten der Werte li′ um 1 erniedrigt, ist
die entstehende Summe immer
P noch ≤ 1. Man kann so fortfahren und schließlich bei
Zahlen l1 , . . . , ln landen mit i 2−li = 1 und li ≤ li′ für alle i. Nach dem Kraftschen
Lemma gibt es einen präfixfreien Code mit den Codewortlängen li . Diese erfüllen
X
X
X
pi li − 1 ≤
pi (li′ − 1) ≤ −
pi log pi = H(p).
i
i
i
Dies beweist die zweite Ungleichung.
13.3
Das erste Codierungstheorem von Shannon
Es werde nun ein längerer Text übermittelt, der aus mehreren Zeichen eines Alphabets
A = {x1 , . . . , xn } besteht. Dann ist eine natürliche Frage die nach der Länge des
codierten Texts pro übermitteltem Zeichen bei einer möglichst günstigen Codierung des
Gesamttextes. Wir können den Text als endliche Folge X1 , . . . , XN von Zufallsvariablen
mit Werten in A auffassen. Das führt zu folgender
175
Definition 13.10. Seien X1 , . . . , XN Zufallsvariable mit Werten in einem endlichen
Alphabet A und P ihre gemeinsame Verteilung auf AN . Dann wird mit H0 (X1 , . . . , XN )
die mittlere Codewortlänge eines optimalen binären präfixfreien Codes auf AN bezüglich
der Verteilung P bezeichnet.
Bemerkung 13.11. Die oben angesprochene Länge des codierten Texts pro übermitteltem
Zeichen ist dann bei optimaler Codierung des Gesamttextes gegeben durch die Zahl
H0 (X1 , . . . , XN )
.
N
Damit erhalten wir das erste Codierungstheorem von Shannon. Es besagt im wesentlichen, dass man beim Übermitteln von unabhängigen identisch verteilten Buchstaben den Gesamttext so kodieren kann, dass die mittlere Codewortlänge pro Buchstabe asymptotisch beliebig nahe an die Entropie der Ausgangsverteilung im Alphabet
kommt. Die effektive Konstruktion des entsprechenden Codes ist i.a. nicht einfach. Allerdings sind in der üblichen Komprimierungssoftware inzwischen Algorithmen implementiert, die die theoretischen Schranken sehr gut approximieren. Es gibt weitgehende
Verallgemeinerungen dieses Satzes, die analoge Aussagen ohne die eher unnatürliche
Unabhängigkeit der Einzelzeichen machen.
Satz 13.12. Wenn X1 , X2 , . . . unabhängige identisch verteilte Zufallsvariable in einem
endlichen Alphabet sind, dann ist
H0 (X1 , . . . , XN )
= H(X1 ).
N →∞
N
lim
Beweis:
4
(13.12)
Mit der Additivität (13.4) ist
N
H(X1 , . . . , XN )
1 X
=
H(Xi ) = H(X1 )
N
N i=1
und damit ergibt sich aus dem vorigen Satz 13.9
H(X1 ) ≤
H(X1 , . . . , XN ) + 1
1
H0 (X1 , . . . , XN )
≤
= H(X1 ) + .
N
N
N
13.4
Optimale Codes nach Huffman
Wir wollen nun einen Algorithmus beschreiben zur Konstruktion von optimalen Codes
zu einer gegebenen Wahrscheinlichkeitsverteilung über einem endlichen Alphabet. Dies
geschieht rekursiv über die Mächtigkeit n des Alphabets. Sei zunächst n = 2. Dann ist
offensichtlich jeder Code der nur die beiden Codewörter 0 und 1 umfasst, zulässig und
ein solcher Code minimiert die mittlere Codewortlänge. Wir definieren nun rekursiv so
genannte Huffman-Codes und zeigen danach ihre Optimalität.
4
Dieser Beweis via Satz 13.9 geht auf F. Topsøe zurück. Einen anderen Beweis bekommt man mit
den Methoden des Abschnitts 13.5.
176
Definition 13.13. Ein (binärer) Huffman-Code eines zwei-elementigen Alphabets ist
ein Code mit den beiden Codewörtern 0 und 1. Sei nun n ≥ 3 und seien die HuffmanCodes für alle Wahrscheinlichkeitsverteilungen auf n − 1-elementigen Alphabeten definiert. Sei (p1 , . . . , pn ) eine Wahrscheinlichkeitsverteilung über der endlichen Menge
A = {a1 , . . . , an }. Ein auf A definierter binärer Code ist genau dann ein HuffmanCode zu (p1 , . . . , pn ), wenn es eine Permutation von A gibt, derart dass nach dieser
Permutation folgende Aussagen gelten:
(a) p1 ≤ p2 ≤ . . . ≤ pn ;
(b) die beiden Codewörter c(a1 ) und c(a2 ) unterscheiden sich nur in der letzten Ziffer;
(c) Sei A′ das verkürzte Alphabet {a12 , a3 , . . . , an } der Länge n − 1, das durch Verschmelzen der beiden ’Buchstaben’ a1 , a2 zu a12 entsteht. Sei c′ (ak ) = c(ak ) für
k ≥ 3 und c′ (a12 ) das Codewort, das aus c(a1 ) bzw c(a2 ) durch Weglassen der
letzten Ziffer entsteht. Dann ist c′ ein Huffman-Code auf A′ zu dem Wahrscheinlichkeitsvektor (p1 + p2 , p3 , . . . , pn ).
Ein Huffman-Code zu (p1 , . . . , pn ) entsteht also aus diesem Vektor wie folgt: Sukzessiv
wird durch abwechselndes Umordnen und Zusammenfassen von den jeweils zwei kleinsten Komponenten schließlich eine W-Verteilung mit zwei Einträgen erreicht, für den
man eine triviale Codierung wählt. Dann wird dieser Vorgang wieder zurückgespult und
dabei entfaltet sich der Huffman-Code, indem beim Rückgängigmachen der Zusammenfassungen jeweils die beiden möglichen Verlängerungen des entsprechenden Codeworts
hinzukommen.
Beispiel Betrachten wir wie zu Beginn des Abschnitts 13.2 die Verteilung ( 21 , 61 , 16 , 61 ).
Um einen Huffman-Code zu bekommen, ordnen zunächst um und erhalten den neuen
W-Vektor ( 61 , 16 , 61 , 21 ). Dann fassen wir die ersten beiden Komponenten zusammen, und
haben nun zunächst die Aufgabe einen Huffman-Code für ( 31 , 16 , 21 ) zu finden. Dafür
ordnen wir wieder um zu ( 61 , 31 , 21 ) und fassen die ersten beiden Komponenten zusammen
und erhalten die Verteilung ( 12 , 21 ). Hier haben wir den trivialen Huffman-Code. Wenn
wir diese Kette von Verteilungen in einer Spalte untereinanderschreiben, dann können
wir in einer zweiten Spalte aufsteigend die entsprechenden Codewortlisten angeben.
( 12 , 61 , 16 , 61 ) 1, 010, 011, 00
( 16 , 61 , 16 , 21 ) 010, 011, 00, 1
( 13 , 16 , 21 )
01, 00, 1
( 61 , 13 , 21 )
00, 01, 1
( 21 , 12 )
0, 1
Die aus dem so entstandenen Code sich ergebende Fragestrategie im Sinn des Anfangs
von Abschnitt 13.2 fragt zuerst i = 1?. Bei “Ja” ist man fertig und bei “Nein” folgt die
177
Frage i 6= 4?. Bei “Nein” ist man fertig und bei “Ja” folgt die dritte Frage, die zwischen
dem zweiten und dem dritten ’Buchstaben’ entscheidet. Diese Huffman-Strategie ist
offensichtlich bis auf Umbenennung äquivalent zu der in 13.2 angegebenen Strategie.
Der folgende Satz zeigt dass diese beiden Strategien optimal sind.
Satz 13.14. Jeder Huffman-Code ist optimal.
Beweis: Wir benutzen vollständige Induktion. Für n = 2 ist die Aussage trivial. Sei nun
n ≥ 3, c ein Huffman-Code und ĉ ein optimaler Code. Seien li und ˆli die entsprechenden
Codewortlängen. Wir wollen zeigen, dass
X
X
pi li =
pi ˆli .
(13.13)
i
i
Dabei können wir annehmen, dass die Anordnung des Alphabets so ist, dass die Bedingungen (a) und (b) in der obigen Definition gelten. Der Code ĉ ist auch präfixfrei
und ohne überflüssige Ziffern. Wir bemerken zunächst
aus pi < pj f olgt ˆli ≥ ˆlj .
(13.14)
Denn andernfalls wäre piˆlj + pj lˆi = pi lˆi + pj lˆj + (pi − pj )(ˆlj − ˆli ) < piˆli + pj ˆlj , dh
durch Vertauschen der beiden Codewörter könnte man die mittlere Codewortlänge von
ĉ verkürzen im Widerspruch zur Optimalität dieses Codes.
Ferner gibt es, wie in Abschnitt 13.2 erläutert, einen Index j, für den die beiden Codewörter ĉ(a1 ) und ĉ(aj ) sich nur in der letzten Ziffer unterscheiden. Wir vertauschen
die beiden Codewörter ĉ(a2 ) und ĉ(aj ). Wegen (13.14) und der Monotonie der pi ist also
entweder ˆl2 = ˆlj oder p2 = pj . In beiden Fällen ändert sich die mittlere Codewortlänge
nicht und der aus ĉ beim Vertauschen entstehende Code ist ebenfalls optimal. Daher
können wir ohne Einschränkung der Allgemeinheit beim Beweis von (13.13) annehmen
dass wie beim Huffman-Code c auch die Codewörter ĉ(a1 ) und ĉ(a2 ) sich nur in der
letzten Ziffer unterscheiden.
Also entstehen durch Verschmelzen von a1 und a2 zwei Codes c′ und ĉ′ für den Wahrscheinlichkeitsvektor (p1 + p2 , p3 , . . . , pn ). Der Code c′ ist ein Huffman-Code nach Definition. Nach Induktionsvoraussetzung ist er optimal. Also gilt für die mittleren Codewortlängen von c′ und ĉ′
(p1 + p2 )(l1 − 1) +
n
X
i=3
pi li ≤ (p1 + p2 )(ˆl1 − 1) +
Wegen l1 = l2 und ˆl1 = ˆl2 folgt daraus die Behauptung (13.13).
n
X
piˆli .
(13.15)
i=3
Natürlich setzt die Konstruktion von Codes mit kleiner mittlerer Codewortlänge voraus, dass man die Verteilung p, also die Häufigkeitsverteilung der einzelnen Zeichen
bzw. eine Wahrscheinlichkeitsverteilung für die Zeichenolge des Textes kennt. Diese
lernt man aber in konkreten Fällen oft erst allmählich aus dem Anfangsstück des Textes kennen. Daher ist es nützlich, dass man Huffman-Codes auch adaptiv konstruieren
kann, wobei man die allmähliche Veränderung der empirischen Verteilung der Zeichen
im Verlau des Textes berücksichtigt. Ähnliches gilt für verwandte Codes, etwa den
ebenfalls weitverbreiteten Lempel-Ziv-Code.
178
13.5
Empirische Verteilungen und Entropie
In diesem Abschnitt wollen wir zeigen, dass Entropie und relative Entropie für das
asymptotische Verhalten von Wahrscheinlichkeiten in Produktexperimenten und beim
Vergleich solcher Experimente eine wichtige Rolle spielen.
Sei A eine endliche Menge und W(A) die Menge aller Wahrscheinlichkeitsvektoren
über A. Sei p = (px )x∈A ∈ W(A) und p⊗n die Produktverteilung über An . Ein Punkt
ω = (x1 , x2 , . . . , xn ) in dem Produktraum bekommt bezüglich dieser Verteilung das
Gewicht
Y
pxn̂x (ω) .
(13.16)
p⊗n ({ω}) = px1 · px2 · · · pxn =
x∈A
Dabei ist n̂x (ω) die Häufigkeit, mit der x als Komponente von ω auftaucht. Diese
Häufigkeiten bestimmen die schon früher betrachtete empirische Verteilung
p̂(ω) = (p̂x (ω))x∈A = (
n̂x (ω)
)x∈A .
n
Mit dieser erhalten wir also
ln p⊗n ({ω}) =
X
n̂x (ω) ln px = n
x∈X
X
X
p̂x (ω) ln px
(13.17)
x∈X
px
− H(p̂(ω))
p̂x (ω)
x∈X
= −n D(p̂(ω), p) + H((p̂(ω)) .
= n
p̂x (ω) ln
Insbesondere ist die Wahrscheinlichkeit von ω nur abhängig von der empirischen Verteilung. Daher genügt es bei vielen Problemen zu wissen, mit welcher Wahrscheinlichkeit
die empirische Verteilung eine gewisse Eigenschaft hat. Allerdings ist dafür dann auch
die Anzahl der Punkte im Produktraum wichtig, die eine bestimmte empirische Verteilung haben. Diese Anzahl ist durch einen Multinomialkoeffizienten gegeben, und dieser
ist asymptotisch im wesentlichen gleich 2 hoch n mal der Entropie dieser empirischen
Verteilung. Die Rechnung in dem folgenden Satz wurde schon von L. Boltzmann5 bei
seiner Herleitung des Integrals aus (13.9) durchgeführt und später in der Statistik im
Zusammenhang mit Satz 13.16 von I.N. Sanov6 [7] wiederentdeckt. Wir bezeichnen mit
Empn ⊂ W(A) die Menge aller empirischen Verteilungen von Elementen von An .
Satz 13.15. Für eine geeignete Konstante C < ∞ gilt: Sei µ ∈ Empn und {p̂ = µ}
die Menge derjenigen ω ∈ An , für die p̂(ω) = µ ist. Dann ist
1
log #{p̂ = µ} − H(µ) ≤ C#A log n
(13.18)
n
n
und für jedes p ∈ W(A)
1
log p⊗n {p̂ = µ} − (−D(µ, p))| ≤ C#A log n .
(13.19)
n
n
5
6
Ludwig Boltzmann (1844-1906)
Ivan Nikolaevič Sanov (1919-1968)
179
Beweis: Sei n fest und die Häufigkeiten mx , x ∈ A mit
X
mx = n
(13.20)
x∈A
gegeben mit µn = ( mnx )x∈A . Dann ist die Zahl Nn gleich dem entsprechenden Multinomialkoeffizienten
n!
.
Nn = Q
x∈A mx !
Wir verwenden die Stirling-Formel aus Satz 6.16 in logarithmierter Form: Für m → ∞
konvergieren die Zahlenfolge
1
(13.21)
ln m! − − m + (m + ) ln m
2
m
√
gegen ln 2π. Genaugenommen benötigen wir nur dass, diese Folge beschränkt ist.
Unter Verwendung von (13.20) ergibt sich
X
1
1
− mx + (mx + ) ln mx ) + rn
ln Nn = −n + (n + ) ln n −
2
2
x∈A
X mx
X
1
= n ln n −
ln mx ) + (ln n −
ln mx ) + rn
n
2
x∈A
x∈A
wobei für den Fehlerterm rn die Abschätzung |rn | ≤ (#A + 1)K gilt, wobei K eine
Betragsschranke für die Folge in (13.21) ist. Wir gehen nun beim Logarithmus zur Basis
2 über und teilen durch n. Es ergibt sich
X
X
1
1
log Nn (µ) = −
µx log µx + (log n −
log mx + 2(ln 2)rn ),
n
2n
x∈A
x∈A
also die Behauptung, da der zweite Teil der rechten Seite gleichmäßig durch (#A +
2)K
) abgeschätzt werden kann.
1)( log n+2(ln
2n
Der zweite Teil der Behauptung ergibt sich aus dem ersten Teil und (13.17): Für jedes
ω ∈ {p̂ = µ} ist log p⊗ {ω} = n(−H(µ) − D(µ, p)). Also ist
X
1
1
log p⊗ {p̂ = µ} =
log
p⊗ ({ω})
n
n
ω∈{p̂=µ}
1
log #{p̂ = µ} − H(µ) − D(µ, p)
=
n
= H(µ) + rn − H(µ) − D(µ, p) = −D(µ, p) + rn ,
wobei rn der Fehler aus (13.18) ist.
Der nächste Satz ist eine einfache Folgerung. Es ist ein Beispiel für einen Satz über
große Abweichungen. Die Theorie großer Abweichungen taucht in sehr vielen Zusammenhängen bei stochastischen Prozessen auf. Zur Erläuterung dieser Bezeichnung
180
sei p ∈ W(A). Nach dem schwachen Gesetz der großen Zahlen liegen in dem Produktexperiment mit der Verteilung p⊗n die empirischen Verteilungen p̂(ω) für große n
mit beliebig großer Wahrscheinlichkeit in einer vorgegebenen Umgebung von p. Anders
ausgedrückt, konvergiert für eine Menge G ⊂ W(A), die diese Umgebung von p nicht
trifft, für große n die Wahrscheinlichkeit
p⊗n {ω ∈ An : p̂(ω) ∈ G}
gegen Null. Das Ereignis {p̂ ∈ G} ist also asymptotisch untypisch, oder eine große Abweichung vom typischen Verhalten. Der Satz präzisiert dies in sofern, als diese Wahrscheinlichkeit sogar exponentiell schnell konvergiert mit einer Rate die durch eine relative Entropie gegeben ist.7 Die Menge W(A)
P ist mit der üblichen Topologie versehen,
z.B. mit Hilfe des Abstands kp − qk = x∈A |px − qx |. Eine Menge G ⊂ W(A) heißt
regulär , wenn sie im Abschluß ihres offenen Kerns enthalten ist.
Satz 13.16. (Sanov) Sei P(A) der Raum der Wahrscheinlichkeitsvektoren über der
Menge A. Wenn G ⊂ P(A) regulär ist, dann ist
1
log p⊗n {ω : p̂(ω) ∈ G} = − inf D(q, p).
n→∞ n
q∈G
lim
(13.22)
Beweis: Wir können ohne Einschränkung der Allgemeinheit annehmen, dass alle Komponenten von p strikt positiv sind. Dann ist die Funktion D(·, p) stetig auf W(A).
Sei U eine nichtleere offene Teilmenge von W(A). Dann ist für schließlich alle n auch
U ∩ Empn 6= ∅. Da unsere Menge G regulär ist, gibt es also zu jedem q ∈ G, jedem
ε > 0 und schließlich jedem n ein q ′ ∈ G ∩ Empn mit |q − q ′ | < ε. Daraus folgt mit der
Stetigkeit der relativen Entropie
inf D(q, p) = lim
q∈G
min
n→∞ q∈G∩Empn
D(q, p).
(13.23)
Ferner ist #Empn ≤ n#A für alle n und somit
max
q∈G∩Empn
p⊗n {p̂ = q} ≤ p⊗n {p̂ ∈ G} ≤ n#A
max
q∈G∩Empn
p⊗n {p̂ = q}.
Nach dem Logarithmieren und durch n dividieren spielt der Faktor n#A keine Rolle.
Daher folgt aus dem vorigen Satz und (13.23)
1
log p⊗n {p̂ ∈ G} =
n→∞ n
=
lim
1
log p⊗n {p̂ = q}
n→∞ q∈G∩Empn n
lim max (−D(q, p))
lim
max
n→∞ q∈G∩Empn
= − inf D(q, p).
q∈G
7
Beachte, dass auch der aus dem zentralen Grenzwertsatz folgende Satz 9.2 als eine (andere)
Präzisierung der Konvergenz der empirischen Verteilungen gegen p aufgefasst werden kann.
181
Korollar 13.17. Seien p, q ∈ W(A) zwei strikt positive Verteilungen. Dann gibt es
für jedes ε > 0 für hinreichend große n eine Teilmenge B von An mit den folgenden
Eigenschaften (a) p⊗n (B) ≥ 1 − ε,
(b) | n1 log q ⊗n (B) + D(p, q)| < ε.
Beweis: Bestimme δ > 0 so, dass aus kµ − pk < δ folgt |D(µ, q) − D(p, q)| < ε/2 und
|H(µ) − H(p)| < ε/2. Wir wenden den letzten Satz an auf G = {µ ∈ W(A) : kµ − pk <
δ}. und die Menge B = {ω ∈ An : p̂(ω) ∈ G}. Dann ist die Eigenschaft (a) richtig nach
dem Gesetz der großen Zahlen. Ferner ist nach Definition von G
| inf D(µ, q) − D(p, q)| < ε/2.
µ∈G
Ausserdem ist G offen, also regulär, nach dem Satz von Sanov gilt daher
1
1
| q ⊗n (B) + D(p, q)| < | q ⊗n (B) − (− inf D(µ, q)| + ε/2 < ε
µ∈G
n
n
für hinreichend große n. Schließlich gilt für alle ω ∈ B
Die Teile (a) und (b) dieser Folgerung haben u.a. folgende statistische Interpretation.
Betrachte die Menge B als Annahmebereich eines Tests für die Hypothese {p} und die
Alternative {q}. Dann sagt (a), dass der Test das Signifikanz-Niveau ε hat und Teil
(b) besagt, dass die Fehlerwahrscheinlichkeit 2. Art sich bei wachsendem n etwa wie
e−nD(p,q) verhält.
Die Beweismethode liefert auch die Idee des Original-Beweises des ersten Codierungstheorems von Shannon. Für jedes µ ∈ G ∩ Empn gilt nach (13.18)
1
1
| log #{p̂ = µ} − H(p)| ≤ | log #{p̂ = µ} − H(µ)| + ε/2 < ε.
n
n
Wie im Beweis des Satzes von Sanov verwenden wir #G ∩ Empn ≤ n#A . Also folgt
sogar | n1 log #B − H(p)| < ε, m.a.W. es ist
2H(p)−ε < #B < 2H(p)+ε
für hinreichend große n. Nach dem Hartleyschen Prinzip können wir die Menge B
codieren mit einem Code dessen Codewortlängen sich untereinander höchstens um 1
unterscheiden und höchstens n(H(p)+ε) betragen. Außerdem können wir die Elemente
von An \ B auf jeden Fall mit Codewörtern einer Länge ≤ log #An + 1 ≤ n log #A + 1
codieren. Dann ist der Erwartungswert der Codewortlänge des auf diese Weise entstehenden Codes c der ganzen Menge An höchstens gleich
p⊗n (B)(nH(p) + ε) + p⊗n (An \ B)(n log #A + 1) ≤ nH(p) + nε(log #A + 2).
Da ε > 0 beliebig war, ist die optimale mittlere Codewortlänge pro gesendetem Buchstaben (dh. nach Division durch n) höchstens H(p). Dass sie nicht kleiner sein kann,
ergibt sich ähnlich.
182
Literaturverzeichnis
[1] K.L. Chung. Elementary Probability Theory: with stochastic processes and an
introduction to mathematical finance. Springer, Berlin, New York , 2003.
[2] Hans-Otto Georgii. Stochastik, 4. Auflage. Walter de Gruyter, Berlin, New York,
2009.
[3] F. Hausdorff. Grundzüge der Mengenlehre. Veit (1. Aufl., Nachdrucke bei Chelsea),
Leipzig, 1919 (1978).
[4] A.N. Kolmogorov. Grundbegriffe der Wahrscheinlichkeitsrechnung. Springer, Leipzig, 1933.
[5] U. Krengel. Einführung in die Wahrscheinlichkeitstheorie und Statistik, 8. Auflage.
Vieweg, Braunschweig, 2005.
[6] K. Krickeberg and H. Ziezold. Stochastische Methoden, 4. Auflage. Springer,
Berlin, New York, 1995.
[7] I.N. Sanov. On the probability of large deviations of random quantities. Am.
Math. Soc. Trans., 2:213–244, 1957.
[8] C.E. Shannon and W. Weaver. The Mathematical Theory of Communication.
University of Illinois Press, Urbana - Chicago - London, 1949.
[9] H.v. Weizsäcker. Maßtheorie. available under http://www.mathematik.unikl.de/∼wwwstoch/ 2004s/masstheorie.html,, Kaiserslautern, 2004.
[10] D. Williams. Weighing the Odds. A Course in Probability and Statistics. Cambridge University Press, New York, 2001.
183
Index
Čebyšëv, P.L., 58
Chiquadrat-Verteilung, 124, 140
Čebyšëvsche Ungleichung, 58, 64, 84, 105, Code, 172
106, 111
de Moivre, 91
0-1-Gesetz, 39
de Morgansche Regel, 12
a posteriori, 38
Dichte, 25
a priori, 38
Dirac Verteilung, 90
abhängig, 40
diskrete Verteilungen, 22
absolute Momente, 57
diskrete Wahrscheinlichkeit, 23
Annahmebereich, 77
Dreiecks-Verteilung, 46
arithmetisches Mittel, 51
Dualzahldarstellung, 40
Ausgänge, 9, 12
Eindeutigkeitssatz, 28, 121
Ausreißer, 56
einfache Hypothesen, 79
Balkebdiagramm, 97
Einheitssimplex, 76
Bayes, T., 37
Elementarereignis, 9, 12
Bayessche Formel, 37
empirische Varianz, 58
bedingte Entropie, 170
empirische Verteilung, 51, 146, 179
bedingte Wahrscheinlichkeit, 36
Entropie, 169
Bias, 74
Ereignis, 9, 12
Bienaymé, I.-J., 63, 86, 106
Erfolgswahrscheinlichkeit, 20
Bildverteilung, 16
Ergebnismenge, 9
Binomial-Verteilung, 18, 20
Ergodensatz, 107
Binomialapproximation, 85
erwartungstreu, 74
Binomialkoeffizienten, 19
Erwartungswert, 51, 53, 55, 59
bit, 168
Erzeugendenfunktion, 165
Boltzmann, L., 179
Exponentialverteilung, 23, 24
Borel, É., 12, 38
faires Spiel, 65
Borel–Cantelli, 38
Faltung, 45
Borel-Mengen, 12, 48
Fast Fourier Transform, 164
Cantelli, F.P., 38, 118, 147
fast sicher, 39
∩-stabil, 42
Fehler erster Art, 77
Cauchy, A.L., 72
Fehler zweiter Art, 77
Cauchy-Schwarzsche Ungleichung, 67
Fubini, 43, 53
Cauchy-Verteilung, 72, 98
Gamma-Funktion, 49
Cesàro, E., 118
Gamma-Verteilung, 49
charakteristische Funktion, 157
184
Gauß, C.F., 73
Gauß-Verteilung, 73
Gauß-Vektor, 122
Standard-Gauß-Vektor, 122
Gaußsche Fehlerfunktion, 88, 98
Gaußsche Glockenkurve, 88
gemeinsame Verteilung, 41
geometrische Verteilung, 21
Gesetz der seltenen Ereignisse, 85
Gleichverteilung, 25
Glivenko, V.I., 147
Gosset, W.S., ’Student’, 126
Grenzwertsätze, 85
große Abweichungen, 180
Gütefunktion, 77
Lageparameter, 72
Laplace, P.-S., 17
Laplace-Experiment, 17
Laplace-Verteilung, 17
Laplacescher Folgesatz, 46
Lebesgue, H., 15
Lebesgue-Integral, 54
Lebesgue-Maß, 15
Lévy, P., 160
Lévys Stetigkeitssatz, 160, 165
Likelihood-Funktion, 70
Lipschitz, R., 161
Log-Likelihood-Funktion, 70
Lognormal-Verteilung, 97
Lokations-Experiment, 72
Helly, E., 148
Histogramm, 81
hypergeometrische Verteilung, 22
Hypothesentest, 77
Macht, 77
Marginaldichten, 120
Markov, A. A., 54
Markovsche Ungleichung, 54
Maximalungleichung, 108
Maximum–Likelihood–Schätzer, 71
Maximum-Likelihood-Prinzip, 71
Median, 57, 79
Mengensystem, 12
meßbar, 29
meßbar
meßbare Abbildung, 16
meßbare Mengen, 12
meßbarer Raum, 10, 12
mittlere quadratische Abweichung, 57
mittlerer quadratischer Fehler, 75
Momente, 57
monotone Konvergenz, 53, 59
monotone Likelihood-Quotienten, 80
Monte-Carlo, 83, 117
Multinomial-Verteilung, 76
Multinomialverteilung, 135
Multiplikationsregel, 61
induzierter W-Raum, 11, 16
Informationsgehalt, 168
integrierbar, 55
Intensität, 150
Jensen, J.L., 88
Jensensche Ungleichung, 88, 94, 171
Klassischer zentraler Grenzwertsatz, 87
Kolmogorov, A.N., 13
Komplementärereignis, 10
Konfidenzintervall, 97, 128
konvergent, 129
Konvergenz
In Verteilung, 95
in Verteilung, 90
in Wahrscheinlichkeit, 103
fast sicher, 103
stochastisch, 103
Konvergenz der Quantile, 145
Korrelationskoeffizient, 60
Kovarianz, 60
Kovarianzmatrix, 123
kritischer Bereich, 77
Kullback-Leibler-Abstand, 170
Negativteil, 55
Neyman, J., 79
Normalvereilung
Charakterisierung, 73
Normalverteilung, 72, 88
185
stabil
∩-stabil, 28
Standardabweichung, 57
Parametermenge, 69
standardisieren, 86
Pascalsche Formel, 19
Standardnormalverteilung, 88
Pearson, E., 79
Starkes Gesetz der großen Zahlen, 105
Poisson, S.-D., 48
Statistik, 70
Poisson-Prozess, 151
statistisches Entscheidungsproblem, 76
Poisson-Verteilung, 48, 52
statistisches Experiment, 69
Poissonapproximation, 85
Steiner, J., 67
Polynomial-Verteilung, 76, 135
Steinerscher Verschiebungssatz, 67
Portmanteau Theorem, 130
Stetigkeit von Wahrscheinlichkeiten, 14
Positivteil, 55
Stichproben, 12
Potenzmenge, 9, 12
Stichprobenmittel, 72
praefixfrei, 173
Stichprobenraum, 10, 12, 69
Prinzip vom unzureichenden Grund, 10, 17
Stirling Formel, 114, 180
probabilistische Methode, 33
Stirling, J., 114
Produkt-σ-Algebra, 42
stochastisch unabhängig, 37
Produktdichte, 44
Stoppzeiten, 153
Produktraum, 42
Streichholzproblem, 30
Produktverteilung, 42
Streuung, 57
punktweise Konvergenz, 103
Subadditivität, 15
Summe von Zufallsvariablen, 45
Quantil, 79, 98, 142
Nullmenge, 39
nullrekurrent, 118
Realisierung, 9, 12
regulär, 181
rekurrent, 115
relative Entropie, 170
Sanov, I.N., 179
Satz von de Moivre–Laplace, 91
Satz von Glivenko-Cantelli, 147
Schätzer, 70
Scheffé, H., 160
schwache Konvergenz, 129
schwaches Gesetz der großen Zahlen, 63
Schwerpunkt, 56
separabel, 146
Shannon, C., 167
sicheres Ereignis, 10, 12
σ-Additivität, 13
σ-Algebra, 12
erzeugte, 12, 16
Signifikanzniveau, 77
Simulation von ZV, 28
t-Verteilung, 126, 127
Test, 77
Chiquadrat-Anpassungstest, 143
einfacher Chiquadrat-Test, 139
t-Test, 127
totale Wahrscheinlichkeit (Formel), 37
Totalvariation, 95
Transformationssatz für Dichten, 121
Transkription, 13
Trennschärfe, 78
unabhängig, 37, 101
unabhängig, 40
uniforme Verteilung, 24
unkorreliert, 60
unmögliches Ereignis, 12
ununterscheidbar, 30
Urnenmodelle, 17, 21
Varianz, 57, 59
Verschiebungssatz, 57
186
Verteilung der Wartezeiten, 152
Verteilung einer ZV, 11, 16
Verteilung mit Dichte, 25, 44
Verteilungsfunktion, 26
Inverse, 28, 79
Verteilungskonvergenz, 129
Verwerfungsbereich, 77
wahrer Parameter, 70
Wahrscheinlichkeitsdichte, 25
Wahrscheinlichkeitsmaß, 13
Wahrscheinlichkeitsraum, 10, 13
Wahrscheinlichkeitsvektor, 23
Wahrscheinlichkeitsverteilung, 10, 13
Wartezeiten, 20, 152
Weierstrass-Approximation, 68
Zentraler Grenzwertsatz, 86, 135, 164
zentriert, 56, 57
Ziehen mit Zurücklegen, 17, 40
Ziehen ohne Zurücklegen, 21, 35
Zufallsvariable, 10, 16
Zufallsvektoren, 119
zweiseitige Exponentialverteilung, 72
187
Herunterladen