Stochastik I und Masstheorie Universität Zürich FS 2012

Werbung
Stochastik I und Masstheorie
Universität Zürich
FS 2012
Erwin Bolthausen
Inhaltsverzeichnis
1 Diskrete Wahrscheinlichkeitsräume
2
1.A Anhang: Was sind Wahrscheinlichkeiten “wirklich”? . . . . . . . . . . . . 9
1.B Anhang: Einige historische Anmerkungen . . . . . . . . . . . . . . . . . . 10
2 Bedingte Wahrscheinlichkeiten, Unabhängigkeit
3 Masstheoretische Grundlagen und Ergänzungen
3.1 Masse und Erweiterungen . . . . . . . . . . . . . . .
3.2 Beispiele von messbaren Räumen . . . . . . . . . . .
3.3 Beispiele von Mass- und Wahrscheinlichkeitsräumen
3.4 Messbare Abbildungen . . . . . . . . . . . . . . . . .
3.5 Integration . . . . . . . . . . . . . . . . . . . . . . .
3.6 Der Satz von Radon-Nikodym . . . . . . . . . . . . .
3.7 Produktmasse . . . . . . . . . . . . . . . . . . . . . .
13
.
.
.
.
.
.
.
4 Zufallsvariablen, Erwartungswerte, charakteristische
abhängigkeit
4.1 Erwartungswerte . . . . . . . . . . . . . . . . . . . . .
4.2 Charakteristische Funktionen . . . . . . . . . . . . . .
4.3 Konvergenz von Folgen von Zufallsgrössen . . . . . . .
4.4 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
25
34
37
40
43
51
58
Funktionen, Un.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
66
66
74
78
80
5 Gesetze der grossen Zahlen
89
6 Verteilungskonvergenz und der Zentrale Grenzwertsatz
98
Literatur: Die Literatur über Wahrscheinlichkeitsrechnung ist immens. Hier nur eine
kleine Auswahl:
W. Feller: An Introduction to Probability Theory and Its Applications
1
Das ist der Klassiker. Die Paperback-Version ist leider vergri¤en, sodass das Buch
ziemlich teuer ist.
D. Williams: Probability with Martingales
G. Grimmett, D. Stirzaker: Probability and Random Processes
H.O. Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik
1
Diskrete Wahrscheinlichkeitsräume
In diesem Kapitel wird der Begri¤ “Wahrscheinlichkeit”mathematisch präzisiert. Zufallsereignissen werden dabei Wahrscheinlichkeiten zugeordnet. (Man spricht dann von der
“Wahrscheinlichkeit eines Ereignisses”). Auf die naheliegende Frage, was Wahrscheinlichkeiten “wirklich” sind, werden wir jedoch nur sehr rudimentär eingehen, weil wir
dann zuerst erklären müssten, was “Zufall” ist. Bekanntlich gibt es philosophische und
religiöse Systeme, die dem Zufall keinen Platz einräumen. Um Auseinandersetzungen
zu diesen Fragen zu vermeiden, legt die Mathematik nur Regeln fest, nach denen mit
Wahrscheinlichkeiten umgegangen wird. Was diesen in der Wirklichkeit entspricht und
ob überhaupt irgend etwas, bleibt dem Einzelnen überlassen zu entscheiden. Natürlich
wird in diesem Text dieser Standpunkt nicht konsequent durchgehalten, und wir werden
des öfteren Interpretationen von Wahrscheinlichkeiten “vorschlagen”. In einem Anhang
1.A zu diesem Kapitel werden einige Erläuterungen zu verschiedenen Ansätzen gegeben.
Zunächst muss der Begri¤ “Ereignis” präzisiert werden. Am besten zerlegt man
die Ereignisse gewissermassen in Atome, in die sogenannten Elementarereignisse: die
kleinsten Ereignisse, die in einer bestimmten Situation interessant oder von Bedeutung
sind. Die Festlegung, was in einer Situation die Elementarereignisse sind, ist weitgehend
willkürlich. Formal sind die Elementarereignisse einfach die Elemente einer (zunächst)
endlichen oder abzählbaren Menge, die meist mit bezeichnet wird.
Die Wahrscheinlichkeitender Elementarereignisse ! 2
sind Zahlen p(!) zwischen 0 und 1, die sich auf 1 aufsummieren.
De…nition 1.1
Ein diskreter Wahrscheinlichkeitsraum ( ; p) besteht aus einer endlichen
oder abP
zählbar unendlichen Menge und einer Abbildung p : ! [0; 1], für die !2 p(!) = 1
gilt.
Da alle p(!) P
0 sind, spielt selbst im Fall, wenn
unendlich ist, die Reihenfolge
der Summation in !2 p(!) keine Rolle. Genau genommen handelt es sich um einen
Grenzwert.
Man wählt zunächst
P
Pn eine Abzählung ! 1 ; ! 2 ; : : : der Elemente von . Dann
ist
!2 p(!) = limn!1
i=1 p(! i ), wobei der Grenzwert nicht von der gewählten
Abzählung abhängt, da die p(!) 0 sind.
Soweit ist mathematisch alles sehr einfach. Falls mit Wahrscheinlichkeitsräumen konkrete Zufallssituationen modelliert werden sollen, so gibt es in der Regel mehr als eine
2
“vernünftige” Wahl für einen Wahrscheinlichkeitsraum. Man wählt
oft so, dass die
einzelnen Elementarereignisse ! 2 als gleich wahrscheinlich erscheinen, was natürlich
nur möglich ist, wenn endlich ist. In diesem Fall erhalten alle Elementarereignisse !
den Wert p (!) = 1= j j : Einige Beispiele dazu:
Beispiele 1.2
a) Beim Würfeln mit einem Würfel wählt man = f1; 2; 3; 4; 5; 6g. Dabei ist i 2
das Elementarereignis, dass die Zahl i geworfen wird. Ist der Würfel nicht gezinkt,
so wird man p(i) = 1=6 für alle i 2 setzen.
b) Als Elementarereignisse beim Würfeln mit 2 Würfeln fassen wir alle möglichen
Kombinationen von Augenzahlen auf. besteht in diesem Fall aus 36 Elementarereignissen: = f(1; 1); (1; 2); : : : ; (6; 6)g = f1; 2; 3; 4; 5; 6g2 . Wir setzen p((i; j)) =
1=36 für jedes Elementarereignis.
c) Ein Stapel mit n Karten wird gut gemischt. Wir denken uns die Karten von 1 bis
n durchnumeriert. Die Elementarereignisse sind die möglichen Reihenfolgen dieser
n Karten, etwa bei n = 3:
= f(1; 2; 3); (1; 3; 2); (2; 1; 3); (2; 3; 1); (3; 1; 2); (3; 2; 1)g:
Bei guter Mischung wird man jede Reihenfolge als gleich wahrscheinlich betrachten
können. Jedes Elementarereignis hat dann Wahrscheinlichkeit 1=n!.
Für einen Stapel Jasskarten mit 36 Karten ist 36! = 3:719 9 1041 : Nach guter
1
Mischung sollte also jede Reihenfolge die Wahrscheinlichkeit 3:719 9 1041
=
42
2:688 2 10
haben.
Natürlich sollen nicht nur den Elementarereignissen Wahrscheinlichkeiten zugeordnet
werden, sondern auch zusammengesetzten Ereignissen, etwa in Beispiel 1.2.1.2 oben dem
Ereignis, dass die beiden Augenzahlen gleich sind. Ereignisse sind einfach Zusammensetzungen von Elementarereignissen. In mathematischer Formulierung:
De…nition 1.3
( ; p) sei ein diskreter Wahrscheinlichkeitsraum. Die Teilmengen von heiß
en Ereignisse. Für
ist die Wahrscheinlichkeit von A de…niert durch
P ein Ereignis A
P (A) = !2A p(!). Die leere Menge ; ist das sogenannte unmögliche Ereignis. Per
Konvention legen wir fest, dass die Summation über die leere Menge gleich Null ist. Das
unmögliche Ereignis hat als Wahrscheinlichkeit P (;) = 0. Die Grundmenge
ist das
sichere Ereignis. Dieses hat die Wahrscheinlichkeit P ( ) = 1:
Es hat sich eingebürgert, Ereignisse mit grossen lateinischen Buchstaben vom Anfang
des Alphabets zu bezeichnen: A; B; C; : : : . Die Wahrscheinlichkeit wird meist mit einem
grossen P (englisch “probability”) bezeichnet. Es mag etwas verwirren, dass Ereignisse
Teilmengen sind. Am anschaulichsten ist vielleicht die folgende Vorstellung: Das zufällige
Geschehen besteht in der zufälligen Auswahl eines Elementarereignisses. Eine Teilmenge
3
A von entspricht dann dem Ereignis, dass dieses zufällig gewählte Elementarereignis
in A liegt.
Mengenoperationen entsprechen mithin aussagenlogischen Operationen gemäßder
folgenden Übersetzungstabelle:
Sprache der Ereignisse
A; B; C sind Ereignisse
A und B
A oder B
nicht A
A und B schließ
en sich aus
A impliziert B
Mengenschreib- bzw. Sprechweise
A; B; C sind Teilmengen von
A\B
A[B
Ac = n A
A\B =;
A B
Für jedes Elementarereignis ! ist die Menge f!g o¤enbar ein Ereignis, das sich
formal mathematisch von ! unterscheidet. Elementarereignisse sind formal nach unserer
De…nition keine Ereignisse. Sowohl p(!) als auch P (f!g) bezeichnen die Wahrscheinlichkeit von ! 2 . Diese Unterscheidung ist natürlich spitz…ndig, und wir werden darauf
nicht herumreiten.
Wahrscheinlichkeiten genügen einigen einfachen Regeln, die im nächsten Satz aufgelistet sind.
Satz 1.4
Es sei ( ; p) ein diskreter Wahrscheinlichkeitsraum.
a) Für jedes Ereignis A gilt 0
P (A)
1:
b) P (;) = 0, P ( ) = 1.
c) Sind Ereignisse Ai für i 2 N paarweise disjunkt (d.h. Ai \ Aj = ; für i 6= j), so gilt
P
[
i2N
Ai =
1
X
P (Ai ):
(1.1)
i=1
d) In 1.4. ohne die Voraussetzung, dass die Ai paarweise disjunkt sind, gilt
P
[
i2N
Ai
1
X
P (Ai ):
i=1
e)
A
B ) P (B) = P (A) + P (B n A):
f)
A
B ) P (A)
4
P (B):
(1.2)
g)
P (A [ B) = P (A) + P (B)
P (A \ B):
Die Eigenschaft (1.1) nennt man auch -Additivität und die Eigenschaft (1.2) nennt
man -Subadditivität.
Bemerkung 1.5
Gilt An+1 = An+2 =
P
[n
i=1
= ; für ein n
Ai =
n
X
P (Ai )
1, so besagen c) und d)
bzw:
i=1
P
[n
i=1
Ai
n
X
P (Ai ):
i=1
Dies nennt man auch die endliche Additivität bzw. endliche Subadditivität.
Beweis von Satz 1.4.S1.4. und 1.4. folgen sofort aus der De…nition.
1.4., 1.4.: Jedes ! 2 1
i=1 Ai gehört zu mindestens einem der Ai und zu genau einem,
wenn die Ai paarweise disjunkt sind. Demzufolge gilt
P
[
i2N
Ai =
!2
X
S
i2N
p(!) =
1 X
X
p(!) =
i=1 !2Ai
Ai
1
X
P (Ai );
i=1
wenn die Ai paarweise disjunkt sind. Im Fall 1.4. ist das mittlere Gleichheitszeichen durch
„ “ zu ersetzen, denn die p(!)’s werden in der Summe auf der rechten Seite eventuell
mehrfach gezählt, nämlich einmal für jede Menge Ai , die das entsprechende ! enthält.
1.4. Es gelten B = A [ (B n A) und A \ (B n A) = ;. Somit ist nach 1.4. P (B) =
P (A) + P (B n A).
1.4. folgt aus 1.4. und P (B n A) 0.
1.4. Wir haben die folgenden Zerlegungen in disjunkte Teilmengen:
A [ B = (A n B) [ B
und
A = (A n B) [ (A \ B):
Nach 1.4. gelten:
P (A [ B) = P (A n B) + P (B);
P (A) = P (A n B) + P (A \ B):
Subtrahiert man die zweite Gleichung von der ersten, so folgt 1.4.
Beispiele 1.6
a) In Beispiel 1.2.1.2 wird man jedem Elementarereignis die Wahrscheinlichkeit 1=36
zuordnen. Für jedes Ereignis A ist P (A) = jAj=36, wobei jAj die Anzahl der
Elemente in A ist. Sei z.B. A = f(1; 1); (2; 2); : : : ; (6; 6)g das Ereignis, dass die
Augenzahlen gleich sind. Dann ist P (A) = 6=36 = 1=6.
5
b) In einem Kartenspiel mit einer geraden Anzahl (= 2n) von Karten be…nden sich
2 Joker. Nach guter Mischung werden die Karten in zwei gleich grosse Haufen
aufgeteilt. Wie großist die Wahrscheinlichkeit, dass beide Joker im gleichen Haufen
sind?
Wir wählen = f (i; j) 2 f1; 2; : : : ; 2ng2 : i 6= jg als Menge der Elementarereignisse. Hierbei ist (i; j) 2
das Elementarereignis, dass sich der erste Joker am
Platz i und der zweite am Platz j be…ndet. Nach guter Mischung hat jedes dieser
Elementarereignisse die Wahrscheinlichkeit p((i; j)) = 1=j j = 1=2n(2n 1). Das
uns interessierende Ereignis ist
A = f (i; j) 2 f1; 2; : : : ; ng2 : i 6= jg [ f(i; j) 2 fn + 1; : : : ; 2ng2 : i 6= jg:
Dieses enthält 2 n(n
1) Elementarereignisse. Somit ist P (A) =
2n(n 1)
2n(2n 1)
=
n 1
2n 1 :
c) Eine Münze wird n-mal geworfen.
sei die Menge der n-Tupel, bestehend aus
“Zahl” und “Kopf”. Somit ist j j = 2n . Haben alle n-Tupel gleiche Wahrscheinlichkeiten, so hat jedes Elementarereignis Wahrscheinlichkeit 2 n . Es sei Ak das
Ereignis, dass k-mal „Zahl“ fällt. Ak enthält nk Elementarereignisse. Es gilt also
P (Ak ) = nk 2 n :
d) Urnenmodell: In einer Schachtel (Urne) be…nden sich r rote und s schwarze Kugeln. Eine Kugel wird zufällig herausgenommen. Mit welcher Wahrscheinlichkeit
ist sie rot? Wir denken uns die Kugeln von 1 bis r + s durchnumeriert. Die Kugeln
mit den Nummern 1 bis r sind rot; die anderen schwarz. Für
nehmen wir die
Menge f1; 2; : : : ; r + sg. Dann ist i 2
das Elementarereignis, dass die Kugel i
gezogen wird. Diese Elementarereignisse sind nach guter Mischung gleich wahrscheinlich. Unser Ereignis enthält r Elementarereignisse. Seine Wahrscheinlichkeit
ist also r=(r + s).
Hier noch eine Verallgemeinerung von Satz 1.4.1.4: A1 ; : : : ; An seien n Ereignisse.
A1 [
[ An ist das Ereignis, dass mindestens eines der Ai eintritt.
Satz 1.7 (Ein- und Ausschlussprinzip)
Sei n 2 und A1 ; : : : ; An
. Dann gilt
P (A1 [
[ An ) =
n
X
P (Ai )
i=1
X
P (Ai1 \ Ai2 ) +
i1 <i2
n 1
+ ( 1)
P (A1 \ A2 \
X
i1 <i2 <i3
P (Ai1 \ Ai2 \ Ai3 )
\ An ):
Beweis. Induktion nach n: Für n = 2 ist dies Satz 1.4.1.4.
Induktionsschluss:
P (A1 [
[ An+1 ) = P (A1 [
[ An ) + P (An+1 )
6
P ((A1 [
[ An ) \ An+1 )
und nochmals nach Satz 1.4.1.4. folgt
P (A1 [
[ An+1 ) =
n+1
X
P (Ai )
i=1
X
+
X
1 i1 <i2 n
1 i1 <i2 <i3 n
P (Ai1 \ Ai2 )
P (Ai1 \ Ai2 \ Ai3 )
P ((A1 \ An+1 ) [ (A2 \ An+1 ) [
:::
[ (An \ An+1 ))
nach Induktionsvoraussetzung und dem Distributivgesetz für Mengenoperationen. Wendet man auf den letzten Summanden nochmals die Induktionsvoraussetzung an, so folgt
die Behauptung.
Beispiel 1.8
Als Anwendung des Ein- und Ausschlussprinzips lösen wir das folgende Problem: Ein
Briefschreiber verfasst n Briefe und beschreibt auch schon n Umschläge mit Anschriften.
In einem Akt der Zerstreutheit steckt er jedoch die Briefe ganz zufällig in die Umschläge
und sendet sie ab. Mit welcher Wahrscheinlichkeit kommt kein Brief richtig an?
Wir numerieren sowohl Briefe wie Umschläge von 1 bis n durch. Der Brief i gehört
zum Umschlag i. sei die Menge aller Permutationen (das heiß
t der bijektiven Selbstabbildungen) von f1; : : : ; ng. Mit (i) bezeichnen wir die Nummer des Umschlages, in
den Brief i gesteckt wird. Die Zerstreutheit des Abpackers kommt darin zum Ausdruck,
dass wir jeder möglichen Permutation die gleiche Wahrscheinlichkeiten 1=n! zuweisen.
Wir interessieren uns dann für P (A),
A=f
2
: (i) 6= i 8 i g:
Es erweist sich als zweckmäß
ig, das Gegenereignis Ac zu untersuchen:
Ac =
n
[
Bi ;
i=1
wobei Bi das Ereignis ist, dass der Brief i richtig eingesteckt ist: Bi = f
Nun verwenden wir den vorherigen Satz 1.7:
!
n
n
[
X
X
P
Bi =
P (Bi )
P (Bi1 \ Bi2 ) +
+ ( 1)n+1 P (B1 \
i=1
i=1
i1 <i2
: (i) = i g.
\ Bn ):
Das sieht sehr kompliziert aus, ist es aber nicht: Für 1
k
n und i1 <
< ik ist
Bi1 \
\ Bik das Ereignis, dass die Briefe i1 ; : : : ; ik im richtigen Umschlag sind. Das
lässt die Zuordnung der n k restlichen völlig o¤en. Bi1 \
\ Bik enthält also (n k)!
Elementarereignisse, hat also Wahrscheinlichkeit (n k)!=n!. Demzufolge ist
X
i1 < <ik
P (Bi1 \
\ Bik ) =
7
n (n k)!
1
= :
k
n!
k!
Daher ist
P (A) = 1
P (Ac ) = 1
=
Für groß
es n ist das ' 1
e
1
2!
1
1
1
+ +
+ ( 1)n+1
2! 3!
n!
1
1
1
+ +
+ ( 1)n :
3! 4!
n!
1
1.
Die Festlegung der Wahrscheinlichkeiten der Elementarereignisse ist ein Problem,
das in Anwendung nicht mathematisch gelöst werden kann. In den bisherigen Beispielen
hatten die Elementarereignisse jeweils alle die gleichen Wahrscheinlichkeiten. Dies ist
vernünftig, wenn alle Elementarereignisse als “gleich möglich” erscheinen, oder wenn
kein Grund für eine Ungleichbehandlung der Elementarereignisse vorliegt. Tatsächlich
wählt man die Zerlegung in Elementarereignisse oft unter diesem Gesichtspunkt.
Ein Beispiel dazu: Jemand wirft zwei Würfel. Interessiert er sich nur für die Augensumme, so kann er als Elementarereignisse die möglichen Ergebnisse dafür nehmen: =
f2; 3; 4; : : : ; 12g. Es ist o¤ensichtlich, dass diese Elementarereignisse nicht gleichwertig
sind. Deshalb nimmt man besser die Elementarereignisse aus Beispiel 1.2.1.2.
In vielen Fällen wäre die Festlegung, dass alle Elementarereignisse gleich wahrscheinlich sind, aber ganz unsinnig.
Als Beispiel betrachten wir das Problem festzulegen, wie großdie Wahrscheinlichkeit
ist, mit der etwa ein produziertes Werkstück in einem Fertigungsprozess defekt ist. In
Fällen, wo man auf lange Produktionsreihen zurückgreifen kann, setzt man die Wahrscheinlichkeit als die relative Häu…gkeit des Defekts an. Eine theoretische Begründung
für diesen Ansatz gibt das Gesetz der grossen Zahlen (siehe Kapitel 3). Sind etwa bei
der Produktion von 10 000 Werkstücken 200 defekt gewesen, so wird man die Wahrscheinlichkeit als 0,02 annehmen. Dabei handelt es sich nicht um eine „Naturkonstante“,
sondern lediglich um eine Arbeitshypothese, die gegebenenfalls wieder revidiert werden
muss. Das Vertrauen, das man zu einem über relative Häu…gkeiten ermittelten Wert für
eine Wahrscheinlichkeit hat, hängt natürlich auch von der Anzahl der Versuche ab. Es ist
z.B. klar, dass 200 Defekte auf 10 000 aussagekräftiger ist, als 2 auf 100. Eine genauere
Diskussion derartiger Probleme gehört in die Statistik. (siehe auch die Diskussion im
Anhang 1.A).
Nun ein Beispiel eines unendlichen Wahrscheinlichkeitsraums:
Beispiel 1.9
Eine Münze wird so lange geworfen, bis zum erstenmal “Kopf” fällt. Wir wählen als
die natürlichen Zahlen N. Das Elementarereignis i 2 N bedeutet, dass zum erstenmal
beim i-ten Wurf “Kopf” fällt. Wie großist p(i)? Dass i eintritt, ist auch ein Elementarereignis in unserem Beispiel 1.6, 1.6., nämlich, dass zunächst (i 1)-mal “Zahl” fällt
und dann “Kopf”. Somit ist p(i) = 2 i . Die p(i) erfüllen die Bedingung in De…nition 1.1:
P
i2N p(i) = 1. Also ist ( ; p) ein Wahrscheinlichkeitsraum.
In unserem Modell ist das Ereignis, dass “Kopf” nie fällt, das unmögliche Ereignis.
Die Wahl von in diesem Beispiel erscheint etwas künstlich. In der Tat wählt man meist
8
für die Menge der unendlich fortgesetzten Münzwürfe, d.h. fK; ZgN : Da diese Menge
nicht mehr abzählbar ist, ist es aber nicht mehr möglich, im Rahmen der De…nition 1.1
zu arbeiten.
1.A
Anhang: Was sind Wahrscheinlichkeiten “wirklich”?
Obwohl wir hier nicht ausführlich darauf eingehen wollen, was Zufall und Wahrscheinlichkeiten “wirklich” sind, sollen hier die wichtigsten Konzepte kurz dargestellt werden.
1. Laplace Konzept: Das ist einfach das hier schon vorgestellte Verfahren: Wahrscheinlichkeit gleich Anzahl günstiger Fälle dividiert durch Anzahl möglicher Fälle.
Die Reichweite dieser Methode, Wahrscheinlichkeiten festzulegen, ist o¤ensichtlich
ziemlich beschränkt.
2. Frequentistische Wahrscheinlichkeiten: Wir gehen davon aus, dass ein Zufallsexperiment unter gleichbleibenden Bedingungen oft wiederholt werden kann.
Wahrscheinlichkeiten werden dann als die relativen Häu…gkeiten de…niert, mit der
ein Ereignis auftritt. Wenn Sie einen Würfel 1000 mal werfen und er fällt 400 mal
auf die Drei, so setzen sie mit diesem Ansatz die Wahrscheinlichkeit für “Drei”
gleich 0:4; in Abweichung vom Laplaceschen Ansatz. Dieser frequentistische Ansatz ist in den Naturwissenschaften und der Technik sehr beliebt. Die Problematik
besteht natürlich darin, dass meist nicht genau präzisiert ist, was “unter gleichbleibenden Bedingungen” genau bedeutet.
3. Subjektivistische Wahrscheinlichkeiten: Es ist o¤ensichtlich, dass man manchmal von Wahrscheinlichkeiten sprechen möchte, wenn man auf keine langen Versuchsreihen zurückblicken kann und schon gar nicht auf solche, bei denen die Einzelversuche “unter gleichbleibenden Bedingungen” stattgefunden haben. Ein Kriminalkommissar hat in einem Mordfall einen Verdächtigen X im Auge und sagt,
dieser sei mit 60% Wahrscheinlichkeit der Täter. Der Kommissar hat vielleicht viel
Erfahrung und will damit zum Ausdruck bringen, dass “unter vergleichbaren Umständen” ein entsprechend Verdächtiger in 60% der Täter war. In vielen Fälle ist
jedoch eine solche Auszählung der Fälle nicht wirklich möglich und sinnvoll. Die
Aussage des Kommissars ist daher eher eine subjektive Einschätzung, die (ho¤entlich) auf einer gewissen Erfahrung basiert. Nachdem während langer Zeit solche
“subjektiven Wahrscheinlichkeiten” als unwissenschaftlich galten, wurden sie vor
allem von de Finetti propagiert, der die Existenz von “objektiven” Wahrscheinlichkeiten abstritt: Hier der Beginn seines Buches Theory of Probability (1974):
My thesis [...] is simply this: PROBABILITY DOES NOT EXIST. The abandonment of
superstitious beliefs about the existence of the Phlogiston, the Cosmic Ether, Absolute
Space and Time, or Fairies and Witches, was an essential step along the road to
scienti…c thinking. Probability, too, if regarded as something endowed with some kind
of objective existence, is no less a misleading misconception, an illusory attempt to
exteriorize or materialize our true probabilistic beliefs.
9
Die Thesen de Finettis haben hitzige Debatten ausgelöst1 . Natürlich wollte auch
de Finetti nicht auf Wahrscheinlichkeiten verzichten. Die “Wissenschaftlichkeit”
seiner Wahrscheinlichkeiten bestand allerdings darin, dass ein Subjekt die Wahrscheinlichkeiten auf rationale Weise aufgrund der Erfahrung modi…ziert. Für diese
Modi…kation spielt die Bayes-Formel, die wir im nächsten Kapitel diskutieren, eine bedeutende Rolle. Wir wollen im Moment darauf nicht näher eingehen; klar
ist jedoch, dass wenn unser Kommissar mit seinen Prognosen über Täter stets zu
optimistisch liegt, er seine “subjektiven Wahrscheinlichkeiten” modi…zieren sollte.
Allerdings hat man in Experimenten festgestellt, dass die meisten Menschen nicht
nach den de Finetti-Regeln verfahren. Die de Finetti Konzepte hatten groß
e Auswirkungen auf die Entwicklung der Statistik. Auch wenn man den philosophischen
Standpunkt von ihm nicht teilt, kann man feststellen, dass die von ihm propagierten statistischen Verfahren (die Bayes-Statistik) sich aus praktischen Gründen sehr
weit durchgesetzt haben.
1.B
Anhang: Einige historische Anmerkungen
Obwohl nicht zweifelhaft sein kann, dass Überlegungen zu Wahrscheinlichkeiten gemacht
wurden, seit es Glücksspiele gibt, steht die erste wissenschaftliche Erwähnung von Wahrscheinlichkeiten erst in einem Werk von Girolamo Cardano (1501-1576) Liber de Ludo
Aleae (1565), der in der Mathematik vor allem mit der Publikation der cardanischen
Formel für die Lösung der kubische Gleichung berühmt wurde, welche er Nicolo Tartaglia abgekupfert hatte. Das Werk Cardanos über Glücksspiele wurde erst 1665 publiziert.
Cardano hatte in jungen Jahren das Vermögen, das ihm sein Vater hinterlassen hatte,
verschleudert und bestritt darauf während einer gewissen Zeit seinen Lebensunterhalt
mit Glücksspielen. Sein Verständnis von Wahrscheinlichkeiten ermöglichte ihm, beim
Spiel mehr zu gewinnen als zu verlieren. Allerdings geriet er auf diese Weise auch in
Messerstechereien, was Cardano in gewisse Schwierigkeiten brachte.
Oft datiert man den Beginn der wissenschaftlichen Beschäftigung mit Wahrscheinlichkeiten jedoch auf einen Briefwechsel zwischen Blaise Pascal (1623-1662) und Pierre de
Fermat (1601-1665) im Jahre 1654. Fermat analysiert darin ein Problem, das ihm von einem professionellen Glücksspieler, dem Herrn de Méré gestellt wurde, wobei sich Fermat
über das mangelnde Verständnis über Wahrscheinlichkeiten dieses Spielers mokiert.
Nicht viel später (1656) verfasste Christiaan Huygens (1629-1675) eine Schrift über
Wahrscheinlichkeitsrechnung, die sich im wesentlichen ebenfalls mit Glücksspielen beschäftigt und die Diskussionen von Fermat und Pascal weiterführt.
Dass Wahrscheinlichkeiten zur damaligen Zeit fast ausschließ
lich im Zusammenhang
mit Glücksspielen gesehen wurden, braucht angesichts eines verbreiteten mechanistischen
Weltbildes nicht zu verwundern. Naturgesetze, die probabilistische Aussagen machten,
wie etwa heute die Quantenmechanik oder die Statistische Physik, waren damals undenkbar.
1
allerdings kaum unter Mathematikern, die sich üblicherweise erst nach der Pensionierung mit solchen
“weltanschaulichen” Themen auseinandersetzen. de Finetti war allerdings ein Mathematiker.
10
Hier eine Galerie der wichtigsten Akteure dieser frühen Periode der Wahrscheinlichkeitstheorie:
Girolamo Cardano
Pierre de Fermat
Christiaan Huygens
Blaise Pascal
11
Die weitere Entwicklung ist mit Namen wie Bernoulli, de Moivre, Laplace, Gauss und
vielen anderen verbunden. Sie wurde jedoch lange Zeit durch das Fehlen eines befriedigenden mathematischen Rahmens behindert. Die moderne Einbettung in die Masstheorie
wurde von Andrey Kolmogoro¤ 1933 gegeben, welche sich in der Mathematik vollständig
durchgesetzt hat.
Andrey Kolomogoro¤ 1903-1987
12
2
Bedingte Wahrscheinlichkeiten, Unabhängigkeit
Ein wichtiges Werkzeug in der Wahrscheinlichkeitstheorie ist die sogenannte “bedingte
Wahrscheinlichkeit”. Dazu ein Beispiel:
Wir betrachten das Beispiel 1.2.1.6 aus Kapitel 1, wobei die Kugeln der Schachtel
nun aber mehrere Merkmale tragen können, z.B. die Farbe “rot”oder “schwarz”und das
Material aus dem sie bestehen: die Kugeln seien entweder aus Metall oder aus Holz. A
sei das Ereignis, dass die gezogene Kugel rot ist, und B sei das Ereignis, dass sie aus Holz
ist. Jemand greift zufällig in die Schachtel, spürt, dass die Kugel aus Holz ist. Mit welcher
Wahrscheinlichkeit ist “gegeben dieses Vorwissen”, die gezogene Kugel rot. Man nennt
das die bedingte Wahrscheinlichkeit für A gegeben B: Sei r die Anzahl der roten, s
die Anzahl der schwarzen Kugeln. Die Gesamtzahl der Kugeln sei n = r + s: Ferner sei h
die Anzahl der hölzernen Kugeln und m die Anzahl der metallenen Kugeln, wobei wieder
n = m+h gilt. Dann ist P (A) = r=n und P (B) = h=n: Die bedingte Wahrscheinlichkeit
können wir aufgrund dieser Angaben jedoch nicht bestimmen; es könnte ja z.B. sein,
dass die Kugeln exakt gemäßdem Material angemalt sind. O¤ensichtlich müssen wir
die Anzahl nr;h der Kugeln, die sowohl rot wie aus Holz sind durch die Anzahl der
Holzkugeln dividieren. Die gesuchte bedingte Wahrscheinlichkeit ist also
nr;h
nr;h =n
P (A \ B)
=
=
:
r
r=n
P (B)
Dies führt auf die folgende allgemeine De…nition:
De…nition 2.1
Sei B
ein Ereignis mit P (B) > 0. Für jedes Ereignis A
P (A \ B)=P (B) die bedingte Wahrscheinlichkeit für A gegeben B .
Der nachfolgende Satz gibt einige einfache Eigenschaften an:
Satz 2.2
Es seien A; B
a) A
mit P (B) > 0. Dann gilt:
B ) P (AjB) = 1.
b) B \ A = ; ) P (AjB) = 0.
c) Sind die Ereignisse Ai , i 2 N, paarweise disjunkt, so gilt
P
d) P (Ac jB) = 1
[1
i=1
Ai B =
1
X
i=1
P (Ai jB):
P (AjB).
Beweis. 2.2. und 2.2. folgen sofort aus der De…nition.
13
heiß
t P (AjB) :=
2.2.:
P
S
S
P (( 1
P( 1
i=1 Ai ) \ B)
i=1 (Ai \ B))
Ai B =
=
i=1
P (B)
P (B)
1
1
X P (Ai \ B) X
=
=
P (Ai jB):
P (B)
[1
i=1
i=1
2.2.: Wegen A \ Ac = ; gilt nach 2.2
P (AjB) + P (Ac jB) = P (A [ Ac jB) = P ( jB) = 1:
Die bedingten Wahrscheinlichkeiten lassen sich auch als normale Wahrscheinlichkeiten darstellen, indem man die Wahrscheinlichkeiten der Elementarereignisse abändert:
Bei vorgegebenem Ereignis B setzen wir für ! 2 einfach
pB (!) :=
p (!) =P (B) f u
•r ! 2 B
:
0
fu
•r ! 2
=B
Dann ist ( ; pB ) ein Wahrscheinlichkeitsraum im Sinne von De…nition 1.1 und für A
gilt
PB (A) = P (AjB):
Ist ( ; p) ein endlicher Wahrscheinlichkeitsraum und sind alle Elementarereignisse
gleich wahrscheinlich, p (!) = 1= j j, so gilt für A; B
und B 6= ;
P (AjB) =
jA \ Bj
;
jBj
d.h., die bedingten Wahrscheinlichkeiten lassen sich in diesem Fall über die Mächtigkeiten
der Ereignisse bestimmen.
Beispiel 2.3
Wie großist die Wahrscheinlichkeit, dass beim Werfen mit zwei Würfeln einer der beiden
eine 2 zeigt, gegeben die Augensumme ist 6? Sei B das Ereignis “Die Augensumme ist
6”, also
B = f(1; 5); (2; 4); (3; 3); (4; 2); (5; 1)g;
und A das Ereignis “Mindestens einer der Würfel zeigt 2.”:
A = f(2; 1); (2; 2); (2; 3); (2; 4); (2; 5); (2; 6); (1; 2); (3; 2); (4; 2); (5; 2); (6; 2)g:
Dann gilt A \ B = f(2; 4); (4; 2)g und P (AjB) = 2=5. Zum Vergleich: Die unbedingte
Wahrscheinlichkeit ist P (A) = 11=36 < P (AjB).
In der bisherigen Diskussion haben wir die bedingten Wahrscheinlichkeiten auf die
unbedingten zurückgeführt. Es ist jedoch oft wichtiger, umgekehrt Wahrscheinlichkeiten
aus gewissen bedingten Wahrscheinlichkeiten zu berechnen. Ein Beispiel dazu:
14
Beispiel 2.4
Eine Leitung überträgt die zwei Signale “0 und “1”. Dabei können Übertragungsfehler
auftreten, wobei die Wahrscheinlichkeit dafür davon abhängt, welches Signal gesendet
wird. Unser mathematisches Modell für die Übertragung eines Zeichens ist ein Wahrscheinlichkeitsraum
mit den vier Elementen (0; 0), (0; 1), (1; 0), (1; 1), wobei an der
ersten Stelle des Paares das gesendete und an der zweiten Stelle das empfangene Zeichen
steht. Si := f(i; 0); (i; 1)g ist das Ereignis, dass i gesendet wird, und Ei := f(0; i); (1; i)g,
dass i empfangen wird. F := f(0; 1); (1; 0)g ist das Ereignis, dass ein Übertragungsfehler auftritt. Oft kennt man die Wahrscheinlichkeit für einen Übertragungsfehler in
Abhängigkeit von den gesendeten Zeichen (d.h. unter der entsprechenden Bedingung).
Sei fi = P (F jSi ), also
f0 = P (f(0; 1); (1; 0)gjS0 ) = P (f(0; 1)gjS0 )
und
f1 = P (f(0; 1); (1; 0)gjS1 ) = P (f(1; 0)gjS1 ):
Die Angabe dieser Größ
en statt der totalen (d.h. unbedingten) Fehlerwahrscheinlichkeit
ist deshalb angebracht, weil die fi im allgemeinen nur vom Übertragungssystem und
nicht von der relativen Häu…gkeit der Nullen und Einsen in der gesendeten Nachricht,
d.h. von P (Si ) abhängen. Es ist einleuchtend, dass die totale Fehlerwahrscheinlichkeit
sich aus den fi und P (Si ) mittels P (F ) = f0 P (S0 ) + f1 P (S1 ) berechnen lässt. Dem liegt
der folgende allgemeine Satz zugrunde:
Satz 2.5 (Formel von der totalen Wahrscheinlichkeit)
Es seien B1 ; : : : ; Bn paarweise disjunkte Ereignisse. Dann gilt für alle A
P (A) =
n
X
P (AjBj )P (Bj ):
Sn
j=1 Bj
j=1
(Sollte P (Bj ) = 0 sein, so wird der entsprechende Summand P (AjBj )P (Bj ) als Null
de…niert.)
S
Beweis. Wegen A = nj=1 (A \ Bj ) und der Disjunktheit der A \ Bj gilt:
P (A) = P
[n
j=1
(A \ Bj ) =
n
X
j=1
P (A \ Bj ) =
n
X
P (AjBj )P (Bj ):
j=1
Eine weitere einfache Folgerung aus der De…nition ist die folgende Verallgemeinerung
von P (A \ B) = P (AjB) P (B) :
Satz 2.6
Seien A1 ; : : : ; An Ereignisse mit P (A1 ) > 0; P (A1 \ A2 ) > 0; : : : ; P (A1 \ : : : \ An
0: Dann gilt
Yn
P (A1 \ : : : \ An ) =
P (Aj jA1 \ : : : \ Aj 1 ) P (A1 ) :
j=2
15
1)
>
Beweis.
0
1
n
Y
P
(A
\
A
\
:
:
:
\
A
)
1
2
j A
P (A1 \ : : : \ An ) = @
P (A1 )
P (A1 \ : : : \ Aj 1 )
j=2
Yn
P (Aj jA1 \ : : : \ Aj 1 ) P (A1 ) :
=
j=2
Die Formel besagt, dass für eine Kaskade A1 ; : : : ; An von Ereignissen, die Wahrscheinlichkeit dafür, dass alle eintreten aus P (A1 ) und den oben angegebenen bedingten
Wahrscheinlichkeiten durch Produktbildung gewonnen werden kann. Ein Beispiel. Wir
interessieren dafür, wie eine bestimmte Person ihren Sonntag verbringt und wollen die
Wahrscheinlichkeiten dafür untersuchen. Ihr Verhalten wird sicher vom Wetter abhängen. Sei A1 das Ereignis, dass schönes Wetter herrscht. Bekanntlich ist die Wahrscheinlichkeit dafür in der Schweiz (in normalen Sommern) nicht eben groß
. Nehmen wir etwa
P (A1 ) = 0:3 an. Tritt A1 ein, so habe die Person 4 Handlungsmöglichkeiten: Sie geht
wandern, sie legt sich ins Schwimmbad, sie besucht die Tante, oder sie schaut sich das
Formel 1 Rennen in Monza am Fernsehen an. Sei A2 das Ereignis, dass sie wandern
geht, und wir nehmen an, dass - bedingt auf schönes Wetter - jede der Möglichkeiten
die gleiche Wahrscheinlichkeit hat, d.h. P (A2 jA1 ) = 0:25: Natürlich besteht auch die
Möglichkeit, dass die Person bei schlechten Wetter wandern geht, die Wahrscheinlichkeit dafür ist jedoch sehr klein: P (A2 jAc1 ) = 0:05: Nun interessieren wir uns dafür,
mit welcher Wahrscheinlichkeit die Person den Napf besteigt. Sei A3 dieses Ereignis.
Wenn wir P (A3 jA1 \ A2 ) kennen - sei sie etwa gleich 0:1 - so können wir daraus nun
P (A1 \ A2 \ A3 ) berechnen: 0:3 0:25 0:1: Vielleicht interessieren wir uns jedoch gar
nicht für diese Wahrscheinlichkeit, sondern nur dafür, die Person schliesslich auf dem
Napf zu …nden. Diese Möglichkeit besteht jedoch auch bei schlechtem Wetter. Hingegen schliessen wir die Möglichkeit nicht wandernd auf den Napf zu gelangen aus. Somit
erhalten wir
P (A3 ) = P (A1 \ A2 \ A3 ) + P (Ac1 \ A2 \ A3 )
= P (A1 ) P (A2 jA1 ) P (A3 jA1 \ A2 ) + P (Ac1 ) P (A2 jAc1 ) P (A3 jAc1 \ A2 ) :
Zur Berechnung dieser Grösse fehlt uns jedoch noch P (A3 jAc1 \ A2 ) : Hier stellt sich eine
interessante Frage. Es kann ja sein, dass unsere Person die Entscheidung über den zu
erklimmenden Berggipfel nicht vom Wetter abhängig macht, dass also
P (A3 jAc1 \ A2 ) = P (A3 jA2 ) = P (A3 jA1 \ A2 )
(2.1)
gilt. In diesem Fall können wir die gewünschte Grösse nun berechnen:
P (A3 ) = 0:3 0:25 0:1 + 0:7 0:05 0:1:
Eine Eigenschaft von Typus (2.1) nennt man auch Markov-Eigenschaft. Wir verfolgen
das im Moment nicht weiter; Eigenschaften von diesem Typus spielen in der Wahrscheinlichkeitstheorie aber eine grosse Rolle. In unserem Fall ist (2.1) natürlich sehr wenig
plausibel.
16
In Lehrbüchern für die Gymnasien wird oft mit sogenannten Wahrscheinlichkeitsbäumen gearbeitet, wobei man die möglichen Verzweigungen der Ereignisse graphisch als
Baum darstellte. Dabei wird jedoch automatisch davon ausgegangen, dass diese MarkovStruktur der Wahrscheinlichkeitsbewertungen vorliegt, was in der Tat oft wenig plausibel
ist.
Überlegungen wie die obige werden benutzt, um die Sicherheit von technischen Anlagen - z.B. Atomkraftwerken - zu berechnen. Problematisch an solchen Berechnungen ist
oft, dass darin unveri…zierte “plausible” Annahmen ein‡iessen, wie z.B. Eigenschaften
vom Typ (2.1). Nehmen wir einmal (sehr vereinfachend) an, dass es in einem Atomkraftwerk zu einer Katastrophe kommt, falls ein bestimmter Anfangsstörfall A eintritt,
ein erstes Sicherheitssystem S1 nicht anspringt und dann noch ein zweites S2 : Wir interessieren uns für die Wahrscheinlichkeit P (A \ S1c \ S2c ) ; was nach Satz 2.6 gleich
P (A) P (S1c j A) P (S2c j A \ S1c ) ist. In Wirklichkeit sind die Verhältnisse natürlich sehr
viel komplexer. Ein grundlegendes Problem ist oft, dass man solche Wahrscheinlichkeiten nicht wirklich im Zusammenwirken aller Komponenten zuverlässig schätzen kann,
d.h. dass man etwa P (S1c j A) und P (S2c j A) vielleicht einigermassen zuverlässig kennt,
jedoch nicht wirklich P (S2c j A \ S1c ) : Dieser Aspekt wirkt jedoch in den Rechnungen oft
nur ungenügend berücksichtigt und man tut so, als ob sich P (A \ S1c \ S2c ) einfach als
P (A) P (S1c j A) P (S2c j A) berechnen lässt.2
Wird die Wahrscheinlichkeit eines Ereignisses A durch ein anderes Ereignis B mit
P (B) > 0 nicht beein‡usst, im Sinne, dass P (AjB) = P (A) gilt, so heissen A und B
unabhängig. Es ist bequemer, dies symmetrisch in A und B zu de…nieren und auf die
Voraussetzung P (B) > 0 zu verzichten:
De…nition 2.7
Zwei Ereignisse A und B heissen unabhängig, wenn P (A \ B) = P (A)P (B) gilt.
Diese De…nition spiegelt genau unsere intuitive Vorstellung von Unabhängigkeit wider. Es gilt o¤ensichtlich P (AjB) = P (A) dann und nur dann, wenn A und B unabhängig
sind (vorausgesetzt, dass P (B) > 0 ist).
Unabhängigkeit von endlichen vielen Ereignissen wird wie folgt de…niert:
De…nition 2.8
Die Ereignisse A1 ; : : : ; An heissen unabhängig, wenn für jede Auswahl von Indizes
fi1 ; : : : ; ik g f1; : : : ; ng gilt:
P (Ai1 \ Ai2 \
\ Aik ) = P (Ai1 )P (Ai2 )
P (Aik ):
Bemerkung 2.9
a) Sind A1 ; : : : ; An unabhängige Ereignisse und ist fi1 ; : : : ; im g eine Teilmenge von
f1; : : : ; ng, so sind o¤ensichtlich Ai1 ; Ai2 ; : : : ; Aim unabhängig.
2
Ein nuklearer Störfall mit glimp‡ichem Ausgang bei dem die Schwächen probabilistischer Sicherheitsanalysen deutlich zum Vorschein kam, war der in Forsmark (Schweden) 2006. Siehe dazu den Wikipedia Artikel http://de.wikipedia.org/wiki/Kernkraftwerk_Forsmark#cite_note-4 und insbesondere
Punkt 5.6 in der Referenz 6.
17
b) Die Forderung P (A1 \
\ An ) = P (A1 ) P (An ) allein ist keine befriedigende
De…nition der Unabhängigkeit (für n 3), denn damit wäre die Eigenschaft 2.9.
nicht erfüllt. Dazu ein Beispiel: Es seien = f1; 2g und p(1) = p(2) = 1=2 sowie
A1 = f1g, A2 = f2g und A3 = ;. Dann gilt P (A1 \ A2 \ A3 ) = P (;) = 0 =
P (A1 )P (A2 )P (A3 ), aber natürlich ist P (A1 \ A2 ) 6= P (A1 )P (A2 ).
c) Paarweise Unabhängigkeit, d.h. P (Ai \ Aj ) = P (Ai )P (Aj ) für i 6= j, impliziert nicht Unabhängigkeit. Wieder ein künstliches Beispiel dazu: Es seien
=
f1; 2; 3; 4g und p(i) = 1=4 für jedes i 2
sowie A1 = f1; 2g, A2 = f2; 3g und
A3 = f3; 1g. Dann ist P (A1 \ A2 \ A3 ) = 0 6= P (A1 )P (A2 )P (A3 ); jedoch sind
A1 ; A2 ; A3 paarweise unabhängig. Man muss allerdings bemerken, dass für viele
wichtige Eigenschaften, z.B. das Gesetz der grossen Zahlen, das wir später diskutieren werden, eigentlich nur die paarweise Unabhängigkeit benötigt wird.
d) Die Ausdrucksweise “Die Ereignisse A1 ; : : : ; An sind unabhängig”, die auch hier
verwendet wird, ist nicht ganz genau und führt in gewissen Situation zu Missverständnissen. Unabhängigkeit ist keine Eigenschaft von Mengen von Ereignissen,
sondern eine Eigenschaft von n-Tupeln von Ereignissen, die allerdings nicht von
der Reihenfolge dieser Ereignisse im Tupel abhängt. Für ein Ereignis A ist das 1Tupel (A) nach unserer De…nition stets unabhängig, das Paar (A; A) jedoch nicht.
(A; A) ist genau dann unabhängig, wenn P (A) = P (A \ A) = P (A)P (A), d.h.
P (A) 2 f0; 1g gilt.
Zur bequemen Formulierung des nachfolgenden Ergebnisses führen wir die Bezeichnung A1 := A für A
ein, Ac ist wie üblich das Komplement.
Lemma 2.10
Die Ereignisse A1 ; : : : ; An sind genau dann unabhängig, wenn für alle (k1 ; : : : ; kn ) 2
f1; cgn
n
\n
Y
k
k
P
Aj j =
P (Aj j )
(2.2)
j=1
j=1
gilt. Hierbei ist f1; cgn die Menge der n-Tupel mit den Komponenten 1 und c.
Beweis. (I) Unter der Voraussetzung der Unabhängigkeit zeigen wir die obige Gleichung
mit Induktion nach n:
n = 1 ist trivial.
Induktionsschluss n ! n + 1: Die Ereignisse A1 ; : : : ; An+1 seien unabhängig. Wir
beweisen die obige Gleichung (für n + 1) mit Induktion nach der Anzahl m der Komplementzeichen in (k1 ; : : : ; kn+1 ). Für m = 0 folgt sie aus der Unabhängigkeit. Induktionsschluss m ! m + 1 für 0
m < n + 1: Es seien m + 1
1 Komplementzeichen in
(k1 ; : : : ; kn+1 ). Durch Permutation der Ereignisse können wir annehmen, dass kn+1 = c
ist.
\n+1 kj
\n
\n
\n
k
k
k
P
Aj = P
Aj j \ Acn+1 = P
Aj j
P
Aj j \ An+1 :
j=1
j=1
j=1
18
j=1
Q
k
Der erste Summand ist nach der Induktionsvoraussetzung an n gleich nj=1 P (Aj j ), der
Qn
kj
zweite nach der Induktionsvoraussetzung an m gleich
j=1 P (Aj ) P (An+1 ). Damit
folgt, wie gewünscht,
n+1
\n+1 kj
Y
k
Aj =
P
P (Aj j ):
j=1
j=1
(II) Wir zeigen die Umkehrung: (2.2) gelte für alle (k1 ; : : : ; kn ) 2 f1; cgn . Wir zeigen
die Unabhängigkeit von A1 ; : : : ; An .
Sei fi1 ; : : : ; ik g
f1; : : : ; ng und fj1 ; : : : ; jm g sei das Komplement dieser Menge in
\ Aik als Vereinigung paarweise disjunkter Mengen
f1; : : : ; ng. Dann lässt sich Ai1 \
wie folgt schreiben:
[
m
:
\ Akjm
\ Aik \ Akj11 \
Ai1 \
(k1 ;:::;km )2f1;cgm
Die Wahrscheinlichkeit davon ist nach unserer Voraussetzung gleich
X
m
P (Ai1 ) P (Aik )P (Akj11 ) P (Akjm
) = P (Ai1 )
(k1 ;:::;km
P (Aik ):
)2f1;cgm
Die Notationen mögen etwas verwirren. Schreiben Sie die Argumente für n = 2 und
n = 3 aus; dann wird der Beweisgang klar. Der Vorteil in der Formulierung des Lemmas besteht darin, dass man immer mit allen Ereignissen arbeitet, dass man also nicht
Eigenschaften von Teilsätzen der Ereignisse betrachten muss wie in der ursprünglichen
De…nition. Ein unmittelbare Folgerung des Lemmas ist das folgende Ergebnis:
Korollar 2.11
Sind die Ereignisse A1 ; : : : ; An unabhängig, so sind für jede Wahl von (k1 ; : : : ; kn ) 2
f1; cgn die Ereignisse Ak11 ; : : : ; Aknn unabhängig.
Als Beispiel betrachten wir das übliche Modell für das n-malige Werfen einer Münze
(Beispiel 1.6.1.6)Wir bezeichnen mit Bk das Ereignis, dass der k-te Wurf “Kopf” ist.
Satz 2.12
Die Ereignisse B1 ; : : : ; Bn sind unabhängig.
Beweis. Es gilt P (Bj ) = P (Bjc ) = 1=2 für alle j 2 f1; : : : ; ng. Für jedes n-Tupel
Q
k
(k1 ; : : : ; kn ) 2 f1; cgn gilt P (B1k1 \
\ Bnkn ) = 2 n = nj=1 P (Bj j ). Nach Lemma 2.10
sind B1 ; : : : ; Bn unabhängig.
Unabhängigkeit hängt eng mit sogenannten Produkträumenzusammen. Es seien ( 1 ; p1 ); : : : ;
( n ; pn ) diskrete Wahrscheinlichkeitsräume. Wir konstruieren daraus einen neuen Wahrscheinlichkeitsraum ( ; p) mit
= 1
n . Für jedes !
P= (! 1 ; : : : ; ! n ) 2
de…nieren wir p(!) = p1 (! 1 )p2 (! 2 ) pn (! n ). O¤ensichtlich gilt !2 p(!) = 1.
19
De…nition 2.13
( ; p) heisst der ProduktraumNder Wahrscheinlichkeitsräume ( i ; pi ), 1 i n. Wir
n
schreiben dafür auch ( ; p) =
i=1 ( i ; pi ): (Das hat nichts mit Tensorprodukten zu
tun).
Zu A
i
de…nieren wir das Ereignis A(i) = f(! 1 ; : : : ; ! n ) 2
: ! i 2 Ag
.
Satz 2.14
(1)
(n)
Sind Ai
i n, so sind die Ereignisse A1 ; : : : ; An im Wahrscheinlichkeitsi für 1
raum ( ; p) unabhängig.
c(i)
(i)c
: ! i 2 Aci g = Ai . Die 2n Gleichungen in Lemma 2.10
Beweis. Es gilt Ai = f! 2
sind also nachgewiesen, wenn
(1)
P A1 \
für alle möglichen Ai
X
(1)
(n)
!2A1 \ \An
i,
(1)
\ A(n)
= P (A1 )
n
P (A(n)
n )
1
i n, gilt. Die linke Seite dieser Gleichung ist gleich
X
X
p1 (! 1 ) pn (! n )
p(!) =
=
! 1 2A1
! n 2An
n X
Y
pj (! j ) =
n
Y
X
j=1 !2A(j)
j=1 ! j 2Aj
j
p(!) =
n
Y
(j)
P (Aj ):
j=1
Der Produktraum liefert somit ein Modell für eine unabhängige Hintereinanderreihung von n einzelnen Zufallsexperimenten. O¤enbar ist unser Modell für einen nfachen Münzwurf das n-fache Produkt des Wahrscheinlichkeitsraumes für einen Münzwurf.
Wir können das gleich etwas verallgemeinern: Zunächst betrachten wir ein Zufallsexperiment mit zwei möglichen Ausgängen, die wir mit E (für “Erfolg”) und M (für “Misserfolg”) bezeichnen. Man denke etwa an ein Spiel, das darin besteht, eine Münze zu werfen,
und bei dem der eine Spieler eine Einheit gewinnt, wenn “Kopf” fällt. Wir wollen nicht
voraussetzen, dass E und M gleich wahrscheinlich sind. Der Wahrscheinlichkeitsraum
ist also die zweielementige Menge fE; M g mit den entsprechenden Wahrscheinlichkeiten.
Wir setzen p := p (E) ; sodass p (M ) = 1 p ist.
Der n-fache Produktraum, das Modell für die unabhängige, n-malige Repetition des
Spiels, ist also der Wahrscheinlichkeitsraum
= fE; M gn , d.h. die Menge der E-M Folgen der Länge n. Die Wahrscheinlichkeiten der Elementarereignisse ! = (! 1 ; : : : ; ! n ) 2
sind gegeben durch p(!) = pk (1 p)n k , wobei k die Anzahl der E’s in der Folge
! 1 ; : : : ; ! n bezeichnet.
De…nition 2.15
Das durch diesen Wahrscheinlichkeitsraum beschriebene Zufallsexperiment heisst BernoulliExperiment der Länge n mit “Erfolgswahrscheinlichkeit” p.
20
Wir wollen die Wahrscheinlichkeit von einigen besonders wichtigen Ereignissen im
Bernoulli-Experiment berechnen. Für k 2 f0; 1; : : : ; ng sei Ak das Ereignis, dass insgesamt k Erfolge eintreten. In unserer Beschreibung des Bernoulli-Experiments enthält Ak
diejenigen Elementarereignisse, in denen k mal E vorkommt. Davon gibt es so viele, wie
es Möglichkeiten gibt, die k erfolgreich ausgegangenen Experimente auszuwählen, also
n
k
p)n k . Somit ist P (Ak ) = nk pk (1 p)n k .
k . Jedes hat Wahrscheinlichkeit p (1
Diese Wahrscheinlichkeit kürzt man meist mit b(k; n; p) ab. Die b(k; n; p) sind erwartungsgemäss am grössten, wenn k in der Nähe von np liegt. Für grosses n sind sie jedoch
p
klein (höchstens von der Grössenordnung 1= n). Eine ausführliche Analyse der Grössen
b(k; n; p) wird später gegeben werden.
Beispiel 2.16
Ein Würfel wird n-mal geworfen. Die Wahrscheinlichkeit dafür, dass k-mal die Sechs
erscheint, ist b(k; n; 1=6).
Eine grosse Klasse von Beispielen nennt man Urnenmodelle:
Beispiele 2.17
1. Ziehung mit Zurücklegen
Eine Schachtel (Urne) enthält r rote und s schwarze Kugeln. Es werden n Kugeln
nacheinander zufällig entnommen. Dabei wird jede sofort wieder zurückgelegt und
die Schachtel neu gemischt. Die Elementarereignisse seien die Rot-Schwarz-Folgen
der Länge n. Es scheint klar, dass unter idealen Bedingungen die einzelnen Ziehungen unabhängig sind, dass dies also ein Bernoulli-Experiment der Länge n mit
r
Erfolgswahrscheinlichkeit p = r+s
ist.
Man kann sich das auch wie folgt überlegen: Wir denken uns die einzelnen Kugeln
wieder von 1 bis r + s durchnumeriert; 1 bis r sind rot, r + 1 bis r + s schwarz.
In der Beschreibung des Wahrscheinlichkeitsraums unterscheiden wir nun zwischen
den einzelnen Kugeln, d.h. = f1; : : : ; r + sgn . Die Elementarereignisse sind also
die Folgen ! = (! 1 ; : : : ; ! n ) mit ! k 2 f1; : : : ; r + sg. Unter idealen Bedingungen
sind diese Elementarereignisse alle gleich wahrscheinlich, haben also die Wahrscheinlichkeit (r + s) n . Das Ereignis einer speziellen Rot-Schwarz-Folge ist hier
kein Elementarereignis; man kann die Anzahl der Elementarereignisse darin jedoch
leicht abzählen: Eine spezielle Rot-Schwarz-Folge mit k-mal Rot und (n k)-mal
Schwarz wird durch rk sn k Elementarereignisse repräsentiert, hat also die Wahrk
n k
r
s
scheinlichkeit r+s
. Die Wahrscheinlichkeit des Ereignisses Ak , genau
r+s
k-mal Rot zu ziehen, ist somit
P (Ak ) =
n
k
r
r+s
2. Ziehung ohne Zurücklegen
21
k
s
r+s
n k
:
Wir betrachten dieselbe Situation mit dem Unterschied, dass die gezogenen Kugeln
nicht wieder zurückgelegt werden. Es muss nun natürlich n r + s sein. Die einzelnen Ziehungen sind nicht mehr unabhängig, da ihr Ausgang die Zusammensetzung
der Schachtel und damit die nachfolgenden Ziehungen beein‡usst.
Sei Ak wieder das Ereignis, dass k rote Kugeln gezogen werden. Wir setzen voraus,
dass 0 k r und 0 n k s gilt, sonst ist Ak das unmögliche Ereignis. Um
P (Ak ) zu bestimmen, muss ein geeigneter Wahrscheinlichkeitsraum festgelegt werden. Als Elementarereignis betrachten wir die Menge der n-elementigen Teilmengen
der r + s Kugeln. Wie viele darunter gehören zu Ak ? Es gibt kr Möglichkeiten, die
k Kugeln aus den roten auszuwählen, und n s k Möglichkeiten für die schwarzen
Kugeln, also enthält Ak genau kr n s k Elementarereignisse. Es gilt also
P (Ak ) =
r
k
s
n k
r+s
n
;
o¤ensichtlich ein anderer Wert als im Modell mit Zurücklegen. Man nennt dies
auch die hypergeometrische Wahrscheinlichkeitsverteilung.
In unserem Wahrscheinlichkeitsraum können wir jedoch das Ereignis, dass die erste Kugel rot ist, nicht betrachten, denn wir unterscheiden die Reihenfolge der
Ziehungen nicht. Um dieses Ereignis zu untersuchen, brauchen wir einen anderen,
grösseren Wahrscheinlichkeitsraum. Wir betrachten dazu analog wie beim Modell
mit Zurücklegen die Menge 0 der Folgen ! = (! 1 ; ! 2 ; : : : ; ! n ) mit 1 ! i r + s
aber mit der Einschränkung ! i 6= ! j für i 6= j. Dann bedeutet 1 ! i
r, dass
0
die i-te Kugel rot ist, r + 1 ! i r + s, dass sie schwarz ist.
enthält o¤enbar
(r + s)(r + s 1) (r + s n + 1) Elemente. Betrachtet man diese Elementarereignisse als gleich wahrscheinlich, so hat unser obiges Ereignis Ak (entsprechend als
Teilmenge von 0 formuliert) dieselbe Wahrscheinlichkeit wie oben (nachprüfen!).
Im Gegensatz zu der Situation in können wir nun jedoch die einzelnen Ziehungen
unterscheiden. Sei Ri das Ereignis, dass die i-te Kugel rot ist. Jedes der Ri enthält
gleich viele Elementarereignisse, nämlich r(r + s 1)(r + s 2) (r + s n + 1).
Somit ist P (Ri ) = r=(r + s) der gleiche Wert wie beim Modell mit Zurücklegen.
Dennoch sind die Wahrscheinlichkeiten für Ak in beiden Modellen verschieden.
Dies liegt daran, dass hier R1 ; : : : ; Rn abhängig sind: Das Ereignis R1 \ R2 enthält
r(r 1)(r + s 2) (r + s n + 1) Elementarereignisse und somit ist
P (R1 \ R2 ) =
r(r 1)
(r + s)(r + s
1)
6= P (R1 )P (R2 );
der Unterschied ist aber klein, sofern r und s gross sind. Dies ist plausibel, denn
wenn die Gesamtzahl r + s der Kugeln sehr gross ist, so beein‡ussen sich die
einzelnen Ziehungen wenig. P (Ak ) kann in der Tat durch die Wahrscheinlichkeit
der Binominalverteilung b(k; n; p) mit p = r=(r + s) angenähert werden, sofern
22
n = r + s gross ist. Genauer:
lim
r
k
r;s!1
r=(r+s)!p
s
n k
r+s
n
=
n k
p (1
k
p)n
k
:
(2.3)
Der Beweis ist sehr einfach: Die Grössen auf der linken Seite sind gleich
n!
r(r 1) (r k + 1)s(s 1) (s n + k + 1)
k!(n k)!
(r + s)(r + s 1) (r + s n + 1)
n k
r
!
p (1 p)n k f u
•r r; s ! 1,
! p:
r+s
k
Als Anwendung von Satz 2.5 betrachten wir im Beispiel 2.4 das in der Praxis wichtige Problem, die bedingte Wahrscheinlichkeit für eine richtige Übertragung, gegeben
das empfangene Zeichen, etwa P (S1 jE1 ) zu berechnen. Das lässt sich zunächst mittels
P (S1 jE1 ) = P (S1 \ E1 )=P (E1 ) umschreiben. Per De…nition gilt
P (S1 \ E1 ) = P (E1 jS1 )P (S1 ) = (1
f1 )P (S1 ):
Nach Satz 2.5 gilt
P (E1 ) = P (E1 jS1 )P (S1 ) + P (E1 jS0 )P (S0 ) = (1
also
P (S1 jE1 ) =
(1
f1 )P (S1 ) + f0 P (S0 );
(1 f1 )P (S1 )
:
f1 )P (S1 ) + f0 P (S0 )
Das obige Beispiel ist ein Spezialfall der sogenannten Bayes-Formel:
Satz 2.18
Unter den Voraussetzungen von Satz 2.5 und P (A) > 0 gilt
P (AjBi )P (Bi )
P (Bi jA) = Pn
:
j=1 P (AjBj )P (Bj )
Beweis.
P (Bi jA) =
P (Bi \ A)
P (AjBi )P (Bi )
P (AjBi )P (Bi )
=
= Pn
P (A)
P (A)
j=1 P (AjBj )P (Bj )
nach Satz 2.5.
Die Formel ist nach Thomas Bayes (1702-1761) benannt, einem englischen Pastor
mit mathematischen Neigungen. Die P (Bi ) nennt man oft die “a priori” Wahrscheinlichkeiten und P (A) die “a posteriori” Wahrscheinlichkeit. Die Formel beschreibt, wie
man die “a priori” Wahrscheinlichkeiten aufgrund des eingetretenen “a posteriori” Ereignisses modi…zieren muss. Die Formel ist natürlich völlig trivial; ihre Interpretation
hat jedoch schon zu Zeiten von Bayes Kontroversen ausgelöst, zum Teil die immer noch
23
andauern. Sie spielt vor allem in der Theorie “subjektiver Wahrscheinlichkeiten” eine
grosse Rolle (siehe Appendix 1.A). Die P (Bi ) sind dann die subjektiven Wahrscheinlichkeiten, die eine Person bestimmten Ereignissen zuordnet. Wir nehmen weiter an,
dass die bedingten Wahrscheinlichkeiten P (AjBi ) mit der das “a posteriori” Ereignis A
eintritt, bekannt sind. Tritt dann das Ereignis tatsächlich ein, so soll unsere Person ihre
subjektiven Wahrscheinlichkeiten gemäss der Bayes-Formel ändern.3
Thomas Bayes
Unabhängig von den mehr philosophischen Interpretationen spielt die Bayes-Formel
in vielen Bereichen eine grosse Rolle. Wir betrachten eine typische Anwendung: Wir
nehmen an, eine Person werde mit einem Bluttest auf eine seltene Krankheit untersucht.
Der Test sei nicht absolut zuverlässig: Kranke Personen werden mit Wahrscheinlichkeit
0.8 entdeckt; der Test falle jedoch bei Gesunden mit Wahrscheinlichkeit 0.1 positiv aus.
Das Problem ist genau das gleiche wie bei den in einer Leitung übertragenen Signalen:
Wir deklarieren 0 als “gesund” und 1 als “krank”. Dann ist also f0 = 0:1, f1 = 0:2. Mit
welcher Wahrscheinlichkeit ist nun jemand mit “positivem” Testausgang krank? Das
hängt von der relativen Häu…gkeit der Krankheit ab, das heisst von p := P (S1 ). Die
Bayes-Formel ergibt
P ( krank j Test positiv ) =
0:8 p
0:8 p + 0:1 (1
p)
:
Für p = 0:01 ist das 0; 075.
Derartige Betrachtungen spielen in automatisierten Expertensystemen (natürlich in
viel komplizierteren Situationen) eine grosse Rolle.
3
In Experimenten hat man jedoch gesehen, dass sie das in der Regel nicht machen.
24
3
Masstheoretische Grundlagen und Ergänzungen
Nachfolgend wird eine Zusammenstellung der für die Wahrscheinlichkeitstheorie wichtigsten Begri¤e und Sätze aus der Mass- und Integrationstheorie gegeben. Für ausführliche Darstellungen sind die folgenden Bücher empfehlenswert:
H. Bauer: Mass- und Integrationstheorie, de Gruyter 1990
D. L. Cohn: Measure Theory, Birkhäuser 1980
Verweise in diesem Kapitel beziehen sich auf das Buch von Bauer.
3.1
Masse und Erweiterungen
De…nition 3.1
Sei eine Menge. Eine nichtleere Familie F von Teilmengen von
, falls
(i)
heisst Algebra auf
2 F;
(ii) A 2 F =) Ac 2 F;
(iii) A; B 2 F =) A [ B 2 F:
F heisst -Algebra, wenn (i) und (ii) gelten und anstelle von (iii):
(iii’) Ist fAn gn2N eine abzählbare Folge, An 2 F, so gilt
S1
n=1 An
2 F.
c . Per Induktion folgt sofort, A ; : : : ; A
2 F =)
1
n T
Sn Jede Algebra enthält ; =
Ai 2 F; wenn F eine Algebra ist. Ferner gilt A1 ; : : : ; An 2 F =) ni=1 Ai =
Si=1
n
( i=1 Aci )c 2 F:
Jede -Algebra ist o¤ensichtlich auch eine Algebra. Eine -Algebra ist auch abgeschlossen gegenüber abzählbaren Durschnitten.
Wir verwenden unten die folgende
Notation. Ist eine Menge, deren Elemente selbst
T
Mengen sind, so schreiben wir
für den Durchschnitt der Mengen in :
\
:= fx : x 2 A; 8A 2 g ;
und analog
Also z.B.
[
[
:= fx : 9A 2
mit x 2 Ag :
fA1 ; A2 ; : : : ; An g =
Lemma 3.2
a) Ist eine beliebige Menge von Algebren in
25
n
[
Ai :
i=1
; so ist
T
eine Algebra.
b) Ist
eine beliebige Menge von -Algebren in
; so ist
T
eine -Algebra.
Beweis. Wir zeigen a). b) wird analog bewiesen. Die Elemente
T von sind Algebren
in
und somit gilt
2
A
für
alle
A
2
:
Somit
folgt
2
: Dies beweist (i) der
T
De…nition. (ii):Ist A 2 T ; so ist A 2 A für T
alle A 2 : Damit folgt Ac 2 A für alle
c
A 2 und mithin A 2
: (iii) Sind A; B 2
; so T
sind A; B 2 A für alle A 2 und
somit A [ B 2 A für alle A 2 ; woraus sich A [ B 2
ergibt.
Beispiele 3.3
a) f;; g ist eine -Algebra. Das ist quasi die einfachste -Algebra. Die „zweiteinfachste“ besteht aus 4 Mengen f;; A; Ac ; g, wobei A eine beliebige nicht leere echte
Teilmenge von
ist. (Wir setzen hier voraus, dass
mehr als ein Element enthält.) Endliche -Algebren haben stets die folgende Struktur: Sei eine beliebige
Menge (mit 2 oder mehr Elementen, kann auch unendlich sein) und S
fZ1 ; : : : ; Zn g
sei eine Zerlegung von ; d.h. Zi
; Zi \ Zj = ;; für i 6= j und ni=1 Zi = :
; zusammen mit den Vereinigungen von Z-Mengen bilden eine -Algebra auf :
Der Leser möge sich als Übungsaufgabe überlegen, dass jede endliche -Algebra
auf diese Weise zustande kommt.
b) Die Potenzmenge von
; die wir mit P ( ) bezeichnen, ist eine -Algebra:
c) Sei = R: Wir betrachten die Menge J der links o¤enen, rechts abgeschlossenen
Intervalle (inklusive R und der leeren Menge):
J := f;; Rg [ f(a; b] :
1 < a < b < 1g [ f( 1; b] : b 2 Rg [ f(a; 1) : a 2 Rg :
(3.1)
A sei die Menge aller endlichen Vereinigungen paarweise disjunkter dieser Intervalle. Man überlegt sich leicht, dass A eine Algebra aber keine -Algebra ist.
d) Sei
= R und F die Menge der Teilmengen von R; welche entweder abzählbar
oder deren Komplement abzählbar ist. Dieses Mengensystem ist eine -Algebra.
Bemerkung 3.4
Im Gegensatz zu Durchsnitten brauchen Vereinigungen von -Algebren (oder Algebren)
keine -Algebren (bzw. Algebren) zu sein. Hier ein einfaches Beispiel: F = f;; A; Ac ; g,
G = f;; B; B c ; g mit ; $ A; B $ ; A 6= B; A 6= B c sind -Algebren (und Algebren),
aber F [ G ist keine Algebra.
Proposition 3.5
Zu jedem Mengensystem C in
gibt es eine kleinste Algebra a(C) und eine kleinste
-Algebra (C), die C enthalten, d.h. a(C) hat die folgenden Eigenschaften:
a) a(C) ist eine Algebra,
b) a(C)
C,
c) Ist A eine Algebra mit A
C so gilt A
26
a (C) :
Entsprechende Aussagen gelten für
(C) :
Beweis. Wir diskutieren den Fall von a (C) : Es gibt mindestens eine Algebra, die C
enthält, nämlich die Potenzmenge P ( ) :
\
a (C) :=
fA : A Algebra; A Cg
ist nach Lemma 3.2 eine Algebra und erfüllt o¤ensichtlich a) und b). Analog konstruiert
man (C) :
Ist F eine -Algebra, so nennt man ein Mengensystem C mit F = (C) ein Erzeugendensystem von F: In der Regel haben die uns interessierenden -Algebren viele
Erzeugendensysteme.
T Ist fAi gi2I eine beliebige Familie von -Algebren auf derselben
S Menge , so ist
A
nach
Lemma
3.2
wieder
eine
-Algebra.
Die
Vereinigung
i
i2I
W
S i2I Ai ist jedoch im
allgemeinen keine -Algebra. Mit i2I Ai wird die -Algebra ( i2I Ai ) bezeichnet. Im
Fall I = f1; : : : ; ng ist auch die Schreibweise A1 _
_ An gebräuchlich.
Es ist häu…g wichtig, Erzeugendensysteme mit speziellen Eigenschaften zu verwenden. Von besonderer Bedeutung in der Wahrscheinlichkeitstheorie sind durchschnittstabile Erzeugendensysteme. (Eine Familie A von Teilmengen von heisst durchschnittstabil, falls A; B 2 A ) A \ B 2 A.). In diesem Zusammenhang sind Mengensysteme
wichtig, die etwas allgemeiner als die -Algebren sind:
De…nition 3.6
Eine Familie D von Teilmengen von
dingungen erfüllt sind:
D1
heisst Dynkin-System, falls die folgenden Be-
2D
D2 D 2 D ) Dc 2 D
D3 Für jede Folge fDn gn2N von paarweise disjunkten Mengen aus D, ist
ebenfalls in D.
S1
n=1 Dn
Aus D1 und D2 folgt, dass auch ; 2 D gilt. Aus D3 folgt daher auch, dass D
abgeschlossen gegenüber Vereinigungsbildung von endlich vielen paarweise disjunkten
Mengen ist.
Ist C
P( ), so gibt es analog wie bei den Algebren und -Algebren ein kleinstes
Dynkin-System d(C), das C enthält.
Der springende Punkt ist, dass für Dynkin-Systeme nur die Abgeschlossenheit des Systems gegenüber Vereinigungen paarweise disjunkter Folgen von Mengen verlangt wird.
Dies gestattet es oft, von gewissen Mengensystemen nachzuweisen, dass sie Dynkin sind,
wohingegen ein (direkter) Nachweis, dass es sich um eine -Algebra handelt, schwierig
ist. Wir werden bald Beispiele dazu kennenlernen.
Jede -Algebra ist natürlich ein Dynkin-System, die Umkehrung gilt jedoch nicht:
Man kann leicht Dynkin-Systeme angeben, die keine -Algebren sind (siehe Übungen).
Es gilt jedoch:
27
Lemma 3.7
Ist ein Dynkin-System durchschnittsstabil, so ist es eine -Algebra.
Beweis. Sei D ein durchschnittstabiles Dynkin-System. Wir müssen nur zeigen, dass D
abgeschlossen gegenüber abzählbaren Vereinigungen ist.
Sei fAi gi2N eine Folge von Elementen in D. Wir de…nieren die Folge fBn gn2N durch
B1 := A1 ;
Bn := An n (A1 [
[ An
1 );
Wir zeigen mit Induktion nach n, dass Bn und A1 [
ist nichts zu zeigen.
Sei n 2. Bn lässt sich wie folgt darstellen:
Bn = An \ ((A1 [
[ An
n
2:
[ An zu D gehören. Für n = 1
c
1) ) :
Per Induktionsvorraussetzung ist A1 [ [ An 1 in D und somit auch das Komplement.
Da D als durchschnittstabil vorausgesetzt ist, folgt Bn 2 D. A1 [ [ An 1 und Bn sind
disjunkt, und es gilt A1 [ [ An = (A1 [ [ An 1 ) [ Bn . Nach der Dynkin-Eigenschaft
gilt dann A1 [
[ An 2 D. Wir haben somit gezeigt, dass alle Bn in D liegen. Die Bn
sind jedoch paarweise disjunkt, und es gilt
[
[
An =
Bn :
n2N
Somit folgt
S
n2N An
n2N
2 D.
Satz 3.8
Ist C ein durchschnittstabiles Mengensystem, so gilt d(C) = (C).
Beweis. Da jede -Algebra auch ein Dynkin-System ist, folgt d(C)
(C). Um Gleichheit nachzuweisen, müssen wir daher nur noch zeigen, dass d(C) eine -Algebra ist.
Gemäss Lemma 3.7 genügt es zu zeigen, dass d(C) durchschnittstabil ist. Wir de…nieren
A := f A
: A \ C 2 d(C) 8C 2 C g:
Da C als durchschnittstabil vorausgesetzt war, folgt A C.
Wir zeigen nun, dass A die Dynkin-Eigenschaften hat, indem wir die drei Eigenschaften in der De…nition 3.6 nachweisen:
D1 klar.
D2 A 2 A ) A \ C 2 d(C) 8C 2 C ) Ac \ C = (C c [ (A \ C))c 2 d(C) 8 C 2 C )
Ac 2 A. (Beachte: C c und A \ C sind disjunkt!)
D3 AS
Wegen An \ C 2 d(C) 8 C 2 C folgt
n 2 A, n 2 N, seien paarweise disjunkt.
S
A
\
C
2
d(C)
8
C
2
C,
d.h.
A
n2N n 2 A.
n2N n
28
Somit ist gezeigt, dass A ein Dynkin-System ist, also gilt A d(C). Wir de…nieren
nun
A := f A
: A \ A0 2 d(C) für alle A0 2 d(C) g:
Nach dem vorangegangenen Schritt gilt A C. Man zeigt nun genau gleich wie oben für
A, dass A Dynkin ist. Somit folgt A d(C). Dies besagt jedoch nichts anderes, als dass
d(C) durchschnittstabil ist.
De…nition 3.9
Ein Inhalt auf einer Algebra A ist eine Abbildung von A ! [0; 1] mit den Eigenschaften (;) = 0 und (A [ B) = (A) + (B) für alle A; B 2 A mit A \ B = ;.
Ein InhaltS heisst -endlich, falls eine Folge fAn gn2N von Mengen aus A existiert,
für die
= 1
heisst endlich falls
n=1 An und (An ) < 1 für alle n 2 N gelten.
( ) < 1 gilt.
Ein Inhalt heisst S-additiv, falls für jede Folge fAn gn2N von paarweise disjunkten
Mengen aus A, für die 1
n=1 An 2 A gilt,
[1
n=1
An =
1
X
(An )
n=1
erfüllt ist. (Ein -additiver Inhalt heisst auch Prämass.)
Ein -additiver Inhalt, der auf einer -Algebra de…niert ist, heisst Mass. Ein Mass
mit ( ) = 1 heisst ein Wahrscheinlichkeitsmass.
Konvention: Es werden im folgenden nur -endliche Inhalte und Masse betrachtet; dies
wird stets stillschweigend vorausgesetzt.
Es sind hier einige Bemerkungen angebracht: Der entscheidende Aufgabe ist die Konstruktion von Massen auf geeigneten -Algebren. Eine der Schwierigkeiten dabei ist es,
dass man die Mengen in -Algebren in der Regel nicht direkt beschreiben kann. Eine
direkte konkrete Beschreibung dieser Masse ist daher in der Regel nicht möglich. Die
von uns anvisierten -Algebren besitzen jedoch konkrete Erzeugendensysteme, die Algebren sind. Man versucht daher, die gewünschten Masse auf diesen Erzeugendensysteme
zu konstruieren und zwar in der Form von Prämassen. Nur mit den Prämassen zu arbeiten ist jedoch nicht ausreichend, denn Algebren sind nicht abgeschlossen gegenüber
abzählbaren Mengenoperationen. Wir benötigen deshalb einen Satz, der es uns erlaubt,
Prämasse auf Algebren zu Massen auf den erzeugten -Algebren hochzuziehen. Dies ist
der Erweiterungsatz von Caratheodory.
Lemma 3.10
Sei ein Inhalt auf einer Algebra A. Dann gelten die folgenden Eigenschaften:
a)
ist monoton, das heisst für A
B gilt (A)
b)
ist endlich additiv, d.h. sind A1 ; : : : ; An 2 A paarweise disjunkt, so gilt
[n
i=1
Ai =
n
X
i=1
29
(B).
(Ai ) :
c)
ist endlich subadditiv, d.h. sind A1 ; : : : ; An 2 A, so gilt
[n
i=1
n
X
Ai
(Ai ) :
i=1
Beweis. a) folgt aus (A) = (B) + (AnB) : b) folgt sofort mit Induktion nach n: c):
folgt ebenfalls mit Induktion nach n und mit a):
h[n 1 i h
[n 1 i
[n
Ai
Ai [ An
Ai =
i=1
i=1
i=1
und die beiden Mengen in eckigen Klammern sind disjunkt. Also folgt
[n
i=1
Ai
[n
=
1
i=1
[n 1
i=1
Ai +
An
Ai + (An ) ;
[n
1
i=1
Ai
die Ungleichung nach a). Nun einfach Induktion nach n:
Satz 3.11
Es seien ein Mass auf der -Algebra F. Dann gelten die folgenden Eigenschaften:
T
a) Sei An ; n 2 N eine fallende Folge von Mengen in F; und A := n An : (Wir
schreiben dafür auch An # A): Falls ein n existiert mit (An ) < 1 so gilt
(A) = limn!1 (An ).
S
b) Sei An ; n 2 N eine ansteigende Folge von Mengen in F; und A := n An : (Wir
schreiben dafür auch An " A): Dann gilt (A) = limn!1 (An ).
c) Für eine beliebige Folge An 2 F; n 2 N gilt
[1
n=1
1
X
An
(An ):
n=1
Beweis. Wir zeigen b) und c) und überlassen a) dem Leser als Übungsaufgabe. Gilt
An " A; so de…nieren wir B1 := A1 ; und Bn := An nAn 1 für n 2: Dann sind die Bn
paarweise disjunkt und
[1
A=
Bn :
n=1
Wegen der -Additivität folgt
(A) =
1
X
(Bn ) = lim
N !1
n=1
=
lim
N !1
[N
n=1
30
Bn
N
X
(Bn )
n=1
= lim
N !1
(AN ) :
c): Nach b) folgt
[1
n=1
Nach Lemma 3.10 ist
[N
n=1
[N
An = lim
n=1
N !1
N
X
An
(An )
n=1
An :
1
X
(An )
n=1
für jedes N: Daraus ergibt sich die Behauptung.
Lemma 3.12
sei ein endlicher Inhalt auf einer Algebra A. Dann sind die folgenden zwei Bedingungen
äquivalent:
a)
ist -additiv (d.h.
ist ein Prämass).
b)
An 2 A; n 2 N, An # ; =)
(An ) # 0:
Beweis. I) Sei ein -additiver endlicher Inhalt, und sei An eine Folge wie in b). Wir
de…nieren
Bn := An n An+1 für n 2 N. Die Bn sind paarweise disjunkt, und wegen
T
A
=
;
gilt
n n
1
[
An =
Bm
m=n
für alle n 2 N. Somit gilt
(An ) =
1
X
(Bm ):
m=n
Die Summe auf der rechten Seite ist konvergent und somit folgt limn!1 (An ) = 0.
II)
erfülle
S1 b) und fBn gn2N sei eine Folge paarweise disjunkter Mengen 2 A,
mit
B
:=
2 A. Dann sind für jedes n die Mengen B1 ; : : : ; Bn ; An+1 :=
n=1 Bn S
S1
m
m=n+1 Bm = B n ( j=1 Bj ) paarweise disjunkt und in A. Wegen der endlichen Additivität von gilt
n
X
(B) =
(Bj ) + (An+1 ):
j=1
Es gilt aber An+1 # ; für n ! 1 und demzufolge (An+1 ) # 0. Somit folgt
(B) =
1
X
(Bj ):
j=1
Bemerkung: Für Inhalte, die nicht endlich aber noch -endlich sind, ist die -Additivität
äquivalent mit der Eigenschaft
An 2 A; n 2 N, An # ;; 9m mit
(Am ) < 1 =)
Der Leser möge sich das als Übungsaufgabe überlegen.
31
(An ) # 0:
Satz 3.13 (Caratheodory)
Es sei 0 ein Prämass (stets -endlich!) auf einer Algebra A. Dann gibt es genau ein
Mass auf (A), das 0 erweitert, das heisst, das auf A mit 0 übereinstimmt.
Beweisskizze. Wir beweisen den Satz nicht. Hier nur kurz die wesentlichen Schritte.
1. Man konstruiert ein sogenanntes äusseres Mass
P ( ) durch
(
X
(A) := inf
(An ) : A
n2N
auf der gesamten Potenzmenge
[
n
)
An ; An 2 A :
Das In…mum wird über alle abzählbaren Überdeckungen von A durch Mengen in
A genommen.
Man weist nach, dass
monoton und -subadditiv ist. Es ist jedoch in der Regel
kein Mass auf der Postenzmenge.
Es ist o¤ensichtlich, dass für A 2 A die Gleichung
können A mit A überdecken.
(A) =
(A) gilt, denn wir
2. Man de…niert
A := fB
:
(A) =
(A \ B) +
(AnB) ; 8B
g;
und man weist die folgenden Punkte nach:
A
A;
A ist eine -Algebra. Insbesondere gilt
ist auf A ein Mass.
(A)
A:
Die Einschränkung von
auf (A) ist damit ein Mass, welches erweitert.
Die Eindeutigkeit im Satz von Caratheodory folgt aus dem folgenden Ergebnis.
Satz 3.14
Stimmen zwei Masse
und , die auf einer -Algebra F de…niert sind, auf einem
durchschnittstabilen Erzeugendensystem D von F überein, und existiert eine Folge
und ( n ) = ( n ) < 1, so gilt = auf F. Insbesonder
n 2 D; n 2 N mit n "
stimmen zwei endliche Masse, die auf einem durchschnittstabilen Erzeugendensystem
übereinstimmen und für die ( ) = ( ) gilt, auf der erzeugten -Algebra überein.
Beweis. Wir beweisen zunächst den Spezialfall, wo ( ) = ( ) < 1 gilt. Sei F 0 =
f A 2 F : (A) = (A) g. Dann ist D F 0 , und F 0 ist ein Dynkin-System. Wir zeigen
die drei Bedingungen in der De…nition 3.6):
D1
2 F 0.
32
D2 D 2 F 0 ) (Dc ) = ( n D) = ( )
(D) = (Dc ) ) Dc 2 F 0 .
(D) = ( )
D3 Für jede Folge fDn gn2N von paarweise disjunkten Mengen aus F 0 gilt
[1
n=1
woraus
S1
n=1 Dn
Dn =
1
X
(Dn ) =
n=1
1
X
[1
(Dn ) =
n=1
n=1
Dn ;
2 F 0 folgt.
Somit folgt F 0 d(D) = (D) = F aus Satz 3.8.
Für den allgemeinen Fall betrachten wir die endlichen Masse
n (A)
= (A \
n );
n (A)
A 2 F. Nach der vorangegangenen Überlegung gilt
(A) = lim
n!1
für alle A 2 F, das heisst
(A \
n)
= lim
n!1
= (A \
n
=
(A \
n
n,
n
de…niert durch
n );
für alle n 2 N. Somit folgt
n)
= (A)
= .
De…nition 3.15
a) Ist F eine -Algebra auf einer Menge
die Mengen in F heissen messbar.
, so heisst ( ; F) messbarer Raum und
b) Ist ( ; F) ein messbarer Raum und
ein Mass auf F; so heisst ( ; F; ) ein
Massraum. Ist ( ) < 1, so heisst der Massraum endlich. Gilt ( ) = 1, so
spricht man von einem Wahrscheinlichkeitsraum, und heisst Wahrscheinlichkeitsmass. Die Mengen in F nennt man in der Wahrscheinlichkeitstheorie
Ereignisse.
De…nition 3.16
Sei ( ; F; ) ein Massraum. Eine Menge A
heisst eine -Nullmenge, wenn eine
Menge F 2 F existiert mit A F und (F ) = 0: (Man beachte, dass wir nicht verlangen,
dass A 2 F gilt). Ein Massraum heisst vollständig, wenn F alle -Nullmengen enthält.
Lemma 3.17
S
Sind Ai ; i 2 N; -Nullmengen, so ist auch i Ai eine -Nullmenge.
Beweis. Seien Bi 2 F mit Ai
und
Bi ;
[
i
(Bi ) = 0: Dann gilt natürlich
Bi
X
i
33
(Bi ) = 0:
S
i Ai
S
i Bi
2F
Bemerkung 3.18
Jeder Massraum lässt sich sehr einfach vervollständigen. Ist nämlich ( ; F; ) ein beliebiger Massraum, so betrachten wir
F := fA
: 9B 2 F; A B ist -Nullmengeg
F:
Man weist sehr einfach nach, dass F eine -Algebra ist. Ferner lässt sich auf F erweitern: Ist B 2 F; so existiert nach De…nition eine Menge A 2 F mit der Eigenschaft, dass
A B eine Nullmenge ist. Wir setzen (B) := (A) : Natürlich muss man nachweisen,
dass die Festlegung nicht von der gewählten Menge A abhängt. Es stellt sich heraus,
dass ; F ;
ein vollständiger Massraum ist. Man nennt ihn die Vervollständigung
von ( ; F; ) : Die obigen Eigenschaften sind alle sehr einfach nachzuprüfen.
Mit vollständigen Massräumen zu arbeiten hat gewisse Vorteile. Von daher ist man
versucht, Massräume immer automatisch zu vervollständigen. Anderseits muss man bedenken, dass die vervollständigte -Algebra von dem vorliegenden Mass abhängt, was
manchmal nachteilig ist.
3.2
Beispiele von messbaren Räumen
De…nition 3.19
a) Es seien = R und sei J die Menge der rechts abgeschlossenen und links o¤enen
Intervalle (3.1). B = (J ) heisst Borel- -Algebra in R: Die Mengen in B heissen
Borelmengen.
b) Es sei = Rd und Jd sei die Menge aller “Hyperkuben” der Form I1
Id ,
d
Ij 2 J : Dann heisst Bd := (Jd ) die Borel- -Algebra in R : Die Mengen in Bd
heissen (n-dimensionale) Borelmengen.
Es sollte hier bemerkt werden, dass Borel-Mengen nicht durch irgendwelche “Eigenschaften”charakterisiert werden. Eine o¤ene Menge etwa ist durch die Eigenschaft, dass
jeder Punkt der Menge eine Umgebung in der Menge besitzt, charakterisiert. Etwas
Ähnliches ist bei Borel-Mengen nicht möglich.
Die Borel- -Algebra hat viele Erzeugendensysteme. Das obige hat den Vorteil, dass
die Menge der endlichen Vereinigungen von Mengen in J eine Algebra bilden und sämtliche Masse auf (R; B) sehr einfach durch die Einschränkungen auf diese Algebra charakterisiert werden können.4
Hier eine Reihe von anderen Erzeugendensystemen der Borel- -Algebra.
Lemma 3.20
Die folgenden Mengensysteme sind Erzeugendensysteme der Borel- -Algebra B in R :
a) f ( 1; t] : t 2 Rg:
4
Dass die Borel- -Algebra in R (oder Rd ) nicht die Potenzmenge ist, ist leider nicht ganz einfach
zu sehen. Tatsächlich hat B die Mächtigkeit des Kontinuums, d.h. B lässt sich bijektiv auf R abbilden,
während P (R) eine grössere Mächtigkeit hat, was aus der Mengenlehre bekannt sein sollte. Es gibt also
gewissermassen „sehr viel mehr“ Teilmengen von R als es Borel-Mengen gibt. Jedoch konkret eine zu
konstruieren ist nicht ganz einfach, was immer „konkret“ bedeutet.
34
b) Die Menge aller Intervalle in R:
Rd :
Die folgenden Mengensysteme sind Erzeugendensysteme der Borel- -Algebra Bd in
c) Die Menge der o¤enen Teilmengen von Rd .
d) Die Menge der abgeschlossenen Teilmengen von Rd .
e) Die Menge der kompakten Teilmengen von Rd .
Beweis. Wir führen den Beweis im Falle c). Der Nachweis, dass (C) = (C 0 ) ist, wird
stets auf die folgende Weise gemacht. Man beweist C
(C 0 ) und C 0
(C) : Daraus
0
0
ergeben sich sofort (C)
(C ) und (C )
(C) also (C) = (C 0 ) :
Sei Od die Menge der o¤enen Teilmengen von Rd :
Beweis von Od
(Jd ): Mit kxk bezeichnen wir die Euklidsche Länge eines Vektors
qP
d
d
2
x = (x1 ; : : : ; xd ) 2 R : kxk =
i=1 xi : Die folgenden Fakten sollten aus der Analysis
bekannt sein: Ist A eine abgeschlossene Teilmenge von Rd und x 2
= A; so ist
d (x; A) := inf fkx
yk : y 2 Ag > 0:
Ferner ist d (x; A) stetig als Funktion von x:
Ist nun U 2 Od ; so bezeichnen wir mit QU die Menge der Punkte in U mit rationen
Koordinaten. QU ist eine abzählbare dichte Teilmenge von U: Für q 2 QU sei
" (q; U ) :=
und
V (q; U ) :=
Yd
i=1
(qi
d (q; U c )
p
2 d
" (q; U ) ; qi + " (q; U )] 2 Jd :
Jeder Punkt x 2 V (q; U ) erfüllt jxi qi j " (q; U ) ; also
r
Xd
p
kx qk =
d" (q; U ) < d (q; U c ) ;
(qi xi )2
i=1
d.h. x 2 U: Somit gilt V (q; U )
U: Wir zeigen nun
[
U=
V (q; U ) :
q2QU
(3.2)
Sei x 2 U beliebig. Da := d (x; U c ) > 0 ist und y ! d (y; U c ) stetig als Funktion von y
ist, so existiert q 2 QU mit
kx
qk
d (q; U c ) >
35
p
4 d
=2:
Daraus ergibt sich, dass für alle Koordinaten
jxi
qi j
p <
4 d
d (q; U c )
p
= " (q; U )
2 d
gilt, dass also x 2 V (q; U ) ist. Somit ist (3.2) gezeigt und mithin Od
(Jd ) :
Beweis von Jn
(On ): Jedes Intervall in Jn kann o¤ensichtlich als Durchschnitt
von abzählbar vielen o¤enen Mengen dargestellt werden. Z.B.
(a1 ; b1 ]
(an ; bn ] =
\
m
a1 ; b1 +
1
m
an ; bn +
1
m
:
Damit ergibt sich die Behauptung.
Sind (Si ; Si ) ; i 2 I; beliebige messbare Räume,
wobei I eine beliebige Indexmenge
Q
ist, so kann man stets die Produktmenge := i2I Si mit einer Produkt- -Algebra auf
die folgende Weise versehen: Für k 2 I; A 2Sk ; sei
A(k) := x = (xi )i2I : xk 2 A :
o
n
Z := A(k) : k 2 I; A 2 Sk :
(3.3)
(3.4)
De…nition 3.21
N
(Z) nennt man
Ndie Produkt- -Algebra, und bezeichnet sie mit i2I Si : Den messbaren Raum
; i2I Si bezeichnet man als den Produktraum der (Si ; Si ) : Sind alle
(Si ; Si ) gleich: (Si ; Si ) = (S; S) ; so schreiben wir auch einfach S I ; S I für den Produktraum.
Z ist nicht durchschnittstabil. Deshalb arbeitet man oft mit dem Erzeugendensystem
D; das aus den endlichen Durchschnitten von Mengen in Z besteht. O¤ensichtlicht gilt
O
(D) = (Z) =
Si :
i2I
N
Nach Satz 3.14 stimmen zwei Wahrscheinlichkeitsmasse auf
i2I Si überein, wenn sie
auf D übereinstimmen. Diese Aussage ist für das Erzeugendensystem in der De…nition
3.21 nicht richtig: Zwei Masse, die auf Z übereinstimmen müssen nicht gleich sein. Dieser
Punkt ist in der Wahrscheinlichkeitstheorie enorm wichtig.
Ein einfaches Beispiel ist der unendliche Produktraum für den Münzwurf. Wir setzen
S := fK; Zg ; i 2 N: Für S nehmen wir natürlich die Potenzmenge auf fK; Zg : S =
P (fK; Zg) = f;; fK; Zg ; fKg ; fZgg : Der unendliche Produktraum ist dann (fK; ZgN ;
(P (fK; Zg)) N ): Man beachte, dass (P (fK; Zg)) N 6= P fK; ZgN ist, was jedoch
nicht ganz einfach einzusehen ist.
36
3.3
Beispiele von Mass- und Wahrscheinlichkeitsräumen
Die einfachsten Massräume sind diejenigen mit einer endlichen Grundmenge S; S =
P (S) : Masse sind dann einfach durch
X
(A) :=
m (x)
(3.5)
x2A
gegeben, wobei m : S ! R+ P
eine beliebige Abbildung ist. Dieser Massraum ist ein
Wahrscheinlichkeitsraum, falls x m (x) = 1 ist.
Nicht viel komplizierter sind abzählbare Massräume. Ist S abzählbar, S = P (S) ;
so ist wieder jedes Mass durch (3.5) gegeben. Das ist genau die Situation, die wir im
ersten Kapitel angetro¤en haben. Die -Algebren sind in diesem Fall belanglos.
Wir können solche diskreten Masse auch in einem beliebigen messbaren Raum de…nieren:
Beispiel 3.22 (Diskrete Masse)
Es seien eine beliebige Menge, fxi gi2I eine höchstens abzählbare Menge von verschiedenen
und ai 2 [0; 1) für alle i 2 I. Für jede -Algebra F auf
sei
PPunkten in
= i2I ai xi de…niert durch
(A) =
X
ai 1A (xi );
i2I
A 2 F:
Dies de…niert ein Mass , jedoch nicht in jedem Fall ein -endliches, wie das Beispiel
ai = 1 für alle i 2 I := N und F = f;; g mit
:= R zeigt. Falls jedoch fxi g 2 F
für jedes i 2 I gilt, so ist o¤enbar -endlich. Ein Mass dieser Gestalt heisst diskret.
Die ai heissen Gewichteauf den Punkten xi . Im Fall eines Wahrscheinlichkeitsmasses gilt
P
i2I ai = 1. Wir schreiben dieses Mass auch als
=
X
ai
xi
i2I
Ein einfacher Spezialfall ist
Anzahl der Punkte in A:
= N mit dem Zählmass
P
n n:
(A) zählt einfach die
Nun zu Massen auf (R; B) : Wir betrachten Funktionen F : R ! R mit den folgenden
Eigenschaften:
s t =) F (s) F (t)
(3.6)
F ist rechtsseitig stetig:
Wir de…nieren
F ( 1) := limt!
1F
(t) ; F (1) := limt!1 F (t) :
37
(3.7)
Ist F nach unten unbeschränkt, so setzen wir F ( 1) := 1 und analog, wenn F nach
oben unbeschränkt ist, de…nieren wir F (1) = 1 J sei die Menge der rechts abgeschlossenen, links o¤enen Intervalle gemäss (3.1). Sei a (J ) die davon erzeugte Algebra. Nach
Beispiel 3.3 c) besteht diese Algebra einfach aus den endlichen disjunkten Vereinigungen
von Intervallen in J : Für ein endliches Intervall (s; t], 1 s < t < 1 setzen wir
((s; t]) := F (t)
(was 1 ist, wenn s =
1 und F ( 1) =
F (s) ;
(3.8)
1 ist). Ferner setzen wir
((s; 1)) := F (1)
F (s) :
(3.9)
Wir können natürlich sofort auf die erzeugte Algebra a (J ) ausdehnen: Eine disjunkte
Vereinigung von Intervallen erhält als -Wert einfach die Summe der -Werte der Intervalle. Es ist S
evident, dass ein Inhalt auf a (J ) ist. O¤ensichtlich ist ein -endlicher
Inhalt: R = n ( n; n]; und (( n; n]) = F (n) F ( n) < 1:
Ein Spezialfall ist F (t) = t: In diesem Fall ist einfach die übliche Länge.
Lemma 3.23
ist ein Prämass auf a (J ) :
Beweis. Wir beweisen die Aussage zunächst im Spezialfall 1 < F ( 1) ; F (1) < 1:
Zunächst eine Vorüberlegung. Ist I 2 J und " > 0; so existiert I^ 2 J ; I^ mit
kompaktem Abschluss cl I^
I und (I)
I^ +": Für I = (s; t] existiert wegen der
Rechtsstegikeit von F ein s0 mit s < s0 < t und F (s0 ) F (s) + ": Wir setzen I^ := (s0 ; t]
der Abschluss dieses Intervalls ist cl I^ = [s0 ; t]
(s; t] und (I) = F (t) F (s)
I^ + ": Im Fall I = (s; 1) wählen wir s0 ; t0 mit s < s0 < t0 < 1
so, dass F (s0 )
F (s) + "=2; F (1)
F (t0 ) + "=2 gelten und setzen I^ := (s0 ; t0 ]:
Dieses Intervall hat ebenfalls kompakten Abschluss und erfüllt (I)
I^ + ": Im
Fall I = ( 1; t] und I = R ist die Konstruktion analog.
Sei fAn g eine Folge An 2 a (J ) mit An # ;: Wir wollen zeigen, dass limn!1 (An ) =
0 ist. Jedes An ist eine endliche Vereinigung von halbo¤enen paarweise disjunkten Intervallen:
(n)
(n)
(n)
An = I1 [ I2 [
[ Ik(n) :
F (t)
F (s0 ) + " =
(n)
mit Ij 2 J : Nach der Vorüberlegung existieren für jedes " > 0 und jedes n Intervalle
(n)
(n)
(n)
(n)
(n)
I^j 2 J mit kompakten Abschlüssen cl I^j
Ij ; sodass mit A^n := I^1 [ I^2 [
(n)
[ I^k(n) die Ungleichung
(An )
gilt. Ferner gilt natürlich cl A^n
A^n + "2
n
An und cl A^n ist kompakt.
38
Aus An # ; folgt daher
T
n2N cl
A^n
= ; und wegen der Kompaktheit folgt, dass
TN ^
^
n=1 An = ;: Wegen
n=1 cl An = ; und demzufolge
TN
eine Zahl N 2 N existiert mit
T
AN = N
n=1 An (da die A’s monoton fallen) und
\N
n=1
folgt
(AN )
[N
n=1
An n
\N
n=1
A^n
[N
n=1
N
X
An nA^n
n=1
An nA^n
An nA^n
N
X
"2
n
":
n=1
Wir haben also nachgewiesen, dass zu " > 0 ein N 2 N existiert mit (AN ) ": Damit
ist gezeigt, dass limn!1 (An ) = 0 ist. Nach Lemma 3.12 folgt, dass
-additiv ist,
also ein Prämass.
Der Fall mit F ( 1) = 1 oder F (1) = 1 erfordert nur geringe Modi…kationen.
Wir verwenden dazu die Bemerkung im Anschluss von Lemma 3.12. Ist F ( 1) = 1
und F (1) = 1; und ist Am 2 a (J ) mit (Am ) < 1; so sind alle Intervalle, aus
denen Am zusammgesetzt ist, endlich. Damit können wir dasselbe Argument wie oben
wiederholen. Die anderen Fälle folgen mit einer analogen Modi…kation des Argumentes.
Aus dem Satz von Caratheodory folgt, dass sich eindeutig zu einem Mass auf der
von J erzeugten -Algebra, d.h. der Borel- -Algebra erweitern lässt. In Falle F (t) = t
ist dies das Lebesgue-Mass auf B:5 Wenn man zu Wahrscheinlichkeitsmassen gelangen
will. muss o¤ensichtlich F (1) F ( 1) = 1 sein. Da nur die Zuwächse von F für das
Mass wichtig sind, können wir annehmen, dass
lim F (t) = 1; lim F (t) = 0
t!1
t! 1
(3.10)
De…nition 3.24
Eine Funktion F : R ! R; die (3.6), (3.7), und (3.10) erfüllt, heisst Verteilungsfunktion.
Satz 3.25
Zu jeder Verteilungsfunktion F existiert genau ein Wahrscheinlichkeitsmass
mit
(( 1; t]) = F (t) ; t 2 R:
Ist umgekehrt ein beliebiges Wahrscheinlichkeitsmass
Funktion t ! (( 1; t]) eine Verteilungsfunktion.
5
auf (R; B)
auf (R; B) gegeben, so ist die
Ist das Lebesgue-Mass auf (R; B) ; so ist die Vervollständigung von B bezüglich dieses Masses die
-Algebra der Lebesgue-messbaren Mengen. In der Vorlesung Analysis III im HS 2011 waren messbare
Mengen die Lebesgue-messbaren Mengen. Für die Wahrscheinlichkeitstheorie ist jedoch die Borel- Algebra wichtiger, denn sie hängt nicht von einem speziellen Mass ab.
39
Beweis. Wegen limt! 1 F (t) = 0 impliziert (( 1; t]) = F (t) ; t 2 R; auch (3.8)
und (3.9), wenn ein Mass sein soll. Nach Lemma 3.23 und dem Satz von Caratheodory
folgt die Existenz des Masses auf (R; B) : Die Eindeutigkeit folgt aus der Tatsache,
dass f( 1; t] : t 2 Rg ein durchschnittstabiles Erzeugendensystem von B ist.
Ist umgekehrt ein Wahrscheinlichkeitsmass auf (R; B) ; so hat die Funktion t !
F (t) := (( 1; t]) die verlangten Eigenschaften: Die Monotonie ist klar. Wir zeigen die
Rechtsstetigkeit. Wegen der Monotonie genügt es zu zeigen, dass limn!1 F (t + 1=n) =
F (t) ist. Nun ist die Folge T
( 1; t + 1=n] eine monoton fallende Folge von Teilmengen von R mit ( 1; t] = n2N ( 1; t + 1=n]: Nach Satz 3.11 folgt (( 1; t]) =
limn!1 (( 1; t + 1=n]) : Die Eigenschaften (3.10) können in gleicher Weise veri…ziert
werden.
Zum Schluss noch das Beispiel eines unendlich oft repetieren Münzwurfes. In diesem
Fall nehmen wir := fK; ZgN und F die Produkt- -Algebra.
A :=
! = (! n )n2N 2
: (! 1 ; : : : ; ! m ) 2 A : m 2 N; A
ist o¤ensichtlich eine Algebra, die F erzeugt, und wir de…nieren
(f! 2
: (! 1 ; : : : ; ! m ) 2 Ag) := 2
m
fK; Zgm
auf A durch
jAj :
Proposition 3.26
ist ein Prämass.
Ein Beweis dafür ist nicht sehr schwer. Da wir aber im Kapitel 3.7 einen allgemeineren
Satz beweisen werden, wollen wir im Moment nicht darauf eingehen. Aus der obigen
Proposition und dem Satz von Caratheodory folgt also, dass sich
auf A zu einem
eindeutigen Wahrscheinlichkeitsmass auf der Produkt- -Algebra erweitern lässt.
3.4
Messbare Abbildungen
De…nition 3.27
a) Es seien ( ; F) und ( 0 ; F 0 ) zwei messbare Räume. Eine Abbildung f von nach
0 heisst F-F 0 -messbar, falls f 1 (F 0 ) := f f 1 (A) : A 2 F 0 g
F gilt. Ist aus
dem Zusammenhang klar, welche -Algebren gemeint sind, so spricht man auch
einfach von einer messbaren Abbildung.
b) Ist ( ; F) ein messbarer Raum, so ist eine F-messbare Funktion eine Abbildung
f : ! R, die F B-messbar ist.
Manchmal ist es bequem, Funktionen zuzulassen, die Werte in R := R [ f1g [
f 1g annehmen. Eine solche Funktion nennt man manchmal eine numerische Funktion.
Obwohl dies eine ziemliche unsinnige Bezeichnung ist, wollen wir sie hier (mangels einer
besseren) ebenfalls verwenden. Auf R betrachten wir die -Algebra B, die von allen
Borelmengen in R; und f1g und f 1g erzeugt wird. Eine F-B messbare numerische
Funktion nennen wir dann einfach messbare numerische Funktion.
40
Lemma 3.28
Ist C ein Erzeugendensystem der -Algebra F 0 , so ist f genau dann F-F 0 -messbar, wenn
f 1 (C) F gilt.
Beweis. Ist f messbar, so muss selbstverständlich f
H := A 2 F 0 : f
1
1 (C)
F gelten. Umgekehrt:
(A) 2 F
ist eine -Algebra. Wir zeigen dazu die Eigenschaften der De…nition 3.1: (i) gilt wegen
c
f 1 ( 0 ) = 2 F: (ii): Ist A 2 H; so folgt
f 1 (Ac )S
= f 1 (A) 2 F und S
somit Ac 2 H.
S
1
1
(iii’): Sind A1 ; A2 ; : : : 2 H so folgt f ( n An ) = n f (An ) 2 F; also n An 2 H:
Wir sehen also, dass H eine -Algebra ist. Da nach Voraussetzung C H gilt, so folgt
(C)
H: Somit folgt, dass f 1 (A) 2 F für alle A 2 F 0 gilt, womit die Messbarkeit
von f gezeigt ist.
Eine Funktion f :
! R ist genau dann F-B-messbar, wenn f! : f (!)
tg 2
F für alle t 2 R gilt. Dies folgt sofort aus der Tatsache, dass f( 1; t] : t 2 Rg ein
Erzeugendensystem von B ist. Wie man leicht nachweisen kann, ist f[ 1; t] : t 2 Rg ein
Erzeugendensystem von B: Eine numerische Funktion ist daher genau dann F-B-messbar
ist, wenn f! : f (!) tg 2 F für alle t 2 R gilt.
Lemma 3.29
Sind ( 1 ; F1 ), ( 2 ; F2 ), ( 3 ; F3 ) drei messbare Räume und f1 :
zwei messbare Abbildungen, so ist f2 f1 : 1 ! 3 messbar.
1
!
2,
f2 :
2
!
3
Beweis. Für A 2 F3 gilt
(f2 f1 )
1
(A) = f1 1 (f2 1 (A)) 2 F1 :
Satz 3.30
Es sei ( ; F) ein messbarer Raum. Ist ffn gn2N eine Folge messbarer numerischer Funktionen, so sind inf n fn ; supn fn ; lim inf n!1 fn und lim supn!1 fn messbare numerische
Funktionen. Sind die fn reellwertig und existiert lim inf n!1 fn (!) für alle ! in R; so
ist diese Funktion messbar. Gleiches gilt für lim supn!1 fn : Insbesonder gilt für eine
Folge von Funktionen, dass wenn f (!) := limn!1 fn (!) für alle ! 2 existiert, diese
Grenzfunktion messbar ist.
Beweis. Zunächst das Supremum:
fsupn fn
tg =
\
n
ffn
tg :
Daraus ergibt sich die Messbarkeit. Für das In…mum folgt die Behauptung analog.
lim inf n!1 fn = supn inf m:m n fm : Damit folgt hier die Messbarkeit durch Anwendung
von sup und inf : Für lim supn!1 fn folgt die Sache analog.
Satz 3.31
a) Sind f , g messbare Funktionen, so sind auch f + g (punktweise de…niert durch
(f + g)(!) = f (!) + g(!) für alle ! 2 ) und f g sowie af für a 2 R messbar.
41
b) Sind f , g messbare Funktionen und gilt g(!) 6= 0 für alle ! 2 , so ist f =g messbar.
c) Jede konstante Funktion ist messbar.
d) Ist A 2 F, so ist die Indikatorfunktion 1A :
! R messbar.
Beweis. Wir beweisen bloss a) mit der Addition, und überlassen den Rest als Übungsaufgabe. Sind a; b; t 2 R so gilt a+b > t genau dann, wenn rationale Zahlen p; q existieren
mit a > p; b > q; p + q > t: Somit ist
2
3c
[
f! : f (!) + g (!) tg = 4
[f! : f (!) > pg \ f! : g (!) > qg]5 2 F:
p;q2Q:p+q>t
Satz 3.32
Jede stetige Abbildung f : Rn ! Rm ist Bn -Bm -messbar.
Beweis. Wir benutzen die Tatsache, dass Bn von den o¤enen Mengen erzeugt wird (Lemma 3.20 c)). Da das inverse Bild einer o¤enen Mengen unter einer stetigen Abbildung
wieder o¤en ist, folgt die Behauptung aus Lemma 3.28.
Aus Satz 3.31 , Lemma 3.29 und Satz 3.32 folgt:
Satz 3.33
Ist f eine messbare Funktion, so sind f + := max(f; 0), f
messbar.
:= max( f; 0) und jf j
De…nition 3.34
P
Sei ( ; F) ein messbarer Raum. Funktionen der Form ni=1 ai 1Ai mit n 2 N, ai 2 R und
Ai 2 F für i 2 f1; : : : ; ng bezeichnet man als einfache Funktionen.
Die Menge der einfachen Funktionen ist o¤ensichtlich abgeschlossen gegenüber den
üblichen Operationen: Sind f; g einfache Funktionen, so sind f für 2 R; f + g; f
g; max (f; g) ; min (f; g) einfache Funktionen.
Satz 3.35
Jede nichtnegative, messbare numerische Funktion f ist punktweiser Limes einer monoton ansteigenden Folge ffn gn2N nichtnegativer, einfacher Funktionen. (Im Fall f (!) =
1 bedeutet limn!1 fn (!) = 1 dass für alle K > 0 ein n0 2 N existiert mit fn (!) K
für alle n n0 .)
Beweis. Wähle
n
fn :=
n2
X
k=1
(k
1)2
n
1f(k
1)2
n
f <k2
ng
+ n1ff
ng :
Dann gilt fn (!) " f (!) : (Im Falle f (!) = 1 ist fn (!) = n für alle n).
Aus diesem Satz folgt sofort die folgende Charakterisierung der nichtnegativen, messbaren Funktionen:
42
Satz 3.36
Es sei ( ; F) ein messbarer Raum, und
sei eine Menge nichtnegativer, messbarer
numerischer Funktionen, für die folgende Bedingungen erfüllt sind:
(i) f; g 2
und a; b 2 R+ ) af + bg 2
(ii) fn 2
für alle n 2 N, fn (!) " f (!) für alle ! 2
(iii) 1A 2
für alle A 2 F.
Dann ist
)f 2
die Menge aller nichtnegativen, messbaren numerischen Funktionen.
Beweis. Aus (i) und (iii) folgt, dass alle nichtnegativen einfachen Funktionen enthält.
Aus (ii) und Satz 3.35 folgt, dass jede nichtnegative messbare numerische Funktion in
ist.
Notation: Ist f : ! 0 eine Abbildung und F 0 eine -Algebra auf 0 , so bezeichnet
(f ) := f 1 (F 0 ) die von f auf
erzeugte -Algebra. Sind fi :
! i Abbildungen
und Fi -Algebren
auf
für
alle
i
aus
einer
beliebigen
Indexmenge
I, so bezeichnet
i
W
1
(fi : i 2 I) := i2I fi (Fi ) die von den ffi gi2I auf erzeugte -Algebra.
Bemerkung: Ist die -Algebra auf
die Potenzmenge P ( ) ; so ist jede Abbildung
! 0 messbar, gleichgültig, welche -Algebra F 0 auf 0 vorliegt. Mit der Potenzmenge
arbeitet man in der Regel jedoch nur, wenn abzählbar ist. Ist z.B. = N; versehen
mit der Potenzmenge, so ist eine messbare (reellwertige) Funktion f : N ! R einfach
eine reelle Zahlenfolge.
3.5
Integration
Für den ganzen Abschnitt sei ein fester Massraum ( ; F; ) vorgegeben (stets -endlich)
De…nition 3.37
Pn
(das Rheisst ai
0), messbare, einfache
a) Sei f =
i=1 ai 1Ai eine nichtnegative
R
Funktion.
Dann
wird
das
Integral
f
d
=
f
(!)
(d!)
von f de…niert durch
R
Pn
f d = i=1 ai (Ai ).
b) Sei f : ! [0; 1] nichtnegativ und messbar. Nach Satz 3.35 existiert eine
R Folge
von
nichtnegativen,
einfachen
Funktionen
ff
g
mit
f
"
f
.
Dann
ist
fd =
nR n2N
n
R
f (!) (d!) 2 [0; 1] de…niert durch limn!1 fn d .
Bemerkung 3.38
Für detaillierte Beweise der nachfolgenden Bemerkungen, siehe Analysis III, wo das für
das Lebesgue-Mass gemacht wurde. Die Beweise für den allgemeinen Fall unterscheiden
sich jedoch nur marginal vom Lebesgue-Fall, sodass das hier nicht detailliert ausgeführt
werden soll.
Pn
a) In a) der obigen De…nition muss man natürlich
i=1 ai (Ai ) nicht
Pnnachweisen, dass P
von der speziellen Darstellung von f als i=1 ai 1Ai ; d.h. gilt ni=1 ai 1Ai (!) =
Pn0 0
Pn
Pn0 0
0
i=1 ai (Ai ) =
i=1 ai 1A0i (!) für alle ! 2 ; so gilt
i=1 ai (Ai ):
43
b) In b) der obigen De…nition hat man ein ähnliches Problem, das allerdings etwas
schwieriger ist: Man muss nachweisen, dass das Integral nicht von der speziell
gewählten Folge von einfachen Funktionen ffn g abhängt.
R
c) Ist (ff = 1g) > 0, so ist f d = 1.
d) Sind f und g zwei nicht negative, einfache Funktionen und sind a; b 2 R; a; b
so ist af + bg wieder eine nicht negative, einfache Funktion und es gilt
Z
Z
Z
(af + bg) d = a f d + b g d :
0;
R
Gilt
für
zwei
nichtnegative
einfache
Funktionen
f
(!)
g
(!)
8!;
so
gilt
fd
R
g d : Dies sieht man einfach daraus, dass g f unter dieser Voraussetzung eine
nichtnegative einfache Funktion ist.
e) Durch Limesbildung übertragen sich diese Eigenschaften sofort auf nichtnegative
messbare numerische Funktionen.
f) Für nichtnegative, messbare numerische Funktionen ist das Integral stets de…niert;
es kann aber unendlich sein.
De…nition 3.39
R
a) Eine messbare reellwertige Funktion f heisst -integrierbar, falls jf jd < 1
+
ist. Wegen jf j = f + + f mit
R +f := max(f; R0) und f := max( f; 0) ist das
gleichbedeutend damit, dass f d < 1 und f d < 1 gelten.
R
R
b) Ist
f
-integrierbar,
so
ist
das
Integral
f
d
=
f (!) (d!) de…niert durch
R +
R
f d
f d .
R
R
c) Ist A 2 F, so ist A f d := (1A f ) d das Integral von f über A.
Notation: Wir schreiben f 2 L1 ( ; F; ) beziehungsweise kurz f 2 L1 ( ) oder f 2 L1 ,
wenn f -integrierbar ist.
Beispiel 3.40
Sei = N versehen mit der Potenzmenge als -Algebra und dem Zählmass : (A) :=
Anzahl der Zahlen in A: Eine messbare Funktion f : N ! R+ ist einfach eine Folge
nicht-negativer reeller Zahlen. Ein Approximation durch einfache Funktion fn ist z.B.
fn (k) =
f (k) f u
•r k n
:
0
fu
•r k > n
O¤ensichtlich gilt fn " f: Ferner gilt
Z
fn d =
n
X
fn (k) =
k=1
n
X
k=1
44
f (k) ;
und somit
Z
f d = lim
n!1
n
X
f (k) =
k=1
1
X
f (k) :
k=1
Eine Folge f : N ! R ist daher genau dann integrierbar bezüglich ; wenn
1 gilt, d.h. wenn die Reihe absolut konvergiert, und es gilt dann
Z
1
X
f d =
f (k) :
P1
k=1 jf
(k)j <
k=1
Eine Reihe, die konvergiert, aber nicht absolut konvergiert (z.B. f (n) = ( 1)n n1 ) ist
nicht -integrierbar.
Satz 3.41
Seien f; g 2 L1 . Dann gelten:
a)
g)
Z
fd
a; b 2 R =)af + bg 2 L1 und
Z
(af + bg) d = a
Z
Z
fd +
f
b)
c)
A; B 2 F mit A \ B = ; =)
d) Ist f eine messbare Funktion, g 2 L1 ; g
ist f 2 L1 :
Z
gd :
fd =
A[B
Z
fd +b
A
0 und gilt jf (!)j
Z
Z
gd :
fd
B
g (!) für alle !; so
Beweis. Die Aussagen sind ganz einfache Folgerungen aus der De…nition.
Für die Formulierung der nachfolgenden Konvergenzsätze benötigt man folgende Begri¤sbildung: Sei ( ; F; ) ein Massraum. Eine Eigenschaft in Bezug auf die Elemente
von gilt -fast überall (Abkürzung -f.ü.) falls die Menge A der ! 2 , für die die
Eigenschaft nicht gilt, in einer messbaren Menge vom -Mass null enthalten ist. Ist A
selbst messbar, so bedeutet das einfach (A) = 0: Wir setzen jedoch im allgemeinen
nicht voraus, dass A 2 F ist, obwohl das in den meisten betrachteten Fällen zutri¤t. Im
Spezialfall, wo ein Wahrscheinlichkeitsmass ist, sagt man meist -fast sicher (Abkürzung -f.s.). Beispiel: Sind f und g zwei messbare Funktionen, so bedeutet f = g -f.ü.:
(f! 2 : f (!) 6= g (!)g) = 0:
Lemma 3.42
( ; F; ) sei ein Massraum und f; g seien Funktionen.
R
R
a) f = g -f.ü ) f d = g d , falls die Integrale de…niert sind, d.h. falls f; g nicht
negative messbare numerische Funktionen sind, oder f; g 2 L1 .
45
b) f
g f.ü., f; g 2 L1 und
R
fd =
R
g d ) f = g -f.ü.
Beweis. Für Lebesgue-Integration in Analysis III. Die Beweise hier sind völlig analog.
Wir kommen nun zu den wichtigen Konvergenzsätzen, die ohne Beweis vorgestellt
werden. Die Beweise sind alle parallel zu den in Analysis III vorgestellten für das
Lebesgue-Integral.
Satz 3.43 (Beppo-Levi)
Sei fn ; n 2 N; eine Folge nicht negativer, messbarer, numerischer Funktionen mit fn " f
f.ü. Dann gilt
Z
Z
lim
fn d = f d :
n!1
Korollar 3.44
Sei f eine nicht negative, messbare, numerische Funktion und seien Ai 2 F; i 2 N;
paarweise disjunkte Mengen. Dann gilt
Z
XZ
fd =
fd :
S
i2N
Ai
i2N
Ai
Satz 3.45 (Lemma von Fatou)
Sei fn ; n 2 N; eine Folge nicht negativer, messbarer, numerischer Funktionen. Dann gilt
Z
Z
lim inf fn d
lim inf fn d :
n!1
n!1
Satz 3.46 (Satz von Lebesgue)
Sei fn ; n 2 N; eine Folge von -integrierbaren Funktionen, und es existiere g 0; g 2 L1
mit jfn (!)j g (!) für alle ! 2 : Falls f (!) = limn!1 fn (!) für fast alle ! existiert,
so gilt
Z
Z
lim
n!1
fn d =
fd :
Im Spezialfall
= N; F = P (N) und das Zählmass ergeben sich die bekannten
Sätze über reelle Zahlenfolgen. Wie wir oben gesehen haben,
bedeutet für eine reelle
P
Zahlenfolge fan gn2N die Integrierbarkeit, dass die Reihe i ai absolut konvergiert. Der
Satz von Lebesgue besagt, dass wenn eine Doppelfolge (ai;n )i;n2N die folgenden zwei
Bedingungen erfüllt:
Erstens:
ai = lim ai;n existiert f u
•r alle i;
n!1
P
und zweitens: Es existiert eine Folge (bi )i2N ; bi 0;
i bi < 1; mit
jai;n j
bi ; 8i; n
46
Dann ist die Reihe
vertauschbar:
P
i ai
absolut konvergent und die Summation ist mit dem Limes
lim
n!1
X
ai;n =
i
X
ai :
i
Das Lemma von Fatou besagt, dass für ai;n
0 und ai;n ! ai für n ! 1; die
Ungleichung
X
X
ai lim inf
ai;n
n!1
i
i
gilt.
Für den Bereich der Wahrscheinlichkeitstheorie werden meist etwas andere Begri¤e
verwendet:
De…nition 3.47
Es sei ( ; F; P ) ein Wahrscheinlichkeitsraum
a) Eine messbare Abbildung ( ; F) ! (R; B) nennt man eine Zufallsvariable, oder
Zufallsgrösse. Für Zufallsvariablen verwendet man meist grosse Buchstaben vom
Schluss des Alphabeths, wie X; Y; Z:
b) Ist X :
! R eine Zufallsvariable, so sagt man, dass der Erwartungswert
existiert, falls X 2 L1 ( ; F; P ) ist. Der Erwartungswert ist dann durch
Z
EX :=
X dP
de…niert. (Wir schreiben manchmal den Raum, in dem integriert wird, unter das
Integralzeichen)
c) Eine messbare Abbildung X : ( ; F) ! Rd ; Bd nennt man eine d-dimensionale
Zufallsvariable, oder einen d-dimensionalen Zufallsvektor.
Bemerkung 3.48
Sind X1 ; : : : ; Xd d Zufallsvariablen, so ist die Abbildung 3 ! ! (X1 (!) ; : : : ; Xd (!))
ein Zufallsvektor. Umgekehrt sind für jeden Zufallsvektor X die d Komponenten des
Vektors (eindimensionale) Zufallsvariablen. Ein Zufallsvektor ist also nichts anderes als
eine Kollektion von Zufallsvariablen.
Beweis. Seien i : Rd ! R, i = 1; : : : ; d die Projektionen. Da diese stetig sind, sind
sie Bd B m.b. Ist X ein Zufallsvektor, so sind also Xi = i X gemäss Lemma 3.29
F B m.b., also Zufallsvariablen.
Sind umgekehrt X1 ; : : : ; Xd d Zufallsvariablen, so de…niert ! ! X (!) := (X1 (!) ; : : : ; Xd (!))
eine Abbildung
! Rd : Wir müssen noch zeigen, dass diese F Bd m.b. ist. Dazu
verwenden wir das Erzeugendensystem Jd der De…nition 3.19. Die Mengen in Jd haben
die Form I1
Id mit Ij 2 J :
(X1 (!) ; : : : ; Xd (!))
1
(I1
Id ) =
47
\d
j=1
Xj 1 (Ij ) 2 F;
da die Xj als F B m.b. vorausgesetzt werden. Nach Lemma 3.28 folgt die Messbarkeit
der Abbildung X : ! Rd :
Für einen diskreten Wahrscheinlichkeitsraum ( ; p) im Sinne von De…nition 1.1 ist
eine Zufallsvariable einfach eine beliebige Abbildung ! R; da wir in
Pdiesem Fall stets
F = P ( ) wählen. Der Erwartungswert existiert genau dann, wenn ! jX (!)j p (!) <
1 gilt und EX ist de…niert durch
X
EX :=
X (!) p (!) :
!
Beispiel 3.49
Ein Würfel werde zweimal geworfen und X bezeichne die Augensumme. In diesem Fall
wählen wir als Wahrscheinlichkeitsraum die Menge = f(i; j) : 1 i; j 6g ; versehen
mit p (!) = 1=36: Formal ist X de…niert durch X ((i; j)) = i + j: Der Erwartungswert
von X ist mithin
EX =
X
(i;j)2
6
6
6
i=1
j=1
i=1
X 1
X 1
1X
21
1
(i + j)
=6
=
i=
= 7:
i +6
j
36
36
36
3
3
Wir werden oft einen einfachen Transformationssatz für Integrale verwenden. Dazu
zunächst eine allgemeine Begri¤sbildung:
Es sei ( ; F; ) ein Massraum, ( 0 ; F 0 ) ein zweiter messbarer Raum und f : ! 0
eine messbare Abbildung. Mit und f de…nierten wir nun ein Mass auf ( 0 ; F 0 ) ; das
wir mit f 1 bezeichnen:
f
1
(A) :=
1
f
Da f als messbar vorausgesetzt ist, ist f
de…niert.
(A) ; A 2 F 0 :
1 (A)
2 F für A 2 F 0 :
f
1 (A)
ist somit
Lemma 3.50
f 1 ist ein Mass auf ( 0 ; F 0 ) :
Beweis. f 1 (;) =
f 1 (;) = (;) = 0: Sind An 2 F 0 ; n 2 N; paarweise disjunkt,
so sind auch die Mengen f 1 (An ) paarweise disjunkt und es gilt
[
[
[
f 1
An
=
f 1
An
=
f 1 (An )
n
n
n
X
X
=
f 1 (An ) =
f 1 (An ) :
n
Proposition 3.51
In der obigen Situation sei g :
numerisch), so gilt
Z
0
n
! R eine messbare Funktion. Ist g nicht negativ (und
gd
f
1
=
0
Z
(g f ) d :
Ist g reellwertig, so ist es genau dann integrierbar bezüglich f 1 ; wenn g f integrierbar
bezüglich ist, und es gilt in diesem Fall ebenfalls die obige Gleichung.
48
R
Beweis.
Sie
die
Menge
der
nicht-negativen
m.b.
numerischen
Funktionen
g
mit
gd f
R
0
(g f ) d : enthält die Indikatiorfunktionen von A 2 F wegen 1A f = 1f 1 (A) und
Z
Z
Z
1A d f 1 = f 1 (A) =
f 1 (A) = 1f 1 (A) d = (1A f ) d :
Sind g1 ; g2 2 ; a1 ; a2 0; so folgt
Z
Z
Z
(a1 g1 + a2 g2 ) d f 1 = a1 g1 d f 1 + a2 g2 d f 1
Z
Z
= a1 (g1 f ) d + a2 (g2 f ) d
Z
=
((a1 g1 + a2 g2 ) f ) d ;
also a1 g1 + a2 g2 2 :
Sind gn 2 ; n 2 N; gn " g; so folgt mit Beppo-Levi auf dieselbe Weise g 2 :
Nach Satz 3.36 folgt also, dass die Menge der nicht negativen messbaren numerischen
Funktionen auf ( 0 ; F 0 ) ist.
0 ! R; so gilt (g f )+ = g +
Ist nun g eine messbare
f; (g f ) =
R
R Funktion
+
gR
f und daherRgelten (g f ) d < 1R und (g f ) Rd < 1 genau dann, wenn
(g + f ) d = g + d f 1 < 1 und (g
f ) d = g d f 1 < 1 gelten.
1
Daher ist g genau dann in L1 f
; wenn g f in L1 ( ) ist und es folgt in diesem Fall
Z
Z
Z
Z
Z
1
+
1
1
+
gd f
=
g d f
g d f
=
g
f d
g
f d
Z
Z
Z
=
(g f )+ d
(g f ) d = (g f ) d :
Bemerkung: Ist ein Wahrscheinlichkeitsmass, so ist f 1 o¤ensichtlich ebenfalls ein
Wahrscheinlichkeitsmass.
Wir kommen nun nochmals zurück zu Zufallsgrössen. Da eine Zufallsgrösse eine
messbare Abbildung
! R ist (( ; F; P ) hier wieder ein Wahrscheinlichkeitsraum),
so ist P X 1 ein Wahrscheinlichkeitsmass auf (R; B) : Dieses Wahrscheinlichkeitsmass
nennt man die Verteilung von X: Wahrscheinlichkeitsmasse auf (R; B) werden gemäss
Kapitel 3.3 durch ihre Verteilungsfunktion beschrieben, in unserem Fall also durch
FX (t) := P X
1
(( 1; t]) = P (f! : X (!)
tg) ;
gemäss De…nition 3.24. FX nennt man die Verteilungsfunktion von X:
Wir können mit der obigen Transformationsformel eine Formel für Erwartungswerte
herleiten. Dazu betrachten wir die identische Abbildung id : R ! R; id (x) := x: Wegen
X = id X ergibt sich dann
Z
Z
EX =
X dP =
id d P X 1 :
(3.11)
R
49
1
=
Die rechte Seite schreibt man meist als
Z
x PX
1
(dx) :
R
Als Beispiel berechnen wir die Verteilung und die Verteilungsfunktion der Augensumme von zwei Würfen eines Würfels, gemäss Beispiel 3.49. Die Augensumme kann
nur die Werte 2; 3; : : : ; 12 annehmen. Wie man einfach ausrechnet ergibt sich
8
1=36 für i = 2; 12
>
>
>
>
>
> 1=18 für i = 3; 11
<
1=12 für i = 4; 10
P (X = i) =
:
1=9
für i = 5; 9
>
>
>
>
>
5=36 für i = 6; 8
>
:
1=6
für i = 7
Die Verteilung ist also
PX
1
=
1
1
1
2+
3+
36
18
12
1
5
1
+ 7+
8+
6
36
9
1
5
5+
6
9
36
1
1
1
9+
10 +
11 +
12
18
36
4
+
12 ;
wobei x das Einpunktmass im Punkt x bezeichnet. Die Verteilungsfunktion F (t) ist 0
für t < 2 und 1 für t 12; und macht jeweilen Sprünge gemäss der obigen Liste in den
Punkten 2; : : : ; 12:
Für solche diskreten Verteilungen ist die Verteilungsfunktion im allgemeinen wenig
nützlich.
Wir können die Diskussion im obigen Beipiel gleich verallgemeinern: Sei ( ; p) ein
disreter Wahrscheinlichkeitsraum und X eine Zufallsvariable. Der Wertebereich von X
ist die höchstens abzählbare Teilmenge X ( ) = fX (!) : ! 2 g von R: Die Verteilung
der Zufallsvariable ist
X
PX 1 =
P (X = z) z :
z2X( )
P (X = z) ist hier eine Kurzschreibweise für P (f! : X (!) = zg) :
Der Erwrtungswert gemäss der ursprünglichen De…nition ist durch
X
EX =
X (!) p (!)
!
de…niert, was gemäss (3.11) gleich
Z
X
x P X 1 (dx) =
z P (X = z)
z2X( )
ist. In Lehrbüchern wird das oft als De…nition genommen. Dass
X
X
X (!) p (!) =
z P (X = z) ;
!
z2X( )
50
kann man in diesem Fall leicht durch eine Umsummation einsehen, was dem Leser als
Übungsaufgabe überlassen sei. Dazu wird die ganze Integrationstheorie nicht benötigt.
Interessanter sind Zufallsvariablen, welche keine diskrete Verteilung haben. Wir werden
gleich etwas später darauf zurückkommen.
Bei der Berechnung von Erwartungswerten lässt sich oft nutzbringend die Linearität
aus Satz 3.41 b) verwenden. Hier ein ho¤entlich überzeugendes Beispiel:
Beispiel 3.52
Wir betrachten unser altes Beispiel 1.8. Hier war die Menge der Permutation der Zahlen 1; : : : ; n mit p (!) = 1=n!: Als Zufallsvariable X betrachten wir die Anzahl der richtig
verpackten Briefe. Wir hatten schon P (X = 0) berechnet. Der Wertebereich X ( ) ist
o¤ensichtlich f0; 1; : : : ; n 2; ng ; (n 1 kann nicht vorkommen). Der Erwartungswert
von X ergibt sich als
EX =
n
X2
k P (X = k) + nP (X = n) :
k=0
P (X = n) ist einfach 1=n! und P (X = 0) hatten wir schon berechnet, was uns jedoch
ohnehin nicht interessiert, da dies nun mit 0 multipliziert wird. Die P (X = k) für die
anderen k sind jedoch ziemlich umständlich zu berechnen. Wir verwenden deshalb einen
Trick und schreiben
X = X1 + X2 +
+ Xn ;
wobei Xi die folgende Zufallsvariable bezeichnet: Xi = 1; falls der i-te Brief in den
richtigen Umschlag gelangt. Andernfalls setzen wir Xi = 0: Formal ist Xi (!) = 1 falls
die Permutation ! die Eigenschaft ! (i) = i erfüllt und andernfalls Xi (!) = 0: Aus der
Linearität des Erwartungswerts ergibt sich
EX =
n
X
EXi :
i=1
Nun ist aber
EXi = 0 P (Xi = 0) + 1 P (Xi = 1) = P (Xi = 1) :
Es ist o¤ensichtlich, dass jf! : ! (i) = igj = (n 1)! gilt und demzufolge P (Xi = 1) =
1=n: Mithin ergibt sich
n
X
1
EX =
= 1:
n
i=1
3.6
Der Satz von Radon-Nikodym
Nachfolgend sei ( ; F; ) ein -endlicher Massraum.
Proposition 3.53
R
Sei f :
! [0; 1) messbar. Dann wird durch F 3 A 7! (A) := A f d ein (stets
-endliches!) Mass auf F de…niert. Für jede Menge A 2 F mit (A) = 0 gilt (A) = 0:
51
Beweis. O¤ensichtlich gilt
S1 (;) = 0. Ist fAn gn2N eine Folge paarweise disjunkter Mengen aus S, und ist A = n=1 An , so gilt
(A) =
Z
f d = lim
n!1 Sn
A
=
1
X
Z
f d = lim
k=1
Ak
n!1
n Z
X
k=1
fd
Ak
(Ak ):
k=1
Es bleibt zu zeigen, dass
-endlich ist. Sei f n gn2N eine Folge von messbaren Teilmengen von mit n " und ( n ) < 1. Sei ferner An := ff ng. Dann gilt n \ An "
und (An \ n ) n ( n ) < 1 für alle n.
Ist A 2 S eine -Nullmenge, so ist 1A f fast überall 0: Daraus folgt (A) = 0:
Eine wichtige Frage ist, ob sich ein Mass aus einem Mass auf diese Weise mit
Hilfe einer Funktion f darstellen lässt. In diesem Fall nennt man f eine Dichte von
bezüglich : Es ist nicht schwer zu sehen, dass f; wenn es überhaupt existiert, eindeutig
bis auf -f.s.-Gleichheit ist:
Sind f; g 0 zwei Dichten von bezüglich ; so gilt
Z
Z
f d =
gd
A
A
für alle A 2 S: Sei n 2 F eine Folge mit n "
und
An := n \ ff < g ng : Dann ist
Z
(g f ) d = 0:
(
n)
< 1 für alle n: Sei
An
Wegen g > f auf An folgt (An ) = 0: Wegen n \ ff < g ng " ff < gg folgt
(f < g) = 0; d.h. f
g -f.s.. Analog folgt g
f -f.s.. Damit ist gezeigt, dass
eine Dichte, falls sie überhaupt existiert, eindeutig
ist
bis
auf -f.s.-Gleichheit.
R
Bemerkung: Ist f 2 L1 ( ; F; ), f
0; mit f d = 1; so ist ein Wahrscheinlichkeitsmass.
Wann existiert eine derartige Dichte? Nach der obigen Proposition ist eine notwendige
Bedingung, dass alle -Nullmengen auch -Nullmengen sind. Eine erstaunliche Tatsache
ist, dass dies auch eine hinreichende Bedingung ist.
De…nition 3.54
Es seien ( ; F) ein messbarer Raum und , zwei Masse auf F. heisst absolutstetig
bezüglich (Notation:
), falls folgende Bedingung erfüllt ist:
8A 2 F :
(A) = 0 ) (A) = 0:
Satz 3.55 (Satz von Radon-Nikodym)
; seien zwei -endliche Masse auf ( ; F) : Es gilt
genauRdann, wenn eine nicht+
negative, messbare Funktion f : ! R existiert mit (A) = A f d für alle A 2 F.
Diese Funktion ist eindeutig bis auf -f.ü.-Gleichheit.
52
Beweis. Wir müssen nur noch zeigen, dass
die Existenz von f impliziert. Wir
führen den Beweis nur für den Fall, dass ; endliche Masse sind. Wir können natürlich
annehmen, dass ( ) 6= 0 ist, sonst ist nichts zu zeigen.
Wir betrachten die Menge der nicht-negativen numerischen messbaren Funktion g
auf für die
Z
gd
(A) ; 8A 2 F
(3.12)
A
gilt. Da die Funktion identisch 0 sicher dieseR Eigenschaft hat, so ist diese Menge nicht
leer wir de…nieren als das Supremum von gd über diese Menge. Wegen ( ) < 1
gilt < 1:
Wir zeigen nun, dass es eine aufsteigende Folge fgn g ; gn 2 ; gibt mit
Z
lim
gn d = :
(3.13)
n!1
Das ist sehr einfach: Sicher existiert eine Folge fhn g
Z
= sup hn d :
mit
n
Wir de…nieren
gn := max (h1 ; : : : ; hn ) :
Wir zeigen zunächst per Induktion nach n; dass gn 2 gilt. Für n = 1 ist das klar. Nun
ist gn = max (gn 1 ; hn ) : Sei B := f! : hn (!) gn 1 (!)g : Dann gilt für jedes A 2 F
Z
Z
Z
gn d
=
gn d +
gn d
c
A
A\B
A\B
Z
Z
=
hn d +
gn 1 d
A\B c
A\B
(A \ B) + (A \ B c ) =
(A) :
Damit ist gezeigt, dass die gn 2 sind und natürlich gilt nun (3.13).
Da die Folge monoton ansteigend ist, können wir
f := lim gn
n!1
de…nieren. Nach dem montonen Konvergenzsatz gilt f 2
Z
fd = :
Wir zeigen nun, dass
(A) =
Z
A
und
fd
R
für alle A 2 F gilt. Jedenfalls wissen wir schon, dass RA f d
(A) für alle A 2 F gilt.
Wir de…nieren daher das Mass A 7! (A) := (A)
A f d und müssen nun nur noch
zeigen, dass ( ) = 0 ist.
53
Wir nehmen an, dass ( ) > 0 ist und führen das zu einem Widerspruch. Wir hatten
vorausgesetzt, dass ( ) > 0 ist. Wir de…nieren nun
0
(A) := (A)
( )
(A) ; A 2 F:
2 ( )
0
ist nicht notwendigermassen ein Mass, da durchaus 0 (A) < 0 für gewisse A 2 F
gelten kann. Jedenfalls ist aber 0 ( ) = ( ) =2 > 0: Wir behaupten nun, dass eine
Menge H 2 F existiert mit
0
(H) > 0;
0
(A)
0; 8A 2 F; A
H:
(3.14)
Wir verschieben den Beweis dieser Aussage für den Moment und zeigen, dass damit
der Satz bewiesen ist. Wir setzen einfach
f 0 := f +
( )
1H :
2 ( )
R
R
Dann prüft man sehr einfach nach, dass f 0 2 gilt mit f 0 d > f d = im Widerspruch zur De…nition von :
Es bleibt also (3.14) zu zeigen. Wir konstruieren dazu für jedes n 2 N eine Folge
0 ( ) > 0 und
Hn 2 F mit Hn #; 0 (Hn )
0
1=n; 8A 2 F; A Hn :
T
Damit sind wir o¤enbar fertig, denn wir können H := n Hn setzen. Nun zur Konstruktion der Hn : Wir setzen H0 := . Wir nehmen an, Hn 1 sei bereits konstruiert und wir konstruieren nun Hn : Falls kein A1 2 F, A1 Hn 1 ; existiert mit 0 (A1 ) < 1=n; so können
wir einfach Hn := Hn 1 wählen, und anderfalls wählen wir ein derartiges A1 und setzen
0 (A )
0 (H
0( )
B1 := Hn 1 nA1 : Man beachte, dass 0 (B1 ) = 0 (Hn 1 )
1
n 1)
0
gilt. Falls nun kein A2
B1 existiert, A2 2 F; mit (A2 ) < 1=n; so setzen wir
Hn := B1 und wir sind fertig. Anderfalls wählen wir ein derartiges A2 und setzen
B2 := B1 nA2 und fahren in dieser Weise weiter. 0 (A1 ) ; 0 (A2 ) ; : : : sind alle
1=n
und die A1 ; A2 ; : : : sind paarweise disjunkt. Daher gilt
( )
2
(A)
0
[k
i=1
Ai
=
k
X
i=1
0
(Ai )
k
;
n
und somit bricht die Konstruktion spätestens nach k = n ( ) =2 Schritten ab. Man
beachte, dass Hn Hn 1 gilt. Damit ist die Existenz von Hn bewiesen und somit auch
der Satz von Radon-Nikodym (im Falle ( ) ; ( ) < 1).
Wir schreiben
d
f=
;
d
wenn eine derartige Dichte existiert. Es ist naheliegend, dass in einem derartigen Fall
Integrale bezüglich in Integrale bezüglich umgeschrieben werden können:
54
Proposition 3.56
Sei absolut stetig bezüglich
a) Ist
:
mit Dichte f:
! [0; 1] eine messbare numerische Funktion, so gilt
Z
Z
d = ( f) d :
b) Ist : ! R messbar, so gilt 2 L1 ( ) genau dann, wenn
diesem Fall gilt ebenfalls die obige Gleichung.
(3.15)
f 2 L1 ( ) ist. In
Beweis. Für = 1A ; A 2 F; ist (3.15) einfach die De…nition von : Der allgemeine Fall
in a) folgt einfach mit 3.36. In b) folgt 2 L1 ( ) () f 2 L1 ( ) aus a) angewandt auf
j j : Die Gleichung (3.15) folgt wie üblich aus einer Zerlegung in Positiv- und Negativteil.
Von besonderer Bedeutung für uns sind Wahrscheinlichkeitsmasse auf (R; B), welche
absolut stetig bezüglich des Lebesgue Masses sind. Sei X eine Zufallsvariable, de…niert
auf einem beliebigen Wahrscheinlichkeitsraum ( ; F; P ) : Dann ist P X 1 ; die Verteilung
von X; ein Wahrscheinlichkeitsmass auf (R; B) :
De…nition 3.57
Falls P X 1 absolut stetig bezüglich des Lebesgue-Masses ist, so sagt man, dass X eine
d(P X 1 )
Dichte f =
besitzt (die dann eindeutig bis auf -f.ü.-Gleichheit ist).
d
Lemma 3.58
BesitztR die Zufallsvariable X die Dichte f; so existiert der Erwartungswert genau dann,
wenn jxj f (x) (dx) < 1 ist, und in diesem Fall ist
Z
EX = xf (x) (dx) :
Beweis. Nach Proposition 3.51 bzw. (3.11) existiert der Erwartungswert genau dann,
wenn
Z
jxj P X 1 (dx) < 1
ist und in diesem Fall ist
EX =
Z
x PX
1
(dx) :
Die Behauptung folgt nun sofort aus der obigen Proposition 3.56, angewandt auf
und (x) = x:
Beispiele 3.59
Hier ein paar Beispiele von Dichten von Wahrscheinlichkeitsmassen auf R :
55
=
a)
1
f (x) = p e
2
x2 =2
:
Dies ist die sogenannte Dichte der Standardnormalverteilung. Hat eine Zu2
fallsvariable X diese Dichte, so nennt man sie standardnormalverteilt. Da xe x =2
o¤ensichtlich integrierbar bezüglich Lebesgue ist, existiert der Erwartungswert für
eine derartige Zufallsvariable und es gilt
Z
1
2
p xe x =2 dx = 0;
EX =
2
b) Sind a 2 R;
2
> 0; so ist
fa;
1
2 (x) = p
2
exp
"
a)2
(x
2
2
#
R
ebenfalls eine Dichte mit fa; 2 d = 1: Man nennt dies die Dichte der Normalverteilung mit Mittel a und Varianz 2 : Hat X diese Verteilung so ist
"
#
Z
1
(x a)2
p
EX =
x exp
dx
2 2
2
Z
1
2
p ( y + a) e y =2 dy = a:
=
2
c) Exponentialverteilung: Diese hat die Dichtefunktion
f (x) =
x
e
0
fu
•r x 0
:
fu
•r x < 0
Hat eine Zufallsvariable diese Dichte, so nennt man sie exponentialverteilt. Der
Erwartungswert einer derarigen Zufallsvariable ist
Z 1
Z 1
x
x 1
EX =
xe dx = xe x=0 +
e x dx = 1:
0
0
d) Cauchy-Verteilung zum Parameter c > 0: Sie hat die Dichte
f (x) =
c
;
(c2 + x2 )
x 2 R:
Eine Zufallsvariable mit dieser Dichte nennt man Cauchy-verteilt mit Parameter
c: Da xf (x) nicht Lebesgue-integrierbar ist, so existiert der Erwartungswert einer
derartigen Zufallsvariablen nicht.
56
e) Gleichförmige Verteilung auf einem Intervall: Sei 1 < a < b < 1: Die
Dichte der gleichförmigen Verteilung auf dem Intervall [a; b] ist
1
b a
f (x) :=
fu
•r x 2 [a; b]
:
fu
•r x 2
= [a; b]
0
Der Erwartungswert einer Zufallsvariablen mit dieser Dichte ist natürlich (a + b) =2:
Analoge Begri¤sbidlungen verwendet man für d-dimensionale Zufallsvektoren X :
! Rd : Die Verteilung eines solchen Zufallsvektors ist P X 1 ; d.h. ein Wahrscheinlichkeitsmass auf Rd ; Bd : Ist P X 1 absolut stetig bezüglich des d-dimensionanel LebesgueMasses d ; so sagt man, dass X eine d-dimensionale Dichte
f=
d PX
d d
1
besitzt.
De…nition 3.60
a) Das Wahrscheinlichkeitsmass auf (Rd ; Bd ), das durch die Dichte
f (x1 ; : : : ; xd ) := (2 )
d=2
1 Xd
x2 ;
i=1 i
2
exp
(x1 ; : : : ; xd ) 2 Rd ;
de…niert wird, heisst Standardnormalverteilung auf Rd .
b) Ein Wahrscheinlichkeitsmass auf Rd ; Bd heisst Normalverteilung, wenn eine
reelle d d-Matrix A und b 2 Rd existieren, sodass = st 1 ist, wobei die a¢ ne
Abbildung Rd 3 x 7! (x) = Ax + b 2 Rd und st die Standardnormalverteilung
sind. Ein Zufallsvektor X mit P X 1 = heisst normalverteilt, oder Gaussverteilt.
c) Hat ein Zufallsvektor X eine Verteilung gemäss b) oder a), so heisst er normalverteilt, bzw. standard normalverteilt.
Wir wollen noch kurz diskutieren, wann die Normalverteilung eine Dichte besitzt.
Proposition 3.61
Das Wahrscheinlichkeitsmass der obigen De…nition besitzt genau dann eine Dichte,
wenn die Matrix A invertierbar ist. In diesem Fall ist die Dichte gegeben durch
1
'(x; b; ) := p
(2 )d det
mit
exp
1
(x
2
= AAT (AT die Transponierte von A):
57
b)T
1
(x
b) ;
x 2 Rd ;
Beweis. Sei die Matrix A regulär. Dann ist
für B 2 Bd
Z
1
(B) = st (
(B)) =
1
Z
eine invertierbare Abbildung, und es gilt
1
e
(2 )d=2
(B)
jxj2 =2
d (dx)
1
1
exp
j 1 (x)j2
d=2
2
(2 )
Z
1
1
exp
= 1B (y)
j 1 (y) j2
d
d=2
2
(2 )
=
Nun benützen wir, dass
1B ( (x))
d
1
d
1
(dy):
die Dichte
det A
bezüglich
sich
d (dx)
1
=
1
1
=p
jdet (A)j
jdet ( )j
hat, was aus der Analysis bekannt sein sollte. Mit Proposition 3.56 ergibt
(B) =
=
Z
Z
1B (y)
1
(2 )
1
B
(2 )
d=2
p
d=2
det
1
j
2
exp
exp
1
1
(y
2
1
(y)j2 p
jdet ( )j
b)T
1
(y
b)
d (dy)
d (dx):
Damit ist die behauptete Form der Dichte nachgewiesen.
Wenn A nicht invertierbar ist, so hat im ( ) :=
(x) : x 2 Rd Lebesgue Mass Null.
Somit gilt (im ( )) = 1 und d (im ( )) = 0: In diesem Fall kann natürlich keine
Dichte besitzen.
3.7
Produktmasse
Es seien (S1 ; S1 ) und (S2 ; S2 ) zwei messbare Räume.
De…nition 3.62
Sei S = S1 S2 die Produktmenge. Die Produkt- -Algebra S1 S2 ist die -Algebra,
die vom Mengensystem C = f A1 A2 : Ai 2 Si g erzeugt wird. (Das Mengensystem C ist
selbst keine -Algebra, es ist aber wegen ( A1 A2 )\( A01 A02 ) = (A1 \ A01 ) (A2 \ A02 )
o¤ensichtlich durchschnittstabil.)
Lemma 3.63
Ist f : S1 S2 ! R eine S1 S2 -messbare numerische Funktion. Dann ist für jedes
x 2 S1 die Abbildung y 2 S2 7! f (x; y) 2 R messbar bezüglich S2 : Analog für die
andere Komponente.
Beweis. Wir betrachten zunächst den Spezialfall f = 1A ; A 2 S1 S2 : Für x 2 S1 , A
S1 S2 sei Ax := fy 2 S2 : (x; y) 2 Ag : Die Behauptung des Satzes für den Spezialfall
f = 1A besagt dann, dass Ax 2 S2 für alle x 2 S1 ; A 2 S1 S2 ist. Wir de…nieren
X := fA 2 S1
S2 : Ax 2 S2 f u
•r 8x 2 S1 g :
58
X enthält o¤ensichtlich die Mengen der Form A1
A2 ; Ai 2 Si ; i = 1; 2:; denn
(A
= A2 für x 2 A1 ; und (A1 A2 )x = ; für x 2
= A1 : Wegen (Ac )x = (Ax )c und
S1 A2 )x S
( i Ai )x = i (Ai )x folgt sofort, dass X eine -Algebra ist. Somit folgt X = S1 S2 :
Als nächstes betrachten wir die Menge der nicht-negativen S1 S2 -m.b. numerischen Funktionen f für die f (x; ) als Funktion des zweiten Argumentes S2 -m.b. ist für
alle x: Nach der vorangegangenen Überlegung enthält alle Indikatorfunktionen von
Mengen A 2 S1 S2 : O¤ensichtlich erfüllt die Eigenschaften (i), (ii) und (iii) von Satz
3.36. Somit ist die Menge aller nicht-negativen S1 S2 -m.b. numerischen Funktionen.
Für beliebige numerische Funktionen folgt die Behauptung mit einer Zerlegung in
Positiv- und Negativteil.
Für die Wahrscheinlichkeitstheorie besonders wichtig ist die Existenz von unendlichen Produktmassen. Da diese ohnehin für unendliche Masse wie dem Lebesgue Mass
nicht existieren, so beschränken wir uns für den Rest des Kapitels stets auf Wahrscheinlichkeitsmasse, auch da, wo es nicht erforderlich wäre. Das vereinfacht die Beweise etwas.
Ist A 2 S1 S2 und 2 ein Wahrscheinlichkeitsmass auf (S2 ; S2 ) ; so ist nach dem
obigen Lemma 2 (Ax ) für jedes x 2 S1 de…niert.
Lemma 3.64
Die Funktion x !
2 (Ax )
ist eine S1 -m.b. nicht-negative Funktion.
Beweis. Die Aussage ist o¤ensichtlich richtig für Mengen der Form A = A1 A2 ; Ai 2 Si ;
denn in diesem Fall ist 2 (Ax ) = 1A1 (x) 2 (A1 ) : Wir betrachten
D := fA 2 S1
S2 : x !
2 (Ax )
ist S1 m:b:g :
D ist ein Dynkin-System. Wir prüfen die 3 benötigten Eigenschaften nach: D1 ist of(Ax ) : Daraus folgt,
fensichtlich. D2: Ist A 2 D; so ist 2 ((Ac )x ) = 2 ((Ax )c ) = 1
dass x ! 2 ((Ac )x ) S1 -m.b. ist und somit ist Ac 2 D: D3 geht analog: Sind A1 ; A2 ; : : :
paarweise disjunkt und in D; so ist
[
[
X
An
= 2
(An )x =
2
2 ((An )x ) ;
n
x
n
n
S
woraus die Messbarkeit von x ! 2 ( n An )x folgt.
Sind nun 1 ; 2 zwei Wahrscheinlichkeitsmasse, i auf (Si ; Si ) ; so de…nieren wir das
Produktmass 1
S2 durch
2 auf S1
Z
( 1
2 ) (A) :=
2 (Ax ) 1 (dx) :
Satz 3.65
1
2 ist ein Wahrscheinlichkeitsmass auf S1
Beweis. (
1
2 ) (S1
S2 :
S2 ) = 1 ist o¤ensichtlich.
59
Sind A1 ; A2 ; : : : 2 S1 S2 paarweise disjunkt, so folgt
Z X
Z
[
[
(An )x 1 (dx) =
An
=
( 1
2
2)
n
n
XZ
=
2 ((An )x )
1 (dx)
=
2 ((An )x )
1 (dx)
n
X
(
2 ) (An ) ;
1
n
n
die Vertauschung von Integral mit Summation nach Beppo-Levi.
Bemerkung 3.66
a) In der obigen Konstruktion von 1
2 kann man die Rolle der Faktoren vertauschen: Für A 2 S1 S2 können wir für y 2 S2 erst die Menge A0y := fx : (x; y) 2 Ag
0
de…nieren und das Mass ( 1
2 ) durch
Z
0
0
( 1
2 ) (A) :=
1 Ay
2 (dy)
de…nieren. Für Mengen aus dem Erzeugendensystem C von De…nition 3.62, d.h.
Mengen der Form A1 A2 ; Ai 2 Si gilt sowohl ( 1
A2 ) = 1 (A1 ) 2 (A2 )
2 ) (A1
0
wie ( 1
)
(A
A
)
=
(A
)
(A
)
:
Da
die
Masse
somit
auf einem durch1
2
1
2
2
1
2
0
schnittstabilen Erzeugendensystem übereinstimmen gilt 1
2 = ( 1
2 ) auf
ganz S1 S2 :
b) Die Konstruktion der Produktmasse lässt sich nun sofort auf endlich viele Faktoren
verallgemeinern. Sind (Si ; Si ; i ) Wahrscheinlichkeitsräume für i = 1; : : : ; n; so
de…nieren wir rekursiv
S1
Sn := (S1
Sn
1)
Sn :
Die Mengen der Form A1
An mit Ai 2 Si bilden o¤ensichtlich ein durchschnittstabiles Erzeugendensystem dieser -Algebra.
Das Produktmass
durch
n
1
auf dieser
n
1
=
-Algebra ist dann ebenfalls rekursiv
n 1
1
n
de…niert und man sieht sofort, dass
(
n ) (A1
1
An ) =
1 (A1 )
für Ai 2 Si gilt.
Für ein beliebiges k 2 f1; : : : ; n 1g ist (S1
S1
Sn ; wenn wir S1
Sn mit (S1
identi…zieren, und analog für das Produktmass
(
1
k)
k+1
n
n (An )
Sk ) (Sk+1
Sk ) (Sk+1
=
1
n
was sich einfach daraus ergibt, dass beide Seiten auf Mengen der Form A1
übereinstimmen.
60
Sn ) =
Sn )
An
Wir beweisen nun die Sätze von Tonelli und Fubini. Wie wir oben in Satz 3.63 gesehen
haben, sind für jede S1 S2 -m.b., nicht negative numerische Funktion f : S1 S2 ! [0; 1]
und x 2 S1 die Funktionen
y ! f (x; y) messbar bezüglich S2 ; wir können daher die
R
Funktionen x ! f (x; y) 2 (dy) de…nieren.
Satz 3.67 (Satz von Tonelli)
R
Die numerische Funktion x ! f (x; y) 2 (dy) ist S1 -m.b. und es gilt
Z
Z
Z
f d( 1
f (x; y) 2 (dy)
f (x; y) 1 (dx)
2) =
1 (dx) =
2 (dy) :
Beweis. Wie wir oben gesehen haben, gilt die Aussage für Funktionen f = 1A ; A 2
S1 S2 : Die Behauptung folgt nun sofort mit einer Anwendung von Satz 3.36 (Man
de…niert als die Menge der Funktionen, für welche die Aussage richtig ist und beweist
die Eigenschaften (i), (ii) und (iii) des Satzes).
Satz 3.68 (Satz von Fubini)
Sei f 2 L1 (S1 S2 ; S1 S2 ; 1 R2 ) : Dann ist für 1 -fast alle x 2 S1 die Funktion
y ! f (x; y) in L1 (S2 ; S2 ; 2 ) und f (x; y) 2 (dy) ist als Funktion von x integrierbar
bezüglich 1 : Ferner gilt
Z
Z
f d( 1
f (x; y) 2 (dy)
2) =
1 (dx) ;
was nach Vertauschen der Faktoren gleich
Z
f (x; y)
1 (dx)
2 (dy)
ist.
Beweis. Nach dem Satz von Tonelli gilt
Z
1 > f+ d ( 1
2) =
Somit ist
Z
Z
f + (x; y)
f + (x; y)
2 (dy)
2 (dy)
1 (dx) :
<1
für 1 -fast alle x 2 S1 : Analog für den Negativteil. (Hier ist eine kleine
R Schikane zu bewältigen: Wir müssen in unserem Rahmen nachweisen, dass x 2 S1 : f (x; y) 2 (dy) < 1
in S1 sind. Das sei dem Leser als einfache Übungsaufgabe überlassen.) Somit ergibt sich
Z
Z
Z
Z
+
+
f d( 1
f
f
d( 1
f d( 1
f d( 1
2) =
2) =
2)
2)
Z
Z
=
f + (x; y) 2 (dy)
(dx)
f (x; y) 2 (dy)
1 (dx)
1
Z
=
f (x; y) 2 (dy)
1 (dx) :
61
Wir kommen nun zu unendlichen Produkten von Wahrscheinlichkeitsräumen: Seien
also (Si ; Si ; i ) ; i 2 N; Wahrscheinlichkeitsräume. Wir de…nieren als die Produktmenge, d.h. ist die Menge der Folgen (s1 ; s2 ; : : :) mit si 2 Si : Wir de…nieren ebenfalls die
endlichen Produktmengen
n
Mit n;m :
Faktoren:
n
!
m;
für m
:= f(s1 ; : : : ; sn ) : si 2 Si g :
n; bezeichnen wir die Projektionen auf die ersten m
n;m ((s1 ; : : : ; sn ))
:= (s1 ; : : : ; sm ) ;
und analog 1;m : ! m : Wir können n+1 als n Sn+1 interpretieren.
Nach den vorangegangen Diskussionen können wir -Algebren Fn := S1
auf n und die Produktmasse Qn = 1
n auf Fn rekursiv de…nieren:
F1 := S1 ; Fn+1 := Fn
Q1 :=
1;
Qn+1 = Qn
de…nieren. Die -Algebren Fn können wir auf ganz
-Algebra F^n auf der Produktmenge durch
F^n :=
1
1;n (A)
Sn
Sn+1 ;
n+1 :
„hochziehen“: Wir de…nieren die
: A 2 Fn :
F^n enthält also genau die Mengen der Form
A^ = A
Sn+1
Sn+2
;
^
^
mit A
n ; A 2 Fn : Liegt n fest, so ist die Darstellung von A 2 Fn in dieser Form
^ n A^ := Qn (A) für Mengen dieser Form. Q
^ n ist nichts anderes
eindeutig. Wir setzen Q
als Qn ; mit der kleinen Schikane, dass wir die Mengen A 2 Fn als Teilmengen von
interpretieren. Man beachte, dass A^ 2 F^n+1 ist, denn
A^ = (A
und A
Sn+1 )
Sn+2
Sn+1 2 Fn+1 : Das bedeutet, dass die -Algebren ineinander geschachtelt sind:
F^n
F^n+1 ; 8n:
^ n führt das auf keine Mehrdeutigkeiten: Wenn wir A^ in dieser
Für die De…nition der Q
Weise interpretieren, so ergibt sich
^ n+1 A^
Q
= Qn+1 (A
= Qn (A)
Sn+1 ) = Qn
n+1 (Sn+1 )
n+1
(A
Sn+1 )
^ n A^ :
= Qn (A) = Q
^ n+1 auf die -Algebra F^n gleich Q
^ n ist. Das
Das bedeutet, dass die Einschränkung von Q
lässt sich sofort zur folgenden Aussage verallgemeinern:
62
Lemma 3.69
^ n auf die -Algebra F^m
Für m < n ist die Einschränkung von Q
n o
^ n verträglich ist.
Man sagt auch, dass die Folge Q
Wir setzen
A :=
[
n
^ m:
F^n gleich Q
F^n :
Man beachte, dass das in der Regel keine -Algebra ist; es ist jedoch eine Algebra: Sind
etwa A; B 2 A; so existieren m; n mit A 2 F^n ; B 2 F^m : Ist m
n; so sind beide in
F^n und ist n
m, so sind beide in F^m : Dies impliziert A [ B 2 F^max(n;m)
A: Die
Abgeschlossenheit gegenüber Komplementsbildung folgt analog.
^ n zu einer Abbildung Q
^ : A ! [0; 1] hochzuEs macht nun auch kein Problem, die Q
^
ziehen: Für A 2 A existiert n mit A 2 Fn und wir de…nieren
^ (A) := Q
^ n (A) :
Q
^ wohlde…niert.
Wegen der Veträglichkeitseigenschaft des vorangegangenen Lemmas ist Q
^
Es ist auch sofort ersichtlich, dass Q auf A ein Inhalt ist, d.h. endlich additiv.
Satz 3.70
^ ist auf A -additiv.
Q
Beweis. Wir zeigen die -Additivität in der folgenden Version. Sei fAn g eine fallende
Folge An 2 A mit An+1 An , 8n; und
^ (An ) 6= 0:
lim Q
n!1
T
Dann ist n An 6= ;: Gemäss Lemma 3.12 folgt daraus die -Additivität.
Zunächst ein paar kosmetische Manipulationen. Zu n wählen wir k (n) 2 N so dass
An 2 F^k(n) ist. Da für An 2 F^k die Menge auch in jedem F^m mit m
k liegt, so
können wir annehmen, dass die k (n) monoton ansteigen: k (1) < k (2) < k (3) <
.Durch “Au¤üllen”der Folge fAn g mit repetierten Mengen, können wir annehmen, dass
k (n) = n ist. Ist z.B. k (1) = 4; k (2) = 6; k (3) = 9; : : : so ersetzen wir die Folge durch
; ; ; A1 ; A1 ; A2 ; A2 ; A2 ; A3 ; : : :
Nach einer derartigen Modi…kation erhalten wir An 2 F^n für alle n: (Diese kosmetische
Operation ist ohne grössere Bedeutung und erleichtert bloss die Notation im nachfolgenden Argument). Wir können An als Bn Sn+1 Sn+2
schreiben, Bn
n ; Bn 2 Fn :
Wir konstruieren nun eine
T Folge fxn g ; xn 2 Sn mit (x1 ; : : : ; xn ) 2 Bn für alle n:
Damit ist x := (x1 ; x2 ; : : :) 2 n An und wir haben gezeigt, dass der Durchschnitt nicht
leer ist. Bevor wir das Argument vorstellen, zunächst ein Hinweis, worin die Schwierigkeit
liegt. Natürlich können wir stets ein x1 2 B1 …nden, denn B1 ist nicht leer. Anschliessend
möchten wir zu diesem x1 ein x2 2 S2 …nden mit (x1 ; x2 ) 2 B2 ; und dann möchten wir in
dieser Weise weiterfahren. Bei einer beliebigen Wahl von x1 ist jedoch nicht garantiert,
dass wir dazu ein entsprechendes x2 …nden können. Zwar können wir stets ein (x01 ; x02 ) 2
63
B2 …nden, was dann automatisch x01 2 B1 erfüllt. Entsprechend können wir für jedes m
ein Element (y1 ; : : : ; ym ) 2 Bm …nden und dann gilt automatisch (y1 ; : : : ; yk ) 2 Bk für
k
m: Es ist jedoch in keinster Weise klar, dass wir auf diese Weise eine unendliche
Folge mit der gewünschten Eigenschaft konstruieren können. Im Allgemeinen ist das
auch gar nicht möglich. Das Problem besteht darin, dass wir x1 schon so konstruieren
müssen, dass wir in die „unendliche Zukunft“ vorausblickend, die Konstruktion später
weiterführen, damit wir anschliessend x2 ; x3 ; : : : …nden können.
Hier ist die Idee: Wir konstruieren zunächst nicht die Folge der fxn g sondern eine Folge fm ; m 2 N; von messbaren Funktionen m ! [0; 1] mit den folgenden drei
Eigenschaften.
fm (y) =
Z
Z
f1 d
fm+1 (y; z)
> 0;
1
m+1 (dz) ;
fm
(3.16)
m
1; y 2
m:
(3.17)
1B m :
(3.18)
Bevor wir diese Aussagen beweisen, zeigen wir, dass wir damit den Satz bewiesen haben. Wir konstruieren rekursiv eine Folge x1 ; x2 ; : : : mit der Eigenschaft, dass
fm x(m) > 0 für alle m gilt. Hier ist x(m) := (x1 ; : : : ; xm ) : Wegen (3.18) folgt daraus
x(m) 2 Am : Wir wählen zunächst x1 so, dass f1 (x1 ) > 0 ist, was nach (3.16) möglich ist.
Ist x(m) mit fm x(m) > 0 konstruiert, so wählen wir xm+1 so dass fm+1 x(m) ; xm+1 >
0 gilt, was wegen (3.17) möglich ist. Wie wir also sehen, implizieren (3.16)-(3.18) die
Existenz einer Folge fxi g mit den postulierten Eigenschaften.
Nun zur Konstruktion der Folge fm : Für n 0 de…nieren wir Funktionen fm;n auf
m durch
Z
fm;n (y) := 1Bm+n (y; ym+1 : : : ; ym+n ) m+1 (dym+1 )
m+n (dyn+m ) :
Dann gilt für y 2
fm;n+1 (y) =
Z
Z
=
Z
m
1Bm+n+1 (y; ym+1 : : : ; ym+n+1 )
1Bm+n
Sn+m+1
m+1 (dym+1 )
(y; ym+1 : : : ; ym+n+1 )
1Bm+n (y; ym+1 : : : ; ym+n+1 )
m+n+1 (dyn+m+1 )
m+1 (dym+1 )
m+1 (dym+1 )
m+n+1 (dyn+m+1 )
m+n (dyn+m )
= fm;n (y) ;
die Ungleichung wegen Bm+n+1
Bm+n Sn+m+1 und die Gleichung danach nach
Tonelli. Die Folge von Funktionen ist also monoton fallend in n und wir schreiben
64
fm (y) = limn!1 fm;n (y) : (3.18) ergibt sich wegen fm;0 = 1Bm : Wir zeigen nun die
anderen gewünschten Eigenschaften. Zunächst (3.16:
Z
f1;n d 1 = 1
n+1 (Bn+1 ) = Qn+1 (An+1 ) :
Damit folgt nach dem Satz von Lebesgue und (3.17)
Z
f1 d 1 = lim Qn (An ) > 0;
n!1
d.h. (3.16). Als Letztes bleibt (3.17). Für y 2 m gilt nach Tonelli
Z
fm+1;n (y; ym+1 ) n+1 (dyn+1 )
Z Z
=
1Bm+n+1 (y; ym+1 ; ym+2 ; : : : ; ym+n+1 ) m+2 (dym+2 )
m+n+1 (dym+n+1 )
m+1 (dym+1 )
= fm;n+1 (y) :
Mit n ! 1 und dem Satz von Lebesgue folgt (3.17).
De…nition 3.71
N
Die unendliche Produkt- -Algebra
i2N Si ist de…niert als die
erzeugt wird.
-Algebra, die von A
Korollar 3.72
^ hat eine eindeutige Erweiterung zu einem Wahrscheinlichkeitsmass auf ( ; F) :=
Q
Q
N
N
i2N Si ;
i2N Si : Dieses Wahrscheinlichkeitsmass nennt man das Produktmass
i2N
der Wahrscheinlichkeitsmasse i :
Im häu…g vorkommenden Fall, dass die Wahrscheinlichkeitsräume
alle gleich sind:
N
(Si ; Si ; i ) = (S; S; ) schreiben wir für
; F; i2N i einfach S N ; S N ; N :
Mit der Konstruktion von unendlichen Produkten von Wahrscheinlichkeitsmassen
können wir unendliche Folgen von unabhängigen Zufallsvariablen erzeugen. Wir diskutieren das genauer im nächsten Kapitel. Hier nur schon ein Beispiel:
Beispiel 3.73
(S; S; ) sei der Wahrscheinlichkeitsraum für einen einzigen Münzwurf, d.h. Si = S =
fK; Zg ; Si = P (S) und i = ; (fKg) = (fZg) = 1=2:
des obigen Korollars ist dann die Menge der unendlich langen K-Z-Folgen. Wir de…nieren Xi :
!
N ist ein Wahrscheinlichkeitsmass auf ( ; F) :=
fK; Zg als die i-te Projektion. P :=
fK; ZgN ; P (fK; Zg) N : Unter P ist die Verteilung von (X1 ; : : : ; Xn ) für jedes n
die Gleichverteilung auf den K-Z-Folgen der Länge n: Der Wahrscheinlichkeitsraum
; F; N ergibt somit ein Modell für einen unendlich lang fortgesetzten Münzwurf.
In diesem Modell lässt sich das Gesetz der grossen Zahlen formulieren:
1 Xn
1
P lim
1fXi =Kg =
= 1;
i=1
n
2
was wir ebenfalls im nächsten Kapitel beweisen werden.
65
i
4
Zufallsvariablen, Erwartungswerte, charakteristische Funktionen, Unabhängigkeit
Es sei ( ; F) ein messbarer Raum. Wahrscheinlichkeitsmasse auf F werden oft (aber
nicht immer) mit P , Q usw. statt mit , usw. bezeichnet (P für “probability”). Die
Elemente von F bezeichnet man in der Wahrscheinlichkeitstheorie meist als Ereignisse. Die einzelnen Elemente ! von nennt man die Elementarereignisse. Da für ein
Wahrscheinlichkeitsmass P ( ) = 1 gilt, folgt 0
P (A)
1 für jedes A 2 F. Ferner
gilt P (Ac ) = 1 P (A). Statt P -fast überall sagt man meist P -fast sicher (Abkürzung:
P -f. s.).
Ist fAn gn2N eine Folge von Ereignissen, so verwenden wir die folgenden Bezeichnungen:
[ \
Am 2 F;
lim inf An :=
n!1
n m:m n
lim sup An :=
n!1
\ [
n m:m n
Am 2 F:
Die Vereinigung im ersten Ausdruck ist o¤enbar eine ansteigende, d.h. es gilt
\
Am " lim inf An :
n!1
m:m n
Analog gilt
[
m:m n
Am # lim sup An :
n!1
Ein Element ! 2 ist genau dann in lim inf n!1 An ; wenn es in allen An bis auf endlich
vielen liegt. Man sagt dann auch, dass ! in “fast allen” An ist. ! 2 lim supn!1 An gilt
genau dann, wenn ! in unendlich vielen der An ist. Statt P (lim supn!1 An ) schreibt
man dann auch P (An unendlich oft) ; bzw für P (lim inf n!1 An ): P (An ; fast alle n) :
4.1
Erwartungswerte
De…nition 4.1
Sei X eine reelle Zufallsvariable, die auf einem Wahrscheinlichkeitsraum
( ; F; P ) de…R
niert ist. Ist X 0 oder X 2 L1 ( ; F; P ), so heisst EX = X dP der Erwartungswert
von X.
Der Erwartungswert ist also für positive Zufallsgrössen stets de…niert, kann in diesem
Fall jedoch gleich unendlich sein.
Ist X eine Zufallsvariable und : R ! R eine messbare Abbildung (in solchen Fällen
ist stets Borel-messbar gemeint), so ist die Abbildung
! R de…niert durch ! !
(X (!)) ; also die Komposition
X; ebenfalls eine Zufallsvariable. Man schreibt dafür
meist (X)
Das folgende Lemma ergibt sich aus den Eigenschaften des Integrals aus Kapitel 1.
66
Lemma 4.2
a) Sind X; Y 2 L1 ( ; F; P ) und a; b 2 R, so gelten aX + bY 2 L1 und E(aX + bY ) =
aE(X) + bE(Y ) (Linearität des Erwartungswertes).
b) Ist X
0 mit E(X) = 0, so folgt X = 0 P -fast sicher.
Beweis. a) ist einfach die Linearität des Integrals, b) folgt aus Lemma 3.42 b)
De…nition 4.3
Ist X eine Zufallsgrösse und p > 0, so ist jXjp eine nichtnegative Zufallsgrösse. Es bezeichne Lp ( ; F; P ) die Menge der auf ( ; F; P ) de…nierten Zufallsgrössen mit E(jXjp ) <
1.
Lemma 4.4
Für p p0 > 0 gilt Lp ( ; F; P )
Lp0 ( ; F; P ).
Beweis. Sei X 2 Lp und A = fjXj 1g. Dann gilt
Z
Z
Z
p0
p0
p0
E(jXj ) =
jXj dP +
jXj dP P (A) +
Ac
A
Ac
jXjp dP
1 + E(jXjp ) < 1:
Wie wir schon aus dem letzten Kapitel wissen, kann der Erwartungswert einer Zufallsvariablen X statt aus einer Integration in über P auch durch eine Integration über
die Verteilung gewonnen werden (3.11):
Z
EX = x P X 1 (dx) :
Wenden wir das auf die Zufallsvariable jXjp ; oder allgemeiner
an, so ergibt sich
Z
E (X) = x P (X) 1 (dx) :
(X) ;
: R ! R m.b.,
Wir können jedoch den Transformationssatz für Integrale (Proposition 3.51 auf g =
und f = X anwenden und erhalten
Z
E (X) =
(x) P X 1 (dx) :
Ist X diskret, so ergibt sich
E (X) =
X
(z) P (X = z) ;
z2X( )
und ist P X
1
absolut stetig bezüglich des Lebesgue Masses, mit Dichte f; so folgt
Z
E (X) =
(x) f (x) dx
67
Für die sogenannten Momente E (X p ) ; p > 0; folgt also
X
z p P (X = z)
E (X p ) =
z2X( )
im diskreten Fall, und
p
E (X ) =
Z
xp f (x) dx
R
im Fall, dass P X
1
eine Dichte f bezüglich des Lebesgue-Masses besitzt.
Satz 4.5
a) Marko¤-Ungleichung: Sei X 2 Lp mit p > 0. Dann gilt für alle a > 0 die
Abschätzung P (jXj a) a p E(jXjp ).
b) Schwarzsche Ungleichung: Sind X; Y 2 L2 , so gelten XY 2 L1 und EjXY j
(E(X 2 )E(Y 2 ))1=2 .
c) Höldersche Ungleichung: Seien p; q
gelten
XY 2 L1 und EjXY j
1 mit
1
p
+
1
q
= 1. Für X 2 Lp , Y 2 Lq
(E(jXjp ))1=p (E(jY jq ))1=q :
Beweis. Wir beweisen nur a). Die Beweise für b) und c) sind analog zu den aus der
Analysis bekannten.
Z
Z
jXjp
P (jXj a) =
1fjXj ag dP
1
dP
ap fjXj ag
Z
jXjp
dP = a p E(jXjp ):
ap
De…nition 4.6
Sei X 2 L1 . Die Varianz von X ist de…niert durch
EX)2 ) 2 [0; 1]:
var(X) = E((X
Bemerkung 4.7
Die folgenden Eigenschaften sind einfache Folgerungen aus der De…nition: Sei X 2 L1 .
a) var(X) = E(X 2
2XEX + (EX)2 ) = E(X 2 )
(EX)2 .
b) Es gilt o¤enbar var(X) < 1 () X 2 L2 .
c) var(X) = 0 () X = EX fast sicher.
d) Die Marko¤-Ungleichung angewandt auf X EX mit p = 2 ergibt P (jX
a) a12 var(X): (Tschebysche¤-Ungleichung)
68
EXj
Beispiele 4.8
a) Sei X standard normalverteilt. Dann ist EX = 0, wie wir schon gesehen hatten.
Z
1
2
2
var (X) = EX = x2 p e x =2 dx
2
Z
Z
1
1
2
2
2
x =2
=
x p e
dx = x p xe x =2 dx
2
2
Z
1
1
1
2
2
=
x p e x =2
+ p e x =2 dx = 0 + 1 = 1:
2
2
1
b) Ist X normalverteilt gemäss Beispiel 3.59 b), so ist der Parameter 2 tatsächlich
die Varianz von X; was sich sofort aus einer Variablentransformation des Integrals
ergibt.
c) Sei X exponentiell verteilt, gemäss 3.59 c), so ist EX = 1:
Z 1
Z 1
2
2 x
EX =
x e dx =
2xe x dx = 2:
0
0
Also ist
(EX)2 = 1:
p
Die positive Quadratwurzel aus der Varianz, var (X) nennt man auch die Standardabweichung von X und bezeichnet sie als X :
var (X) = EX 2
Lemma 4.9
a) Ist X eine Zufallsvariable mit existierender Varianz, und sind a; b 2 R; so gilt
var (aX + b) = a2 var (X) :
b) Ist X eine Zufallsvariable mit existierender Varianz, so hat
X
EX
X
Erwartungswert 0 und Varianz 1:
Beweis. a):
var (aX + b) = E [aX + b
= E [aX + b
= a2 E (X
E (aX + b)]2
aEX
b]2 = E a2 (X
EX)2
EX)2 = a2 var (X) :
b) folgt sofort aus a).
In diesem Zusammenhang ist die folgende Beobachtung interessant:
69
Lemma 4.10
Ist X normalverteilt mit Parametern
normalverteilt.
und Varianz
2;
so ist (X
)=
standard
Beweis. Aus dem vorangegangenen Lemma wissen wir, dass (X
) = Erwartungswert
0 und Varianz 1 hat. Dies reicht für die Behauptung jedoch nicht aus. Wir berechnen
die Verteilungsfunktion:
"
#
Z t+
X
(x
)2
1
p
P
exp
t
= P (X
t+ )=
dx
2 2
2
1
Z t
1
y2
p exp
dy;
=
2
2
1
die letzte Gleichung mit der Variablentransformation y = (x
)= :
Die Standardabweichung gibt an, in welchem Abstand man die Zufallsvariable etwa
vom Erwartungswert erwartet. Diese sehr vage Aussage wird etwas durch die Tschebysche¤Ungleichung präzisiert: Für a > 0 gilt
P (jX
EXj
a
X)
1
var (X)
2 a2 = a2 :
X
Nach dieser Ungleichung hat also eine Abweichung vom mehr als dem Dreifachen der
Standardabweichung eine Wahrscheinlichkeit von weniger als 1=9: Der Vorteil dieser
Abschätzung ist, dass sie für alle Zufallsvariablen, welche eine endliche Varianz besitzen,
gütlig ist. Der Nachteil ist jedoch, dass sie für die meisten „in der Praxis“ vorkommenden
Zufallsvariablen eine sehr schlechte Abschätzung ist.
Beispiel 4.11
Wir betrachten das Beispiel einer normalverteilten Zufallsvariablen X (mit Parameter
und Varianz 2 und schätzen P (jX
j
a) ab. Wie wir von vorangegangen Lemma
0
her wissen, ist X := (X
) = standard normalverteilt, und es gilt
P (jX
j
a) = P
Z
=
a = P X0
a + P (X a)
Z 1
Z 1
1
1
1
x2 =2
x2 =2
p e
p e
p e
dx +
dx = 2
2
2
2
a
a
X0
a
1
x2 =2
dx:
Da die Stammfunktion der Glockkurve nicht explizit berechenbar ist, verwenden wir eine
Abschätzung
Z 1
Z 1
Z
1
1 x x2 =2
1 1 1
2
x2 =2
p e
p
p xe x =2 dx
dx
e
dx =
a a
2
2 a
2
a
a
1
1
1
1
2
2
p e x =2
=
= p e a =2 :
a
2
a 2
a
Für a = 3 etwa ergibt sich
P (jX
j
3 )
2
p e
3 2
70
9=2
2:9546
10
3
und für a = 5
P (jX
j
5 )
2
p e
5 2
25=2
5:9469
10
7
:
Das ist phantasitsch viel besser als die Abschätzung durch die Tschebysche¤-Ungleichung.
Eine naheliegende Frage ist, wieso man nicht viel eher
E (jX
EXj)
anstelle der Standardabweichung betrachtet. Die Antwort ist einfach, dass sich Varianzen
typischerweise viel einfacher als Erwartungswerte von Absolutbeträgen berechnen lassen.
Für die Normalverteiltung lässt sich jedoch der obige Ausdruck sehr einfach berechnen:
Für die Standardnormalverteilung ergibt sich
Z 1
Z
1
1
2
x2 =2
x p e x =2 dx
dx = 2
E (jXj) =
jxj p e
2
2
r0
1
1
2
2
p e x =2
= 2
=
0:79788:
2
0
Somit gilt für eine allgemeine Normalverteilung
r
2
E (jX EXj) =
0:79788
:
Eine wichtige disrkete Verteilung ist die Poisson-Verteilung:
De…nition 4.12
Eine Zufallsvariable heisst Poisson-verteilt mit Parameter
reich X ( ) = N0 ist und
> 0; wenn der Wertebe-
k
P (X = k) =
k!
e
ist.
Proposition 4.13
Ist X Poisson-verteilt mit Parameter ; so gilt
EX = var (X) = :
Beweis.
EX =
=
1
X
k=0
1
X
k=0
kP (X = k) =
k+1
k!
e
=
1
X
k
k
k!
k=1
1
k
X
k=0
71
k!
e
e
=
1
X
k=1
= :
k
(k
1)!
e
EX 2 =
1
X
k 2 P (X = k) =
k=0
=
=
1
X
1
X
k
k
k=1
k+1
(k + 1)
k=0
2
k!
e
(k
1)!
1
X
=
k
k
k=0
+ :
e
k!
e
+
1
X
k=0
k
k!
e
Daraus folgt
var X = EX 2
(EX)2 =
2
+
2
= :
Wir kommen nun noch zu den analogen Begri¤sbildungen für mehrdimensionale Zufallsgrössen
De…nition 4.14
Ist X = (X1 ; : : : ; Xn ) ein Zufallsvektor, so de…niert man seinen Erwartungswert EX 2
Rn komponentenweise durch EX = (EX1 ; : : : ; EXn ) (falls dies existiert).
An die Stelle der Varianz treten die Kovarianzen:
De…nition 4.15
a) Sind X und Y zwei Zufallsgrössen aus L1 mit XY 2 L1 , so ist ihre Kovarianz
cov(X; Y ) de…niert durch
cov(X; Y ) = E(XY )
E(X)E(Y ) = E((X
EX)(Y
EY )):
b) Ist X = (X1 ; : : : ; Xn ) ein Zufallsvektor mit Xi 2 L1 und Xi Xj 2 L1 für alle
i; j 2 f1; : : : ; ng, so ist die Kovarianzmatrix (X) = ( ij (X)) de…niert durch
ij (X) = cov(Xi ; Xj ).
c) Zwei integrierbare Zufallsvariablen X; Y mit cov (X; Y ) = 0 heissen unkorreliert.
Lemma 4.16
Sind X; Y 2 L2 , so ist die Kovarianz cov(X; Y ) de…niert.
Beweis. Dies folgt aus der Schwarzschen Ungleichung.
Aus der Schwarzschen Ungleichung folgt sofort
p
p
jcov (X; Y )j
var (X) var (Y ) =
X
Y:
Manchmal betrachtet man die normierte Kovarianz, den sogenannten Korrelationskoe¢ zienten:
def cov (X; Y )
;
X;Y =
X Y
welcher nach der obigen Überlegung stets zwischen 1 und 1 liegt.
Zufallsvariablen, für die cov (X; Y ) positiv ist, nennt man positiv korreliert, und
für cov (X; Y ) < 0 negativ korreliert.
O¤enbar ist für eine eindimensionale Zufallsgrösse X : var (X) = cov (X; X) : Ist X
ein Zufallsvektor, als Spaltenvektor geschrieben, so ist (X) = E((X EX)(X EX)T ):
72
Lemma 4.17
Die Kovarianzmatrix eines Zufallsvektors ist symmetrisch und positiv semide…nit.
Beweis. Die Symmetrie ist o¤ensichtlich. Ferner gilt alle
0
Xn
E
i=1
i (Xi
E(Xi ))
2
=
n X
n
X
1; : : : ;
i j
n
2R
cov(Xi ; Xj ):
i=1 j=1
Daraus folgt die De…nitheit.
Beispiel 4.18
a) Sei X standardnormalverteilt. Dann gilt für i 2 f1; : : : ; ng
E(Xi ) = (2 )
n=2
Z
xi exp
Rn
1 Xn
x2
k=1 k
2
Für alle i; j 2 f1; : : : ; ng mit i 6= j gelten
Z
n=2
xi xj exp
E(Xi Xj ) = (2 )
Rn
n (dx)
= 0:
1 Xn
x2
k=1 k
2
n (dx)
1 Xn
x2
k=1 k
2
n (dx)
=0
und
E(Xi2 )
n=2
= (2 )
1=2
= (2 )
Z
Z
Rn
R
das heisst,
x2i exp
x2i e
x2i =2
(dxi ) = 1;
(X) ist die Einheitsmatrix.
b) Sei X ein n-dimensionaler Zufallsvektor mit Kovarianzmatrix (X) und Erwartungswert a 2 Rn : Sei ferner A eine m n-Matrix und b 2 Rm . Wir de…nieren den
m-dimensionalen Zufallsvektor Y durch Y = AX + b: Dann gelten
EY = Aa + b
(Y ) = E((Y
EY )(Y
EY )T ) = E(A (X
a) (X
a)T AT ) = A (X) AT :
Speziell sehen wir für die in De…nition 3.60 b) eingeführte allgemeine Normalverteilung, dass die Kovarianzmatrix gleich AAT und der Vektor der Erwartungswerte
gleich b ist.
Lemma 4.19
a) Sind X1 ; : : : ; Xn Zufallsvariablen 2 L2 ; so gilt
var
Xn
i=1
Xi =
Xn
i=1
var (Xi ) + 2
X
1 i<j n
73
cov (Xi ; Xj ) :
b) Sind die Xi unkorreliert, so gilt
var
Beweis. b) folgt sofort aus a). a):
var
Xn
i=1
Xi
Xn
i=1
Xi =
Xn
= E
i=1
Xn
= E
Xn
i=1
Xn
Xi
(Xi
i=1
E
var (Xi ) :
Xn
i=1
EXi )
Xi
2
2
(Xi EXi ) (Xj EXj )
= E
i;j=1
Xn
E ((Xi EXi ) (Xj EXj ))
=
i;j=1
X
Xn
cov (Xi ; Xj ) :
var (Xi ) + 2
=
i
4.2
1 i<j n
Charakteristische Funktionen
De…nition 4.20
Sei ein Wahrscheinlichkeitsmass auf (Rn ; Bn ). Die charakteristische Funktion ^
von ist die Abbildung von Rn nach C, die durch
Z
Z
Z
^ (t) = eiht;xi (dx) = cos(ht; xi) (dx) + i sin(ht; xi) (dx); t 2 Rn ;
Pn
de…niert wird. Dabei bezeichnet i die imaginäre Einheit und ht; xi =
j=1 tj xj ist
das Skalarprodukt von t und x. Die charakteristische Funktion eines Zufallsvektors X
ist die charakteristische Funktion der Verteilung von X; sie kann nach Lemma ?? als
E(exp(iht; Xi)) geschrieben werden. Die charakteristische Funktion eines Zufallsvektors
X (oder einer reellen Zufallsgrösse X) bezeichnen wir oft mit X :
Die charakteristische Funktion ist o¤enbar für alle t 2 Rn de…niert, da Sinus und
Cosinus beschränkt sind.
Lemma 4.21
^ ist stetig und erfüllt ^ (0) = 1: Ferner gilt j^ (t)j
1:
Beweis. ^ (0) = 1 ergibt sich aus der De…nition. Stetigkeit folgt aus dem Satz von
Lebesgue. j^ (t)j 1 folgt aus
Z
Z
Z
iht;xi
iht;xi
e
(dx)
e
(dx) =
(dx) = 1:
74
Bemerkung 4.22
Ist invariant unter Spiegelung am 0-Punkt, d.h. gilt
Abbildung (x) = x ist, so gilt
Z
^ (t) = cos(ht; xi) (dx):
1
= ; wobei
: Rn ! Rn die
Daraus folgt, dass ^ (t) in diesem Fall reellwertig ist.
Beweis.
Z
sin(ht; xi) (dx) =
=
Somit ist
R
Z
1
sin(ht; xi)
(dx) =
Z
sin(ht; xi) (dx):
Z
sin(ht; xi) (dx)
sin(ht; xi) (dx) = 0:
Satz 4.23
Es seien ; zwei Wahrscheinlichkeitsmasse auf (Rn ; Bn ). Gilt ^ (t) = ^(t) für alle t 2 Rn ,
so gilt = .
Beweis. Da die Familie der kompakten Mengen in Rn ein durchschnittstabiles Erzeugendensystem von Bn ist (Lemma 3.20 e)), genügt es nach Satz 3.14 nachzuweisen, dass
(K) = (K) für alle kompakten Mengen K gilt. Für eine derartige Menge K und m 2 N
sei
8
>
falls x 2 K;
<1
fm (x) = 0
falls d(x; K) := inff jx yj : y 2 K g 1=m;
>
:
1 m d(x; K) sonst.
Dann hat fm die folgenden Eigenschaften:
1. 0
fm (x)
1 für alle x 2 Rn ,
2. fm ist stetig,
3. fm hat kompakten Träger,
4. fm (x) # 1K (x) für m ! 1.
R
R
Falls fm d = fm d für alle m 2 N gilt, Rso folgt R(K) = (K) mit dem Satz
von Lebesgue. Es genügt also nachzuweisen, dass f d = f d für alle f gilt, die die
obigen Bedingungen 1.-3. erfüllen.
Sei also f eine derartige Funktion. Für " > 0 sei N > 0 so gross gewählt, dass
BN := [ N; N ]n
f x : f (x) 6= 0 g
c ); (B c )g
und maxf (BN
" gelten. Nach dem Weierstrassschen
Approximationssatz
N
P
gibt es eine Funktion g : Rn ! C der Form g(x) = m
c
exp(ih
j
j=1
N tj ; xi) mit cj 2 C
75
und tj 2 Zn , die periodisch in jeder Komponente ist und f in BN bis auf " approximiert,
das heisst, supf jf (x) g(x)j : x 2 BN g ". Es folgen supx2Rn jg(x)j 1 + " und
Z
Z
Z
Z
Z
Z
Z
Z
fd
fd
fd
gd +
gd
gd +
gd
fd :
Der zweite Summand ist nach der Voraussetzung ^ = ^ gleich null. Der erste Summand
kann wegen jg(x)j 1 + " und jf (x)j 1 für alle x 2 R folgendermassen abgeschätzt
werden:
Z
Z
Z
Z
Z
Z
fd
gd
fd
jgj d
gd +
jf j d +
Z
BN
BN
jf
BN
c
BN
c
BN
c
gj d + (1 + ") (BN
)
c
" (BN ) + (1 + ") (BN
)
"(2 + "):
Der
dritte Summand wird analog abgeschätzt. Da " > 0 beliebig war, folgt
R
fd .
R
fd
=
Beispiel 4.24
a) Sei die Standardnormalverteilung. Dann gilt
Z 1
Z 1
1
1
2
itx x2 =2
t2 =2
e (x it) =2 dx; t 2 R:
^ (t) = p
e e
dx = p e
2
2
1
1
p
Das Integral ergibt 2 (einfache Übungsaufgabe aus der Funktionentheorie). So2
mit gilt ^ (t) = e t =2 .
Man kann das Argument via die Funktionentheorie umgehen: Zunächst bemerkt
man, dass
Z 1
Z 1
1
1
2
2
cos (x) e x =2 dx + i p
sin (x) e x =2 dx:
^ (t) = p
2
2
1
1
Da der Sinus eine ungerade Funktion ist, folgt, dass das zweite Integral 0 ist. ^ (t)
ist somit reellwertig und erfüllt natürlich ^ (0) = 1: Wir betrachten die Ableitung d^ (t)=dt: Es ist einfach zu sehen, dass die Di¤erentiation mit dem Integral
vertauscht:
Z 1
d^ (t)
1
2
=p
ixeitx e x =2 dx:
dt
2
1
2
2
Wegen de x =2 =dx = xe x =2 können wir partiell integrieren. Dass die Randterme
verschwinden folgt aus dem raschen Abfall der Glockenfunktion:
Z 1
Z 1 itx
Z 1
de
2
2
2
ixeitx e x =2 dx = i
e x =2 dx = t
eitx e x =2 dx
dx
1
1
1
=
t^ (t):
76
Wir erhalten also, dass ^ (t) die Di¤erentialgleichung ^ 0 (t) = t^ (t) : Diese Di¤erentialgleichung lässt sich durch Separation der Variablen lösen und mit ^ (0) = 1
2
folgt ^ (t) = e t =2 :
b) Sei
die Cauchy-Verteilung zum Parameter c > 0. Dann gilt
Z
c 1 itx dx
^ (t) =
e
; t 2 R:
c2 + x2
1
Die Funktion C 3 z 7!
ergibt ^ (t) = e cjtj .6
c) Sei
1
c2 +z 2
hat Pole in
ic. Eine Anwendung des Residuensatzes
die Standardnormalverteilung in (Rn ; Bn ). Dann folgt
^ (t) = exp
1 Xn 2
t =e
j=1 j
2
ht;ti=2
für alle t = (t1 ; : : : ; tn ) 2 Rn :
1
d) Die allgemeine Normalverteilung ist das Bildmass =
der Standardnormaln
verteilung unter einer a¢ nen Transformation R 3 x 7! (x) = Ax + b 2 Rn .
Bezeichnet AT die Transponierte von A, so gilt
Z
Z
Z
T
iht;xi
iht; (x)i
iht;bi
^(t) = e
(dx) = e
(dx) = e
eihA t;xi (dx)
= eiht;bi ^ (AT t) = eiht;bi e
mit
hAT t;AT ti=2
= AAT als der Kovarianzmatrix von
= exp iht; bi
1
ht; ti ;
2
(siehe Beispiel 4.18 b)).
Satz 4.25
Für jedes b 2 Rn und jede positiv semide…nite, symmetrische n n-Matrix gibt es genau
eine Normalverteilung auf Rn mit b als Erwartungswert und als Kovarianzmatrix.
Beweis. Die Eindeutigkeit folgt aus Satz 4.23 und der Rechnung im obigen Beispiel.
Die Existenz folgt daraus, dass mindestens eine n n-Matrix A existiert mit AAT = ,
wenn eine nicht negative symmetrische Matrix ist.
Korollar 4.26
Sei die Normalverteilung auf Rn mit Kovarianzmatrix und a 2 Rn als Vektor der
Erwartungswerte, und sei : Rn ! Rm eine a¢ ne Abbildung, d.h. eine Abbildung der
1
Form x ! (x) := Ax + b; A eine m n-Matrix und b 2 Rm : Dann ist
die
m
Normalverteilung auf R mit Erwartungswert Aa + b und der Kovarianzmatrix A AT :
6
In diesem Beispiel kenne ich keinen Beweis, der komplexe Funktionentheorie vermeidet.
77
Beweis.
[
' 1 (t) =
Z
e
iht;xi
= eiht;bi
Z
1
'
(dx) =
T t;xi
eihA
Z
eiht;Ax+bi (dx)
(dx) = eiht;bi exp ihAT t; ai
1 T
hA t; AT ti
2
1
ht; A AT ti :
2
= exp iht; Aa + bi
Nun folgt die Aussage aus dem vorangegangen Satz und Beispiel 4.24 d).
4.3
Konvergenz von Folgen von Zufallsgrössen
Im folgenden sei fXn gn2N eine Folge von Zufallsgrössen, die auf demselben Wahrscheinlichkeitsraum ( ; F; P ) de…niert sind. In der Wahrscheinlichkeitstheorie sind drei Konvergenzbegri¤e besonders wichtig.
De…nition 4.27
a) Die Folge fXn gn2N konvergiert fast sicher gegen eine Zufallsgrösse X, falls
P (f ! 2
: lim Xn (!) = X(!) g) = 1
n!1
gilt (Notation: Xn ! X P -fast sicher).
b) Die Folge fXn gn2N Lp ( ; F; P ) konvergiert im p-ten Mittel (p > 0) gegen eine
Zufallsgrösse X, falls X 2Lp ( ; F; P ) und
lim E(jXn
n!1
Xjp ) = 0
gilt.
c) Die Folge fXn gn2N konvergiert in Wahrscheinlichkeit gegen eine Zufallsgrösse
X, falls
P (jXn Xj ") ! 0 für n ! 1
für alle " > 0 gilt.
Satz 4.28
a) Fast sichere Konvergenz impliziert Konvergenz in Wahrscheinlichkeit.
b) Konvergenz im p-ten Mittel impliziert Konvergenz in Wahrscheinlichkeit.
Beweis. Der Beweis von b) folgt sofort aus der Marko¤-Ungleichung.
a): Sei Yn = 1fjXn Xj "g für " > 0. Gilt Xn ! X fast sicher, so gilt Yn ! 0 fast
sicher. Wegen jYn j 1 folgt aus dem Satz von Lebesgue
P (jXn
Xj
") = E(Yn ) ! 0:
Die anderen denkbaren Implikationen sind nicht richtig, wie die folgenden zwei Beispiele belegen:
78
Beispiel 4.29
Sei ( ; F; P ) = ([0; 1]; B[0;1] ; ).
a) Wähle Xn = n1=p 1[0;1=n] für p > 0. Dann gilt Xn ! 0 fast sicher und in Wahrscheinlichkeit, aber E(jXn jp ) = 1 für alle n 2 N, das heisst, fXn gn2N konvergiert
nicht im p-ten Mittel gegen null.
b) Ist n = 2m + k für m 2 N0 und 0 k < 2m , so setzt man Xn = 1[k2 m ;(k+1)2 m ] .
O¤enbar konvergiert die Folge fXn (!)gn2N für kein ! 2 [0; 1]. Andererseits gelten
P (jXn j
")
2 m für alle " > 0 und E(jXn jp ) = 2 m für p > 0, das heisst
fXn gn2N konvergiert gegen null in Wahrscheinlichkeit und im p-ten Mittel.
Unter Zusatzbedingungen impliziert die fast sichere Konvergenz die Konvergenz im
p-ten Mittel:
Satz 4.30
Sei fXn gn2N eine Folge von Zufallsgrössen, die fast sicher gegen X konvergiert. Gilt
jXn j Y fast sicher für eine Zufallsgrösse Y 2 Lp (für p > 0), so gilt Xn ! X im p-ten
Mittel.
Beweis. Es gelten jXn Xjp (jXn j + jXj)p (2Y )p 2p Y p 2 L1 und jXn Xjp ! 0
fast sicher. Daher folgt aus dem Satz von Lebesgue E(jXn Xjp ) ! 0.
Wie aus Beispiel 4.29 b) hervorgeht, folgt aus der Konvergenz in Wahrscheinlichkeit
nicht die fast sichere Konvergenz. Es gilt aber der folgende Satz:
Satz 4.31
Sei fXn gn2N eine Folge von Zufallsgrössen, die in Wahrscheinlichkeit gegen X konvergiert. Dann existiert eine Teilfolge fXnk gk2N mit limk!1 Xnk = X fast sicher.
Zum Beweis benötigt man das folgende sehr einfache, aber wichtige Lemma.
Lemma 4.32 (1. Borel-Cantelli-Lemma)
P
Sei fAn gn2N eine Folge von Ereignissen mit 1
n=1 P (An ) < 1. Dann gilt P (lim supn!1 An ) =
0.
S
Beweis. Aus Bk := 1
n=k An # lim supn!1 An und Satz 3.11 a) und c) folgt
P (lim sup An ) = lim P (Bk )
n!1
k!1
lim
k!1
1
X
P (An ) = 0:
n=k
Beweis von Satz 4.31. Zu jedem k 2 N existiert nach Voraussetzung ein nk 2 N
2
mit
P1 P (jXn2k Xj 1=k) 1=k . Wir können nk+1 > nk für alle k 2 N annehmen. Da
Xj 1=k g) = 0 aus Lemma 4.32. Für
k=1 1=k < 1 gilt, folgt P (lim supk!1 f jXnk
!2
= lim supk!1 f jXnk Xj 1=k g gilt jXnk (!) X(!)j < 1=k für genügend grosse k,
das heisst limk!1 Xnk (!) = X(!).
79
Bemerkung 4.33
Alle drei Konvergenztypen sind vollständig, das heisst, dass jede Cauchy-Folge konvergiert. Für die fast sichere Konvergenz ist das klar, denn wenn Xn Xm ! 0 fast sicher
für n; m ! 1 gilt, dann folgt aufgrund der Vollständigkeit von R, dass fXn (!)gn2N für
fast alle ! 2 konvergiert. Mit Hilfe von Lemma 4.32 folgt das Entsprechende für die
Konvergenz in Wahrscheinlichkeit:
Satz 4.34
Sei fXn gn2N eine Folge von Zufallsgrössen mit
lim P (jXn
Xm j
n;m!1
") = 0
für alle " > 0. Dann existiert eine Zufallsgrösse X mit Xn ! X in Wahrscheinlichkeit.
Beweis. Wähle wie im Beweis des vorangegangenen Satzes eine Teilfolge fnk gk2N nun
aber mit
P (f jXnk Xnk+1 j 1=k 2 g) 1=k 2 :
Aus dem Borel-Cantelli-Lemma folgt
P
lim supf jXnk
Xnk+1 j
k!1
1=k 2 g
= 0:
Für ! 2
= lim supk!1 f jXnk Xnk+1 j
1=k 2 g ist fXnk (!)gk2N o¤enbar eine CauchyFolge in R, das heisst, Xnk konvergiert für k ! 1 fast sicher gegen eine Zufallsgrösse
X, also nach Satz 4.28 auch in Wahrscheinlichkeit. Für " > 0 gilt
P (jXm
Xj
")
P (jXm
Xnk j
"=2) + P (jXnk
für alle m und k. Wählt man k als die kleinste Zahl mit nk
lim P (jXm
Xj
m!1
Xj
"=2)
m, dann folgt
") = 0:
Für die Konvergenz im p-ten Mittel gilt die Vollständigkeit auch, soll aber hier nicht
bewiesen werden. (Dies sollte aus der Analysis bekannt sein, zumindest für das Lebesgue
Mass.)
4.4
Unabhängigkeit
Es sei ( ; F; P ) ein Wahrscheinlichkeitsraum. Im folgenden wird von Familien von Teilmengen von stets stillschweigend vorausgesetzt, dass sie enthalten.
De…nition 4.35
a) Teilmengen E1 ; : : : ; En von F (mit 2 Ei !) heissen unabhängig, wenn für Ai 2 Ei ,
1 i n, die folgende Gleichung gilt:
P (A1 \
\ An ) = P (A1 )
80
P (An ):
(4.1)
b) Seien eine Indexmenge I und Ei für i 2 I Teilmengen von F. Sie heissen unabhängig, wenn je endlich viele unabhängig sind.
c) Ereignisse Ai für i 2 I heissen unabhängig, wenn die Mengensysteme fAi ; g,
i 2 I, unabhängig sind.
Notation: Für zwei unabhängige Teilmengen E1 , E2 von F schreiben wir E1 ? E2 .
Die Voraussetzung, dass die Mengensysteme stets
enthalten, dient nur der bequemen Notation. Dies hat nämlich zur Folge, dass für unabhängige Mengensysteme
E1 ; : : : ; En auch stets
k
Y
\ Aik ) =
P (Aij )
(4.2)
P (Ai1 \
j=1
für fi1 ; : : : ; ik g f1; : : : ; ng und Aij 2 Eij ist. Setzt man 2 Ei nicht voraus, so muss
man (4.2) als De…nition verwenden, was o¤ensichtlich stets einen grösseren Schreibaufwand erfordert.
Lemma 4.36
a) Sind die Ei für i 2 I unabhängig und gilt Di
unabhängig.
S
b) Gilt D ? Ei für i 2 I, so gilt D ? i2I Ei .
Ei für i 2 I, so sind die Di für i 2 I
Beweis. a) ist klar.
S
b) Für A 2 D und B 2 i2I Ei existiert ein i 2 I mit B 2 Ei , das heisst, dass
P (A \ B) = P (A)P (B) gilt.
Wir diskutieren nun einige Möglichkeiten, Unabhängigkeitsaussagen von Mengensystemen auf grössere Mengensysteme hochzuziehen.
Satz 4.37
Es seien Di für i 2 I unabhängige Teilmengen von F (stets
durchschnittstabil, so sind die (Di ) für i 2 I unabhängig.
2 Di ). Sind die Di
Beweis. Es genügt den Satz zu zeigen, wenn I endlich ist. Sei etwa I = f1; : : : ; ng. Wir
müssen (4.1) für Ai 2 (Di ) nachweisen. Für 0 k n sei Lk die folgende Aussage:
P (A1 \
\ An ) = P (A1 )
P (An ); 8Ai 2 (Di ) f u
•r i
k; 8Ai 2 Di f u
•r i > k:
Die Aussage L0 gilt wegen der Unabhängigkeit der Di .
Wir zeigen Lk ) Lk+1 für 0 k n 1. Wir betrachten dazu das Mengensystem
Ak+1 bestehend aus den Mengen Ak+1 2 (Dk+1 ); die die Eigenschaft haben, dass die
Gleichung (4.1) für 8A1 2 (D1 ); : : : ; 8Ak 2 (Dk ); 8Ak+2 2 Dk+2 ; : : : ; 8An 2 Dn gilt
Aus Lk folgt Ak+1 Dk+1 . Wir zeigen, dass Ak+1 ein Dynkin-System ist.
(i)
2 Ak+1 gilt wegen
2 Dk+1 .
81
(ii) Für D 2 Ak+1 gilt
0
1
0
1
k
n
k
n
\
\
\
\
P@
Aj \ D c \
Aj A = P @
Aj \
Aj A
j=1
j=k+2
=
Y
j=1
P (Aj )
j=k+2
P (D)
j:j6=k
=
Y
Y
0
P@
k
\
j=1
Aj \ D \
P (Aj )
n
\
j=k+2
Aj A
j:j6=k
P (Aj ) P (Dc ):
j:j6=k
für alle Ai gemäss den obigen Bedingungen, das heisst Dc 2 Ak+1 .
S
(iii) Für paarweise disjunkte Di 2 Ak+1 , i 2 N, folgt analog 1
i=1 Di 2 Ak+1 .
Nach Satz 3.8 folgt Ak+1 = (Dk+1 ), das heisst, dass Lk+1 gilt.
Bemerkung 4.38
Da das Mengensystem fA; g durchschnittstabil ist, folgt, wenn die Ereignisse Ai für
i 2 I unabhängig sind, dass auch die -Algebren f;; Ai ; Aci ; g unabhängig sind; insbesondere dann auch die Komplemente Aci .
Korollar 4.39
Es seien Di
F für i 2 I unabhängig und durchschnittstabil. Es sei S(Ik )k2K eine
Familie von paarweise disjunkten Teilmengen von I. Dann sind die ( j2Ik Dj ) für
k 2 K unabhängig.
^ k die Familie der endlichen Durchschnitte von Elementen aus
Beweis. Für k 2 K sei D
^ k ist o¤enbar durchschnittstabil, und da die Dj
Dj für j 2 Ik . Das Mengensystem D
^ k die Gestalt Aj \
durchschnittstabil sind, hat jedes Element aus D
\ Ajn mit n 2 N,
1
^ k für k 2 K
Aj 2 Dj und verschiedenen j1 ; : : : ; jn 2 Ik . Daraus folgt
sofort,
dass
die
D
S
^
^
unabhängig sind. Da Dk Dj für alle j 2 Ik ist, gilt ( j2Ik Dj ) = (Dk ). Das Lemma
folgt nun aus Satz 4.37.
Als Folgerung ergibt sich das folgende verblü¤ende Resultat mit einem ebenso verblüffenden Beweis:
Satz 4.40 (Kolmogoro¤s 0-1-Gesetz)
Sei fFn gn2N eine Folge von unabhängigen Teil- -Algebren Fn von F. Seien Fn :=
W1
T1
k=n Fk und T1 =
n=1 Fn . Für A 2 T1 gilt P (A) 2 f0; 1g.
T1 heisst die -Algebra der terminalen Ereignisse der Folge fFn gn2N oder auch
terminale -Algebra der Fn .
W
Beweis. Nach Korollar 4.39 gilt Fn+1 ? nk=1 Fk , also nach Lemma 4.36
W
S1 a):
WnT1 ?
n
F
für
alle
n
2
N.
Somit
gilt
nach
Teil
b)
desselben
Lemmas
T
?
1
k=1 k
n=1 k=1 Fk .
82
1
Da die rechte Seite als Vereinigung einer aufsteigenden Folge von
schnittstabil ist, folgt nach Satz 4.37
!
1 _
n
1
[
_
T1 ?
Fk =
Fn :
n=1 k=1
-Algebren durch-
n=1
W1
W1
Nun ist aber Fn
k=1 Fk für alle n 2 N, also auch T1
n=1 Fn . Nach Lemma 4.36
folgt also T1 ? T1 , das heisst, für A 2 T1 gilt P (A) = P (A \ A) = P (A)2 , das heisst
P (A) 2 f0; 1g.
Teil- -Algebren T
F in einem Wahrscheinlichkeitsraum ( ; F; P ), die die Eigenschaft haben, dass P (A) 2 f0; 1g für alle A 2 T ist, spielen in der Wahrscheinlichkeitstheorie eine grosse Rolle. Die einfachste derartige Teil- -Algebra ist natürlich f;; g. T1
aus dem obigen Satz ist jedoch im allgemeinen sehr viel grösser als f;; g. Dennoch ist
P eingeschränkt auf T1 gewissermassen trivial. Ereignisse, die in T1 liegen, sind gewissermassen „nicht mehr zufällig“. Dieser Aspekt spiegelt sich auch in dem nachfolgenden
Lemma über Zufallsgrössen wieder:
Lemma 4.41
Es sei T
F eine -Algebra mit P (A) 2 f0; 1g für alle A 2 T . Ist Z eine (R; B)-wertige,
T -messbare Zufallsgrösse, so existiert ein c 2 R mit P (Z = c) = 1.
Beweis. Sei F (t) = P (Z
t), so ist F (t) 2 f0; 1g für t 2 R. Die Funktion F ist
nichtfallend. Demzufolge sind drei Fälle möglich:
1. F (t) = 0 für alle t 2 R ) P (Z > n) = 1 für alle n ) P (Z = 1) = 1.
2. F (t) = 1 für alle t 2 R ) P (Z
n) = 1 für alle n ) P (Z =
1) = 1.
3. F springt an einer Stelle t0 2 R von 0 nach 1. Dann gilt
F
t0 +
1
n
F
t0
1
n
=P
Z2
t0
1
1
; t0 +
n
n
Somit ist dann P (Z = t0 ) = limn!1 P (Z 2 (t0
1
n;
= 1 für alle n 2 N:
t0 + n1 ]) = 1.
Wir werden Anwendungen von Satz 4.40 weiter unten diskutieren.
Wir diskutieren nun Unabhängigkeit im Zusammenhang mit Zufallsvariablen. Wir
fassen den Begri¤ „Zufallsvariable“ etwas weiter als bisher. Ist (S; S) ein messbarer
Raum, so nennen wir eine messbare Abbildung X : ! S eine (S; S)-wertige Zufallsgrösse. Konvention: Wir sprechen von Zufallsvariablen im Falle (S; S) = (R; B) :
De…nition 4.42
Seien Xi , i 2 I, auf dem Wahrscheinlichkeitsraum ( ; F; P ) de…nierte (Si ; Si )-wertige Zufallsgrössen. Die Xi heissen unabhängig, wenn die Teil- -Algebren Xi 1 (Si ) unabhängig
sind. (Die Xi müssen auf demselben Wahrscheinlichkeitsraum de…niert sein, damit die
Aussage einen Sinn hat. Hingegen können die (Si ; Si ) verschieden sein.)
83
Notation: Sind zwei Zufallsgrössen unabhängig, so schreiben wir X ? Y .
Lemma 4.43
Xi ; i 2 I seien auf einem Wahrscheinlichkeitsraum ( ; F; P ) de…nierte Zufallsgrössen
mit Werten in (Si ; Si ):
a) Sind Di
F für i 2 I unabhängig und sind die Xi Di -Si -messbar, so sind diese
unabhängig.
b) Sind die Xi unabhängig und sind 'i : Si ! Si0 Si -Si0 -messbare Abbildungen (Si0
-Algebren auf Si ); so sind die 'i Xi ebenfalls unabhängig.
c) Etwas allgemeiner: Die Xi seien wieder unabhängig und Ik ; k 2 K; seien paarweise
disjunkte
Teilmengen von I: Ferner sei für jedes k 2 K eine messbare Abbildung
Q
0
0
0
:
sind. Die Messbarkeit
k
i2K Si ! Sk gegeben, wobei (Sk ; Sk ) messbare Räume
Q
von k bezieht sich auf die Produkt- -Algebra auf i2K Si : Wir de…nieren die
Abbildung
Yk := k (Xi )i2IK ;
Q
wobei
(X
)
die
Abbildung
!
i
i2K Si de…niert durch ! ! (Xi (!))i2Ik 2
i2I
K
Q
i2K Si ist. Dann sind die Zufallsgrössen Yk ; k 2 K unabhängig.
d) Die Xi sind genau dann unabhängig, wenn für jede endliche Teilmente fi1 ; : : : ; in g
I sowie A1 2 Si1 ; : : : ; An 2 Sin die Gleichung
P (Xi1 2 A1 ; : : : ; Xin 2 An ) =
n
Y
j=1
P (Xij 2 Aj )
(4.3)
gilt.
Beweis. Die Aussagen folgen alle unmittelbar aus den De…nitionen, c) unter Verwendung
von Korollar 4.39.
Bemerkung 4.44
Im Falle einer endlichen Familie X1 ; : : : ; Xn von Zufallsgrössen ist die Bedingung (4.3)
äquivalent damit, dass für Aj 2 Sj ; j = 1; : : : ; n; die Gleichung
P (X1 2 A1 ; : : : ; Xn 2 An ) =
n
Y
j=1
P (Xj 2 Aj )
(4.4)
gilt. Aus (4.3) folgt o¤ensichtlich (4.4). Umgekehrt, können wir in (4.4) auch einzelne
der Aj gleich Sj wählen, sodass wir (4.3) erhalten.
Im Spezialfall reeller Zufallsvariablen Xi ergibt sich das folgende Kriterium für die
Unabhängigkeit:
84
Lemma 4.45
Zufallsvariablen Xi , i 2 I, sind genau dann unabhängig, wenn für alle n 2 N, i1 ; : : : ; in 2
I und t1 ; : : : ; tn 2 R
P (Xi1
t1 ; : : : ; Xin
tn ) =
n
Y
P (Xij
tj )
j=1
gilt.
Beweis. f Xi 1 (( 1; t]) : t 2 R g [ f g ist ein durchschnittstabiles Erzeugendensystem
von Xi 1 (B). Die Behauptung folgt aus Satz 4.37.
Eine andere Folgerung aus der Unabhängigkeit ist
Satz 4.46
Es seien X, Y zwei unabhängige reelle Zufallsgrössen.
a) Falls X und Y nichtnegativ sind, so gilt E(XY ) = E(X)E(Y ).
b) Sind X; Y 2 L1 , so gilt XY 2 L1 und E(XY ) = E(X)E(Y ), d.h. es gilt cov (X; Y ) =
0:
Beweis. a): Es seien F1 := X 1 (B) und F2 := Y 1 (B). Dann gilt F1 ? F2 . Für A 2 F1
erfüllt die Menge der nichtnegativen F2 -messbaren Zufallsgrössen Y 0 mit E(1A Y 0 ) =
P (A)E(Y 0 ) die Eigenschaften (i)-(iii) von Satz 3.36. Demzufolge gilt diese Gleichung
für alle nichtnegativen F2 -messbaren Y 0 , also insbesondere für Y selbst. Die Menge
der nichtnegativen F1 -messbaren Zufallsgrössen X 0 mit E(X 0 Y ) = E(X 0 )E(Y ) erfüllt
ebenfalls die Bedingungen von Satz 3.36. Das gleiche Argument wie oben belegt, dass
diese Gleichung für X 0 = X gilt.
b): Aus X ? Y folgt jXj ? jY j. Somit folgt aus Teil a), dass gilt: E(jXY j) =
E(jXj)E(jY j) < 1, wenn X; Y 2 L1 sind, das heisst XY 2 L1 . Die Gleichung E(XY ) =
E(X)E(Y ) folgt, indem X und Y in Positiv- und Negativteil zerlegt werden.
Besonders nützlich für die Untersuchung von unabhängigen Zufallsgrössen sind charakteristischen Funktionen.
Satz 4.47
Es seien X, Y zwei unabhängige Zufallsgrössen mit charakteristischen Funktionen XX
beziehungsweise XY . Dann ist XX XY die charakteristische Funktion von X + Y .
Beweis. Für alle t 2 R gilt
E(eit(X+Y ) ) = E(eitX eitY ) = E(eitX )E(eitY );
da eitX ? eitY gilt. Der Beweis ist insofern unvollständig, als Satz 4.46 nur für reellwertige
Zufallsgrössen bewiesen wurde. Eine Zerlegung in Real- und Imaginärteil liefert jedoch
sofort die entsprechende Aussage für komplexwertige Zufallsgrössen.
Konstruktion von unabhängigen Zufallsgrössen
85
Seien Xi Zufallsgrössen, die auf demselben Wahrscheinlichkeitsraum ( ; F; P ) de…niert sind, wobei Xi Werte in (Si ; Si ) annimmt. Typischerweise wird (Si ; Si ) = (R; B)
sein, aber wir müssen das nicht voraussetzen. Der Index i ist entweder aus der endlichen Mengen f1; : : : ; ng oder in N:
Q Die Xi de…nieren einen „Zufallsvektor“ X = fXi gi ;
den wir als Abbildung
X
:
!
i Si au¤assen können. Wie wir schon früher gesehen
N
hatten, ist X eine F- i Si -m.b. Abbildung.
Wir können die Verteilungen i = P Xi 1 ; d.h. die Verteilung der Q
einzelnen
N Grössen
auf (Si ; Si ) betrachten, sowie die gemeinsame Verteilung P X 1 auf ( i Si ; i Si ) :
Proposition 4.48
Die Xi sind genau dann unabhängig, wenn
PX
1
=
gilt.
O
i
i
Beweis. Wir betrachten zunächst den Fall einer endlichen Indexmenge: i = 1; : : : ; n: Da
die Mengen
der Form A1
An ; Ai 2 Si ein durchschnittstabiles Erzeugendensystem
N
von i Si bilden, gilt die obige Gleichung genau dann, wenn
O
P X 1 (A1
An ) =
An ) :
i (A1
i
Die linke Seite ist P (X1 2 A1 ; : : : ; Xn 2 An ) und die rechte Seite
Yn
Yn
(A
)
=
P (Xi 2 Ai ) :
i
i
i=1
i=1
Die Behauptung folgt nun aus Bemerkung 4.44.
Im Falle einer unendlichen Folge müssen wir einfach die De…nition des unendlichen
Produktmasses verwenden: Einerseits sind die Xi ; i 2 N; genau dann unabhängig, wenn
für jedes n die Grössen
X
1 ; : : : ; Xn unabhängig sind. Anderseits ist ein WahrscheinlichQ
N
1 =
keitsmass Q auf ( i Si ; i Si ) genau dann das Produktmasse der i ; wenn Q 1;n
n für jedes n gilt, wobei 1;n die in Kapitel 3.7 eingeführten Projektionen
Q
Q1
n
S
!
i2N i
i=1 Si sind.
Zusammen mit der Konstruktion von unendlichen Produktmassen aus Kapitel 3.7
ergibt die obige Proposition die Konstruktion von Folgen von unabhängigen Zufallsgrössen mit beliebig vorgegebenen Verteilungen:
(Si ; Si ; i ) ; i 2 N; beliebige
Q EsNseien N
Wahrscheinlichkeitsräume. Sei ( ; F; P ) = ( i Si ; i Si ; i i ) der Produktraum gemäss Korollar 3.72. Ferner seien die Xi die Projektionen
! Si : Dann sind diese
1
Zufallsgrössen unabhängig und P Xi = i gilt für alle i 2 N: Entsprechend erfolgt die
Konstruktion von endlich vielen unabhängigen Zufallsgrössen.
Ein triviales Beispiel (welches die ganze Masstheorie nicht erfordert) ist die Konstruktion des sogenannten Bernoulli-Experiments. Hier konstruieren wir eine endliche
Folge von unabhängigen Kopf-Zahl-Folgen, wobei wir auch gezinkte Münzen zulassen.
Ausgangspunkt ist der Wahrscheinlichkeitsraum fK; Zg versehen mit der diskreten Verteilung p (K) = p; p (Z) = 1 p; wobei p 2 [0; 1] ein Parameter ist. Mit = fK; Zgn ; F
86
der Potenzmenge, und P dem Produktmass sind die Projektionen von auf die einzelnen
Faktoren unabhängige Zufallsgrössen. P ist natürlich einfach gegeben durch
p)n
P ((x1 ; : : : ; xn )) = pk (1
k
;
wobei k die Anzahl der „Köpfe“ in der Folge (x1 ; : : : ; xn ) 2 fK; Zgn ist.
Eine wichtige Zufallsvariable, die auf dem Bernoulli-Experiment de…niert ist, ist die
„Anzahl der Erfolge“, wobei wir „Kopf“ als Erfolg deklarieren. Wir setzen also
Sn :=
n
X
i=1
1fXi =Kg :
Die Verteilung von Sn ist natürlich
P (Sn = k) =
n k
p (1
k
p)n
k
:
Man nennt diese Verteilung die Binomialverteilung mit Parametern p; n; und schreibt
sie als
n k
b (k; n; p) =
p (1 p)n k :
k
Hier noch der Erwartungswert und die Varianz der Binomialverteilung:
Proposition 4.49
Ist Sn binomialverteilt mit Parametern n; p; so gilt ESn = np und var (Sn ) = np (1
Beweis.
ESn =
n
X
i=1
p) :
E1fXi =Kg = np;
und wegen der Unabhängigkeit der 1fXi =Kg :
var Sn =
n
X
i=1
var 1fXi =Kg
var 1fXi =Kg = n var 1fXi =Kg ;
= E 1fXi =Kg
= p
2
p2 = p (1
E1fXi =Kg
2
p) :
Wir können auch das unendlich lange Bernoulli-Experiment de…nieren, indem wir
= fK; ZgN setzen, versehen mit der Produkt- -Algebra und dem Produktmass. Dann
sind die Xi : ! fK; Zg ; i 2 N; unabhängig.
Wir können die Sache jedoch weiter verallgemeinern, indem die Wahrscheinlichkeit
für „Kopf“ für jeden Indes i verschieden ist.
87
Noch allgemeiner: Seien i beliebige
N Wahrscheinlichkeitsmasse auf (R; B) ; i 2 N: Wir
N
N
de…nieren ( ; F; P ) := R ; B ; i2N i und Xi : ! R als die Projektionen auf die
einzelnen Faktoren. Dann sind die Xi unabhängige Zufallsvariable mit P Xi 1 = i :
Summen von unabhängigen Zufallsvariablen
Aus Satz 4.47 und Satz 4.23 folgt , dass die Verteilung von X + Y für unabhängige
Zufallsgrössen X, Y nur von den Verteilungen von X und Y abhängt. Man nennt diese
Verteilung auch die Faltung der einzelnen Verteilungen.
Die Verteilungsfunktion von X + Y kann auch wie folgt berechnet werden: Seien
= P X 1 , = P Y 1 . Dann ist nach der obigen Proposition die Verteilung von (X; Y )
gleich
und es gilt:
Z
ft (x; y)(
)(d(x; y))
P (X + Y
t) =
R2
mit ft (x; y) = 1fx+y tg = 1( 1;t y] (x). Nach dem Satz von Fubini ist die rechte Seite
gleich
Z
Z Z
FX (t y) (dy);
1( 1;t y] (x) (dx) (dy) =
=
R
R
R
wobei FX die Verteilungsfunktion von X ist. Hat die Verteilung von X die Dichte f und
diejenige von Y die Dichte g bezüglich des Lebesgue Masses, so ergibt sich
!
Z
Z
f (x) (dx) g(y)
(dy)
P (X + Y
t) =
R
=
Z
R
=
Z
( 1;t y]
Z
!
f (x
y) (dx) g(y)
(dy)
f (x
y)g(y) (dy)
(dx) :
( 1;t]
( 1;t]
Z
R
Demzufolge hat dann auch die Verteilung von X + Y eine Dichte bezüglich , nämlich
die Abbildung
Z
Z
x 7!
f (x y)g(y) (dy) =
f (y)g(x y) (dy) :
R
R
Charakteristische Funktionen sind für die Berechnung jedoch oft einfacher.
Beispiel 4.50
a) Cauchy-Verteilung:
Behauptung: Sind X, Y unabhängig und Cauchy-verteilt zum Parameter c > 0,
so ist für 2 (0; 1) die Zufallsgrösse X + (1
)Y auch Cauchy-verteilt zum
Parameter c > 0.
Beweis: Für 2 (0; 1) und t 2 R gilt:
X+(1
)Y (t)
= E(exp(it( X + (1
= exp( cj tj) exp( cj(1
88
)Y ))) =
X(
)tj) = e
t)
cjtj
:
Y ((1
)t)
b) Normalverteilung:
Behauptung: Ist X normalverteilt mit Mittelwert a und Varianz 2 , Y normalverteilt mit Parametern a0 , 02 , und gilt X ? Y , so ist X + Y normalverteilt mit
Parametern a + a0 und 2 + 02 .
Beweis: Für t 2 R gilt:
2
X+Y (t)
=
X (t) Y (t)
= exp iat
1
(
2
= exp i(a + a0 )t
2
2
02
+
t2
exp ia0 t
02
2
t2
)t2
Zum Schluss des Kapitels beweisen wir noch eine partielle Umkehrung des BorelCantelli-Lemmas:
Lemma 4.51 (2. Borel-Cantelli-Lemma)
P1
Es seien An für n 2 N unabhängige Ereignisse mit
n=1 P (An ) = 1. Dann gilt
P (lim supn!1 An ) = 1.
Beweis. Für n 2 N gilt
P
[1
m=n
Am = 1
=1
1
P
\1
lim
k!1
lim
k!1
= 1:
m=n
k
Y
m=n
k
Y
Acm = 1
P (Acm )
=1
m=n
k!1
lim
k!1
exp [ P (Am )] = 1
m=n
\k
lim P
k
Y
(1
Acm
P (Am ))
m=n
lim exp
k!1
Xk
m=n
P (Am )
Somit folgt:
P (lim sup An ) = P
n!1
\ 1 [1
n=1
m=n
Am = lim P
n!1
[1
m=n
Am = 1:
Bemerkung 4.52
Man kann auf die Voraussetzung der Unabhängigkeit im obigen Lemma nicht vollständig
verzichten.
Zum Beispiel gilt mit An = A für alle n 2 N und 0 < P (A) < 1 natürlich
P
n P (An ) = 1, aber P (lim supn!1 An ) = P (A) < 1. Es gibt jedoch Verallgemeinerungen, die mit stark abgeschwächten Voraussetzungen auskommen.
5
Gesetze der grossen Zahlen
Das einfachste Gesetz der grossen Zahlen ist das sogenannte schwache Gesetz, das Aussagen über Konvergenz in Wahrscheinlichkeit macht.
89
Satz 5.1
Xn ; n 2 N; sei eine Folge von Zufallsvariablen in L2 , die alle die gleiche Verteilung
haben, und die unkorreliert sind. Dann gilt für jedes " > 0
lim P
n!1
wobei
= EXi ist.
Beweis. Wegen
E
1 Xn
Xi
i=1
n
1 Xn
Xi
i=1
n
=
folgt aus der Tschebysche¤-Ungleichung
P
1 Xn
Xi
i=1
n
"
=
=
"
= 0;
1 Xn
EXi =
i=1
n
1
1 Xn
Xi
var
2
i=1
"
n
Xn
1
1 Xn
X
=
var (Xi )
var
i
i=1
i=1
" 2 n2
" 2 n2
1
var (X1 ) ;
2
" n
was für n ! 1 gegen 0 konvergiert.
Bemerkung 5.2
a) Die erste Version des Gesetztes stammt von Jacob
P Bernoulli, der das Gesetz für
die Binomialverteilung gezeigt hatte, also wenn ni=1 Xi die Anzahl der Erfolge in
einem Bernoulli-Experiment ist, d.h. wenn die Xi unabhängig sind mit Werten in
f0; 1g und P (Xi = 1) = p: In diesem Fall ist = p und das Gesetz besagt, dass für
grosse n die relative Anzahl der Erfolge mit grosser Wahrscheinlichkeit in der Nähe
von p ist. Bernoulli kannte die Tschebysche¤-Ungleichung noch nicht und er hat
eine detaillierte Analyse der Binomialkoe¢ zienten verwendet. Die Abschätzung der
Wahrscheinlichkeiten, die er beweist, ist für diesen Fall wesentlich besser als die
Abschätung über die Tschebysche¤-Ungleichung.
b) Das Gesetz gilt für unkorreliert Zufallsvariablen unter der schwächeren Voraussetzung Xi 2 L1 ; ist dann jedoch schwieriger zu beweisen. Wir wollen das hier nicht
weiter verfolgen.
Wir wenden uns nun dem wesentlich schwierigeren starken Gesetz der grossen Zahlen
zu. Es gilt nicht mehr nur unter der Voraussetzung der Unkorreliertheit, sondern benötigt
die Unabhängikeiten der Zufallsvariablen.7 Zunächst einige einfache Folgerungen aus dem
Kolmogoro¤sche 0-1-Gesetz (Satz 4.40).
Dies soll nun auf unabhängige Zufallsvariablen angewandt werden. Sei fXn gn2N eine
1
Folge unabhängiger Zufallsvariablen, und FP
n := Xn (B). Es sei T1 die terminale n
Algebra der Fn wie in Satz 4.40. Mit Sn sei j=1 Xj bezeichnet.
7
Allerdings gibt es weitgehende Verallgemeinerungen, welche unter wesentlich schwächeren Annahmen
gilt.
90
Lemma 5.3
Sei fan gn2N eine Folge positiver Zahlen mit an ! 1. Dann sind Y := lim supn!1
und Y := lim inf n!1 Sann T1 -messbare (R; B)-wertige Zufallsgrössen.
Sn
an
Beweis. Für jedes m 2 N gilt
Y = lim sup
n!1
n
Xn
1 X
1 Xm
Sn
Xj = lim sup
Xj +
= lim sup
Xj ;
j=m+1
j=1
an
n!1 an
n!1 an
j=m+1
was o¤enbar Fm -messbar ist. Daher ist Y T1 -messbar. Für Y geht der Beweis gleich.
Als Folgerung aus Lemma , dem Kolmogoro¤ 0-1-Gesetz und Lemma 5.3 ergibt sich:
Satz 5.4
Es sei fXn gn2N eine Folge von unabhängigen Zufallsgrössen und fan gn2N eine positive
Zahlenfolge mit limn!1 an = 1. Dann sind Y = lim supn!1 Sann und Y = lim inf n!1 Sann
fast sicher konstant in [ 1; 1].
Beispiel 5.5
a) Die Xn seien unabhängig und Cauchy-verteilt zu c = 1 und sei an = n. Aus Beispiel
4.50a) folgt sofort, dass Sn =n auch Cauchy-verteilt ist zu c = 1. Somit ist für a 2 R:
!
Z 1
1
1
Sn
Sk
0<
dx = P
a
P sup
a
1 + x2
n
k n k
a
!P
lim sup
n!1
Sn
n
a
= P (Y
a):
Daraus folgt
P (Y
a) = lim P
n!1
Sk
sup
k n k
!
a
>0
Nach Satz 5.4 folgt P (Y
a) = 1 für alle a 2 R, das heisst P (Y = 1) = 1. Analog
zeigt man P (Y = 1) = 1.
b) Die Zufallsgrössen Xn seien unabhängig und standard-normalverteilt. Nach Beip
spiel 4.50 b) ist auch Sn = n standard-normalverteilt. Wie oben folgt dann, dass
p
p
lim supn!1 Sn = n = 1 fast sicher und lim inf n!1 Sn = n = 1 fast sicher gilt.
Aus diesem Beispiel ist ersichtlich, dass Sn =n im Cauchy-verteilten Fall nicht fast
sicher konvergiert. Dies widerspricht nicht dem Gesetz der grossen Zahlen, weil Cauchyverteilte Zufallsgrössen keinen Erwartungswert besitzen.
Satz 5.6 (Starkes Gesetz der grossen Zahlen)
Sei fXn gn2N eine Folge von unabhängigen Zufallsgrössen,
Pn die alle dieselbe Verteilung haben. Es gelte Xi 2 L1 für alle i 2 N, und es sei Sn = i=1 Xi . Dann gilt limn!1 Sn =n =
EX1 fast sicher.
91
Bemerkung 5.7
Unter der Zusatzbedingung Xi 2 L4 kann ein einfacher Beweis wie folgt geführt werden:
Sei a = EXn (unabhängig von
Xn0 := Xn a. Es gilt EXn0 = 0, und Sn =n ! a fast
Pn),
n
0
sicher gilt genau dann, wenn
i=1 Xi =n
n
o ! 0 fast sicher gilt. Man kann also annehmen,
dass a = 0 ist. Sei An =
der Marko¤-Ungleichung:
Sn
n
1
n1=8
; A = lim supn!1 An . Wir schätzen P (An ) mit
P (An )
n1=2
E(Sn4 ):
n4
Nun ist
E(Sn4 ) = E
=
Xn
i=1
n
X
Xi
4
0
=E@
n
X
i1 ;i2 ;i3 ;i4 =1
E(Xi1 Xi2 Xi3 Xi4 ) =
n
X
1
Xi1 Xi2 Xi3 Xi4 A
E(Xi4 ) + 3
i=1
i1 ;i2 ;i3 ;i4 =1
X
E(Xi2 Xj2 ):
i6=j
Um die letzte Gleichung einzusehen beachte man, dass die Terme der Summe mit einem
Index, der verschieden von den anderen ist, wegen EX = 0 und der Unabhängigkeit
4
4
2 2
alle
P1verschwinden. Somit folgt E(Sn ) = nE(X1 ) + 3n(n 1)(E(X1 )) . Daraus folgt folgt
n=1 P (An ) < 1, und aus dem 1. Borel-Cantelli-Lemma (Lemma 4.32) folgt P (A) = 0.
Für ! 2
= A konvergiert Sn (!)=n o¤enbar gegen null.
Der eigentliche Beweis (unter der Bedingung Xi 2 L1 ) verwendet eine Reihe von
subtilen Tricks.8
Zunächst bemerken wir, dass es ausreicht, das Gesetz für nicht-negative Zufallsvariablen zu beweisen. Sind nämlich Xi unabhängige und integrierbare Zufallsvariablen, so
sind Xi+ und Xi nicht negative, unabhängige, und integrierbare Zufallsvariablen. Gilt
für diese das Gesetz der grossen Zahlen, so folgt
Sn
= lim
n!1 n
n!1
lim
1 Xn
X+
i=1 i
n
1 Xn
X
i=1 i
n
= EX1+
EX1 = EX:
Wir nehmen deshalb nun an, dass Xi 0 gilt. Dieses ist der erste Trick, doch der zweite
folgt sogleich:
Er besteht darin, dass man das Gesetz erst für Limiten entlang geeigneter Teilfolgen
beweist. Für > 0, k 2 N; de…nieren wir
h
i
n ( ; k) := (1 + )k :
Wir benötigen unten einige einfache Eigenschaften dieser Folge:
8
Der Beweis stammt von N. Etemadi: An elementary proof of the strong law of large numbers. Prob.
Theory and Rel. Fields, Vol 55, 119-122 (1981)
92
Lemma 5.8
a)
n ( ; k + 1)
= (1 + ) ;
n ( ; k)
limk!1
und daher existiert K ( ) 2 N; sodass
1+
für k
n ( ; k + 1)
n ( ; k)
2
1+2
(5.1)
K ( ) gilt.
b) Für jede Zahl a
2 gilt
X
k:(1+ )
und
X
1+
n (k; )
k
a
(5.2)
a
n (k; )
2 (1 + )
1
a
1
:
(5.3)
k
k:(1+ ) >a
Beweis. a) sei dem Leser als einfach Übungsaufgabe überlassen
Beweis von (5.2): Sei K die grösste natürliche Zahl mit (1 + )K
X
X
n (k; )
k:(1+ )k a
k
(1 + ) =
= (1 + )
(1 + )k
k=1
k:(1+ )k a
K
K
X
K
X1
j
(1 + )
K
(1 + )
j=0
1+
=
a: Dann gilt
1
X
(1 + )
j
j=0
1+
(1 + )K
a
(5.3): Sei K wie oben.
X
n (k; )
1
=
k=K+1
k
k:(1+ ) >a
Für k > K ist (1 + )k
a
h
Somit folgt
1
X
k=K+1
h
k
(1 + )
i
1
1
X
h
(1 + )k
i
1
:
2 und daraus folgt
(1 + )k
2
i
1
X
(1 + )k
(1 + )
k
k=K+1
93
1
=
(1 + )k
:
2
2 (1 + )
(1 + )
K 1
2 (1 + )
a:
Lemma 5.9
Für jedes ; " > 0 gilt
X
Sn( ;k)
n ( ; k)
P
k2N
EX1
"
< 1:
Bevor wir das Lemma nachweisen, zeigen wir zunächst, dass daraus das Gesetz der
grossen Zahlen folgt:
Beweis von Satz 5.6 unter Verwendung von Lemma 5.9. Nach dem BorelCantelli-Lemma (Lemma 4.32) haben die Ereignisse
A ( ; ") := lim sup
k!1
Sn( ;k)
n ( ; k)
EX1
"
Mass 0: Somit auch die Vereinigung
A ( ) :=
Ein ! 2
= A ( ) ist in keinem der A
[
m2N
A
;
1
m
:
1
;m
und demzufolge gelten
Sn( ;k) (!)
n ( ; k)
k!1
Sn( ;k) (!)
lim inf
k!1
n ( ; k)
lim sup
EX1 +
EX1
1
;
m
1
m
für jedes m; d.h.
Sn( ;k) (!)
= EX1 :
k!1 n ( ; k)
lim
Da dies für jedes ! 2
= A ( ) gilt es auch für jedes
[
!2
= A^ :=
A( );
>0; 2Q
und A^ ist immer noch eine Nullmenge.
Nun der verwenden wir den Trick, uns auf nicht-negative Zufallsvariablen beschränkt
zu haben: Gilt n ( ; k) n < n ( ; k + 1) ; so folgt
Sn
n
Sn(k+1; ) n (k + 1; )
n (k + 1; )
n
Sn(k+1; )
(1 + 2 )
n (k + 1; )
Sn(k+1; ) n (k + 1; )
n (k + 1; ) n (k; )
gemäss (5.1), falls k gross genug ist, und analog
Sn
n
Sn(k; )
1
:
n (k; ) 1 + =2
94
Für ! 2
= A ( ) folgt
Sn (!)
n
n!1
Sn (!)
lim inf
n!1
n
lim sup
Sn( ;k+1) (!)
(1 + 2 ) = EX1 (1 + 2 ) ;
n ( ; k + 1)
k!1
Sn( ;k) (!)
1
lim inf
EX1
:
k!1
n ( ; k)
1 + =2
lim sup
Für ! 2
= A^ gilt das für jedes rationale
> 0 und somit folgt
Sn (!)
= EX1 :
n!1
n
lim
Beweis von Lemma 5.9. Wir möchten die Tschebysche¤-Ungleichung einsetzen: Wegen
Sn( ;k)
EX1 = E
n ( ; k)
ergibt sich
P
Sn( ;k)
n ( ; k)
EX1
Sn( ;k)
1
var
2
"
n ( ; k)
Xn( ;k)
1
var
Xj
2
j=1
"2 n ( ; k)
1
var (X1 ) :
2
" n ( ; k)
"
=
=
Dies ist aber nur nützlich, wenn die Variablen eine endliche Varianz haben, was wir hier
nicht voraussetzen.
Wir verwenden daher einen weiteren Trick und umgehen diese Schwierigkeit mit
einem Abschneideargument. Dazu schreibenn wir
Xi = Xi 1fXi <(1+
= : Yi + Zi
)k g
+ Xi 1fXi
(1+ )k g
wobei wir beachten, dass die Yi ; Zi noch von k und abhängen. Wir interessieren uns
für die Yi ; Zi nur für i
n ( ; k) : Die Yi sind beschränkte Zufallsvariablen und besitzen deshalb eine endliche Varianz. Auf sie können wir daher gleich die Tschebysche¤Ungleichung anwenden. Die Zi haben zwar eventuell keine endliche Varianz, dafür sind
sie jedoch fast immer gleich 0; was genauso wertvoll ist. Wir verwenden die Darstellung
Sn( ;k)
n ( ; k)
n( ;k)
X
1
EX1 =
(Yi
n ( ; k)
EYi ) + EY1
i=1
i=1
wobei wir verwendet haben, dass alle Yi ; i
denselben Erwartungswert besitzen.
jEY1
EX1 j = E X1 1fXi
n( ;k)
X
1
EX1 +
Zi ;
n ( ; k)
(1+ )k g
95
n ( ; k) dieselbe Verteilung und daher
EX1 = E X1 1fXi >(1+
)k g
:
Für k ! 1 geht auch n ( ; k) ! 1: Daher folgt aus dem Satz von Lebesgue
lim jEY1
EX1 j = 0:
k!1
(Man erinnere sich daran, dass die Yi von k abhängen). Insbesondere folgt, dass jEY1 EX1 j
"=2 gilt, sofern k gross genug ist. Für die Konvergenz der Reihe im Lemma spielt es natürlich keine Rolle, wenn wir nur solche k betrachten, für welche diese Ungleichung gilt.
In diesem Fall gilt
9
8
9 8
n( ;k)
n( ;k)
<
=
<
=
X
X
Sn( ;k)
1
1
"
(Yi EYi )
[
Zi 6= 0 ;
EX1
"
;
: n ( ; k)
n ( ; k)
2 ; : n ( ; k)
i=1
i=1
also
P
Sn( ;k)
n ( ; k)
EX1
0
n( ;k)
X
1
(Yi EYi )
n ( ; k)
i=1
1
0
n( ;k)
X
1
Zi 6= 0A :
+P @
n ( ; k)
P@
"
1
"A
2
i=1
Wir zeigen nun, dass die k-Summation der beiden Summanden endlich ist. Für den
ersten verwenden wir die Tschebysche¤-Ungleichung
0
1
n( ;k)
X
1
"
A
P@
(Yi EYi )
n ( ; k)
2
i=1
4
"2 n (
=
=
; k)
4
"2 n (
; k)
var (Y1 )
4
"2 n (
E X12 1fX1 <(1+
; k)
EY12
)k g
n
4
E X12 1fX1 2g 1fX1 <(1+ )k g + E X12 1fX1 <2g 1fX1 <(1+
"2 n ( ; k)
4
16
E X12 1fX1 2g 1fX1 <(1+ )k g + 2
:
"2 n ( ; k)
" n ( ; k)
96
)
k
g
o
Die k-Summation für den zweiten Summanden ist o¤ensichtlich endlich. Für den ersten
Summander erhalten wir unter Verwendung von (5.3):
X
k
=
4
"2 n (
; k)
0
E X12 1fX1
4 @ 2
E X1 1fX1
"2
2g 1fX1 <(1+ )k g
X
2g
n ( ; k)
k:(1+ )k >X1
1
8 (1 + )
E X12 1fX1 2g
2
"
X1
8 (1 + )
E (X1 ) < 1:
"2
Somit ist
X
k
für beliebige ; " > 0:
X
k
X
0
P@
1
n ( ; k)
k
X
(Yi
EYi )
i=1
1A
1
"A
<1
2
1
n( ;k)
X
1
Zi 6= 0A
P@
n ( ; k)
0
i=1
P (9i
k
X
n( ;k)
1
n ( ; k) mit Zi 6= 0)
n ( ; k) P (Z1 6= 0) =
0
= E@
X
k:X1 (1+ )
k
1
X
n ( ; k)A
wobei wir hier (5.2) verwendet haben.
97
n ( ; k) P X1
(1 + )k
k
1+
E (X1 ) < 1;
6
Verteilungskonvergenz und der Zentrale Grenzwertsatz
Wir zeigen in diesem Kapitel, dass Summen von unabhängigen Zufallsvariablen nach
geeigneter Normierung genähert normalverteilt sind, d.h. dass ihre Verteilungsfunktion
durch die der Normalverteilung approximiert wird. Letztere ist durch
Z t
' (x) dx
(t) :=
1
mit
1
2
' (x) := p e x =2
2
gegeben. Wie wir schon wissen, gilt für diese sogenannte „Gausssche Glockenkurve“
Z 1
' (x) dx = 1:
1
Wir betrachten zunächst einige numerische Beispiele und untersuchen die Binomialwahrscheinlichkeiten
n k
b (k; n; p) =
p (1 p)n k :
k
Wie schon früher diskutiert, ist
b (k; n; p) = P (Sn = k) ;
wobei Sn die Anzahl der „Erfolgte“ in einem Bernoulli-Experiment ist, d.h.
Sn =
n
X
Xi ;
i=1
die Xi unabhängig, mit Werten in f0; 1g ; P (Xi = 1) = p: Der Einfachheit halber nehmen wir zunächst p = 1=2: Dann ist b (k; n; 1=2) = nk 2 n : Es ist nicht schwer zu sehen,
dass für festes n die grösste dieser Wahrscheinlichkeiten bei k = n=2 ist (exakt k = n=2;
wenn n gerade ist und sonst für k = (n + 1) =2 und k = (n 1) =2):
Die nachfolgende Tabelle gibt die Wahrscheinlichkeiten b (k; 500; 1=2) als Funktion
von k dar, wobei der Massstab auf der y-Achse von 0 bis 1 geht.
b(k;500,1/2)
1.0
0.8
0.6
0.4
0.2
0.0
0
100
98
200
300
400
500
k
Natürlich sieht man gar nicht viel. Der maximale Wert ist sehr klein, nämlich (wie
wir weiter unten sehen) b (500; 1000; 1=2) 0:03568: Versuchen wir einfach die y-Achse
zu strecken, so erhalten wir einfach folgendes Bild:
b(k;500,1/2)
0.03
0.02
0.01
0.00
0
100
200
300
400
500
k
Das ist auch noch nicht vielsagend, denn, wie wir aus dem Gesetz der grossen Zahlen
schon wissen, konzentriert sich die Verteilung ziemlich stark um den Wert bei k = 250:
Um ein “schönes”Bild zu erhalten, müssen wir den im ersten Bild gerade noch sichtbaren
Knubbel sowohl in der x-Achse, wie in der y-Achse strecken. Damit ergibt sich das
folgende Bild:
b(k;500,1/2)
0.03
0.02
0.01
0.00
220
240
260
280
k
Hier sieht man deutlich die Glockenkurve. Die richtige Skalierung ist nicht schwer zu
erraten. Wir betrachten gleich den allgemeineren Fall mit einer beliebigen Erfolgswahrscheinlichkeit p 2 (0; 1) : Sie Sn die Anzahl der Erfolge in einem Bernoulli-Experiment
mit Erfolgswahrscheinlichkeit p und Länge n. Wie wir schon wissen, ist der Erwartungswert ESnp= np und die Varianz var (Sn ) = np (1 p) ; d.h. die Standardabweichung
(Sn ) = np (1 p): Wenn wir daher die normierte Zufallsgrösse
Sn np
S^n := p
np (1 p)
99
betrachten, so gilt E S^n = 0 und var S^n
= 1: Es stellt sich nun raus, dass in einem
noch zu präzisierenden Sinn die Verteilung von S^n asymptotisch (für n ! 1) durch die
Gaussche Glockenkurve beschrieben wird. Es gibt verschiedene Möglickeiten dies zu beschreiben. Die “robusteste”besteht darin, dass man nicht die Einzelwahrscheinlichkeiten
untersucht, die ohnehin ziemlich klein sind, sondern grössere Ereignisse, z.B. Ereignisse
der Form P S^n x : In der Tat gilt der folgende
Satz 6.1
Für jedes x 2 R gilt
lim P S^n
Z
x =
n!1
x
' (y) dy =
(x) :
1
Wir werden gleich einen viel allgemeineren Satz formulieren und beweisen. Kommen
wir jedoch für einen Moment auf unser vorheriges Problem zurück, nämlich die b (k; n; p)
selbst asymptotisch auszuwerten. Wenn man das obige Theorem akzeptiert, so ist leicht
zu erraten, wie das aussehen muss. Es ist nämlich
b (k; n; p) = P (Sn = k) = P (Sn
= P
S^n
p
k
np
np (1
p)
k)
!
P (Sn
k
S^n
P
1)
p
k
np
np (1
p)
Der Satz 6.1 macht es plausibel, dass dies ungefähr gleich
!
!
k np
k np
1
1
p
p
p
p
np (1 p)
np (1 p)
np (1 p)
np (1
sein sollte, d.h.
p
np (1
p)b (k; n; p)
p
k
'
np
np (1
p)
p
!
np (1
p)
:
1
'
p
k
p)
!
:
np
np (1
p)
!
(6.1)
Das folgt jedoch nicht direkt aus Satz 6.1. Dennoch ist die Aussage “im Wesentlichen”
korrekt. Die genaue Formulierung als Limesaussage erfordert jedoch noch etwas Nachdenken. Wir führen die Abkürzung
k
xk;n := p
np
np (1
p)
(6.2)
ein. Man bemerkt zunächst, dass es o¤ensichtlich keinen Sinn macht, für festes k einen
Grenzwertsatz für n ! 1 zu formulieren,
denn es gilt limn!1 xk;n ! 1 für jedes
p
k 2 N; sodass (6.1) nur limn!1 np (1 p)b (k; n; p) = 0 nahelegt, was zwar stimmt
aber nicht weiter interessant ist. Wir sollen o¤ensichtlich nur solche k betrachten, für die
xk;n von der Grössenordnung 1 bleibt, dann sonst sehen wir die Glockenkurve gar nicht
in der Asymptotik. Eine naheliegende Formulierung ist daher der folgende Satz:
100
Satz 6.2
Sie A > 0 beliebig. Dann gilt
lim
n!1
sup
k:jxk;n j A
p
np (1 p)b (k; n; p)
' (xk;n )
1 = 0:
Einen Satz von diesem Typus bezeichnet man lokalen Grenzwertsatz, während man
einen Satz, wie Satz 6.1 ein globalen Grenzwertsatz nennt. Wie schon oben bemerkt, folgt
Satz 6.2 nicht aus Satz 6.1 Umgekehrt folgt jedoch Satz 6.1 aus Satz 6.2 ziemlich leicht
durch eine Aufsummation der entsprechenden Wahrscheinlichkeiten, wobei für grosse n
die Summe eine Riemann-Approximation des Integrals ist, welches die Verteilungsfunktion de…niert.
Zum Beweis des Satzes 6.2 verwenden wir die Sterlingsche Formel:
Satz 6.3 (Stirlingsche Formel)
p
lim n!=( 2 nn+1=2 e
n
n!1
) = 1:
Der Satz sollte aus der Analysis-Vorlesung bekannt sein. Falls nicht, siehe etwa: O.
Forster: Analysis 1 §20 Satz 6.
Beweis von Satz 6.2. Wir führen zunächst einige Notationen ein: Sei A > 0 eine
beliebige Zahl. Wir erhalten diese Zahl für den Rest des Beweises fest. Wir verwenden
ebenfalls die Abkürzung xk;n ; die wir in (6.2) eingeführt haben. Seien a (k; n) ; b (k; n) > 0
für k; n 2 N de…niert. Wir schreiben kurz a (k; n) b (k; n) falls für alle A > 0
lim
sup
n!1 k: A x
k;n A
gilt. O¤ensichtlich gilt
p
k = np + np (1
a (k; n)
b (k; n)
1 =0
p) xk;n ; n
k = n (1
p)
k
k
p) :
also mit der obigen Notation
np; n
n (1
Mit Hilfe der Stirlingschen Formel folgt:
p
(n=e)n 2 npk (1 p)n k
b(k; n; p)
p
p
(k=e)k 2 k ((n k) =e)n k 2 (n
1
p
'(n; k);
2 np (1 p)
wobei wir
'(n; k) := (
np k n (1 p) n
) (
)
k
n k
101
p
np (1
p) xk;n ;
(6.3)
(6.4)
k)
k
=
r
n
2 k(n
k)
'(n; k)
gesetzt haben.Nach der Taylorformel gilt für x >
1
x2 1
x3
mit
+
2
3 (1 + x)3
log(1 + x) = x
= (x) 2 [0; 1]:
Nach (6.3) ergibt sich daraus
np
log
k
k
= k log 1
p
=
log
n (1 p)
n k
p
n k
np (1
= (n
=
p
np (1
k
!
p) x2k;n
np (1
p)xk;n
(np (1
2k
p
k) log 1 +
np (1
p) xk;n
p) xk;n
np (1
n
p) xk;n
k
np (1
p) x2k;n
2(n
k)
np(1 p)xk;n 3
)
k
3k 2 (1
!
p))3=2 x3k;n
p
(np (1
+
3(n
k)2 (1 +
p))3=2 x3k;n
p
0
np(1 p)xk;n 3
)
n k
mit ; 0 2 [0; 1]. Wir addieren die beiden obigen Gleichungen, wobei die jeweils ersten
Summanden auf der rechten Seite sich freundlicherweise gegenseitig aufheben. Die Summe der beiden zweiten Summanden ist
np (1
p) x2k;n
p) x2k;n
np (1
2k
2(n
k)
n2 p (1
=
2k(n
p) x2k;n
k)
:
Abhängig von A, p gibt es eine positive Konstante C derart, dass die jeweils dritten
Summanden in den geschweiften Klammern auf der rechten Seite der obigen Gleichung
für genügend grosse n vom Betrag kleiner als Cn 3=2 sind. Dies entnimmt man sofort
(6.4). Demzufolge gilt:
lim
sup
n!1 k:jx
Aus (6.4) folgt
n2 p(1 p)
2k(n k)
k;n j
n2 p (1
log '(n; k)
p) x2k;n
2k(n
A
k)
= 0:
1 und somit
lim
sup
n!1 k:jx j A
k
log '(n; k)
x2k;n
2
= 0:
Daraus folgt
'(n; k)
e
x2k;n =2
:
Damit ist der Satz bewiesen. (Wir sind etwas locker mit der Relation
Der Leser möge sich die einzelnen Schritte selbst genau überlegen.)
Rechenbeispiel zu Satz 6.2:
102
;
umgegangen.
Jemand wirft 1200-mal einen Würfel. Mit welcher Wahrscheinlichkeit hat er genau
200-mal eine 6? Mit welcher Wahrscheinlichkeit 250-mal?
Wir berechnen xk für k = 200; 250, n = 1200, p = 1=6.
p
5 6
x200 = 0; x250 = p = 3:873
10
b(200; 1200; 1=6) = 0:0309019
b(250; 1200; 1=6) = 0:0000170913:
Wie üblich muss hier bemerkt werden, dass ein reines Limesresultat für die Güte einer
Approximation wie in obigem Rechenbeispiel zunächst natürlich gar nichts aussagt. Gefragt sind konkrete Abschätzungen des Fehlers. Dies ist ein technisch aufwendiges Feld,
in das wir in dieser Vorlesung nicht eintreten können.
Nachfolgend ist eine numerische Illustration von Satz 6.2 für n = 30 für angegeben,
auf der linken Seite mit p = 0:5 und auf der rechten Seite mit p = 0:3 :
y 0.4
0.3
0.2
0.1
0.0
6
8
10
12
14
16
18
20
22
24
n = 30; p = 0:5
y 0.4
0.3
0.2
0.1
0.0
0
5
10
n = 30; p = 0:3
103
15
20
Das Balkendiagramm ist die Funktion
p
fn;p (k) = np(1
p)b(k; n; p):
Darüber ist die Gausssche Glockenkurve in der richtigen Skalierung eingetragen:
"
#
(k np)2
1
k ! p exp
2np (1 p)
2
Auf dem rechten Bild sieht man noch deutlich die Asymmetrie in der Treppenfunktion,
die natürlich für n ! 1 verschwinden muss.
Der Satz wurde erstmals von Abraham de Moivre (1667-1754) (im Bernoulli-Fall)
gezeigt. De Moivres Beweis für binomialverteilte Zufallsgrössen basiert auf einer Anwendung der Stirlingschen Formel. De Moivre gebührt o¤ensichtlich auch die Priorität für die
Entdeckung der nach Stirling benannten Formel. (De Moivre scheint an der fehlerhaften
Namensgebung selbt nicht ganz unschuldig zu sein. Stirling hatte nämlich de Moivres
erste Version etwas verschärft; auf dieses Faktum wies de Moivre in seinen späteren Publikationen hin. Die Leserschaft scheint daraus den Schluss gezogen zu haben, dass die
Formel auf Stirling zurückgeht). De Moivres Werk wurde lange Zeit nicht beachtet, bis
Pierre-Simon Laplace es wieder aufgenommen hat.
Pierre-Simon Laplace
Abraham de Moivre
Wir diskutieren nun Aussagen vom Typus des Satzes 6.1 in sehr viel allgemeinerem
Rahmen. Die grundlegende De…nition soll ganz allgemein für Wahrscheinlichkeitsmasse
auf einem metrischen Raum (S; d) gegeben werden. Später werden wir uns auf S = R
oder S = Rd konzentrieren.
104
Die Borel- -AlgebraBS sei die kleinste -Algebra auf S, die die o¤enen Mengen enthält. BS wird auch von der Menge der abgeschlossenen Mengen erzeugt. Mit M+
1 (S)
sei die Menge der Wahrscheinlichkeitsmasse auf (S; BS ) bezeichnet. Das Symbol Cb (S)
bezeichne die Menge der beschränkten stetigen Funktionen S ! R.
Lemma 6.4
R
R
Es seien ; 2 M+
f d = f d für alle f 2 Cb (S), so gilt
1 (S). Gilt
Beweis. Sei F
fn (x) = maxf(1
Lebesgue folgt
= .
C abgeschlossen, und für n 2 N sei fn 2 Cb (S) de…niert durch
n d(x; F )); 0g. O¤enbar gilt fn # 1F für n ! 1. Aus dem Satz von
(F ) = lim
n!1
Z
fn d = lim
n!1
Z
fn d = (F ):
Da die abgeschlossenen Mengen ein durchschnittstabiles Erzeugendensystem von BS bilden, folgt die Behauptung = .
De…nition 6.5
a) Seien n ; 2 M+
Folge f n gn2N konvergiert schwachgegen
1 (S) für n 2 N. Die
R
R
w
(Notation: n ! ), wenn limn!1 f d n = f d für alle f 2 Cb (S) gilt.
b) Es seien Xn und X (S; BS )-wertige Zufallsgrössen, die auf einem Wahrscheinlichw
keitsraum ( ; F; P ) de…niert sind. Falls gilt P Xn 1 ! P X 1 , so sagt man, die
w
Folge fXn g konvergiert in Verteilunggegen X, und schreibt oft L(Xn ) ! L(X),
w
w
bzw. L(Xn ) ! ; wenn P Xn 1 ! gilt.
Man muss sich klar darüber sein, dass die Verteilungskonvergenz in der Regel gar
nichts über das Konvergenzverhalten der Zufallsvariablen selbst besagt. Haben z.B. alle
Xn dieselbe Verteilung, so konvergieren trivialerweise die Verteilungen, aber die Folge
fXn g braucht natürlich in keiner der früher diskutierten Arten zu konvergieren.
Die De…nition 6.5 ist formal sehr bequem; oft möchte man jedoch lieber wissen, für
welche A 2 BS gilt: (A) = limn!1 n (A).
Satz 6.6 (Portmenteau)
Es seien n ; 2 M+
1 (S) für n 2 N. Die folgenden Aussagen sind äquivalent:
a)
w
n
! .
b) lim supn!1
c) lim inf n!1
n (F )
n (U )
(F ) für jede abgeschlossene Menge F
(U ) für jede o¤ene Menge U
S.
S.
d) limn!1 n (A) = (A) für alle A 2 BS mit (@A) = 0. (@A bezeichnet hier den
Rand der Menge A).
Beweis. a) ) b):. Seien F abgeschlossen, " > 0, und sei f" (x) := maxf0; 1 d(x; F )="g.
Die Funktion f" ist beschränkt und stetig mit 1F
f" . Somit gilt lim supn!1 n (F )
105
R
R
lim
f
d
=
f" d . Es gilt f" # 1F für " # 0. Aus dem Satz von Lebesgue folgt
n!1
"
n
R
f" d # (F ) für " # 0. Demzufolge gilt lim supn!1 n (F )
(F ).
b) , c) folgt sofort aus der Tatsache, dassdie o¤enen Mengen genau die Komplemente
der abgeschlossenen sind.
(b) und c)) ) d). Sei A 2 BS mit (@A) = 0; es sei int (A) sei das Innere, A der
Abschlussvon A. Dann gelten
lim sup
n!1
lim inf
n!1
n (A)
lim sup
n (A)
lim inf
n!1
n (A)
(A);
n (int (A))
n!1
(int (A)):
Aus (@A) = 0 folgt (A) = (int (A)) = (A). Somit folgt d).
d) ) b). Sei F
S abgeschlossen. Eine einfache Überlegung zeigt, dass @(F )
fx : d(x; F ) = g für alle
0 gilt, wobei F := fx 2 S : d(x; F )
g sei. Die Mengen
@(F ) mit > 0 sind also paarweise disjunkt. Die Menge
> 0 : (@(F )) > 0 =
S
1
f
>
0
:
(@(F
))
1=m
g
ist
als
abzählbare
Vereinigung
endlicher Mengen
m=1
höchstens abzählbar. Es gibt somit eine fallende Nullfolge ( k )k mit (@(F k )) = 0 für
alle k 2 N. Somit gilt lim supn!1 n (F )
lim supn!1 n (F k ) = (F k ) für alle k.
k
k
Wegen F # F haben wir (F ) # (F ) für k ! 1, also folgt b).
b) ) a). Sei f 2 Cb (S). Wir zeigen zunächst
Z
Z
fd :
(6.5)
lim sup f d n
n!1
Haben wir diese Ungleichung für alle f 2 Cb (S) gezeigt, so können wir sie auch auf
anwenden und erhalten
Z
Z
lim inf f d n
fd ;
f
n!1
was die Behauptung impliziert.
Um (6.5) zu beweisen, können wir annehmen, dass 0
f < 1 gilt. Falls nicht, so
führen wir eine einfach Transformation f (x) := af (x) + b, a; b 2 R, a > 0 durch, die
(k)
dies erzwingt. Die Menge Fi := f x : f (x)
i=k g ist abgeschlossen für k 2 N und
+
0 i k. Für 2 M1 (S) und alle k 2 N gilt
k
X
i
i=1
das heisst
wandt auf
1
k
1
k
(k)
(Fi 1 )
(k)
(Fi )
Z
fd
k
X
i
k
(k)
1)
(Fi
(k)
(Fi ) ;
i=1
R
(k)
(k)
(k)
1 Pk 1
(Fi )
fd
= ;). Angei=0 (Fi ) (man beachte Fk
k
und an Stelle von gibt das zusammen mit b) die Abschätzung
Z
Z
lim sup f d n
f d + 1=k:
Pk
1
i=1
n
n!1
Da k beliebig war, folgt (6.5).
Als Anwendung können wir das folgende Kriterium für schwache Konvergenz in R
herleiten.
106
Satz 6.7
Es seien n ; 2 M+
1 (R) für n 2 N mit Verteilungsfunktionen Fn von n beziehungsweise
w
F von . Es gilt genau dann n ! , wenn für jedes t 2 R, in dem F stetig ist,
limn!1 Fn (t) = F (t) ist.
w
Beweis. „)“. Es gelte n ! . Ist F stetig in t 2 R, so gilt (@( 1; t]) = (ftg) = 0.
Somit folgt limn!1 Fn (t) = F (t) nach Kriterium d) aus Satz 6.6.
„(“. Es gelte limn!1 Fn (t) = F (t) für alle
t 2 D := f x 2 R: F ist stetig in x g.
S1
c
1=n g ist abzählbar.
Das Komplement D = ft : (ftg) > 0 g = n=1 ft : (ftg)
Demzufolge ist D dicht in R.
Das System U := f(a; b] : a
b; a; b 2 D g ist durchschnittstabil und es gilt
limn!1 n ((a; b]) = ((a; b]) : Jedes o¤ene Intervall lässt sich als abzählbare Vereinigung von Elementen aus U schreiben, und da jede o¤ene Menge sich als abzählbare
Vereinigung von o¤enen Intervallen schreiben lässt, lässt sich jede o¤ene Menge O in R
als abzählbare Vereinigung von Mengen in U darstellen:
[
Uk ; Uk 2 U:
O=
k2N
Zu " > 0 existiert N mit
[N
(O)
k=1
Uk
+ ":
Mit Inklusion-Exklusion erhält man für jedes n
n
[N
k=1
Uk
=
N
X
( 1)r+1
r=1
X
n (Uj1
j1 <j2 < <jr
\ Uj2 \
Da U durchschnittstabil ist, sind die Mengen Uj1 \ Uj2 \
konvergiert die rechte Seite für n ! 1 gegen
N
X
( 1)r+1
r=1
X
(Uj1 \ Uj2 \
j1 <j2 < <jr
\ Ujr ):
\ Ujr in U und demzufolge,
[N
\ Ujr ) =
k=1
Uk :
Somit folgt
(O)
[N
k=1
lim inf
n!1
Uk
n (O)
+ " = lim
n!1
n
+ ":
[N
k=1
Uk
+"
Da " > 0 beliebig ist, folgt
(O)
lim inf
n!1
n (O) :
Dies gilt für jede o¤ene Teilmenge O
R und somit folgt nach Satz 6.6 die schwache
Konvergenz.
Wir untersuchen nun das Verhalten induzierter Wahrscheinlichkeitsmasse untersuchen, wenn die Ursprungsmasse schwach konvergieren. Es sei also f gn eine Folge von
107
w
Wahrscheinlichkeitsmassen auf (S; BS ) mit n ! 2 M+
1 (S). Ist h eine messbare Abw
bildung von S in einen zweiten metrischen Raum, so braucht nicht n h 1 ! h 1 zu
gelten.
Beispiel 6.8
Sei fxn gn eine Folge in S n fxg, die gegen ein x 2 S konvergiert. Dann gilt
h : S ! R durch h(y) = 1fxg (y) de…niert, so gelten xn h 1 = 0 und x h
konvergiert xn h 1 nicht schwach gegen x h 1 .
w
xn !
1 =
x.
1,
Ist
also
Ist h jedoch stetig, so überträgt sich die schwache Konvergenz auf die induzierten
Masse:
Lemma 6.9
Seien (S; d) und (S 0 ; d0 ) zwei metrische Räume, und h : S ! S 0 sei stetig. Es seien n
w
w
und Wahrscheinlichkeitsmasse auf (S; BS ) mit n ! . Dann gilt n h 1 ! h 1 (auf
(S 0 ; BS )).
Beweis. Ist f 2 Cb (S 0 ), so ist f h 2 Cb (S). Somit gilt
Z
Z
Z
Z
1
= (f h) d n ! (f h) d = f d
f d nh
h
1
:
Eine der sehr nützlichen Eigenschaften der schwachen Konvergenz ist die, dass es
„verhältnismässig grosse“ kompakte beziehungsweise relativ kompakte Mengen gibt.
De…nition 6.10
a) Eine Teilmenge
M+
1 (S) heisst (sequentiell) relativ kompakt, wenn jede
Folge f n gn2N in eine schwach konvergente Teilfolge hat. (Der Grenzwert muss
nicht in liegen.)9
b) Eine Teilmenge
M+
1 (S) heisst stra¤,wenn für jedes " > 0 eine kompakte
Menge K" S existiert, so dass (K" ) 1 " für jedes 2 ist.
Bemerkung 6.11
a) Ist S kompakt, so ist M+
1 (S) o¤enbar stra¤.
b) M+
1 (R) ist nicht stra¤, weil nämlich schon die Familie f
ist.
x
: x 2 R g nicht stra¤
c) Ein einzelnes Wahrscheinlichkeitsmass 2 M+
1 (S) heisst stra¤, wenn f g stra¤ ist,
das heisst, wenn für jedes " > 0 eine kompakte Menge K" existiert mit (K" )
1 ". Ist S -kompakt, das heisst existiert eine Folge (Kn )n von kompakten Mengen
in S mit Kn " S, so ist jedes Wahrscheinlichkeitsmass stra¤. (Es gilt ja (Kn ) "
9
In allgemeinen topologischen Räumen impliziert sequentiell relativ kompakt nicht relativ kompakt im
üblichen Sinn. Dies ist jedoch in metrischen Räumen richtig. Die Topologie auf M+
1 (S) ist metrisierbar,
was wir hier jedoch nicht beweisen wollen.
108
(S) = 1.) Dies ist für S = R oder S = Rd der Fall. Erstaunlicherweise gibt es
jedoch eine grosse Klasse von metrischen Räumen, die nicht -kompakt sind und
in denen jedes Wahrscheinlichkeitsmass stra¤ ist: nämlich vollständige separable
Räume. Diese Klasse umfasst separable Hilbert- und Banachräume, wie etwa den
Folgenraum l2 versehen mit der üblichen Norm, oder den Raum C[0; 1] der stetigen
Funktionen [0; 1] ! R, versehen mit der Supremummetrik. Unendlichdimensionale
Banachräume sind jedoch nie -kompakt.
Die Aussage, dass jedes Wahrscheinlichkeitsmassauf einem vollständigen, separablen
metrischen Raum stra¤ ist, ist ein Spezialfall des folgenden Satzes von Prohorov:
Satz 6.12 (Satz von Prohorov)
Es sei S vollständig und separabel und sei eine Teilmenge von M+
1 (S):
dann relativ kompakt, wenn sie stra¤ ist.
ist genau
Für den Fall S = R nennt man diesen Satz den Satz von Helly-Bray.
Beweis des Satzes von Helly-Bray. Dass Relativkompaktheit die Stra¤heit nach sich
zieht, ist einfach und sei dem Leser überlassen. Wir beweisen die wichtigere und schwierigere Richtung. Sei also f n g eine Folge von Wahrscheinlichkeitsmassen auf (R; B) ; die
stra¤ ist. Wir bezeichnen mit Fn die zugehörigen Verteilungsfunktionen. Stra¤heit bedeutet, dass für jedes " > 0 ein N (") > 0 existiert mit Fn ( N (")) "; Fn (N (")) 1 "
für alle n:
Wir wählen eine abzählbare dichte Teilmenge von R; z.B. Q; Q = fq1 ; q2 ; : : :g : Da
die reelle Folge fFn (q1 )gn beschränkt ist, existiert eine Teilfolge von fn1;k gk2N von N
def
sodass G (q1 ) = limk!1 Fn1;k (q1 ) existiert. Anschliessend wählen wir eine Teilfolge
fn2;k gk2N von fn1;k gk2N ; sodass G (q2 ) = limk!1 Fn2;k (q2 ) existiert. In dieser Weise
fahren wir weiter. Wir erhalten Teilfolgen fn1;k gk2N fn2;k gk2N fn3;k gk2N
mit
der Eigenschaft, dass G (qm ) = limk!1 Fnm;k (qm ) für jedes m existiert. Dann gilt
G (qm ) = lim Fnk;k (qm )
k!1
für jedes m; denn die Folge fnk;k gk2N ist bis auf endlich viele Glieder für jedes m eine
Teilfolge von fnm;k gk2N : Diese Folge ist die gesuchte Teilfolge. Wir schreiben nk := nk;k :
Die Funktion G ist nur auf Q de…niert. O¤ensichtlich erfüllt sie 0 G (q) 1 für alle
q 2 Q und G (q) G (q 0 ) für q q 0 : Ferner folgt G (q) " für q
N (") ; G (q) 1 "
für q N (") : Somit folgt limq! 1 G (q) = 0; limq!1 G (q) = 1: Mit G de…nieren wir
nun die Funktion F : R ! [0; 1] durch
F (t) :=
lim G (q) :
q#t; q>t
Man beachte, dass selbst wenn t 2 Q ist, F (t) nicht unbedingt mit G (t) übereinstimmen
muss. F ist per Konstruktion rechtsstetig. Ferner bleibt die Monotonie natürlich erhalten,
sowie limt!1 F (t) = 1; limt! 1 F (t) = 0: F ist also eine Verteilungsfunktion. Es
existiert daher ein Wahrscheinlichkeitsmass auf (R; B) ; dessen Verteilungsfunktion F
ist.
109
w
Wir zeigen nun, dass nk ! gilt. Nach Satz 6.7 müssen wir dafür zeigen, dass
limk!1 Fnk (t) = F (t) für jeden Stetigkeitspunkt t von F gilt.
Zunächst gilt für jedes q > t; q 2 Q;
lim Fnk (q) = Q (q) ;
lim sup Fnk (t)
k!1
k!1
also mit q # t
lim sup Fnk (t)
F (t) :
k!1
Dafür wurde nicht verwendet, dass t ein Stetigkeitspunkt von F ist.
Sei " > 0 beliebig. Wir wählen t0 < t; sodass F (s) F (t) " für alle s
wählen s < t und eine rationale Zahl q mit s < q < t: Dann gilt
lim Fnk (q) = G (q)
F (s)
k!1
Wegen Fnk (q)
F (t)
t0 ist. Wir
":
Fnk (t) folgt
lim inf Fnk (t)
F (t)
k!1
":
Da " > 0 beliebig ist, folgt lim inf k!1 Fnk (t) F (t) :
Wir werden weiter unten den Satz von Prohorov für den Fall S = Rd verwenden.
Der Beweis ist im Wesentlichen derselbe wie für den eindimensionalen Fall mit einigen
Modi…kationen. Wir wollen das nicht weiter verfolgen, werden den Satz von Prohorov
jedoch für Rd verwenden.
Um den Satz anzuwenden, benötigt man eine Eigenschaft der schwachen Konvergenz,
die jeder „vernünftige“ Konvergenzbegri¤ hat:
Lemma 6.13
Seien n ; 2 M+
1 (S) für n 2 N. Dann gilt
nk k2N
von f
n gn
ihrerseits eine Teilfolge
w
n
n
!
o
nkl
genau dann, wenn jede Teilfolge
l2N
besitzt mit
w
nkl
!
für l ! 1:
Beweis. Das Lemma folgt unmittelbar aus der De…nition und der Tatsache, dass reelle
Zahlenfolgen die entsprechende Eigenschaft haben.
Als Anwendung davon kann ein sehr nützliches Kriterium für schwache Konvergenz
auf Rd bewiesen werden. Für x 2 Rd sei x : Rd ! R de…niert durch x (y) = hx; yi
(Hier sei h ; i das Euklidsche Skalarprodukt).
Satz 6.14 (Cramèr-Wold)
Es seien n und Wahrscheinlichkeitsmasse auf (Rd ; Bd ) für n 2 N. Dann gilt
w
genau dann, wenn n x 1 ! x 1 in (R; B) für alle x 2 Rd gilt.
w
n
w
Beweis. Da x stetig ist, folgt aus n ! und Lemma 6.9 die Behauptung
1
x .
Zum Beweis der Umkehrung betrachten wir zunächst die Projektionen
1 i d, auf die d Einheitsvektoren ei 2 Rd .
110
i
!
n x
w
1 !
:=
ei ,
Da n i 1 schwach konvergiert, also insbesondere f n i 1 : n 2 N g relativ kompakt
ist, existiert für jedes " > 0 eine kompakte Menge Ki R mit n ( i 1 (Ki )) 1 d" für
T
alle n 2 N und alle i 2 f1; : : : ; dg. Die Menge K := di=1 i 1 (Ki ) Rd ist abgeschlossen
und beschränkt in Rd , also kompakt. Für alle n 2 N gilt:
c
n (K ) =
[d
n
i=1
(
1
i
d
X
(Ki ))c
n( i
1
(Kic ))
":
i=1
Aus Satz 6.12 folgt, dassf n : n 2 N g relativ kompakt ist. Sei f 0n g eine beliebige
w
Teilfolge von f n g. Diese hat ihrerseits eine konvergente Teilfolge f 00n g mit 00n ! 00
w
d
d
00
1
00
1
1 w
für ein 00 2 M+
x . Wegen n x !
1 (R ). Für alle x 2 R folgt dann n x !
1
1
00
1
d
x folgt
x =
x für alle x 2 R . Damit stimmen auch die charakteristischen
1
00
1
Funktionen von
x und
x überein, insbesondere im Punkt 1 (wegen Lemma 6.9).
Somit gilt
Z
Z
Z
ihx;yi
it
1
b(x) = e
(dy) = e ( x )(dt) = eit ( 00 x 1 )(dt) = c00 (x):
w
Aus Satz 4.23 folgt = 00 , und mit Lemma 6.13 folgt n ! folgen.
Der Zusammenhang von schwacher Konvergenz mit der Konvergenz der charakteristischen Funktionen wird durch den folgenden Stetigkeitssatz kompletiert:
Satz 6.15
Sei f n g eine Folge von Wahrscheinlichkeitsmassen auf (R; B) mit charakteristischen
Funktionen ^ n : Falls f (t) = limn!1 ^ n (t) für jedes t 2 R existiert und f stetig in 0
ist, so ist f die charakteristische Funktion eines Wahrscheinlichkeitsmasses und es gilt
w
n ! :
Beweis. Wir zeigen zunächst, dass aus der Stetigkeit von f im Nullpunkt die Stra¤heit
der Folge f n g folgt. Wir leiten zunächst eine einfache Abschätzung ganz allgemein für
Wahrscheinlichkeitsmasse auf (R; B) her. Sei c > 0:
Z c
Z
Z c
(1 ^ (t)) dt =
(dx)
1 eitx dt
c
c
Z
sin cx
= 2c
1
(dx)
cx
Z
Z
sin cx
sin cx
= 2c
1
(dx) + 2c
1
(dx)
cx
cx
jxj<2=c
jxj 2=c
c ([ 2=c; 2=c]c ) ;
die letzte Ungleichung wegen
c = 2=r erhält man für r > 0
sin y
y
([ r; r]c )
1 für alle y 2 R und
r
2
Z
sin y
y
2=r
(1
2=r
111
^ (t)) dt:
1=2 für jyj
2: Mit
Da die charakteristischen Funktion beschränkt durch 1 sind, folgt
lim sup
n!1
c
n ([ r; r] )
lim sup
n!1
r
2
=
Z
r
2
2=r
Z
(1
2=r
(1
2=r
^ n (t)) dt
f (t)) dt;
2=r
die Gleichung nach dem Satz von Lebesgue. Da f stetig in 0 ist, und f (0) = 1 ist, folgt,
dass für jedes " > 0 ein r (") > 0 existiert mit
lim sup
n ([
n!1
r (") ; r (")]c )
"=2:
Es existiert also eine Zahl n0 2 N; sodass
n ([
r (") ; r (")]c )
"
für alle n > n0 gilt. Für k = 1; : : : ; n0 exisitieren rk (") mit
k
([ rk (") ; rk (")]c )
":
Setzen wir N (") := max fr (") ; r1 (") ; : : : ; rn0 (")g ; so gilt
n ([
N (") ; N (")]c )
"
für alle n: Damit ist gezeigt, dass die Folge f n g stra¤ ist.
Ist nun
nk k2N eine schwach konvergente Teilfolge mit Limes
Lemma 6.9
^ (t) = lim ^ nk (t) = f (t) ; 8t:
; so folgt nach
k!1
Damit ist gezeigt, dass f die charakteristische Funktion eines Wahrscheinlichkeitsmasses
ist. Ferner hat jede Teilfolge von f n g eine Teilfolge, die gegen konvergiert, und somit
gilt
w
n ! :
Korollar 6.16
seien Wahrscheinlichkeitsmasse auf Rd ; Bd ; n 2 N: Dann gilt
n;
dann, wenn limn!1 ^ n (t) = ^ (t) für alle t 2 Rd gilt.
w
n
!
genau
Beweis. Die eine Richtung ist wegen Lemma 6.9 trivial. Die andere Richtung: Nach
w
w
1
d
Cramèr-Wold müssen wir für n ! nur zeigen, dass n x 1 !
x für alle x 2 R
\1
[1 (t) ; 8t 2
1
gilt. Für t 2 R gilt \
x
n x (t) = ^ n (tx) : Somit folgt limn!1 n x (t) =
w
R; 8x 2 Rd : Nach dem vorangegangenen Satz folgt n x 1 ! x 1 ; 8x:
Zunächst zeigen wir nun den klassischen eindimensionalen Zentralen Grenzwertsatz
(n)
von Lindeberg. Ausgangspunkt ist eine sogenannte „Dreiecksfolge“ Xj ; 1
j
n;
112
von reellen Zufallsvariablen. Wir setzen voraus, dass für jedes n die Zufallsvariablen
(n)
Xj ; 1 j n; unabhängig sind. Ferner wird vorausgesetzt, dass sie alle endliche und
positive Varianzen haben:
(n)2
(n)
:= var Xj
:
j
(n)
Mit aj
bezeichnen wir die Erwartungswerte. Sei
s2n :=
n
X
(n)2
:
j
j=1
Wir sagen, dass die Dreiecksfolge der Lindeberg-Bedingung genügt, falls
n
1 X
E
lim
n!1 s2
n
(n)
Xj
(n) 2
aj
(n)
(n)
; Xj
aj
"sn
j=1
= 0; 8" > 0:
Im Spezialfall, wo die Variablen alle die gleiche Verteilung haben, ist die Lindeberg(n)2
Bedingung erfüllt: In diesem Falle sind die j
alle gleich. s2n = n 2 :
n
1 X
E
s2n
(n)
Xj
(n) 2
aj
(n)
; Xj
(n)
aj
"sn
j=1
=
=
p
1
2
nE
(X
a)
;
jX
aj
"
n
1
1
n 2
p
1
E (X1 a)2 ; jX1 aj " n ! 0
2
für n ! 1; nach dem Satz von Lebesgue.
Aus der Lindeberg-Bedingung folgt sehr einfach, dass keine der Einzelvarianzen im
n ! 1 Limes gegenüber den Gesamtvarianz einen makroskopischen Ein‡uss behält, d.h.
es gilt
(n)2
max1 j n j
lim
= 0:
(6.6)
n!1
s2n
Der sehr einfache Beweis sei dem Leser überlassen.
Satz 6.17 (Satz von Lindeberg-Feller)
Erfüllt die Dreiecksfolge die Lindeberg-Bedingung so gilt
1
0P
(n)
(n)
n
aj
j=1 Xj
w
A!
Standardnormalverteilung:
L@
sn
Beweis. Nach Satz 6.15 müssen wir nur die Konvergenz der charakteristischen Funktionen zeigen. Die charakteristische Funktion der Standardnormalverteilung ist
"
#
2 t2
Yn
2
j
e t =2 =
exp
;
j=1
2
113
mit
2
j
:=
(n)2 2
=sn :
j
(Wir lassen den Index n bei den ’s weg). Ohne Einschränkung der
(n)
Allgemeinheit können wir annehmen, dass die aj = 0 sind. Es bezeichne ^ n die chaP
(n)
rakteristische Funktion von sn 1 nj=1 Xj : Wegen der angenommenen Unabhängigkeit
gilt
h
i
Yn
(n)
E exp itsn 1 Xj
:
^ n (t) =
j=1
Wir verwenden, dass für komplexe Zahlen yk ; zk ; die Betrag maximal 1 haben, die Ungleichung
n
X
Yn
Yn
zj
yj
jyj zj j ;
j=1
j=1
j=1
deren Beweis dem Leser überlassen sei. Mit dieser Ungleichung erhalten wir
"
#
n
2 t2
h
i
X
2
j
(n)
^ n (t) e t =2
E exp itsn 1 Xj
exp
:
2
j=1
Für eine beliebige reelle Zufallsgrösse Y; deren Erwartungswert gleich 0 ist, und die
eine endliche Varianz 2 besitzt gilt
Y2 i
e
2
eiY = 1 + iY eiY
Y
= 1 + iY
Y2 Y2
+
1
2
2
ei
Y
;
wobe eine Zufallsvariable mit Werten in [0; 1] ist. Da die Erwartungswerte der Zufallsgrössen auf der rechten Seite alle existieren, folgt
EeiY = 1
2
2
+E
Y2
1
2
Nun gilt für jede reelle Zahl x die Ungleichung eix
E
Y2
1
2
ei
Y
Y2
1
2
Y2
1
2
E
= E
2
"
(n)
Wir wenden das auf Y = tsn 1 Xj
mit
(n)
j
"
Y
ei
Y
; jY j
1
Y
:
jxj : Somit gilt für jedes " > 0
" +E
Y2
1
2
+ E Y 2 ; jY j > " :
2
E exp
ei
ei
h
und erhalten
(n)
itsn Xj
2 t2
j
2
1
+
i
=1
2 t2
j
2
+
(n)
j
t2
"
(n)2
(n)
E Xj ; Xj > sn :
2
sn
t
114
ei
Y
; jY j > "
P
Aus der Lindeberg-Bedingung folgt, dass nj=1 des zweiten Summanden für n ! 1
P
gegen 0 konvergiert. Wegen nj=1 2j = 1 folgt
!
"
#
n
2 t2
2 t2
X
"t2
j
j
t2 =2
lim sup
lim sup ^ n (t) e
1
exp
+
:
2
2
2
n!1
n!1
j=1
Für festes t ist
exp
"
2 t2
j
2
#
2 t2
j
=1
2
+ O t4
4
j
O t4
0
n
X
= O@
O t4
und somit
n
X
j=1
1
2 t2
j
2
!
exp
"
2 t2
j
2
#
=
n
X
4
j
j=1
= t4 O
j=1
e
t2 =2
2
j
max
1 j n
für n ! 1; nach (6.6). Somit folgt lim supn!1 ^ n (t)
ist, folgt limn!1 ^ n (t)
;
e
!0
t2 =2
2
j
1
A
"t2 =2: Da " beliebig
= 0:
Korollar 6.18
Es sei fXn g eine Folge von unabhängigen identisch verteilten Zufallsgrössen mit endlicher
Varianz 2 > 0 und Erwartungswert a: Dann gilt
!
Pn
X
na
j
w
j=1
p
L
! Standardnormalverteilung:
n
Natürlich folgt dann auch, dass
Pn
L
j=1 Xj
p
n
na
!
w
! N 0;
2
gilt, wobei N 0; 2 die Normalverteilung mit Mittel 0 und Varianz 2 bezeichnet. In
dieser Formulierung bleibt die Aussage auch für 2 = 0 korrekt. Ist die Varianz der Xj
gleich 0; so sind die Zufallsgrössen fast sicher gleich ihrem Erwartungswert a: Damit ist
die linke Seite das Einpunktmass im 0-Punkt, genau wie die rechte Seite.
Zusammen mit Satz 6.14 ergibt der eindimensionale Zentrale Grenzwertsatz sofort
eine mehrdimensionale Version. Wir formulieren das nur für den Fall von identisch verteilten Zufallsgrössen.
Satz 6.19
Es sei fXn gn eine Folge unabhängiger, identisch verteilter, d-dimensionaler Zufallsvektoren.PEs gelte EjXi j2 < 1. Seien a = EX1 und die Kovarianzmatrix der Xi . Dann gilt
p w
L ( ni=1 (Xi a)/ n) ! , wobei die d-dimensionale Normalverteilung mit Mittel 0
und Kovarianzmatrix ist.
115
P
p
Beweis. Sei Tn := ni=1 (Xi a)= n. Nach Satz 6.14 genügt es zu zeigen, dassfür jedes
P
p
w
x 2 Rd gilt: L(hx; Tn i) ! x 1 . Es ist hx; Tn i = ni=1 (hx; Xi i hx; ai)= n.
Die hx; Xi i, i 2 N, sind unabhängige, identisch verteilte eindimensionale Zufallsgrössen mit Erwartungswert hx; ai und Varianz 2x = E(hx; Xi ai2 ) = xt x, wenn x
als Spaltenvektor geschrieben wird.
L(hx; Tn = x i) nach dem eindimensionalen zentralen Grenzwertsatz (Korollar 6.18)
und der anschliessenden Bemerkung gegen die Normalverteilung mit Mittel 0 und Vari1
2
anz 2x . Nun ist aber
x die Normalverteilung mit Mittel 0 und Varianz x . Damit ist
der Satz bewiesen.
Als Anwendung beweisen wir einen Satz über die Multinomialverteilung.
Wir betrachten ein wiederholt unabhängig durchgeführtes Zufallsexperiment mit m
möglichen Aussgängen (z.B. m = 6 P
beim Würfel). Die einzelnen Ausgänge sollen Wahrscheinlichkeiten p1 ; : : : ; pm > 0 mit i pi = 1 haben. Das Experiment wird n Mal durch(n)
geführt. Ni bezeichne die Anzahl der Experimente mit Ausgang i: Man interessiert
(n)
(n)
sich für die Verteilung von N1 ; : : : ; Nm
alverteilung
P
: Das ist einfach die sogenannte Multinomin!
(n)
(n)
N1 ; : : : ; N m
= (n1 ; : : : ; nm ) =
n1 !
nm !
pn1 1 pn2 2
pnmm ;
P
sofern i ni = n ist, und 0 sonst. Wir verwenden die Formel nicht weiter; sie ist jedoch
sehr einfach einzusehen: Jede Folge (i1 ; : : : ; in ) ; ik 2 f1; : : : ; mg ; von Ausgängen des
Experiments hat Wahrscheinlichkeit pn1 1 pn2 2
pnmm ; wobei
nj =
n
X
k=1
(n)
1fik =jg
(n)
ist. Um P N1 ; : : : ; Nm = (n1 ; : : : ; nm ) zu bestimmen, müssen wir diese Wahrscheinlichkeit mit der Anzahl der Folgen (i1 ; : : : ; in ) ; welche n1 ; : : : ; nm realisieren, multiplizieren. Diese Anzahl ist jedoch n1 ! n! nm ! ; was aus dem Gymnasium bekannt sein
sollte.
Um den Zentralen Grenzwertsatz anwenden zu können, de…nieren wir unabhängige Rm -wertige Zufallsvektoren Xi = (Xi1 ; : : : ; Xim ), deren mögliche Werte nur die m
Vektoren e1 ; : : : ; em der Standardbasis von Rm sind, mit
P (Xi = ej ) = pj :
O¤ensichtlich gilt EXi = p = (p1 ; : : : ; pm ) : Die Kovarianzmatrix ist ebenso einfach zu
2
berechnen. Für j 6= k gilt E (Xij Xik ) = 0 und E Xij
= pj : Somit ist die Kovarianzmatrix
pj (1 pj ) f u
•r j = k
(X)j;k =
:
pj pk
fu
•r j 6= k
Da o¤ensichtlich
(n)
(n)
N1 ; : : : ; N m
=
n
X
i=1
116
Xi
ist, folgt aus Satz 6.19
0
L@
(n)
(n)
N1
np1 ; : : : ; Nm
p
n
npm
1
w
A!
N (0;
(X)) ;
wobei N (0; ) die m-dimensionale Normalverteilung mit Mittel 0 und Kovarianzmatrix
bezeichnet. Für Anwendungen ist es bequemer, die Komponenten etwas anders zu
normieren. Wir betrachten den Zufallsvektor
!
(n)
(n)
N1
np1
Nm
npm
;:::; p
:
p
np1
npm
Dieser ensteht aus dem vorher betrachteten unter der stetigen Abbildung (x1 ; : : : ; xm ) !
p
p
x1 = p1 ; : : : ; xm = pm : Somit folgt
!!
(n)
(n)
N1
np1
Nm
npm
w
L
;:::; p
! N 0; 0
p
np1
npm
mit
0
jk
:=
1 pj f u
•r j = k
:
p
p j pk f u
•r j =
6 k
Als Anwendung leitet wir einen wichtigen Satz her, der in der Statistik eine grosse
Rolle spielt.
Dazu zunächst eine De…nition:
De…nition 6.20
Sei die Standardnormalverteilung auf Rd : Die Verteilung des Quadrates der Euklidschen Norm unter
heisst 2 -Verteilung mit d Freiheitsgraden. Etwas formaler: Ist
f : Rd ! R+ de…niert durch
d
X
f (x) =
x2i :
i=1
2 -Verteilung
Die
mit d Freiheitsgraden auf R+ ist de…niert durch
Verteilung schreiben wir auch 2m :
f
1:
Für diese
Es ist nicht sehr schwer, die Dichte der 2 -Verteilung zu berechnen: Die Verteilungsfunktion ist per De…nition gegeben durch
Z
1
1 Xd
t!
exp
x2 dx:
d=2
i=1 i
2
(2
)
P
fx: di=1 x2i tg
Das Integral geht hier über Rd ; wir können es jedoch sehr leicht via d-dimensionale
Polarkoordinaten in ein 1-dimensionales verwandeln
fx:
Pd
Z
i=1
1
d=2
x2i tg
(2 )
exp
p
1 Xd
2
x2
i=1 i
117
dx =
!d
d=2
(2 )
Z
0
t
rd
1
exp
r2 =2 dr;
wobei ! d die Ober‡äche der Kugel vom Radius 1 in Rd ist, was bekanntlich
2 d=2
(d=2)
!d =
ist mit
der Gammafunktion. Di¤erentiation nach t ergibt:
Proposition 6.21
Die 2 -Verteilung mit d Freiheitsgraden hat die Dichtefunktion
t!
2d=2 d
t2
(d=2)
1
exp [ t=2] :
m mit
Wir betrachten nun die Euklidsche Norm unter der Normalverteilung auf
0 R
1
p
p1
B
C
Kovarianzmatrix 0 . Diese Kovarianzmatrix ist singular: Für den Vektor v = @ ... A
p
pm
P
gilt wegen j pj = 1 die Gleichung
X
p
p X
0
pj ) pj
pj
pk = 0;
jk vk = (1
k:k6=j
k
d.h. 0 v = 0: Ist w ein beliebiger Vektor der Länge 1 in Rm ; der senkrecht auf v steht,
so folgt
X
Xp
Xp
wT 0 w =
wi2 (1 pi )
pi wi
pj wj
i
=
X
i
wi2 (1
pi ) +
i
X
j:j6=i
pi wi2 =
i
X
wi2 = 1:
i
Ergänzen wir also v1 = v mit v2 ; : : : ; vm zu einer orthonormierten Basis, so gilt
viT
Ist
also ein nach N (0;
0)
0
1 fu
•r i = j
0
sonst
vj =
2
verteilter Zufallsvektor, so schreiben wir ihn als
=
m
X
i=1
h ; vi i vi :
h ; v1 i hat Varianz 0 und ist demzufolge 0 f.s.. h ; vi i für i
standard normalverteilt. Demzufolge ist
j j2 =
2 -verteilt
mit m
m
X
i=2
2 sind unabhängig und
h ; vi i2
1 Freiheitsgraden. Unter Anwendung von Lemma 6.9 erhalten wir
also
118
Satz 6.22
(n)
wobei
2
m 1
die
2 -Verteilung
m
Ni
X
npi
2
w
!
2
m 1
i=1
npi
mit m
1 Freiheitsgraden bezeichnet.
Die Zum Schluss des Kapitels diskutieren wir noch den Zusammenhang von Verteilungskonvergenz mit der Konvergenz in Wahrscheinlichkeit.
Wie bisher sei (S; d) ein metrischer Raum. Es soll nun de…niert werden, was es heisst,
dass eine Folge fXn gn von (S; BS )-wertigen Zufallsgrössen in Wahrscheinlichkeit gegen eine Zufallsgrösse X konvergiert. Naheliegend ist es, die reellwertige Zufallsgrösse d(Xn ; X)
zu betrachten. Ist das stets eine Zufallsgrösse? Leider nicht in jedem Fall! Man mussdazu
voraussetzen, dass S separabel ist.
Ist (S; d) ein metrischer Raum, so betrachten wir den Produktraum (S S; d0 ), wobei
d0 ((x1 ; x2 ); (y1 ; y2 )) = (d(x1 ; y1 )2 + d(x2 ; y2 )2 )1=2 sei.
Lemma 6.23
Ist S separabel, so ist BS
S
= BS
BS .
Beweis. Jede Produktmenge A B, wobei A S und B S o¤en sind, ist o¤en in S S,
das heisst sie liegt in BS S . Da diese Mengen BS BS erzeugen, folgt BS BS BS S .
Ist S separabel, so existiert eine abzählbare Basis f Ui : i 2 N g der Topologie von S,
und fUi Uj : i; j 2 Ng ist dann eine abzählbare Basis der Topologie von S S. Somit
ist jede o¤ene Teilmenge von S S in BS BS enthalten, das heisst: BS S BS BS .
Sind nun X und Y zwei (S; BS )-wertige Zufallsgrössen, so ist (X; Y ) eine (S S; BS
BS )-wertige Zufallsgrösse. Die Abbildung d : S S ! R ist d0 -stetig, also BS S -Bmessbar. Somit ist die folgende De…nition sinnvoll:
De…nition 6.24
Es sei S separabel und X sowie Xn für n 2 N Zufallsgrössen mit Werten in (S; BS ). Wir
sagen, die Folge fXn gn konvergiere in Wahrscheinlichkeit gegen X, falls d(Xn ; X) in
Wahrscheinlichkeit gegen 0 konvergiert, das heisst wenn für alle " > 0 gilt: limn!1 P (d(Xn ; X)
") = 0.
Proposition 6.25
w
Konvergiert Xn in Wahrscheinlichkeit gegen X, so gilt L(Xn ) ! L(X).
Beweis. Die Proposition ist ein Korollar das nachfolgenden Lemmas.
Die Umkehrung dieses Satzes ist nicht richtig (Übungsaufgabe).
Lemma 6.26
Es sei S separabel, und fXn gn und fXn0 gn seien zwei Folgen von (S; BS )-wertigen Zuw
fallsgrössen. Gelten L(Xn ) !
und d(Xn ; Xn0 ) ! 0 in Wahrscheinlichkeit, so gilt
w
0
L(Xn ) ! .
119
Beweis. Sei F
S abgeschlossen. Für " > 0 sei F " := fx 2 S : d (x; F )
ebenfalls abgeschlossen und es gilt F " # F für " # 0: Somit gilt
"g : F " ist
P (Xn 2 F " ) + P d Xn ; Xn0 > " :
P Xn0 2 F
Der zweite Summand geht nach Voraussetzung für jedes " > 0 gegen 0 für n ! 1: Somit
folgt
lim sup P Xn0 2 F
lim sup P (Xn 2 F " )
(F " ) ;
n!1
und wegen
(F " )
#
n!1
(F ) folgt
lim sup P Xn0 2 F
n!1
120
(F ) :
Herunterladen