Stochastische Methoden Vorlesungsskript WS 2005/2006

Werbung
Stochastische Methoden
Vorlesungsskript WS 2005/2006
Universität Kaiserslautern
Rainer Siegmund-Schultze
23. Februar 2006
Inhaltsverzeichnis
1 Einleitung
2
2 Grundbegriffe
4
2.1
2.2
2.3
2.4
Vorbemerkungen zur Axiomatik
Unabhängigkeit von Ereignissen
Unendliche Ereignisräume . . .
Die Verteilungsfunktion . . . .
der WT
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
8
9
15
3 Abgeleitete Zufallsgrößen und Unabhängigkeit
18
4 Bedingte Verteilungen
21
5 Die geometrische und die Exponentialverteilung
24
6 Binomialverteilung, Normalverteilung und der Grenzwertsatz
von Moivre-Laplace
25
7 Erwartungswert und Varianz
7.1 Kovarianzmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Das schwache Gesetz der großen Zahlen im Fall endlicher Varianz
7.3 Mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . .
37
43
44
46
8 Ein Anwendungsbeispiel für das Gesetz der großen Zahlen: Der
Kodierungssatz von Shannon
50
9 Das Lemma von Borel-Cantelli und die fast sichere Konvergenz
der Häufigkeiten
57
1
10 Das Starke Gesetz der großen Zahlen für unabhängige Zufallsgrößen
62
11 Einige Grundbegriffe der Mathematischen Statistik
69
11.1 Hypothesentests und relative Entropie . . . . . . . . . . . . . . . 73
12 Stochastische Prozesse
79
12.1 Markowsche Prozesse mit diskretem Zustandsraum und diskreter
Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
13 Anhang: Integration über Maßräumen
13.1 Nichtnegative Funktionen . . . . . . .
13.2 Das Integral reellwertiger Funktionen .
13.3 Vektorwertige Funktionen . . . . . . .
13.4 Lp -Räume meßbarer Funktionen . . .
13.5 Die Jensensche Ungleichung . . . . . .
14 Index
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
100
100
102
104
104
107
108
Einleitung
Diese Vorlesung wird Sie mit den Grundlagen einer Teildisziplin der Mathematik vertraut machen, in deren Zentrum der Zufallsbegriff steht. Zufall ist
eigentlich der Inbegriff von Regellosigkeit und steht damit zunächst in einem
ziemlichen Gegensatz dazu, daß die Mathematik ja gerade diejenige Wissenschaft ist, die die in der Realität anzutreffenden formalisierbaren Regeln
und Strukturen und die daraus logisch ableitbaren Aussagen untersucht, etwa in klassischen Disziplinen wie der Algebra, der Geometrie, Zahlentheorie,
Analysis oder mathematischer Logik. Sie stellt Modelle bereit, mit deren Hilfe sich Vorhersagen über das Verhalten realer Systeme, abgeleitet aus deren
strukturellen Eigenheiten und inneren Gesetzmäßigkeiten, ergeben.
Andererseits wird ein eintretendes Ereignis als zufällig bezeichnet, wenn
es sich gerade nicht auf irgendeine Weise aus den bekannten Anfangsbedingungen und Gesetzmäßigkeiten heraus erklären läßt.
Seit je versucht der Mensch, die einer Abfolge von Ereignissen zugrunde
liegenden inneren Gesetzmäßigkeiten umfassend zu ergründen, um aus dieser
Erkenntnis Nutzen zu ziehen.
Der (objektive) Zufall ist aber ein Moment, in dem etwas im Kern grundloses passiert, etwas, das in dem konkreten Ergebnis unvorhersehbar
ist, sich nicht aus der Vergangenheit eindeutig ableiten läßt. Wie kann denn
das definitiv unvorhersehbare Gegenstand einer wissenschaftlichen, noch dazu
mathematischen Disziplin sein?? Es ist doch eigentlich -an dieser Stelle- eine
Bankrotterklärung der Wissenschaft schlechthin, oder nicht?
Tatsächlich sind viele Menschen der Auffassung, so etwas wie Zufall gäbe es
gar nicht, d.h. wenn wir etwas als zufällig ansehen, hätten wir nur nicht das notwendige genaue Wissen über Anfangsbedingungen oder die Gesetzmäßigkeiten.
2
Von A. Einstein gibt es die berühmte Feststellung: ”Der liebe Gott würfelt
nicht!”
Ganz bestimmt gibt es unzählige Situationen, in denen es tatsächlich sehr
schwer oder unmöglich ist, schon alleine die notwendigen Informationen zu sammeln, obwohl die Gesetzmäßigkeiten der Abfolge möglicherweise genau bekannt
sind.
1. So weiß man seit langem, daß z.B. die Differentialgleichungen, die die
Strömung von Flüssigkeiten und Gasen beschreiben, in bestimmten Situationen
(niedrige Viskosität, hohe Strömungsgeschwindigkeiten) folgendes Verhalten zeigen:
Macht man bei der Bestimmung der Anfangsbedingungen einen (unvermeidlichen) Fehler der Ordnung ε, dann beträgt die Abweichung nach einer Zeiteinheit schon 10ε, nach zwei Zeiteinheiten 100ε u.s.w., das heißt nach n
Zeiteinheiten 10n ε. Der Fehler wächst also exponentiell mit der Zeit.
(!Pct!)
Es ist in solchen Situationen natürlich unmöglich langfristige Vorhersagen zu treffen. Man müßte alle eingehenden Parameter mit einer Genauigkeit von 100 Stellen messen, um den Zustand des Systems nach 100
Zeitschritten auch nur annähernd vorherzusagen, was selbstverständlich physikalisch völlig unrealistisch ist. Die besten Meßapparaturen liefern vielleicht 10
bis 15 gültige Stellen.
Von D. Ruelle stammt die Bemerkung:
”Consider an air molecule
in a room. Now remove a single electron
from the far edge of the universe–10 billion light
years away. The gravitational force (!) acting on the air
molecule will now be ever-so-slightly different.
Nevertheless, after only about fifty collisions
with other air molecules, which takes place in a
fraction of a second, the path of the target molecule
will have diverged so much from its original trajectory
that it will miss one of the molecules it would have
hit originally; thereafter, the new and old trajectories
will have nothing in common.”
In der Theorie der Dynamischen Systeme nennt man ein solches Verhalten sensible Abhängigkeit von den Anfangsbedingungen, populär geworden ist dies als ”Schmetterlingseffekt” im Sinne der ”Chaostheorie”, oder
eben ”kleine Ursache-große Wirkung”.
Klar ist also, daß es -ob man nun die Existenz von objektivem Zufall anerkennt oder nicht- ständig Situationen gibt, in denen zumindest subjektiver
Zufall eine Rolle spielt, d.h. die praktische Unmöglichkeit der Bestimmung der
Systemparameter, so genau, um über das Eintreten oder nicht Eintreten eines
bestimmten Ereignisses vorher urteilen zu können.
3
2. Die moderne Physik in Gestalt der Quantenmechanik kennt Situationen, in denen schon die bloße Annahme irgendeiner Form von Vorbestimmtheit in unauflösbare logische Widersprüche führt, in denen also
nicht viel mehr übrig bleibt, als die Existenz sogar von objektivem Zufall zu
akzeptieren. Da in einer vollständig deterministisch ablaufenden Welt offenbar
kein Raum für freien Willen bleibt (vgl. aktuelle Diskussionen zu dieser Problematik!), ist dieser Umstand eher als glücklich anzusehen.
Wir werden uns bald mit einem solchen aus physikalischer Sicht rein zufälligen Phänomen, dem Zeitpunkt des radioaktiven Zerfalls eines instabilen Atoms,
etwas näher beschäftigen im Zusammenhang mit dem Begriff der Exponentialverteilung, einem grundlegenden Begriff in der Wahrscheinlichkeitstheorie.
Was also kann Mathematik überhaupt leisten in Situationen, in denen Vorhersage extrem schwierig oder unmöglich ist?
Der Schlüssel zur Antwort liegt zum Einen im Gesetz der großen Zahlen,
einer zunächst empirischen Beobachtung, daß unter gleichartigen Bedingungen auftretende Zufallsereignisse auf lange Sicht eine merkwürdige Konstanz
der Häufigkeiten zeigen, die die Regellosigkeit der Einzelereignisse asymptotisch ’aushebelt’. Es ist, ein wenig paradoxerweise, gerade so, daß um so
zufälliger ein Ereignis tatsächlich ist, man sich um so mehr auf das Gesetz der
großen Zahlen verlassen kann. Überall dort hingegen, wo man sich nicht sicher
sein kann, ob es nicht doch einen verborgenen inneren Zusammenhang
gibt, der gerade diese beobachtete Ereignisabfolge generiert, bleibt die Zulässigkeit der Anwendung der Gesetze der Wahrscheinlichkeitstheorie zweifelhaft.
Einschub: Himmelsmechanik -KAM-Theorie als gegenteiliges Beispiel,
ebenso Mathematik: ’normale Zahlen’
!Pict!
2
2.1
Grundbegriffe
Vorbemerkungen zur Axiomatik der WT
Als mathematische Disziplin ist die Wahrscheinlichkeitstheorie in gewissem Sinne Maßtheorie. Die allgemeine Situation ist folgende:
Wir betrachten irgendeine Menge M von Elementarereignissen m ∈ M .
(!Pic!)
Wir stellen uns vor, daß aufgrund eines hier nicht näher zu beschreibenden
Vorgangs ein Element von M zufällig ausgewählt wird, also eines der elementaren Ereignisse m ∈ M . Wir möchten nun für eine Teilmenge M 0 ⊆ M
wissen, wie wahrscheinlich es ist, daß das ausgewählte Element m gerade in
M liegt. D.h., wie wahrscheinlich das zusammengesetzte (also i.A. nicht mehr
elementare) Ereignis M 0 ist.
4
Beispiel. Ein Fahrzeug fährt von A nach B, es trifft nach einer Zeit t > 0 in
B ein. Dieser eine Zeitpunkt t ∈ R+ =: M ist von vielen praktisch unvorhersehbaren kleinen Details beeinflußt. M 0 könnte etwa die Menge (0, 2) sein, was der
Aussage entspricht, daß das Fahrzeug weniger als zwei Stunden benötigt. Dieses
Ereignis setzt sich zusammen aus allen möglichen konkreten Fahrzeiten t unter
zwei Stunden.
Also sollte eine Wahrscheinlichkeitsverteilung eine Funktion sein, die bestimmten Teilmengen M 0 ⊆ M eine Zahl zwischen 0 und 1 zuordnet (1 ∼
=
100%). (Wir werden später sehen, daß es schon im obigen Beispiel unmöglich
ist, tatsächlich allen Teilmengen von M auf konsistente Weise eine solche Wahrscheinlichkeit zuzuschreiben.) Das ist zunächst nur eine (mehr oder weniger begründete) quantitative Angabe, ein Maß dafür, wie plausibel das Ereignis M 0
ist. Plausibel klingt natürlich wenig präzise, und subjektiv.
Nehmen wir das allereinfachste Beispiel: Jemand wirft eine (perfekt symmetrische) Münze. Dann ist M = {’Zahl’, ’Kopf’}, was wir einfacher durch
M = {0, 1} symbolisieren wollen. Es ist nun, wenn der Werfer nicht schummelt, ’plausibel’, beiden möglichen Elementarereignissen jeweils 50% ∼
= 0, 5 der
Wahrscheinlichkeit zuzuschreiben. Tatsächlich besitzt hier das Plausible einen
objektiven Charakter. Dieses Experiment ist ja auf die eine oder andere
Weise unzählige Male durchgeführt worden, und man beobachtet immer wieder,
daß, wenn man es lange genug probiert, die Anzahl der 1’en (’Kopf ’) tatsächlich
nahe bei 50% liegt.
=⇒Gesetz der großen Zahlen
Das erscheint sogar ein wenig eigenartig: Gibt es irgendeine ominöse ausgleichende Kraft, die dafür sorgt, daß nach 7 mal ’0’ entsprechend viele ’1’
folgen, damit sich alles auf 50% einpegelt? (’ausgleichende Gerechtigkeit’)?
Tatsächlich neigen viele intuitiv zu einer ähnlichen Sichtweise, bzw. wenn es
’nicht so gut läuft’ zum Gegenteil (’Pechsträhne’).
Was steckt hinter dieser Gesetzmäßigkeit? Wenn wir 100x die Münze werfen,
ist doch schließlich [0, 0, 0, ..., 0] ebenso wahrscheinlich wie [1, 0, 1, 0, 1, ..., 0] oder
[1, 1, 1, ..., 1]! Wieso werden Folgen mit nahezu 50% Eins-Anteil ’bevorzugt?
Antwort: Es gibt einfach unglaublich viel mehr 100’er-Folgen, deren
’1’-Anteil zwischen 45% und 55% liegt, als solche, wo dieser Anteil
etwa zwischen 0% und 10% liegt. Das Verhältnis der Anzahlen liegt
bei mehr als 1016 ! Bei 1000’er-Folgen ist es schon größer als 10161.
Betrachtet man Folgen der Länge 10000, dann gibt es mehr als 1022
mal so viele Sequenzen, deren ’1’-Anteil zwischen 45% und 55% liegt,
als alle übrigen zusammengenommen (also als diejenigen, deren ’1’Frequenz um mehr als 5% vom Idealwert abweicht). Es bestehen also
weitaus größere Chancen, ein einzelnes markiertes Sandkorn in der
Sahara zu finden, als diese 5% Abweichung bei einer Folge aus 10000
Münzwürfen.
Was hier am einfachsten möglichen Beispiel (die Menge der Elementarereignisse besteht nur aus zwei Elementen genau gleicher Wahrscheinlichkeit)
5
erläutert wurde, deckt sich mit der allgemeinen Beobachtung (empirisches
Naturgesetz):
Bei reproduzierbaren Zufallsvorgängen pegelt sich die Häufigkeit des
Auftretens eines beliebigen Ereignisses M 0 auf seine Wahrscheinlichkeit P (M 0 ) ein:
1 N
P (M 0 ), wobei
f (M 0 )
N groß
N 1
f1N (M 0 ) : = #{i : mi ∈ M 0 , 1 ≤ i ≤ N }.
Hier ist mi das bei der i-ten Beobachtung eintretende zufällige Elementarereignis.
Bemerkung: Es wurde hier bewußt nicht etwa limN →∞ N1 f1N (M 0 ) = P (M 0 )
geschrieben, weil es sich hier um reale Beobachtungen handelt, bei denen naturgemäß der Limesbegriff wegen der Endlichkeit jeder Beobachtungsreihe nicht
streng anwendbar ist. Der Versuch einer solchen ’empirischen’ Limes-Definition
des Begriffs Wahrscheinlichkeit durch Richard von Mises anstelle der axiomatischen Begründung (im Rahmen der Maßtheorie)durch Andrej N. Kolmogorov
hat sich deshalb nicht durchsetzen können.
Wir setzen nun zunächst voraus, M sei eine endliche Menge (im ersten
Beispiel mit dem Fahrzeug ist M = R+ , also überabzählbar unendlich). Wie
wir eben an dem einfachen Beispiel des Münzwurfes gesehen haben, läßt sich
das empirische Naturgesetz ’Gesetz der großen Zahlen’ in sehr vielen
Fällen durchaus näher begründen.
Seien nun zwei sich gegenseitig ausschließende Ereignisse M 0 , M 00 ⊆ M gegeben, also M 0 ∩ M 00 = ∅.
(!pic!)
Wenn wir davon ausgehen, daß
1 N
f (M 0 )
N 1
1 N
f (M 00 )
N 1
P (M 0 ) sowie
P (M 00 )
dann ergibt sich aus der Disjunktheit der beiden Mengen sofort
1 N
1 N
f1 (M 0 ∪ M 00 ) =
f1 (M 0 ) + f1N (M 00 )
N
N
P (M 0 ) + P (M 00 ).
Aus dieser (heuristischen!) Betrachtung folgt, daß -für den Fall der Endlichkeit von M - die Mengenfunktion P folgende Eigenschaften haben muß:
a)
b)
P : P(M ) 7→ [0, 1] (Mengenfunktion)
P (M ) = 1
(Normiertheit)
c) P (M 0 ∪ M 00 ) = P (M 0 ) + P (M 00 ) falls M 0 ∩ M 00 = ∅ (Additivität).
Das heißt, P muß ein normiertes Maß auf der endlichen Menge M sein. Es
folgt sofort aus c), daß gelten muß P (∅) = 0, außerdem ergibt sich durch
6
vollständige Induktion für ein beliebiges System paarweise disjunkter Teilmengen {Mi }ni=1 , Mi ⊆ M, Mi ∩ Mj = ∅ für i 6= j:
!
n
n
X
[
P
P (Mi ) (endliche Additivität).
Mi =
i=1
i=1
Bemerkung 1.: Aufgrund von c) kennen wir P komplett, wenn wir pm :=
P ({m}) für jedes Elementarereignis m ∈ M kennen:
X
pm .
P (M 0 ) =
m∈M 0
0
Hier haben wir entscheidend benutzt, daß M (und demzufolge auch MP
) endlich
0
ist, denn für überabzählbar unendliches M ist der Ausdruck
m∈M 0 pm
nicht definiert, während für abzählbar unendliches M 0 die endliche Additivität nicht ausreicht, um die Formel zu begründen.
Bemerkung 2.: Wenn aufgrund der Symmetrie der Situation klar ist, daß
alle Elementarereignisse gleiche Chance haben, so wie im Fall der (perfekten)
Münze oder eines perfekten Würfels, beim Roulette oder Zahlenlotto, dann gilt
wegen c)
pm
=
P (M 0 )
=
1
, also
#M
#M 0
.
#M
Dies wird üblicherweise durch die Feststellung:
Wahrscheinlichkeit = (Anzahl der günstigen Fälle)/(Anzahl aller
Fälle)
zum Ausdruck gebracht, die sich aber wie gesagt nur auf den Fall bezieht,
daß alle Einzelfälle gleichwahrscheinlich sind. Damit ist die Bestimmung von
Wahrscheinlichkeiten im Fall der Symmetrie eine Aufgabe der Kombinatorik geworden, nämlich geht es nur noch um die kombinatorische Bestimmung
der Anzahl der Elemente von endlichen Mengen.
Bemerkung 3.: Der Begriff des Elementarereignisses und damit die passende Wahl der Menge M ist situationsbedingt. So kann es sein, daß für eine
bestimmte Frage nicht die konkret gewürfelte Augenzahl eines Würfels von Interesse ist, sondern nur, ob die Zahl gerade oder ungerade ist. Dann können
wir die zusammengesetzten Ereignisse M u = {1, 3, 5} bzw. M g = {2, 4, 6} durch
f = {’g’, ’u’} zu EleVergröberung des Ereignisraumes M = {1, 2, ..., 6} zu M
mentarereignissen vereinfachen.
Bemerkung 4.: Die letzten beiden Bemerkungen sind von einiger Bedeutung
für die Wahrscheinlichkeitstheorie endlicher Mengen, denn sie führt dazu, daß
7
man im Prinzip nicht nur im Fall von Symmetrie sondern in viel allgemeinerem Sinne für endliches M die Kombinatorik als Säule der diskreten
Wahrscheinlichkeitstheorie ansehen kann: Sind nämlich alle auftretenden
Einzelwahrscheinlichkeiten pm rationale Zahlen rRm , wobei R ein gemeinsamer Nenner ist, dann können wir den den Ereignisraum M künstlich durch
Verfeinerung so modifizieren, daß das Elementarereignis m ∈ M durch die
Menge M m := {[m, 1], [m, 2], ..., [m, rm ]} von geordneten Paaren ersetzt wird,
wobei wir allen diesen Paaren dieselbe Wahrscheinlichkeit R1 zuordnen. Damit
sind wir im durch Bemerkung 2. beschriebenen Fall.
2.2
Unabhängigkeit von Ereignissen
Ein zentraler Begriff in der Stochastik ist die Unabhängigkeit. Dabei geht
man zunächst davon aus, zwei zufällige Ereignisse M 0 , M 00 in ganz alltäglichem
Sinn als unabhängig voneinander anzusehen, wenn ihr Zustandekommen in keinerlei kausalem Zusammenhang steht, wenn also die Information darüber, daß
M 0 eingetreten ist, nicht den geringsten Rückschluß auf die Frage zuläßt, ob M 00
eingetreten ist. Wenn wir etwa zwei Würfel gleichzeitig werfen, dann kann man
bei (fairem) Wurf davon ausgehen, daß etwa die Information, der erste Würfel
zeige die 1, nichts daran ändert, daß für die Augenzahl des zweiten Würfels die
Gleichverteilung anzunehmen ist.
In der allgemeinen Situation bedeutet das folgendes: Wenn wir das zu einer
Wahrscheinlichkeitsverteilung gehörende Zufallsexperiment unter identischen Bedingungen sehr oft (N mal) durchführen, dann können wir aufgrund der (heuristischen) Relation
1 N
f (M 0 )
P (M 0 )
N groß
N 1
davon ausgehen, daß die Anzahl der Fälle, in denen M 0 eintritt, nahe bei N 0 :=
[N · P (M 0 )] liegt. (Hier bezeichnet [x] den ganzen Teil einer reellen Zahl x.) Nun
haben wir vorausgesetzt, daß das Eintreten von M 0 keinen Rückschluß zuläßt
bzgl. M 00 . Wenn wir also nur jene ≈ N 0 Experimente betrachten, in denen jeweils
M 0 eingetreten ist (und die restlichen für den Augenblick vergessen), dann wird
der Anteil derjenigen Versuche, in denen sich auch M 00 ereignet hat wegen
1 N0
f (M 00 ) 0
N
N0 1
groß
P (M 00 )
nahe bei P (M 00 ) liegen. Dazu genügt es, daß N 0 hinreichend groß ist, als N ·
P (M 0 ). Falls nicht gerade P (M 0 ) = 0 ist, können wir also davon ausgehen, falls
N groß genug ist. Der Fall P (M 0 ) = 0 soll uns im Moment nicht interessieren
(er bedeutet, daß wir von vornherein davon ausgehen können, daß M 0 nicht
eintreten wird).
(!pic!)
8
Also wird die Anzahl der Fälle, in denen M 0 und M 00 eintreten, d.h. M 0 ∩M 00 ,
nahe bei N 0 · P (M 00 ) = [N · P (M 0 )] · P (M 00 ) ≈ N · P (M 0 )P (M 00 ) liegen. Die
Heuristik zeigt also, daß
1 N
f (M 0 ∩ M 00 )
N
N 1
groß
P (M 0 )P (M 00 ).
Folglich kommen wir zu der Relation
u)
P (M 0 ∩ M 00 ) = P (M 0 )P (M 00 )
für M 0 , M 00 unabhängig.
Daher definiert man die Unabhängigkeit zweier Ereignisse M 0 , M 00 durch
die Gültigkeit der Relation u).
Bezeichnet etwa im oben betrachteten Beispiel M 0 das Ereignis {[1, 1], [1, 2], ..., [1, 6]}
(d.h. der erste Würfel zeigt eine 1) und M 00 das Ereignis {[1, 3], [2, 3], ..., [6, 3]}
(der zweite Würfel zeigt eine 3), dann gilt aufgrund der Symmetrie und damit
Gleichwahrscheinlichkeit aller 36 möglichen Elementarereignisse [i, j] :
P (M 0 )
P (M 0 ∩ M 00 )
1
1
= = P (M 00 ) sowie
36
6
1
= P ({[1, 3]}) =
= P (M 0 )P (M 00 )
36
= 6
wie erwartet.
Beispiel: Wir betrachten den Wurf zweier Münzen, wobei eine Seite wie
üblich mit 0, die andere mit 1 bezeichnet wird. Der Ereignisraum ist also M
= {[i, j] : i, j ∈ {0, 1}}. M 0 , M 00 seien die Menge M 0 := {[i, j] ∈ M : i + j
ist gerade} = {[0, 0], [1, 1]} bzw. M 00 := {[i, j] ∈ M : i = 1}. Wieder ist leicht zu
sehen, daß gilt
P (M 0 ∩ M 00 ) = P ({[1, 1]}) =
1
= P (M 0 )P (M 00 ).
4
Das Beispiel zeigt, daß Unabhängigkeit auch bestehen kann, wenn es sich nicht
einfach um Ereignisse handelt, von denen sich jedes nur auf eins von zwei völlig
getrennten Objekten bezieht ( M 0 ist eine gemeinsame Eigenschaft der beiden
Münzen).
2.3
Unendliche Ereignisräume
In der klassischen Phase der Wahrscheinlichkeitstheorie wurde in allererster Linie der eben betrachtete Fall eines endlichen Ereignisraumes M in Betracht
gezogen und man untersuchte die dabei auftretenden kombinatorischen Fragen,
etwa im Zusammenhang mit Glücksspielen.
Wenden wir uns nun dem Fall zu, daß die zugrundeliegende Menge M nicht
mehr endlich, aber wenigstens abzählbar unendlich ist, etwa die Menge der
natürlichen Zahlen N. Wie oben schon festgestellt, reicht in diesem Falle die
9
Eigenschaft c) nicht aus, um die Wahrscheinlichkeiten von zusammengesetzten Ereignissen auf die von Elementarereignissen zurückzuführen. Aber auch
in diesem Fall kann man ähnliche heuristische Häufigkeitserwägungen wie oben
anstellen, und zu dem Schluß kommen, daß man sinnvollerweise anstelle von c)
die entsprechend stärkere Forderung stellen muß:
Für ein beliebiges System paarweise disjunkter Teilmengen {Mi }∞
i=1 mit
Mi ⊆ M, Mi ∩ Mj = ∅ für i 6= j soll gelten
!
∞
∞
X
[
P (Mi ) .
Mi =
c’) P
i=1
i=1
Dies impliziert erneut P (∅) = 0 und natürlich auch c), wenn wir einfach M3 =
M4 = ... = ∅ wählen. Diese Eigenschaft heißt σ-Additivität. Aus ihr ergibt
sich dann auch im abzählbar unendlichen Fall die Eigenschaft
X
pm
P (M 0 ) =
m∈M 0
0
für beliebige Teilmengen von M ∈ P(M ).
Bemerkung: Es gibt normierte Mengenfunktionen auf P(N), die endlich additiv, aber nicht σ-additiv sind, z.B. solche, die jeder natürlichen Zahl n ∈ N
das Maß 0 zuordnen, obwohl sie N das Maß 1 geben (Normiertheit). Diese ’exotischen’ Maße sind aber nicht konstruktiv angebbar und spielen in der üblichen
Wahrscheinlichkeitstheorie keine Rolle.
Eine Mengenfunktion mit den Eigenschaften a), b) und c’) ist im Sinne
der Maßtheorie ein normiertes (σ-additives) Maß auf dem Mengensystem
P(M ) über der abzählbaren Menge M . Wir stellen fest, daß im betrachteten
Fall weiterhin jeder beliebigen Teilmenge von M ein Maß (Wahrscheinlichkeit)
zugeordnet werden kann.
Dieser Umstand geht im Falle eines überabzählbar unendlichen M im
Allgemeinen leider zwangsläufig verloren. Bestimmten -allerdings wiederum ’exotischen’, nicht konstruktiven Teilmengen von R kann man im Allgemeinen auf
keine sinnvolle Weise eine Wahrscheinlichkeit zuordnen (wenn man die σ-Additivität
berücksichtigt). Sie sind nicht meßbar. Damit werden Wahrscheinlichkeitstheorie und Mathematische Statistik in diesen Fällen erheblich komplizierter,
weil man sich oft um die Frage der Meßbarkeit Gedanken machen muß.
Wir müssen uns also im überabzählbaren Fall auf eine echte Teilmenge
A ⊂ P(M ) beschränken, P wird also nur noch eine Abbildung von A nach [0, 1]
sein.
Definition 1 Eine Teilmenge von P(M ) heißt σ-Algebra (über M ), falls die
folgenden Eigenschaften erfüllt sind:
1. M ∈ A
2. für jedes M 0 ∈ A liegt auch M \ M 0 in A. S
∞
3. für alle Folgen (Mi )∞
i=1 , Mi ∈ A gilt auch
i=1 Mi ∈ A.
10
Es wird also gefordert, daß das sichere Ereignis meßbar sein soll, weiterhin mit einem Ereignis auch das komplementäre Ereignis, und da die σAdditivität des Wahrscheinlichkeitsmaßes eine wichtige Eigenschaft ist, auf die
man nicht verzichten will, ist es sinnvoll zu fordern, daß A gegenüber der Bildung abzählbarer Vereinigungen abgeschlossen sein soll.
Aus 1. und 2. folgt sofort, daß auch die leere Menge (das unmögliche
Ereignis) ∅ zu A gehört, und aufgrund der aus der elementaren Mengenlehre
bekannten Beziehung
zwischenT Komplementbildung und der Vereinigung von
S∞
∞
Mengen (M \ i=1 (M \Mi ) = i=1 Mi ) ergibt sich aus 1.-3., daß eine σ-Algebra
auch gegenüber der Bildung abzählbarer Durchschnitte abgeschlossen
ist:
∞
\
Für alle Folgen (Mi )∞
,
M
∈
A
gilt
auch
Mi ∈ A.
i
i=1
i=1
Beispiele für σ-Algebren über einer beliebigen Menge M sind:
- das System {∅, M } (es ist allerdings nicht besonders interessant, Wahrschenlichkeitstheorie auf dieser σ-Algebra zu betreiben)
- die komplette Menge P(M ) (aber wie gesagt ist diese σ-Algebra im Allgemeinen zu groß).
Eine wichtige Eigenschaft von σ-Algebren ist, daß der Durchschnitt eines
beliebigen Systems von σ-Algebren selbst wieder eine σ-Algebra ist: Sei I eine
Indexmenge (evtl. überabzählbar) und (Aα )α∈I ein System von σ-Algebren über
einer Menge M . Dann gilt:
T
Lemma 2 α∈I Aα ist eine σ-Algebra.
Der Beweis dieser Aussage ist ganz einfach: Alle Aα enthalten das T
Element
M wegen 1., also auch ihr Durchschnitt. Wenn eine Menge M 0 in α∈I Aα
enthalten ist, dann ist es in allen Aα enthalten, folglich ist nach 2. auch M \ M 0
in allen Aα enthalten, als auch in deren Durchschnitt, und analog wird 3. gezeigt.
Diese Aussage ermöglicht die Konstruktion von σ-Algebren, die reichhaltig
genug sind, um z.B. für den Fall M = R alle Intervalle (a, b) und allgemeiner
alle offenen Mengen zu umfassen, andererseits aber nicht zu groß sind (wie
schon festgestellt ist etwa P(M ) für überabzählbares M ungeeignet).
Wir werden uns in dieser Vorlesung haupsächlich mit abzählbaren M und
dem Fall befassen, daß M der d-dimensionale euklidische Raum Rd (bzw. eine
geeignete Teilmenge davon) ist.
Es sei O das System der offenen Teilmengen eines metrischen (oder allgemeiner topologischen Raumes) M , z.B. des Rd .
T
Definition 3 Die σ-Algebra B(M ) := {A : A ist σ-Algebra über M , A ⊃ O}
heißt die Borelsche σ-Algebra über dem metrischen (topologischen) Raum M .
Eine Teilmenge M 0 ⊆ M heißt Borel-meßbar, wenn M 0 ∈ B(M ).
11
Bemerkung: Da P(M )⊃ O, gibt es mindestens eine σ-Algebra, die O umfaßt.
Wir werden später sehen, daß die auf diese Weise definierte σ-Algebra gut
an die Belange der Wahrscheinlichkeitstheorie angepaßt ist.
Es sei A eine σ-Algebra über einer Menge M . Dann heißt das Tupel [M, A]
meßbarer Raum.
Definition 4 P heißt Wahrscheinlichkeitsmaß auf dem meßbaren Raum
[M, A] falls:
1. P : A 7−→ [0, 1],
2. P (M ) = 1,
3. P ist σ-additiv.
Das Tupel [M, A, P ] heißt Wahrscheinlichkeitsraum.
Ein Wahrscheinlichkeitsmaß ist der Spezialfall eines Maßes.
Definition 5 µ heißt Maß auf dem meßbaren Raum [M, A] falls:
1. µ : A 7−→ [0, +∞],
2. µ ist σ-additiv.
Das Tupel [M, A, µ] heißt Maßraum.
D.h. ein Wahrscheinlichkeitsmaß ist ein (auf 1) normiertes Maß.
Ein Wahrscheinlichkeitsmaß ist also auch im allgemeinen Fall ein Objekt,
das bestimmten Teilmengen einer umfassenden Menge M , nämlich den meßbaren Teilmengen (Ereignissen) ihre Wahrscheinlichkeit zuschreibt, wobei P (M ) =
1 und σ-Additivität gelten.
Wir sind nun auch in der Lage, etwa mit dem Fall der Menge Rd zu arbeiten,
als meßbare Mengen wählen wir B(Rd ). Aus der Analysis ist bekannt, daß es
auf B(Rd ) genau ein ausgezeichnetes Maß µL (das Lebesguesche Maß) gibt,
das die folgenden beiden Eigenschaften besitzt:
1. µL ([0, 1]d ) = 1 und
2. µL (B) = µL (B + x) für alle B ∈ B(Rd ) und x ∈ Rd ,
wobei B + x := {y ∈ Rd : y − x ∈ B} die um den Vektor x verschobene Menge B ist. Dieses Maß verallgemeinert den klassischen Volumenbegriff
auf alle Borelschen Mengen (sogar auf eine noch größere σ-Algebra, die Lebesguesche σ-Algebra, die wir hier aber nicht betrachten). Dieses (unendliche, da
µL (Rd ) = +∞) Maß, wird, eingeschränkt auf die σ-Algebra B([0, 1]d ) (also wenn
wir den Maßraum [[0, 1]d , B([0, 1]d ), µL ((·) ∩ [0, 1]d )] betrachten) wegen 1. zu
einer Wahrscheinlichkeitsverteilung. Diese heißt Gleichverteilung auf [0, 1]d .
Generell können wir für jede Borelsche Menge C ⊂ Rd , die endliches positives
ein Wahrscheinlichkeitsmaß einführen, die
Maß hat, durch den Ansatz µLµ((·)∩C)
L (C)
Gleichverteilung auf C.
So wie im Falle einer endlichen Teilmenge E von Z die Gleichverteilung auf
E durch Normierung des Zählmaßes # entsteht: #((·)∩E)
#(E) , genauso ist dies nun
12
im überabzählbaren Fall des Rd , wobei anstelle der Eigenschaft der diskreten
Gleichverteilung, allen Elementarereignissen gleiche Wahrscheinlichkeit zuzuordnen, nun die Eigenschaft 2. getreten ist, wobei wir vorauszusetzen haben, daß
in 2. sowohl B als auch B + x ganz in C liegen.
(!pic!)
(Sofern Sie in der Analysis noch nicht mit dem Lebesgueschen Maß vertraut
gemacht wurden, denken Sie zunächst einfach an das übliche d-dimensionale
Volumen von Mengen.)
Das Lebesguesche Maß µL auf [Rd , B(Rd )] ist kein endliches Maß, denn es
gilt ja µL (Rd ) = +∞. Es ist aber immer noch σ-endlich im Sinne von:
Definition 6 Ein Maß µ auf einem meßbaren Raum [M, A]
S∞heißt σ-endlich,
falls es eine Folge (Mi )∞
von
Mengen
aus
A
gibt,
so
daß
i=1
i=1 Mi = M gilt,
sowie µ(Mi ) < +∞.
S
Denn es gilt ja x∈Zd (0, 1]d + x = Rd sowie µL ((0, 1]d +x) = µL ((0, 1]d ) =
1 nach Definition des Lebesgueschen Maßes.
Bemerkung. Die Gleichverteilung auf einer Teilmenge B ⊂ Rd , 0 < µ(B) <
+∞ hat die Eigenschaft, daß alle Elementarereignisse die Wahrscheinlichkeit 0
haben! Es gilt nämlich für alle x ∈ Rd daß µL ({x}) = 0. Ein Maß mit dieser Eigenschaft heißt diffus. Es ist im Gegensatz zum abzählbaren oder endlichen Fall
nicht mehr so, daß ein Wahrscheinlichkeitsmaß durch seine Werte auf sämtlichen Elementarereignissen definiert ist, denn es gibt sehr viele diffuse W-Maße
auf ein und derselben Menge B ⊂ Rd , 0 < µ(B) < +∞ (z.B. jede Gleichverteilung auf einer Teilmenge B 0 ⊂ B läßt sich ja auch als Verteilung auf B
ansehen).
Einschub: Vitali-Konstruktion einer nicht-meßbaren Menge.
Über die Gleichverteilungen hinaus ist das Lebesguesche Maß Grundlage für
die Konstruktion einer großen und zentral wichtigen Klasse von W-Verteilungen.
Betrachten wir zunächst irgendeine Rstückweise-stetige nicht-negative Funktion
f auf dem Rd mit der Eigenschaft Rd f dx = 1. Dann definiert
Z
µf (C) :=
f dx
C
R
R
eine normierte Mengenfunktion µf . Das Integral C f dx läßt sich auch als 1C f
dx schreiben, wobei 1C die Indikatorfunktion der Menge C ist, d.h.
1 für x ∈ C
1C (x) =
.
0
sonst
d
Sei nun (Ci )∞
i=1 eine Folge von disjunkten Mengen aus B(R ). Dann gilt
1Sni=1 Ci =
n
X
i=1
1Ci %n→∞ 1S∞
i=1 Ci
13
(punktweise).
Nun folgt aus dem Satz von Lebesgue über monotone Konvergenz die
σ-Additivität der normierten Mengenfunktion µf , da
Z
Z
Z
∞
[
S
f dx = 1 ∞
f dx = lim
1Sni=1 Ci f dx
µf ( C i ) =
S
i=1 Ci
∞
i=1
i=1
=
=
lim
n→∞
∞ Z
X
i=1
n→∞
Ci
Z
Sn
i=1
f dx = lim
f dx =
Ci
n→∞
Ci
∞
X
n Z
X
i=1
f dx
Ci
µf (Ci ).
i=1
Also ist µf eine W-Maß. Man nennt µf die Wahrscheinlichkeitsverteilung mit der Dichtefunktion f . So ist die Gleichverteilung auf [0, 1]d gegeben
durch ihre Dichtefunktion 1[0,1]d . So übernimmt hier die Dichtefunktion (kurz:
Dichte) die Rolle, die die Einzelwahrscheinlichkeiten im endlichen oder abzählbaren Fall innehaben: Sie bestimmt eindeutig das jeweilige W-Maß, und für die
Gleichverteilung auf einer (Borel-)meßbaren Menge B (d.h. B ∈ B(Rd )) gilt
1
f ≡ µL1(B) analog zu P ({m}) ≡ #(M
) für einen endlichen W-Raum M .
Bemerkung: Auf einer abzählbar unendlichen Menge (z.B. N) gibt es
keine Gleichverteilung.
Die eben getroffene Voraussetzung, daß f stückweise stetig sein soll, läßt sich
ersetzen durch die erheblich schwächere Forderung, daß f meßbar ist:
Definition 7 Eine Funktion f von einem meßbaren Raum [A, A] in einen weiteren [A0 , A0 ] heißt meßbar, falls f −1 (B) ∈ A für alle B ∈ A0 gilt.
Bemerkung: Diese Definition ist analog zur allgemeinen Stetigkeitsdefinition,
wo gefordert wird, daß das Urbild jeder offenen Menge wieder offen ist.
d
d
Ist nun f eine meßbare
R Funktion von [R , B(R )] in [R, B(R)] mit den
Eigenschaften f ≥ 0 und Rd f dx = 1 (in der Analysis wird das LebesgueIntegral meßbarer Funktionen eingeführt), dann lassen sich die obigen Betrachtungen (einschließlich des Nachweises der σ-Additivität) ungeändert auf diesen
Fall ausweiten. (In vielen Fällen werden uns aber stückweise stetige Funktionen genügen, so daß man zur Not auch mit dem Riemannschen Integralbegriff
auskommt.)
Bemerkung: Die Dichte ist nicht vollkommen eindeutig definiert, man kann
sie auf einer Menge N ∈ B(Rd ) mit µL (N ) = 0 beliebig abändern, ohne daß
sich etwas am durch sie definierten W-Maß ändern würde. So kann man sie in
einem einzelnen Punkt x ∈ Rd letztlich völlig beliebig wählen.
Längst nicht alle W-Maße auf [Rd , B(Rd )] besitzen jedoch eine Dichte(funktion)!
Es ist leicht einzusehen, daß etwa die durch
1 falls 0 ∈ C
δ0 (C) :=
, C ∈ B(Rd )
0
sonst
gegebene W-Verteilung δ0 -die Einpunktverteilung auf 0 - keine Darstellung
über eine Dichte (bezogen auf das Lebesguesche Maß) zuläßt. In der Analysis
14
wird bewiesen, daß eine Wahrscheinlichkeitsverteilung P auf [Rd , B(Rd )] genau dann über eine Dichtefunktion darstellbar ist, wenn sie absolut stetig
ist, d.h. wenn P (N ) = 0 für alle N ausB(Rd ) mit µL (N ) = 0 (Lebesgue-NullMengen) erfüllt ist (Satz von Radon-Nikodym). Da für die Einpunktverteilung in 0 ja δ0 ({0}) = 1 gilt, fällt sie nicht in diese Klasse.
Man unterscheidet auf [Rd , B(Rd )] folgende Typen von Grund-Typen von
Verteilungen:
a) diskrete Verteilungen: P (A) = 1 für eine bestimmte endliche oder
abzählbare Menge A
b) singuläre Verteilungen P (N ) = 1 für eine bestimmte Lebesgue-Nullmenge
( µL (N ) = 0)
c) diffuse Verteilungen: P (A) = 0 für jede endliche oder abzählbare Menge
A
d) absolut stetige Verteilungen.
Diskrete W-Maße sind singulär, denn jede abzählbare Menge hat das Lebesguesche Maß 0. Alle absolut stetigen W-Maße sind diffus, d.h. sie ordnen
beliebigen einelementigen Mengen {x}, x ∈ Rd das Maß 0 zu. Es gibt aber auch
diffuse W-Maße, die singulär sind, also deren ganze Masse auf einer 0-Menge
(bzgl. µL ) sitzt.
Jede W-Verteilung läßt sich darstellen als Mischung P = αP1 + βP2 +
γP3. , α + β + γ = 1, α, β, γ ≥ 0, wobei P1 eine diskrete, P2 eine diffuse singuläre
und schließlich P3 eine absolut stetige Wahrscheinlichkeitsverteilung sind. Wie
schon gesagt läßt sich nur der absolut stetige Anteil P3 über eine Dichte charakterisieren.
2.4
Die Verteilungsfunktion
Wenngleich wir gesehen haben, daß Wahrscheinlichkeitsmaße auf [Rd , B(Rd )]
nicht immer durch eine Dichtefunktion beschrieben werden könne, so lassen sie
sich doch generell eindeutig durch einen anderen Typ von Funktionen beschreiben, nämlich durch ihre Verteilungsfunktion. Dazu erinnern wir zunächst an den
Begriff eines Halbrings von Mengen:
Definition 8 Es sei M eine Menge. Eine Teilmenge H von P(M ) heißt Halbring, falls mit M 0 , M 00 ∈ H auch M 0 ∩ M 00 ∈ S
H und es endlich viele paarweise
disjunkte Mi ∈ H gibt, so daß M 0 \ M 00 = i Mi gilt.
In der Maßtheorie wird gezeigt, daß zwei endlicheTMaße µ1 , µ2 , die auf
einem Halbring H übereinstimmen, auch auf σ(H) := {A : A ist σ-Algebra
über M , A ⊃ O} übereinstimmen, d.h. aus µ1 (M 0 ) = µ2 (M 0 ) für alle M 0 ∈ H
folgt µ1 (M 0 ) = µ2 (M 0 ) für alle M 0 ∈ σ(H). Nun bildet das System Q aller halbQ
offenen (Hyper-)Quader des Rd der Form di=1 (ai , bi ] einen Halbring und jede offene Teilmenge des Rd läßt sich als abzählbare Vereinigung von solchen Quadern
darstellen, so daß σ(Q) = σ(O) = B(Rd ) die Borelschen Mengen des Rd sind.
15
Also ist ein W-Maß P auf [Rd , B(Rd )] eindeutig durch die Wahrscheinlichkeiten sämtlicher halboffener Quader festgelegt. Nun ist es nicht schwer mittels der
(endlichen) Additivität von P zu zeigen
(Übungsaufgabe), daß es sogar genügt,
Qd
(−∞,
b
]
für beliebiges b = (b1 , ..., bd ) ∈ Rd zu
die Werte FP (b) := P
i
i=1
kennen, um eindeutig auf P schließen zu können. FP : Rd 7→ [0, 1] heißt Verteilungsfunktion von P . Sie besitzt folgende Eigenschaften
Satz 9 1. FP (b(n) ) → 0 für jede Folge
d
{b(n) }∞
n=1 , b(n) = (b(n),1 , b(n),2 , ..., b(n),d ) ∈ R
mit mini∈{1,...,d} b(n),i → −∞,,
d
2. FP (b(n) ) → 1 für jede Folge {b(n) }∞
n=1 , b(n) ∈ R mit b(n),i → +∞, i ∈
{1, ..., d},
3. FP (a) ≤ FP (b) falls a, b ∈ Rd , ai ≤ bi , i ∈ {1, ..., d}, (Monotonie),
4. FP (b(n) ) → FP (b) für jede Folge b(n) ∈ Rd mit b(n),i ≥ bi , b(n),i → bi , i ∈
{1, ..., d}
(Rechts-Stetigkeit).
B e w e i s. Wir zeigen zunächst die rechtseitige Stetigkeit der Verteilungsfunktion, also Punkt 4.
Sei b0 > b beliebig gewählt (also b0i > bi , i = 1, 2, ..., d). Aus der Konvergenz
b(n) → b folgt, daß für genügend großes n gilt: b0i > b(n),i ≥ bi , i = 1, 2, ..., d.
Also gilt wegen
d
Y
i=1
(−∞, b0i ] ⊃
d
Y
i=1
(−∞, b(n),i ] ⊇
d
Y
(−∞, bi ]
(1)
i=1
auch
FP (b0 ) ≥ FP (b(n) ) ≥ FP (b)
(2)
0
wenn n genügend groß ist. Sei eine Folge {b0(k) }∞
k=1 so gewählt, daß b(k) → b
0
0
sowie b(k),i > b(k+1),i > bi für alle k und alle i = 1, 2, ..., d. Dann ist Wk :=
Qd
Qd
T
0
k Wk =
i=1 (−∞, bi ],
i=1 (−∞, b(k),i ] eine absteigende Mengenfolge mit
0
also gilt (s. Übungsaufgabe 2.2) P (Wk ) = FP (b(k) ) → FP (b) für k → ∞. Aus
(2) folgt nun auch, daß FP (b(n) ) → FP (b) für n → ∞.
Um Punkt 1. zu zeigen, bemerken wir zunächst, daß aus der Bedingung an
{b(n) } folgt, daß bei beliebig großem k ∈ N für genügend große n
d
Y
i=1
(−∞, b(n),i ] ⊆ Ak := {x ∈ Rd : xi ≤ −k für mindestens ein i}
gilt. Folglich gilt FP (b(n) ) ≤ P (Ak ), falls n gnügend groß ist. Es gilt aber
T
k Ak = ∅, und {Ak } ist eine absteigende Mengenfolge. Also folgt aus der
Stetigkeit von P , daß P (Ak ) → 0 und somit geht auch FP (b(n) ) gegen 0.
16
T
Um Punkt 2. zu zeigen, stellen wir fest, daß sich aus der Beziehung
P ( k Wk ) =
S
limk P (Wk ) für jede absteigende Mengenfolge Wk auch P ( k Wk ) = limk P (Wk )
für jede aufsteigende Folge ergibt, weil dann
[
\
\
P ( Wk ) = P (Rd \ (Rd \ Wk )) = 1 − P ( (Rd \ Wk ))
k
k
k
d
= 1 − lim P (R \ Wk ) = lim P (Wk ).
k
k
Nun können wir Punkt 2. völlig analog zu 4. beweisen, indem wir eine Folge
0
0
0
{b0(k) }∞
k=1 so wählen, daß b(k) → (+∞, +∞, ..., +∞) sowie b(k),i < b(k+1),i für
Qd
alle k und alle i = 1, 2, ..., d gilt. Dann ist nämlich Wk := i=1 (−∞, b0(k),i ]
S
aufsteigend und k Wk = Rd .
Q
Q
Punkt 3. folgt sofort aus der Additivität ( di=1 (−∞, a] ⊆ di=1 (−∞, b]).
Bemerkungen:
1. Man kann diesen Satz auch kurz so formulieren, daß jede Verteilungsfunktion monoton, stetig in −∞ und +∞ sowie rechtsseitig stetig ist.
2. Daß die linksseitige Stetigkeit i.A. nicht gilt liegt daran, daß für b0(k) %
S Qd
Qd
b, b0(k) < b nur k i=1 (−∞, b0(k),i ] = i=1 (−∞, bi ) folgt, die aufsteigende FolQd
ge hat nicht etwa i=1 (−∞, bi ] als Limesmenge. Ist aber P absolut stetig,
Qd
Qd
dann gilt auch die linksseitige Stetigkeit, denn
i=1 (−∞, bi )
i=1 (−∞, bi ] \
ist eine Nullmenge bezüglich des Lebesgueschen Maßes, also auch bezüglich P
(Übungsaufgabe).
Im eindimensionalen Fall ( d = 1) ist (−∞, b] \ (−∞, b) = {b}, also sicher
eine P -Nullmenge, wenn P diffus ist, so daß für d = 1 die Verteilungsfunktionen aller diffusen W-Verteilungen stetig sind.
3. Im Fall d = 1 gilt sogar, daß die Eigenschaften 1.-4. genau die Verteilungsfunktionen von Wahrscheinlichkeitsmaßen auf dem meßbaren Raum
[R, B(R)] charakterisieren: Zu jeder Funktion auf dem R mit diesen Eigenschaften gibt es genau ein W-Maß, das die betreffende Funktion als Verteilungsfunktion hat. Das ergibt sich daraus, daß man zunächst aus der Funktion die
’Wahrscheinlichkeiten’ (wir haben das Maß ja noch nicht konstruiert) beliebiger
halboffener Intervalle der Form (a, b] bestimmen kann als F (b) − F (a), und
diese Werte bilden in ihrer Gesamtheit eine σ-additive Mengenfunktion auf
dem Halbring der halboffenen Intervalle. In der Maßtheorie wird gezeigt, daß
es zu einer solchen σ-additiven Mengenfunktion immer eine eindeutig bestimmte Wahrscheinlichkeitsverteilung gibt. Die σ-Additivität folgt recht einfach aus
der Rechts-Stetigkeit.
Für d > 1 muß noch eine weitere Forderung gestellt werden, die sichert,
daß die Wahrscheinlichkeiten aller halboffenen Quader nicht-negativ sind. Diese Forderung lautet etwa im Fall d = 2: F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) +
F (x1 , y1 ) ≥ 0 für beliebige x2 ≥ x1 , y2 ≥ y1 .
(!pic!)
Für größere d läßt sich eine (entsprechend kompliziertere) analoge Bedingung
herleiten.
17
3
Abgeleitete Zufallsgrößen und Unabhängigkeit
In den meisten Situationen, in denen ein Ereignis als zufällig angesehen wird,
interessiert man sich nur für einen Teilaspekt dieses Ereignisses bzw. für daraus
abgeleitete Größen. So ist in dem allerersten Beispiel, wo es um die Bewegung eines Fahrzeuges von A nach B ging, genau genommen die gesamte Fahrt in ihrem
Ablauf durch das Wechselspiel zufälliger äußerer Einflüsse mit den Handlungen
des Fahrers charakterisiert, und die Gesamtfahrzeit ergibt sich als eine Funktion
des zeitlichen Ablaufs der Fahrt. Beim Wurf eines Würfels interessiert nur die
obenliegende Zahl, aber nicht, in welcher Orientierung der Würfel liegenbleibt,
wobei diese Orientierung ja ebenfalls ein zufälliges Ergebnis des Wurfes ist.
Um diese Situation in einen allgemeinen Rahmen zu bringen, betrachten wir
einen Wahrscheinlichkeitsraum [M, A, P ] sowie eine meßbare Abbildung ξ von
c, A].
b Bei der zufälligen
[M, A, P ] in irgendeinen weiteren meßbaren Raum [M
Auswahl eines Elementes m aus M gemäß P wird in einem anschaulichen Sinn
c ausgewählt, nämlich ξ(m). Das dazugehörige W-Maß
auch ein Element aus M
b
c
Q auf [M, A] entsteht durch den Transport des Maßes P mittels ξ:
b 7→ P (ξ −1 (A))
b∈A
b ∈ [0, 1].
Q:A
b in A liegt,
Hierbei haben wir benutzt, daß ξ meßbar ist und folglich ξ −1 (A)
b
b
b
falls A ∈ A. Wir müssen nun nachweisen, daß die auf A definierte nichtnegative
Mengenfunktion Q normiert und σ-additiv ist.
c = M , woraus sofort Q(M)
c = 1 folgt. Außerdem sind bei
Zunächst ist ξ −1 (M)
jeder Abbildung
Mengen ebenfalls disjunkt und es gilt
disjunkter
die Urbilder
S
bα )α∈I . Daraus
bα für beliebige Mengensysteme (A
bα = S−1 ξ A
ξ −1
A
α∈I
α∈I
folgt nun unmittelbar die σ-Additivität von Q = P ◦ ξ −1 :
!
!!
!
∞
∞
∞
∞
[
[
[
X
bi
bi
bi
bi
Q
A
= P ξ −1
A
=P
ξ −1 A
=
P ξ −1 A
i=1
i=1
=
∞
X
i=1
i=1
i=1
bi für beliebige (A
bi )∞ , A
bi ∈ A
b mit A
bi ∩ A
bj = ∅, i 6= j.
Q A
i=1
c A]
b
Wir können also auch im strengen Sinne davon sprechen, daß ξ auf [M,
b
c
eine (abgeleitete) Zufallsgröße generiert, [M , A, Q] ist ein Wahrscheinlichkeitsraum. In der Wahrscheinlichkeitstheorie ist es üblich, die Funktion ξ selbst
als Zufallsgröße (oder Observable) zu bezeichnen.
Seien nun auf [M, A, P ] zwei Zufallsgrößen ξ1 , ξ2 gegeben, d.h. zwei meßbare
b i ], i = 1, 2. Dann ist [ξ1 , ξ2 ] : m ∈ M 7−→
ci , A
Abbildungen ξi : [M, A] 7→ [M
c
c
c1 × M
c2 . Wenn
[ξ1 (m), ξ2 (m)] ∈ M1 × M2 zunächst eine Abbildung von M in M
c
c
b
b
wir auf M1 × M2 die Produkt-σ-Algebra A1 ⊗ A2 := ∩{B : B σ-Algebra
b 1, A
b 2 } betrachten, also die von
c1 × M
c2 , A
b1 × A
b2 ∈ B für A
b1 ∈ A
b2 ∈ A
über M
b
b
b
b
allen Mengen der Gestalt A1 × A2 mit A1 , A2 beide meßbar erzeugte σ-Algebra,
18
c1 × M
c2 , A
b1 ⊗ A
b 2 ], also
dann ist [ξ1 , ξ2 ] eine meßbare Abbildung von [M, A] in [M
eine Zufallsgröße.
Definition 10 Die beiden Zufallsgrößen ξ1 , ξ2 heißen unabhängig (voneinb 1 und A
b 2 die beiden
b(1) ∈ A
b(2) ∈ A
ander), falls für zwei beliebige Mengen A
−1 b
−1 b
Ereignisse ξ1 (A(1) ), ξ2 (A(2) ) ∈ A unabhängige Ereignisse sind.
Ein exemplarisches Beispiel kann wieder im Zusammenhang mit dem Wurf
zweier Würfel angegeben werden. In diesem Falle wählen wir als Menge M :=
{[k, l] : k, l ∈ {1, 2, ..., 6}}, P ist die Gleichverteilung und ξ1 , ξ2 sind beides
c := {1, 2, ..., 6}, nämlich ξ1 ([k, l]) = k, ξ2 ([k, l]) = l.
Abbildungen von M in M
Die beiden Zufallsgrößen sind also nichts anderes als die Angabe der Augenzahl jeweils nur eines der beiden Würfel. Man überzeugt sich leicht von deren
Unabhängigkeit.
Bemerkung: Der vorher eingeführte Begriff der Unabhängigkeit zweier Mengen M 0 , M 00 geht aus der eben gegebenen Definition als Spezialfall hervor, wenn
man als Zufallsgrößen die Indikatorfunktionen 1M 0 und 1M 00 wählt, die in
{0, 1} abbilden. Um das zu sehen muß man nur zeigen, daß mit M 0 , M 00 auch
M \ M 0 , M 00 und M \ M 0 , M \ M 00 jeweils unabhängige Mengenpaare bilden. Daß
z.B. die Komplemente zweier unabhängiger Mengen ebenfalls unabhängig sind,
läßt sich wie folgt sehen:
P ((M \ M 0 ) ∩ (M \ M 00 ))
= P (M \ (M 0 ∪ M 00 )) = 1 − P (M 0 ∪ M 00 )
= 1 − (P (M 0 \ M 00 ) + P (M 00 \ M 0 ) + P (M 0 ∩ M 00 ))
= 1 − (P (M 0 \ M 00 ) + P (M 00 \ M 0 ) + 2P (M 0 ∩ M 00 )) + P (M 0 ∩ M 00 )
= 1 − P (M 0 ) − P (M 00 ) + P (M 0 ∩ M 00 )
= 1 − P (M 0 ) − P (M 00 ) + P (M 0 )P (M 00 )
= (1 − P (M 0 ))(1 − P (M 00 ))
= P ((M \ M 0 )P (M \ M 00 )) .
Die eben gegebene Definition der Unabhängigkeit von zwei Zufallsgrößen
verallgemeinert sich sinngemäß auf den Fall mehrerer Zufallsgrößen.
Definition 11 Ein endliches System von Zufallsgrößen ξ1 , ξ2 , ..., ξn heißt vollständig
b b
b(1) ∈ A
unabhängig (voneinander), falls für n beliebige Mengen
A
1 , A(2) ∈
T
Q
n
n
−1
b 2 , ..., A
b(n) ∈ A
b n die Beziehung P
b(i) ) =
b(i) )
A
ξ (A
P ξ −1 (A
i=1 i
i=1
i
erfüllt ist.
Bemerkung: Allgemein folgt aus der paarweisen 19Unabhängigkeit der Zufallsgrößen ξ1 , ξ2 , ..., ξn , d.h. der Unabhängigkeit von ξi , ξj für i 6= j, noch nicht
deren vollständige Unabhängigkeit.
19
Beispiel: Wir betrachten den fairen Wurf dreier Münzen mit dem zufälligen Ergebnis [m1 , m2 , m3 ] ∈ {0, 1}3. Sei ξ1 := 1{m1 =m2 } , ξ2 := 1{m1 =m3 } und
ξ3 := 1{m2 =m3 } . Man prüft leicht, daß je zwei dieser Zufallsgrößen unabhängig
voneinander sind, jedoch gilt
P (ξ1 = ξ2 = ξ3 = 1) = 1/4 6=
3
Y
P (ξi = 1) = 1/8.
i=1
Wie wir gesehen haben, gilt für zwei unabhängige Zufallsgrößen ξi : [M, A] 7→
b i ], i = 1, 2 auf einem Wahrscheinlichkeitsraum [M, A, P ] die Beziehung
c
[M i , A
b i , i = 1, 2.
b1 ) ∩ ξ −1 (A
b2 )) = P (ξ −1 (A
b1 ))P (ξ −1 (A
b2 )), A
bi ∈ A
P (ξ1−1 (A
2
1
2
Dies können wir auch schreiben als
b i , i = 1, 2.
b1 × A
b2 )) = P (ξ −1 (A
b1 ))P (ξ −1 (A
b2 )), A
bi ∈ A
P ([ξ1 , ξ2 ]−1 (A
1
2
b1 ⊗ A
b 2 ] (also
c1 × M
c2 , A
Wir bezeichnen nun das W-Maß P ([ξ1 , ξ2 ]−1 (·)) auf [M
das durch Maßtransport mittels der Zufallsgröße [ξ1 , ξ2 ] aus P entstehende Maß
kurz mit Q1,2 und entsprechend die W-Maße P (ξ1 −1 (·)) bzw. P (ξ2 −1 (·)) auf
b 1 ] bzw. [M
b 2 ] mit Q1 , Q2 . Dann gilt also
c1 , A
c2 , A
[M
b i , i = 1, 2.
b1 × A
b2 ) = Q1 (A
b1 )Q2 (A
b2 ), A
bi ∈ A
Q1,2 (A
In der Maßtheorie wird gezeigt:
Satz 12 Sind [M1 , A1 , µ1 ], [M2 , A2 , µ2 ] zwei Maßräume mit µi (Mi ) < +∞, i =
1, 2, dann gibt es genau ein Maß µ1 ×µ2 auf dem meßbaren Raum [M1 ×M2 , A1 ⊗
A2 ] mit der Eigenschaft
µ1 × µ2 (A1 × A2 ) = µ1 (A1 )µ2 (A2 ), Ai ∈ Ai , i = 1, 2,
das Produktmaß von µ1 und µ2 .
Es gilt also in unserem Fall zweier unabhängiger Zufallsgrößen ξ1 , ξ2 die
Beziehung
Q1,2 := P ([ξ1 , ξ2 ]−1 (·)) = P (ξ1−1 (·)) × P (ξ1−1 (·)) = Q1 × Q2 .
Das bedeutet:
Satz 13 Zwei Zufallsgrößen ξ1 , ξ2 sind genau dann unabhängig voneinander,
c1 × M
c2 , A
b1 ⊗ A
b 2 ] erzeugte W-Maß das
wenn das von ihnen gemeinsam auf [M
b i ], i = 1, 2
ci , A
Produktmaß der jeweils von ξ1 bzw. ξ2 erzeugten Maße auf [M
erzeugten W-Maße ist.
Bemerkung: Dies gilt auch für endlich viele
Q (und sogar abzählbar viele) Zufallsgrößen ξ1 , ..., ξn , d.h. P ◦ [ξ1 , ..., ξn ]−1 = i P ◦ ξi , genau dann, wenn diese
vollständig unabhängig sind. Dies folgt genau wie eben aus der Definition der
vollständigen Unabhängigkeit.
20
4
Bedingte Verteilungen
Wir kommen nun zu einem weiteren zentralen Begriff der Wahrscheinlichkeitstheorie, der bedingten Wahrscheinlichkeit.
Zunächst stellen wir fest, daß die konkrete Wahl eines W-Maßes zur Modellierung eines Zufallsvorganges in starkem Maße von den Informationen abhängt,
über die wir verfügen. Wir hatten z.B. gesehen, daß die Information, daß die Elementarereignisse als vollkommen gleichberechtigt anzusehen sind, zwangsläufig
zur Gleichverteilung führt. Bzw. daß die Information, daß zwei Zufallsgrößen
unabhängig sind, die Produkt-Verteilung als ihre gemeinsame Verteilung impliziert.
Oft ist es so, daß ein Zufallsvorgang eintritt, wir jedoch zunächst nur eine bestimmte Zufallsgröße (Observable) dieses Vorgangs beobachten können,
d.h. eine abgeleitete Größe, die uns noch nicht die volle Information über das
tatsächlich vorliegende Elementarereignis offenbart. Dennoch hat die Tatsache,
c angenommen hat, plaudaß die betreffende Zufallsgröße ξ z.B. den Wert a ∈ M
siblerweise einen gewissen informativen Wert, unser Wissen über die möglichen Ausgänge des Zufallsvorganges hat sich verändert. Das zwingt uns zu
einer Neufestlegung der Wahrscheinlichkeitsmaßes. Wie sollen wir dieses neue
W-Maß P (·|ξ = a) auf [M, A] aber wählen?
Bemerkung: Das gestaltet sich recht kompliziert für den Fall, daß die Zufallsgröße ξ überabzählbar viele Ausgänge haben kann, also für überabzählbares
c
M.
c endlich oder abzählbar unendWir nehmen also von jetzt ab an, daß M
lich ist. Dann können wir aber auch annehmen, daß P (ξ = a) > 0 gilt, denn
wegen der σ-Additivität von P gilt
X
X
0 = 0.
1P (ξ=a0 )=0 P (ξ = a0 ) =
P ◦ ξ −1 ({a0 : P (ξ = a0 ) = 0}) =
c
a 0 ∈M
c
a 0 ∈M
c : P (ξ = a0 ) = 0} hat also insgesamt die Wahrscheinlichkeit
Die Menge {a0 ∈ M
−1
0 bzgl. P ◦ ξ , derartige a0 werden wir also niemals beobachten.
Zunächst ist klar, daß sämtliche Elementarereignisse m, die mit ξ = a unvereinbar sind (also m ∈
/ ξ −1 ({a})) nun unmöglich geworden sind, d.h. es muß
gelten P ({m}|ξ = a) = 0 für m ∈
/ ξ −1 ({a}). Es wird also gelten
P (ξ −1 ({a})|ξ = a) = 1,
d.h. P (·|ξ = a) wird effektiv nur ein W-Maß auf der meßbaren Teilmenge Ma :=
ξ −1 ({a}) von M sein.
(!pic!)
Solche Wahrscheinlichkeitsmaße gibt es zwar zunächst sehr viele, aber aus
ähnlichen Häufigkeitsbetrachtungen heraus wie weiter oben ist es plausibel anzunehmen, daß das Verhältnis der Wahrscheinlichkeiten P (M 0 ), P (M 00 ) für zwei
21
Teilmengen M 0 , M 00 von Ma mit P (M 00 ) 6= 0 durch die Neufestlegung unberührt bleiben soll, d.h.
P (M 0 )/P (M 00 ) = P (M 0 |ξ = a)/P (M 00 |ξ = a).
Da dies insbesondere auch für M 00 = Ma gelten soll, kommen wir zu folgender:
Definition 14 Es sei P ein W-Maß auf dem meßbaren Raum [M, A], ξ eine
c, A]
b abbildet, wobei M
c als endlich oder abzählbar
Zufallsgröße, die [M, A] in [M
c mit P (ξ = a) > 0 heißt
unendlich angenommen wird. Für beliebiges a ∈ M
P (·|ξ = a) := (P (ξ −1 ({a})))−1 P ((·) ∩ ξ −1 ({a}))
bedingte Wahrscheinlichkeitsverteilung unter der Bedingung ξ = a.
Wir betrachten folgenden Spezialfall: ξ sei die Indikatorfunktion einer Menge
M 0 mit P (M 0 ) > 0. Dann ergibt die gerade gegebene Definition für P (·|1M 0 =
1) = (P (M 0 ))−1 P ((·) ∩ M 0 ). Statt P (·|1M 0 = 1) schreibt man P (·|M 0 ). Wir
erhalten für beliebiges meßbares M 00 ⊆ M
P (M 00 |M 0 ) =
P (M 00 ∩ M 0 )
(wobei P (M 0 ) > 0),
P (M 0 )
und nennen dies bedingte Wahrscheinlichkeit des Ereignisses M 00 unter
der Bedingung M 0 .
Sind insbesondere M 0 , M 00 unanbhängige Ereignisse, P (M 0 ) > 0, dann
gilt offenbar
P (M 00 )P (M 0 )
P (M 00 |M 0 ) =
= P (M 00 ),
P (M 0 )
was intuitiv vernünftig ist: Die Beobachtung eines von dem gegebenen M 00 unabhängigen Ereignisses verändert die ursprüngliche Wahrscheinlichkeit für M 00
nicht.
Eine nützliche Beziehung ist die sogenannte Formel der totalen Wahrscheinlichkeit:
Satz 15 Es sei (Mi )∞
i=1 eine disjunkte Zerlegung von M in meßbare Mengen,
d.h. ∪i Mi = M, Mi ∩ Mj = ∅ für i 6= j. Dann gilt für beliebiges M 0 ∈ A
X
P (M 0 ) =
P (M 0 |Mi )P (Mi ).
i:P (Mi )>0
B e w e i s. Aus der Definition der bedingten Wahrscheinlichkeiten sowie der
σ-Additivität von P folgt unmittelbar
X
i:P (Mi )>0
P (M 0 |Mi )P (Mi ) =
X
i:P (Mi )>0
= P(
∞
[
∞
X
i=1
(M 0 ∩ Mi )) = P (M 0 ∩
i=1
0
= P (M ).
22
P (M 0 ∩ Mi ) =
P (M 0 ∩ Mi )
∞
[
i=1
Mi )
Ebenso elementar ist der Beweis der Bayesschen Formel:22
Satz 16 Unter den Voraussetzungen des vorhergehenden Satzes gilt:
P (Mi |M 0 ) = P
P (M 0 |Mi )P (Mi )
, falls P (Mi ), P (M 0 ) > 0.
0
j:P (Mj )>0 P (M |Mj )P (Mj )
B e w e i s.
P (M 0 |Mi )P (Mi )
0
j:P (Mj )>0 P (M |Mj )P (Mj )
P
=
=
P (M 0 ∩ Mi )
P (M 0 ∩ Mi )
P
=
∞
0
0
j:P (Mj )>0 P (M ∩ Mj )
j=1 P (M ∩ Mj )
P
P (M 0 ∩ Mi )
= P (Mi |M 0 ).
P (M 0 )
.
Bemerkung: Wir haben bei der Begründung der Definition des bedingten
Wahrscheinlichkeitsmaßes intuitiv mit der Vorstellung gearbeitet, daß das Eintreten eines Ereignisses mit dem Eingehen einer Information gleichzusetzen
ist, die die Bewertung anderer Ereignisse -in Form eines W-Maßes- verändert.
Tatsächlich läßt sich Information quantifizieren. Daß dies unabhängig vom
semantischen Gehalt der Information möglich ist, ist eine der überraschenden
Entdeckungen des 20. Jahrhunderts und war Grundlage der Entwicklung der
mathematischen Informationstheorie durch Shannon 1948. Die Informationstheorie ist inhaltlich eng mit der Wahrscheinlichkeitstheorie verbunden und ist
die mathematische Grundlage für die technische Möglichkeit, Informationen beliebigen Inhalts effektiv zu übertragen und zu speichern. Ein zentraler Begriff
der Informationstheorie ist der Begriff Entropie.
Wir haben mit den uns nun zur Verfügung stehenden elementaren wahrscheinlichkeitstheoretischen Begriffen ein grundlegendes Repertoire zur Konstruktion angepaßter w-theoretischer Modelle für eine schon recht große Klasse praktischer
Fragestellungen zur Verfügung.
Dennoch ist bei der Wahl des passenden Wahrscheinlichkeitsraumes Umsicht
geboten im Hinblick auf die Frage, wie die zugrundeliegenden Informationen
in die konkrete Wahl einfließen sollen. Eine Reihe von bekannten wahrscheinlichkeitstheoretischer ’Paradoxa’ beruht darauf, daß ein auf den ersten Blick
naheliegender Ansatz nicht adäquat ist.
Einschub: Gefangenenparadox 1
23
5
Die geometrische und die Exponentialverteilung
Wir wollen nun die erarbeiteten Hilfsmittel anwenden, um zwei wichtige Klassen
von Verteilungen zu definieren, die im Grunde denselben Zufalls-Mechanismus
charakterisieren, nur einmal im Falle einer diskreten, N-wertigen Zufallsgröße,
und im zweiten Fall einer Zufallsgröße über [R+ , B(R) ∩ R+ ].
Zunächst der einfachere diskrete Fall. Angenommen wir werfen immer wieder
eine Münze, bis zum ersten Mal 0 10 erscheint. Z sei die notwendige Anzahl von
Würfen. Dabei sollen 0 00 und 0 10 nicht unbedingt die gleiche Wahrscheinlichkeit
haben, d.h. p := P ({0}), q := P ({1}), p + q = 1. Natürlich nehmen wir an, daß
die Würfe vollständig voneinander unabhängig sind. Es ist sogar einfacher, die
Wahrscheinlichkeit pn := P (Z = n), daß im nten Wurf zum ersten Mal die
1 auftaucht, direkt auszurechnen. Wir wählen aber, um für den stetigen Fall
vorbereitet zu sein, einen anderen Weg.
Bemerkung: Die Betrachtung jetzt ist -vorerst- heuristischer Art, denn wenn
wir von einer ’Zufallsgröße’ Z reden, müßten wir ja den zugrundeliegenden
W-Raum angeben, und die meßbare Abbildung Z : [M, A] 7−→ [N, P(N)]. M
wäre zu wählen als Menge aller unendlichen 0 − 1-Folgen ausgestattet mit einer
passenden σ-Algebra sowie einem passenden W-Maß, und Z sollte dann jeder
solchen 0 − 1-Folge den Zeitpunkt des ersten Auftretens der 1 zuordnen. Diese
Konstruktion werden wir erst später durchführen, wir werden aber an dieser
Stelle nur inhaltliche Argumente vorbringen, die die abgeleitete Verteilung von
Z spezifizieren.
Nun betrachten wir P (Z = n+1|Z > n). Es ist inhaltlich ’klar’, daß die Tatsache, daß die ersten n Würfe jeweils eine 0 als Ergebnis hatten, keinen Einfluß
auf den nächstfolgenden Wurf haben darf, denn wir hatten die Unabhängigkeit
vorausgesetzt. Demzufolge gilt P (Z = n + 1|Z > n) = q. Also erhalten wir die
Beziehung
pn+1
Pn
= q.
1 − i=1 pi
Wir haben offenbar p1 = q, also gilt p2 = q(1 − q) = qp. Durch vollständige
Induktion folgt nun leicht pn+1 = qpn , denn es gilt
pn+1
= q(1 −
n
X
i=1
pi ) = q(1 −
n−1
X
i=1
n−1
= pn − qpn = ppn = pqp
pi − p n )
= qpn .
Im diskreten Fall ist dies ein -wie gesagt etwas umständlicher- Weg, die
geometrische Verteilung mit Erfolgswahrscheinlichkeit q > 0 abzuleiten: pn := q(1 − q)n−1 . Wie wir aber auf diese Weise gesehen haben, ist dies
24
der einzige Verteilungstyp (auf N), bei dem die bedingte momentane Erfolgswahrscheinlichkeit (unter der Bedingung, daß der Erfolg bisher nicht eingetreten
ist) konstant q ist.
Nun können wir analog den kontinuierlichen Fall behandeln. So behauptet
die Physik (aus gutem Grund), daß der Zerfall eines zu irgendeinem Zeitpunkt
0 (beispielsweise der Urknall, eine Supernovaexplosion oder der Zerfall eines
Vorgängeratoms) entstandenen radioaktiven Atoms dadurch charakterisiert ist,
daß ein solches Atom eine von der bisher verflossenen Zeit absolut unabhängige,
also konstante Tendenz besitzt, demnächst absolut zufällig zu zerfallen. Wenn
also F die Verteilungsfunktion ist, die den zufälligen Zerfallszeitpunkt τ ≥ 0
beschreibt, dann gilt:
a) F (t) = 0, t ≤ 0,
(t)
= F (h).
b) F (t+h)−F
1−F (t)
Mit anderen Worten, vor 0 kann das Atom nicht zerfallen sein, weil es da
noch gar nicht existierte, und wenn es bis t noch nicht zerfallen ist, dann ist
es wie vollkommen ’frisch’ entstanden, zerfällt also innerhalb der nächsten h
Zeiteinheiten mit genau der selben W’kt, wie es während der ersten h Momente hätte zerfallen können. Man kann zeigen (Übungsaufgabe), daß die einzigen
Verteilungsfunktionen auf R, die a) und b) gleichzeitig erfüllen, von der Gestalt
F (t) = 1 − e−λt sind, wobei wieder -wie im diskreten Fall- λ ein Parameter ist,
der von dem konkreten instabilen Isotop abhängt. Er heißt Zerfallsrate (oder
(konstante) Ausfallrate, wenn es statt um ein Atom etwa um den Zeitpunkt
des Versagens eines Gerätes geht, für das die Konstantheit der Rate halbwegs
realistisch ist). Entsprechend heißt eine Verteilung Pλ mit der Verteilungsfunktion F (t) = Fλ (t) = 1 − e−λt Exponentialverteilung mit Ausfallrate λ.
Bemerkung: In der Physik ist es üblich, statt λ den Zeitpunkt t1/2 als Parameter anzugeben ( Halbwertszeit), für den F (t1/2 ) = 1/2 gilt, so daß λ = tln1/22 .
Die zur Verteilungsfunktion Fλ gehörende Verteilung ist, wie leicht zu sehen
ist, absolut stetig und hat die Dichtefunktion (bzgl. des Lebesgueschen Maßes)
Fλ0 (t) = fλ (t) = λe−λt , t ≥ 0.
6
Binomialverteilung, Normalverteilung und der
Grenzwertsatz von Moivre-Laplace
Wir hatten zu Beginn der Vorlesung im Fall des Münzwurfes eine heuristische
Begründung gegeben, warum sich die Häufigkeit von ’Kopf’ bzw. ’Zahl’ auf
die Wahrscheinlichkeit 1/2 ’einpegelt’, und hatten gesehen, daß dabei keine irgendwie ’lenkende, ausgleichende Kraft’ im Spiel ist, sondern daß der Anteil
derjenigen Kombinationen, deren Anteil von ’Kopf’ um mehr als z.B. 5% von
der Idealzahl 0, 5 abweicht, mit wachsender Wurfzahl astronomisch klein wird,
etwa bei 10000 Würfen schon in der Größenordnung 10−22 liegt. Andererseits
wurde bemerkt, daß bei dieser Anzahl von Versuchen N = 104 eine Abweichung
um 0, 5% noch völlig normal ist. Die Wahrscheinlichkeitstheorie beantwortet die
25
Frage nach der ’Normalität’ der -unvermeidlichen- Abweichung vom Idealwert
mit Hilfe des Zentralen Grenzwertsatzes und der Gaußschen Normalverteilung,
und dies werden wir in einem einfachen Fall demonstrieren. Dazu betrachten wir,
etwas allgemeiner, nun den oftmaligen Wurf mit einer asymmetrischen Münze,
d.h. wir wollen nicht unbedingt annehmen, daß ’Kopf’ =1
b und ’Zahl’ =0
b gleichwahrscheinlich sind, sondern mit Wanrscheinlichkeit 0 < p < 1 bzw. q := 1 − p
eintreten. Wir betrachten nun N unabhängige Würfe mit dieser Münze. Wie
groß ist nun die Wahrscheinlichkeit, daß genau k mal 1 auftritt? Wenn wir das
Ergebnis des j-ten Wurfes mit ξj , 1 ≤ j ≤ N bezeichnen, dann fragen wir also
PN
nach der Wahrscheinlichkeit des zusammengesetzten Ereignisses j=1 ξj = k.
Es ergibt sich:




N

X
[


ξj = k  = P 
{ξj = 1 für j ∈ W, ξj = 0 sonst}
pN
: =P
k




j=1
=
X
W ⊆{1,2,...,N }
#W =k
W ⊆{1,2,...,N }
#W =k
P ({ξj = 1 für j ∈ W, ξj = 0 sonst}) ,
denn die angegebene Zerlegung ist eine Zerlegung in Elementarereignisse. Aufgrund der (vollständigen) Unabhängigkeit der einzelnen Würfe voneinander erhalten wir nun
X
X
=
pk q N −k = pk q N −k
1
W ⊆{1,2,...,N }
#W =k
W ⊆{1,2,...,N }
#W =k
= pk q N −k · #{W ∈ P({1, 2, ..., N }) : #W = k}.
N
!
Teilmengen
Aus der Kombinatorik ist bekannt, daß es genau
:= k!(NN−k)!
k
mit k Elementen einer N -elementigen Menge gibt, 0 ≤ k ≤ N . Also erhalten
wir
N
pN
=
pk q N −k .
k
k
Die auf diese Weise eingeführte Wahrscheinlichkeitsverteilung auf der Menge
{0, 1, ..., N } heißt Binomialverteilung mit den Parametern N, p und wird mit
B(N, p)
Der Name nimmt auf das Auftauchen der Binomialkoeffizi bezeichnet.
N
enten
in dem Verteilungsgesetz Bezug. Diese diskrete Verteilung, die in
k
vielen Anwendungen auftaucht, ist auch Ausgangspunkt für zwei weitere sehr
wichtige Verteilungstypen, die Normalverteilung und die Poissonsche Verteilung. Wir beginnen mit der Normalverteilung, die in der Stochastik sowie der
Mathematischen
Physik eine zentrale Rolle spielt. Dazu analysieren wir den
N
pk q N −k genauer. In der Analysis wird die Stirlingsche Formel
Ausdruck
k
bewiesen, nämlich die folgende Aussage
26
Satz 17 Es gilt die Beziehung
n! =
√
2πn
n n
e
α(n),
wobei α(·) eine Funktion mit der Eigenschaft limn→∞ α(n) = 1 ist.
Die Stirlingsche Formel gestattet also die Berechnung der Fakultätsfunktion
mit einem prozentualen Fehler, der mit wachsendemn beliebig
klein wird. Daher
N
!
= k!(NN−k)!
ist sie auch zur Analyse der Binomialkoeffizienten
geeignet,
k
sofern sowohl N als auch k und N − k große Zahlen sind. Aus der Stirlingschen
Formel folgt nach kurzer Rechnung:
Lemma 18 Für alle ε > 0 existiert eine natürliche Zahl K > 0 so daß für
beliebige natürliche Zahlen N, k mit k, N − k > K die Abschätzung
r
k(N − k) 0 k
N
(p ) (1 − p0 )N −k ∈ (1 − ε, 1 + ε)
2π
k
N
erfüllt ist, wobei p0 = k/N .
N
D.h.
läßt sich mit beliebig kleinem prozentualem Fehler durch die
k
p
Größe ( 2πN p0 (1 − p0 )(p0 )k (1 − p0)N −k )−1 annähern, falls k, N − k groß genug
sind. Wir fixieren nun ε, und folglich K. Wir wollen das Verhalten der binomialen
Wahrscheinlichkeiten pN
k für große N , aber für alle k bestimmen, daher müssen
wir den Fall k ≤ K bzw. N − k ≤ K separat betrachten. Für k ≤ K gilt
N!
≤ N (N − 1)...(N − k + 1) ≤ N k ≤ N K .
k!(N − k)!
Also erhalten wir
K k N −k
pN
≤ N K q N −K
k ≤N p q

NK N 
= K q =
q
√
N
N
√
N q
! K N
q .
√
Nun gilt bekanntlich für jede reelle Zahl x > 0, daß N x →N →∞ 1, und es gilt
√
K
√
N
beliebig genau 1, falls N genügend groß
sogar N N →N →∞ 1. Also ist N√Nq
ist. Da q = 1 − p, p > 0, sehen wir, daß es eine Zahl K 0 > 0 gibt, so daß für
N√ K
q < a := 1 − p/2 < 1 wird. Wir erhalten also
N > K 0 der Ausdruck N√Nq
für N > K 0 und k ≤ K die Abschätzung
N
pN
k <a ,
d.h. sämtliche Einzelwahrscheinlichkeiten mit kleinem k (k ≤ K) werden mit
großem N exponentiell schnell klein. Der Fall N − k ≤ K ist wegen der Symmetrie der Binomialkoeffizienten völlig analog, nur tauschen p und q = 1 − p ihre
Rollen. Wir erhalten
27
Lemma 19 Es existieren eine reelle Zahl a, 0 < a < 1, und eine Zahl K 0 , so
daß
N
pN
für N > K 0
k <a
erfüllt ist, falls k ≤ K oder aber N − k ≤ K gilt.
Nun werden wir mit Hilfe der Stirlingschen Formel zeigen, daß nicht nur
die Einzelwahrscheinlichkeiten pN
k mit kleinem k, sondern auch alle anderen
Einzelwahrscheinlichkeiten in N exponentiell klein werden, sofern sich k/N = p0
nennenswert vom Idealwert p unterscheidet. Wir erinnern daran, daß wir ein
ε > 0 fixiert hatten.
Lemma 20 Es existieren ein a0 , 0 < a0 < 1, und ein K 00 , so daß
0 N
pN
für N > K 00
k < (a )
falls |p −
k
N|
= |p − p0 | ≥ ε.
B e w e i s. 1. Für k ≤ K oder k ≥ N − K gilt die Behauptung aufgrund
des vorhergehenden Lemmas mit K 00 := K 0 , a0 := a.
2. Sei k > K, N − k > k. Wir erhalten aufgrund der Stirlingschen Formel
(aus Lemma 18)
pN
k
r
k(N − k) 0 k
(p ) (1 − p0 )N −k
< (1 + ε)
2π
N
√ k N −k
N p
1−p
< (1 + ε) √
1 − p0
2π p0
p0 1−p0 !N
√
p
1−p
.
< (1 + ε) N
p0
1 − p0
!−1
pk (1 − p)N −k
x 1−p 1−x
An dieser Stelle untersuchen wir die Funktion gp : x 7−→ xp
,x ∈
1−x
(0, 1). Es ist günstig, zum Logarithmus überzugehen. Wir erhalten
ln gp (x) = x(ln p − ln x) + (1 − x)(ln(1 − p) − ln(1 − x))
und folglich durch Differentiation
(ln gp (x))0
= ln p − ln x − 1 − ln(1 − p) + ln(1 − x) + 1
1
1
= ln( − 1) − ln( − 1).
x
p
Die Ableitung von ln gp ist also streng monoton fallend in (0, 1) und nimmt für
x = p den Wert 0 an. Also hat ln gp (und folglich auch g) für x = p ein (einziges)
absolutes Maximum. Es gilt, wie man leicht sieht, gp (p) = 1. Daher ist die in
28
(0, 1) stetige Funktion gp (x) für |x − p| ≥ ε durch eine Konstante c < 1 nach
oben beschränkt. Wir erhalten also für |p0 − p| ≥ ε:
√ 1/2 N
√ N
√
N
N
N
pk < (1 + ε) N c =
1+ε
N
.
c
√
√
Nun gehen wieder sowohl N 1 + ε als auch N N für N → ∞ gegen 1, es gibt
Konstanten c0 < 1 und C > 0, so daß für N > C gilt
0 N
pN
k < (c ) .
3. Wir fügen nun Schritt 1. und 2. zusammen und erhalten mit K 00 :=
max(C, K 0 ), a0 := max(c0 , a) die Behauptung des Lemmas.
Wir haben gesehen, daß bis auf Werte von k in der Nähe des Idealwertes pN sämtliche Einzelwahrscheinlichkeiten der Binomialverteilung B(N, p)
gleichmäßig exponentiell klein sind. Daraus ergibt sich nun ein interessanter
Satz 21 (Satz über große Abweichungen) Es sei ε > 0 und P das Verteilungsgesetz einer binomialverteilten Zufallsgröße ξ mit Parametern N und
0 < p < 1. Dann existiert eine Konstante 0 < d < 1 sowie ein D > 0 so daß
P (|ξ − pN | ≥ N ε) < dN für N > D.
B e w e i s. Wir erhalten aufgrund des vorhergehenden Lemmas für N > K 00
X
X
P (|ξ − pN | ≥ N ε) =
pN
(a0 )N
k <
k∈{0,1,...,N }
k
|N
−p|≥ε
≤ N (a0 )N = (
√
k∈{0,1,...,N }
k
|N
−p|≥ε
Na0 )N ,
√
und nun können wir erneut die Beziehung N N → 1 sowie a0 < 1 ausnutzen,
um die Behauptung des Satzes zu erhalten.
Dieser Satz ist ein Spezialfall einer in der Wahrscheinlichkeitstheorie unter
dem Namen Prinzip der großen Abweichungen bekannten Aussage. Wir haben
gesehen, daß für jede fixierte prozentuale Abweichung vom zu erwartenden Wert
pN beim Wurf von N asymmetrischen Münzen die Wahrscheinlichkeit einer
solchen oder größeren Abweichung exponentiell (in N ) klein wird.
Was ist nun aber für großes N eine normale Abweichung? Detaillierte Antwort darauf gibt der Grenzwertsatz von Moivre und Laplace, ein spezieller Fall
des Zentralen Grenzwertsatzes der Wahrscheinlichkeitstheorie. Dieser Satz begründet auch die ausgezeichnete Rolle, die eine bestimmte Verteilung, nämlich
die (Gaußsche) Normalverteilung, in der Stochastik und anderen Gebieten der
Mathematik spielt.
Dazu versuchen wir zuerst zu einer Vermutung über die Größenordnung
typischer Abweichungen zu kommen.
N
29
Wie wir gesehen haben, liegen die größten Werte von pN
k in der Nähe von
k ≈ pN . Wählen wir etwa k = bpN c, das heißt gleich der größten ganzen Zahl,
die pN nicht übersteigt, so erhalten wir mit der Stirlingschen Formel genau wie
k
weiter oben wegen p0 = N
≈ p näherungsweise
pN
k
!−1
k(N − k) 0 k
0 N −k
2π
(p ) (1 − p )
≈
pk (1 − p)N −k
N
−1
p
2πN p(1 − p)pk (1 − p)N −k
pk (1 − p)N −k
≈
r
=
1
1
√ p
.
N 2πp(1 − p)
√1 .
Die größten Werte von pN
k sind also von der ungefähren Größenordnung
N
√
Es bedarf etwa N solcher Werte, um insgesamt 1 zu erhalten. Diese Argumentation ist nicht streng, führt aber zu der Vermutung,
daß die typischen
√
Abweichungen vom Idealwert pN die Größenordnung
N
haben
könnten. Wir
√
probieren daher den Ansatz k = pN + r N für fixiertes r und wollen ausrechnen, was wir für dieses (durch die reelle Zahl r) bestimmte ganze k als Näherung
für pN
k erhalten. Zunächst stellen wir fest,√daß auch für negatives r ≥ −R (für
irgendein festes R) der Ausdruck pN + r N positiv wird, wenn N genügend
groß ist, weil die Wurzelfunktion
q wächst als pN . (Es gilt für
q viel langsamer
√
2
r2
großes N pN + r N ≥ N (p − N ) ≥ N (p − RN ) > N (p − p2 ) = N p2 > 0,
denn
R2
N
→ 0 für N → ∞).
Die Aussage ist, daß
2
r
√1 √ 1
e− 2pq
N 2πpq
eine sehr gute Näherung für pN
k ist:
Satz 22 Für beliebiges R > 0 und beliebiges ε > 0 existiert ein K > 0, derart
daß
−1
r2
1
1
− 2pq
√
√
pN
∈ (1 − ε, 1 + ε)
e
k
N 2πpq
√
falls k = pN + r N (mit |r| ≤ R) und falls N ≥ K.
B e w e i s. Wir stützen uns wieder auf die Stirlingsche Formel. Wie wir
eben gesehen
√ haben, gibt es ein K0 , so daß für N > K0 aus |r| ≤ R folgt
k = pN + r N > N p2 . Andererseits gilt analog
√
q
N − k = qN − r N > N > 0,
2
falls N > K1 für ein passend gewähltes K1 > 0. Daraus folgt, daß wir für
genügend großes N sowohl k! als auch (N − k)! (und natürlich N !) durch die
Stirlingsche Formel mit einer Genauigkeit (1 ± ε) nach oben beziehungsweise
unten abgechätzt werden können. Genau wie am√Anfang von Schritt 2. in Lemma
20 erhalten wir nun für beliebiges k = pN + r N , |r| ≤ R, falls N > K2 (K2
30
passend gewählt in Abhängigkeit von R)
r
k(N − k) 0 k
N
pk 2π
(p ) (1 − p0 )N −k p−k (1 − p)−(N −k)
N
p
p0
1 − p0 N −k
2πN p0 (1 − p0 )( )k (
)
pN
k
p
1−p
∈ (1 − ε, 1 + ε), d.h.
∈ (1 − ε, 1 + ε).
k
Hier haben wir wieder der Kürze halber p0 = N
= p + √rN gesetzt. Nun ist p0
für genügend großes N beliebig genau bei p (der Fehler ist für alle r, |r| ≤ R
höchstens √RN ). Daher erhalten wir für passendes K3 > 0, daß für alle N > K3
p
p0 k 1 − p0 N −k
) (
)
p
1−p
−N
p
p p0 1 − p 1−p0
2πN
pq
(
)
)
pN
(
k
p0
1 − p0
pN
k
2πN p(1 − p)(
∈
(1 − 2ε, 1 + 2ε),
∈
(1 − 2ε, 1 + 2ε).
also
(3)
Wie im Beweis von Lemma 20 betrachten wir nun wieder die Funktion gp : x 7−→
1−x
p x 1−p
, x ∈ (0, 1), allerdings für Werte in der Nähe von p. Wir hatten
x
1−x
gesehen, daß ln gp in (0, 1) die Ableitung ln( x1 − 1) − ln( p1 − 1) besitzt. Diese
hat den Wert 0 für x = p. Um ln gp mit Hilfe der Taylorformel genügend genau
abschätzen zu können, berechnen wir noch die zweite Ableitung und erhalten
1
(ln gp )00 (x) = x21−x , der Wert an der Stelle x = p ist also − pq
. Daraus ergibt
sich nach dem Taylorschen Satz:
ln gp (p + h) = −
1 2
h + Dp (h)h2
2pq
für genügend kleine |h| (genauer |h| < min(p, q)), wobei Dp eine stetige Funktion
von h ist, die für h → 0 gegen 0 konvergiert. Wir setzen dies in (3) ein und
erhalten
2
p
N ( 1 −D ( √r )) r
2πN pqe 2pq p N N ∈ (1 − 2ε, 1 + 2ε), also
pN
k
p
1
r 2 −r 2 Dp ( √r )
N
pN
2πN pqe 2pq
∈ (1 − 2ε, 1 + 2ε).
k
Daraus ergibt sich sofort die Abschätzung
p
2
1
2πN pqe 2pq r ∈ (1 − 3ε, 1 + 3ε),
pN
k
falls N genügend groß ist (N > K4 , wobei K4 eine Konstante ist, deren Wert
von R und ε abhängt). Dies ist gleichbedeutend mit der Aussage des Satzes.
Wir kennen nun mit beliebig kleinem (für große N ) prozentualem Fehler die
Einzelwahrscheinlichkeiten pN
k der Binomialverteilung mit den Parametern N, p
√ p ≤ R (R ist auch beliebig, aber der Fehler
für solche Werte k so daß rk := k−N
N
hängt von R ab).
31
Bem. Durch eine leichte Verfeinerung des eben geführten Beweises sieht
√
man, daß der Fehler sogar dann noch beliebig klein in N wird, wenn R/ 6 N
gegen 0 geht.
Wir können nun den angekündigten Zentralen Grenzwertsatz der Wahrscheinlichkeitstheorie für den Spezialfall binomialverteilter Zufallsgrößen beweisen:
Theorem 23 (Moivre-Laplace) Es sei 0 < p < 1, q = 1 − p und (ξN )∞
N =1
eine Folge binomialverteilter Zufallsgrößen mit den Parametern N, p. Seien die
Zufallsgrößen ξbN gegeben durch ξbN := √1N (ξN − pN ). Dann gilt für beliebiges
x ∈ R für die Verteilungsfunktion FξbN dieser Zufallsgrößen
1
lim F b (x) = √
N →∞ ξN
2πpq
Z
x
r2
e− 2pq dr.
−∞
B e w e i s. Wir wählen zunächst zwei reelle Konstanten a < b. Sei PξbN die
zu ξbN gehörende Wahrscheinlichkeitsverteilung. Dann gilt aufgrund des vorher√ p ) für beliebiges ε > 0
gehenden Satze (mit rk := k−N
N
X
√
√
pN +a N <k≤pN +b N
< PξbN ((a, b])
X
<
√
2
1
1
e− 2pq rk (1 − ε)
2πpqN
(4)
(5)
√
√
pN +a N <k≤pN +b N
2
1
1
√
e− 2pq rk (1 + ε)
2πpqN
falls N genügend groß ist. Wir betrachten die Summe
1
√
N
=
1
√
N
X
1
2
e− 2pq rk
√
√
pN +a N <k≤pN +b N
X
1
2
e− 2pq rk
.
a<rk ≤b
k∈N∪{0}
Betrachten wir nun
√ sämtliche Werte√rk für k = 0, 1, 2, ..., N , dann ist der kleinste
mögliche Wert − N p, der größte N q, und aufeinanderfolgende Werte haben
alle den Abstand √1N . Damit bildet
1
√
N
X
1
2
e− 2pq rk
a<rk ≤b
k∈N∪{0}
√
√
ab dem N , wo − N p ≤ a, N q ≥ b gilt, eine Riemannsche Approximation
Rb
r2
des bestimmten Riemannschen Integrals a e− 2pq dr mit der Schrittweite √1N .
Der Ausdruck konvergiert demzufolge für N → ∞ gegen dieses Integral (der
32
Integrand ist eine stetige beschränkte Funktion. Nun ergibt sich aus (4) für
genügend große N
Z b
r2
1
(1 − ε) √
e− 2pq dr < PξbN ((a, b])
2πpq a
Z b
r2
1
< (1 + ε) √
e− 2pq dr.
2πpq a
Daraus folgt, da ε beliebig war, die Existenz des Limes
Z b
r2
1
e− 2pq dr.
lim PξbN ((a, b]) = √
N →∞
2πpq a
Nun gilt für beliebiges x ∈ R und beliebiges reelles a > −|x|
≤ FξbN (x) = PξbN ((−a, x]) + PξbN ((−∞, −a])
PξbN ((−a, x])
≤ PξbN ((−a, x]) + (1 − PξbN ((−a, a])).
Daher ergibt sich mit N → ∞ für beliebiges a > −|x|
Z x
r2
1
√
e− 2pq dr ≤ liminfFξbN (x) ≤ limsupFξbN (x)
N →∞
2πpq −a
N →∞
Z x
r2
1
≤ √
e− 2pq dr
2πpq −a
Z a
r2
1
+ 1− √
e− 2pq dr .
2πpq −a
(6)
(7)
Wir benutzen nun folgende Aussage aus der Analysis:
r2
Lemma 24 Die reelle Funktion e− 2 , r ∈ R ist auf dem Interval (−∞, +∞)
√
R∞
r2
integrierbar und hat das Integral −∞ e− 2 dr = 2π.
Also ist
R∞
√
√
2πpq (Substitution r → r pq), und folglich gilt
Z a
r2
1
√
e− 2pq dr →a→∞ 1
(8)
2πpq −a
r2
−∞
e− 2pq dr =
sowie
√
1
2πpq
Z
x
−a
r2
e− 2pq dr →a→∞ √
1
2πpq
Z
x
r2
e− 2pq dr.
−∞
Nun folgt aus (6) die Aussage des Theorems, wenn wir auf beiden Seiten der
Abschätzung a gegen +∞ gehen lassen.
Wie wir gesehen haben, wird für große N die Verteilung der Zufallsgröße ξbN
R x − r2
2p(1−p) dr beschrieimmer besser durch die Funktion F (x) := √ 1
−∞ e
2πp(1−p)
ben. Diese Funktion erfüllt alle Kriterien, die wir für eine Verteilungsfunktion
33
auf R abgeleitet haben: Es gilt limx→−∞ F (x) = 0, limx→∞ F (x) = 1 (wegen
(8)), die Funktion ist monoton wachsend und die Funktion ist als Integral über
eine stetige Funktion stetig differenzierbar (also nicht nur rechts-stetig, wie gefordert war). Also gibt es eine Wahrscheinlichkeitsverteilung mit dieser Verteilungsfunktion. Diese Wahrscheinlichkeitsverteilung hängt von dem Parameter p
ab. Sie ist der Spezialfall eines Verteilungstyps, der durch die Verteilungsfunktionen der Form
Z x
(r−c)2
1
Φc,σ (x) := √
e− 2σ2 dr, σ > 0, c ∈ R
2πσ −∞
p
p(1 − p)).
gegeben ist (in unserem Fall ist der Parameter c = 0 und σ =
Die entsprechende Wahrscheinlichkeitsverteilung heißt Normalverteilung mit
Mittelwert c und Standardabweichung σ. Sie wird mit N (c, σ 2 ) bezeichnet
(das Quadrat σ 2 der Standardabweichung heißt Varianz der Normalverteilung).
Die Funktion Φc,σ läßt sich, wie bewiesen werden kann, nicht durch irgendwelche (endlichen) Kombinationen der üblichen elementaren Funktionen (Polynome, Potenzen, Sinus, Logarithmus usw.) ausdrücken. Sie läßt sich nur auf die
Verteilungsfunktion der Standardnormalverteilung N (0, 1) mit c = 0, σ = 1
zurückführen. Es gilt die Beziehung
Φc,σ (x) = Φ0,1 (
x−c
),
σ
oder anders ausgedrückt, wenn ξ eine normalverteilte Zufallsgröße mit Mittelwert c und Standardabweichung σ ist, dann ist die abgeleitete Größe ξ−c
σ standardnormalverteilt (Übungsaufgabe). Aufgrund ihrer Bedeutung in der Stochastik (insbesondere auch der Statistik) und anderen mathematischen und naturwissenschaftlichen Gebieten wurde die Funktion Φ := Φ0,1 schon lange tabelliert
und ist in Programmpaketen und auf wissenschaftlichen Taschenrechnern implementiert.
Wie wir gesehen haben, besitzt die Normalverteilung N (c, σ 2 ) die Dichtefunktion (bezüglich des Lebesgueschen Maßes) ϕc,σ (x) =
2
− x2
√ 1 e−
2πσ
(x−c)2
2σ2
, d.h.
. Diese Funktion (Gaußsche Glockenkurve) ist für x →
ϕ0,1 (x) = √12π e
±∞ extrem schnell fallend, nicht nur exponentiell, sondern noch sehr viel schneller.
(!pic!)
Das führt dazu, daß die Annäherung von Φ an 0 bzw. 1 für x → ±∞ gleichfalls sehr viel schneller als exponentiell erfolgt.
Bemerkung: Das erscheint zunächst etwas paradox, da wir gesehen hatten,
daß Abweichungen der Größenordnung aN, a < p, q (vom zu erwartenden Wert
pN ) bei der Binomialverteilung, als deren Limes wir die Normalverteilung erhalten haben, nur exponentiell (in N ) unwahrscheinlich sind. Es ist aber zu
beachten, daß wir eine Skalierung mit dem Faktor √1N vorgenommen haben,
34
d.h. daß eine Abweichung von aN bei
Zu√ 2
√ der ursprünglichen binomialverteilten
−a2 N
ist,
fallsgröße nun einer Abweichung a N entspricht, und e−(a N) = e√
wie erwartet, nur exponentiell klein in N (aber super-exponentiell in N ).
Wir fassen noch einmal zusammen, daß uns auf dem Weg von der Binomialverteilung zur Normalverteilung eine Reihe von grundlegenden Ergebnissen der
Wahrscheinlichkeitstheorie (im Spezialfall) begegnet ist:
Das (schwache) Gesetz der großen Zahlen: Die Wahrscheinlichkeit, daß
Z
die relative Häufigkeit N
des Auftretens eines Ereignisses bei oftmaliger
unabhängiger Wiederholung des Zufallsexperiments um mehr als ε von
dessen Wahrscheinlichkeit p abweicht, geht bei beliebigem ε > 0 gegen
Null.
Der Satz über große Abweichungen besagt sogar, daß diese Wahrscheinlichkeit exponentiell schnell gegen Null geht.
Der Satz von Moivre-Laplace als Spezialfall des Zentralen
√ Grenzwertsatzes
besagt, daß Abweichungen der Größenordnung 1/ N zu erwarten sind,
und gibt eine√Asymptotik für die Wahrscheinlichkeit von Abweichungen
der Größe r/ N in Form der Normalverteilung. Anders ausgedrückt summieren sich viele kleine unabhängige Größen der Größenordnung 1/N bei
passender Skalierung zu einer normalverteilten Größe um den zu erwartenden Wert (in unserem Falle p).
Schließlich haben wir gesehen, daß sogar die unskalierten Einzelwahrscheinlichkeiten in der Nähe von N p immer genauer durch die Dichtefunktion der
Normalverteilung berechnet werden können (Satz 22). Eine solche Aussage heißt in der Wahrscheinlichkeitstheorie Lokaler Grenzwertsatz bzw.
(etwas umständlicher) Lokaler zentraler Grenzwertsatz.
Aussagen dieses Typs können mit modernen Mitteln unter weitaus allgemeineren Voraussetzungen gezeigt werden. Bevor wir uns damit beschäftigen, leiten
wir noch einen weiteren wichtigen Verteilungstyp aus der Binomialverteilung ab.
Wir betrachten diesmal den Fall, daß bei einer binomialverteilten Größe nicht
nur der Parameter N groß ist, sondern daß p (also die Wahrscheinlichkeit des
betrachteten Einzelereignisses bei N -maliger unabhängiger Wiederholung eines
Experiments) entsprechend klein ist, etwa die Größe λ/N hat, λ > 0 (im Gegensatz zu den Betrachtungen zum Satz von Moivre-Laplace, wo p fixiert war).
So ist etwa bei modernen Schaltkreisen die Ausfallwahrscheinlichkeit eines
einzelnen Transistors, etwa im Verlaufe eines Monats, extrem klein, dafür ist
die Anzahl dieser Elemente auf einem Chip recht groß, im Bereich von einigen
hundert Millionen Transistorfunktionen bei aktuellen CPU’s.
Eine solche Situation ist uns im Zusammenhang mit Übungsaufgabe 4.3
begegnet.
35
Wir erhalten für die Einzelwahrscheinlichkeit pN
k (bezüglich B(N, λ/N )) folgende Asymptotik
k N −k
λ
λ
N
N
lim pk = lim
1−
k
N →∞
N →∞
Nk
N
N −k
k
λ
λ
N (N − 1)...(N − k + 1)
=
lim
1−
k! N →∞
Nk
N
N
−k
λk
λ
=
,
lim 1 −
k! N →∞
N
N −j
N , 0 ≤ j ≤ k − 1,
λ −k
wegen 1 − N
→N →∞
denn jede der k Größen
Weiter ergibt sich
Exponentialfunktion
lim pN
k
N →∞
=
konvergiert für N → ∞ gegen 1.
1 und aufgrund der Stetigkeit de
N
λ N
λ
λk
λk
=
lim 1 −
lim eln(1− N )
k! N →∞
N
k! N →∞
λk limN →∞ N (− Nλ + Nλ R( Nλ ))
λk limN →∞ N ln(1− Nλ )
=
.
e
e
k!
k!
Hier haben wir die Taylorentwicklung der Funktion ln in der Umgebung von 1
benutzt, und R(x) ist eine stetige Funktion von x, |x| < 1 mit R(x) → 0 für
x → 0. Wir erhalten also schließlich
λk −λ
e .
=
lim pN
k
N →∞
k!
=
Die (positiven) Limeswerte
∞
X
k=0
P∞
λk
k=0 k!
λk −λ
k! e
summieren sich zu 1:
∞
X λk
λk −λ
e = e−λ
= e−λ eλ = 1,
k!
k!
k=0
ist die (für alle λ konvergierende) Taylorreihe der Funktion λ 7−→
denn
eλ .
Das ist durchaus nicht selbstverständlich, denn wie wir gesehen haben sind
für p = const. die Limites aller Einzelwahrscheinlichkeiten pN
k Null und haben
als Summe ebenfalls Null.
Wir erhalten also im Limes eine Wahrscheinlichkeitsverteilung (die von einem Parameter λ abhängt). Diese heißt Poissonsche Verteilung mit Parameter λ.
Damit haben wir -auf recht einfache Weise im Vergleich zur Ableitung der
Normalverteilung, und ohne Skalierung- folgende Aussage bewiesen:
Satz 25 Die Einzelwahrscheinlichkeiten der Binomialverteilung B(N, λ/N ) konvergieren für N → ∞ gegen die entsprechenden Einzelwahrscheinlichkeiten der
Poissonschen Verteilung mit Parameter λ.
Diese Aussage wird manchmal Gesetz der kleinen Zahlen genannt (unter
Bezug darauf, daß die Erfolgswahrscheinlichkeit p klein wird).
36
7
Erwartungswert und Varianz
Nachdem wir uns mit einigen wichtigen Verteilungstypen beschäftigt haben, wollen wir nun einige allgemeine numerische Charakteristika von reellen oder vektorwertigen Zufallsgrößen (bzw. deren Verteilungen) einführen. Ausgangspunkt
soll die Analogie zwischen einem Wahrscheinlichkeitsmaß und einer Massenverteilung sein. Wir können uns ein beliebiges Wahrscheinlichkeitsmaß auf dem Rd
(mit der σ-Algebra der Borelschen Mengen) als Verteilung einer Gesamtmasse 1
im euklidischen Raum veranschaulichen, und wenn das Wahrscheinlichkeitsmaß
eine Dichtefunktion besitzt, entspricht deren Wert der jeweiligen lokalen Massedichte. Bekanntlich spielt in der Physik in diesem Zusammenhang der Begriff des
Schwerpunktes eine besondere Rolle. Entsprechende Bedeutung besitzt er auch
in der Stochastik, insbesondere im Zusammenhang mit dem Gesetz der großen
Zahlen. Hier heißt diese Größe Erwartungswert (oder auch Mittelwert). Betrachten wir zuerst den eindimensionalen Fall.
Definition 26 Gegeben sei ein Wahrscheinlichkeitsmaß P auf [R, B(R)]. Falls
die Funktion | · | : x ∈ R 7−→ |x| ∈ R+ bezüglich P integrierbar ist, also
R +∞
R +∞
−∞ |x|P (dx) < +∞ gilt, heißt die reelle Zahl −∞ xP (dx) Erwartungswert
des Wahrscheinlichkeitsmaßes. Entsprechend wird, für eine beliebige
reellwertiR
ge Zufallsgröße ξ : [M, A, P ] 7−→ [R, B(R), P ◦ ξ −1 ] die Zahl M ξ(m)P (dm) =
R +∞
xP ◦ ξ −1 (dx), also der Erwartungswert des Wahrscheinlichkeitsmaßes P ◦
−∞
ξ −1 , als Erwartungswert Eξ der Zufallsgröße ξ bezeichnet, sofern |ξ(·)| integrierbar ist.
Bemerkung: Der Erwartungswert einer Zufallsgröße hängt also nur von P ◦
ξ −1 ab, d.h. zwei Zufallsgrößen, die dieselbe Verteilung auf [R, B(R)] generieren, haben auch denselben Erwartungswert.
Entsprechend lautet die Definition im mehrdiemensionalen Fall:
d
d
Definition
R 27 Für ein Wahrscheinlichkeitsmaß P auf [R , B(R )], das die Bedingung Rd |xj |P (dx) < +∞, j = 1, 2, ..., d, erfüllt, heißt der Vektor
 R

RRd x1 P (dx)
 d x2 P (dx) 
Z
 R


·
xP (dx) = 


Rd


·
R
x
P
(dx)
Rd d
Erwartungswert(vektor) von P .
Bemerkung: Die IntegrierbarkeitRaller Koordinatenfunktionen |xj | ist gleichbedeutend mit der Endlichkeit von Rd ||x||P (dx) (Übungsaufgabe).
Der Erwartungswert charakterisiert also den geometrischen Schwerpunkt eines Wahrscheinlichkeitsmaßes.
Alle von uns bisher betrachteten konkreten Wahrscheinlichkeitsverteilungen
besitzen einen Erwartungswert. So ist
37
der Erwartungswert der Zweipunktverteilung, die der 1 die Wahrscheinlichkeit
p ∈ [0, 1] und der 0 die Wahrscheinlichkeit 1−p = q zuweist, ist 1·p+0·q = p
R1
der Erwartungswert der Gleichverteilung auf [0, 1] ist 1/2 = 0 xdx
PN
der Erwartungswert der Gleichverteilung auf {1, 2, ..., N } ist N2+1 = N1 i=1 i
der Erwartungswert P
der geometrischen Verteilung
mit ErfolgswahrscheinlichP∞
P∞
∞
keit p ist p−1 = i=1 jp(1 − p)j−1 = p i=1 jq j−1 = p p12 ( i=1 j(−h)j−1
ist die Taylorreihe der Funktion x12 , entwickelt an der Stelle 1, setze
h = −q)
der Erwartungswert
mit Ausfallrate
λ ist entspre-
R ∞der Exponentialverteilung
R∞
∞
chend λ−1 = 0 xλe−λx dx = λ 0 xe−λx dx = λ −λ−1 xe−λx − λ−2 e−λx 0
(also ist sowohl bei der diskreten als auch der stetigen Wartezeitverteilung
die Ausfallrate reziprok zur mittleren Wartezeit)
der Erwartungswert der Binomialverteilung B(N, p) ist N p, denn
N
N
X
X
N −1
N
pk q N −k
pk q N −k =
N
Np =
k
k−1
k
k=0
= Np
N X
N −1
k−1
k=1
= N p(p + q)
N −1
k=1
pk−1 q N −1−(k−1) = N p
= N p1
N
−1 X
k=0
N −1
,
N −1
k
pk q N −1−k
der Erwartungswert ist also der Wert, der genau dem Idealwert der Anzahl
des Auftretens der 1 (s. voriges Kapitel) entspricht, bei dem die relative
Häufigkeit genau p ist (N p ist natürlich i.A. keine ganze Zahl)
der Erwartungswert der Normalverteilung N (c, σ 2 ) ist c:
Z +∞
(x−c)2
1
√
xe− 2σ2 dx
2πσ −∞
Z +∞
Z +∞
(x−c)2
(x−c)2
1
1
− 2σ2
(x − c)e
e− 2σ2 dx
= √
dx + c √
2πσ −∞
2πσ −∞
Z +∞
x2
1
xe− 2σ2 dx + c · 1 = c,
= √
2πσ −∞
x2
denn die Funktion f (x) = xe− 2σ2 ist ungerade (f (−x) = −f (x)) und
absolut integrierbar, daher ist ihr Integral 0
der Erwartungswert der Poissonschen Verteilung mit Parameter λ ist λ:
∞
X
λk
k e−λ
k!
= λ
k=0
= λ
∞
X
λk−1 −λ
e
(k − 1)!
k=1
∞
X
k=0
38
λk −λ
e =λ
k!
Die hauptsächliche Relevanz des Erwartungswertes liegt, wie wir noch sehen
werden, im Gesetz der großen Zahlen begründet, ansonsten ist er natürlich nur
ein einfaches, grobes Charakteristikum einer Verteilung. Er erlaubt aber im
Falle einer positiven Zufallsgröße die Abschätzung der Wahrscheinlichkeit großer
Werte:
Lemma 28 (Markovsche Ungleichung) Es sei P ein Wahrscheinlichkeitsmaß auf [R+ , B(R) ∩ R+ ] mit Erwartungswert E(P ). Dann gilt für alle c > 0
P ([c, ∞)) ≤
E(P )
.
c
B e w e i s. Es gilt, falls der Erwartungswert von P existiert,
Z
Z
Z ∞
1 ∞
1 ∞
cP (dx) ≤
xP (dx)
P ([c, ∞)) =
P (dx) =
c c
c c
c
Z
1 ∞
E(P )
≤
xP (dx) =
.
c 0
c
Lemma 29 Der Erwartungswert der Summe zweier reellwertiger (vektorwertiger) Zufallsgrößen ξ1 , ξ2 (über demselben Grundraum [M, A, P ]) existiert, wenn
beide Zufallsgrößen einen Erwartungswert besitzen, und ist gleich der Summe
der beiden Erwartungswerte.
B e w e i s. Wir erinnern zunächst daran, daß mit ξ1 , ξ2 auch [ξ1 , ξ2 ] eine
Zufallsgröße über [M, A, P ] ist (d.h. eine meßbare Abbildung). Die Abbildung
[x1 , x2 ] 7−→ x1 + x2 ist ebenfalls meßbar (von [R2 , B(R2 )] in [R, B(R)] bzw.
von [R2d , B(R2d )] in [Rd , B(Rd )] im Vektorfall), denn sie ist stetig (Kurs Analysis). Die Verknüpfung meßbarer Abbildungen ist meßbar. Also ist ξ1 + ξ2 eine
Zufallsgröße. Nun gilt
Z
E(ξ 1 + ξ2 ) =
(ξ1 (m) + ξ2 (m))P (dm)
Z
ZM
ξ2 (m)P (dm)
ξ1 (m)P (dm) +
=
M
M
= Eξ 1 + Eξ2 .
Während der Erwartungswert der Summe von Zufallsgrößen immer die Summe der Erwartungswerte ist, gilt die entsprechende Aussage für das Produkt im
Allgemeinen nur unter der zusätzlichen Annahme der Unabhängigkeit:
Lemma 30 Der Erwartungswert des Produkts zweier unabhängiger reellwertiger Zufallsgrößen ξ1 , ξ2 (über demselben Grundraum [M, A, P ]) existiert, wenn
beide Zufallsgrößen einen Erwartungswert besitzen, und ist gleich dem Produkt
der beiden Erwartungswerte.
39
B e w e i s. Wir hatten gesehen, daß zwei Zufallsgrößen ξ1 , ξ2 über demselben Grundraum [M, A, P ] genau dann unabhängig sind, wenn P ◦ [ξ1 , ξ2 ]−1 =
P ◦ ξ1 −1 × P ◦ ξ2 −1 erfüllt ist. Folglich erhalten wir mit dem Satz von Fubini
(Maßtheorie)
Z
Eξ1 ξ2 =
ξ1 (m)ξ2 (m)P (dm)
M
Z
=
x1 x2 (P ◦ ξ1 −1 × P ◦ ξ2 −1 )(d[x1 , x2 ])
R2
Z Z
−1
=
x2 (P ◦ ξ2 )(dx2 ) x1 (P ◦ ξ1 −1 )(dx1 )
R
R
Z
Z
−1
=
x1 (P ◦ ξ1 )(dx1 ) x2 (P ◦ ξ2 −1 )(dx2 )
R
R
Z
Z
=
ξ1 (m)P (dm)
ξ2 (m)P (dm) = Eξ 1 Eξ2 .
M
M
Bemerkung: Der Satz von Fubini besagt, daß für zwei σ-endliche Maße µ1 , µ2
die Identität
Z
f (m1 , m2 )(µ1 × µ2 )(d[m1 , m2 ])
M1 ×M2
Z Z
f (m1 , m2 )µ1 (dm1 ) µ2 (dm2 )
=
M2
M1
R
für jede meßbare Funktion f : M1 ×M2 7−→ R erfüllt ist, für die M1 |f (m1 , m2 )|µ1 (dm1 )
für µ2 -fast alle m2 existiert und als Funktion von m2 bezüglich µ2 integrierbar
ist.
Definition 31 Wenn für zwei -nicht unbedingt unabhängige- Zufallsgrößen ξ1 , ξ2
der Erwartungswert Eξ1 ξ2 existiert und die Relation Eξ1 ξ2 = Eξ1 Eξ2 erfüllt,
dann heißen diese Größen unkorreliert.
Bemerkung. Die Unkorreliertheit ist eine schwächere Eigenschaft als die Unabhängigkeit, denn es gibt unkorrelierte Zufallsgrößen, die abhängig sind (Übungsaufgabe).
Wie wir festgestellt haben, charakterisiert der Erwartungswert (falls er existiert) nur den ’Schwerpunkt’ einer Zufallsgröße ξ, macht aber i.A. keine Angabe
darüber, wie sehr diese Zufallsgröße von diesem Schwerpunkt abweichen kann
(für positive Zufallsgrößen gibt die Markovsche Ungleichung allerdings eine grobe Abschätzung für die Wahrscheinlichkeit solcher Abweichungen, während ohne diese Positivitätsbedingung keinerlei allgemeingültige Abschätzung aus dem
Erwartungswert alleine möglich ist).
Es liegt aufgrund der Markovschen Ungleichung nahe, die (abgeleitete) positive Zufallsgröße ξ 0 := (ξ − Eξ)2 zu betrachten, also das Quadrat der Abweichung der betrachteten Zufallsgröße ξ von ihrem eigenen Erwartungswert. Falls
40
ξ 0 einen Erwartungswert besitzt -also große positive bzw. negative Abweichungen genügend unwahrscheinlich sind- heißt diese Größe Varianz von ξ und wird
mit Varξ bezeichnet.
Lemma 32 Eine reellwertige Zufallsgröße ξ : [M,
R besitzt genau
R A, P ] 7−→
2
2
dann eine (endliche) Varianz Varξ, wenn Eξ = M (ξ(m)) P (dm) < +∞ (ξ
ist quadratisch integrierbar) erfüllt ist, und es gilt die Beziehung
Varξ = Eξ 2 − (Eξ)2 .
B e w e i s. Zunächst impliziert sowohl die Existenz der Varianz (nach Definition von ξ 0 ) als auch die Endlichkeit von Eξ 2 (wegen +∞ > Eξ 2 > E|ξ|) die
Integrierbarkeit von ξ, d.h. die Existenz von E|ξ|. Dann ist wegen der Beziehung
0 ≤ ξ 0 = (ξ − Eξ)2 = ξ 2 − 2ξEξ + (Eξ)2 ≤ ξ 2 + 2|ξ| · |Eξ| + (Eξ)2
die Größe ξ 0 genau dann (bezüglich P ) integrierbar, wenn ξ 2 integrierbar ist
(nach Lemma 29). In diesem Falle gilt
Eξ 0
= E(ξ − Eξ)2 = E(ξ 2 − 2ξEξ + (Eξ)2 )
= Eξ 2 − 2EξEξ + (Eξ)2 = Eξ 2 − (Eξ)2 .
Unmittelbar aus der Markovschen Ungleichung ergibt sich nun eine erheblich
bessere Abschätzung für Abweichungen vom Mittelwert, ohne Positivitätsbedingung (aber um den Preis der Existenz der Varianz).
Falls der Erwartungswert Eξ existiert, ist zumindest das Integral
R Bemerkung.
(ξ(m) − Eξ)2 µ(dm) =Var(ξ) als Integral über eine positive meßbare Funktion
immer definiert, allerdings u.U. unendlich.
Lemma 33 (Chebyschevsche Ungleichung) Es sei ξ : [M, A, P ] 7−→ R eine reellwertige Zufallsgröße mit Eξ 2 < +∞. Dann gilt für beliebiges c > 0
P (|ξ − Eξ| ≥ c) ≤
Varξ
.
c2
B e w e i s. Wir erhalten unter der angegebenen Bedingung, also falls die
Varianz exitiert, aus der Markovschen Ungleichung
P (|ξ − Eξ| ≥ c) = P ((ξ − Eξ)2 ≥ c2 ) ≤
E(ξ − Eξ)2
Varξ
= 2 .
2
c
c
Die Varianz ist also (über die Chebyschevsche Ungleichung) ein Maß für die
Wahrscheinlichkeit von Abweichungen vom Mittelwert (Streuung) einer reellen Zufallsgröße. Solche Abweichungen sind -falls die Varianz existiert- reziprok
quadratisch in c unwahrscheinlich, während die Markovsche Ungleichung nur
-und auch nur für positive Zufallsgrößen- ein reziprok proportionales Abfallen
der Wahrscheinlichkeit großer Werte liefert.
Sämtliche von uns bisher betrachteten konkreten Wahrscheinlichkeitsverteilungen besitzen auch eine Varianz. So ist für eine Zufallsgröße ξ
41
die Varianz im Fall der Zweipunktverteilung p · 12 + q · 02 − (Eξ)2 = p − p2 = pq
R1
die Varianz der Gleichverteilung auf [0, 1] ist 1/12 = 0 x2 dx − ( 12 )2 = 13 − 41
die Varianz der Gleichverteilung auf {1, 2, ..., N } ist
2
N
N +1
(N + 1)(2N + 1) (N + 1)2
1 X 2
N2 − 1
=
i −
=
−
12
N i=1
2
6
4
die Varianz der geometrischen Verteilung mit Erfolgswahrscheinlichkeit p ist
q
p2
die Varianz der Exponentialverteilung mit Ausfallrate λ ist entsprechend λ−2
die Varianz der Binomialverteilung B(N, p) ist N pq
die Varianz der Normalverteilung N (c, σ 2 ) ist σ 2 :
Z +∞
(x−c)2
1
(x − c)2 e− 2σ2 dx
2πσ −∞
Z +∞
Z +∞
x2
x2
1
1
2 − 2σ
2
√
dx = √
x e
x · xe− 2σ2 dx
2πσ −∞
2πσ −∞
h
Z +∞
i+∞
x2
x2
1
− 2σ
2
2 − 2σ2
2
√
dx
e
+σ
−x · σ e
−∞
2πσ
−∞
Z +∞
x2
1
√
0 + σ2
e− 2σ2 dx
2πσ
−∞
2
σ
√
=
=
=
=
die Varianz der Poissonschen Verteilung mit Parameter λ ist λ.
Während der Erwartungswert immer additiv ist, ist die Varianz der Summe zweier Zufallsgrößen (mit endlichem Varianz) nur dann gleich der Summe
der Varianzen, wenn die Größen unkorreliert sind (also insbesondere, wenn sie
unabhängig sind):
Satz 34 Für zwei Zufallsgrößen ξ1 , ξ2 (über demselben Wahrscheinlichkeitsraum) mit endlichen Erwartungswerten gilt Var(ξ1 + ξ2 ) =Var(ξ1 )+ Var(ξ2 )
genau dann, wenn Eξ1 ξ2 = Eξ1 Eξ2 erfüllt ist.
B e w e i s. Aus der Endlichkeit der Varianzen folgt die Existenz von Eξ1 ξ2
(dies ist das Skalarprodukt in L2 (µ)). Außerdem liegt mit ξ1 und ξ2 auch ξ1 + ξ2
42
in L2 (µ), besitzt also eine Varianz. Nun gilt
Var(ξ1 + ξ2 ) − (Var(ξ1 ) + Var(ξ2 ))
= E (ξ1 + ξ2 − Eξ1 − Eξ2 )2
2
2
−E (ξ1 − Eξ1 ) − E (ξ2 − Eξ2 )
= Eξ12 + Eξ22 + 2Eξ1 ξ2 − (Eξ1 )2 − (Eξ2 )2 − 2Eξ1 Eξ2
−Eξ12 + (Eξ1 )2 − Eξ22 + (Eξ2 )2
= 2Eξ1 ξ2 − 2Eξ1 Eξ2 .
7.1
Kovarianzmatrix
Auch die Varianz besitzt eine mehrdimensionale Verallgemeinerung (den Erwartungswert hatten wir ja gleich zu Beginn auch im Rd definiert). Es seien
ξ eine Zufallsgröße über [M, A, P ] mit Werten im Rd , und sie sei quadratisch
integrierbar, d.h. E||ξ||2 < ∞. Dann heißt die Matrix Σ2 (ξ) := (ki,j )di,j=1 mit
den Einträgen
ki,j := E(ξi − Eξi )(ξj − Eξj )
Kovarianzmatrix zu ξ. Wir können auch kürzer Σ(ξ) = E(ξ − Eξ)(ξ − Eξ)0
schreiben, wobei (ξ − Eξ)0 den zu (ξ − Eξ) konjugierten Vektor (Zeilenvektor
mit denselben Einträgen) bezeichnet.
In der Hauptdiagonalen der Kovarianzmatrix stehen die Varianzen E(ξi −
Eξi )2 der Koordinaten von ξ. Da Eξi2 ≤ E||ξ||2 , ist die Endlichkeit dieser Werte aufgrund der gestellten Bedingung gesichert. Aus der Cauchy-Schwarzschen
Ungleichung folgt nun auch mit
Z
|(ξi (m) − Eξi )(ξj (m) − Eξj )|P (dm)
ZM
=
|ξi (m) − Eξi | · |ξj (m) − Eξj |P (dm)
M
≤
=
Z
M
(ξi (m) − Eξi )2 P (dm)
p
Varξi · Varξj < +∞
1/2 Z
M
(ξj (m) − Eξj )2 P (dm)
die Endlichkeit sämtlicher Kovarianzen sowie wegen
Z
|
(ξi (m) − Eξi )(ξj (m) − Eξj )P (dm)|
Z M
≤
|(ξi (m) − Eξi )(ξj (m) − Eξj )|P (dm)
pM
Varξi · Varξj
≤
die Beziehung
|ki,j | ≤
p
Varξi · Varξj .
43
1/2
Die Kovarianzmatrix hat die Eigenschaft, daß für jeden Vektor x ∈ Rd die
Ungleichung x0 Σ2 (ξ)x ≥ 0 erfüllt ist, denn es gilt
x0 Σ2 (ξ)x
=
d
X
i,j=1
= E
xi xj E(ξi − Eξi )(ξj − Eξj )
d
X
i,j=1
0
xi xj (ξi − Eξi )(ξj − Eξj )
= Ex (ξ − Eξ)(ξ − Eξ)0 x
2
= E hξ − Eξ, xi ≥ 0.
Hier bezeichnet h·, ·i das Skalarprodukt im Rd und wir haben benutzt, daß der
Erwartungswert der Summe von Zufallsgrößen gleich der Summe der Erwartungswerte ist.
Die Kovarianzmatrix ist also stets positiv-semidefinit. Wie wir gleich sehen werden, ist umgekehrt auch jede positiv-semidefinite Matrix Kovarianzmatrix zu einer (passend gewählten) Zufallsgröße.
7.2
Das schwache Gesetz der großen Zahlen im Fall endlicher Varianz
Der Erwartungswert einer Zufallsgröße ist nicht nur ein einfaches numerisches
Charakteristikum, sondern er bestimmt unter sehr allgemeinen Voraussetzungen
das Verhalten der Summe wenn viele solche Größen addiert werden. Wir hatten
das im allereinfachsten Fall einer Zweipunkt-Verteilung auf {0, 1} (BernoulliVerteilung) schon festgestellt: Für beliebiges positives ε wird es bei fortgesetzter unabhängiger Wiederholung des Versuchs immer
PNwahrscheinlicher, daß
die Anzahl der ’Erfolge’ (Ergebnis 1), also die Summe i=1 ξi in dem Intervall
[N (p−ε), N (p+ε)] liegt. Dazu hatten wir die Verteilung der Summe charakterisiert (die Binomialverteilung B(N, p), deren Erwartungswert N p ist) und deren
Einzelwahrscheinlichkeiten für großes N abgeschätzt. Die Chebyschevsche Ungleichung erlaubt uns nun, eine solche Aussage recht allgemein zu beweisen. Die
betreffenden Zufallsgrößen müssen nicht einmal dieselbe Verteilung besitzen,
und sie müssen auch nicht vollständig unabhängig sein, sondern nur paarweise
unkorreliert. Allerdings müssen sie, damit die Ungleichung einen Ansatzpunkt
hat, alle eine (endliche) Varianz Var(ξi ) aufweisen und wir werden zusätzlich
die Existenz einer endlichen oberen Schranke für alle diese Varianzen fordern.
Satz 35 (Schwaches Gesetz der großen Zahlen bei beschränkter Varianz))
Es sei {ξi }∞
i=1 eine Folge reeller Zufallsgrößen über einem gemeinsamen Wahrscheinlichkeitsraum [M, A, P ]. Es existiere für alle i der Erwartungswert und die
Varianz der Zufallsgröße und es sei supi∈N Var(ξi ) < +∞. Die Größen seien unkorreliert, d.h. für beliebige i 6= j sei Eξi ξj = Eξi Eξj . Dann gilt für beliebiges
44
ε>0
lim P
N →∞
!
N
N
1 X
1 X
ξi −
Eξi > ε = 0.
N
N i=1
i=1
P
B e w e i s. Wir bezeichnen mit c das supi∈N Var(ξi ). Der Mittelwert N1 N
i=1 ξi
1 PN
1 PN
hat den Erwartungswert N i=1 Eξi . Mit sämtlichen ξi liegt auch N i=1 ξi in
L2 (P ), besitzt also eine (endliche) Varianz:
Var
N
1 X
ξi
N i=1
!
N
1 X
ξi
N i=1

= E
=
!2
−
N
1 X
Eξi
N i=1

N
N
X
X

1 
2

ξi ξj 
ξ
+
2
E
i

N 2  i=1
i,j=1
−

i6=j
!2

N
N
X
X

1 
 (Eξi )2 + 2
Eξi Eξj 

N 2  i=1
i,j=1
i6=j
=
1
N2
N
X
i=1
Var(ξi ) ≤
cN
c
= .
N2
N
Nun müssen wir nur noch die Chebyschevsche Ungleichung anwenden:
!
N
N
1 X
1 X
ξi −
Eξi > ε
P N
N i=1
i=1
P
Var N1 N
i=1 ξi
c
≤
−→ 0.
≤
ε2
N ε2 N →∞
Der einfache Beweisgedanke ist also der, daß sich die Varianzen der unkorrelierten
als Maß ihrer Streuung bei der Summation addieren, so daß
P Größen
N
Var
i=1 ξi linear wächst (höchstens wie N c), jedoch bei der Mittelung mit
1
1
N multipliziert sich die Streuung mit N 2 , so daß die erwartete Streuung immer
kleiner wird.
Trotz des einfachen Beweises (und des Namens ’schwaches Gesetz’, der nur
P
darauf hinweist, daß man in vielen Fällen sogar die Konvergenz von N1 N
i=1 ξi
beweisen kann) ist dies eine recht starke und wichtige Aussage. Die Existenz
der Varianzen macht ihren Beweis einfach. Wir werden sehen, daß auch die (genauere) Aussage des zentralen Grenzwertsatzes auf der Existenz der Varianzen
fußt.
45
7.3
Mehrdimensionale Normalverteilung
Wir wollen nun auch die Klasse der Normalverteilungen auf den mehrdimensionalen Fall verallgemeinern. Zunächst betrachten wir eine endliche Folge {ξi }di=1
unabhängiger standard-normalverteilter Zufallsgrößen. Das Verteilungsgesetz
des Vektors


ξ1
 ξ2 


 · ,


 · 
ξd
d.h. das Produktmaß N (0, 1) × ... × N (0, 1) (d mal) wird als d-dimensionale
Standardnormalverteilung N (0, I) bezeichnet. Hier steht 0 für den Nullvektor als Erwartungswert und I für die Einheitsmatrix, die die Kovarianzmatrix
dieser Verteilung ist. Aus dem Satz von Fubini folgt, daß N (0, I) die Dichtefunk||x||2
tion (2π)1d/2 e− 2 bezüglich des d-dimensionalen Lebesgueschen Maßes besitzt.
Um den allgemeinen Fall untersuchen zu können, benötigen wir eine Aussage
darüber, wie sich die Wahrscheinlichkeitsdichte bei einer linearen Transformation berechnet.
Lemma 36 Es sei P ein absolut stetiges Wahrscheinlichkeitsmaß auf [Rd , B(Rd )]
mit der Dichtefunktion f und A eine invertierbare lineare Abbildung des R d in
sich. Die Verteilung von A, aufgefaßt als Zufallsgröße über dem Wahrscheinlichkeitsraum [Rd , B(Rd ), P ], ist absolut stetig mit der Dichtefunktion fA :=
det A−1 f (A−1 (·)).
B e w e i s. Wir müssen zeigen, daß sich die Wahrscheinlichkeit eines beliebigen Menge X ∈ B(Rd ) durch
R Integration von fA über diese Menge ergibt.
Wir erhalten P ◦ A−1 (X) = A−1 X f (x)dx und wenden nun die Substitution
x → y = Ax an. Dabei multipliziert sich das Lebesguesche Maß mit det A−1
und es ergibt sich
Z
P ◦ A−1 (X) = det A−1
f (A−1 y)dy.
X
Bemerkung. Wenn A nicht invertierbar ist, ist ARd =ImA ein linearer Unterraum von Rd kleinerer Dimension, dessen Lebesguesches Maß Null ist, aber
das Maß bezüglich P ◦ A−1 ist 1. In diesem Fall hat also die Zufallsgröße A
eine singuläre Verteilung und somit keine Dichtefunktion.
Wenden wir solch eine lineare Transformation auf eine d-dimensionale standardnormalverteilte Zufallsgröße ξ an, so ergibt sich nun als Dichtefunktion
1
(2π)d/2
det A
e−
||A−1 x||2
2
=
=
1
(2π)d/2
p
46
det A
1
e−
(2π)d det AA0
x0 (A−1 )0 A−1 x
2
e−
x0 (AA0 )−1 x
2
.
Je nach Wahl von A ist Σ2 = AA0 eine beliebige positiv-definite (also symmetrische) Matrix (jede positiv definite Matrix B läßt sich (eindeutig) in der Form
B = C 2 = C · C = C 0 C schreiben, wobei C wiederum positiv-definit ist).
Man definiert die zentrierte d-dimensionale Normalverteilung N (0, Σ2 )
mit Kovarianzmatrix Σ2 dementsprechend als diejenige Verteilung, die die
x0 Σ−2 x
e− 2
Dichtefunktion √ 1d
besitzt. Tatsächlich ist Σ2 die Kovarianz(2π) det Σ
matrix dieser Verteilung, denn
Σ2 (A)
Z
||x||2
1
(Ax)(Ax)0 e− 2 dx
= E(Aξ)(Aξ)0 =
d/2
(2π)
Rd
Z
||x||2
1
=
Axx0 A0 e− 2 dx
(2π)d/2 Rd
Z
2
1
0 − ||x||
2
dx A0
= A
xx e
(2π)d/2 Rd
= AIA0 = AA0 = Σ2 .
Wenn wir nun noch eine Verschiebung um einen beliebigen Vektor c ∈ Rd
zulassen, kommen wir zur
Definition 37 Es sei c ∈ Rd und Σ2 eine beliebige positiv definite lineare Abbildung des Rd in sich. Die Wahrscheinlichkeitsverteilung mit der Dichtefunktion
p
1
(2π)d det Σ2
e−
(x−c)0 Σ−2 (x−c)
2
heißt Normalverteilung mit Erwartungswert c und Kovarianzmatrix
Σ2 und wird mit N (c, Σ2 ) bezeichnet.
Bemerkung. Wenn A nicht invertierbar ist, dann ist AA0 nur positiv-semidefinit
und det AA0 = det Σ2 = 0. In diesem Fall ist der Träger von P ◦ A−1 der lineare Unterraum ARd =ImA, d.h. P ◦ A−1 ist singulär und man spricht von
einer ausgearteten Normalverteilung. Die Kovarianzmatrix ist immer noch AA 0 ,
denn die obige Rechnung setzt nicht voraus, daß A invertierbar ist. Da sich jede
positiv-semidefinite Matrix als AA0 schreiben läßt, sehen wir, daß alle positivsemidefiniten Matrizen als Kovarianzmatrizen von Zufallsgrößen auftauchen,
nämlich z.B. als Kovarianzmatrizen von (u.U. ausgearteten) Normalverteilungen.
Wir hatten in Übungsaufgabe 7.2 gesehen, daß im eindimensionalen Fall die
Summe zweier unabhängiger normalverteilter Zufallsgrößen wieder normalverteilt ist, mit der Summe der entsprechenden Erwartungswerte und Varianzen.
Diese Aussage gilt in beliebigen Dimensionen:
Satz 38 Es seien ξ1 , ξ2 zwei unabhängige normalverteilte Zufallsgrößen, ξi besitze den Erwartungswert ci und die Kovarianzmatrix Σ2i , i = 1, 2. Dann ist
ξ1 +ξ2 normalverteilt mit Erwartungswert c1 +c2 und Kovarianzmatrix Σ21 +Σ22 .
47
B e w e i s. Es sei C ∈ B(Rd ) eine meßbare Menge. Dann gilt
P (ξ1 + ξ2
∈
=
C)
1
1
p
·
d
(2π)
det Σ21 det Σ22
Z
−2
−2
(x1 −c1 )0 Σ1 (x1 −c1 )+(x2 −c2 )0 Σ2 (x2 −c2 )
2
(µL × µL )(d(x1 , x2 ))
e−
2d
(x1 ,x2 )∈R
x1 +x2 ∈C
=
1
1
p
(2π)d det Σ21 det Σ22
Z
−2
−2
x 0Σ
x +x 0 Σ
x
− 1 1 12 2 2 2
(µL × µL )(d(x1 , x2 )).
·
e
2d
(x1 ,x2 )∈R
x1 +x2 +c1 +c2 ∈C
Hier haben wir die Verschiebungsinvarianz des d-dimensionalen Lebesgueschen
Maßes ausgenutzt, d.h. die Invarianz unter der Substitution x 7−→ x + c. Nun
betrachten wir die Matrix
2
Σ1 0
,
Σ2 =
0 Σ22
(2d)
benutzen, daß das 2d-dimensionale Lebesguesche Maß µL das Produktmaß
µL × µL der beiden d-dimensionalen Lebesguesche Maße ist und erhalten
Z
0 −2
1
1
− x Σ2 x (2d)
√
=
µL (dx).
e
2d
(2π)d det Σ2 x=(x1 ,x2 )∈R
x1 +x2 +c1 +c2 ∈C
x1
x1 + x 2
1
2d
√
7−→ 2
, die
Wir betrachten im R die Substitution
x2
x1 − x 2
I I
durch die symmetrische orthogonale Matrix T := √12
= T −1 beI −I
(2d)
werkstelligt wird. Dabei multipliziert sich µL mit det T = 1, bleibt also unverändert. Es ergibt sich
Z
0 −1 −2 −1
1
1
− x T Σ2 T x (2d)
√
e
µL (dx).
2d
(2π)d det Σ2 √x=(x1 ,x2 )∈R
2x1 +c1 +c2 ∈C
Nun gilt
Σ−2
T
:
=
=
=
:
= T Σ−2 T
−2
1 I I
I I
Σ1
0
I −I
0
Σ−2
2 I −I
2
−2
−2
1 I I
Σ1
Σ1
−2
−2
I
−I
Σ
−Σ
2
2
2
−2
−2
1 Σ−2
Σ1 − Σ−2
1 + Σ2
2
−2
2
Σ−2
Σ−2
2
1 − Σ2
1 + Σ2
1 R+ R−
,
=
2 R− R+
48
−2
wobei R+ := Σ−2
als Summe zweier positiv definiter Matrizen wieder
1 + Σ2
positiv definit, also invertierbar ist. Daher gilt mit dem Satz von Fubini, mit
1 √ 1
Z := (2π)
d
det Σ2
P (ξ1 + ξ2
∈
C)
Z
= Z
= Z
= Z
Z
Z
Z
x=(x1 ,x2 )∈R2d
√
2x1 +c1 +c2 ∈C
√
2x1 +c1 +c2 ∈C
√
2x1 +c1 +c2 ∈C
e−
−2
x0 Σ
x
T
2
Z
Z
(2d)
µL (dx)
−2
x0 Σ
x
T
2
e
−
e
− 14 (x01 R+ x1 +2x01 R− x2 +x02 R+ x2 )
dx2 dx1
Rd
Rd
1
0
1
0
dx2 dx1
−1
= Z √
e − 4 x 1 R+ x 1 + 4 x 1 R− R+ R− x 1
2x1 +c1 +c2 ∈C
Z
+x02 )R+ (x2 +R−1
R− x 1 )
− 14 (x01 R− R−1
+
+
·
dx2 dx1 .
e
Rd
−1
Im inneren Integral könne wir den Summanden x01 R− R+
weglassen (mit Hilfe
der Substitution)
−1
x2 7−→ x2 − x01 R− R+
und erhalten
P (ξ1 + ξ2
∈
=
=
=
=
C)
Z
−1
1 0
1 0
e − 4 x 1 R+ x 1 + 4 x 1 R− R+ R−
Z √
2x +c +c ∈C
Z 1 1 2
1 0
·
e− 4 x2 R+ x2 dx2 dx1
Rd
Z
p
−1
1 0
1 0
Z(2π)d/2 det R+ √
e− 4 x1 R+ x1 + 4 x1 R− R+ R− dx1
Z 2x1 +c1 +c2 ∈C
p
−1
1 0
Z(2π)d/2 det R+ √
e− 4 x1 (R+ −R− R+ R− )x1 dx1
2x1 +c1 +c2 ∈C
Z
−1
1 0 1
e− 2 x1 4 (R+ −R− R+ R− )x1 dx1 .
Z0
x1 +c1 +c2 ∈C
√
Hier haben wir in der letzten Zeile x1 7−→ 2x1 substituiert und den Faktor Z 0
nicht ausgerechnet, der Wert ergibt sich später einfacher. Für die im Exponenten
49
auftauchende Matrix ergibt sich
1
−1
R− )
Σ21 + Σ22 · (R+ − R− R+
4
1 2
−2
−1
−2
−2
=
Σ1 + Σ22 R+ − (Σ−2
1 − Σ2 )R+ (Σ1 − Σ2 )
4
1
−1
−2
−2
2 −2
=
Σ21 + Σ22 R+ − (−Σ21 Σ−2
2 + Σ2 Σ1 )R+ (Σ1 − Σ2 )
4
−1 −2
1
−2
Σ21 + Σ22 R+ + (Σ21 − Σ22 ) Σ−2
R+ (Σ1 − Σ−2
=
1 + Σ2
2 )
4
1
−2
=
Σ21 + Σ22 R+ + (Σ21 − Σ22 )(Σ−2
1 − Σ2 )
4
1
−2
−2
−2
2
2
=
Σ21 + Σ22 (Σ−2
1 + Σ2 ) + (Σ1 − Σ2 )(Σ1 − Σ2 ) = I,
4
−1
−1
also ist 14 (R+ − R− R+
R− ) = Σ21 + Σ22
, d.h.
P (ξ1 + ξ2
∈
C)
= Z
0
= Z0
Z
Z
2 −1
e− 2 x1 (Σ1 +Σ2 )
1
0
2
x1 +c1 +c2 ∈C
2 −1
e− 2 (x1 −c1 −c2 ) (Σ1 +Σ2 )
0
1
2
x1
dx1
(x1 −c1 −c2 )
dx1 .
x1 ∈C
Wir sehen, daß ξ1 + ξ2 wieder normalverteilt ist, nämlich gemäß N (c1 + c2 , Σ21 +
Σ22 ), d.h. Erwartungswerte und Varianzen haben sich addiert. (Die Konstante
Z 0 muß den Wert
1
Z0 = p
d
(2π) det (Σ21 + Σ22 )
haben, damit das Gesamtintegral 1 ergibt.)
8
Ein Anwendungsbeispiel für das Gesetz der
großen Zahlen: Der Kodierungssatz von Shannon
Eine interessante und auch praktisch wichtige Anwendung findet das Gesetz der
großen Zahlen in der Informationstheorie, indem es die Rolle der Entropie als
ein Maß für den Informationsgehalt begründet. Interessanterweise wurde erst
ganz zu Beginn des Computerzeitalters, Ende der vierziger Jahre des 20. Jahrhunderts, die Tatsache registriert, daß sich Information unabhängig von ihrem
semantischen Gehalt quantitativ messen läßt, und dieses Maß ist entscheidend
für die Menge an Speicherplatz, die man zu ihrer Aufbewahrung braucht, oder
auch für die notwendige Übertragungskapazität bei ihrer Übermittlung. Ebenso wie die Wahrscheinlichkeitstheorie -mit der sie unmittelbar verwandt ist50
wurde in der Informationstheorie zuerst der einfachste Fall betrachtet, nämlich
daß die Informationsquelle voneinander unabhängige Dateneinheiten emittiert.
Wir stellen uns vor, daß die Information in Form von Buchstaben aus irgendeinem Alphabet A aus d verschiedenen Buchstaben vorliegt. Diese ’Buchstaben’
können beispielsweise die Symbole {0, 1}, die lateinischen Buchstaben einschließlich Interpunktions- und Trennzeichen, oder auch Silben oder Wörter einer Sprache sein. Auf A (genauer P(A)) sei ein Wahrscheinlichkeitsmaß P gegeben, das
für jeden einzelnen Buchstaben die Wahrscheinlichkeit seines Auftretens angibt.
Wir haben also nur den Begriff Elementarereignis durch den Begriff Buchstabe
ersetzt.
Nun wird (im einfachsten Fall) eine Informationsquelle durch eine vollständig
unabhängige Folge von Zufallsgrößen {ξi }i∈N oder {ξi }i∈Z mit Werten in A =
{1, 2, ..., d} modelliert, wobei die ξi alle gemäß P ∼
= {p1 , p2 , ..., pd } verteilt sind.
Es ist sinnvoll anzunehmen, daß alle pi positiv sind, denn Buchstaben mit Wahrscheinlichkeit 0 können wir einfach aus dem Alphabet entfernen.
Bisher haben wir bekannte Begriffe lediglich mit neuen Namen versehen.
Die Informationstheorie stellt aber, wie schon erwähnt, spezifische Fragen.
Wir wollen etwa wissen, wieviel Platz auf einem Datenträger die Speicherung
der ersten n Buchstaben benötigen wird. Nun gibt es dn Buchstabenfolgen der
Länge n, und wenn wir der Einfachheit halber annehmen, daß d = 2m eine
Potenz von Zwei ist, dann können wir den Block der ersten n Buchstaben auf
jeden Fall mit mn Bit speichern. Diese Vorgehensweise ist aber nicht optimal.
Wir werden sehen, daß im Allgemeinen von den dn möglichen n-Blöcken aus
der Menge An tatsächlich nur eine winzige Teilmenge realistisch ist. Der Grund
ist eine Variante des schwachen Gesetzes der großen Zahlen, die auf Shannon
zurückgeht und die die Basis für die Möglichkeit verlustfreier Datenkompression
darstellt.
Die Idee besteht darin, zu untersuchen, welche Wahrscheinlichkeit der von
der Quelle emittierte Block [ξ1 , ξ2 , ..., ξn ] ursprünglich hatte, d.h. im Sinne des
Produktmaßes P n auf P(An ). (Ursprünglich deswegen, weil wir den Block (die
mehrdimensionale Zufallsgröße) [ξ1 , ξ2 , ..., ξn ] ja schon beobachtet haben, so daß
seine Wahrscheinlichkeit nun (a posteriori) 1 ist.) Im unabhängigen Fall, auf
den wir uns hier beschränken, ist diese Wahrscheinlichkeit einfach P[ξ1 ,ξ2 ,...,ξn] =
pξ1 ·pξ2 ·...·pξn . Wir haben es also mit einer abgeleiteten Zufallsgröße zu tun, die
nichts anderes ist als -was für eine wahrscheinlichkeitstheoretische Betrachtung
zunächst etwas seltsam anmutet- die (a priori) Wahrscheinlichkeit selber (die
der Zufallsgröße [ξ1 , ξ2 , ..., ξn ]).
Um nun das Gesetz der großen Zahlen ins Spiel zu bringen, das sich ja auf
Summen von Zufallsgrößen bezieht, gehen wir zum Logarithmus über (wie in
der Informationstheorie üblich, zur Basis 2)
− log2 pξ1 · pξ2 · ... · pξn =
n
X
(− log2 pξi ).
i=1
(Wir haben den Negativwert des Logarithmus gewählt, damit wir positive Größen
erhalten.) Genau wie die ξi sind auch die Zufallsgrößen − log pξi (vollständig)
51
voneinander unabhängig und besitzen alle dieselbe Verteilung: − log pξ1 nimmt
den Wert − log pj mit Wahrscheinlichkeit pj an (j = 1, 2, ..., d), denn ξ1 nimmt
den Wert j mit Wahrscheinlichkeit pj an. Da dies nur endlich viele mögliche
Werte sind, ist die nichtnegative Zufallsgröße − log pξ1 beschränkt, besitzt also
Pd
sowohl einen Erwartungswert (nämlich hP := − j=1 pj log pj ) als auch eine
endliche Varianz. Damit sind die Voraussetzungen erfüllt, um das schwache Gesetz der großen Zahlen anwenden zu können. Wir erhalten folgende Aussage:
Satz 39 (Shannon) Für alle ε > 0 gilt
!
n
1 X
lim P (− log pξ1 ) − hP > ε = 0.
n→∞
n
i=1
Pd
Definition 40 Die Größe hP := − j=1 pj log pj heißt Entropie der Wahrscheinlichkeitsverteilung P ∼
= {p1 , p2 , ..., pd }.
Bemerkung: Diese Definition wird auch auf den Fall erweitert, daß einige
der pj = 0 sind. In diesem Fall wird der unbestimmte Ausdruck 0 log 0 als 0
definiert.
Nun bedeutet
n
1 X
(− log pξ1 ) − hP ≤ ε,
n
i=1
daß
− log P[ξ1 ,ξ2 ,...,ξn ]
=
P[ξ1 ,ξ2 ,...,ξn ]
∈
n
X
(− log pξ1 ) ∈ [n(hP − ε), n(hP + ε)],
i=1
−n(hP +ε)
[2
also
, 2−n(hP −ε) ]
Wir können also für genügend großes n mit beliebig großer Sicherheit davon
ausgehen, daß die (a priori) Wahrscheinlichkeit der empfangenen Nachricht die
exponentielle Größenordnung 2−nhP hat, unabhängig von der konkret erhaltenen Botschaft.
Natürlich kann man die Frage stellen, welchen Sinn es macht, ziemlich genau zu wissen, welche Wahrscheinlichkeit ursprünglich dafür bestand, genau die
eben empfangene Botschaft zu erhalten. Der Punkt ist, daß diese Information sehr genau die Abschätzung der Anzahl der realistischerweise als möglich
anzusehenden Botschaften (typischen Botschaften) erlaubt:
Bis auf eine beliebig geringe Restwahrscheinlichkeit wissen wir ja, daß [ξ1 , ξ2 , ..., ξn ]
zu der Menge
(n)
Atyp,ε := {[i1 , i2 , ..., in ] ∈ An : P[i1 ,i2 ,...,in] ∈ [2−n(hP +ε) , 2−n(hP −ε) ]}
52
gehört. Nun gilt
(n)
#Atyp,ε
X
=
1
(n)
[i1 ,i2 ,...,in ]∈Atyp
= 2n(hP +ε)
X
2−n(hP +ε)
(n)
[i1 ,i2 ,...,in ]∈Atyp
≤ 2n(hP +ε)
≤ 2n(hP +ε)
X
P[i1 ,i2 ,...,in]
(n)
[i1 ,i2 ,...,in ]∈Atyp
X
P[i1 ,i2 ,...,in ]
[i1 ,i2 ,...,in ]∈An
= 2n(hP +ε) .
(n)
Die typische Menge Atyp,ε , zu der aller Voraussicht nach der n-Block [ξ1 , ξ2 , ..., ξn ]
gehört, hat also für große n eine exponentiell große Anzahl von Elementen der
Größenordnung 2nhP .
Die Gesamtanzahl der Blöcke in An war dn = 2n log d . Nun gilt
Lemma 41 Wenn P die Gleichverteilung auf A ist, ist hP = log2 d, in allen
übrigen Fällen ist 0 ≤ hP < log d.
B e w e i s. Wir können uns auf den Fall beschränken, daß alle pj > 0
sind, andernfalls müssen wir nur d durch einen kleineren Wert (die Anzahl der
positiven pj ) ersetzen. Aufgrund der Jensenschen Ungleichung (s. Anhang) gilt,
falls alle pj > 0
−hP
=
d
X
pj log2 pj =
j=1
d
X
j=1
pj
1
− log2
pj


d
X
pj 
≥ − log2 
= − log2 d,
p
j=1 j
denn die Funktion − log2 ist streng konvex. Die Gleichheit gilt genau dann,
wenn alle Werte p1j identisch sind, also pj = d1 gilt (Gleichverteilung).
Das bedeutet, daß in allen Fällen, außer dem daß sämtliche Buchstaben in
A gleichwahrscheinlich sind, die Menge der typischen Blöcke eine exponentiell
kleinere Anzahl von Elementen enthält, als die Gesamtmenge An .
Um ein beliebiges Element von An eindeutig zu spezifizieren, werden asymptotisch n log2 d Bit benötigt. Um ein Element der typischen Menge zu spezifizieren, kann man ihre Elemente durchnumerieren, und dann die entsprechende
Nummer angeben, wozu man asymptotisch nhP Bit benötigt.
Ein verlustfreies Datenkompressionsverfahren könnte also folgendermaßen
funktionieren:
53
(n)
1. Bestimmen der typischen Menge Atyp,ε und Zuweisung eines Index zu
jedem Element (z.B. lexikographische Ordnung)
(n)
2. Einlesen von [ξ1 , ξ2 , ..., ξn ] und prüfen, ob es zu Atyp,ε gehört.
a) Wenn nicht, speichere Flag, daß Kompression nicht erfolgt (benötigt 1 Bit)
plus die ungekürzten n log2 d Bit, die das Element in An eindeutig festlegen.
b) Wenn ja, speichere Flag, daß Kompression erfolgreich plus n(hP + ε) Bit,
(n)
die das Element in Atyp spezifizieren.
Während man ohne Kompression also stets n log d benötigt, braucht man
mit einem solchen Algorithmus niemals mehr als ein zusätzliches Bit, aber in
nahezu allen Fällen reduziert sich die Anzahl der benötigten Speicherplätze
hP
um den Faktor log
< 1 (falls P nicht die Gleichverteilung ist, bei der keine
2d
verlustfreie Kompression möglich ist).
Bemerkung: Der beschriebene Algorithmus zeigt nur die theoretische Möglichkeit verlustfreier Datenkompression. Tatsächlich ist er in der beschriebenen Form
völlig unpraktikabel, da insbesondere der 1. Schritt exponentiell aufwendig ist
(sowohl vom Zeitbedarf als auch vom Speicherbedarf ). Man muß die gesamte
exponentiell große typische Menge generieren. Tatsächlich verwendet man AlhP
), jedoch nur
gorithmen, die dasselbe leisten (Kompression um den Faktor log
2d
einen im wesentlichen linear mit der Blocklänge wachsenden Aufwand erfordern
(Lempel-Ziv-Algorithmus —>.zip-Fileformat oder sog. arithmetische Kodierer).
Aus dem oben angeführten Shannonschen Satz folgt auch sehr leicht, daß
hP
eine asymptotisch bessere verlustfreie Kompression als um den Faktor log
2d
unmöglich ist (insbesondere bietet die Gleichverteilung überhaupt keinen Ansatz für Datenkompression). Es gilt nämlich
Satz 42 Es sei ε > 0 und {B (n) } eine Folge von Mengen mit B (n) ⊆ An , #B (n) ≤
2n(hp −ε) . Dann gilt
P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) ) −→ 0.
n→∞
B e w e i s. Da nach dem oben bewiesenen Shannonschen Satz die Folge der
54
(n)
(n)
Mengen Atyp die Eigenschaft P ([ξ1 , ξ2 , ..., ξn ] ∈ Atyp,ε/2 ) −→ 1 hat, gilt
n→∞
P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) )
(n)
(n)
= P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) ∩ Atyp,ε/2 ) + P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) \Atyp,ε/2 )
(n)
(n)
≤ P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) ∩ Atyp,ε/2 ) + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 )
X
(n)
=
pi1 pi2 ...pin + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 )
(n)
[i1 ,...,in ]∈B (n) ∩Atyp,ε/2
≤
X
(n)
(n)
[i1 ,...,in ]∈B (n) ∩Atyp,ε/2
2−n(hp −ε/2) + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 )
(n)
≤ #B (n) · 2−n(hp −ε/2) + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 )
(n)
≤ 2n(hp −ε) 2−n(hp −ε/2) + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 )
(n)
= 2−nε/2 + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 ),
und beide Summanden in der letzten Zeile gehen für n → ∞ gegen 0.
Jede Menge von Blöcken der Länge n mit asymptotisch positiver Wahrscheinlichkeit enthält also mindestens (asymptotisch) 2nhP verschiedene Blöcke, zur
Spezifizierung eines einzelnen Elementes benötigt man daher mindestens nhP
hP
Bit. Somit ist eine stärkere verlustfreie Komprimierung als um den Faktor log
2d
nicht möglich.
Wir sehen, daß die Information über die Wahrscheinlichkeiten pj der einzelnen Buchstaben j pro Buchstabe log2 d − hP Bit wert ist, also sind noch hP Bit
pro Buchstabe an Information nötig, um (asymptotisch) die Buchstabenfolge zu
spezifizieren, denn insgesamt benötigt man log2 d Bit, um einen Buchstaben aus
einem d-Alphabet anzugeben.
In diesem Sinne sieht man die Gleichverteilung als die gegebene Wahrscheinlichkeitsverteilung an, wenn nichts weiter über die Buchstabenstatistik bekannt
ist. Sie hat die maximal mögliche Entropie (Entropie als ’Maß für die Ungewißheit’). Hingegen ist die Entropie genau dann 0, falls eines der pj = 1 ist
(Einpunktverteilung). In diesem Fall ist jeder einzelne Buchstabe gewiß j. (Dann
enthält die Folge der Buchstaben keinerlei neue Information.)
Wie festgestellt, ist das oben angegebene Kompressionsschema nicht praktikabel, sondern nur von theoretischem Wert, weil es die prinzipielle Möglichkeit
hP
der Kompression um den Faktor log
belegt.
2d
Ein praktisch verwenbares -und oft eingesetzter- verlustfreies Kompressionsverfahren ist der Lempel-Ziv-Algorithmus. Wir betrachten den Fall, daß
A = {0, 1}, also daß eine binäre Datenquelle (z.B. übliche Zeichen im ASCIICode) komprimiert werden soll. Der Algorithmus funktioniert wie folgt:
1. Initialisiere eine ausreichend große Liste L von 0 − 1−strings variabler
Länge und eine Stringvariable v sowie zwei integer-Variable l, p
55
2. Speichere den leeren String o als erstes Listenelement in L. Setze v = o,
l = 1, p = 1
3. Lies das nächste ξi ein.
4. Bilde v = v + ξi (Verkettung)
5. Ist v ∈ L? Wenn ja, setze p = IndexL (v) (Position von v in L), gehe zu
3., sonst weiter
6. Füge v an das Ende der Liste an
7. Ausgeben von p mit l binären Stellen
8. Ausgeben von ξi
9. Setze v = o, p = 1
10. Wenn Länge(L) (Anzahl der Einträge) größer gleich 2l , dann setze l =
l+1
11. Gehe zu 3.
Wie wir sehen, arbeitet der Algorithmus sequentiell, d.h. er erzeugt den
komprimierten Code schrittweise aus dem Input, und universell, d.h. er benutzt
die Buchstabenverteilung {pj } gar nicht.
Betrachten wir seine Arbeitsweise an einem Beispiel: Am Input liege die
Folge [101110110011111110...] an.
-(Initialisierung)
-1 wird eingelesen, v → [1], ist nicht in L, daher: L → [o, [1]]
-Ausgabe von 1 (p =Position des Leerstrings in L), einstellig (l = 1)
-Ausgabe von 1 (ξ1 )
-v → o, p → 1, l → 2 (ab jetzt zweistellig)
-0 wird eingelesen, v → [0], nicht in L, L → [o, [1], [0]]
-Ausgabe [01] (p zweistellig)
-Ausgabe 0 (ξ2 )
-v → o, p → 1
-1 wird eingelesen, v → [1], ist in L, Position p → 10 (binär 2)
-1 wird eingelesen, v → [11], ist nicht in L, daher: L → [o, [1], [0], [11]]
-Ausgabe [10] (p zweistellig)
-Ausgabe 1 (ξ4 )
-v → o, p → 1, l → 3
-1 wird eingelesen, v → [1], ist in L, Position p → 10 (binär 2)
-0 wird eingelesen, v → [10], ist nicht in L, daher: L → [o, [1], [0], [11], [10]]
-Ausgabe [010] (p dreistellig)
-Ausgabe 0 (ξ6 )
-v → o, p → 1
u.s.w.
Der Gesamtoutput ist: [11010101010010000111100110000...]
Man überlegt sich leicht, daß die Eingangsfolge durch einen inversen Algorithmus eindeutig aus dem Output des Lempel-Ziv-Verfahrens rekonstruierbar
ist.
In den ersten Schritten ist die ausgegebene Zeichenfolge länger als der bisher
eingelesene Input. Aber nach und nach füllt sich L mit den im Input tatsächlich
56
vorkommenden Blöcken der Länge n. Wenn die Buchstaben nicht gerade gleich(n)
verteilt sind, werden dort zunächst nur die Blöcke aus Atyp auftauchen (und
erst viel später diejenigen aus dem Komplement). Bei der Ausgabe wird nur
der Index des jeweiligen Blockes erzeugt und in einer Länge der Größenordnung
(n)
log2 #Atyp ausgegeben, also etwa der Länge nhP , sowie das jeweils neue Bit ξi .
Man kann auch streng zeigen, daß dieser Algorithmus eine beliebige Quelle zufälliger unabhängiger Symbole asymptotisch optimal komprimiert (in dem
Sinne, daß er die durch die Entropie bestimmte maximale asymptotische Kompressionsrate erreicht), und sogar im abhängigen Fall ist das unter schwachen
Voraussetzungen richtig.
9
Das Lemma von Borel-Cantelli und die fast
sichere Konvergenz der Häufigkeiten
Nach diesem ersten Abstecher in das Wechselspiel von Stochastik und Informationstheorie wenden wir uns einer einfachen, aber wichtigen Aussage der
Wahrscheinlichkeitstheorie zu, die es uns erlauben wird, zu zeigen, daß bei
(vollständig) unabhängiger Wiederholung desselben Zufallsexperiments die Häufigkeiten der Elementarereignisse gegen ihre jeweiligen Wahrscheinlichkeiten konvergieren. Dazu betrachten wir einen meßbaren Raum [M, A]TundSeine Folge
∞
∞
{Ai }∞
i=1 von Mengen ausA (Ereignissen). Die Menge W =
j=i Aj ist
i=1
dann offenbar wieder meßbar. Ein Elementarereignis m ∈ M liegt genau dann
in W , wenn es in unendlich vielen der Ai liegt. Das Ereignis W ist also mit dem
Eintreten unendlich vieler der Ai identisch.
Beispiel: Betrachten Sie den meßbaren Raum [R, B(R)] und die Folge der
Ereignisse
Ai := {x ∈ R : die i-te Nachkommastelle von x ist 7}.
Dann ist die betreffende Menge W die Menge derjenige reellen Zahlen, die unendlich viele 7’en in ihre Dezimalentwicklung aufweisen (es ist nicht schwer
zu zeigen, daß fast alle -bzgl. des Lebesgueschen Maßes- reellen Zahlen diese
Eigenschaft haben).
Satz 43 (Lemma von Borel und Cantelli) Es sei P ein Wahrscheinlichkeitsmaß auf dem meßbaren Raum [M, A] und {Ai }∞
i=1 eine Folge von Ereignissen ausA. Dann gilt:
T
P
∞ S∞
a) Wenn i P (Ai ) < +∞, dann ist P
i=1
j=i Aj = 0.
P
b) Wenn die Ereignisse Ai vollständig unabhängig sind, und
i P (Ai ) =
+∞, dann
ist
T
∞ S∞
P
i=1
j=i Aj = 1.
B e w e i s.
57
S∞
a) Die Folge von Ereignissen j=i Aj ist monoton fallend. Daher gilt




∞
∞ [
∞
[
\
P
Aj  = lim P  Aj  .
i=1 j=i
i→∞
j=i
S
P∞
∞
Nun ist P
≤ j=i P (Aj ), und wegen der vorausgesetzten Konverj=i Aj
P∞
P
genz von i P (Ai ) konvergiert die Restsumme j=i P (Aj ) gegen Null.
b) Es gilt

c 

 
∞ [
∞
∞
∞
\
[
[
P
Aj  = 1 − P   Aj  
i=1 j=i
T∞

= 1−P 
i=1
j=i
∞ \
∞
[
i=1 j=i

Acj  .
Die Folge von Ereignissen j=i Aj ist monoton wachsend, daher ist




∞ \
∞
∞
[
\
P
Acj  = lim P  Acj  .
i=1 j=i
i→∞
j=i
T
T∞
TN
∞
c
Die Ereignisfolge j=i Acj ist monoton fallend gegen j=i Acj , daher ist P
A
j=i j =
T
Q
Q
N
∞
N
c
c
aufgrund der
= limN →∞ j=i P Acj =
limN →∞ P
j=i P Aj
j=i Aj
vorausgesetzten vollständigen
Unabhängigkeit.
Aus
der
Analysis
ist bekannt,
P
P∞
c
daß aus der Divergenz von ∞
(also
1
−
P
A
P
(A
)
j = +∞, das
j
j=1
j=1
Q
c
hatten wir vorausgesetzt) die Divergenz des unendlichen Produkts ∞
j=1 P Aj ,
Q∞
also j=i P Acj = 0 für alle i, folgt. Also gilt




∞ [
∞
∞
\
\
P
Aj  = 1 − lim P  Acj 
i→∞
i=1 j=i
= 1 − lim
i→∞
j=i
∞
Y
j=i
= 1 − 0 = 1.
P Acj
Bemerkung: Im Falle (vollständig) unabhängiger Mengen Ai besagt also das
Lemma von Borel-Cantelli, daß
genau dann fast sicher unendlich viele der ErP∞
eignisse Ai eintreten, wenn
i=1 P (Ai ) = +∞. Daß dieses Kriterium für
abhängige Ereignisse nicht ausreichend ist, sieht man leicht im Falle der Gleichverteilung auf {0, 1} am Beispiel der konstanten Mengenfolge Ai ≡ {0}. Es
treten nur für das Elementarereignis 0 unendlich viele der Ai ein, während für
58
das Elementarereignis 1 kein einziges Ai eintritt. Punkt a) des Lemmas benötigt
die Unabhängigkeit, wie gesehen, nicht.
Wir betrachten nun erneut den einfachen Fall von (vollständig) unabhängigen identisch verteilten Bernoulli-Zufallsgrößen ξi (d.h. Zufallsgrößen mit nur
zwei möglichen Werten 0 und 1, wobei p die 1-Wahrscheinlichkeit sein soll). Wir
gehen aber diesmal davon aus, daß eine abzählbar-unendliche Kollektion solcher
Größen vorliegt, also i = 1, 2, .... Wir wissen, daß die Summe der ersten n dieser ξi (also die Häufigkeit der 1) binomialverteilt gemäß B(n, p) ist und hatten
gesehen, daß für jedes ε > 0 die Aussage
n
P (|
1X
ξi − p| > ε) −→ 0
n→∞
n i=1
richtig ist (Schwaches Gesetz der großen Zahlen).
Definition 44 Eine Folge von Zufallsgrößen ζi , i = 1, 2, ... (über einem Wahrscheinlicheitsraum [M, A, P ]) konvergiert in Wahrscheinlichkeit (oder auch:
dem Maße nach) gegen eine Zufallsgröße ζ, wenn für alle ε > 0 die Beziehung
P (|ζi − ζ| > ε) −→ 0
i→∞
erfüllt ist.
Im Sinne dieser Definition ist das Schwache Gesetz der großen Zahlen also
eine Aussage
Pn über die Konvergenz in Wahrscheinlichkeit der Folge der Zufallsgrößen n1 i=1 ξi gegen die deterministische Größe p.
Die Konvergenz in Wahrscheinlichkeit ist i.A. schwächer als die folgende
Eigenschaft:
Definition 45 Eine Folge von Zufallsgrößen ζi , i = 1, 2, ... (über einem Wahrscheinlicheitsraum [M, A, P ]) konvergiert fast sicher gegen eine Zufallsgröße
ζ, wenn es eine Menge K ∈ A mit P (K) = 1 gibt, so daß die Beziehung
lim ζi (m) = ζ(m)
i→∞
für alle m ∈ K erfüllt ist.
Beispiel: Wir betrachten wieder den Wahrsch.-Raum [[0, 1], B(R)∩[0, 1], µ L |[0,1] ],
also die Gleichverteilung auf dem Einheitsintervall. Wir definieren die Folge der
ζi durch
m
i+1−2m
1 für x ∈ [ i−2
]
2m ,
2m
ζi (x) =
, i ∈ {2m , 2m +1, ..., 2m+1 −1}, m = 0, 1, 2, ... .
0 sonst
Dann ’scannt’ die Folge das gesamte Intervall [0, 1] immer wieder lückenlos
durch, für jedes x wird die Zufallsgröße unendlich oft 1 (aber immer seltener).
Man sieht leicht, daß die Folge der ζi zwar in Wahrscheinlichkeit, jedoch eben
nicht fast sicher gegen 0 konvergiert.
Die fast sichere Konvergenz ist echt stärker:
59
Satz 46 Aus der fast sicheren Konvergenz einer Folge von Zufallsgrößen ζi
gegen eine Zufallsgröße ζ folgt die Konvergenz in Wahrscheinlichkeit.
B e w e i s. Wir wählen ε > 0. Dann gibt es nach Definition der fast sicheren
Konvergenz eine Menge K ∈ A mit P (K) = 1, so daß limi→∞ ζi (m) = ζ(m)
für alle m ∈ K erfüllt ist. Folglich liegt jedes m ∈ K nur in endlich vielen
der
T∞ S ∞
Mengen Ai := {m ∈ M : |ζi (m) − ζ(m)| > ε}, also ist K ∩
j=i Aj = ∅.
i=1
T
S∞
∞ S∞
Da K das Maß 1 hat, gilt P
j=i Aj eine
j=i Aj = 0. Nun ist Bi :=
i=1
absteigende Mengenfolge, daher erhalten wir limi→∞ P (Bi ) = 0, und da Ai ⊆ Bi
folgt nun unmittelbar die Behauptung limi→∞ P (|ζi − ζ| > ε) = 0.
Es ist also nicht ohne weiteres klar, ob für unsere Folge von Bernoulli-Größen
P
ξi die stärkere fast sichere Konvergenz der relativen Häufigkeiten n1 ni=1 ξi gegen p gilt, aus dem Schwachen Gesetz der großen Zahlen folgt dies jedenfalls
nicht. Es folgt aber aus dem Satz über große Abweichungen unter Benutzung
des Borel-Cantelli-Lemmas:
Satz 47 (Starkes Gesetz der großen Zahlen für Bernoulli-Größen) Es
sei {ξi }∞
i=1 eine vollständig unabhängige Folge von Bernoulli-Größen über dem
selben Wahrscheinlichkeitsraum [M, A, P ] mit Erfolgswahrscheinlichkeit p. Dann
gilt für P -fast alle m die Beziehung
n
1X
ξi (m) = p.
n→∞ n
i=1
lim
B e w e i s. Im Satz über große Abweichungen haben wir gezeigt, daß für
beliebiges
0 < d < 1 und D ∈ N existieren, derart daß
P ε > 0 Konstanten
1
P | n1 ni=1 ξi − p| > ε < dn für n >
D erfüllt ist. Wir setzen ε = k , k ∈
Pn
P
1
1
N. Also ist n P | n i=1 ξi − p| > k < +∞. Daraus folgt mit Punkt a) im
Lemma
daß für jedes k ∈ N die Menge U (k) := {m ∈ M :
Pn von Borel-Cantelli,
| n1 i=1 ξi (m) S
− p| > k1 für unendlich viele n ∈ N} das Maß 0 hat. Folglich
ist auch U := k∈N Uk eine P -Nullmenge und es gilt P (U c ) = 1. Sei m ∈ U c
fixiert
/ U (k) nach Voraussetzung,
gilt
P und k ∈ N beliebig gewählt. Da m ∈
P
| n1 ni=1 ξi (m) − p| > k1 nur für endlich viele n ∈ N, d.h. | n1 ni=1 ξi (m) −
p| P
≤ k1 ab einem (vom m und k abhängigen) Index n0 . Das bedeutet aber, daß
n
1
i=1 ξi (m) für dieses m gegen p konvergiert.
n
Es gibt also
eine meßbare Menge (U c ) mit Maß 1, so daß für alle P
m ∈ U c der
n
1 Pn
1
Mittelwert n i=1 ξi (m) gegen p konvergiert. Es gilt also limn→∞ n i=1 ξi = p
fast sicher.
Wir betrachten nun den Fall unabhängiger beschränkter identisch verteilter
Zufallsgrößen ξi , i = 1, 2, ....
Satz 48 (Starkes Gesetz der großen Zahlen für beschränkte Zufallsgrößen)
Es sei ξi , i = 1, 2, ..., eine Folge unabhängiger identisch verteilter beschränkter reellwertiger Zufallsgrößen über einem Wahrscheinlichkeitsraum [M, A, P ].
60
Dann gilt P -fast sicher
n
1X
ξi = Eξ1 .
lim
n→∞ n
i=1
B e w e i s. 1. Wir betrachten zunächst den Fall nicht-negativer Zufallsgrößen. Die Größen seien beschränkt durch die reelle Zahl C. Wir definieren
ξik,l := 1{m∈M :ξ (m)∈[l2−k C,(l+1)2−k C)} , k ∈ N, l ∈ {0, 1, 2, 3, ..., 2k − 1} . Dann gilt
i
für beliebiges k ∈ N
k
2X
−1
k
l2−k Cξik,l ≤ ξi .
ξi :=
l=0
{ξik,l }∞
i=1
Wir fixieren k und l. Die Folge
ist als Folge von aus {ξi }∞
i=1 abgeleiteten
Zufallsgrößen vollständig unabhängig und die Elemente sind identisch verteilte Bernoulli-Größen. Wir erhalten aus Satz 47, daß P -fast sicher die folgende
Beziehung gilt
n
1 X k,l
ξi = P (ξ1 ∈ [l2−k , (l + 1)2−k )) .
n→∞ n
i=1
lim
Die abzählbar vielen Limesbeziehungen (für k ∈ N, l = 0, 1, ..., 2k −1) gelten fast
sicher gleichzeitig (der Durchschnitt von endlich oder abzählbar vielen Mengen
vom Maß 1 hat wieder das Maß 1). Also gilt für P -fast alle m ∈ M für alle
k∈N
n
lim
n→∞
=
=
k
2X
−1
l=0
Eξ1k .
1X k
ξ (m)
n i=1 i
(9)
l2−k CP (ξ1 ∈ [l2−k , (l + 1)2−k ))
Die Folge {ξik }∞
k=1 konvergiert für jedes i ∈ N punktweise monoton wachsend
gegen ξi . Außerdem gilt
n
0 ≤
n
n
1X
1X k
1X
ξi (m) −
ξi (m) =
(ξi (m) − ξik (m))
n i=1
n i=1
n i=1
n
≤
1 X −k
2 C = 2−k C.
n i=1
61
Daraus folgt
n
1X k
ξi (m)
n→∞ n
i=1
lim
n
≤ lim inf
n→∞
1X
ξi (m)
n i=1
n
≤ lim sup
n→∞
1X
ξi (m)
n i=1
n
≤
1X k
ξi (m) + 2−k C.
n→∞ n
i=1
lim
Wegen (9) erhalten wir
n
Eξ1k
≤ lim inf
n→∞
1X
ξi (m)
n i=1
n
≤ lim sup
n→∞
1X
ξi (m)
n i=1
≤ Eξ1k + 2−k C.
Aus dem Satz von Lebesgue über majorisierte Konvergenz (Anhang) ergibt sich,
daß das Integral (Erwartungswert) der durch C beschränkten Folge
ξ1k für k →
1 Pn
∞ gegen Eξ1 konvergiert. Also gilt P -fast sicher Eξ1 = lim n i=1 ξi (m).
n→∞
2. Wenn die ξi auch negative Werte annehmen können, zerlegen wir ξi =
ξi+ − ξi− .
Pn
Pn
Dann gilt Eξ1+ = lim n1 i=1 ξi+ (m), Eξ1− = lim n1 i=1 ξi− (m), also
n→∞
Eξ1
n→∞
= E(ξ1+ − ξ1− ) = Eξ1+ − Eξ1−
n
n
1X
1X +
= lim
(ξi − ξi− ) = lim
ξi .
n→∞ n
n→∞ n
i=1
i=1
10
Das Starke Gesetz der großen Zahlen für unabhängige Zufallsgrößen
Das im vorangehenden Abschnitt bewiesene Resultat für beschränkte Zufallsgrößen folgte sehr einfach aus dem Satz über große Abweichungen durch Anwendung des Lemmas von Borel und Cantelli. Das Starke Gesetz der großen
Zahlen gilt jedoch für unabhängige identisch verteilte Zufallsgrößen ganz generell ohne weitere Annahmen, sofern der Erwartungswert überhaupt existiert (in
der Formulierung des Satzes taucht der Erwartungswert ja als Limesgröße für
die Mittelwerte explizit auf).
62
Bemerkung. Die Nichtexistenz des Erwartungswertes kann zweierlei bedeuten: Entweder ist das Integral sowohl des positiven als auch des negativen Teils
der Zufallsgröße unendlich. In diesem Fall läßt sich keine generelle Aussage über
das asymptotische Verhalten des Mittelwertes treffen. Wenn etwa die ξ i Cauchyverteilt sind, dann ist der Mittelwert wiederum Cauchy-verteilt und pegelt sich
überhaupt nicht auf irgendeinen Limes ein (vgl. das Ergebnis der Simulation in
der Computer-Übungsaufgabe Blatt 8).
Wenn jedoch nur einer der beiden Anteile ein unendliches Integral besitzt,
dann ist es nicht schwer zu zeigen, daß der Mittelwert (je nachdem, ob der
positive oder negative Teil der Zufallsgröße einen unendlichen Erwartungswert
hat) gegen plus oder minus Unendlich strebt.
Dieses Resultat wurde von A. Kolmogorov gezeigt. Wir folgen hier einem
vergleichsweise einfachen Beweis, der auf Kayhan N. Etemadi zurückgeht und
zudem nur die paarweise Unabhängigkeit der Zufallsgrößen benötigt.
Der Beweis ist nicht übermäßig schwer zu verstehen. Zunächst ein paar Vorbemerkungen zur Beweisstrategie.
Der Grundgedanke besteht darin, die Zufallsgröße in einen beschränkten
und einen unbeschränkten Anteil zu zerlegeṅ: ξi = ξi 1ξi ≤C + ξi 1ξi >C . Für
den beschränkten Anteil ist der Beweis (wie wir gesehen haben) einfach, der
unbeschränkte Anteil bereitet erhebliche Probleme. Diese Probleme mit dem
unbeschränkten Teil lassen sich mildern (auf Kosten der Einfachheit im beschränkten Fall), dadurch daß man die Schnittzahl C nicht konstant für alle i
wählt, sondern mit i linear wachsen läßt: Ci = i. Wir wählen also die Zerlegung
ξi = ξbi + ξˇi , wobei ξbi := ξi 1ξi ≤i , ξˇi := ξi 1ξi >i . Wir werden sehen, daß aus der
Existenz des Erwartungswertes mit Hilfe von Borel-Cantelli folgt, daß fast sicher
für genügend großes i die Zufallsgrößen ξi und ξbi übereinstimmen, woraus sich
ergibt, daß man statt des Mittelwertes der ξi nur den der beschränkten Größen
ξbi untersuchen muß. Diese Größen ξbi sind nun leider nicht mehr gleichmäßig
beschränkt. Nun läßt sich aber ausnutzen, daß der Mittelwert eine ’träge’ Zufallsgröße ist, der nur langsam auf die gelegentlich auftauchenden sehr großen
Werte reagiert. Daher reicht es, den Mittelwert nicht für alle n zu betrachten,
sondern nur für genügend dichte Teilfolgen. Für diese Teilfolgen können wir die
Chebyshevsche Ungleichung heranziehen -in ähnlicher Weise, wie beim Beweis
des Schwachen Gesetzes der großen Zahlen (nur etwas trickreicher).
Satz 49 (Starkes Gesetz der großen Zahlen für paarweise unabhängige Zufallsgrößen)
Es Sei {ξi }∞
i=1 eine Folge identisch verteilter paarweise unabhängiger reeller
Zufallsgrößen über demselben Wahrscheinlichkeitsraum [M, A, P ], deren Erwartungswert existiert. Dann gilt P -fast sicher
n
1X
ξi = Eξ1 .
i→∞ n
i=1
lim
B e w e i s. 1. Genau wie im Beweis des vorangegangenen Satzes (Punkt 2)
sehen wir, daß es genügt positive Zufallsgrößen zu betrachten.
2. Wir setzen ξbi := ξi 1ξi ≤i . Dann existiert für P -fast alle m eine natürliche
Zahl N (m), derart daß ξi (m) = ξbi (m) für i ≥ N (m) erfüllt ist.
63
Wir müssen dazu zeigen, daß das Ereignis {ξi (m) > i} fast sicher nur endlich
oft eintritt.PDies folgt nach dem Lemma von Borel-Cantelli aus der Konvergenz
der Reihe i P (ξi > i). Daher genügt es, diese Konvergenz zu zeigen:
∞
X
P (ξi
> i)
i=1
∞
X
=
i=1
∞
X
≤
P (ξ1 > i)
P (ξ1 ≥ i)
i=1
∞
∞ X
X
=
i=1 j=i
∞
X
=
j=1
∞
X
=
j=0
P (j ≤ ξ1 < j + 1)
jP (j ≤ ξ1 < j + 1)
jP (j ≤ ξ1 < j + 1).
Hier haben wir den Satz benutzt, daß bei einer (Doppel)-Reihe aus positiven
Gliedern die Summationsreihenfolge beliebig verändert werden darf. Jeder Summand P (j < ξ1 ≤ j + 1) taucht genau j mal auf. Die letzte Summe läßt sich
auch als Integral über eine Treppenfunktion schreiben (s. Anhang, Definition
des Integrals):
∞
X
P (ξi
> i)
i=1
≤
=
∞
X
j=0
Z
M
jP (j ≤ ξ1 < j + 1)
bξ1 (m)c P (dm).
Hier bezeichnet wieder bxc den größten ganzen Anteil der reellen Zahl x, und
wir haben benutzt, daß wir nach 1. ξ1 als nicht-negativ voraussetzen können.
Wegen bxc ≤ x erhalten wir nun das gewünschte Ergebnis
∞
X
P (ξi
> i)
i=1
≤
=
Z
ξ1 (m)P (dm)
ZM
ξ1 (m)P (dm) = Eξ1 < +∞.
M
64
Also gibt es eine meßbare Teilmenge K von M mit P (K) = 1, so daß für alle
m ∈ K die Zufallsgrößen ξi (m) und ξbi (m) für i ≥ N (m) übereinstimmen. Dann
gilt für jedes m ∈ K
n
1
1X
ξi (m) =
n i=1
n
N (m)−1
X
ξi (m) +
i=1
1
n
n
X
ξi (m).
i=N (m)
Der erste der beiden Summanden konvergiertP
für n → ∞ gegen 0, der zweite
ist nach Definition von N (m) identisch mit n1 ni=N (m) ξbi (m). Also konvergiert
P
für m ∈ K der Mittelwert n1 ni=1 ξi (m) genau dann gegen irgendeinen Limes,
Pn
wenn n1 i=N (m) ξbi (m) gegen denselben Limes konvergiert. Auf genau dieselbe
Pn
Weise können wir bei 1
ξbi (m) die ersten N (m) Glieder wieder anfügen
n
i=N (m)
und sehen, daß es genügt, die fast sichere Konvergenz der Mittelwerte An (m) :=
Pn b
1
i=1 ξi (m) gegen Eξ1 zu beweisen.
n
3. Gemäß der oben skizzierten Beweisstrategie haben wir es nun nur noch
mit beschränkten Zufallsgrößen zu tun (sie sind allerdings nicht mehr identisch
verteilt und nicht gleichmäßig beschränkt, sonst könnten wir nun einfach den
vorangegangenen Satz benutzen). Wir haben bisher die Unabhängigkeit nicht
verwendet.
Da die Zufallsgröße An beschränkt ist, existiert ihre Varianz, und wir erhalten aufgrund der Chebyshevschen Ungleichung für beliebiges ε > 0
P (|An − EAn | ≥ ε) ≤
VarAn
.
ε2
(10)
Nun ist
n
VarAn
= E
=
1X b
(ξi − Eξbi )
n i=1
!2
n
X
1
(ξbi − Eξbi )
E
n2
i=1
!2
.
Die Größen (ξbi − Eξbi ) sind paarweise unabhängig (ξbi ist eine aus ξi abgeleitete
Zufallsgröße, daher sind mit ξi , ξj auch ξbi , ξbj für i 6= j unabhängig. Daher ist
65
E(ξbi − Eξbi )(ξbj − Eξbj ) = 0 für i 6= j und wir erhalten
VarAn
=
=
=
=
=
≤
n
2
1 X b
E ξi − Eξbi
2
n i=1
(11)
n
n
X
1 X
bi ≤ 1
Var
ξ
Eξb2
n2 i=1
n2 i=1 i
n
n
1 X 2
1 X 2
Eξ
1
=
Eξ 1ξ ≤i
ξ
≤i
n2 i=1 i i
n2 i=1 1 1
n Z
1 X
ξ 2 (m)1ξ1 (m)≤i P (dm)
n2 i=1 M 1
Z
n
X
1
2
ξ
(m)
1ξ1 (m)≤i P (dm)
1
n2 M
i=1
Z
1 2
ξ1 (m)1ξ1 (m)≤n P (dm).
n
M
Die Funktionenfolge n1 ξ12 1ξ1 ≤n ≤ n1 ξ1 n = ξ1 ist gleichmäßig nach oben beschränkt durch ξ1 und wegen Eξ1 < +∞ ist ξ1 integrierbar. Daher kann man
nach dem Satz von Lebesgue über majorisierte Konvergenz (Anhang) Integration und die Bildung des Limes für n → ∞ vertauschen. Wir erhalten also
Z
1
lim ξ12 (m)1ξ1 (m)≤n P (dm)
lim VarAn ≤
n→∞
n→∞
n
ZM
1
≤
lim ξ12 (m)P (dm)
n→∞
n
ZM
=
0P (dm) = 0.
M
Wegen der Chebyshevschen Ungleichung (10) gilt also für jedes ε > 0
P (|An − EAn | ≥ ε) −→ 0.
n→∞
Wenn wir zeigen könnten, daß die Größen EAn gegen Eξ1 konvergieren, hätten
wir zumindest schon das Schwache Gesetz der großen Zahlen bewiesen (diesmal
ohne die Existenz der Varianz, aber unter der stärkeren Voraussetzung, daß
die Zufallsgrößen paarweise unabhängig -statt nur unkorreliert- sowie identisch
verteilt sind). Tatsächlich gilt
!
n
n
1X
1X
EAn =
Eξ1 1ξ1 ≤i = E ξ1
1ξ ≤i
n i=1
n i=1 1
n + 1 − dξ1 e
.
= E ξ1 1ξ1 ≤n
n
1e
(Hier bezeichnet dxe die kleinste ganze Zahl ≥ x.) Die Zufallsgröße ξ1 1ξ1 ≤n n+1−dξ
n
ist nach oben beschränkt durch die integrierbare Zufallsgröße ξ1 und konvergiert
66
punktweise gegen ξ1 . Also gilt wieder aufgrund des Satzes über majorisierte
Konvergenz
lim EAn = Eξ1 .
n−∞
4. Wir wollen aber die fast sichere Konvergenz des Mittels An gegen Eξ1 zeigen.
Dazu betrachten
wir zunächst nur eine geeignete Teilfolge, nämlich wir setzen
nk = ak für ein beliebiges a > 1. Dann gilt nach (10) und (11)
∞
X
k=1
nk
∞
1 X 1 X
E ξ12 1ξ1 ≤i
2
2
ε
n
k=1 k i=1
!
nk
∞
1 X
1 X
2
E 2
ξ 1ξ ≤i
ε2
nk i=1 1 1
P (|Ank − EAnk | ≥ ε) ≤
=
k=1
N
=
X
nk + 1 − dξ1 e
1
lim Eξ12
1ξ1 ≤nk
2
ε N →∞
n2k
k=1
N
=
X
1
nk + 1 − dξ1 e
lim Eξ12
1ξ1 ≤nk
2
ε N →∞
n2k
k=1
∞
X
1 2
Eξ
ε2 1
≤
1 2 X 1
Eξ
ε2 1
nk
≤
1 2 X
1
Eξ
.
ε2 1 k
ak − 1
k=1
!
1
nk
≤
1ξ1 ≤nk
!
nk ≥ξ1
k≥1
a ≥ξ1
k≥1
Nun ist ak − 1 zwar für jedes k kleiner als ak , aber der Quotient geht gegen
1, daher gilt für ein passendes C(a)
∞
X
k=1
P (|Ank − EAnk | ≥ ε)
≤
C(a) 2 X −k
Eξ1
a
ε2
k
=
C(a) 2 a−k0 (ξ1 )
Eξ1
,
ε2
1 − a−1
67
a ≥ξ1
k≥1
wobei k0 (ξ1 ) der erste Index ist, so daß ak ≥ ξ1 ist. Also erhalten wir
∞
X
k=1
P (|Ank − EAnk | ≥ ε)
≤
≤
C(a)
Eξ 2 a−k0 (ξ1 )
ε2 (1 − a−1 ) 1
C(a)
Eξ1 < +∞.
2
ε (1 − a−1 )
Daraus folgt mit dem Lemma von Borel-Cantelli, daß das Ereignis {|Ank −
EAnk | ≥ ε} für beliebiges ε > 0 fast sicher nur endlich oft eintritt. Da EAnk
nach 3. gegen Eξ 1 konvergiert, tritt auch das Ereignis {|Ank − Eξ1 | ≥ ε} nur
endlich oft ein. Genau wie im Beweis des vorangegangenen Satzes folgt daraus,
daß die Teilfolge der Ank fast sicher gegen Eξ1 konvergiert.
5. Für beliebiges a > 1 existiert also eine meßbare Menge K(a) ⊆ M mit
P (K(a)) = 1, derart daß Abak c = Abak c (m) für alle m ∈ K(a) gegen Eξ1
konvergiert.
n ∈ N bezeichnen wir mit k(n) dasjenige k, für das
k
Für beliebiges
a ≤ n ≤ ak+1 gilt (es kann mehrere solche k geben, dann wählen wir das
kleinste). Die Folge k(n) geht für n → ∞ gegen Unendlich.
Wir erhalten
Ak(n)
=
=
=
Also erhalten wir
1
ak(n)
n
ak(n)
k(n)
baX
c
i=1
n
X
1
ξbi ≤ k(n) ξbi
a
i=1
An ≤ 1
ak(n)
ak(n)+1
Ak(n)+1 .
ak(n)
bak(n)+1
X c
i=1
ξbi
k(n)+1 ak(n)
a
Ak(n) ≤ An ≤
Ak(n)+1
n
n
und daraus
ak(n) − 1
ak(n)+1 + 1
A
≤
A
≤
Ak(n)+1 .
n
k(n)
ak(n)+1 + 1
ak(n) − 1
Die linke Seite konvergiert, falls m ∈ K(a), für n → ∞ gegen a−1 Eξ1 , die rechte
gegen aEξ1 und wir erhalten
a−1 Eξ1 ≤ liminfAn (m) ≤ limsupAn (m) ≤ aEξ1 , m ∈ K(a).
n→∞
n→∞
Nun wählen wir noch eine Folge aj & 1. Dann gilt für W :=
j→∞
Aussage P (W ) = 1 und für m ∈ W gilt
Eξ1 ≤ liminfAn (m) ≤ limsupAn (m) ≤ Eξ1 ,
n→∞
n→∞
68
T
j
K(aj ) die
also existiert für m ∈ W der Grenzwert limn→∞ An (m) = Eξ1 .
Unter 2. hatten wir gezeigt, daß es eine Menge K ⊆
PM mit P (K) = 1 gibt,
auf der An genau dann konvergiert, wenn das Mittel n1 ni=1 ξi konvergiert. Nun
hat die Menge K ∩ W volles Maß und dort gilt
n
1X
ξi (m) = lim An (m) = Eξ1 , m ∈ K ∩ W.
n→∞ n
n→∞
i=1
lim
Wir haben eben das Starke Gesetz der großen Zahlen für reelle (also eindimensionale) paarweise unabhängige und identisch verteilte Zufallsgrößen gezeigt. Der mehrdimensionale Fall ist ein einfaches Korrolar:
Satz 50 (StGdgZ, mehrdimensional) Sei {ξi }∞
i=1 eine Folge identisch verteilter paarweise unabhängiger Zufallsgrößen mit Werten in [Rd , B(Rd )] über
demselben Wahrscheinlichkeitsraum [M, A, P ], deren Erwartungswert existiert.
Dann gilt P -fast sicher
n
1X
ξi = Eξ1 .
lim
i→∞ n
i=1
B e w e i s. Wir bezeichnen für i ∈ N mit ξi,j , 1 ≤ j ≤ d, die Komponenten
der i-ten Zufallsgöße. Dann sind für fixiertes j die Zufallsgrößen ξi,j , i ∈ N,
paarweise unabhängig und identisch verteilt mit Erwartungswert Eξ1,j . Also
gilt nach dem vorangegangenen Resultat P -fast sicher
n
1X
lim
ξi,j = Eξ1,j , 1 ≤ j ≤ d.
i→∞ n
i=1
Also gilt auch P -fast sicher
n
lim
i→∞
1X
ξi = Eξ1 ,
n i=1
denn die Konvergenz einer Folge von Vektoren ist gleichbedeutend mit der Konvergenz sämtlicher Komponenten.
11
Einige Grundbegriffe der Mathematischen Statistik
Wahrscheinlichkeitstheorie und Statistik besitzen einen gemeinsamen Ursprung.
Rein wissenschaftlich gesehen ist dieser gemeinsame Ausgangspunkt das Gesetz
der großen Zahlen. Historisch gesehen gab das Bemühen, aus Datenerhebungen
Schlüsse über den Zustand des Gemeinwesens, über Zusammenhänge und Entwicklungstendenzen zu ziehen, entscheidende Impulse für die Entwicklung der
69
klassischen Wahrscheinlichkeitstheorie. Solche Erhebungen waren von erheblicher Bedeutung für die sich entwickelnden modernen Staaten mit ihren u.U.
vielen Millionen Bürgern. So war Statistik zunächst Staat-istik, darin liegt
auch der moderne etymologische Ursprung des Begriffs (statistique → l’état,
bzw. die latinisierte Form), und er taucht nicht zufällig zuerst in Frankreich auf.
In gewisser Weise sind die typischen Fragestellungen in Wahrscheinlichkeitstheorie und Statistik reziprok zueinander: Während die Wahrscheinlichkeitstheorie (zumindest in sehr vielen Fällen) aus Informationen über die zugrundeliegende (theoretische) Verteilung Informationen über die Realisierungen dieser
Verteilungen abzuleiten sucht, geht die Statistik von Erhebungen (Stichproben, Zahlenstatistiken) aus, um daraus Informationen über die zugrundeliegenden Wahrscheinlichkeitsverteilungen und ihre Struktur (z.B. Abhängigkeiten:
’Korrelationen’) zu gewinnen, also ein wahrscheinlichkeitstheoretisches Modell.
Natürlich sind diese Aussagen nicht völlig absolut zu nehmen, die ’Kompetenzbereiche’ gehen teilweise ineinander über, aber in der Grundtendenz ist es so.
Die Tatsache, daß jeweils der Begriff ’Information’ auftaucht, verweist auf den
engen Zusammenhang der drei Disziplinen Wahrsdcheinlichkeitstheorie, Mathematische Statistik und Informationstheorie.
Jedenfalls besteht Statistik im mathematischen Sinne nicht schlichtweg in
der Auflistung endloser Zahlenkolonnen und bestenfalls der Berechnung einiger Mittelwerte und Häufigkeiten, sondern stellt die mathematischen Methoden
bereit, aus solchen Daten möglichst zuverlässige Aussagen im schon genannten Sinne zu gewinnen. Grundlegender Ausgangspunkt sind dabei die Gesetze
der Wahrscheinlichkeitstheorie, insbesondere natürlich das Gesetz der großen
Zahlen (dessen Gültigkeit Statistik erst möglich und sinnvoll macht) und der
zentrale Grenzwertsatz, der die besondere Rolle der Normalverteilung in der
Mathematischen Statistik begründet.
Wir starten also mit einer Menge von konkreten Daten x = (x1 , x2 , ..., xn )
aus einer Gesamtheit möglicher Daten [M n , A⊗n ], nichts anderes als ein meßbarer (Produkt-)Raum also, der in der Statistik Stichprobenraum heißt. Das
beobachtete Elementarereignis heißt nun Stichprobe. Was nun noch zum
Glück fehlt ist ein Wahrscheinlichkeitsmaß, aber eben dieses (oder zumindest
einige seiner Eigenschaften) wollen wir ja gerade ermitteln. Grundsätzlich geht
man natürlich davon aus, daß den Daten tatsächlich irgendein Wahrscheinlichkeitsmaß P auf (M n , A⊗n ) zugrundeliegt, in vielen Fällen wird man die Gestalt
P = (P0 )n voraussetzen, also die Unabhängigkeit der einzelnen Stichprobenelemente. Ein wichtiger Spezialfall, den wir hier betrachten werden, ist die Annahme, daß P aus einer gewissen (eingeschränkten) Menge von durch einen reellen
oder vektorwertigen Parameter θ eindeutig gegebenen Wahrscheinlichkeitsmaßen (Pθ )θ∈Λ⊆Rd stammt, so daß man also die Suche nach der richtigen Verteilung
auf die Suche nach dem richtigen Parameter reduziert hat. Diese Vorgehensweise
liegt der parametrischen Statistik zugrunde.
Bemerkung: Wenn die Menge M endlich ist (und sogar im Prinzip wenn sie
abzählbar-unendlich ist), dann läßt sich im Prinzip jede Wahrscheinlichkeitsverteilung auf [M n , A⊗n ] durch einen reellen oder vektorwertigen ’Parameter’
charakterisieren, so daß in diesen Fällen generell die Methoden der parametri70
schen Statistik Verwendung finden könn(t)en.
Man geht dann also davon aus, daß es einen wahren Parameter θ0 gibt,
den man aus der endlichen Sichprobe natürlich weder beliebig genau noch mit
beliebiger Sicherheit ermitteln kann.
• Zunächst kann man versuchen, einen einzelnen konkreten Parameterwert
θ(x) aus der Stichprobe x abzuleiten, von dem man hofft, daß er dem wahren Parameter θ0 möglichst nahe kommt. Eine solche Zuordnung x 7−→
θ(x) heißt Punktschätzer (Punktschätzung), und θ(·) ist dann nichts anderes als eine sinnvoll gewählte meßbare Abbildung θ(·) : [M n , A⊗n ] 7−→
[Rd , B(Rd )], also eine (reelle oder vektorwertige) abgeleitete Zufallsgröße.
Über die Angabe eines solchen Schätzers hinaus, wird man natürlich versuchen, Aussagen über die Güte dieser Schäzung zu machen, etwa kann
man den Ausdruck supθ0 ∈Λ EPθ0 (θ0 − θ)2 betrachten, also die maximale quadratische (mittlere) Abweichung des geschätzten Parameters
vom wahren, und dann wird man versuchen, diesen Wert durch passende
Wahl des Schätzers möglichst klein zu halten.
• Eine andere Möglichkeit ist, nicht einen einzelnen Parameterwert anzugeben, sondern ein Intervall [θu (x), θo (x)], in dem θ0 mit möglichst großer
Wahrscheinlichkeit α liegen soll, das aber andererseits möglichst klein sein
soll. Diese beiden Erwartungen an das Intervall [θu (x), θo (x)] sind direkt
konträr, man muß also einen Kompromiß schließen. Üblicherweise legt man
sich auf einen fixierten Wert α (z.B. α = 0, 95) fest, und sucht dann die beiden meßbaren Funktionen θu (x), θo (x) so zu wählen, daß die Intervallänge
θo (x) − θu (x) möglichst klein ist, jedoch Pθ0 ([θu (x), θo (x)] 3 θ0 ) ≥ α für
alle θ0 ∈ Λ gerade noch erfüllt ist (Konfidenzintervall zum Niveau
α).
• Schließlich kann man -insbesondere dann, wenn man eine Vermutung (=Hypothese) bezüglich möglicher Parameterwerte bereits hat- die Menge Λ in
zwei disjunkte Teilmengen H und K (H ∪ K = Λ) zerlegen und einen Hypothesentest durchführen. Dies bedeutet, im Stichprobenraum [M n , A⊗n ]
eine meßbare Teilmenge A zu spezifizieren. Wenn die gegebene Stichprobe
x zu A (’accept’) gehört, wird die Hypothese, daß θ0 ∈ H ist, angenommen. Wenn x ∈ R := M n \ A (’reject’), dann wird die Hypothese verworfen. Der Test beruht also auf der Auswertung der Bernoulli-Zufallsgröße
1A (x). Natürlich geht es insbesondere darum A so zu wählen, daß für
diejenigen θ0 , die zu H gehören, die Wahrscheinlichkeit von A möglichst
nahe bei 1 liegt, während umgekehrt für θ0 ∈ K die Wahrscheinlichkeit
von R möglichst nahe bei 1 liegen soll. Auch dies ist wieder eine Frage der
günstigen Balance, denn bei dieser Herangehensweise kann es einerseits
vorkommen, daß die Hypothese fälschlicherweise verworfen wird (θ0 ∈ H
aber x ∈ R: Fehler 1. Art) oder aber fälschlicherweise angenommen wird
(θ0 ∈ K aber x ∈ A: Fehler 2. Art). Man sieht üblicherweise die fälschliche Ablehnung als gravierender an und verschiebt daher die Balance in
die Richtung, daß man die Wahrscheinlichkeit des Fehlers 1. Art für alle
71
θ0 ∈ H unter eine kleine fixierte Zahl ε (durch entsprechende Wahl von
A) zu drücken versucht: Pθ0 (A) ≥ 1 − ε, θ0 ∈ H. Die Zahl α := 1 − ε
heißt dann Signifikanzniveau des Tests. Das könnte man natürlich dadurch erreichen, daß man einfach A = M n wählt, also die Hypothese stets
annimmt. So unwichtig ist aber der Fehler 2. Art nun auch wieder nicht,
man wird also unter allen Mengen A eine solche wählen, die einerseits das
Signifikanzniveau α einhält, für die andererseits aber λ(θ) := Pθ (R) für
θ ∈ K möglichst groß ist. Die Funktion λ(·) : Λ 7−→ [0, 1] heißt Gütefunktion des (jeweiligen) Test. Im (außer in Trivialfällen) unerreichbaren
Ideal wäre λ = 1K (Annahme genau dann, wenn θ ∈ H). Ein (durch die
Angabe der Menge A festgelegter) Test heißt gleichmäßig bester Test
zum Signifikanzniveau α, wenn seine Gütefunktion für alle θ ∈ K nicht
schlechter (kleiner) als die jedes anderen Test mit dem selben Signifikanzniveau ist. In der Regel wird es dennoch so sein, daß selbst der gleichmäßig
beste Test (zu α) für einige θ ∈ K kleine Werte von λ(θ) produziert (große
Fehlerwahrscheinlichkeit 2. Art). Beim Begriff des Hypothesentests spielt
es zunächst keine Rolle, daß die Parametermenge eine Teilmenge des Rd
ist, man kann ohne weiteres die Menge aller in Betracht gezogenen Wahrscheinlichkeitsverteilungen P selbst mit Λ bezeichnen und in zwei disjunkte Teilmengen H und K zerlegen, ohne eine Parametrisierung zu wählen.
Das fällt in das Gebiet der nichtparametrischen Statistik. Z.B. könnte
H die Menge aller Normalverteilungen der Gestalt N (c, σ 2 )×n bezeichnen.
Das wäre dann ein Test auf Normalverteilung.
Wir beschäftigen uns zunächst mit Punktschätzungen für den wahren Parameter θ0 . Betrachten wir als Beispiel den Fall, daß wir begründet annehmen
können, das der Stichprobe x = (x1 , x2 , ..., xn ) zugrundeliegende Wahrscheinlichkeitsmaß sei von der Gestalt N (θ0 , 1)×n , d.h. die einzelnen Stichprobenelemente sind unabhängig voneinander erhoben worden und identisch verteilt, nur
der Erwartungswert θ0 sei unbekannt (realistischer wäre, daß auch die Varianz
unbekannt ist, aber der Einfachheit halber wollen wir das im Moment nicht betrachten). Nun wissen wir aufgrund des Schwachen GesetzesP
der großen Zahlen,
n
daß für genügend großes n der Stichproben-Mittelwert n1 i=1 xi mit großer
Wahrscheinlichkeit nahe
P bei θ0 liegen wird. (Wir können diese etwas vage Aussage verschärfen: n1 ni=1 xi − θ0 ist aufgrund von Satz 38 wieder normalverteilt
mit Erwartungswert 0 und Varianz n1 , woraus sich leicht gute Abschätzungen
für den Fehler bei konkretem n gewinnen lassen).
liegt es sehr nahe, die
PDaher
n
Stichproben-Funktion (Zufallsgröße) A(x) := n1 i=1 xi als Punktschätzer für
θ0 zu verwenden. Zunächst gilt
n
EPθ0 A(x) = EPθ0
n
n
1X
1X
1X
xi =
E P θ 0 xi =
θ0 = θ 0 ,
n i=1
n i=1
n i=1
der Erwartungswert des Schätzers ist also gleich dem zu schätzenden Parameter. Solche Schätzer heißen erwartungstreu. Die Erwartungstreue ist eine zwar
72
theoretisch recht angenehme, aber praktisch nicht unbedingt notwendige Eigenschaft, da gute Schätzer im Sinne eines möglichst kleinen mittleren Abstandes
zum Parameter nicht zwangsläufig erwartungstreu sein müssen.
Wir haben uns hier vom Gesetz der großen Zahlen inspirieren lassen, um
zu einem plausiblen Schätzer zu kommen, weil der zu schätzende Parameter
eben ein Erwartungswert war. Eine andere Methode ist die folgende: Betrachten
wir zunächst den Fall, daß die Pθ diskrete Wahrscheinlichkeitsmaße sind. Dann
können wir der Stichprobe ihre jeweilige Wahrscheinlichkeit Pθ (x) -genauer
Pθ ({x})- zuordnen (was natürlich immer geht, aber bei diffusen Maßen stets 0
ergibt). Ein sinnvoller Schätzer wäre der sogenannte Maximum-LikelihoodSchätzer θML (·) : x ∈ M n 7−→ arg maxθ∈Λ Pθ ({x}), also derjenige Parameterwert, der der beobachteten Stichprobe die größte Wahrscheinlichkeit zuordnet
(falls es derer mehrere gibt, nimmt man einen davon, denkbar wäre natürlich,
daß das Maximum gar nicht existiert).
Im (bzgl. Lebesgue-Maß) absolut stetigen Fall ersetzt man die Einzelwahrscheinlichkeit Pθ ({x}) durch die Dichte pθ (x) von Pθ im Punkt x, also θML (·) :
x ∈ M n 7−→ arg maxθ∈Λ pθ (x). Hier müssen natürlich Existenz- und Meßbarkeitsaussagen gegeben sein. In dem von uns betrachteten Beispiel der Normalverteilung mit unbekanntem Erwartungswert erhalten wir
θML (x)
= argmaxpθ ((x1 , ..., xn ))
θ∈R
n
Y
2
1
1
√ e− 2 (xi −θ)
2π
i=1
= argmax
θ∈R
1
= argmaxe− 2
Pn
i=1 (xi −θ)
2
θ∈R
= argmin
θ∈R
Pn
n
X
(xi − θ)2 .
i=1
P
Die Funktion θ 7−→ i=1 (xi − θ)2 ist glatt, ihre Ableitung ist 2 ni=1 (θ − xi ) =
2n(θ − A(x)), dies wird 0 genau für θ = A(x), und die zweite Ableitung 2n ist
positiv, daher gilt in unserem Beispiel θML (x) = A(x), die Maximum-LikelihoodSchätzung stimmt also (in diesem Fall!) mit dem gemäß dem Gesetz der Großen
Zahlen gewählten erwartungstreuen Schätzer überein.
Zunächst ist die Wahl dieses ML-Schätzers nur eine Art plausibles ’Kochrezept’, und es ist Aufgabe der Mathematischen Statistik, in geeigneten Klassen
von Schätzproblemen zu untersuchen, ob dieser Schätzer der -nach ebenfalls zu
wählenden Kriterien- beste ist.
11.1
Hypothesentests und relative Entropie
Wir betrachten nun einen speziellen Fall der Hypothesenprüfung, der für das
Zusammenspiel von Wahrscheinlichkeitstheorie und Informationstheorie bei der
Untersuchung statistischer Fragestellungen exemplarisch ist. Wir betrachten
73
zwei Wahrscheinlichkeitsmaße P und Q auf einer endlichen Menge M . Nun
nehmen wir an, wir sollen anhand einer (aus unabhängigen Ziehungen bestehenden) Stichprobe vom Umfang n die Hypothese H, daß die zugrunde liegende
Verteilung P ist, gegen die Gegenhypothese K zu einer gegebenen Signifikanz
α prüfen, und diese Prüfung soll für große n (also asymptotisch) optimal sein.
Wir suchen also eine Teilmenge A(n) ⊆ M n derart, daß P (A(n) ) ≥ α erfüllt
ist, jedoch Q(A(n) ) möglichst klein bleibt. Wie wir sehen werden, läßt sich die
Suche nach einer optimal trennenden Menge auf eine informationstheoretische
Größe zurückführen, die relative Entropie, eine Verallgemeinerung des Begriffes der Entropie. Die Einzelwahrscheinlichkeiten bzgl. P seien mit pm , m ∈ M,
bezeichnet, und die bzgl. Q mit qm .
Definition 51 Die durch
h(P, Q) :=
X
m∈M
pm >0
pm log2
pm
.
qm
definierte Größe heißt relative Entropie von P bezüglich Q, wobei log ∞ als
+∞ angesehen wird.
Die relative Entropie kann also unendlich sein, nämlich genau dann, wenn
es ein m ∈ M gibt mit qm = 0, pm > 0.
Ebenso wie die Entropie ist auch die relative Entropie immer nicht-negativ,
und sie ist genau dann 0, wenn P = Q.
Lemma 52 Es gilt h(P, Q) ≥ 0, und die Gleichheit impliziert P = Q.
B e w e i s. Wir können uns auf den Fall beschränken, daß für alle m ∈ M
aus qm = 0 auch pm = 0 folgt, da sonst mindestens einer der Summanden +∞
ist, während −∞ nicht vorkommt, die Summe ist dann +∞ > 0.
74
Dann treten in der Summe nur endliche Summanden auf. Nun ist die Funktion − log2 streng konvex, also gilt nach Jensen
X
X
qm
pm
pm log2
pm log2
= −
qm
pm
m∈M
pm >0
m∈M
pm >0

X
qm 

≥ − log2 
pm

pm

m∈M
pm >0


X


= − log2 
qm 
m∈M
pm >0


X


= − log2 
qm 
m∈M
pm >0
≥ − log2
X
m∈M
qm
!
= 0,
, pm >
wobei das Gleichheitszeichen höchstens für den Fall gilt, daß alle Zahlen pqm
m
0, gleich sind (wir haben zweimal nach unten abgeschätzt, daher ’höchstens’; bei
der ersten vorkommenden Ungleichung besagt Jensen, daß sie genau dann zur
, pm > 0, gleich sind).
Gleichheit wird, wenn alle pqm
m
Also gilt qm = λpm falls pm > 0 für ein λP> 0 (λ = 0 istPwegen unserer
Anfangsannahme ausgeschlossen). Dann folgt pm >0 qm = λ pm >0 pm = λ,
also λ ≤ 1. Nun gibt
Wenn für alle m mit qm > 0 auch pm > 0
P es zwei Fälle:P
gilt, dann ist λ = pm ,qm >0 qm = qm >0 qm = 1, also folgt pm = qm für alle
m, also
ein m gibt, so daß qm > 0, pm = 0, dann ist
P es dagegen P
P P = Q. Wenn
λ = pm >0 qm = pm ,qm >0 qm < qm >0 qm = 1 und wir erhalten
!
X
X
pm
≥ − log2
pm log2
qm = − log2 λ > 0.
qm
p >0
p >0
m
m
Betrachten wir nun den speziellen Fall, daß Q = G, die Gleichverteilung
auf M ist, also gm ≡ d1 mit d := #M . Dann gilt
X
X
X
h(P, G) =
pm log2 dpm =
pm log2 pm +
pm log2 d
pm >0
pm >0
pm >0
= −hP + log2 d.
Wir erinnern uns, daß log2 d gerade die maximal mögliche Entropie, nämlich
die der Gleichverteilung ist (also G). Die Entropie einer beliebigen Verteilung
ist also die Differenz aus log2 d = hG und h(P, G).
Nun gilt folgender
75
Satz 53 (Steinsches Lemma) Für jedes ε > 0 existiert eine Folge A(n) von
Teilmengen von M n derart, daß
P n (A(n) ) −→ 1, Qn (A(n) ) ∈ [2−n(h(P,Q)+ε) , 2−n(h(P,Q)−ε) ]
n→∞
(für n genügend groß), und für jedes α ∈ (0, 1) und jede beliebige Folge B (n) von
Teilmengen von M n mit P n (B (n) ) ≥ α gilt für beliebiges ε > 0 die Beziehung
Qn (B (n) ) ≥ 2−n(h(P,Q)+ε) , wenn n genügend groß ist. (Für h(P, Q) = ∞ ist
dies so zu interpretieren, daß man die Mengen A(n) dann so wählen kann, daß
Qn (A(n) ) = 0 für alle n gilt.)
Bemerkung. Dies bedeutet, daß es in der gegebenen Situation möglich ist,
bei beliebiger Signifikanz α ∈ (0, 1) den Fehler 2. Art in der asymptotischen
(exponentiellen) Größenordnung 2−nh(P,Q) zu halten, während es unmöglich ist,
eine bessere asymptotische Größenordnung zu erzielen. Die relative Entropie hat
also die Bedeutung der optimalen asymptotischen Trennbarkeitsrate.
B e w e i s. Wir betrachten zuerst den Fall h(P, Q) < ∞.
(n)
1. Wir fixieren zunächst ein ε > 0 und betrachten die Menge MP,ε derjenigen
(m1 , m2 , ..., mn ) ∈ M n mit der Eigenschaft
pm1 pm2 ...pmn ∈ [2−n(hP +ε) , 2−n(hP −ε) ]
(n)
sowie die Menge MQ,ε derjenigen (m1 , m2 , ..., mn ), so daß
qm1 qm2 ...qmn ∈ [2−n(hP +h(P,Q)+ε) , 2−n(hP +h(P,Q)−ε) ]
gilt. Nun wissen wir aufgrund des Schwachen Gesetzes der großen Zahlen (spe(n)
ziell der Satz von Shannon), daß P n (MP,ε ) für n → ∞ gegen 1 konvergiert. Es
(n)
ist leicht zu sehen, daß auch P n (MQ,ε ) gegen 1 konvergiert: Wenn ξ gemäß P
verteilt ist, hat die nichtnegative (und nach unserer vorläufigen Vorausetzung
auch P -fast
P sicher endliche) Zufallsgröße − log2 qξ den endlichen Erwartungswert − m∈M,pm >0 pm log2 qm = hP + h(P, Q). Nach dem Schwachen Gesetz
der großen Zahlen geht daher für eine unabhängige Folge ξ1 , ξ2 , ...ξn derartiger
Zufallsgrößen
!
n
1X
P n −
log2 qξi − (hP + h(P, Q)) > ε
n
i=1
für n → ∞ gegen 0, woraus die benötigte Aussage sofort durch exponenzieren
mit der Basis 2 folgt.
76
(n)
(n)
Dann geht auch P n (MP,ε ∩ MQ,ε ) gegen 1. Es gilt aufgrund der Definition
von
(n)
MP,ε
(n)
(n)
#(MP,ε ∩ MQ,ε )
(n)
≤ #(MP,ε ) =
X
X
= 2n(hP +ε)
1
(n)
m∈MP,ε
2−n(hP +ε)
(n)
m∈MP,ε
X
≤ 2n(hP +ε)
pm1 pm2 ...pmn
(n)
m∈MP,ε
= 2n(hP +ε)
X
P n (m)
(n)
m∈MP,ε
≤ 2n(hP +ε) .
Nun folgt sofort
(n)
(n)
Qn MP,ε ∩ MQ,ε
=
X
Qn (m)
(n)
(n)
m∈MP,ε ∩MQ,ε
X
=
qm1 qm2 ...qmn
(n)
(n)
m∈MP,ε ∩MQ,ε
≤
X
(n)
2−n(hP +h(P,Q)−ε)
(n)
m∈MP,ε ∩MQ,ε
(n)
(n)
= #(MP,ε ∩ MQ,ε )2−n(hP +h(P,Q)−ε)
≤ 2n(hP +ε) 2−n(hP +h(P,Q)−ε)
= 2−n(h(P,Q)−2ε) .
(n)
(n)
Für die (von ε abhängige) Mengenfolge A(n) := MP,ε ∩ MQ,ε gilt also sowohl
P n (A(n) ) −→ 1 als auch Qn (A(n) ) ≤ e−n(h(P,Q)−2ε) . Durch die Substitution
n→∞
ε → ε/2 erhalten wir die obere Abschätzung des Satzes.
2. Sei nun α ∈ (0, 1), ε > 0 und B (n) irgendeine Folge von Teilmengen von
n
M mit P n (B (n) ) ≥ α. A(n) sei die im ersten Beweisteil konstruierte Mengenfolge. Dann folgt wegen P n (A(n) ) −→ 1, daß für genügend große n die Beziehung
n→∞
P n (B (n) ∩ A(n) ) ≥ α/2 > 0 erfüllt ist. Wir erhalten ähnlich wie oben wegen
77
(n)
B (n) ∩ A(n) ⊆ MP,ε
#(B (n) ∩ A(n) ) =
X
1
m∈B (n) ∩A(n)
= 2n(hP −ε)
X
2−n(hP −ε)
m∈B (n) ∩A(n)
≥ 2n(hP −ε)
X
P n (m)
m∈B (n) ∩A(n)
= 2n(hP −ε) P n (B (n) ∩ A(n) )
≥ 2n(hP −ε) α/2
≥ 2n(hP −2ε)
(n)
für genügend große n. Also gilt wegen B (n) ∩ A(n) ⊆ MQ,ε für genügend große
n
Qn (B (n) )
≥ Qn (B (n) ∩ A(n) )
X
=
Qn (m)
m∈B (n) ∩A(n)
=
X
qm1 qm2 ...qmn
m∈B (n) ∩A(n)
≥
X
2−n(hP +h(P,Q)+ε)
m∈B (n) ∩A(n)
= #(B (n) ∩ A(n) )2−n(hP +h(P,Q)+ε)
≥ 2n(hP −2ε) 2−n(hP +h(P,Q)+ε)
= 2−n(h(P,Q)+3ε) .
Da ε beliebig war, haben wir damit die zweite Teilaussage (im Fall endlicher
relativer Entropie) bewiesen.
3. Die eben bewiesene Aussage, daß Qn (B (n) ) (bei beliebigem ε > 0) für
genügend große n mindestens den Wert 2−n(h(P,Q)+ε) hat, sofern P n (B (n) ) ≥
α > 0 (zumindest für große n) gilt natürlich auch für die unter 1. konstruierte
Mengenfolge A(n) , denn diese erfüllt sogar P (A(n) ) → 1. Damit haben wir auch
die untere Abschätzung für Qn (A(n) ) bewiesen.
Wir müssen uns nun noch um den Fall h(P, Q) = +∞ kümmern. In diesem
Fall lassen sich die beiden Verteilungen asymptotisch perfekt unterscheiden: Die
relative Entropie ist genau dann unendlich, wenn es ein m ∈ M gibt, so daß
pm > 0, qm = 0. Wir definieren
A(n) := {m ∈ M n : Es existiert ein i0 so daß mi0 = m}.
Offenbar gilt Qn (A(n) ) = 0 für alle n.
78
Andererseits gilt für beliebiges ε > 0
P n (A(n) )
= 1 − P n ({m ∈ M n : mi 6= m für alle i})
n
Y
= 1−
P (M {m})
i=1
= 1 − (P (M {m}))
= 1 − (1 − pm )n ,
n
und dieser Ausdruck konvergiert für n → ∞ gegen 1 wegen pm > 0.
12
Stochastische Prozesse
In vielen Situationen hat man es mit zeitlichen Abfolgen von Zufallsgrößen zu
tun, die über einem gemeinsamen Maßraum [M, A, P ] definiert sind, typischerweise entweder mit einer abzählbaren Familie (ξi )i∈Z (bzw. auch (ξi )i∈N ), wobei
der Index i nun als diskreter Zeittakt interpretiert wird, oder aber mit einer
überabzählbaren Familie (ξt )t∈R (bzw. (ξt )t∈R+ ), hier ist t der (kontinuierliche) Zeitparameter. Eine solche Familie von Zufallsgrößen bezeichnet man als
stochastischen Prozeß. Wir hatten schon vorher Beispiele von zeitdiskreten
stochastischen Prozessen betrachtet (etwa im Zusammenhang mit dem Starken
Gesetz der großen Zahlen), ohne diese Bezeichnung zu verwenden. Wir schreiben im Folgenden allgemein (ξt )t∈T , wobei T je nach Situation eine der Mengen
N, Z, R+ oder R sein wird.
Alle Eigenschaften einer einzelnen Zufallsgröße ξ mit Werten in einem meßb sind durch ihre Verteilung P ◦ ξ −1 gegeben, jedenfalls soc, A]
baren Raum [M
lange, wie man sich nur für das Verhalten dieser einen Zufallsgröße interessiert,
und wir hatten gesehen, wie man Zufallsgrößen mit bestimmten Eigenschaften
konstruieren kann, um einen gegebenen Sachverhalt zu modellieren. Wir haben
c, A]
b = [R, B(R)] bewiesen, daß die Angabe einer Verteilungsfunkim Falle [M
tion oder einer Dichte zu einer eindeutigen Festlegung von P ◦ ξ −1 , also dem
Verteilungsgesetz der Zufallsgröße, führen.
Eine ganze Familie von solchen Größen ist durch die Angabe jedes einzelnen
P ◦ξt−1 , t ∈ T, noch längst nicht eindeutig charakterisiert, da dadurch Abhängigkeiten zwischen den verschiedenen Zeitpunkten nicht erfaßt werden.
Daher betrachten wir irgendeine beliebige endliche Sequenz t1 < t2 < ... < tn
von Zeitpunkten, ti ∈ T, und die zugehörige Zufallsgröße [ξt1 , ξt2 , ..., ξtn ] mit
b ⊗n ]. Das dadurch generierte Verteilungsgesetz P ◦[ξt , ξt , ..., ξt ]−1
cn , A
Werten in [M
n
2
1
bezeichnen wir mit Pt1 ,t2 ,...,tn , es heißt endlichdimensionale Verteilung (oder
auch Randverteilung) des Prozesses zu den Zeitpunkten t1 , t2 , ..., tn .
Das System
(Pt1 ,t2 ,...,tn )n∈N,t1 <t2 <...<tn∈T
dieser endlichdimensionalen Verteilungen hat eine einzige offensichtliche Eigenschaft: Die endlichdimensionalen Verteilungen sind im folgenden Sinne mitein79
b
ander verträglich: Es sei A1 , A2 , ..., An−1 irgendeine Folge von Mengen aus A.
Dann gilt für i ∈ {1, 2, ..., n}
Pt1 ,t2 ,.,ti ,..,tn (A1 × A2 × .. ×
c
M
i-te Stelle
× .. × An )
= P ◦ [ξt1 , ξt2 , ., ξti , .., ξtn ]−1 (A1 × A2 × .. ×
c
M
i-te Stelle
× .. × An )
c, .., ξtn ∈ An )
= P (ξt1 ∈ A1 , .., ξti ∈ M
= P (ξt1 ∈ A1 , .., ξti−1 ∈ Ai−1 , ξti+1 ∈ Ai+1 , .., ξtn ∈ An )
= Pt1 ,t2 ,..ti−1 ,ti+1 ,..,tn−1 (A1 × A2 × .. × Ai−1 × Ai+1 × .. × An−1 ).
(Die Mengen der Form [ξt1 , ξt2 , ..., ξtn ]−1 (A1 × A2 × ... × An ) ∈ A heißen Zylindermengen).
Änderung im folgenden Text!
b = [Rd , B(Rd )] oder M
c, A]
c eine endliche
Wir betrachten nun den Fall, daß [M
oder abzählbare Menge ist.
Es stellt sich nun heraus, daß es in diesem Fall zu jeder verträglichen Familie von Wahrscheinlichkeitsmaßen (Pt1 ,t2 ,...,tn )n∈N,t1 <t2 <...<tn auf (respektive)
b ⊗n ] auch einen stochastischen Prozeß gibt, der genau diese endlichdimencn , A
[M
sionalen Verteilungen besitzt. In gewissem (eingeschränkten) Sinne ist dieser
Prozeß auch eindeutig.
Wir betrachten nun also die Situation, daß wir noch keinen Prozeß (ξt )t∈T
und den dazugehörigen Wahrscheinlichkeitsraum [M, A, P ] gegeben haben, sondern nur eine verträgliche Familie von Wahrscheinlichkeitsmaßen
(Pt1 ,t2 ,...,tn )n∈N,t1 <t2 <...<tn .
Um diese Existenz und Eindeutigkeit zu sehen, betrachten wir zunächst die
cT , also die Menge aller Abbildungen m :=(m
c. (BeachMenge M
b t )t∈T von T in M
ten Sie, daß, falls wir doch einen Prozeß schon gegeben haben, für jedes m ∈ M
das Objekt (ξt (m))t∈T genau eine solche Abbildung realisiert: Es ordnet jedem
c zu.)
t ∈ T den Wert ξt (m) ∈ M
Nun seien ein n ∈ N, entsprechend viele t1 < t2 < ... < tn sowie eine
b gegeben. Dann ist
Mengenfolge A1 , A2 , ..., An ∈ A
cT : m
A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) := {m ∈ M
b ti ∈ Ai , i = 1, 2, ..., n}
cT ) derjenigen Abbildungen m ∈ M
cT , die gerade an den
die Teilmenge (von M
Stellen ti Werte aus Ai annehmen.
Das System der Zylindermengen
V := {A(t1 , t2 , ..., tn , A1 , A2 , ..., An )}n∈N,t1 <t2 <...<tn ,A1 ,A2 ,...,An∈A
b
cT .
ist also eine Teilmenge von P M
Lemma 54 V bildet einen Mengen-Halbring.
80
Der Beweis ist sehr einfach und wird zur Übung überlassen.
Weiter gilt
Satz 55 Die durch
P (A(t1 , t2 , ..., tn , A1 , A2 , ..., An ))
A(t1 , t2 , ..., tn , A1 , A2 , ..., An )
:
= Pt1 ,t2 ,...,tn (A1 , A2 , ..., An ),
∈ V
gegebene Mengenfunktion P läßt sich eindeutig zu einem WahrscheinlichkeitscT , σ(V)] fortsetzen.
maß auf [M
Bevor wir diese Aussage beweisen, ist es günstig zu einer kompaktifizierten
c überzugehen, insbesondere im Fall M
c = Rd .
Version von M
Wir erinnern an die Konstruktion der Ein-Punkt-Kompaktifizierung der
reellen Achse R aus der Analysis. Dazu wird R = R ∪ {∞} betrachtet und das
System der offenen Mengen τR wie folgt definiert:
Eine Teilmenge O ⊆ R sei offen, wenn O ∩ R im üblichen Sinne offen ist und,
falls ∞ ∈ O, es ein x ∈ R gibt, so daß (−∞, −x) ∪ (x, +∞) ⊆ O.
Die dazugehörige σ-Algebra der Borelschen Mengen (also die kleinste σAlgebra B(R) = σ(τR ), die τR enthält) läßt sich einfach aus B(R) ableiten:
Satz 56 Eine Teilmenge A von R gehört genau dann zu B(R), wenn A ∩ R zu
B(R) gehört.
B e w e i s. Man prüft sofort, daß das System σ 0 = B(R) ∪ {B ∪ {∞}, B ∈
B(R)} eine σ-Algebra über R ist, die alle τR -offenen Mengen enthält. Daher gilt
σ 0 ⊇ B(R).
Es gilt {∞} ∈ B(R), denn {∞} ist der abzählbare Durchschnitt der τR offenen Mengen {∞}∪(−∞, −n)∪(n, +∞), n ∈ N. Außerdem gilt offenbarB(R) ⊇
B(R), denn B(R) ist eine σ-Algebra und enthält alle τR -offenen Mengen (einschließlich R). Daher liegt jede Menge der Form B ∪ {∞}, B ∈ B(R) in B(R).
Daher gilt σ 0 = B(R).
Wir definieren nun das System H der halboffenen Intervalle in R: Wir setzen

(a, b] für a < b ∈ R




 (a, +∞) ∪ {∞} ∪ (−∞, b] für b ≤ a ∈ R
(a, +∞) ∪ {∞} für a ∈ R, b = ∞
(a, b] :=


(−∞, b] für b ∈ R, a = ∞



∅ für a, b = ∞.
H ist ein Halbring und man sieht leicht, daß sich jede offene Teilmenge O von R
als abzählbare Vereinigung von Elementen aus H darstellen läßt (man wähle um
jeden rationalen Punkt p von O ein halboffenes Intervall der Form (p − ε, p + ε],
wobei ε = 21 sup{t : (p − t, p + t] ⊆ O} sowie, falls ∞ ∈ O, noch ein halboffenes
Intervall der Form (x, −x], 0 < x ∈ R mit (x, −x] ⊆ O.
Damit ist H ein B(R) erzeugender Halbring.
81
d
Analog wie im Fall des Rd definierte man nun auch im R halboffene Intervalle als
d
Y
d
(a, b] =
(ai , bi ], a, b ∈ R
i=1
d
d
d
und erhält wieder einen Halbring H ⊆ B(R ), der B(R ) erzeugt. Hier ist
d
B(R ) die kleinste σ-Algebra, die von τRd erzeugt wird, wobei τRd die d-fache
d
Produkttopologie von τR ist: Eine Menge O ⊆ R ist offen (∈ τRd ), falls es zu
Qd
jedem x ∈ O offene Mengen O1 , O2 , ..., Od ⊆ τR gibt, so daß x ∈ i=1 Oi ⊆ O.
d
Nun kommen wir zu dem wesentlichen Punkt, weswegen wir von Rd zu R
gewechselt sind:
Die eben wiederholte Definition der Produkttopologie läßt sich auf beliebige
d
Produkte, nicht nur endliche, verallgemeinern, etwa (R )T :
d
Eine Teilmenge O ⊆ (R )T heißt offen (∈ τ(Rd )T ), wenn es zu jedem m ∈ O
endlich viele Mengen O1 , O2 , ..., On , Oi ∈ τRd und Zeitpunkte t1 , t2 , ..., tn gibt,
so daß m ∈ A(t1 , t2 , ..., tn , O1 , O2 , ..., Od ) ⊆ O gilt.
Nun gilt der folgende sehr wichtige Satz aus der Analysis (Satz von Tychonov): Bezüglich der Produkttopologie ist das Produkt kompakter Räume
d
kompakt. (R )T ist also kompakt bezüglich τ(Rd )T . Diese Kompaktheit ist das
entscheidende technische Mittel beim
c, A]
b =
B e w e i s von Satz 55. 1. Wir betrachten zunächst den Fall [M
d
d
[R , B(R )]. Es sei W das Teilsystem von V, das entsteht, wenn nur Mengen
A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) betrachtet werden, bei denen alle Ii halboffene Ind
tervalle im R sind. W ist wieder ein Halbring, denn der Durchschnitt von
zwei Mengen A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) und A(t01 , t02 , ..., t0n0 , I10 , I20 , ..., In0 0 ) aus
W läßt sich als A(t001 , t002 , ..., t00n00 , I100 , I200 , ..., In00 ) darstellen, wobei die t00i alle möglichen tj und t0j durchlaufen und die Ii00 wieder Durchschnitte von höchstens zwei
halboffenen Intervallen, also selbst halboffene Intervalle sind. Das Komplement
A(t1 , t2 , ..., tn , I1 , I2 , ..., In )c läßt sich schreiben als disjunkte Vereinigung
=
A(t1 , t2 , ..., tn , I1 , I2 , ..., In )c
n
[
d
d
A(t1 , t2 , ..., tn , I1 , I2 , ..., Ii−1 , Iic , R , ..., R ).
i=1
Nun ist
Iic
= (Ii,1 × ... × Ii,d )
=
d
[
j=1
c
c
Ii,1 × ... × Ii,j−1 × Ii,j
× R × ... × R
c
und das eindimensionale Intervall Ii,j
ist wieder ein halboffenes Intervall in R.
Daraus ergibt sich eine Darstellung von A(t1 , t2 , ..., tn , I1 , I2 , ..., In )c als disjunkte Vereinigung von Mengen in W. Also sind die auftauchenden Mengen alle in
82
W. Dann ist auch
A(t01 , t02 , ..., t0n0 , I10 , I20 , ..., In0 0 ) \ A(t1 , t2 , ..., tn , I1 , I2 , ..., In )
= A(t01 , t02 , ..., t0n0 , I10 , I20 , ..., In0 0 ) ∩ (A(t1 , t2 , ..., tn , I1 , I2 , ..., In ))c
als solch eine disjunkte Vereinigung von endlich vielen Mengen in W darstellbar,W
ist also ein Halbring.
2. Es sei σ(W) die durch W erzeugte σ-Algebra. Dann gilt V ⊆ σ(W),
d
nd
denn wenn Ai ∈ B(R ), i = 1, 2, ..., n, dann ist A1 × ... × An ∈ B(R ) und
nd
nd
weil die halboffenen Intervalle in R die σ-Algebra B(R ) erzeugen, liegt
A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) in der von allen Mengen der Form
A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) ∈ W
erzeugten σ-Algebra und folglich auch in σ(W).
Da nun W ⊆ V ⊆ σ(W), gilt σ(V) = σ(W).
Wenn wir zeigen können, daß sich das System der Pt1 ,t2 ,...,tn eindeutig von
W zu einem Wahrscheinlichkeitsmaß P auf σ(V) = σ(W) fortsetzen läßt, dann
c = Rd bewiesen. Dazu genügt
haben wir die Aussage des Satzes für den Fall M
es nach dem schon im Kapitel über Verteilungsfunktionen zitierten maßtheoretischen Resultat über die eindeutige Fortsetzbarkeit einer solchen Mengenfunktion
zu einem Maß zu zeigen, daß P auf W σ-additiv ist.
3. Sei also
A(t1 , t2 , ..., tn , I1 , I2 , ..., In )
∞
[
A(ti,1 , ti,2 , ..., ti,ni , Ii,1 , Ii,2 , ..., Ii,ni )
=
i=1
eine Darstellung von A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) ∈ W als disjunkte Vereinigung
von Mengen aus W.
Wir haben bisher nur Mengen der Gestalt A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) mit
geordneter Menge t1 < t2 < ... < tn betrachtet. Nun definieren wir
A(t1 , t2 , ..., tn , A1 , A2 , ..., An )
auch für beliebige t1 , t2 , ..., tn , ti 6= tj für i 6= j, indem wir setzen
A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) := A(ti1 , ti2 , ..., tin , Ai1 , Ai2 , ..., Ain ),
wobei ti1 < ti2 < ... < tin die geordnete Reihenfolge der ti ist.
Weiter definieren wir auch A(t1 , t2 , ..., A1 , A2 , ...) für beliebige unendliche
d
Folgen t1 , t2 , ..., ti 6= tj wenn i 6= j sowie A1 , A2 , ..., bei denen Ai 6= R nur
endlich oft gilt, indem wir setzen
A(t1 , t2 , ..., A1 , A2 , ...) := A(t1 , t2 , ..., tn , A1 , A2 , ..., An ),
d
wobei n der letzte Index sei, bei dem An 6= R erfüllt ist.
83
Dann können wir die obige Beziehung wie folgt schreiben
A(s1 , s2 , ..., J1 , J2 , ...)
∞
[
=
A(s1 , s2 , ..., Ji,1 , Ji,2 , ...),
i=1
wobei s1 , s2 , ... alle Werte t1 , t2 , ..., tn sowie ti,1 , ti,2 , ..., ti,ni mit i ∈ N durchläuft
(dies sind ja abzählbar viele. Dabei setzen wir Ji,k = Ii,l falls sk = ti,l und
d
Ji,k = R sonst (und entsprechend für J1 , J2 , ...).
d
4. Nun gibt es für jedes n ∈ N ein größtes k ∈ N derart, daß Jk 6= R oder
d
Ji,k 6= R für irgendein i ≤ n. Dann gilt
A(s1 , s2 , ..., J1 , J2 , ...)
= A(s1 , s2 , ..., sk , J1 , J2 , ..., Jk )
∞
[
A(s1 , s2 , ..., Ji,1 , Ji,2 , ...)
=
⊇
=
i=1
n
[
i=1
n
[
A(s1 , s2 , ..., Ji,1 , Ji,2 , ...)
A(s1 , s2 , ..., sk , Ji,1 , Ji,2 , ..., Ji,k ).
i=1
Folglich ist
n
[
i=1
Ji,1 × Ji,2 × ... × Ji,k
⊆ J1 × J2 × ... × Jk ,
und wir erhalten für beliebige n
n
X
=
=
i=1
n
X
i=1
n
X
i=1
P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...))
P (A(s1 , s2 , ..., sk , Ji,1 , Ji,2 , ..., Ji,k ))
Ps1 ,s2 ,...,sk (Ji,1 × Ji,2 × ... × Ji,k )
= Ps1 ,s2 ,...,sk
n
[
i=1
Ji,1 × Ji,2 × ... × Ji,k
≤ Ps1 ,s2 ,...,sk (J1 × J2 × ... × Jk )
= P (A(s1 , s2 , ..., J1 , J2 , ...)) .
84
!
Mit n → ∞ folgt
∞
X
P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...))
i=1
≤ P (A(s1 , s2 , ..., J1 , J2 , ...)) .
5. Wir müssen nun noch die ≥-Relation zeigen. Wir fixieren ein ε > 0.
d
Sei k0 der größte Index, so daß Jk0 6= R . Dann ist A(s1 , s2 , ..., J1 , J2 , ...) =
A(s1 , s2 , ..., sk0 , J1 , J2 , ..., Jk0 ). Aufgrund der Stetigkeit von Ps1 ,s2 ,...,sk0 finden
wir abgeschlossene Intervalle Jjε ⊆ Jj , j = 1, 2, ..., k0 , derart daß
Ps1 ,s2 ,...,sk0 (J1ε × J2ε × ... × Jkε0 ) ≥ Ps1 ,s2 ,...,sk0 (J1 × J2 × ... × Jk0 ) − ε.
d
Für alle j > k0 setzen wir Jjε = R = Jj .
d
Entsprechend sei ki der größte Index, so daß Ji,ki 6= R , und nun finden wir
ε
für jedes i ∈ N offene Intervalle Ji,j
⊇ Ji,j , j = 1, 2, ..., ki , derart daß
ε
ε
ε
Ps1 ,s2 ,...,ski (Ji,1
× Ji,2
× ... × Ji,k
) ≤ Ps1 ,s2 ,...,ski (Ji,1 × Ji,2 × ... × Ji,ki ) + ε2−i .
i
d
ε
Für alle j > ki setzen wir Ji,j
= R = Ji,j .
d
(Zu beachten ist, daß R sowohl offen als auch abgeschlossen als auch halbd
d
offen ( R = (0, 0] ) ist.)
Wir erhalten
⊆
A(s1 , s2 , ..., sk0 , J1ε , J2ε , ..., Jkε0 )
∞
[
ε
ε
ε
).
A(s1 , s2 , ..., ski , Ji,1
, Ji,2
, ..., Ji,k
i
i=1
Nach Konstruktion ist A(s1 , s2 , ..., sk0 , J1ε , J2ε , ..., Jkε0 ) eine abgeschlossene Teild
ε
ε
ε
menge des kompakten Raums (R )T ,also ist sie kompakt. Die A(s1 , s2 , ..., ski , Ji,1
, Ji,2
, ..., Ji,k
)
i
bilden eine offene Überdeckung dieser kompakten Teilmenge. Also existiert ein
n, so daß schon
A(s1 , s2 , ..., sk0 , J1ε , J2ε , ..., Jkε0 )
n
[
ε
ε
ε
)
A(s1 , s2 , ..., ski , Ji,1
, Ji,2
, ..., Ji,k
⊆
i
i=1
85
erfüllt ist. Sei k = max0≤i≤n ki . Dann gilt
P (A(s1 , s2 , ..., J1 , J2 , ...))
= P (A(s1 , s2 , ..., sk , J1 , J2 , ..., Jk ))
≤ P (A(s1 , s2 , ..., sk , J1ε , J2ε , ..., Jkε )) + ε
= Ps1 ,s2 ,...,sk (J1ε × J2ε × ... × Jkε ) + ε
!
n
[
ε
ε
ε
Ji,1 × Ji,2 × ... × Ji,k + ε
≤ Ps1 ,s2 ,...,sk
i=1
≤ ε+
n
X
i=1
ε
ε
ε
Ps1 ,s2 ,...,sk Ji,1
× Ji,2
× ... × Ji,k
,
denn Ps1 ,s2 ,...,sk ist ein Wahrscheinlichkeitsmaß. Wir können nun die Ungleichungskette wie folgt fortsetzen
P (A(s1 , s2 , ..., J1 , J2 , ...))
n X
Ps1 ,s2 ,...,ski (Ji,1 × Ji,2 × ... × Ji,ki ) + ε2−i
≤ ε+
i=1
n
X
= 2ε +
≤ 2ε +
i=1
∞
X
P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...))
P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...)) .
i=1
Da ε beliebig war und wegen 4., gilt also
=
P (A(s1 , s2 , ..., J1 , J2 , ...))
∞
X
P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...)) .
i=1
Wir haben damit gezeigt, daß P auf dem Halbring W σ-additiv ist, sich
also zu einem Wahrscheinlichkeitsmaß auf σ(W) fortsetzen läßt, und folglich die
c, A]
b = [Rd , B(Rd )].
Aussage des Satzes im Fall [M
c eine beliebige B(Rd )-meßbare Teilmenge von Rd (also insbe6. Sei nun M
d
sondere der R selbst oder eine endliche bzw. abzählbare Menge, die wir durch
irgendeine bijektive Abbildung in den Rd einbetten), versehen mit der σ-Algebra
b=M
b auch in B(Rd ) ⊆ B(Rd ). Somit läßt
c ∩ B(Rd ). Dann ist jede Menge in A
A
b auch als Wahrscheinlichkeitsc A]
sich jedes Wahrscheinlichkeitsmaß Q auf [M,
d
d
c) = 1).
maß auf [R , B(R )] auffassen (mit der Eigenschaft Q(M
Analog läßt sich die gegebene verträgliche Familie von Maßen (Pt1 ,...,t
n ) auf
nd
nd
n
n
b ] als verträgliche Familie auf [R , B(R )] ansehen (Pt ,...,t (M
c) , A
c)n =
[(M
1
n
1). Wegen 1.-5. ist die dadurch gegebene Mengenfunktion auf
86
V := {A(t1 , t2 , ..., tn , A1 , A2 , ..., An )}n∈N,t
1 <t2 <...<tn ,A1 ,A2 ,...,An ∈B(R
d
)
b ⊆ B(Rd ), gilt diese σ-Additivität gewiß auch auf dem Mengenσ-additiv. Da A
system
V := {A(t1 , t2 , ..., tn , A1 , A2 , ..., An )}n∈N,t1 <t2 <...<tn ,A1 ,A2 ,...,An∈A
b.
Aus dem im obigen Beweis schon benutzten Satz über die eindeutige Fortsetzbarkeit einer auf einem erzeugenden Halbring σ-additiven Mengenfunktion
zu einem Maß erhalten wir nun sofort
b =
c, A]
Satz 57 (Existenz- und Eindeutigkeitsatz von Kolmogorov) Es sei [M
d
d
c
[R , B(R )] oder M eine höchstens abzählbare Menge. Dann bestimmt jede verträgliche Familie von Wahrscheinlichkeitsmaßen (Pt1 ,t2 ,...,tn )n∈N,t1 <t2 <...<tn auf
cn , A
b ⊗n ] eindeutig ein Wahrscheinlichkeitsmaß P auf der σ-Algebra σ(V).
[M
Dieses heißt der durch (Pt1 ,t2 ,...,tn ) erzeugte stochastische Prozeß.
i
h
cT , σ(V) gehört
Bemerkung: Im Sinne eines Wahrscheinlichkeitsmaßes auf M
zu jeder verträglichen Familie (Pt1 ,t2 ,...,tn ) also ein eindeutig bestimmter Prozeß. Man findet aber viele weitere Maßräume [M, A, Pe] und ensprechende Familien von Zufallsgrößen (ξt )t∈T , so daß die entsprechenden endlichdimensionalen
Verteilungen
mit
h
i (Pt1 ,t2 ,...,tn ) übereinstimmen. Der eben konstruierte Maßraum
T
c
M , σ(V), P ist eine Minimalversion, in der nur solche Aussagen meß-
bar sind, die sich auf höchstens abzählbar viele Zeitpunkte ti beziehen. Im Falle
c T = R sind daher solche Aussagen wie m
M,
b t ≡ 1 oder ’ m
b t ist stetig’ nicht
meßbar.
d
So ist auch i.A. (Rd )T keine meßbare Teilmenge von (R )T ist, dazu ist die
σ-Algebra σ(V) nicht umfassend genug.
Es bedarf weiterer, teilweise erheblich komplizierterer maßtheoretischer ’Klimmzüge’,
um Versionen des Prozesses mit solchen Eigenschaften zu konstruieren, daß
z.B. die genannten Aussagen meßbar werden.
c heißt Zustandsraum des Prozesses, ein einzelnes m = (m
Die Menge M
b t )t
cT heißt Trajektorienraum.
heißt Trajektorie, M
Eine wichtige Eigenschaft, die ein Prozeß evtl. hat, ist die Stationarität:
Definition 58 Der durch die verträgliche Familie (Pt1 ,t2 ,...,tn ) bestimmte Prozeß P heißt stationär, falls Pt1 ,t2 ,...,tn = Pt1 +t,t2 +t,...,tn +t für alle n ∈ N,
t, t1 < t2 < ... < tn ∈ T erfüllt ist.
Bemerkung: Das von uns im unabhängigen Fall bewiesene Starke Gesetz der
großen Zahlen (im Sinne der fast sicheren Konvergenz des Zeitmittels gegen
87
c = Rd , T = Z) mit Mitteln der
einen i.A. zufälligen Limes) läßt sich (für M
Ergodentheorie für beliebige stationäre Prozesse beweisen.
Der einfachste Fall eines stationären Prozesses entsteht, wenn wir Pt1 ,t2 ,...,tn :=
(P0 )n für beliebige t1 < t2 < ... < tn ∈ T setzen, wobei P0 ein beliebiges Wahrc, A]
b ist. (Die Familie ist offenbar verträglich). Diescheinlichkeitsmaß auf [M
ser Prozeß heißt der i.i.d.-Prozeß zu P0 (independent identically distributed,
u.i.v.), manchmal auch weißes Rauschen genannt.
Wir wissen genau genommen erst jetzt, daß die Aussage des StGdgZ nicht
tatsächlich leer ist, daß es also iid-Prozesse tatsächlich gibt!
Eine interessante Familie von Prozessen, die den iid-Fall umfaßt, werden wir
nun betrachten.
12.1
Markowsche Prozesse mit diskretem Zustandsraum
und diskreter Zeit
Die Grundidee besteht darin, daß reale Abläufe, zumindest bei genügend detaillierter Beschreibung, folgende Eigenschaft haben:
Die (evtl. zufällige) zukünftige Entwicklung ist allein aus der Kenntnis der Gegenwart ableitbar.
Wenn wir also ξ0 = x0 , ξ1 = x1 , ..., ξn = xn kennen, dann ist
P (ξn+1 ∈ (·)|ξ0 = x0 , ξ1 = x1 , ..., ξn = xn )
eine Wahrscheinlichkeitsverteilung, die nur von xn abhängt.
Wir betrachten hier nur den Fall, daß die Zufallsgrößen Werte aus einer endlichen oder abzählbaren Menge M annehmen, sowie T = N∪{0} (bzw. Z). Im
Sinne des eben formulierten ’Dogmas’ starten wir mit zwei Bestimmungsstücken:
a) einer Wahrscheinlichkeitsverteilung π = (πa )a∈M auf M (Startverteilung),
sowie
b) einer Familie (Pa )a∈M = (pa,b )a,b∈M von Wahrscheinlichkeitsverteilungen
auf M
(Übergangswahrscheinlichkeiten).
Wir konstruieren nun die endlichdimensionalen Verteilungen (T = N ∪ {0})
wie folgt induktiv
• P0 = π
• P0,1,...,n+1 (m0 , m1 , ..., mn , mn+1 ) = P0,1,...,n (m1 , m2 , ..., mn )pmn ,mn+1 .
Die bedingte Wahrscheinlichkeit, daß die Trajektorie zum Zeitpunkt n +
1 in mn+1 landet, wenn die gesamte Vergangenheit gegeben ist, soll also nur
von dem Wert mn zum Zeitpunkt n abhängen, und gleich pmn ,mn+1 sein. Es
soll wieder als Übung überprüft werden, daß dadurch eine kompatible Familie
endlichdimensionaler Verteilungen erzeugt wird.
Es gibt also genau einen stochastischen Prozeß P = P π,(pa,b ) auf [M N∪{0} , σ(V)],
der diese endlichdimensionalen Verteilungen besitzt. Er heißt Markovscher
88
Prozeß (Markovsche Kette) mit Startverteilung π und Übergangsmatrix (pa,b )a,b∈M .
Wir wollen uns nun, insbesondere im endlichen Fall #M < +∞, einen Überblick über das Langzeit-Verhalten solcher Markovschen Prozesse verschaffen, das
sich, wie wir sehen werden, recht einfach verstehen läßt.
Dazu klassifiziert man die Elemente (Zustände) in M im Zusammenhang
mit der Übergangsmatrix (pa,b ). Zwei verschiedene Elemente a, b aus M heißen
äquivalent a ∼ b, falls man mit positiver Wahrscheinlichkeit (eventuell in mehreren Schritten) von a nach b und umgekehrt gelangt (und wir setzen generell
a ∼ a):
Definition 59 Die Elemente a, b ∈ M werden äquivalent genannt, wenn a = b
gilt oder wenn es zwei endliche Folgen (a1 , a2 , ..., ak ), (b1 , b2 , ..., bl ) gibt, so daß
pa,a1 pa1 ,a2 ...pak−1 ,ak pak ,b pb,b1 pb1 ,b2 ...pbl−1 ,bl pbl ,a > 0
ist.
Anders gesagt: Wenn wir einen gerichteten Graphen mit Knotenmenge M
betrachten, bei dem zwei Knoten x, y genau dann durch eine gerichtetet Kante
(x, y) verbunden werden, wenn px,y > 0 ist, dann gilt a ∼ b für a 6= b genau
dann, wenn es einen gerichteten Weg von a nach a gibt, der über b führt.
Durch diese Relation zerfällt M in (disjunkte) Äquivalenzklassen M = M1 ∪
M2 ∪...∪Mr . Eine Äquivalenzklasse heißt wesentlich (und die darin enthaltenen
Elemente wesentliche Zustände), wenn für alle a ∈ M, b ∈ M c die Beziehung
pa,b = 0 erfüllt ist. Die restlichen Äquivalenzklassen mit ihren Zuständen heißen
unwesentlich. Eine Äquivalenzklasse ist also genau dann wesentlich, wenn kein
Weg hinaus führt. Aus der Definition folgt sofort folgende Aussage:
Lemma 60 Ist M ⊆ M eine wesentliche Klasse und gilt π(M ) = 1, dann gilt
n
auch P1,2,...,n (M ) = 1 für alle n ∈ N.
Wenn die Startverteilung π auf M konzentriert ist, bleiben die Trajektorien in endlichen Intervallen fast sicher in M . Daraus ergibt sich wiederum mit
N
Hilfe der σ-Additivität, daß auch P (M ) = 1 gilt, d.h. die Trajektorien bleiben
generell fast sicher in M .
Nicht viel schwieriger zu sehen ist folgende Aussage für die unwesentlichen
Klassen:
Lemma 61 Ist M ⊆ M eine unwesentliche Klasse, dann gibt es eine Konstante
γ < 1 und eine natürliche Zahl N0 derart, daß für beliebige Startverteilungen π
die Abschätzung Pn (M ) ≤ γ n für n ≥ N0 erfüllt ist.
B e w e i s. 1. Wir fixieren zunächst irgendein a ∈ M und betrachten den
Fall πa = 1, d.h. π = δ{a} , wir starten fast sicher in a. Da M unwesentlich ist,
c
gibt es einen Zustand b in M sowie ein c ∈ M mit pb,c > 0. Außerdem gibt
es einen Weg von a nach b, denn a und b sind äquivalent. (Wenn a = b, dann
89
hat der Weg die Länge 0.) Es gibt also eine Zahl n(a) ∈ N ∪ {0} und Zustände
a1 , a2 , ..., an−1 so daß p(a) := pa,a1 pa1 ,a2 ...pan(a)−1 ,b pb,c > 0 gilt. Nun gilt
c
Pn(a)+1 (M ) ≥ Pn(a)+1 ({c}) ≥ p(a) .
Es gilt sogar für alle n > n(a) + 1 (wobei wir der Kürze halber P statt P π,(pa,b )
für den Markovschen Prozeß schreiben, der mit π startet)
π,(pa,b )
Pn
c
c
c
(M ) = Pn (M ) ≥ Pn(a)+1,n ({c}, M ) = Pn(a)+1 ({c}) ≥ p(a) ,
denn von c gibt es keinen Weg zurück nach M (sonst wären a und c äquivalent,
also c ∈ M).
c die Menge derjenigen Zustände, von denen aus es
2. Wir bezeichnen mit M
einen Weg nach a gibt:
{m ∈ M : ∃x1 , x2 , ..., xl(m) ∈ M mit q (m) := pm,x1 px1 ,x2 ...pxl(m)−1 ,xl(m) pxl(m) ,a > 0}.
c ⊇ M und M
c enthält nur unwesentliche Zustände. c liegt nicht
(Offenbar gilt M
c
c, ähnlich wie in 1.
in M.) Nun gilt offenbar für den Fall πm = 1, m ∈ M
cc ) ≥ Pl(m)+n(a)+2 ({c}) ≥ q (m) p(a)
Pl(m)+1+n(a)+1 (M
und sogar für alle n > l(m) + n(a) + 2
π,(pa,b )
Pn
cc ) = Pn (M
cc ) ≥ Pl(m)+n(a)+2,n ({c}, M
cc ) = Pl(m)+n(a)+2 ({c}) ≥ q (m) p(a) .
(M
c, sowie q0 die
3. Nun sei n0 die größte der endlich vielen Zahlen l(m), m ∈ M
(m)
c
kleinste der Zahlen q , m ∈ M. Dann gilt für k0 = n0 +n(a)+2 bei beliebigem
c
π mit πm = 1, m ∈ M
π,(pa,b )
P k0
cc ) ≥ q0 p(a) .
cc ) = Pk0 (M
(M
cc starten, dann gilt sogar Pk0 (M
cc ) = 1,
Wenn wir hingegen mit πm = 1, m ∈ M
cc gibt es keinen Weg zurück nach M.
c Also gilt sogar für alle m ∈ M
denn aus M
δ
Pk0{m}
,(pa,b )
cc ) ≥ q0 p(a) .
(M
Schließlich gilt bei ganz beliebiger Startverteilung π
X π,(p )
π,(p ) cc
cc )
Pk0 a,b (M
) =
P1,k0 a,b ({m}, M
(12)
m∈M
=
X
δ
P1π ({m})Pk0{m}
m∈M
≥
X
,(pa,b )
cc )
(M
P1π ({m})q0 p(a) = q0 p(a) .
m∈M
90
4. Wir setzen λ := 1 − q0 p(a) < 1 und zeigen induktiv, daß
π,(pa,b )
Pnk0
c) ≤ λn
(M
für beliebige n ≥ 1 gilt. Für n = 1 ist die Beziehung wegen (12) richtig. Angecc zurück nach
nommen, sie sei für n erfüllt. Dann gilt, da es keinen Weg aus M
c
M gibt
X π,(p )
δ
,(p ) c
π,(pa,b ) c
Pnk0 a,b ({m})Pk0{m} a,b (M
)
P(n+1)k
(
M)
=
0
m∈M
X
=
c
m∈M
X
≤
δ
,(pa,b )
π,(pa,b )
({m})Pk0{m}
π,(pa,b )
({m})λ ≤ λn λ = λn .
Pnk0
Pnk0
c
m∈M
c)
(M
Damit ist die behauptete Beziehung für alle Vielfachen nk0 von k0 bewiesen.
Für n0 = nk0 + r, n, r ≥ 1 gilt
X π,(p )
δ
,(p ) c
π,(p ) c
Pn0 a,b (M
) =
Pnk0 a,b ({m})Pr {m} a,b (M)
m∈M
X
=
c
m∈M
X
≤
δ
,(pa,b )
π,(pa,b )
({m})Pr {m}
π,(pa,b )
({m}) = Pnk0
Pnk0
Pnk0
π,(pa,b )
c
m∈M
also erhalten wir für n ≥ k0
π,(pa,b )
Pn
c) ≤ λbn/k0 c .
(M
c
(M)
c),
(M
1
Daraus folgt schließlich für n ≥ N0 := 2k0 und γ := λ 2k0
π,(pa,b )
Pn
n−k
0
π,(p ) c
) ≤ λbn/k0 c ≤ λ k0
(M ) ≤ Pn a,b (M
1 n−k0 1 n/2
=
λ k0
≤ λ k0
= γn.
Mit dem Lemma von Borel-Cantelli ergibt sich nun sofort
Lemma 62 Für fast alle Trajektorien (ξi ) bezüglich P π,(pa,b ) wird jede unwesentliche Klasse M nur endlich oft besucht.
Wie wir gesehen haben, geht die Wahrscheinlichkeit der entsprechenden
cc , aus der nie wieder nach M zurückgekehrt wird, exponentiell geMenge M
gen 1.
Daraus erklärt sich auch die Bezeichnung ’unwesentliche Klassen’. Die entsprechenden Zustände spielen im Langzeitverhalten keine Rolle.
91
Wir betrachten nun wieder den Fall, daß die Startverteilung π ganz auf einer bestimmten wesentlichen Klasse M konzentriert ist, d.h. π(M ). Aufgrund
von Lemma 60 können wir in diesem Fall alle anderen Elemente von M einfach weglassen. Wir können also den Fall betrachten, daß alle Elemente von
M zueinander äquivalent sind. Dies ist ein spezieller (der wichtigste) Fall der
folgenden
Definition 63 Die Übergangsmatrix (pa,b )a,b∈M heißt irreduzibel, wenn es genau eine wesentliche Klasse gibt.
(Im irreduziblen Fall kann es also auch unwesentliche Zustände geben, wir
haben diese aber eben auch noch weggelassen.)
Betrachten wir nun zunächst einen weiteren Spezialfall, nämlich daß alle
Übergangswahrscheinlichkeiten pa,b > 0 sind. Die Übergangsmatrix heißt dann
positiv. In diesem Fall ist es nicht schwer zu zeigen, daß die Anfangssituation
(also die Startverteilung) exponentiell schnell vergessen wird. Der Prozeß
pegelt sich schnell auf ein stationäres Verhalten ein, im folgenden Sinn:
Satz 64 (Exponentielle Konvergenz gegen die stationäre Startverteilung, positiver Fall) Alle Übergangswahrscheinlichkeiten pa,b , a, b ∈ M, seien positiv. Dann
existieren eine positive Konstante γ < 1, eine natürliche Zahl N0 und ein Wahrscheinlichkeitsvektor (e
πa )a∈M , so daß für beliebige Startverteilung π die Beziehung
π,(p )
|e
πx − Pn a,b ({x})| < γ n
(13)
für n ≥ N0 und alle Zustände x ∈ M erfüllt ist.
Es gilt
π
e,(p )
Pn a,b = π
e
für alle n.
Bemerkung: Dies impliziert, daß -egal welche Startverteilung man wählt- für
genügend große n das Verhalten des Prozesses praktisch nicht mehr von dem des
(eindeutig bestimmten) stationären Prozesses mit der gegebenen Übergangsmatrix zu unterscheiden ist. Wenn γ sehr dicht bei 1 liegt (das kann eintreten, wenn
einige der pa,b sehr klein sind), ist es mit der ’schnellen Konvergenz’ natürlich
relativ zu sehen.
B e w e i s. 1. Wir verwenden zum Beweis eine Technik, die als ’coupling’
bezeichnet wird. Dazu starten wir den Prozeß gleichzeitig in mehreren Versionen
mit verschiedenen Anfangsverteilungen und beweisen, daß sich die verschiedenen
Trajektorien zu einer einzigen vereinigen.
Zur Vereinfachung der Bezeichnungen nehmen wir o.B.d.A. an, daß
M = Mk := {1, 2, ..., k}
92
ist. Jeder Zeilenvektor (pa,b )b∈Mk mit fixiertem a kann dann als eine Wahrscheinlichkeitsverteilung auf R+ ⊃ Mk aufgefaßt werden, besitzt also eine Verteilungsfunktion Fa . Wir betrachten weiterhin eine auf [0, 1] gleichverteilte Zufallsgröße
ξ. Dann besitzt die abgeleitete Zufallsgröße Fa−1 (ξ) nach dem Simulationsprinzip
(ÜA 8.2) die Verteilung (pa,b )b∈Mk . Der Zufallsvektor
v = [v (1) , ..., v (k) ] := [Fa−1 (ξ)]ka=1 ∈ (Mk )k
besitzt also eine Verteilung Pv (auf (Mk )k ), deren eindimensionale Randverteilungen die einzelnen (pa,b )b∈Mk sind.
Wir betrachten nun eine i.i.d.-Folge (vi )i∈N∪{0} , bei dem die vi gemäß Pv
verteilt sind. Eine Trajektorie (vi ) ist also ein Element von (Mkk )N , versehen
mit der entsprechenden von den Zylindermengen erzeugten σ-Algebra σ(V).
Wir benutzen diesen i.i.d.-Prozeß, um den Markovschen Prozeß zu generieren.
Dazu betrachten wir den Produktraum Mk × (Mkk ){0,1,2,...,n} mit dem Wahrscheinlichkeitsmaß π × Pvn+1 und die folgende induktiv definierte Sequenz von
Zufallsgrößen:
η0
:
ηi+1
:
ζ := [α0 , v0 , ..., vn ] ∈ Mk × (Mkk ){0,1,...,n} 7−→ [α0 , v0 ] ∈ Mk × Mkk ,
(αi )
[α0 , v0 , ..., vn ] ∈ Mk × (Mkk ){0,1,...,n} 7−→ [αi+1 , vi+1 ] := [vi
i = 0, 1, 2, ..., n − 1.
, vi+1 ] ∈ Mk × Mkk ,
Die Folge der Zufallsgrößen (η0 , ..., ηn ) = ([α0 , v0 ], ..., [αn , vn ]) ist also wie folgt
aufgebaut:
Die zweite Komponente vi wird unverändert aus ζ übernommen, die erste
Komponente αi bestimmt sich ausschließlich aus ηi−1 . Daher bildet (η0 , ..., ηn )
einen (auf n + 1 Zeitpunkte begrenzten) Markovschen Prozeß.
Betrachten wir nun die ersten Komponenten (α0 , ..., αn ). Es gilt
P (αi+1
= ai+1 |α0 = a0 , ..., αi = ai )
P (α0 = a0 , ..., αi = ai , αi+1 = ai+1 )
=
P (α0 = a0 , ..., αn = an )
(falls die Bedingung positive Wahrscheinlichkeit hat), und weiter
P
w1 ,...,wi P (α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi , αi+1 = ai+1 )
=
P (α0 = a0 , ..., αi = ai )
1 X
P (α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi , αi+1 = ai+1 ),
=
Z w ,...,w
1
i
wobei Z der Nenner ist. Weiter geht es wie folgt
=
1
Z
X
w0 ,...,wi
P (αi+1 = ai+1 |α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi )
·P (α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi ).
93
Nun ist wie gesehen (η0 , ..., ηn ) = ([α0 , v0 ], ..., [αn , vn ]) ein Markowscher Prozeß,
also
1 X
P (αi+1 = ai+1 |αi = ai , vi = wi )
=
Z w ,...,w
0
i
·P (α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi )
=
·
1X
Z w
P (αi+1 = ai+1 |αi = ai , vi = wi )
P (α0
= a0 , v0 = w0 , ..., αi = ai , vi = wi )
i
X
w0 ,...,wi−1
=
1 X
Z w
P (αi+1 = ai+1 |αi = ai , vi = w)
·P (α1
= a1 , ..., αi = ai , vi = w)
Da die Zufallsgröße vi von allen α0 , ..., αi unabhängig ist, können wir fortsetzen, wobei sich der Nenner wieder wegkürzt
=
1 X
Z w
·P (α0
=
X
w
=
X
w
P (αi+1 = ai+1 |αi = ai , vi = wi )
= a0 , α1 = a1 , ..., αi = ai )P (vi = w)
P (αi+1 = ai+1 |αi = ai , vi = wi )P (vi = w)
P (w(ai ) = ai+1 |αi = ai , vi = w)P (vi = w),
(αi )
denn nach Konstruktion ergibt sich αi+1 deterministisch aus αi und vi als vi
also
X
=
δw(ai ) =ai+1 P (vi = w)
w
=
X
,
P (vi = w)
w: w (ai ) =ai+1
= P (v (ai ) = ai+1 ) = Pξ (Fa−1
(ξ) = ai+1 )
i
= pai ,ai+1
aufgrund des Simulationsprinzips und der Definition von v.
Wir haben somit gezeigt, daß der aus (η1 , η2 , ..., ηn ) abgeleitete Prozeß (α1 , α2 , ..., αn )
ein Markovschen Prozeß ist, dessen Übergangsmatrix gerade (pa,b ) ist. Da außerdem α1 nach Konstruktion die Verteilung π besitzt, handelt es sich genau
um den Prozeß, von dem wir ausgegangen sind.
94
Bemerkung: Wir haben im 1. Schritt den Prozeß auf anscheinend kompliziertere Weise erneut konstruiert: Die heuristische Idee zur Konstruktion eines
Markovschen Prozesses besteht ja darin, daß -angelangt im Zustand a zum Zeitpunkt i- ein ’Würfel’ verwendet wird, der die Verteilung (pa,◦ ) auswürfelt, und
daß damit der nächste Zustand b bestimmt wird. Man benutzt also für jedes a
einen anderen Würfel. Wir haben stattdessen einen universellen Würfel benutzt, der für alle a gleichzeitig funktioniert, der η-Prozeß protokolliert das
Ergebnis v des Wurfes mit dem universellen Würfel und den jeweils erhaltenen
neuen Zustand a. Da der Würfel universell ist, können wir ihn im nächsten
Schritt dazu verwenden, zwei gekoppelte Versionen des Prozesses zu erzeugen.
2. Wir nehmen nun zwei (nicht notwendig verschiedene) Startverteilungen
π (1) , π (2) und betrachten die Menge Mk ×Mk ×(Mkk ){0,1,2,...,n} mit dem W-Maß
π (1) × π (2) × Pvn+1 . Genau wie im ersten Schritt generieren wir die Zufallsgrößen
ηb0
:
[α0 , β0 , v0 , ..., vn ] 7−→ [α0 , β0 , v0 ],
(αi )
ηbi+1 : [α0 , β0 , v0 , ..., vn ] 7−→ [vi
i = 0, 1, 2, ..., n − 1.
(βi )
, vi
, vi+1 ],
Auch dies ist wieder ein Markovscher Prozeß, was genau wie im ersten Schritt
gesehen werden kann, und (α0 , ..., αn ) sowie (β0 , ..., βn ), für sich genommen, sind
jeweils Markovsche Prozesse mit derselben Übergangsmatrix (pa,b ), aber evtl.
verschiedenen Startverteilungen π (1) , π (2) , denn die induktive Definition der α’s
und β’s macht vom jeweils anderen Wert keinen Gebrauch.
Sämtliche Zustände der Form [a, b, w] mit a 6= b sind unwesentliche Zustände
in dem konstruierten Prozeß: Man kommt in einem Schritt zu dem Zustand
[w(a) , w(b) , w0 ] mit
w0 := [1, 1, ..., 1],
nämlich für 0 ≤ ξ < mini Fi−1 (1) = mini pi,1 , und diese Ereignis besitzt positive
Wahrscheinlichkeit, da alle pa,b positiv sind.
Der nächste Zustand ist dann [1, 1, w 00 ], und alle folgenden Zustände sind
nun von der Form [x, x, u] nach Definition von ηb.
3. Wir benutzen nun Lemma 61. Es folgt die Existenz einer Konstanten δ < 1
und einer natürlichen Zahl K0 , derart daß
P (αn 6= βn ) ≤ δ n , n ≥ K0 .
(Das Lemma macht zunächst nur eine Aussage über eine einzelne unwesentliche Klasse. Da es aber nur endlich viele unwesentliche Klassen gibt, folgt die
exponentielle Konvergenz gegen 0 auch für die Gesamtheit der unwesentlichen
Zustände.)
95
Wir erhalten nun für beliebiges x ∈ M
π ,(p
)
π ,(p
)
|Pn 1 a,b ({x}) − Pn 2 a,b ({x})|
= |P (αn = x) − P (βn = x)|
(14)
= |P (αn = x, αn = βn ) + P (αn = x, αn 6= βn )
−P (βn = x, αn = βn ) − P (βn = x, αn 6= βn )|
= |P (αn = x, αn 6= βn ) − P (βn = x, αn 6= βn )|
≤ P (αn = x, αn 6= βn ) + P (βn = x, αn 6= βn )
≤ 2P (αn 6= βn ) ≤ 2δ n , n ≥ K0 .
Da die Konstanten δ, K0 in dem Lemma unabhängig von der Startverteilung
sind, ist die zuletzt bewiesene Beziehung ebenfalls unabhängig von der konkreten Wahl von π1 , π2 gültig. Nun fixieren wir ein k ∈ N und setzen π1 = π, π2 =
π,(p )
Pk a,b . Wir starten also den zweiten gekoppelten Prozeß mit derjenigen Verteilung, in der sich der erste Prozeß erst zur Zeit k > 1 befindet. Aufgrund der
Markovschen Eigenschaft sehen wir nun leicht, daß generell folgendes gilt
π ,(pa,b )
Pn 1
π,(pa,b )
= Pn
π ,(pa,b )
2
= Pn−k
, n ≥ k.
Jetzt folgt aus (14) für beliebiges x ∈ M
π,(p
)
π,(pa,b )
|Pn+k a,b ({x}) − Pn
π ,(pa,b )
= |Pn 2
n
({x})|
π ,(pa,b )
({x}) − Pn 1
(15)
({x})|
≤ 2δ , n ≥ K0 .
π,(p
)
Das bedeutet, daß die Zahlen Pn a,b ({x}) für jedes x ∈ M eine CauchyFolge bilden (in sich konvergent), es existiert also jeweils der Limes π
ex :=
π,(p )
limn→∞ Pn a,b ({x}), und es gilt
π,(pa,b )
|e
πx − P n
Daraus folgt sofort die Existenz
X π
ex =
1 −
x∈M
({x})| ≤ 2δ n , n ≥ K0 .
(16)
eines γ < 1 wie im Satz gefordert.
X
X π,(pa,b )
Pn
({x}) −
π
ex x∈M
x∈M
X
π,(p )
≤
|e
πx − Pn a,b ({x})|
x∈M
≤ #M · 2δ n , n ≥ K0 .
P
ex = 1, π
e
Da der letzte Ausdruck für n → ∞ gegen 0 konvergiert, gilt x∈M π
ist eine Wahrscheinlichkeitsverteilung. Wir wählen π
e als Startverteilung. Dann
96
gilt für jedes x ∈ M
π
e,(p
)
|e
πx − P1 a,b ({x})|
X
π
ey py,x |
= |e
πx −
y∈M
π,(p
)
π,(p
)
= |(e
πx − Pn a,b ({x})) + Pn a,b ({x})
X
π,(p )
π,(p )
−
(e
πy − Pn a,b ({y})) + Pn a,b ({y})py,x|
y∈M
π,(pa,b )
≤ |e
πx − Pn
π,(pa,b )
+|Pn
({x})| +
({x}) −
X
X
y∈M
π,(pa,b )
Pn
y∈M
π,(pa,b )
|e
πy − P n
({y})|
({y})py,x|.
Die ersten beiden Summanden gehen wegen (16) gegen 0. Für den dritten Summanden erhalten wir
X π,(p )
π,(p )
|Pn a,b ({x}) −
Pn a,b ({y})py,x |
y∈M
=
π,(p )
|Pn a,b ({x})
π,(pa,b )
≤ |Pn
π,(p
)
− Pn+1 a,b ({x})|
π,(p
)
({x}) − π
ex | + |e
πx − Pn+1 a,b ({x})|
≤ 2γ n , n ≥ N0 ,
π
e ,(p
)
er geht also ebenfalls gegen 0. Wir haben also gezeigt, daß π
e = P0 a,b =
π
e,(pa,b )
π
e,(p )
P1
. Daraus folgt mit vollständiger Induktion sofort π
e = Pn a,b , n ∈
N ∪ {0} (mit π
e als Startverteilung ist der Markovsche Prozeß stationär), und
aus (16) folgt auch sofort (13).
Wir haben gesehen, daß es bei gegebener positiver Übergangsmatrix (pa,b )
genau eine stationäre Startverteilung π
e gibt. Sie ist dadurch charakterisiert,
π
e,(pa,b )
daß π
e = P1
gilt, daraus folgt dann leicht mit vollständiger Induktion
π
e,(p )
π
e = Pn a,b für alle n. Die Beziehung
π
e,(pa,b )
π
e = P1
läßt sich in Matrixschreibweise ausdrücken
π
e = (pa,b )e
π,
wenn π
e als Spaltenvektor aufgefaßt wird. Generell gilt, nicht nur im stationären
Fall,
π,(p )
P1 a,b = (pa,b )π,
97
woraus wieder mit vollständiger Induktion die Beziehung
π,(pa,b )
Pn
= (pa,b )n π
folgt.
Der Satz über die exponentielle Konvergenz gegen die (einzige) stationäre
Anfangsverteilung gilt nicht nur im positiven Fall, sondern genau dann, wenn
die Übergangsmatrix nicht nur irreduzibel, sondern auch aperiodisch ist.
Definition 65 Die Markovsche Übergangsmatrix (pa,b ) heißt irreduzibel und
aperiodisch, wenn es eine natürliche Zahl n0 gibt, derart daß (pa,b )n0 positiv
ist.
Satz 66 (Exponentielle Konvergenz gegen die stationäre Startverteilung) Die
Übergangsmatrix (pa,b ) sei irreduzibel und aperiodisch. Dann existieren eine positive Konstante γ < 1, eine natürliche Zahl N0 und ein Wahrscheinlichkeitsvektor (e
πa )a∈M , so daß für beliebige Startverteilung π die Beziehung
π,(pa,b )
|e
πx − P n
({x})| < γ n
für n ≥ N0 und alle Zustände x ∈ M erfüllt ist.
Es gilt
π
e,(p )
Pn a,b = π
e
(17)
(18)
für alle n.
B e w e i s. Der Satz folgt sehr leicht aus dem vorangegangenen: Wir betrachten zunächst den Prozeß P , der aus P dadurch entsteht, daß man jeweils
n0 Schritte auf einmal macht, wobei n0 die in der Definition der Aperiodizität
auftauchende Zahl ist. Es gilt also
P 0,1,2,..,n = P0,n0 ,2n0 ,...,nn0 .
Der Prozeß ist Markovsch mit Übergangsmatrix (pa,b )n0 . Diese ist positiv. Es
gibt also ein eindeutig bestimmtes π
e und ein γ, so daß
π,(p
)
|e
πx − Pnn0 a,b ({x})| < γ n
für genügend große n gilt, unabhängig von der Startverteilung π. Dann erhalten
wir für beliebiges 0 ≤ r < n0
π,(p
)
a,b
|e
πx − Pnn0 +r
({x})|
P ,(pa,b )
= |e
πx − Pnnr0
98
({x})|,
π,(pa,b )
wobei Pr := Pr
wird. Also gilt
die Verteilung nach r Schritten ist, wenn mit π gestartet
π,(pa,b )
|e
πx − P n
≤ γ
n−n0
n0
n
≤ γ 2n0
j
n
({x})| ≤ γ n0
1 n
= γ 2n0
k
1
für genügend große n, und wir können nun γ := γ 2n0 setzen. Damit ist (17)
bewiesen, und (18) folgt genau wie im vorangegangenen Satz.
....................
Zur Vorbereitung der Prüfung
Ziel der Vorlesung und der Übungen war die Vermittlung grundlegender
Begriffe und Zusammenhänge der Stochastik. Daher wird es in der Prüfung
vor allem darum gehen, die Kenntnis dieser Begriffe und die Sicherheit
des Umgangs mit ihnen einzuschätzen. Es wird nicht unbedingt erwartet,
daß längere Rechnungen und Beweise ’aus dem Stand’ wiederholt werden
können. (Die grundlegende jeweilige Beweisstrategie sollte aber verstanden
worden sein.) Ebensowenig wird, da auf diesem Gebiet sehr unterschiedliche
Vorkenntnisse vorlagen, allgemeine Maßtheorie Gegenstand der Prüfung
sein. Das gilt insbesondere für Studenten aus anderen Fachrichtungen
und Lehramtsstudenten. Stattdessen sollten Sie aber belegen können,
daß
-Ihnen die grundlegenden Definitionen (Wahrscheinlichkeitsverteilungen,
Zufallsgrößen, Verteilungsfunktionen, Dichten, Unabhängigkeit, statistische
Schätzungen und Tests, Konvergenzarten, Markovsche Prozesse,...) vertraut
sind (prüfen Sie Index und Kapitelüberschriften des Skripts sind hier
hilfreich, dort tauchen die behandelten Themen in zusammengefaßter
Form auf)
-Sie die vorgestellten wichtigen Sätze kennen (z.B. Starkes und
Schwaches GdgZ, Moivre-Laplace, Borel-Cantelli,...) (s. auch wieder
den Index, wird noch ergänzt)
-Sie grundlegende Typen von Wahrscheinlichkeitsverteilungen mit
ihren in der Vorlesung genannten charakteristischen Eigenschaften kennen
Prüfungsfragen könnten etwa, mit steigendem Schwierigkeitsgrad,
folgende sein:
-Was ist eine Zufallsgröße?
-Was besagt das Gesetz der großen Zahlen für die relativen Häufigkeiten
von Ereignissen? Worin besteht der Unterschied zwischen der starken
und schwachen Form?
99
-Woraus begründet sich die besondere Rolle der Normalverteilung
in der Stochastik? Welche Bedeutung hat ihre Varianz?
-Können Sie den Beweis des SchwGdgZ skizzieren?
-Können Sie die folgende Aussage mit Hilfe des Lemmas von Borel-Cantelli
beweisen:...
-Wie wird das Steinsche Lemma bewiesen (grundlegende Beweisidee)
...
...
Die Auswahl der Themen wird jeweils durch die Herkunfts-Fachrichtung
mit beeinflußt.
Bitte schauen Sie sich das Skript noch einmal gründlich an. Ich
wünsche Ihnen viel Erfolg bei der Vorbereitung und natürlich bei der
Prüfung!
Ihr Dozent
Rainer Siegmund-Schultze
13
Anhang: Integration über Maßräumen
In diesem Anhang werden einige in der Vorlesung benötigte Begriffe und Resultate (i.A. ohne Beweis) im Zusammenhang mit dem Integralbegriff zusammengefaßt.
Wir setzen generell voraus, daß ein Maßraum [M, A, µ] gegeben ist, wobei µ
der Einfachheit halber als σ-endlich angenommen wird.
Die meisten hier aufgeführten Resultate verallgemeinern die vom Lebesgueschen (oder auch vom historisch älteren Riemannschen) Integralbegriff bekannten Aussagen lediglich auf den allgemeineren Fall eines Maßraumes [M, A, µ]
anstelle des Rd mit dem Lebesgueschen Maß (bzw. Riemannscher Inhalt, elementargeometrisches Volumen).
13.1
Nichtnegative Funktionen
Wir beginnen mit dem einfachsten Fall einer sog. (nichtnegativen) Treppenfunktion. Eine meßbare Funktion f : [M, A] 7−→ [R, B(R)] heißt Treppenfunktion,
wenn sie nur abzählbar oder endlich viele Werte annimmt, d.h. f (M ) = {ci }∞
i=1 .
100
Definition 67 Sei f eine Treppenfunktion mit den Werten {ci }∞
i=1 und f ≥ 0.
Die Summe (nichtnegativer Summanden)
Z
f dµ :=
∞
X
i=1
ci >0
ci µ(f −1 (ci )) ≤ +∞
heißt Integral der Treppenfunktion bezüglich µ. Wenn der Wert endlich ist,
heißt f integrierbar.
Bemerkung. Wenn M abzählbar (oder sogar endlich) ist, sind alle FunktioR
nen
P auf M Treppenfunktionen und der Integralbegriff reduziert sich auf f dµ =
m∈M f (m)µ({m}).
Wir multiplizieren also lediglich die Maße der Mengen, auf denen f konstant
ist, mit dem entsprechenden Funktionswert und summieren alles. Das Integral
ist im nichtnegativen Fall immer definiert, aber nur wenn der Wert endlich ist,
heißt die Funktion integrierbar.
Die Schreibweise variiert, man schreibt auch
(in Fortsetzung
R
R der vom Riemannschen Integral gewohnten Schreibweise) f (m)µ(dm) oder M f (m)µ(dm).
Es ist nun überhaupt nicht schwer, auch für beliebige meßbare Funktionen
f ≥ 0 das Integral zu definieren. Wir approximieren zuerst f von unten durch
eine Treppenfunktion:
j
k
Sei n ∈ N und sei f(n) (m) := 2−n f2(m)
. Die Funktion f(n) erfüllt 0 ≤
−n
f −2−n ≤ f(n) ≤ f . Außerdem gilt für n0 ≥ n auch f(n0 ) ≥ f(n) , denn wir haben
den Wertebereich R+ in Intervalle der Form [i2−n , (i + 1)2−n) zerlegt und f (m)
durch den unteren Intervallendpunkt des betreffenden Intervalls ersetzt. Da für
n0 > n die Zerlegung verfeinert wird, ergibt sich f(n0 ) ≥ f(n) . Also gilt
f(n) %n→∞ f.
f(n) ist meßbar, denn sie nimmt nur die Werte 2−n i, i = 0, 1, 2, ... an (oder
−1 −n
eine Teilmenge davon) und es gilt f(n)
(2 i) = f −1 ([i2−n , (i + 1)2−n )) ∈ A,
denn f selbst ist meßbar. Also ist fn eine Treppenfunktion. Wir betrachten die
aufsteigende Folge
Z
Z
0 ≤ f(n) dµ ≤ f(n+1) dµ, n = 1, 2, ...
Definition 68 Der (eventuell unendliche) Grenzwert
Z
Z
f dµ := lim
f(n) dµ
n→∞
heißt
Integral bezüglich µ der nichtnegativen meßbaren Funktion f . Wenn gilt
R
f dµ < +∞, dann heißt f integrierbar.
Bemerkung. Wenn f nicht integrierbar ist, kann dies folgende Gründe haben.
101
1. Die Mengen f −1 ([c, +∞)) fallen für c % +∞ gegen ∅, aber ihr Maß fällt
nicht schnell genug gegen 0, als daß das Wachstum von f kompensiert werden
könnte.
2. Es gibt ein c > 0 mit µ(f −1 ([c, ∞))) = +∞.
3. Die Mengen f −1 ([c, 1]) wachsen für c & 0 (gegen f −1 ((0, 1])) und ihr
Maß wächst zu schnell gegen +∞, als daß das Abklingen von f kompensiert
würde.
Wenn µ ein endliches Maß ist (z.B. ein Wahrscheinlichkeitsmaß), kann nur
der erste Fall eintreten.
Beim Lebesgueschen Maß µL auf [R, B(R)] sind alle Funktionen der Form
|x|α , x 6= 0
f (x) =
, α ∈ R, nicht-integrierbar, nämlich für α ≥ 0 wegen 2.,
0, x = 0
für α ∈ [−1, 0) wegen 3. und für α ∈ (−∞, −1] wegen 1.
Satz 69 Wenn gilt 0 ≤ g ≤ f , und f ist integrierbar, dann ist auch g integrierbar.
B e w e i s. Für die approximierenden Treppenfunktionen g(n) , f(n) gilt offenbar ebenfalls g(n) ≤ f(n) ,Ralso aufgrund
R der Definition des Integrals der Treppenfunktionen
als
Summe
g
dµ
≤
f(n) dµ, und da die aufsteigende Folge
(n)
R
f(n) dµ nach Voraussetzung
einen
endlichen
Grenzwert hat, gilt dies auch für
R
die aufsteigende Folge g(n) dµ.
Wenn f ≥ 0 meßbar ist und C ∈ A, dann ist auch 1C · f ≤ f meßbar
(Produkt meßbarer Funktionen) und man definiert
Z
Z
f (m)µ(dm) := 1C · f dµ
C
in Analogie zum Riemannschen Integral über einer (elementargeometrischen)
Menge.
Es gilt (wir hatten µ als σ-endlich vorausgesetzt):
R
Satz 70 Die Mengenfunktion µf : C ∈ A 7−→ C f (m)µ(dm) ∈ R+ ist ein
σ-endliches Maß auf [M, A]. Es ist absolut stetig in Bezug auf µ. ( f heißt
Dichtefunktion von µf bezüglich µ.)
Der Beweis ist nicht schwierig, wenn man den weiter unten angegebenen Satz
über monotone Konvergenz benutzt.
13.2
Das Integral reellwertiger Funktionen
Nun ist es einfach, die Einschränkung f ≥ 0 wegzulassen:
Wir betrachten die meßbare Menge Cf,+ := {m ∈ M : f (m) ≥ 0} und
c
· |f | als Differenz nichtzerlegen f in der Form f = f+ − f− = 1Cf,+ · f − 1Cf,+
negativer Funktionen mit disjunktem Positivitätsbereich. Wir sehen leicht, daß
f+ und f− genau dann beide integrierbar sind, wenn |f | = f+ + f− integrierbar
ist.
102
Definition 71 Wir setzen
Z
f dµ :=
Z
f+ dµ −
Z
f− dµ,
falls mindestens eine der beiden Funktionen f+ , f− integrierbar ist. f heißt integrierbar, wenn |f | integrierbar ist, also genau dann wenn beide Funktionen
f+ , f− integrierbar sind.
Für nichtnegatives f stimmt diese Definition der Integrierbarkeit mit der
schon gegebenen überein. Wenn sowohl f+ als auch f− nicht integrierbar ist
(Beispiel: die Funktion x1 sin x), dann ist der Wert des Integrals nicht definiert.
Bemerkung. Man kann für M = R, wie beim Riemannschen Integral,
Z n
f (x)µ(dx)
lim
n→∞
−n
betrachten, und wenn dieser Grenzwert existiert (wie im Beispiel x1 sin x) ein
’uneigentliches’ Integral einführen. Da dessen Wert aber von der Wahl der R
ausschöpfenden Mengenfolge {[−n, n]}n∈N bestimmt wird , gelten bei einer solchen allgemeineren Definition viele grundlegende Aussagen nicht mehr. Außerdem gibt es bei allgemeinem M für die Wahl der Mengenfolge kein kanonisches
Pendant. Man beschränkt sich daher auf die gegebene Definition des Integrals
und befindet sich damit in Analogie zum Begriff der absoluten Summierbarkeit
von Reihen.
In Ausdehnung der bekannten Integrationsregeln gelten nun folgende Aussagen:
Satz 72 (Linearität des Integrals) Wenn f, g integrierbare Funktionen sind
und a, b reelle Zahlen, dann ist auch af + bg integrierbar und es gilt
Z
Z
Z
(af (m) + bg(m))µ(dm) = a f (m)µ(dm) + b g(m)µ(dm).
Satz 73 Für jede integrierbare Funktion f gilt
Z
Z
f dµ ≤ |f | dµ.
b sei ein weic, A]
Satz 74 (Integral bzgl. eines transportierten Maßes) [M
b Dann
c, A].
terer meßbarer Raum, ξ eine meßbare Abbildung von [M, A] in [M
c
b
ist eine meßbare Funktion f : [M , A] 7−→ [R, B(R)] genau dann integrierbar
bezüglich µ ◦ ξ −1 , wenn f ◦ ξ bezüglich µ integrierbar ist, und es gilt
Z
Z
f dµ ◦ ξ −1 = f ◦ ξdµ.
103
(Die letzte Aussage folgt sehr einfach aus der Definition des Integrals, zunächst
für nichtnegative Funktionen, weil
(µ ◦ ξ −1 )(f −1 ([i2−n , (i + 1)2−n ))) = µ(ξ −1 ◦ f −1 ([i2−n , (i + 1)2−n ))),
und dann auch für reelle Funktionen durch Zerlegung in f+ , f− .)
Die folgende Aussage wird sehr oft benötigt. Sie hat die aus der Maßtheorie bekannte Aussage zur Voraussetzung, daß der punktweise Limes meßbarer
Funktionen meßbar ist.
Satz 75 (von Lebesgue über majorisierte Konvergenz) Es sei {fn }n∈N
eine Folge meßbarer Funktionen, f eine integrierbare Funktion mit |fn | ≤ |f |, n ∈
N. Falls der Limes limn→∞ fn (m) für alle m ∈ M existiert, ist limn→∞ fn (·)
eine integrierbare Funktion und es gilt
Z
Z
lim fn (m)µ(dm) = lim
fn (m)µ(dm).
n→∞
n→∞
Häufig kann man folgenden Satz verwenden, der nicht impliziert, daß der
Limes der Funktionenfolge integrierbar ist.
Satz 76 (von Lebesgue über monotone Konvergenz) Es sei {fn }n∈N eine Folge integrierbarer Funktionen mit der Eigenschaft fn (m) %n→∞ f (m), m ∈
M. Dann gilt
Z
Z
fn dµ %n→∞
f dµ.
R
Bemerkung. Das Integral f dµ kann hier den Wert +∞ haben, also u.U.
ist f nicht integrierbar, jedoch ist f− ≤ (f1 )− offenbar integrierbar.
13.3
Vektorwertige Funktionen
Wenn f : [M, A] 7−→ [Rd , B(Rd )] eine vektorwertige meßbare Funktion ist, so
heißt sie integrierbar, falls ||f || integrierbar ist, was (Übungsaufgabe Blatt 6)
zur Integrierbarkeit sämtlicher Koordinaten |fi | äquivalent ist. (||f || und alle
|fi | sind meßbar, denn sie entstehen als Verknüpfung von f mit den stetigen,
also meßbaren Abbildungen x 7−→ ||x|| bzw. x 7−→ |xi |.) Man definiert dann

 R
R f1 dµ
 f2 dµ 
Z


.
·
f dµ := 




R ·
fd dµ
13.4
Lp -Räume meßbarer Funktionen
Wir stellen zunächst fest, daß wir den Rd auch als Vektor-Raum von Funktionen
auf {1, 2, ..., d} auffassen können: x ∈ Rd : i ∈ {1, 2, ..., d} 7−→ xi . Als Maß µ auf
104
{1, 2, ..., d} wählen wir die Gleichverteilung. Der Rd läßt sich auf verschiedene
Weise mit einer Norm versehen:
||x||p :=
bzw.
X
|xi |p
1/p
,p ≥ 1
||x||∞ := max |xi |.
(Es gilt ||x||p →p→∞ ||x||∞ .)
Mit diesen Normen wird der Rd jeweils zu einem Banachraum (vollständiger
normierter Vektorraum).
Die übliche
euklidische Norm ||x|| = ||x||2 wird durch das Skalarprodukt
P
hx, yi =
xi yi generiert, und der Rd mit dem Skalarprodukt ist ein (endlichdimensionaler) Hilbertraum.
Es gilt die Cauchy-Schwarz sche Ungleichung | hx, yi | ≤ ||x|| · ||y||.
Im Fall eines allgemeinen Maßraumes [M, A, µ] läßt sich analog vorgehen.
Zwei meßbare Funktionen f, g sind hinsichtlich des Maßes µ im allgemeinen
Fall nur bedingt unterscheidbar.
Wir nennen f und g äquivalent (bzgl. µ), wenn es eine Menge N ∈ A gibt,
so daß µ(N ) = 0 gilt und f (m) = g(m) für alle m ∈
/ N gilt. Wir schreiben dann
f ˜g oder kürzer f ˜g. Dann unterscheiden sich f+ und g+ bzw. f− und g− auch
µ
nur auf einer Nullmenge und deren Approximationen durch Treppenfunktionen
gleichfalls. Man sieht daher, daß die Integrierbarkeit für beide stets gleichzeitig
vorliegt und die Werte der Integrale übereinstimmen.
Die meßbaren Funktionen bilden einen reellen Vektorraum V. Man prüft
leicht, daß aus f1 ˜g1 und f2 ˜g2 auch af1 + bf2 ˜ag1 + bg2 folgt. Also bilden auch
die Äquivalenzklassen f = {f }˜ := {g : g meßbar und g˜f } auf natürliche Weise
e Aufgrund der Linearität des Integrals bilden die integriereinen Vektorraum V.
baren Funktionen einen linearen Unterraum von V und deren Äquivalenzklassen
e Wir definieren
eine Unterraum L1 (µ) von V.
Z
||f ||1 = ||{f }˜ ||1 := |f |dµ für f ∈ L1 (µ).
Satz 77 ||·||1 ist eine Norm auf L1 (µ) und diese Norm ist vollständig. (L1 (µ), ||·
||1 ) ist also ein Banachraum.
Bemerkung. Der Übergang zu den Äquivalenzklassen ist notwendig, weil sonst
alle Funktionen, die äquivalent zur Nullfunktion sind, die Norm 0 hätten. Eine
Norm ist aber laut Definition nur auf einem Element eines Vektorraums gleich
Null, dem Nullvektor.
Entsprechend kann man für beliebiges p ≥ 1 diejenigen Funktionen
f (bzw.
R
deren Äquivalenzklassen f ) betrachten, die die Eigenschaft |f |p dµ < +∞ hae und man definiert
ben. Sie bilden wiederum einen Unterraum Lp (µ) von V,
Z
1/p
||f ||p = ||{f }˜ ||p :=
|f |p dµ
für f ∈ Lp (µ).
105
Auch in diesem allgemeineren Fall gilt
Satz 78 || · ||p , p ≥ 1 ist eine Norm auf Lp (µ) und diese Norm ist vollständig.
(Lp (µ), || · ||p ) ist also ein Banachraum.
Schließlich bilden die beschränkten Funktionen einen Unterraum von V, soe Wenn f ∈ L∞ (µ),
wie deren Äquivalenzklassen eine Unterraum L∞ (µ) von V.
dann gibt es mindestens ein f in der Äquivalenzklasse f , das beschränkt ist,
also |f | ≤ cf < +∞. Alle anderen Funktionen aus {f }˜ sind beschränkt durch
dasselbe cf bis auf eine entsprechende Nullmenge (sie sind µ-wesentlich beschränkt). Das kleinste derartige cf heißt wesentliches Supremum (für jedes
einzelne Element der Äquivalenzklasse). Man definiert demzufolge
||f ||∞ := inf sup |f (m)|,
f ∈f m∈M
und erhält erneut
Satz 79 ||·||∞ ist eine Norm auf L∞ (µ) und diese Norm ist vollständig. (L∞ (µ), ||·
||∞ ) ist also ein Banachraum.
Eine besondere Rolle unter den Lp -Räumen spielt der L2 (µ). Hier kann man
nämlich die Norm aus einem Skalarprodukt erhalten. Wir setzen
Z
hf, gi := f · gdµ, f, g ∈ L2 (µ).
Es gilt nämlich
Satz 80 (Cauchy-Schwarzsche Ungleichung) Sind f, g zwei meßbare Funktionen, dann ist
Z
|f (m)g(m)|µ(dm) ≤
Z
f 2 (m)µ(dm)
1/2 Z
g 2 (m)µ(dm)
1/2
.
Dann ist hf, gi endlich für f, g ∈ L2 (µ), denn f · g ist wegen dieser Ungleichung integrierbar.
Nun gilt
Satz 81 h·, ·i ist ein Skalarprodukt auf L2 (µ) und die dadurch bestimmte Norm
ist vollständig. (L2 (µ), h·, ·i) ist also ein Hilbertraumraum.
106
13.5
Die Jensensche Ungleichung
Viele wichtige Ungleichungen in der Mathematik lassen sich auf ein Konvexitätsargument zurückführen, die Jensensche Ungleichung.
Zunächst erinnern wir daran, daß eine Teilmenge K des Rd (oder allgemeiner
eines Vektorraumes über R) konvex heißt, wenn für zwei Punkte x, y ∈ K und
beliebiges λ ∈ [0, 1] auch λx + (1 − λ)y ∈ K gilt.
Definition 82 Eine Abbildung f von einer konvexen Teilmenge K des Rd (oder
f (x)+f (y)
allgemeiner eines Vektorraumes) in R heißt konvex, wenn f ( x+y
2 ) ≤
2
für alle x, y ∈ K erfüllt ist, und streng konvex, wenn in dieser Beziehung die
Gleichheit genau dann gilt, falls x = y.
Bemerkung: Konvexe Funktionen sind im Innern des betreffenden konvexen
Definitionsbereiches K stetig, also dort auch meßbar (auf dem Rand kann eine
konvexe Funktion sogar nicht-meßbar sein, allerdings nicht im Fall d = 1, denn
im eindimensionalen Fall sind die einzigen konvexen Mengen -u.U. unendlicheIntervalle, der Rand besteht also aus höchstens zwei Punkten).
Im Falle d = 1 gilt:
Satz 83 Wenn f stetig und im Innern von K differenzierbar ist, und f 0 (streng)
monoton wachsend, dann ist f (streng) konvex.
Falls f sogar zweimal differenzierbar ist, ist die Funktion also (streng) konvex, wenn f 00 (positiv) nichtnegativ ist. Dieses Kriterium gilt auch für d > 1 in
dem Sinne, daß die positive Semi-Definitheit der zweiten Ableitungsmatrix hinreichend für Konvexität und ihre positive Definitheit hinreichend für die strenge
Konvexität ist.
Satz 84 (Jensensche Ungleichung) Es sei K abgeschlossen und konvex, f
eine meßbare konvexe Funktion mit Definitionsbereich K ⊆ Rd , sowie µ ein
Wahrscheinlichkeitsmaß auf [Rd , B(Rd )] mit µ(K) = 1. Dann gilt
Z
Z
f
xµ(dx) ≤ f (x)µ(dx),
und wenn f sogar streng konvex ist und µ({x}) 6= 1 für alle x ∈ K gilt, dann
ist die linke Seite echt kleiner als die rechte.
P∞
Ein einfacher Spezialfall ergibt sich, falls µ diskret ist. Dann ist µ = i=1 pi δxi
für eine Folge {x1 , x2 , ...} von Punkten aus K und wir erhalten
!
∞
∞
X
X
p i xi ≤
f
pi f (xi ),
i=1
i=1
wobei für streng konvexes f die Gleichheit genau dann gilt, wenn alle xi identisch
sind.
107
14
Index
σ-Additivität 10
σ-Algebra 10
-Produkt 18
Bayessche Formel 22
bedingte Wahrscheinlichkeit 21
Borel-meßbar 11
Borelsche σ-Algebra 11
Chebyschevsche Ungleichung 41
Coupling 92
Dichtefunktion 14
Einpunktverteilung 14
Elementarereignis 4, 7
σ-endlich 13
endliche Additivität 7
Entropie 23, 52
-relative 74
Erwartungswert 37
Exponentialverteilung 4
Fehler 1. und 2. Art 71
Formel der totalen Wahrscheinlichkeit 22
Gaußsche Glockenkurve 34
Gesetz der großen Zahlen 4, 5, 6
-schwaches 35
Gleichverteilung 12
-diskrete 13
Große Abweichungen 35
Gütefunktion 72
Halbring 15
Halbwertszeit 25
Hypothesentest 71
Information 23
Informationsquelle 51
Konfidenzintervall 71
Konvergenz
108
-dem Maße nach 59
-fast sicher 59
-in Wahrscheinlichkeit 59
Kovarianzmatrix 43
Lebesguesches Maß 12
Lempel-Ziv-Algorithmus 55
Markovsche Ungleichung 39
Maß 12
-absolut stetiges 15
-diffuses 13
-diskretes 15
-Produkt 20
- Lebesguesches 12
-singuläres 15
-Transport eines 18
Maßraum 12
Maximum-Likelihood-Schätzung 73
meßbarer Raum 12
meßbare Menge 14
Meßbarkeit 10
Normalverteilung 34
-mehrdimensionale 46
-Standard 34
Observable 18
Parameter 70
Prozeß -i.i.d. 88
-Markovscher 88
-stochastischer 79
-Stationarität 87
Punktschätzung 71
Randverteilung 79
Schätzung
-erwartungstreu 72
-Intervall 71
-Maximum-Likelihood 73
-Punkt 71
sicheres Ereignis 11
Signifikanzniveau 72
Standardabweichung 34
Standardnormalverteilung 34
109
Startverteilung 88
Stationarität 87
Statistik 70
-parametrische 70
Stichprobe 70
Stichprobenraum 70
Streuung 41
Trajektorie 87
Übergangsmatrix 88
-irreduzible 92
-positive 92
Unabhängigkeit 8
-paarweise 19
-vollständige 19
-zweier Ereignisse 9
-zweier Zufallsgrößen 19
Unkorreliertheit 40
unmögliches Ereignis 11
Varianz 34, 41
Verfeinerung des Ereignisraumes 8
Vergröberung des Ereignisraumes 7
Verteilung
-absolut stetige 15
-diffuse 13
-diskrete 15
-endlichdimensionale 79
-Exponential 4, 25
-geometrische 24
-Normal 34
-Poissonsche 36
-Produkt 20
-singuläres 15
-verträgliche Familie 80
Verteilungsfunktion 16
Wahrscheinlichkeitsmaß 12
Wahrscheinlichkeitsraum 12
Zählmaß 12
Zerfallsrate 25
Zufallsgröße 18
zusammengesetztes Ereignis 4
Zustandsraum 87
110
Zustände
-Äquivalenz 89
-unwesentliche 89
-wesentliche 89
Zylindermengen 80
111
Zugehörige Unterlagen
Herunterladen