Einführung in die Stochastik Universität Zürich Wintersemester 2003

Werbung
Einführung in die Stochastik
Universität Zürich
Wintersemester 2003/2004
Erwin Bolthausen
Literatur: Die Literatur über Wahrscheinlichkeitsrechnung ist immens. Hier nur eine
kleine Auswahl:
W. Feller: An Introduction to Probability Theory and Its Applications
Das ist der Klassiker. Die Paperback-Version ist leider vergri¤en, sodass das Buch
ziemlich teuer ist.
D. Williams: Probability with Martingales
G. Grimmett, D. Stirzaker: Probability and Random Processes
H.O. Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik
1
Diskrete Wahrscheinlichkeitsräume
In diesem Kapitel wird der Begri¤ “Wahrscheinlichkeit”mathematisch präzisiert. Zufallsereignissen werden dabei Wahrscheinlichkeiten zugeordnet. (Man spricht dann von der
“Wahrscheinlichkeit eines Ereignisses”). Auf die naheliegende Frage, was Wahrscheinlichkeiten “wirklich” sind, werden wir jedoch nur sehr rudimentär eingehen, weil wir
dann zuerst erklären müssten, was “Zufall” ist. Bekanntlich gibt es philosophische und
religiöse Systeme, die dem Zufall keinen Platz einräumen. Um Auseinandersetzungen
zu diesen Fragen zu vermeiden, legt die Mathematik nur Regeln fest, nach denen mit
Wahrscheinlichkeiten umgegangen wird. Was diesen in der Wirklichkeit entspricht und
ob überhaupt irgend etwas, bleibt dem Einzelnen überlassen zu entscheiden. Natürlich
wird in diesem Text dieser Standpunkt nicht konsequent durchgehalten, und wir werden
des öfteren Interpretationen von Wahrscheinlichkeiten “vorschlagen”. In einem Anhang
1.A zu diesem Kapitel werden einige Erläuterungen zu verschiedenen Ansätzen gegeben.
Zunächst muss der Begri¤ “Ereignis” präzisiert werden. Am besten zerlegt man
die Ereignisse gewissermassen in Atome, in die sogenannten Elementarereignisse: die
kleinsten Ereignisse, die in einer bestimmten Situation interessant oder von Bedeutung
1
sind. Die Festlegung, was in einer Situation die Elementarereignisse sind, ist teilweise
willkürlich. Formal sind die Elementarereignisse einfach die Elemente einer (zunächst)
endlichen oder abzählbaren Menge, die meist mit bezeichnet wird.
Die Wahrscheinlichkeitender Elementarereignisse ! 2
sind Zahlen p(!) zwischen 0 und 1, die sich auf 1 aufsummieren.
De…nition 1.1
Ein diskreter Wahrscheinlichkeitsraum ( ; p) besteht aus einer endlichen
oder abP
zählbar unendlichen Menge und einer Abbildung p : ! [0; 1], für die !2 p(!) = 1
gilt.
Da alle p(!) P
0 sind, spielt selbst im Fall, wenn
unendlich ist, die Reihenfolge
der Summation in !2 p(!) keine Rolle. Genau genommen handelt es sich um einen
Grenzwert.
Man wählt zunächst
P
Pn eine Abzählung ! 1 ; ! 2 ; : : : der Elemente von . Dann
ist
p(!)
=
lim
n!1
!2
i=1 p(! i ), wobei der Grenzwert nicht von der gewählten
Abzählung abhängt, da die p(!) 0 sind.
Soweit ist mathematisch alles sehr einfach. Falls mit Wahrscheinlichkeitsräumen konkrete Zufallssituationen modelliert werden sollen, so gibt es in der Regel mehr als eine
“vernünftige” Wahl für einen Wahrscheinlichkeitsraum. Man wählt
oft so, dass die
einzelnen Elementarereignisse ! 2 als gleich wahrscheinlich erscheinen, was natürlich
nur möglich ist, wenn endlich ist. In diesem Fall erhalten alle Elementarereignisse !
den Wert p (!) = 1= j j : Einige Beispiele dazu:
Beispiele 1.2
1. Beim Würfeln mit einem Würfel wählt man = f1; 2; 3; 4; 5; 6g. Dabei ist i 2
das Elementarereignis, dass die Zahl i geworfen wird. Ist der Würfel nicht gezinkt,
so wird man p(i) = 1=6 für alle i 2 setzen.
2. Als Elementarereignisse beim Würfeln mit 2 Würfeln fassen wir alle möglichen
Kombinationen von Augenzahlen auf. besteht in diesem Fall aus 36 Elementarereignissen: = f(1; 1); (1; 2); : : : ; (6; 6)g = f1; 2; 3; 4; 5; 6g2 . Wir setzen p((i; j)) =
1=36 für jedes Elementarereignis.
3. Ein Stapel mit n Karten wird gut gemischt. Wir denken uns die Karten von 1 bis
n durchnumeriert. Die Elementarereignisse sind die möglichen Reihenfolgen dieser
n Karten, etwa bei n = 3:
= f(1; 2; 3); (1; 3; 2); (2; 1; 3); (2; 3; 1); (3; 1; 2); (3; 2; 1)g:
Bei guter Mischung wird man jede Reihenfolge als gleich wahrscheinlich betrachten
können. Jedes Elementarereignis hat dann Wahrscheinlichkeit 1=n!.
Natürlich sollen nicht nur den Elementarereignissen Wahrscheinlichkeiten zugeordnet
werden, sondern auch zusammengesetzten Ereignissen, etwa in Beispiel 1.2.2 oben dem
Ereignis, dass die beiden Augenzahlen gleich sind. Ereignisse sind einfach Zusammensetzungen von Elementarereignissen. In mathematischer Formulierung:
2
De…nition 1.3
( ; p) sei ein Wahrscheinlichkeitsraum. Die Teilmengen von heissen Ereignisse.
Für
P
ein Ereignis A
ist die Wahrscheinlichkeit von A de…niert durch P (A) = !2A p(!).
Die leere Menge ; ist das sogenannte unmögliche Ereignis, es hat Wahrscheinlichkeit
P (;) = 0. Die Grundmenge ist das sichere Ereignis. Dieses hat die Wahrscheinlichkeit P ( ) = 1:
Es hat sich eingebürgert, Ereignisse mit grossen lateinischen Buchstaben vom Anfang
des Alphabets zu bezeichnen: A; B; C; : : : . Die Wahrscheinlichkeit wird meist mit einem
grossen P (englisch “probability”) bezeichnet. Es mag etwas verwirren, dass Ereignisse
Teilmengen sind. Am anschaulichsten ist vielleicht die folgende Vorstellung: Das zufällige
Geschehen besteht in der zufälligen Auswahl eines Elementarereignisses. Eine Teilmenge
A von entspricht dann dem Ereignis, dass dieses zufällig gewählte Elementarereignis
in A liegt.
Mengenoperationen entsprechen mithin aussagenlogischen Operationen gemäss der
folgenden Übersetzungstabelle:
Sprache der Ereignisse
A; B; C sind Ereignisse
A und B
A oder B
nicht A
A und B schliessen sich aus
A impliziert B
Mengenschreib- bzw. Sprechweise
A; B; C sind Teilmengen von
A\B
A[B
Ac = n A
A\B =;
A B
Für jedes Elementarereignis ! ist die Menge f!g o¤enbar ein Ereignis, das sich
formal mathematisch von ! unterscheidet. Elementarereignisse sind formal nach unserer
De…nition keine Ereignisse. Sowohl p(!) als auch P (f!g) bezeichnen die Wahrscheinlichkeit von ! 2 . Diese Unterscheidung ist natürlich etwas spitz…ndig, und wir werden
darauf nicht herumreiten.
Wahrscheinlichkeiten genügen einigen einfachen Regeln, die im nächsten Satz aufgelistet sind.
Satz 1.4
Es sei ( ; p) ein Wahrscheinlichkeitsraum.
1. Für jedes Ereignis A gilt 0
P (A)
1:
2. P (;) = 0, P ( ) = 1.
3. Sind Ereignisse Ai für i 2 N paarweise disjunkt (d.h. Ai \ Aj = ; für i 6= j), so gilt
P
[
i2N
Ai =
1
X
i=1
3
P (Ai ):
(1.1)
4. In 3. ohne die Voraussetzung, dass die Ai paarweise disjunkt sind, gilt
P
[
i2N
1
X
Ai
P (Ai ):
(1.2)
i=1
5.
A
B ) P (B) = P (A) + P (B n A):
6.
A
B ) P (A)
P (B):
7.
P (A [ B) = P (A) + P (B)
P (A \ B):
Die Eigenschaft (1.1) nennt man auch -Additivität und die Eigenschaft (1.2) nennt
man -Subadditivität.
Bemerkung 1.5
Gilt An+1 = An+2 =
P
[n
i=1
= ; für ein n
Ai =
n
X
P (Ai )
1, so besagen c) und d)
bzw:
i=1
P
[n
i=1
Ai
n
X
P (Ai ):
i=1
Dies nennt man auch die endliche Additivität bzw. endliche Subadditivität.
Beweis von Satz 1.4.
S 1. und 2. folgen sofort aus der De…nition.
3., 4.: Jedes ! 2 1
i=1 Ai gehört zu mindestens einem der Ai und zu genau einem,
wenn die Ai paarweise disjunkt sind. Demzufolge gilt
P
[
i2N
Ai =
!2
X
S
p(!) =
1 X
X
i=1 !2Ai
i2N Ai
p(!) =
1
X
P (Ai );
i=1
wenn die Ai paarweise disjunkt sind. Im Fall 4. ist das mittlere Gleichheitszeichen durch
„ “ zu ersetzen, denn die p(!)’s werden in der Summe auf der rechten Seite eventuell
mehrfach gezählt, nämlich einmal für jede Menge Ai , die das entsprechende ! enthält.
5. Es gelten B = A [ (B n A) und A \ (B n A) = ;. Somit ist nach 3. P (B) =
P (A) + P (B n A).
6. folgt aus 5. und P (B n A) 0.
7. Wir haben die folgenden Zerlegungen in disjunkte Teilmengen:
A [ B = (A n B) [ B
und
A = (A n B) [ (A \ B):
4
Nach 5. gelten:
P (A [ B) = P (A n B) + P (B);
P (A) = P (A n B) + P (A \ B):
Subtrahiert man die zweite Gleichung von der ersten, so folgt 7.
Beispiele 1.6
1. In Beispiel 1.2.2 wird man jedem Elementarereignis die Wahrscheinlichkeit 1=36 zuordnen. Für jedes Ereignis A ist P (A) = jAj=36, wobei jAj die Anzahl der Elemente
in A ist. Sei z.B. A = f(1; 1); (2; 2); : : : ; (6; 6)g das Ereignis, dass die Augenzahlen
gleich sind. Dann ist P (A) = 6=36 = 1=6.
2. In einem Kartenspiel mit einer geraden Anzahl (= 2n) von Karten be…nden sich 2
Joker. Nach guter Mischung werden die Karten in zwei gleich grosse Haufen aufgeteilt. Wie gross ist die Wahrscheinlichkeit, dass beide Joker im gleichen Haufen
sind?
Wir wählen = f (i; j) 2 f1; 2; : : : ; 2ng2 : i 6= jg als Menge der Elementarereignisse. Hierbei ist (i; j) 2
das Elementarereignis, dass sich der erste Joker am
Platz i und der zweite am Platz j be…ndet. Nach guter Mischung hat jedes dieser
Elementarereignisse die Wahrscheinlichkeit p((i; j)) = 1=j j = 1=2n(2n 1). Das
uns interessierende Ereignis ist
A = f (i; j) 2 f1; 2; : : : ; ng2 : i 6= jg [ f(i; j) 2 fn + 1; : : : ; 2ng2 : i 6= jg:
Dieses enthält 2 n(n
1) Elementarereignisse. Somit ist P (A) =
2n(n 1)
2n(2n 1)
=
n 1
2n 1 :
3. Eine Münze wird n-mal geworfen.
sei die Menge der n-Tupel, bestehend aus
“Zah” und “Kopf”. Somit ist j j = 2n . Haben alle n-Tupel gleiche Wahrscheinlichkeiten, so hat jedes Elementarereignis Wahrscheinlichkeit 2 n . Es sei Ak das
Ereignis, dass k-mal „Zahl“ fällt. Ak enthält nk Elementarereignisse. Es gilt also
P (Ak ) = nk 2 n :
4. Urnenmodell: In einer Schachtel (Urne) be…nden sich r rote und s schwarze Kugeln. Eine Kugel wird zufällig herausgenommen. Mit welcher Wahrscheinlichkeit
ist sie rot? Wir denken uns die Kugeln von 1 bis r + s durchnumeriert. Die Kugeln
mit den Nummern 1 bis r sind rot; die anderen schwarz. Für
nehmen wir die
Menge f1; 2; : : : ; r + sg. Dann ist i 2
das Elementarereignis, dass die Kugel i
gezogen wird. Diese Elementarereignisse sind nach guter Mischung gleich wahrscheinlich. Unser Ereignis enhält r Elementarereignisse. Seine Wahrscheinlichkeit
ist also r=(r + s).
Die Festlegung der Wahrscheinlichkeiten der Elementarereignisse ist ein aussermathematisches Problem. In den bisherigen Beispielen hatten die Elementarereignisse jeweils
alle die gleichen Wahrscheinlichkeiten. Dies ist vernünftig, wenn alle Elementarereignisse
als “gleich möglich”erscheinen, oder wenn kein Grund für eine Ungleichbehandlung der
5
Elementarereignisse vorliegt. Tatsächlich wählt man die Zerlegung in Elementarereignisse oft unter diesem Gesichtspunkt.
Ein Beispiel dazu: Jemand wirft zwei Würfel. Interessiert er sich nur für die Augensumme, so kann er als Elementarereignisse die möglichen Ergebnisse dafür nehmen: =
f2; 3; 4; : : : ; 12g. Es ist o¤ensichtlich, dass diese Elementarereignisse nicht gleichwertig
sind. Deshalb nimmt man besser die Elementarereignisse aus Beispiel 1.2.2.
In vielen Fällen wäre die Festlegung, dass alle Elementarereignisse gleich wahrscheinlich sind, aber ganz unsinnig.
Als Beispiel betrachten wir das Problem festzulegen, wie gross die Wahrscheinlichkeit ist, mit der etwa ein produziertes Werkstück in einem Fertigungsprozess defekt
ist. In Fällen, wo man auf lange Produktionsreihen zurückgreifen kann, setzt man die
Wahrscheinlichkeit als die relative Häu…gkeit des Defekts an. Eine gewisse theoretische
Begründung für diesen Ansatz gibt das Gesetz der grossen Zahlen (siehe Kapitel 3). Sind
etwa bei der Produktion von 10 000 Werkstücken 200 defekt gewesen, so wird man die
Wahrscheinlichkeit als 0,02 annehmen. Dabei handelt es sich nicht um eine „Naturkonstante“, sondern lediglich um eine Arbeitshypothese, die gegebenenfalls wieder revidiert
werden muss. Das Vertrauen, das man zu einem über relative Häu…gkeiten ermittelten
Wert für eine Wahrscheinlichkeit hat, hängt natürlich auch von der Anzahl der Versuche ab. Es ist z.B. klar, dass 200 Defekte auf 10 000 aussagekräftiger ist, als 2 auf 100.
Eine genauere Diskussion derartiger Probleme gehört in die Statistik. (siehe auch die
Diskussion im Anhang 1.A).
Nun ein Beispiel mit einem unendlichen Wahrscheinlichkeitsraum:
Beispiel 1.7
Eine Münze wird so lange geworfen, bis zum erstenmal “Kopf”fällt. Wir wählen als die
natürlichen Zahlen N. Das Elementarereignis i 2 N bedeutet, dass zum erstenmal beim iten Wurf “Kopf”fällt. Wie gross ist p(i)? Dass i eintritt, ist auch ein Elementarereignis in
unserem Beispiel 1.6, 3., nämlich, dass zunächst (i 1)-mal “Zahl”fällt undPdann “Kopf”.
Somit ist p(i) = 2 i . Die p(i) erfüllen die Bedingung in De…nition 1.1: i2N p(i) = 1.
Also ist ( ; p) ein Wahrscheinlichkeitsraum.
In unserem Modell ist das Ereignis, dass “Kopf” nie fällt, das unmögliche Ereignis.
Die Wahl von in diesem Beispiel erscheint etwas künstlich. In der Tat wählt man meist
für die Menge der unendlich fortgesetzten Münzwürfe, d.h. fK; ZgN : Da diese Menge
nicht mehr abzählbar ist, ist es aber nicht mehr möglich, im Rahmen der De…nition 1.1
zu arbeiten. Siehe dazu Satz 2.19 und die dazugehörige Diskussion im nächsten Kapitel.
Zum Schluss noch eine Verallgemeinerung von Satz 1.4.7: A1 ; : : : ; An seien n Ereignisse. A1 [
[ An ist das Ereignis, dass mindestens eines der Ai eintritt.
6
Satz 1.8 (Ein- und Ausschlussprinzip)
Sei n 2 und A1 ; : : : ; An
. Dann gilt
P (A1 [
[ An ) =
n
X
X
P (Ai )
i=1
P (Ai1 \ Ai2 ) +
i1 <i2
n 1
+ ( 1)
X
i1 <i2 <i3
P (A1 \ A2 \
P (Ai1 \ Ai2 \ Ai3 )
\ An ):
Beweis. Induktion nach n: Für n = 2 ist dies Satz 1.4.7.
Induktionsschluss:
P (A1 [
[ An+1 ) = P (A1 [
[ An ) + P (An+1 )
P ((A1 [
[ An ) \ An+1 )
und nochmals nach Satz 1.4.7. folgt
P (A1 [
[ An+1 ) =
n+1
X
P (Ai )
i=1
+
X
X
1 i1 <i2 n
1 i1 <i2 <i3 n
P (Ai1 \ Ai2 )
P (Ai1 \ Ai2 \ Ai3 )
P ((A1 \ An+1 ) [ (A2 \ An+1 ) [
:::
[ (An \ An+1 ))
nach Induktionsvoraussetzung und dem Distributivgesetz für Mengenoperationen. Wendet man auf den letzten Summanden nochmals die Induktionsvoraussetzung an, so folgt
die Behauptung.
Beispiel 1.9
Als Anwendung des Ein- und Ausschlussprinzips lösen wir das folgende Problem: Ein
Briefschreiber verfasst n Briefe und beschreibt auch schon n Umschläge mit Anschriften.
In einem Akt der Zerstreutheit steckt er jedoch die Briefe ganz zufällig in die Umschläge
und sendet sie ab. Mit welcher Wahrscheinlichkeit kommt kein Brief richtig an?
Wir numerieren sowohl Briefe wie Umschläge von 1 bis n durch. Der Brief i gehört
zum Umschlag i. sei die Menge aller Permutationen (das heisst der bijektiven Selbstabbildungen) von f1; : : : ; ng. Mit (i) bezeichnen wir die Nummer des Umschlages, in
den Brief i gesteckt wird. Die Zerstreutheit des Abpackers kommt darin zum Ausdruck,
dass wir jeder möglichen Permutation die gleiche Wahrscheinlichkeiten 1=n! zuweisen.
Wir interessieren uns dann für P (A),
A=f
2
: (i) 6= i 8 i g:
Es erweist sich als zweckmässig, das Gegenereignis Ac zu untersuchen:
Ac =
n
[
i=1
7
Bi ;
wobei Bi das Ereignis ist, dass der Brief i richtig eingesteckt ist: Bi = f
Nun verwenden wir den vorherigen Satz 1.8:
!
n
n
[
X
X
P
Bi =
P (Bi )
P (Bi1 \ Bi2 ) +
+ ( 1)n+1 P (B1 \
i=1
i=1
i1 <i2
: (i) = i g.
\ Bn ):
Das sieht nun sehr kompliziert aus, ist es aber nicht: Für 1 k n und i1 <
< ik
ist Bi1 \ \ Bik das Ereignis, dass die Briefe i1 ; : : : ; ik im richtigen Umschlag sind. Das
lässt die Zuordnung der n k restlichen völlig o¤en. Bi1 \
\ Bik enthält also (n k)!
Elementarereignisse, hat also Wahrscheinlichkeit (n k)!=n!. Demzufolge ist
X
i1 < <ik
P (Bi1 \
\ Bik ) =
1
n (n k)!
= :
n!
k!
k
Daher ist
P (A) = 1
P (Ac ) = 1
=
Für grosse n ist das ' 1
e
1
2!
1
1
1
+ +
+ ( 1)n+1
2! 3!
n!
1
1
1
+ +
+ ( 1)n :
3! 4!
n!
1
1.
Zum Abschluss des Kapitels noch einige (im Moment mehr abstrakte) Erläuterungen
zum Begri¤ des Wahrscheinlichkeitsraums. Es bezeichne P( ) die Potenzmenge von .
Dann ist P eine Abbildung von P( ) nach [0; 1], die gemäss Satz 1.4 den folgenden
Kolmogoro¤schen Axiomen genügt.
Axiom 1.10
P ( ) = 1:
Axiom 1.11
Ist I eine höchstens abzählbare Indexmenge und (Ai )i2I eine Familie von paarweise
disjunkten Teilmengen von so gilt
[
X
P ( Ai ) =
P (Ai ):
i2I
i2I
Ist eine abzählbare Menge, so legt eine Abbildung P : P( ) ! [0; 1], die die Axiome
1.10 und 1.11 erfüllt, legt einen Wahrscheinlichkeitsraum im Sinne von De…nition 1.1
eindeutig fest, wie die folgende Überlegung zeigt: Wegen P ( ) = P ( [;) = P ( )+P (;)
(nach 1.11) folgtPP (;) = 0. Für ! 2 sei p(!) de…niert durch P (f!g). Wegen 1.11 gilt
. Mit A =
folgt somit aus Axiom 1.10
dann
P (A) =
!2A p(!) für alle A
P
p(!)
=
1.
Also
ist
(
;
p)
ein
Wahrscheinlichkeitsraum
im Sinne von De…nition
!2
1.1 und P (A) berechnet sich gemäss der De…nition 1.3. Unsere De…nition 1.3 ist also
gleichbedeutend damit, dass P : P( ) ! [0; 1] mit 1.10 und 1.11 gegeben ist.
8
Die Bedeutung des Kolmogoro¤schen Aufbaus liegt darin, dass er sich auf überabzählbare Mengen verallgemeinern lässt. Überabzählbare Wahrscheinlichkeitsräume sind für
die weiterführende Theorie unerlässlich. Obwohl wir sie in dieser Vorlesung nur am Rande benötigen werden, sollen einige Erklärungen dazu schon hier vorgestellt werden. Die
naheliegenste Idee ist die folgende: Sei
eine beliebige Menge. Dann bezeichnen wir
einfach eine Abbildung P : P( ) ! [0; 1] mit den Axiomen 1.10 und 1.11 als eine Wahrscheinlichkeit auf P( ) und zwar ganz unabhängig davon, ob wir diese wie in De…nition
1.3 durch Summation über Elementarereignisse gewinnen können. Man nennt P dann
meist ein Wahrscheinlichkeitsmass. Soweit ist das ganz einfach. Die Tücke ist jedoch, dass
für die meisten Situationen eine derartiges Wahrscheinlichkeitsmass gar nicht existiert.
Der Ausweg besteht dann darin, dass man P nicht auf ganz P( ) de…niert sondern nur
auf einem kleineren Mengensystem, das jedoch alle Teilmengen von enthält, die einem
“vernünftigerweise” interessieren. Dies führt auf die folgenden abstrakten De…nitionen:
De…nition 1.12
Sei eine beliebige (nicht leere) Menge.
1. Eine Teilmenge F P ( ) nennt man eine -Algebra, wenn die folgenden Bedingungen erfüllt sind:
(a) ?; 2 F
(b) Ist A 2 F so ist auch das Komplement Ac 2 F:
(c) Sind Mengen
Ai 2 F; i 2 I; wobe I eine abzählbare Indexmenge ist, so ist
S
auch i2I Ai 2 F:
Die Elemente von F; d.h. die Teilmengen von
Ereignisse.
; die zu F gehören, nennt man die
2. Sei
versehen mit einer -Algebra F: Eine Abbildung P : F ! [0; 1] heisst ein
Wahrscheinlichkeitsmass auf F; wenn die Axiome 1.10 und 1.11 erfüllt sind,
wobei in Axiom 1.11 die Ai in F sind. Das Trippel ( ; F; P ) nennt man dann eine
Wahrscheinlichkeitsraum.
Diese allgemeine und abstrakte De…nition hat für uns im Moment keine grosse Bedeutung und wir kommen für die nächsten Kapitel weitgehend mit der elementaren
De…nition 1.1 aus. Es wird sich jedoch zeigen, dass die elementare De…nition eines Wahrscheinlichkeitsraumes auf die Dauer nicht ausreichen wird. Es sollte betont werden, dass
die Einschränkung auf Ereignisse, die in F liegen aus rein mathematischen Gründen
erfolgt, wie wir später sehen werden. Mit den Beispielen, die wir im Moment haben,
können wir dies nicht motivieren.
Noch eine Bemerkung zu -Algebren: Diese sind natürlich nicht nur abgeschlossen gegenüber abzählbaren Vereinigungen sondern auch gegenüber abzählbaren Durschnitten:
Sind Ai 2 F; i 2 I; wobe I abzählbar ist, so gilt
[
\
c
(1.3)
Aci 2 F
Ai =
i2I
i2I
nach den obigen Eigenschaften einer -Algebra.
9
1.A
Anhang: Was sind Wahrscheinlichkeiten “wirklich”?
Obwohl wir hier nicht ausführlich darauf eingehen wollen, was Zufall und Wahrscheinlichkeiten “wirklich” sind, sollen hier die wichtigsten Konzepte kurz dargestellt werden.
1. Laplace Konzept: Das ist einfach das hier schon vorgestellte Verfahren: Wahrscheinlichkeit gleich Anzahl günstiger Fälle dividiert durch Anzahl möglicher Fälle.
Die Reichweite dieser Methode, Wahrscheinlichkeiten festzulegen, ist o¤ensichtlich
ziemlich beschränkt.
2. Frequentistische Wahrscheinlichkeiten: Wir gehen davon aus, dass ein Zufallsexperiment unter gleichbleibenden Bedingungen oft wiederholt werden kann.
Wahrscheinlichkeiten werden dann als die relativen Häu…gkeiten de…niert, mit der
ein Ereignis auftritt. Wenn Sie einen Würfel 1000 mal werfen und er fällt 400 mal
auf die Drei, so setzen sie mit diesem Ansatz die Wahrscheinlichkeit für “Drei”
gleich 0:4; in Abweichung vom Laplaceschen Ansatz. Dieser frequentistische Ansatz ist in den Naturwissenschaften sehr beliebt. Die Problematik besteht natürlich
darin, dass meist nicht genau präzisiert ist, was “unter gleichbleibenden Bedingungen” genau bedeutet.
3. Subjektivistische Wahrscheinlichkeiten: Es ist o¤ensichtlich, dass man manchmal von Wahrscheinlichkeiten sprechen möchte, wenn man auf keine langen Versuchsreihen zurückblicken kann und schon gar nicht auf solche, bei denen die Einzelversuche “unter gleichbleibenden Bedingungen” stattgefunden haben. Ein Kriminalkommissar hat in einem Mordfall einen Verdächtigen X im Auge und sagt,
dieser sei mit 60% Wahrscheinlichkeit der Täter. Der Kommissar hat vielleicht viel
Erfahrung und will damit zum Ausdruck bringen, dass “unter vergleichbaren Umständen” ein entsprechend Verdächtiger in 60% der Täter war. In vielen Fälle ist
jedoch eine solche Auszählung der Fälle nicht wirklich möglich und sinnvoll. Die
Aussage des Kommissars ist daher eher eine subjektive Einschätzung, die (ho¤entlich) auf einer gewissen Erfahrung basiert. Nachdem während langer Zeit solche
“subjektiven Wahrscheinlichkeiten” als unwissenschaftlich galten, wurden sie vor
allem von de Finetti propagiert, der die Existenz von “objektiven” Wahrscheinlichkeiten abstritt: Hier der Beginn seines Buches Theory of Probability (1974):
My thesis [...] is simply this: PROBABILITY DOES NOT EXIST. The abandonment of
superstitious beliefs about the existence of the Phlogiston, the Cosmic Ether, Absolute
Space and Time, or Fairies and Witches, was an essential step along the road to
scienti…c thinking. Probability, too, if regarded as something endowed with some kind
of objective existence, is no less a misleading misconception, an illusory attempt to
exteriorize or materialize our true probabilistic beliefs.
Die Thesen de Finettis haben hitzige Debatten ausgelöst1 . Natürlich wollte auch
de Finetti nicht auf Wahrscheinlichkeiten verzichten. Die “Wissenschaftlichkeit”
1
allerdings kaum unter Mathematikern, die sich üblicherweise erst nach der Pensionierung mit solchen
“weltanschaulichen” Themen auseinandersetzen. de Finetti war allerdings ein Mathematiker.
10
seiner Wahrscheinlichkeiten bestand allerdings darin, dass ein Subjekt die Wahrscheinlichkeiten auf rationale Weise aufgrund der Erfahrung modifziert. Für diese
Modi…kation spielt die Bayes-Formel, die wir im nächsten Kapitel diskutieren, eine bedeutende Rolle. Wir wollen im Moment darauf nicht nächer eingehen; klar
ist jedoch, dass wenn unser Kommissar mit seinen Prognosen über Täter stets zu
optimistisch liegt, er seine “subjektiven Wahrscheinlichkeiten” modi…zieren sollte.
Allerdings hat man in Experimenten festgestellt, dass die meisten Menschen nicht
nach den de Finetti-Regeln verfahren. Die de Finetti Konzepte hatten grosse Auswirkungen auf die Entwicklung der Statistik. Auch wenn man den philosophischen
Standpunkt von ihm nicht teilt, kann man feststellen, dass die von ihm propagierten statistischen Verfahren (die Bayes-Statistik) sich aus praktischen Gründen sehr
weit durchgesetzt haben.
1.B
Anhang: Einige historische Anmerkungen
Obwohl eigentlich kaum zweifelhaft ist, dass Überlegungen zu Wahrscheinlichkeiten gemacht wurden, seit es Glücksspiele gibt, steht die erste wissenschaftliche Erwähnung von
Wahrscheinlichkeiten erst in einem Werk von Girolamo Cardano (1501-1576) Liber de
Ludo Aleae (1565), der in der Mathematik vor allem mit seinen Untersuchungen über
die kubische Gleichung Ruhm erlangt hat. Das Werk über Glücksspiele wurde jedoch
erst 1665 publiziert. Cardano hatte in jungen Jahren das Vermögen, das ihm sein Vater hinterlassen hatte, verschleudert und bestritt daraufhin während einer gewissen Zeit
seinen Lebensunterhalt mit Glücksspielen. Sein Verständnis von Wahrscheinlichkeiten
ermöglichte ihm, beim Spiel mehr zu gewinnen als zu verlieren. Da heutzutage Kenntnisse über Wahrscheinlichkeiten weiter verbreitet sind als zu Cardanos Zeiten, ist das
leider nun kaum mehr möglich.
Im allgemeinen datiert man den Beginn der wissenschaftlichen Beschäftigung mit
Wahrscheinlichkeiten jedoch auf einen Briefwechsel zwischen Blaise Pascal (1623-1662)
und Pierre de Fermat (1601-1665) im Jahre 1654. Fermat analysiert darin ein Problem,
das ihm von einem professionellen Glücksspieler, dem Herrn von de Méré gestellt wurde,
wobei sich Fermat über das mangelnde Verständnis über Wahrscheinlichkeiten dieses
Spielers mokiert.
Nicht viel später (1656) verfasste Christiaan Huygens (1629-1675) eine Schrift über
Wahrscheinlichkeitsrechnung, die sich im wesentlichen ebenfalls mit Glücksspielen beschäftigt und die Diskussionen von Fermat und Pascal weiterführt.
Dass Wahrscheinlichkeiten zur damaligen Zeit fast ausschliesslich im Zusammenhang
mit Glücksspielen gesehen wurden, braucht angesichts eines verbreiteten mechanistischen
Weltbildes nicht zu verwundern. Naturgesetze, die probabilistische Aussagen machten,
wie etwa heute die Quantenmechanik oder die Statistische Physik, waren damals undenkbar.
Hier eine Galerie der wichtigsten Akteure dieser frühen Periode der Wahrscheinlichkeitstheorie:
11
Girolamo Cardano
Pierre de Fermat
Christiaan Huygens
Blaise Pascal
12
2
Bedingte Wahrscheinlichkeiten, Unabhängigkeit
Ein wichtiges Werkzeug in der Wahrscheinlichkeitstheorie ist die sogenannte “bedingte
Wahrscheinlichkeit”. Dazu ein Beispiel:
Wir betrachten das Beispiel 1.2.4 aus Kapitel 1, wobei die Kugeln der Schachtel nun
aber mehrere Merkmale tragen können, z.B. die Farbe “rot” oder “schwarz” und das
Material aus dem sie bestehen: die Kugeln seien entweder aus Metall oder aus Holz. A
sei das Ereignis, dass die gezogene Kugel rot ist, und B sei das Ereignis, dass sie aus Holz
ist. Jemand greift zufällig in die Schachtel, spürt, dass die Kugel aus Holz ist. Mit welcher
Wahrscheinlichkeit ist “gegeben dieses Vorwissen”, die gezogene Kugel rot. Man nennt
das die bedingte Wahrscheinlichkeit für A gegeben B: Sei r die Anzahl der roten, s
die Anzahl der schwarzen Kugeln. Die Gesamtzahl der Kugeln sei n = r + s: Ferner sei h
die Anzahl der hölzernen Kugeln und m die Anzahl der metallenen Kugeln, wobei wieder
n = m+h gilt. Dann ist P (A) = r=n und P (B) = h=n: Die bedingte Wahrscheinlichkeit
können wir aufgrund dieser Angaben jedoch nicht bestimmen; es könnte ja z.B. sein,
dass die Kugeln exakt gemäss dem Material angemalt sind. O¤ensichtlich müssen wir
die Anzahl nr;h der Kugeln, die sowohl rot wie aus Holz sind durch die Anzahl der
Holzkugeln dividieren. Die gesuchte bedingte Wahrscheinlichkeit ist also
nr;h
nr;h =n
P (A \ B)
=
=
:
r
r=n
P (B)
Dies führt auf die folgende allgemeine De…nition:
De…nition 2.1
Sei B
ein Ereignis mit P (B) > 0. Für jedes Ereignis A
heisst P (AjB) :=
P (A \ B)=P (B) die bedingte Wahrscheinlichkeit für A gegeben B .
Der nachfolgende Satz gibt einige einfache Eigenschaften an:
Satz 2.2
Es seien A; B
1. A
mit P (B) > 0. Dann gilt:
B ) P (AjB) = 1.
2. B \ A = ; ) P (AjB) = 0.
3. Sind die Ereignisse Ai , i 2 N, paarweise disjunkt, so gilt
P
4. P (Ac jB) = 1
[1
i=1
Ai B =
1
X
i=1
P (AjB).
Beweis. 1. und 2. folgen sofort aus der De…nition.
13
P (Ai jB):
3.:
P
S
S
P (( 1
P( 1
i=1 Ai ) \ B)
i=1 (Ai \ B))
Ai B =
=
i=1
P (B)
P (B)
1
1
X P (Ai \ B) X
=
P (Ai jB):
=
P (B)
[1
i=1
i=1
4.: Wegen A \ Ac = ; gilt nach 3
P (AjB) + P (Ac jB) = P (A [ Ac jB) = P ( jB) = 1:
Die bedingten Wahrscheinlichkeiten lassen sich auch als normale Wahrscheinlichkeiten darstellen, indem man die Wahrscheinlichkeiten der Elementarereignisse abändert:
Bei vorgegebenem Ereignis B setzen wir für ! 2 einfach
pB (!) :=
p (!) =P (B) f u
•r ! 2 B
:
0
fu
•r ! 2
=B
Dann ist ( ; pB ) ein Wahrscheinlichkeitsraum im Sinne von De…nition 1.1 und für A
gilt
PB (A) = P (AjB):
Ist ( ; p) ein endlicher Wahrscheinlichkeitsraum und sind alle Elementarereignisse
gleich wahrscheinlich, p (!) = 1= j j, so gilt für A; B
und B 6= ;
P (AjB) =
jA \ Bj
;
jBj
d.h., die bedingten Wahrscheinlichkeiten lassen sich in diesem Fall über die Mächtigkeiten
der Ereignisse bestimmen.
Beispiel 2.3
Wie gross ist die Wahrscheinlichkeit, dass beim Werfen mit zwei Würfeln einer der beiden
eine 2 zeigt, gegeben die Augensumme ist 6? Sei B das Ereignis “Die Augensumme ist
6”, also
B = f(1; 5); (2; 4); (3; 3); (4; 2); (5; 1)g;
und A das Ereignis “Mindestens einer der Würfel zeigt 2.”:
A = f(2; 1); (2; 2); (2; 3); (2; 4); (2; 5); (2; 6); (1; 2); (3; 2); (4; 2); (5; 2); (6; 2)g:
Dann gilt A \ B = f(2; 4); (4; 2)g und P (AjB) = 2=5. Zum Vergleich: Die unbedingte
Wahrscheinlichkeit ist P (A) = 11=36 < P (AjB).
In der bisherigen Diskussion haben wir die bedingten Wahrscheinlichkeiten auf die
unbedingten zurückgeführt. Es ist jedoch oft wichtiger, umgekehrt Wahrscheinlichkeiten
aus gewissen bedingten Wahrscheinlichkeiten zu berechnen. Ein Beispiel dazu:
14
Beispiel 2.4
Eine Leitung überträgt die zwei Signale “0 und “1”. Dabei können Übertragungsfehler
auftreten, wobei die Wahrscheinlichkeit dafür davon abhängt, welches Signal gesendet
wird. Unser mathematisches Modell für die Übertragung eines Zeichens ist ein Wahrscheinlichkeitsraum
mit den vier Elementen (0; 0), (0; 1), (1; 0), (1; 1), wobei an der
ersten Stelle des Paares das gesendete und an der zweiten Stelle das empfangene Zeichen
steht. Si := f(i; 0); (i; 1)g ist das Ereignis, dass i gesendet wird, und Ei := f(0; i); (1; i)g,
dass i empfangen wird. F := f(0; 1); (1; 0)g ist das Ereignis, dass ein Übertragungsfehler auftritt. Oft kennt man die Wahrscheinlichkeit für einen Übertragungsfehler in
Abhängigkeit von den gesendeten Zeichen (d.h. unter der entsprechenden Bedingung).
Sei fi = P (F jSi ), also
f0 = P (f(0; 1); (1; 0)gjS0 ) = P (f(0; 1)gjS0 )
und
f1 = P (f(0; 1); (1; 0)gjS1 ) = P (f(1; 0)gjS1 ):
Die Angabe dieser Grössen statt der totalen (d.h. unbedingten) Fehlerwahrscheinlichkeit
ist deshalb angebracht, weil die fi im allgemeinen nur vom Übertragungssystem und nicht
von der relativen Häu…gkeit der Nullen und Einsen in der gesendeten Nachricht, d.h. von
P (Si ) abhängen. Es ist einleuchtend, dass die totale Fehlerwahrscheinlichkeit sich aus
den fi und P (Si ) mittels P (F ) = f0 P (S0 ) + f1 P (S1 ) berechnen lässt. Dem liegt der
folgende allgemeine Satz zugrunde:
Satz 2.5 (Formel von der totalen Wahrscheinlichkeit)
Es seien B1 ; : : : ; Bn paarweise disjunkte Ereignisse. Dann gilt für alle A
P (A) =
n
X
P (AjBj )P (Bj ):
Sn
j=1 Bj
j=1
(Sollte P (Bj ) = 0 sein, so wird der entsprechende Summand P (AjBj )P (Bj ) als Null
de…niert.)
S
Beweis. Wegen A = nj=1 (A \ Bj ) und der Disjunktheit der A \ Bj gilt:
P (A) = P
[n
j=1
(A \ Bj ) =
n
X
j=1
P (A \ Bj ) =
n
X
P (AjBj )P (Bj ):
j=1
Eine weitere einfache Folgerung aus der De…nition ist die folgende Verallgemeinerung
von P (A \ B) = P (AjB) P (B) :
Satz 2.6
Seien A1 ; : : : ; An Ereignisse mit P (A1 ) > 0; P (A1 \ A2 ) > 0; : : : ; P (A1 \ : : : \ An
0: Dann gilt
Yn
P (A1 \ : : : \ An ) =
P (Aj jA1 \ : : : \ Aj 1 ) P (A1 ) :
j=2
15
1)
>
Beweis.
1
n
Y
P
(A
\
A
\
:
:
:
\
A
)
1
2
j A
P (A1 )
P (A1 \ : : : \ An ) = @
P (A1 \ : : : \ Aj 1 )
j=2
Yn
=
P (Aj jA1 \ : : : \ Aj 1 ) P (A1 ) :
0
j=2
Die Formel besagt, dass für eine Kaskade A1 ; : : : ; An von Ereignissen, die Wahrscheinlichkeit dafür, dass alle eintreten aus P (A1 ) und den oben angegebenen bedingten
Wahrscheinlichkeiten durch Produktbildung gewonnen werden kann. Ein Beispiel. Wir
interessieren dafür, wie eine bestimmte Person ihren Sonntag verbringt und wollen die
Wahrscheinlichkeiten dafür untersuchen. Ihr Verhalten wird sicher vom Wetter abhängen. Sei A1 das Ereignis, dass schönes Wetter herrscht. Bekanntlich ist die Wahrscheinlichkeit dafür in der Schweiz (in normalen Sommern) nicht eben gross. Nehmen wir etwa
P (A1 ) = 0:3 an. Tritt A1 ein, so habe die Person 4 Handlungsmöglichkeiten: Sie geht
wandern, sie legt sich ins Schwimmbad, sie besucht die Tante, oder sie schaut sich das
Formel 1 Rennen in Monza am Fernsehen an. Sei A2 das Ereignis, dass sie wandern
geht, und wir nehmen an, dass - bedingt auf schönes Wetter - jede der Möglichkeiten
die gleiche Wahrscheinlichkeit hat, d.h. P (A2 jA1 ) = 0:25: Natürlich besteht auch die
Möglichkeit, dass die Person bei schlechten Wetter wandern geht, die Wahrscheinlichkeit dafür ist jedoch sehr klein: P (A2 jAc1 ) = 0:05: Nun interessieren wir uns dafür,
mit welcher Wahrscheinlichkeit die Person den Napf besteigt. Sei A3 dieses Ereignis.
Wenn wir P (A3 jA1 \ A2 ) kennen - sei sie etwa gleich 0:1 - so können wir daraus nun
P (A1 \ A2 \ A3 ) berechnen: 0:3 0:25 0:1: Vielleicht interessieren wir uns jedoch gar
nicht für diese Wahrscheinlichkeit, sondern nur dafür, die Person schliesslich auf dem
Napf zu …nden. Diese Möglichkeit besteht jedoch auch bei schlechtem Wetter. Hingegen schliessen wir die Möglichkeit nicht wandernd auf den Napf zu gelangen aus. Somit
erhalten wir
P (A3 ) = P (A1 \ A2 \ A3 ) + P (Ac1 \ A2 \ A3 )
= P (A1 ) P (A2 jA1 ) P (A3 jA1 \ A2 ) + P (Ac1 ) P (A2 jAc1 ) P (A3 jAc1 \ A2 ) :
Zur Berechnung dieser Grösse fehlt uns jedoch noch P (A3 jAc1 \ A2 ) : Hier stellt sich eine
interessante Frage. Es kann ja sein, dass unsere Person die Entscheidung über den zu
erklimmenden Berggipfel nicht vom Wetter abhängig macht, dass also
P (A3 jAc1 \ A2 ) = P (A3 jA2 ) = P (A3 jA1 \ A2 )
(2.1)
gilt. In diesem Fall können wir die gewünschte Grösse nun berechnen:
P (A3 ) = 0:3 0:25 0:1 + 0:7 0:05 0:1:
Eine Eigenschaft von Typus (2.1) nennt man auch Markov-Eigenschaft. Wir verfolgen
das im Moment nicht weiter; Eigenschaften von diesem Typus spielen in der Wahrscheinlichkeitstheorie aber eine grosse Rolle. In unserem Fall ist (2.1) natürlich sehr wenig
plausibel.
16
Überlegungen wie die obige werden benutzt, um die Sicherheit von technischen Anlagen - z.B. Atomkraftwerken - zu berechnen. Problematisch an solchen Berechnungen ist
oft, dass darin unveri…zierte “plausible” Annahmen ein‡iessen, wie z.B. Eigenschaften
vom Typ (2.1). Nehmen wir einmal (sehr vereinfachend) an, dass es in einem Atomkraftwerk zu einer Katastrophe kommt, falls ein bestimmter Anfangsstörfall A eintritt,
ein erstes Sicherheitssystem S1 nicht anspringt und dann noch ein zweites S2 : Wir interessieren uns für die Wahrscheinlichkeit P (A \ S1c \ S2c ) ; was nach Satz 2.6 gleich
P (A) P (S1c j A) P (S2c j A \ S1c ) ist. In Wirklichkeit sind die Verhältnisse natürlich sehr
viel komplexer. Ein grundlegendes Problem ist oft, dass man solche Wahrscheinlichkeiten nicht wirklich im Zusammenwirken aller Komponenten zuverlässig schätzen kann,
d.h. dass man etwa P (S1c j A) und P (S2c j A) vielleicht einigermassen zuverlässig kennt,
jedoch nicht wirklich P (S2c j A \ S1c ) :
Wird die Wahrscheinlichkeit eines Ereignisses A durch ein anderes Ereignis B mit
P (B) > 0 nicht beein‡usst, im Sinne, dass P (AjB) = P (A) gilt, so heissen A und B
unabhängig. Es ist bequemer, dies symmetrisch in A und B zu de…nieren und auf die
Voraussetzung P (B) > 0 zu verzichten:
De…nition 2.7
Zwei Ereignisse A und B heissen unabhängig, wenn P (A \ B) = P (A)P (B) gilt.
Diese De…nition spiegelt genau unsere intuitive Vorstellung von Unabhängigkeit wider. Es gilt o¤ensichtlich P (AjB) = P (A) dann und nur dann, wenn A und B unabhängig
sind (vorausgesetzt, dass P (B) > 0 ist).
Unabhängigkeit von endlichen vielen Ereignissen wird wie folgt de…niert:
De…nition 2.8
Die Ereignisse A1 ; : : : ; An heissen unabhängig, wenn für jede Auswahl von Indizes
fi1 ; : : : ; ik g f1; : : : ; ng gilt:
P (Ai1 \ Ai2 \
\ Aik ) = P (Ai1 )P (Ai2 )
P (Aik ):
Bemerkung 2.9
1. Sind A1 ; : : : ; An unabhängige Ereignisse und ist fi1 ; : : : ; im g eine Teilmenge von
f1; : : : ; ng, so sind o¤ensichtlich Ai1 ; Ai2 ; : : : ; Aim unabhängig.
2. Die Forderung P (A1 \
\ An ) = P (A1 ) P (An ) allein ist keine befriedigende
De…nition der Unabhängigkeit (für n
3), denn damit wäre die Eigenschaft 1.
nicht erfüllt. Dazu ein Beispiel: Es seien = f1; 2g und p(1) = p(2) = 1=2 sowie
A1 = f1g, A2 = f2g und A3 = ;. Dann gilt P (A1 \ A2 \ A3 ) = P (;) = 0 =
P (A1 )P (A2 )P (A3 ), aber natürlich ist P (A1 \ A2 ) 6= P (A1 )P (A2 ).
3. Paarweise Unabhängigkeit, d.h. P (Ai \ Aj ) = P (Ai )P (Aj ) für i 6= j, impliziert nicht Unabhängigkeit. Wieder ein künstliches Beispiel dazu: Es seien
=
f1; 2; 3; 4g und p(i) = 1=4 für jedes i 2
sowie A1 = f1; 2g, A2 = f2; 3g und
A3 = f3; 1g. Dann ist P (A1 \ A2 \ A3 ) = 0 6= P (A1 )P (A2 )P (A3 ); jedoch sind
A1 ; A2 ; A3 paarweise unabhängig. Man muss allerdings bemerken, dass für viele
17
wichtige Eigenschaften, z.B. das Gesetz der grossen Zahlen, das wir später diskutieren werden, eigentlich nur die paarweise Unabhängigkeit benötigt wird.
4. Die Ausdrucksweise “Die Ereignisse A1 ; : : : ; An sind unabhängig”, die auch hier
verwendet wird, ist nicht ganz genau und führt in gewissen Situation zu Missverständnissen. Unabhängigkeit ist keine Eigenschaft von Mengen von Ereignissen,
sondern eine Eigenschaft von n-Tupeln von Ereignissen, die allerdings nicht von
der Reihenfolge dieser Ereignisse im Tupel abhängt. Für ein Ereignis A ist das 1Tupel (A) nach unserer De…nition stets unabhängig, das Paar (A; A) jedoch nicht.
(A; A) ist genau dann unabhängig, wenn P (A) = P (A \ A) = P (A)P (A), d.h.
P (A) 2 f0; 1g gilt.
Zur bequemen Formulierung des nachfolgenden Ergebnisses führen wir die Bezeichnung A1 := A für A
ein, Ac ist wie üblich das Komplement.
Lemma 2.10
Die Ereignisse A1 ; : : : ; An sind genau dann unabhängig, wenn für alle (k1 ; : : : ; kn ) 2
f1; cgn
n
\n
Y
kj
k
P
Aj =
P (Aj j )
(2.2)
j=1
j=1
gilt. Hierbei ist f1; cgn die Menge der n-Tupel mit den Komponenten 1 und c.
Beweis. (I) Unter der Voraussetzung der Unabhängigkeit zeigen wir die obige Gleichung
mit Induktion nach n:
n = 1 ist trivial.
Induktionsschluss n ! n + 1: Die Ereignisse A1 ; : : : ; An+1 seien unabhängig. Wir
beweisen die obige Gleichung (für n + 1) mit Induktion nach der Anzahl m der Komplementzeichen in (k1 ; : : : ; kn+1 ). Für m = 0 folgt sie aus der Unabhängigkeit. Induktionsschluss m ! m + 1 für 0
m < n + 1: Es seien m + 1
1 Komplementzeichen in
(k1 ; : : : ; kn+1 ). Durch Permutation der Ereignisse können wir annehmen, dass kn+1 = c
ist.
\n+1 kj
\n
\n
\n
k
k
k
P
Aj = P
Aj j \ Acn+1 = P
Aj j
P
Aj j \ An+1 :
j=1
j=1
j=1
j=1
Q
k
Der erste Summand ist nach der Induktionsvoraussetzung an n gleich nj=1 P (Aj j ), der
Qn
kj
zweite nach der Induktionsvoraussetzung an m gleich
j=1 P (Aj ) P (An+1 ). Damit
folgt, wie gewünscht,
n+1
\n+1 kj
Y
k
P
Aj =
P (Aj j ):
j=1
j=1
(II) Wir zeigen die Umkehrung: (2.2) gelte für alle (k1 ; : : : ; kn ) 2 f1; cgn . Wir zeigen
die Unabhängigkeit von A1 ; : : : ; An .
18
Sei fi1 ; : : : ; ik g
f1; : : : ; ng und fj1 ; : : : ; jm g sei das Komplement dieser Menge in
\ Aik als Vereinigung paarweise disjunkter Mengen
f1; : : : ; ng. Dann lässt sich Ai1 \
wie folgt schreiben:
[
m
Ai1 \
\ Aik \ Akj11 \
\ Akjm
:
(k1 ;:::;km )2f1;cgm
Die Wahrscheinlichkeit davon ist nach unserer Voraussetzung gleich
X
m
) = P (Ai1 )
P (Ai1 ) P (Aik )P (Akj11 ) P (Akjm
P (Aik ):
(k1 ;:::;km )2f1;cgm
Die Notationen mögen etwas verwirren. Schreiben Sie die Argumente für n = 2 und
n = 3 aus; dann wird der Beweisgang klar. Der Vorteil in der Formulierung des Lemmas besteht darin, dass man immer mit allen Ereignissen arbeitet, dass man also nicht
Eigenschaften von Teilsätzen der Ereignisse betrachten muss wie in der ursprünglichen
De…nition. Ein unmittelbare Folgerung des Lemmas ist das folgende Ergebnis:
Korollar 2.11
Sind die Ereignisse A1 ; : : : ; An unabhängig, so sind für jede Wahl von (k1 ; : : : ; kn ) 2
f1; cgn die Ereignisse Ak11 ; : : : ; Aknn unabhängig.
Als Beispiel betrachten wir das übliche Modell für das n-malige Werfen einer Münze
(Beispiel 1.6.3)Wir bezeichnen mit Bk das Ereignis, dass der k-te Wurf “Kopf” ist.
Satz 2.12
Die Ereignisse B1 ; : : : ; Bn sind unabhängig.
Beweis. Es gilt P (Bj ) = P (Bjc ) = 1=2 für alle j 2 f1; : : : ; ng. Für jedes n-Tupel
Q
k
(k1 ; : : : ; kn ) 2 f1; cgn gilt P (B1k1 \
\ Bnkn ) = 2 n = nj=1 P (Bj j ). Nach Lemma 2.10
sind B1 ; : : : ; Bn unabhängig.
Unabhängigkeit hängt eng mit sogenannten Produkträumenzusammen. Es seien ( 1 ; p1 ); : : : ;
( n ; pn ) diskrete Wahrscheinlichkeitsräume. Wir konstruieren daraus einen neuen Wahrscheinlichkeitsraum ( ; p) mit
= 1
n . Für jedes !
P= (! 1 ; : : : ; ! n ) 2
de…nieren wir p(!) = p1 (! 1 )p2 (! 2 ) pn (! n ). O¤ensichtlich gilt !2 p(!) = 1.
De…nition 2.13
( ; p) heisst der ProduktraumNder Wahrscheinlichkeitsräume ( i ; pi ), 1 i n. Wir
n
schreiben dafür auch ( ; p) =
i=1 ( i ; pi ): (Das hat nichts mit Tensorprodukten zu
tun).
Zu A
i
de…nieren wir das Ereignis A(i) = f(! 1 ; : : : ; ! n ) 2
: ! i 2 Ag
.
Satz 2.14
(1)
(n)
Sind Ai
i n, so sind die Ereignisse A1 ; : : : ; An im Wahrscheinlichkeitsi für 1
raum ( ; p) unabhängig.
19
c(i)
(i)c
: ! i 2 Aci g = Ai . Die 2n Gleichungen in Lemma 2.10
Beweis. Es gilt Ai = f! 2
sind also nachgewiesen, wenn
(1)
P A1 \
für alle möglichen Ai
X
(1)
(n)
!2A1 \ \An
i,
(1)
\ A(n)
= P (A1 )
n
P (A(n)
n )
1
i n, gilt. Die linke Seite dieser Gleichung ist gleich
X
X
p(!) =
p1 (! 1 ) pn (! n )
=
! 1 2A1
! n 2An
n X
Y
pj (! j ) =
j=1 ! j 2Aj
n
X
Y
j=1 !2A(j)
j
p(!) =
n
Y
(j)
P (Aj ):
j=1
Der Produktraum liefert somit ein Modell für eine unabhängige Hintereinanderreihung von n einzelnen Zufallsexperimenten. O¤enbar ist unser Modell für einen nfachen Münzwurf das n-fache Produkt des Wahrscheinlichkeitsraumes für einen Münzwurf.
Wir können das gleich etwas verallgemeinern: Zunächst betrachten wir ein Zufallsexperiment mit zwei möglichen Ausgängen, die wir mit E (für “Erfolg”) und M (für “Misserfolg”) bezeichnen. Man denke etwa an ein Spiel, das darin besteht, eine Münze zu werfen,
und bei dem der eine Spieler eine Einheit gewinnt, wenn “Kopf” fällt. Wir wollen nicht
voraussetzen, dass E und M gleich wahrscheinlich sind. Der Wahrscheinlichkeitsraum
ist also die zweielementige Menge fE; M g mit den entsprechenden Wahrscheinlichkeiten.
Wir setzen p := p (E) ; sodass p (M ) = 1 p ist.
Der n-fache Produktraum, das Modell für die unabhängige, n-malige Repetition des
Spiels, ist also der Wahrscheinlichkeitsraum
= fE; M gn , d.h. die Menge der E-M Folgen der Länge n. Die Wahrscheinlichkeiten der Elementarereignisse ! = (! 1 ; : : : ; ! n ) 2
sind gegeben durch p(!) = pk (1 p)n k , wobei k die Anzahl der E’s in der Folge
! 1 ; : : : ; ! n bezeichnet.
De…nition 2.15
Das durch diesen Wahrscheinlichkeitsraum beschriebene Zufallsexperiment heisst BernoulliExperiment der Länge n mit “Erfolgswahrscheinlichkeit” p.
Wir wollen die Wahrscheinlichkeit von einigen besonders wichtigen Ereignissen im
Bernoulli-Experiment berechnen. Für k 2 f0; 1; : : : ; ng sei Ak das Ereignis, dass insgesamt k Erfolge eintreten. In unserer Beschreibung des Bernoulli-Experiments enthält Ak
diejenigen Elementarereignisse, in denen k mal E vorkommt. Davon gibt es so viele, wie
es Möglichkeiten gibt, die k erfolgreich ausgegangenen Experimente auszuwählen, also
n
k
p)n k . Somit ist P (Ak ) = nk pk (1 p)n k .
k . Jedes hat Wahrscheinlichkeit p (1
Diese Wahrscheinlichkeit kürzt man meist mit b(k; n; p) ab. Die b(k; n; p) sind erwartungsgemäss am grössten, wenn k in der Nähe von np liegt. Für grosses n sind sie jedoch
p
klein (höchstens von der Grössenordnung 1= n). Eine ausführliche Analyse der Grössen
b(k; n; p) wird später gegeben werden.
20
Beispiel 2.16
Ein Würfel wird n-mal geworfen. Die Wahrscheinlichkeit dafür, dass k-mal die Sechs
erscheint, ist b(k; n; 1=6).
Eine grosse Klasse von Beispielen nennt man Urnenmodelle:
Beispiele 2.17
1. Ziehung mit Zurücklegen
Eine Schachtel (Urne) enthält r rote und s schwarze Kugeln. Es werden n Kugeln
nacheinander zufällig entnommen. Dabei wird jede sofort wieder zurückgelegt und
die Schachtel neu gemischt. Die Elementarereignisse seien die Rot-Schwarz-Folgen
der Länge n. Es scheint klar, dass unter idealen Bedingungen die einzelnen Ziehungen unabhängig sind, dass dies also ein Bernoulli-Experiment der Länge n mit
r
Erfolgswahrscheinlichkeit p = r+s
ist.
Man kann sich das auch wie folgt überlegen: Wir denken uns die einzelnen Kugeln
wieder von 1 bis r + s durchnumeriert; 1 bis r sind rot, r + 1 bis r + s schwarz.
In der Beschreibung des Wahrscheinlichkeitsraums unterscheiden wir nun zwischen
den einzelnen Kugeln, d.h. = f1; : : : ; r + sgn . Die Elementarereignisse sind also
die Folgen ! = (! 1 ; : : : ; ! n ) mit ! k 2 f1; : : : ; r + sg. Unter idealen Bedingungen
sind diese Elementarereignisse alle gleich wahrscheinlich, haben also die Wahrscheinlichkeit (r + s) n . Das Ereignis einer speziellen Rot-Schwarz-Folge ist hier
kein Elementarereignis; man kann die Anzahl der Elementarereignisse darin jedoch
leicht abzählen: Eine spezielle Rot-Schwarz-Folge mit k-mal Rot und (n k)-mal
Schwarz wird durch rk sn k Elementarereignisse repräsentiert, hat also die Wahrk
n k
r
s
scheinlichkeit r+s
. Die Wahrscheinlichkeit des Ereignisses Ak , genau
r+s
k-mal Rot zu ziehen, ist somit
P (Ak ) =
n
k
r
r+s
k
s
r+s
n k
:
2. Ziehung ohne Zurücklegen
Wir betrachten dieselbe Situation mit dem Unterschied, dass die gezogenen Kugeln
nicht wieder zurückgelegt werden. Es muss nun natürlich n r + s sein. Die einzelnen Ziehungen sind nicht mehr unabhängig, da ihr Ausgang die Zusammensetzung
der Schachtel und damit die nachfolgenden Ziehungen beein‡usst.
Sei Ak wieder das Ereignis, dass k rote Kugeln gezogen werden. Wir setzen voraus,
dass 0 k r und 0 n k s gilt, sonst ist Ak das unmögliche Ereignis. Um
P (Ak ) zu bestimmen, muss ein geeigneter Wahrscheinlichkeitsraum festgelegt werden. Als Elementarereignis betrachten wir die Menge der n-elementigen Teilmengen
der r + s Kugeln. Wie viele darunter gehören zu Ak ? Es gibt kr Möglichkeiten, die
k Kugeln aus den roten auszuwählen, und n s k Möglichkeiten für die schwarzen
21
Kugeln, also enthält Ak genau
r
k
s
n k
Elementarereignisse. Es gilt also
r
k
P (Ak ) =
s
n k
r+s
n
;
o¤ensichtlich ein anderer Wert als im Modell mit Zurücklegen. Man nennt dies
auch die hypergeometrische Wahrscheinlichkeitsverteilung.
In unserem Wahrscheinlichkeitsraum können wir jedoch das Ereignis, dass die erste Kugel rot ist, nicht betrachten, denn wir unterscheiden die Reihenfolge der
Ziehungen nicht. Um dieses Ereignis zu untersuchen, brauchen wir einen anderen,
grösseren Wahrscheinlichkeitsraum. Wir betrachten dazu analog wie beim Modell
mit Zurücklegen die Menge 0 der Folgen ! = (! 1 ; ! 2 ; : : : ; ! n ) mit 1 ! i r + s
aber mit der Einschränkung ! i 6= ! j für i 6= j. Dann bedeutet 1 ! i
r, dass
die i-te Kugel rot ist, r + 1 ! i r + s, dass sie schwarz ist. 0 enthält o¤enbar
(r + s)(r + s 1) (r + s n + 1) Elemente. Betrachtet man diese Elementarereignisse als gleich wahrscheinlich, so hat unser obiges Ereignis Ak (entsprechend als
Teilmenge von 0 formuliert) dieselbe Wahrscheinlichkeit wie oben (nachprüfen!).
Im Gegensatz zu der Situation in können wir nun jedoch die einzelnen Ziehungen
unterscheiden. Sei Ri das Ereignis, dass die i-te Kugel rot ist. Jedes der Ri enthält
gleich viele Elementarereignisse, nämlich r(r + s 1)(r + s 2) (r + s n + 1).
Somit ist P (Ri ) = r=(r + s) der gleiche Wert wie beim Modell mit Zurücklegen.
Dennoch sind die Wahrscheinlichkeiten für Ak in beiden Modellen verschieden.
Dies liegt daran, dass hier R1 ; : : : ; Rn abhängig sind: Das Ereignis R1 \ R2 enthält
r(r 1)(r + s 2) (r + s n + 1) Elementarereignisse und somit ist
P (R1 \ R2 ) =
r(r 1)
(r + s)(r + s
1)
6= P (R1 )P (R2 );
der Unterschied ist aber klein, sofern r und s gross sind. Dies ist plausibel, denn
wenn die Gesamtzahl r + s der Kugeln sehr gross ist, so beein‡ussen sich die
einzelnen Ziehungen wenig. P (Ak ) kann in der Tat durch die Wahrscheinlichkeit
der Binominalverteilung b(k; n; p) mit p = r=(r + s) angenähert werden, sofern
n = r + s gross ist. Genauer:
lim
r;s!1
r=(r+s)!p
r
k
s
n k
r+s
n
=
n k
p (1
k
p)n
k
:
Der Beweis ist sehr einfach: Die Grössen auf der linken Seite sind gleich
r(r 1) (r k + 1)s(s 1) (s n + k + 1)
n!
k!(n k)!
(r + s)(r + s 1) (r + s n + 1)
n k
r
!
p (1 p)n k f u
•r r; s ! 1,
! p:
k
r+s
22
(2.3)
Als Anwendung von Satz 2.5 betrachten wir im Beispiel 2.4 das in der Praxis wichtige Problem, die bedingte Wahrscheinlichkeit für eine richtige Übertragung, gegeben
das empfangene Zeichen, etwa P (S1 jE1 ) zu berechnen. Das lässt sich zunächst mittels
P (S1 jE1 ) = P (S1 \ E1 )=P (E1 ) umschreiben. Per De…nition gilt
P (S1 \ E1 ) = P (E1 jS1 )P (S1 ) = (1
f1 )P (S1 ):
Nach Satz 2.5 gilt
P (E1 ) = P (E1 jS1 )P (S1 ) + P (E1 jS0 )P (S0 ) = (1
also
P (S1 jE1 ) =
(1
f1 )P (S1 ) + f0 P (S0 );
(1 f1 )P (S1 )
:
f1 )P (S1 ) + f0 P (S0 )
Das obige Beispiel ist ein Spezialfall der sogenannten Bayes-Formel:
Satz 2.18
Unter den Voraussetzungen von Satz 2.5 und P (A) > 0 gilt
P (AjBi )P (Bi )
P (Bi jA) = Pn
:
j=1 P (AjBj )P (Bj )
Beweis.
P (Bi jA) =
P (Bi \ A)
P (AjBi )P (Bi )
P (AjBi )P (Bi )
=
= Pn
P (A)
P (A)
j=1 P (AjBj )P (Bj )
nach Satz 2.5.
Die Formel ist nach Thomas Bayes (1702-1761) benannt, einem englischen Pastor
mit mathematischen Neigungen. Die P (Bi ) nennt man oft die “a priori” Wahrscheinlichkeiten und P (A) die “a posteriori” Wahrscheinlichkeit. Die Formel beschreibt, wie
man die “a priori” Wahrscheinlichkeiten aufgrund des eingetretenen “a posteriori” Ereignisses modifzieren muss. Die Formel ist natürlich völlig trivial; ihre Interpretation
hat jedoch schon zu Zeiten von Bayes Kontroversen ausgelöst, zum Teil die immer noch
andauern. Sie spielt vor allem in der Theorie “subjektiver Wahrscheinlichkeiten” eine
grosse Rolle (siehe Appendix 1.A). Die P (Bi ) sind dann die subjektiven Wahrscheinlichkeiten, die eine Person bestimmten Ereignissen zuordnet. Wir nehmen weiter an,
dass die bedingten Wahrscheinlichkeiten P (AjBi ) mit der das “a posteriori” Ereignis A
eintritt, bekannt sind. Tritt dann das Ereignis tatsächlich ein, so soll unsere Person ihre
subjektiven Wahrscheinlichkeiten gemäss der Bayes-Formel ändern.2
2
In Experimenten hat man jedoch gesehen, dass sie das in der Regel nicht machen.
23
Thomas Bayes
Unabhängig von den mehr philosophischen Interpretationen spielt die Bayes-Formel
in vielen Bereichen eine grosse Rolle.Wir betrachten eine typische Anwendung: Wir nehmen an, eine Person werde mit einem Bluttest auf eine seltene Krankheit untersucht.
Der Test sei nicht absolut zuverlässig: Kranke Personen werden mit Wahrscheinlichkeit
0.8 entdeckt; der Test falle jedoch bei Gesunden mit Wahrscheinlichkeit 0.1 positiv aus.
Das Problem ist genau das gleiche wie bei den in einer Leitung übertragenen Signalen:
Wir deklarieren 0 als “gesund” und 1 als “krank”. Dann ist also f0 = 0:1, f1 = 0:2. Mit
welcher Wahrscheinlichkeit ist nun jemand mit “positivem” Testausgang krank? Das
hängt von der relativen Häu…gkeit der Krankheit ab, das heisst von p := P (S1 ). Die
Bayes-Formel ergibt
P ( krank j Test positiv ) =
0:8 p
0:8 p + 0:1 (1
p)
:
Für p = 0:01 ist das 0; 075.
Derartige Betrachtungen spielen in automatisierten Expertensystemen (natürlich in
viel komplizierteren Situationen) eine grosse Rolle.
Wir wollen noch ein Beispiel diskutiert, das wir an einigen Stellen mathematisch
noch nicht ganz exakt durchführen können, zu dessen Lösung uns jedoch die inzwischen
gewonnene Intuition im Umgang mit Wahrscheinlichkeiten befähigt:
A schlägt B das folgende Spiel vor: Sie werfen solange eine symmetrische Münze,
bis zum erstenmal eine von zwei Dreiersequenzen auftaucht. A gwinnt, wenn zuerst
die Sequenz “Zahl-Kopf-Zahl” (abgekürzt ZKZ) auftritt; B gewinnt, wenn zuerst die
Sequenz KKK vorkommt. Wie gross sind die Erfolgswahrscheinlichkeiten? Es ist nicht
ganz einfach, einen geeigneten Wahrscheinlichkeitsraum zur Beschreibung des Experimentes zu …nden. Wir werden das unten kurz diskutieren. Hier eine inutitive Methode,
um die gesuchte Wahrscheinlichkeit zu …nden.
24
Zunächst bemerkt man, dass von einer Folge von Münzwürfen nur der Teil am Ende
wichtig ist, der als Anfangsstück einer der Gewinnsequenzen vorkommt, etwa bei der
Folge KKZZKKZK die letzten zwei. Wir schreiben alle diese relevanten Sequenzen
(Anfänge der Gewinnsequenzen und die Gewinnsequenzen selbst) auf:
Die Pfeile geben an, wie diese Sequenzen nach einem weiteren Wurf verändert werden
können; z.B·wenn in der obigen Folge als nächstes Z geworfen wird, so hat B gewonnen,
und sonst ist man bei KK.
Mit q(K); q(KK); : : : bezeichnen wir die bedingte Wahrscheinlichkeit, dass A gewinnt, gegeben das Spiel ist in dem entsprechenden Zustand. Sei q die unbedingte Wahrscheinlichkeit, dass A gewinnt. Zunächst gilt natürlich q(KKK) = 0 und q(ZKZ) = 1.
Ist das Spiel in KK, so gelangt es mit Wahrscheinlichkeit 1=2 nach KKK und mit
Wahrscheinlichkeit 1=2 nach Z. Eine ungenierte Anwendung der Formel über die totale
Wahrscheinlichkeit liefert:
1
1
1
q(KK) = q(KKK) + q(Z) = q(Z):
2
2
2
Analog
1
1
q(ZK) = q(KK) + ;
2
2
1
1
q(K) = q(KK) + q(Z);
2
2
1
1
q(Z) = q(Z) + q(ZK)
2
2
und schliesslich
1
1
q = q(Z) + q(K):
2
2
Die 4. Gleichung ergibt q(Z) = q(ZK), also nach der zweiten q(KK) = 2q(Z) 1. In
die erste eingesetzt folgt 2q(Z) 1 = q(Z)=2 oder q(Z) = 2=3, also q(KK) = 1=3. Nach
der dritten gilt q(K) = 1=2 und nach der letzten Gleichung schliesslich q = 7=12, also
um 1=12 mehr als 1=2! (Wer es nicht glaubt, soll es ausprobieren!)
Man kann versuchen, eine optimale Dreiersequenz zu …nden, d.h. eine, die gegenüber
jeder anderen eine Erfolgswahrscheinlichkeit
1=2 hat. Es stellt sich jedoch heraus,
dass es eine solche Sequenz nicht gibt: Zu jeder Sequenz gibt es mindestens eine, die sie
schlägt!
25
Die Schwierigkeit, dieses Beispiel mathematisch präzise beschreiben zu können, liegt
o¤enbar darin, dass wir uns nicht vor Beginn darauf festlegen können, wie lange die
Münzfolge ist, die wir betrachten müssen. Es gibt verschiedene Auswege; der brutalste
besteht einfach darin, einen Wahrscheinlichkeitsraum mit unendlichen langen Folgen von
Münzwürfen zu konstruieren. Wir wählen also = fK; ZgN : Die Elemente ! 2 sind
die unendlich langen Folgen ! = (! 1 ; ! 2 ; ! 3 ; : : :) von Elementen ! k 2 fK; Zg : ist nun
allerdings keine abzählbare Menge mehr. Es ist daher klar, dass wir die Wahrscheinlichkeit von Ereignissen nicht mehr gemäss De…nition 1.3 festlegen können. In können wir
natürlich alle Ereignisse einbetten, die nur von endlich vielen Münzwürfen abhängen:
Sind etwa i1 ; : : : ; in 2 fK; Zg ; so de…nieren wir die Teilmenge
Ai1 ;:::;in := f! 2
: ! 1 = i1 ; : : : ; ! n = in g :
(2.4)
Wir stellen uns also (geistig) den Münzwurf bis in unendlich ferne Zukunft fortgesetzt.
Wenn wir uns nur für die erste Million Würfe interessieren, so betrachten wir einfach
die oben beschriebenen Ereignisse mit n = 10 0000 000: Wir suchen dann ein Wahrscheinlichkeitsmass P auf ; dessen Einschränkung auf die obigen Ereignisse (2.4) mit den
entsprechend schon früher angegebenen Wahrscheinlichkeiten übereinstimmt. Formal
ausgedrückt: Im symmetrischen Münzwurf soll
P (Ai1 ;:::;in ) = 2
n
gelten. Für einen Münzwurf mit einer gezinkten Münze wie im Bernoulli Experiment
(De…nition 2.15) gilt dann
P (Ai1 ;:::;in ) = pk (1
p)n
k
;
(2.5)
wobei k die Anzahl der K’s in i1 ; : : : ; in ist. (Wir identi…zieren hier “Kopf” mit “Erfolg”). Die Frage ist, ob ein derartiges P existiert. Tatsächlich weiss man, dass es auf
der Potenzmenge P ( ) kein Wahrscheinlichkeitsmass P gibt, das die Kolmogoro¤schen
Axiome 1.10 und 1.11 erfüllt. Es gilt jedoch der folgendes:
Satz 2.19
Auf existiert eine -Algebra F
P ( ), die alle Menge der Form (2.4) enthält, und
für jedes p 2 [0; 1] gibt es auf F ein Wahrscheinlichkeitsmass P : F ! [0; 1] im Sinne von
De…nition 1.12.2 sodass (2.5) gilt.
Wir können den Satz hier nicht beweisen. Sätze von diesem Typus sind für die weitere
Entwicklung der Wahrscheinlichkeitstheorie sehr wichtig; im Rahmen dieser Vorlesung
spielen sie jedoch keine sehr grosse Rolle. Die -Algebra F in diesem Satz ist nicht
eindeutig; es gibt jedoch eine kleinste -Algebra, die alle Mengen der Form Ai1 ;:::;in
enthält. Diese -Algebra bezeichnet man meist als die Produkt- -Algebra auf und
wir setzen in Zukunft stillschweigend voraus, dass F diese Produkt- -Algebra ist. Sie ist
durch die folgende Eigenschaft eindeutig charakterisiert: Ist G eine beliebige -Algebra,
die alle Mengen der Form (2.4), so gilt F G: F enthält jedoch noch sehr viel mehr
Mengen als nur diese speziellen Ai1 ;:::;in . Eine (eher psychologische) Schwierigkeit mit
26
diesem Satz ist, dass man die Elemente von F nicht konkret beschreiben kann. Dies ist
jedoch nicht weiter schlimm, denn wichtig ist einzig, dass eigentlich alle Ereignisse, die
“interessant” sind, in dieser -Algebra sind. Dies beweist man, indem man sie mit Hilfe
von abzählbaren Mengenoperationen aus den Mengen der Form (2.4) gewinnen kann.
Wir geben einige Beispiele dieses Sachverhaltes unten an.
Innerhalb dieses Formalismus können wir nun das obige Beispiel präzise formulieren.
Wir de…nieren die folgende Abbildung ZKZ : ! N[ f1g
ZKZ
(!) := inf fn
3 : !n
2
= Z; ! n
1
= K; ! n = Zg :
Für ein ! 2 kann es natürlich durchaus zutre¤en, dass die Bedingung in der Klammer
für kein n erfüllt ist. In diesem Falle setzen wir einfach ZKZ (!) = 1: Analog de…nieren
wir KKK : Dann gilt das folgende Ergebnis:
Proposition 2.20
1. Die Mengen f! 2 :
f! 2 : ZKZ (!) <
Algebra F:
(!) < 1g ; f! 2 : KKK (!) < 1g ;
KKK (!)g sind alle in der oben eingeführten Produkt- ZKZ
2. Es gelten
P (f! 2
P (f! 2
:
:
ZKZ
ZKZ
(!) <
(!) < 1g) = P (f! 2
KKK
:
KKK
(!)g) = 7=12:
(!) < 1g) = 1;
Soweit haben wir wenigstens den mathematischen Rahmen für das Beispiel genau
präzisiert. Eine mathematisch präzise Formulierung des Beweises insbesondere vom 2.
Teil erfordert jedoch immer noch einiges an Arbeit. Wir wollen das im Moment nicht
weiterverfolgen; wir zeigen jedoch, dass die in Proposition 2.20, 1. beschriebenen Mengen
in F sind. Wir beschränken uns auf f! 2 : ZKZ (!) < 1g ; die anderen Fälle beweist
man analog.
Zunächst ist o¤ensichtlich, dass
[1
f! 2 : ZKZ (!) < 1g =
f! 2 : ZKZ (!) ng
n=3
gilt. Das Ereignis f! 2 : ZKZ (!) ng lässt sich jedoch als endliche Vereinigung von
Mengen der Form (2.4) darstellen, nämlich als Vereinigung derjenigen Ai1 ;:::;in ; für die
ein m mit 3
m
n existiert mit im 2 = Z; im 1 = K; im = Z: Demzufolge ist
f! 2 : ZKZ (!) < 1g eine abzählbare Vereinigung von Mengen der Form (2.4), und
nach der De…nition 1.12.1 ist f! 2 : ZKZ (!) < 1g 2 F:
Wir untersuchen noch ein etwas komplizierteres Beispiel, das im nächsten Kapitel
eine Rolle spielt.
Wir betrachten die Menge der ! 2 ; für die die relative Häu…gkeit der Kopfwürfe
in der unendlichen Folge exakt gleich 1=2 ist. Wir präzisieren das wie folgt: Für n 2 N
sei Kn (!) die Anzahl der K’s in ! 1 ; : : : ; ! n : Dann de…nieren wir
A :=
!2
Kn (!)
1
existiert und ist =
n!1
n
2
: lim
27
:
Wir zeigen nun, dass A 2 F ist. Dazu die folgende Überlegung: Sei (an )n2N eine beliebige
reelle Zahlenfolge. Dann gilt limn!1 an = 1=2 genau dann, wenn für jedes m 2 N ein
N 2 N existiert mit 1=2 1=m < an < 1=2 + 1=m für alle n N: Setzen wir
An;m :=
!2
so gilt also
A=
\
:
1
2
m2N
1
Kn (!)
1
1
<
< +
m
n
2 m
[
N 2N
\
n:n N
;
An;m :
Nun ist jedoch o¤ensichtlich, dass die Mengen An;m sich als endliche Vereinigungen von
Mengen der Form (2.4) darstellen lassen, denn ob ein ! zu dieser Menge gehört, hängt
nur von ! 1 ; : : : ; ! n ab. Demzufolge gilt Am;n 2 F: Wegen der Eigenschaft (1.3) gilt dann
für jedes N 2 N
\
Am;n 2 F:
n:n N
Demzufolge ist nach der De…nition 1.12
[
\
N 2N
n:n N
Am;n 2 F:
Nochmaliges Anwenden von (1.3) ergibt A 2 F:
Unter Anwendung des hier nicht bewiesenen Satzes 2.19 folgt (für jedes p 2 [0; 1]);
dass P (A) de…niert ist. Wir werden im nächsten Kapitel sehen, dass P (A) = 1 ist falls
p = 1=2 ist und P (A) = 0 falls p 6= 1=2:
Noch eine Bemerkung über die Rolle von Existenzsätzen vom Typus des Satzes 2.19
in der Wahrscheinlichkeitstheorie: Obschon ein Mathematiker, der sich intensiver mit
Wahrscheinlichkeitstheorie beschäftigt, einen Beweis dieses und ähnlicher Sätze kennen
sollte, lässt sich feststellen, dass die Kenntnis dieser Beweise für die Arbeit in der Wahrscheinlichkeitstheorie praktisch ohne jede Bedeutung ist. Wichtig ist einzig die Existenz
dieser Wahrscheinlichkeitsmasse und die Fertigkeit im Umgang mit ihnen. Für diese
Fertigkeit spielen die Existenzbeweise keine Rolle.
28
3
Zufallsgrössen, Gesetz der Grossen Zahlen
Wir sind schon einige Male auf die Situation gestossen, dass den Elementarereignissen
reelle Zahlen zugeordnet werden. Unter Umständen sind die Elementarereignisse selbst
schon Zahlen. Wir wollen dies nun systematisch diskutieren.
De…nition 3.1
Sei ( ; p) ein diskreter Wahrscheinlichkeitsraum. Dann heisst eine Abbildung X :
eine (diskrete) Zufallsgrösse.
!R
Statt Zufallsgrösse wird oft auch der Begri¤ Zufallsvariable benutzt. Für die formale
De…nition ist p zunächst völlig belanglos. Eine Zufallsgrösse ist einfach eine Abbildung
und keine “zufällige”Abbildung. Natürlich werden wir jedoch nun die Eigenschaften von
X im Zusammenhang mit p untersuchen.
Es bezeichne X( ) das Bild von unter X, d.h. die abzählbare Menge reeller Zahlen
f X(!) : ! 2 g. Für A R ist X 1 (A) := f ! 2 : X(!) 2 A g eine Teilmenge von
, d.h. ein Ereignis. Wir nennen dies das Ereignis, “dass X einen Wert in A annimmt”.
X 1 (A) ist nur eine bequeme Schreibweise. Wir setzen in keiner Weise voraus, dass
die Abbildung X invertierbar ist, d.h. dass eine Umkehrabbildung von X existiert. Wir
benutzen die folgenden Kurzschreibweisen:
fX 2 Ag := f ! 2
fX = zg := f ! 2
fX
zg := f ! 2
: X(!) 2 A g = X
1
(A);
1
(fzg);
: X(!)
1
(( 1; z]);
: X(!) = z g = X
zg = X
etc.
Statt P (fX 2 Ag), P (fX = zg) schreiben wir einfach P (X 2 A), P (X = z), etc. Wir
schreiben meistens ein Komma anstelle von “und”bzw. des mengentheoretischen Durchschnitts innerhalb der Klammer in P ( ). Sind etwa X; Y Zufallsgrössen und A; B R,
so schreiben wir P (X 2 A; Y 2 B) für P (fX 2 Ag \ fY 2 Bg) oder noch ausführlicher
P (f ! : X(!) 2 A und Y (!) 2 B g).
Beispiele 3.2
1. Es sei X die Augensumme beim zweimaligen Werfen eines Würfels. Zur formalen
Beschreibung dieses Versuchs betrachten wir den Wahrscheinlichkeitsraum ( ; p)
mit = f1; 2; 3; 4; 5; 6g2 und der Gleichverteilung p, also p((i; j)) = 1=36 für alle
(i; j) 2 . Die Zufallsgrösse X : ! R mit X((i; j)) = i + j für alle (i; j) 2
beschreibt dann die Augensumme, und es gilt z.B.
P (X = 3) = P (f(1; 2); (2; 1)g) = 1=18
und
P (X
4) = P (f(1; 1); (1; 2); (2; 1); (1; 3); (2; 2); (3; 1)g) = 1=6:
2. Es bezeichne X die Anzahl der Erfolge in einem Bernoulli-Experiment der Länge
n und Erfolgswahrscheinlichkeit p. In diesem Fall ist = fM; Egn und X (!) :=
29
Pn
i=1 1E
(! i ) für ! = (! 1 ; : : : ; ! n ) : Dabei ist 1E die Indikatorfunktion:
1E (x) :=
1 falls x = E
:
0 falls x = M
Beispiel 3.3
Wir wollen ein etwas komplizierteres Beispiel aus der Informatik diskutieren, nämlich
den Sortieralgorithmus Quicksort: Der Algorithmus sortiert eine Liste von n Zahlen der
Grösse nach. Der Bequemlichkeit halber nehmen wir an, dass alle Elemente der Liste
verschieden sind. Es gibt verschiedene Versionen dieses Algorithmus; wir betrachten hier
die folgende, die für die Praxis nicht ganz optimal ist.3 Im 1. Schritt wird das erste
Element der Liste mit den n 1 anderen verglichen und dann an die richtige Stelle
gebracht. Das heisst, die Elemente, die kleiner sind, werden vor dieses erste Elemente
der ursprünglichen Liste gebracht, und die grösseren werden hinter ihm gelassen. Dabei
wird jedoch zunächst die interne Reihenfolge der grösseren und der kleineren Elemente
nicht angetastet.
Zum Beispiel wird aus 6 8 3 5 1 7 nach dem ersten Schritt 3 5 1 6 8 7. Die kleineren
Elemente (im Bsp. oben 3 5 1) und die grösseren (im Bsp. 8 7) bilden nun zwei kürzere
Teillisten. Die Prozedur ruft sich nun rekursiv auf, um diese zu ordnen. Listen der Länge
0 und 1 brauchen nicht mehr geordnet zu werden. Dies ist das Abbruchkriterium für
den Algorithmus. Wir de…nieren den Aufwand für diesen Algorithmus als die Anzahl der
Vergleiche zweier Zahlen, die bis zum Schluss benötigt werden. Natürlich ist dies eine
Vereinfachung der realen Situation. Der tatsächliche Aufwand hängt auch von der verwendeten Programmiersprache ab. (Der Algorithmus ist am einfachsten in einer Sprache
zu programmieren, in der man Prozeduren rekursiv aufrufen kann, er benötigt dann aber
eher etwas mehr Rechenzeit. Auf programmiertechnische Fragen soll natürlich hier nicht
eingegangen werden.) Im 1. Schritt werden stets n 1 Vergleiche durchgeführt. Wie viele
jedoch nachher gebraucht werden, hängt davon ab, wie die Einteilung in die Teillisten
erfolgt. Im obigen numerischen Beispiel:
1 Schritt
5 Vergleiche.
Ordnen von 3 5 1 1 3 5 2 Vergleiche.
Ordnen von 8 7
7 8 1 Vergleich.
Zusammen also
8 Vergleiche.
Man kann sich leicht überlegen, dass der Algorithmus im ungünstigsten Fall insgesamt
(n 1) + (n 2) +
+ 1 = n(n 1)=2 Vergleiche benötigt (z.B. wenn die Liste schon
geordnet ist!). In der Regel braucht man jedoch bedeutend weniger, was die Beliebtheit
des Algorithmus erklärt.
Was heisst “in der Regel”? Wir machen dazu ein wahrscheinlichkeitstheoretisches
Modell: Als gleich wahrscheinliche Elementarereignisse nehmen wir die möglichen Reihenfolgen einer Menge von n verschiedenen Elementen. Wir haben also n! Elementarereignisse. Xn sei die Anzahl der benötigten Vergleiche bei Quicksort, etwa X1 = 0 für
3
Quicksort ist der am weitesten verbreitete Sortieralgorithmus. Wenn Ihr Computer eine Liste sortiert,
so tut er das wahrscheinlich mit Quicksort.
30
jede einelementige Liste. Dann ist z.B. X6 ((6; 8; 3; 5; 1; 7)) = 8, wie oben berechnet, oder
X6 ((1; 3; 5; 6; 7; 8)) = 15. Wir werden einige stochastische Aspekte dieses Beispiels weiter
unten eingehender diskutieren.4
Sei X :
! R eine Zufallsgrösse. Für z 2 X( ) sei f (z) := P (X = z). Da die
Ereignisse fX = zg für verschiedene z 2 X( ) sich gegenseitig ausschliessen und
[
=
fX = zg
z2X( )
gilt, folgt
X
f (z) = 1:
z2X( )
(X( ); f ) ist somit ein Wahrscheinlichkeitsraum im Sinne von De…nition 1.1.
De…nition 3.4
f heisst die Verteilung der Zufallsgrösse X.
Aus der Verteilung einer Zufallsgrösse lässt sich P (X 2 A) für jede Teilmenge A von
R berechnen:
X
P (X 2 A) =
f (z):
z2A\X( )
Verteilungen sind jedoch oft kompliziert und in vielen praktisch wichtigen Beispielen
nicht explizit berechenbar (z.B. beim Quicksort-Beispiel oben). Zunächst einige Beispiele,
bei denen die Verteilung einfach angegeben werden kann:
Beispiele 3.5
1. Sei X die Augensummen bei einem Wurf mit zwei Würfeln. X( ) = f2; 3; 4; : : : ; 12g.
1
1
Die Verteilung ist gegeben durch f (2) = f (12) = 36
; f (3) = f (11) = 18
;
1
1
5
1
f (4) = f (10) = 12 ; f (5) = f (9) = 9 ; f (6) = f (8) = 36 ; f (7) = 9 :
2. Sei X die Anzahl der Erfolge in einem Bernoulli-Experiment der Länge n und
Erfolgswahrscheinlichkeit p. Dann ist, wie wir schon in Kapitel 2 berechnet haben:
P (X = k) =
n k
p (1
k
p)n
k
= b(k; n; p) für k 2 f0; 1; : : : ; ng:
Eine Zufallsgrösse mit dieser Verteilung heisst binomialverteilt mit Parametern
p und n.
4
Die in der Praxis verwendeten Versionen von Quicksort vermeiden die unangenehme Eigenheit unserer Version, dass der Aufwand für (teilweise) geordnete Listen besonders hoch ist. Eine Möglichkeit
dazu ist, die Listen vor der Anwendung von Quicksort gut zu mischen. Der zusätzliche Aufwand dafür
ist minimal.
31
3. Geometrisch verteilte Zufallsgrössen: In einem Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p führen wir das Experiment so lange fort, bis zum erstenmal “Erfolg” eintritt. X sei der Zeitpunkt des ersten Erfolges. Wir wählen
= N, wobei n 2 N das Elementarereignis ist, dass der erste Erfolg zum Zeitpunkt n vorkommt. Dieses Ereignis ist auch ein Elementarereignis im BernoulliExperiment der festen Länge n, nämlich das Ereignis, dass nach n 1P
Misserfolgen
n
1
ein
vorkommt. Somit gilt p(n) = (1 p)
p. Tatsächlich ist 1
n=1 p(n) =
PErfolg
1
n
p n=0 (1 p) = 1, womit wir nachgeprüft haben, dass ( ; p) ein Wahrscheinlichkeitsraum ist. Wir setzen dann einfach X(n) = n für alle n 2 . Eine Zufallsgrösse,
die diese Verteilung hat, heisst geometrisch verteilt.
Geometrisch verteilte Zufallsgrössen haben die folgende interessante Eigenschaft:
Satz 3.6
Sei X geometrisch verteilt. Für k 2 N ist die bedingte Wahrscheinlichkeit P ( X =
n 1 + k j X n ) gleich P (X = k), also insbesondere unabhängig von n 2 N.
Beweis. Für alle k; n 2 N gilt
P(X = n
und
1
X
m=n
p(m) =
1+k jX
1
X
(1
m=n
p)m
n) =
1
p(n 1 + k)
1 + k)
= P1
n)
m=n p(m)
P (X = n
P (X
p = p(1
p)n
1
1
X
(1
p)m = (1
p)n
1
:
m=0
P1
p)k 1 p.
Somit folgt p(n 1 + k)= m=n p(m) = (1
Der Satz hat die folgende intuitive Interpretation: Die Tatsache, dass bis zu einem
Zeitpunkt kein Erfolg eingetreten ist, verändert nicht die bedingte Verteilung des Moments des ersten Erfolges, gerechnet von diesem Zeitpunkt an. (Viele Menschen sind
anderer Ansicht, da sie, geleitet von der Beobachtung, dass sich Erfolge und Misserfolge
zum Beispiel bei einem symmetrischen Bernoulli-Experiment ungefähr ausgleichen, dem
Trugschluss erliegen, dass nach einer langen Pechsträhne die Wahrscheinlichkeit für einen
Erfolg steigt.)
Da sich die exakte Verteilung in vielen Beispielen nur schwer oder gar nicht explizit
berechnen lässt, ist es wichtig, dass es gewisse Kenngrössen von Zufallsgrössen gibt, die
oft einfacher zu berechnen oder abzuschätzen sind, und die wichtige Informationen über
die Zufallsgrösse enthalten. Die wichtigste dieser Grössen ist der Erwartungswert, der
angibt, wo die Zufallsgrösse “im Mittel” liegt.
De…nition 3.7
Sei
P X eine Zufallsgrösse. Man sagt, dass der Erwartungswert von X existiert, falls
z2X( ) jzjP (X = z) < 1 ist. Der Erwartungswert von X ist dann de…niert durch
E(X) =
X
z2X( )
32
zP (X = z):
Wir de…nieren also E(X) nur, wenn die Reihe absolut konvergiert. Der Wert der
Reihe
X
zP (X = z)
z2X( )
hängt dann nicht von der Reihenfolge der Summanden ab. Es muss hervorgehoben werden, dass der Erwartungswert einer Zufallsgrösse nur von deren Verteilungen abhängt.
Zwei verschiedene Zufallsgrössen mit derselben Verteilung haben also denselben Erwartungswert. Wir lassen die Klammern oft weg und schreiben EX statt E(X).
Physikalische Interpretation: Die Punkte in X( ) seien Massepunkte auf der reellen
Achse. z 2 X( ) habe die Masse P (X = z). Dann ist EX der Schwerpunkt dieser
Masseverteilung.
Man kann statt über X( ) auch über
summieren:
Lemma 3.8
P
Der Erwartungswert von X existiert genau dann,
wenn
die
Reihe
!2 p(!)X(!) abP
solut konvergiert. In diesem Falle gilt EX = !2 p(!)X(!).
Beweis.
X
z2X( )
jzjP (X = z) =
=
X
z2X( )
jzj
X
X
p(!)
!:X(!)=z
(z;!):X(!)=z
jzjp(!) =
X
!2
jX(!)jp(!):
Somit folgt der erste Teil der Behauptung; der zweite ergibt sich mit einer Wiederholung
der obigen Rechnung ohne Absolutzeichen.
Satz 3.9
a) Ist c 2 R und ist X die konstante Abbildung nach c (d.h. X(!) = c für alle ! 2
so gilt EX = c.
),
b) X1 ; : : : ; Xn seien (auf einem gemeinsamen Wahrscheinlichkeitsraum de…nierte) Zufallsgrössen, deren Erwartungswerte existieren, und a1 ; : : : ; an seien reelle Zahlen.
Ferner sei a1 X1 +a2 X2 + +an Xn die Zufallsgrösse, deren Wert an der Stelle ! 2
gleich a1 X1 (!) + a2 X2 (!) + + an Xn (!) ist. Dann existiert E(a1 X1 + + an Xn )
und ist gleich a1 EX1 +
+ an EXn . (Man sagt, der Erwartungswert sei linear.)
Beweis. a) ist nach der De…nition von EX evident.
b) Wir benutzen Lemma 3.8:
X
p(!)ja1 X1 (!) +
+ an Xn (!)j
!
ja1 j
X
p(!)jX1 (!)j +
+ jan j
!
33
X
!
p(!)jXn (!)j < 1:
Somit existiert der Erwartungswert und es gilt
X
E(a1 X1 +
+ an Xn ) =
p(!)(a1 X1 (!) +
!
= a1
X
p(!)X1 (!) +
+ an Xn (!))
+ an
!
X
p(!)Xn (!)
!
= a1 EX1 +
+ an EXn :
Die Menge aller Zufallsgrössen, die auf
de…niert sind, ist einfach R und ist in
natürlicher Weise ein R-Vektorraum. Die Menge der Zufallsgrössen, deren Erwartungswert existiert, ist nach dem obigen Satz ein Unterraum von R . Man bezeichnet ihn oft
als L1 ( ; p). Der Erwartungswert ist eine lineare Abbildung von L1 ( ; p) nach R, also
ein Element des Dualraumes von L1 ( ; p).
Beispiele 3.10
1. X binomialverteilt mit Parametern p; n: Wir schreiben X als X1 + + Xn , wobei
Xi = 1 ist, wenn der i-te Versuch von Erfolg gekrönt war, und andernfalls Xi = 0.
Es gilt E(Xi ) = P (Xi = 1) = p und somit EX = np.
P
k 1 p.
2. X sei geometrisch verteilt mit Parameter p > 0: Es gilt E(X) = 1
k=1 k(1 p)
Eine Anwendung des Quotientenkriteriums zeigt, dass die Reihe
Zur
P konvergiert.
k = s=(1
Berechnung verwenden wir den folgenden Trick: Sei f (s) := 1
s
s)
k=1
für alle jsj < 1 (geometrische Reihe). Dann gilt
0
f (s) =
1
X
ksk
1
=
(1
k=1
s) s( 1)
1
=
:
(1 s)2
(1 s)2
(Frage an den Leser: Warum darf gliedweise di¤erenziert werden?) Setzt man s =
1 p ein, so ergibt sich
1
X
k=1
k(1
p)k
1
=
1
;
p2
1
also E(X) = :
p
3. In unserem Modell einer zufälligen Reihenfolge einer Liste mit n verschiedenen
Elementen (Beispiel 3.3) sei Y die Anzahl der Elemente, die schon auf dem richtigen Platz der geordneten Liste sind. P (Y = n) ist leicht zu berechnen, denn
das Ereignis fY = ng enthält genau ein Elementarereignis, nämlich die geordnete Liste. Somit gilt P (Y = n) = 1=n!. Für k < n ist die Berechnung von
P (Y = k)Pein nicht ganz triviales Problem. Mit einem Trick kann man jedoch
n
E(Y ) =
k=0 kP (Y = k) berechnen, ohne die Verteilung von Y zu kennen.
Man schreibt Y = Y1 + Y2 +
+ Yn , wobei Yi = 1 ist, wenn das i-te Element
auf dem richtigen Platz steht, und Yi = 0 sonst. Dann gilt E(Yi ) = 1 P (Yi =
1) + 0 P (Yi = 0) = P (Yi = 1). fYi = 1g enthält genau die (n 1)! Elementarereignisse, die das i-t grösste Element der Liste auf dem i-ten Platz haben. Somit folgt
34
E(Yi ) = (n 1)!=n! = 1=n. Nun nutzt man aus, dass E(Y ) =
folgt E(Y ) = 1.
Pn
i=1 E(Yi )
ist; also
Wir wollen die Analyse von
Quicksort (Beispiel 3.3) etwas fortsetzen: Der Erwar1 P
tungswert EXn ist gleich n! !2 Xn (!), da n! gleich wahrscheinliche Elementarereignisse enthält. Dieser mittlere Aufwand soll nun berechnet werden.
O¤enbar können wir ohne Einschränkung der Allgemeinheit annehmen, dass die zu
ordnende Liste genau die Zahlen 1 bis n enthält. Die Elementarereignisse sind die Permutationen von 1 bis n, d.h. die bijektiven Abbildungen ! : f1; : : : ; ng ! f1; : : : ; ng. Ist
!(1) = k, so hat nach dem ersten Durchgang des Algorithmus die Liste die Gestalt
( (1); : : : ; (k
1); k; 0 (k + 1); : : : ; 0 (n))
(3.1)
Dabei sind
und 0 Permutationen der Zahlen 1 bis k 1 bzw. k + 1 bis n. Die
vordere Liste entfällt für k = 1 und die hintere für k = n. Es gibt im allgemeinen mehrere Elementarereignisse, die nach dem ersten Durchgang gleich aussehen, z.B.
(3; 2; 4; 1); (3; 2; 1; 4); (3; 4; 2; 1). Wir bezeichnen mit k; ; 0 die Menge der Elementarereignisse, die nach dem ersten Durchgang die obige Liste (3.1) ergeben.
Der erste Durchgang des Algorithmus benötigt n 1 Vergleiche. Ist !(1) = k, so ist
demzufolge die gesamte Anzahl Xn (!) der benötigten Vergleiche
Xn (!) = (n
1) + Xk
1(
) + Xn0
k(
0
);
wobei Xk 1 ( ) und Xn0 k ( 0 ) die Anzahl der benötigten Vergleiche für das Ordnen der
Listen ( (1); : : : ; (k 1)) bzw. ( 0 (k + 1); : : : ; 0 (n)) bezeichnen. Somit gilt
EXn =
n
1 X
1 X
Xn (!) =
n!
n!
!2
X
n
= (n
Xn (!)
k=1 !:!(1)=k
1 XXX
1) +
n!
0
k=1
X
!2
(Xk
1(
) + Xn0
k(
0
)):
k; ; 0
Die Summation über geht über alle Permutationen der Zahlen 1 bis k 1, und diejenige
über 0 geht über alle Permutationen der Zahlen k + 1 bis n.
Zunächst müssen wir abzählen, wie viele Elemente k; ; 0 enthält, d.h. wieviele Möglichkeiten es gibt, die Elemente (1); : : : ; (k 1) unter Erhaltung ihrer Ordnung in den
n 1 Elementen auf den Plätzen 2 bis n der ursprünglichen Liste einzuordnen. Dies ist
einfach die Anzahl der Möglichkeiten, k 1 Elemente aus f2; : : : ; ng auszuwählen, also
35
n 1
k 1
. Somit gilt
n
EXn = (n
= (n
= (n
= (n
1 XXX n
1) +
n!
k
0
1
1) +
n
1) +
1
n
k=1
n
X
k=1
n
X
1
1
X
(k
1)!
(EXk
1
+ EXn
1
Xk
Xk
1(
1(
)+
) + Xn0
X
0
0
k(
1
(n
k)!
)
!
Xn0 k ( 0 )
k)
k=1
n
2X
1) +
EXk
n
1:
k=1
Da EX0 und EX1 gleich 0 sind, können wir die obige Gleichung wie folgt umschreiben:
nEXn = n(n
1) + 2
n
X1
EXk :
k=2
Dasselbe mit n
1 anstelle von n:
(n
1)EXn
1
= (n
1)(n
2) +
n
X2
EXk :
k=2
Subtrahieren wir die zweite Gleichung von der ersten, so ergibt sich
nE(Xn )
(n
1)E(Xn
1)
= 2(n
1) + 2E(Xn
1)
d.h.
nE(Xn )
(n + 1)E(Xn
1)
= 2(n
1):
Dividiert man durch n(n + 1), so ergibt sich:
EXn
n+1
EXn
n
1
=
2
2(n 1)
=2
n(n + 1)
n+1
1
;
n
also, da E(X1 ) = 0 ist,
n
n
X
X
EXj
EXj 1
1
EXn
2
=
=2
n+1
j+1
j
j+1 j
j=2
j=2
0
1
n
n
X
X1 1
2
A
= 2@
j+1
j+1
j=2
j=1
0
1
0
n
n
X
X1 1
2
1A
1
1
@
@
=2
+
=2
+
j+1 n+1 2
j+1 n+1
j=2
j=1
36
(3.2)
1
1A :
P
1
Damit haben wir EXn berechnet, allerdings etwas unhandlich, da wir nj=1 j+1
nicht
explizit hinschreiben können. Es gelten aber die folgenden Abschätzungen, bei denen log
den Logarithmus zur Basis e bezeichnet:
Z n+2
n Z
n
dx X j+2 dx X 1
=
;
log(n + 1) 1 log(n + 2) log(2) =
x
j+1
j+1 x
2
j=1
1
x
die letzte Ungleichung gilt, da
x 2 [j; j + 1], also ist
n
X
1
j+1
1
j+1
für x 2 [j + 1; j + 2] ist. Ferner ist
Z
n+1
1
j=1
j=1
1
j+1
1
x
für
dx
= log(n + 1):
x
Für den hergeleiteten Ausdruck für E(Xn ) bedeutet das
Wegen limn!1
2(n + 1)(log(n + 1)
2)
n
n+1
log n
log(n+1)
= 1 und limn!1
E(Xn )
2(n + 1) log(n + 1):
= 1 folgt
Satz 3.11
EXn
= 2:
n!1 n log n
lim
Der Aufwand für Quicksort ist also im Mittel etwa 2n log n. Man weiss, dass es
keinen Sortieralgorithmus geben kann mit einem Aufwand, dessen Grössenordnung unter
n log n ist. Es gibt allerdings Algorithmen, die jede vorgegebene Liste in weniger als
const n log n Schritten ordnen (z.B. Mergesort), während Quicksort in ungünstigen
Fällen wesentlich mehr braucht. Der mittlere Aufwand ist jedoch bei Quicksort günstiger als bei Mergesort.
Der obige Satz ist ein Beispiel für eine in der Algorithmik sehr wichtige Analyse. Viele
Algorithmen (z.B. bei Optimierungsproblemen) haben ein sehr schlechtes Verhalten in
ungünstigsten Fällen, jedoch eine gute mittlere Laufzeit.
Die alleinige Kenntnis von Erwartungswerten ist im allgemeinen wenig nützlich, wenn
nicht gleichzeitig bekannt ist, dass die Zufallsgrösse mit hoher Wahrscheinlichkeit “nahe”
beim Erwartungswert liegt.
Dazu ein Beispiel: Ist P (X = 0) = P (X = 1) = 1=2, so ist EX = 1=2, aber
dies gibt im Grunde wenig Information über X. Anderseits: Sei X die mittlere Anzahl
der Kopfwürfe bei einem Münzwurf-Experiment der Länge 1000, d.h. die Anzahl der
Kopfwürfe dividiert durch 1000. Aus Beispiel 3.10.1 wissen wir, dass ebenfalls EX =
1=2 gilt. Jedermann “ist bekannt”, dass X mit grosser Wahrscheinlichkeit nahe bei 1=2
liegt. Dies ist der Inhalt des Gesetzes der grossen Zahlen, das wir weiter unten gleich
diskutieren und beweisen werden. Die Verteilung von X ist hier ziemlich scharf um EX
konzentriert. Ohne solche “Massekonzentrationsphänomene”gäbe es keine Anwendungen
der Wahrscheinlichkeitstheorie.
Ein Mass für die Abweichung, die eine Zufallsgrösse von ihrem Erwartungswert hat,
ist die sogenannte Varianz:
37
De…nition 3.12
Es sei X eine Zufallsgrösse mit existierendem Erwartungswert EX. Dann heisst
X
var(X) :=
(z EX)2 P (X = z)
(3.3)
z2X( )
p
die Varianz von X und (X) := + var(X) die Standardabweichungvon X, falls
die (möglicherweise unendliche) Reihe konvergiert.
Man sagt oft auch, die Varianz sei unendlich, wenn die Reihe divergiert.
Da die Varianz den mittleren quadratischen Abstand die Zufallsgrösse von EX misst,
ist es naheliegend, dass die Standardabweichung angibt, wie weit entfernt man typischerweise die Zufallsgrösse von ihrem Erwartungswert …nden wird. Diese Interpretation soll
man jedoch nur mit Vorsicht anwenden.
P Eine naheliegende Frage ist, wieso man die Standardabweichung nicht einfach durch z2X( ) jz EXj P (X = z) de…niert. Die Antwort
ist, dass man mit Summen von Quadraten (mathematisch) besser umgehen kann als mit
Summen von Absolutbeträgen.
Lemma 3.13
Es gilt var (X)
0 und var (X) = 0 gilt genau dann, wenn P (X = EX) = 1 ist.
Beweis. Die Aussagen folgen unmittelbar aus der De…nition.
Es ist naheliegend (und richtig, wie wir gleich sehen werden), dass var (X) einfach
der Erwartungswert der Zufallsgrösse ! ! (X (!) EX)2 ist. Wir fomulieren das gleich
etwas allgemeiner als unbedingt nötig. Sei X eine Zufallsgrösse und f : R ! R: Dann
ist die Zusammensetzung f (X) : ! R natürlich ebenfalls eine Zufallsgrösse.
Lemma 3.14
P
Ef (X) existiert genau dann, wenn z2X( ) jf (z)j P (X = z) < 1 ist, und es gilt in
diesem Fall
X
Ef (X) =
f (z) P (X = z) :
(3.4)
z2X( )
Beweis. Das ist eine einfache Umsummierung
wie in Lemma 3.8. Nach diesem Lemma
P
existiert Ef (X) genau dann, wenn !2 jf (X (!))j p (!) < 1 gilt. Wir spalten das
nach den Werten von X auf:
X
X
X
jf (X (!))j p (!) =
jf (X (!))j p (!)
!2
z2X( ) !:X(!)=z
=
X
z2X( )
jf (z)j
X
!:X(!)=z
p (!) =
X
z2X( )
jf (z)j P (X = z) :
Im Falle der Konvergenz dieser Reihe, folgt (3.4) mit derselben Rechnung ohne Absolutzeichen.
Eine Anwendung dieses Lemmas auf die Funktion f (z) := (z EX)2 ergibt, dass
var (X) der Erwartungswert der Zufallsgrösse (X EX)2 ist. Nachfolgend einige weitere
einfache Eigenschaften:
38
Lemma 3.15
1. var(X) existiert genau dann, wenn E(X 2 ) existiert.
2. Existiert var(X), so gilt
var(X) = E(X 2 )
3. Für a; b 2 R gilt
(EX)2 :
var(a + bX) = b2 var(X):
4. Sind X und Y Zufallsgrössen, deren Varianzen existieren, so existiert die Varianz
von X + Y .
Beweis. 1.: Falls var(X) existiert, so existiert EX (per De…nition). Wegen z 2 2(EX)2 +
2(z EX)2 für z 2 R folgt
X
X
z 2 P (X = z) 2(EX)2 + 2
(z EX)2 P (X = z) < 1:
z2X( )
z2X( )
Nach Lemma 3.14 existiert dann E(X 2 ).
Falls E(X 2 ) existiert, so folgt
X
X
X
jzjP (X = z) =
jzjP (X = z) +
jzjP (X = z)
z2X( )
z2X( )
jzj 1
z2X( )
jzj>1
X
1+
z2X( )
Somit existiert EX. Wegen (z
wie oben.
2.:
var(X) = E((X
= E(X 2 )
EX)2
z 2 P (X = z) < 1:
2(EX)2 + 2z 2 folgt die Existenz von var(X)
EX)2 ) = E(X 2
2EX
2(EX)X + (EX)2 )
EX + (EX)2 = E(X 2 )
(EX)2 :
In der dritten Gleichung haben wir die Linearität des Erwartungswertes benutzt.
3. folgt ebenfalls sofort aus der Linearität des Erwartungswerts.
4.: Es gilt (X(!) + Y (!))2
2X(!)2 + 2Y (!)2 für alle ! 2 . Nach 1 folgt die
Existenz von var(X + Y ).
Beispiel 3.16
Wir berechnen die Varianz einer geometrisch verteilten Zufallsgrösse X und verwenden
dazu
Trick wie bei der Berechnung des Erwartungswertes. Sei also f (s) :=
P1 denselben
k = s=(1
s
s) für alle jsj < 1. Dann gilt
k=1
00
f (s) =
1
X
k(k
1)sk
2
k=1
39
=
2
(1
s)3
;
jsj < 1:
Da E(X 2 ) = E(X + X(X 1)) = E(X) + E(X(X
der obigen Formel mit s = 1 p
E(X(X
1)) =
1
X
k(k
1)p(1
k 1
p)
= p(1
k=1
p)
1)) ist, folgt mit Lemma 3.14 und
1
X
k(k
1)(1
p)k
2
=2
k=1
1
p
p2
;
also E(X 2 ) = 1=p + 2(1 p)=p2 = (2 p)=p2 , wobei wir E(X) = 1=p gemäss Beispiel
3.10.2 benützt haben. Aus var(X) = E(X 2 ) (EX)2 nach Lemma 3.15.2 folgt var(X) =
(1 p)=p2 .
Im allgemeinen gilt var(X + Y ) 6= var(X) + var(Y ). Eine einfache Rechnung ergibt
nämlich
var(X + Y ) = E((X + Y )
= E(X
E(X + Y ))2
EX)2 + E(Y
EY )2 + 2E [(X
= var(X) + var(Y ) + 2E [(X
EX)(Y
EX)(Y
EY )]
(3.5)
EY )] ;
und der letzte Summand ist in vielen Fällen ungleich Null, z.B. für X = Y , var(X) 6= 0.
Dennoch ist der Fall, wo für zwei Zufallsgrössen X und Y die Gleichung var(X + Y ) =
var(X)+var(Y ) gilt, von besonderem Interesse, was wir weiter unten diskutieren werden.
De…nition 3.17
Sind X und Y zwei Zufallsgrössen, so ist die Kovarianz zwischen X und Y de…niert
durch cov(X; Y ) = E [(X EX)(Y EY )], falls alle in diesem Ausdruck vorkommenden Erwartungswerte existieren.
Bemerkung 3.18
Eine analoge Überlegung wie im Beweis von Lemma 3.15 zeigt, dass cov(X; Y ) genau
dann existiert, wenn E(X), E(Y ) und E(XY ) existieren. In diesem Fall gilt
cov(X; Y ) = E(XY )
E(X)E(Y ):
Lemma 3.19
Seien X und Y Zufallsgrössen, für die cov(X; Y ) existiert.
1.
cov(X; Y ) = cov(Y; X):
2. Die Kovarianz ist bilinear in ihren Argumente: Sind ;
cov( X; Y ) =
2 R so gilt
cov(X; Y ):
Sind X; X 0 ; Y Zufallsgrössen für die cov (X; Y ) und cov (X 0 ; Y ) existieren, so existiert auch cov (X + X 0 ; Y ) und es gilt
cov X + X 0 ; Y = cov (X; Y ) + cov X 0 ; Y :
40
Beweis. Die Eigenschaften folgen sofort aus der De…nition der Kovarianz und der Linearität des Erwartungswertes.
Die Gleichung (3.5) kann wie folgt verallgemeinert werden:
Satz 3.20
Seien X1 ; : : : ; Xn Zufallsgrössen mit existierenden Varianzen und Kovarianzen. Dann gilt
!
n
n
n
X
X
X
var
Xi =
var(Xi ) +
cov(Xi ; Xj )
i=1
i=1
=
n
X
i;j=1
i6=j
X
var(Xi ) + 2
i=1
cov(Xi ; Xj )
1 i<j n
Beweis.
var
n
X
i=1
Xi
!
=E
n
X
Xi
i=1
=
n
X
E
n
X
i=1
(E(Xi
Xi
!2
EXi )(Xj
=E
n
X
!2
(Xi
EXi )
n
X
var(Xi ) +
i=1
EXj )) =
i;j=1
i=1
n
X
cov(Xi ; Xj ):
i;j=1
i6=j
(Um Klammern zu sparen, verstehen wir unter EY 2 stets E Y 2 ): Die zweite Gleichung
folgt aus der ersten wegen cov (X; Y ) = cov (Y; X) :
Beispiel 3.21
Als Anwendung dieser Formel berechnen wir die Varianz einer hypergeometrisch verteilten Zufallsgrösse. Sei eine Schachtel mit r roten und s schwarzen Kugeln gegeben. Es
werden k r + s Kugeln (ohne Zurücklegen)
gezogen. X bezeichne die Anzahl gezogener
P
roten Kugeln. Wir schreiben X = ki=1 Xi ; wobei Xi = 1 ist, wenn die i-te gezogene
Kugel rot ist, andernfalls Xi = 0: Eine einfache Rechnung ergibt
r
EXi = P (Xi = 1) =
r+s
s
r
var (Xi ) = E Xi2
(EXi )2 =
:
r+sr+s
Um die Kovarianzen auszurechnen, bestimmen wir
E (Xi Xj ) = P (Xi = 1; Xj = 1) = P (Xj = 1jXi = 1) P (Xi = 1)
r
= P (Xj = 1jXi = 1)
:
r+s
Wir argumentieren nun wie folgt: Bedingt darauf, dass die i-te gezogene Kugel rot ist,
entspricht der Ziehung der anderen Kugeln eine Ziehung aus einer um eine rote Kugel
verminderten Schachtel, d..h.
P (Xj = 1jXi = 1) =
41
r 1
:
r+s 1
Es sei dem Leser überlassen, dieses Plausibilitätsargument mathematisch präzise zu formulieren. Aus der obigen Gleichung erhalten wir nun für i 6= j :
2
r
r 1
r
cov (Xi ; Xj ) = E (Xi Xj ) EXi EXj =
r+sr+s 1
r+s
r
r 1
r
rs
=
=
:
2
r+s r+s 1 r+s
(r + s) (r + s 1)
Damit erhalten wir
var (X) = k var (X1 ) + k (k 1) cov (X1 ; X2 )
rs
rs
k (k 1)
= k
2
2
(r + s)
(r + s) (r + s 1)
rs k (r + s 1) k (k 1)
krs r + s
=
=
2
(r + s 1)
(r + s)
(r + s)2 r + s
k
:
1
Satz 3.22
Existieren var(X) und var(Y ), so existiert cov(X; Y ) und es gilt
( (X) :=
j cov(X; Y )j
p
var(X)):
(X) (Y ):
(3.6)
Beweis. Für alle ! 2 gilt jX(!)Y (!)j 12 X 2 (!) + 12 Y 2 (!). Daraus und aus Lemma
3.15 folgt die Existenz von E(XY ) und nach der Bemerkung 3.18 auch die von cov(X; Y ).
Für ; 2 R folgt aus Lemma 3.19.2 und Satz 3.20:
0
var( X + Y ) =
2
var(X) + 2
cov(X; Y ) +
2
var(Y ):
Als Funktion von ( ; ) 2 R2 de…niert dies also eine positiv semide…nite quadratische
Form. Demzufolge ist
det
var(X)
cov(X; Y )
cov(X; Y )
var(Y )
0:
(3.7)
Dies impliziert die Aussage.
Bemerkung 3.23
1. Der Vollständigkeit halber sei auf den folgenden Sachverhalt hingewiesen. Die Existenz von cov(X; Y ) setzt die Existenz von EX, EY und E(XY ) voraus und folgt
nach dem obigen Satz aus der Existenz von var(X) und var(Y ). Letzteres ist jedoch
dafür nicht notwendig: Es gibt Zufallsgrössen mit existierender Kovarianz, deren
Varianzen nicht existieren.
2. Gleichheit in (3.6) gilt o¤enbar genau dann, wenn die Determinante in (3.7) gleich 0
ist. Dies ist genau dann der Fall, wenn die quadratische Form nicht postiv de…nit ist,
d.h. wenn es ; 2 R gibt, nicht beide = 0; mit var( X + Y ) = 0: Wie wir schon
42
wissen, gilt diese Gleichung genau dann, wenn P ( X + Y = EX + EY ) = 1
gilt. Mit anderen Worten: Gleichheit in (3.6) gilt genau dann, wenn es reelle Zahlen
; ; c gibt, sodass mit Wahrscheinlichkeit 1 die Gleichung X + Y = c gilt. (Dass
c in diesem Fall = EX + EY sein muss, ist o¤ensichtlich).
Manchmal ist es praktisch, die Kovarianz noch zu normieren: Sind (X);
so setzen wir
cov (X; Y )
X;Y :=
(X) (Y )
X;Y
(Y ) > 0,
bezeichnet man als den Korrelationskoe¢ zienten von X und Y: Nach Satz 3.22
gilt
1
Nach der Bemerkung 3.23.2 gilt
P ( X + Y = c) = 1:
X;Y
1:
X;Y
= 1 genau dann, wenn ; ; c 2 R existieren, mit
De…nition 3.24
Die Zufallsgrössen X und Y heissen unkorreliert, wenn cov(X; Y ) existiert und gleich
0 ist.
Satz 3.25
Sind die Zufallsgrössen X1 ; : : : ; Xn unkorreliert und existieren die Varianzen, so gilt
!
n
n
X
X
var
Xi =
var(Xi ):
i=1
i=1
Beweis. Satz 3.20 und die De…nition von unkorreliert.
Die für uns zunächst wichtigste Klasse von unkorrelierten Zufallsgrössen sind unabhängige:
De…nition 3.26
n Zufallsgrössen X1 ; : : : ; Xn heissen unabhängig, wenn
P (X1 = z1 ; : : : ; Xn = zn ) = P (X1 = z1 )
P (Xn = zn )
für alle zi 2 Xi ( ), i 2 f1; : : : ; ng gilt.
Satz 3.27
Die folgenden vier Aussagen über die Zufallsgrössen X1 ; X2 ; : : : ; Xn sind äquivalent
a) X1 ; : : : ; Xn sind unabhängig.
b) Für alle A1 ; : : : ; An
R gilt
P (X1 2 A1 ; X2 2 A2 ; : : : ; Xn 2 An ) = P (X1 2 A1 )
c) Für alle A1 ; : : : ; An
P (Xn 2 An ):
R sind die Ereignisse fX1 2 A1 g; : : : ; fXn 2 An g unabhängig.
43
d) Für z1 2 X1 ( ); : : : ; zn 2 Xn ( ) sind die Ereignisse fX1 = z1 g; : : : ; fXn = zn g
unabhängig.
Beweis. a) ) b): Summation der Gleichung in De…nition 3.26 über (z1 ; : : : ; zn ) 2 A1
A2
An .
b) ) c): Nach Lemma 2.10, dass für (i1 ; : : : ; in ) 2 f1; cgn die Gleichung
0
1
n
n
\
Y
P @ fXj 2 Aj gij A =
P (fXj 2 Aj gij )
j=1
j=1
gilt, wobei fXj 2 Aj g1 := fXj 2 Aj g ist. Nun ist jedoch fXj 2 Aj gc = fXj 2 Acj g. Wir
können deshalb einfach b) mit Aj oder Acj anstelle von Aj anwenden.
c) ) d) ist trivial und d) ) a) ergibt sich aus der De…nition.
Korollar 3.28
Sind X1 ; X2 ; : : : ; Xn unabhängige Zufallsgrössen und sind f1 ; f2 ; : : : ; fn Funktionen R !
R; so sind f (X1 ) ; f (X2 ) ; : : : ; f (Xn ) unabhängige Zufallsgrössen.
Beweis. Für Ai
R gilt
f! 2
: f (Xi (!)) 2 Ai g = ! 2
: Xi (!) 2 fi
1
(Ai ) ;
wobei fi 1 (Ai ) := fx 2 R : fi (x) 2 Ai g ist. Aus der Äquivalenz von c) und a) im obigen
Satz folgt die Behauptung.
Satz 3.29
Zwei unabhängige Zufallsgrössen, deren Erwartungswerte existieren, sind unkorreliert.
Beweis. Seien X und Y unabhängig. Der Erwartungswert von XY existiert nach Lemma
3.8 genau dann, wenn
X
jX (!) Y (!)j p (!) < 1
!2
gilt. Nun gilt
X
X
jX (!) Y (!)j p (!) =
!2
X
x2X( ) y2Y ( )
=
X
X
x2X( ) y2Y ( )
=
X
x
jxyj
X
p (!)
!:X(!)=x;Y (!)=y
jxyjP (X = x; Y = y) =
!
jxjP (X = x)
X
y
XX
x
!
jyjP (Y = y)
y
jxj jyjP (X = x)P (Y = y)
< 1:
Daraus folgt die Existenz von E(XY ). Eine Repetition der obigen Rechnung ohne Absolutzeichen ergibt E(XY ) = E(X)E(Y ). Nach Bemerkung 3.18 folgt daraus die Unkorreliertheit von X und Y .
44
Bemerkung 3.30
Derselbe Beweis ergibt für n Zufallsgrösen X1 ; : : : ; Xn , die Q
unabhängig sind und deren
n
Erwartungswerte
existieren,
dass
der
Erwartungswert
von
i=1 Xi existiert und gleich
Qn
i=1 EXi ist.
Beispiele 3.31
a) Wir betrachten ein Bernoulli-Experiment mit Parametern n; p und setzen Xi = 1,
falls der i-te Versuch ein Erfolg ist, und Xi = 0 sonst (1
i
n). Dann gilt
var(Xi ) = E(Xi2 ) (EXi )2 = p p2 = p(1 p). Die Unabhängigkeit von X1 ; : : : ; Xn
folgt aus der De…nition des Bernoulli-Experimentes 2.15. P
Nach Satz 3.29 sind die
Xi unkorreliert. Nach Satz 3.20 folgt für die Anzahl X = ni=1 Xi der Erfolge
var(X) =
n
X
var(Xi ) = np(1
p)
i=1
und somit (X) =
p
np(1
p).
b) Um an einem Beispiel zu zeigen, dass die Umkehrung von Satz 3.29 nicht gilt,
wählen wir = f 1; 0; 1g mit der Gleichverteilung und de…nieren die Zufallsgrösse X durch X(!) = ! für alle ! 2 . Dann gelten E(X) = 0, E(jXj) = 2=3 und
E(XjXj) = 0, also sind X und jXj nach Bemerkung 3.18 unkorreliert. O¤ensichtlich sind X und jXj aber abhängig, denn zum Beispiel ist fX = 1; jXj = 0g das
unmögliche Ereignis, aber P (X = 1)P (jXj = 0) ist gleich 1/9.
Die Standardabweichung ist ein Mass dafür, wie weit X von EX mit nicht zu kleiner
Wahrscheinlichkeit abweichen kann. Diese sehr vage Aussage wird durch die sogenannte
Tschebysche¤ -Ungleichung präzisiert. Wir beweisen zunächst eine andere Ungleichung,
die später noch nützlich sein wird, die man auch die Markov-Ungleichung nennt:
Lemma 3.32 (Marko¤ Ungleichung)
Es sei X eine Zufallsgrösse, deren Erwartungswert existiert. Dann gilt für jedes a > 0
P (jXj
a)
EjXj
:
a
Beweis.
P (jXj
a) =
X
P (X = x)
x2X( )
jxj a
X jxj
P (X = x)
a
x2X( )
jxj a
X jxj
EjXj
P (X = x) =
:
a
a
x2X( )
45
Satz 3.33 (Tschebysche¤-Ungleichung)
Sei X eine Zufallsgrösse, deren Erwartungswert EX und Varianz var(X) existieren. Dann
gilt für jedes a > 0
var(X)
P (jX EXj a)
:
a2
Beweis. Mit Lemma 3.32 folgt
P (jX
EXj
a) = P ((X
EX)2
a2 )
1
E((X
a2
EX)2 ) =
var(X)
:
a2
Die Tschebysche¤-Ungleichung ist nach dem russischen Mathematiker Pafnuty Lvovich Tschebysche¤ (1821-1894) benannt. In Tat und Wahrheit stammt sie jedoch vom
franzözischen Mathematiker Irénée-Jules Bienaymé (1796-1878). Historische Puristen
nennen die Ungleichung daher “Bienaymé-Tschebyche¤ Ungleichung”.
Irénée-Jules Bienaymé
P. L. Tschebysche¤
Die Tschebysche¤-Ungleichung ist in gewisser Weise optimal: Man kann leicht ein
Beispiel angeben, bei dem die Abschätzung scharf ist:
Beispiel 3.34
Sei a > 0 und X eine Zufallsgrösse, die als Werte a, +a und 0 annimmt und deren
Verteilung gegeben ist durch P (X = a) = P (X = +a) = 1=(2a2 ) und P (X = 0) =
1 1=a2 . Wir erhalten E(X) = 0 und var(X) = 1 und damit
P (jX
E(X)j
a) = P (jXj
a) = P (X =
a) + P (X = +a) =
1
:
a2
Trotz dieses Beispiels ist die Tschebysche¤ Ungleichung in vielen Fällen keine sehr gute Abschätzung. Wir werden das später noch ausführlicher diskutieren. Die Tschebysche¤Ungleichung ist gut genug, um das nachfolgende Gesetz der grossen Zahlen zu beweisen.
46
Satz 3.35 (Schwaches Gesetz der grossen Zahlen)
Es seien für jedes n 2 N auf einem Wahrscheinlichkeitsraum unkorrelierte Zufallsgrössen
X1 ; X2 ; : : : ; Xn gegeben, die von n abhängen dürfen, die aber
P alle den gleichen Erwartungswert und die gleiche Varianz 2 besitzen. Sei Sn := ni=1 Xi : Dann gilt für jedes
">0
Sn
lim P
" = 0:
(3.8)
n!1
n
Beweis. Aus Satz 3.33, Lemma 3.15.3 und Satz 3.25 folgt
P
Sn
n
"
=
1
Sn
var
2
"
n
1
1
var (Sn ) = 2 2 n
n2 " 2
n "
2
2
=
n"2
! 0 fu
•r n ! 1:
Falls wir also ein Zufallsexperiment beliebig oft wiederholen und annehmen, dass die
Ergebnisse (Zufallsgrössen) paarweise unabhängig oder mindestens unkorreliert sind, so
ist die Wahrscheinlichkeit für ein Abweichen der Mittelwerte der ersten n Experimente
vom Erwartungswert schliesslich (d.h. für hinreichend grosse n) beliebig klein.
Das Gesetz geht für Bernoulli-Variablen auf Jacob Bernoulli zurück (1654-1705). Es
wurde jedoch erst nach seinem Tode 1713 publiziert. Die Schweizer Mathematiker betrachten das Gesetz o¤enbar als das bedeutendste mathematische Schweizer Produkt.
Jedenfalls wurde es auf einer Sondermarke der Post anlässlich des Mathematischen Weltkongresses 1994 in Zürich dargestellt:
Jacob Bernoulli
Die Graphik auf der Marke soll o¤enbar einen “typischen”Verlauf von Sn =n wiedergeben.
Allerdings ist ein Verlauf wie der dargestellte extrem unwahrscheinlich, da das Vorzeichen
in der Darstellung praktisch bei jedem Schritt wechselt.5
5
Die Überschrift “Mathematica”war nicht als Werbung für das gleichnamige Software-Paket gedacht.
Jedenfalls trat Wolfram-Research nicht als Sponsor des Kongresses in Erscheinung. Dass es sich bei der
dargestellten Person um Jacob Bernoulli handelt, wurde dem Publikum vorenthalten.
47
Die Abschätzung Bernoullis für P (jSn =n
j ") ist übrigens viel besser als die
oben hergeleitete. Er beweist in der Tat (allerdings nur für binomialverteilte Zufallsgrössen), dass eine positive Zahl C ("; p) > 0 existiert (p die Erfolgswahrscheinlichkeit im
Bernoulli-Experiment), sodass für alle n
P
Sn
n
"
2 exp [ C ("; p) n]
(3.9)
gilt. Seine Konstante C ("; p) ist jedoch nicht ganz optimal. Wir werden gleich unten
(Satz 3.39) eine solche Abschätzung herleiten. Man muss dabei bedenken, dass Bernoulli
die sogenannte Sterling-Approximation, die wir später diskutieren werden, nicht kannte,
mit der eine Abschätzung vom Typ (3.9) für Bernoulli-Variablen leicht hergeleitet werden
kann.
Die Voraussetzungen des Satzes 3.35 muten etwas umständlich an. Wieso setzen
wir nicht einfach voraus, dass (Xi )i2N eine Folge von unkorrelierten Zufallsgrössen ist?
Die Antwort ist einfach, dass eine derartige unendliche Folge auf einem abzählbaren
Wahrscheinlichkeitsraum nicht de…niert werden kann (ausser im ganz trivialen Fall, wo
die Xi alle konstant sind). Im Satz 3.35 setzen wir jedoch nur voraus, dass für jedes
n ein Wahrscheinlichkeitsraum (n) existiert, auf dem die X1 ; : : : ; Xn existieren. Wenn
(n)
(n)
wir ganz pedantisch wären, sollten wir deshalb X1 ; : : : ; Xn schreiben. Es macht keine
Schwierigkeiten, eine solche Folge von (diskreten) Wahrscheinlichkeitsräumen und die dazugehörenden Zufallsgrössen als mathematisch präzis de…nierte Objekte zu konstruieren.
Dazu die folgende
Proposition 3.36
Es sei n 2 N und f1 ; : : : ; fn seien P
(diskrete) Wahrscheinlichkeitsverteilungen auf R; d.h.
Abbildungen fi : Ai ! [0; 1] mit x2Ai fi (x) = 1; wobei die Ai abzählbare Teilmengen
von R sind. Dann existiert ein Wahrscheinlichkeitsraum ( ; p) und darauf de…nierte
unabhängige Zufallsgrössen X1 ; : : : ; Xn ; die die fi als Verteilungen haben. (sie De…nition
3.4).
Beweis. Sei = A1
An . Für ! = (! 1 ; : : : ; ! n ) 2 setzen wir Xi (!) = ! i für alle
i in f1; : : : ; ng und p(!) = f1 (! 1 )f2 (! 2 ) fn (! n ). Per Konstruktion sind X1 ; : : : ; Xn
unabhängig. Ferner hat Xi o¤ensichtlich die Verteilung fi :
Haben die fi alle denselben Erwartungswert und dieselbe Varianz (z.B. wenn sie
alle gleich sind), so haben die Xi alle denselben Erwartungswert und dieselbe Varianz.
Diese Konstruktion können wir für jedes n durchführen. Wir haben somit gezeigt, dass
endliche Folgen von unabhängigen (und mithin unkorrelierten) Zufallsgrössen für jede
diskrete Verteilung existieren. Für die Konstruktion unendlicher Folgen benötigt man
jedoch mehr Masstheorie. Wir diskutieren das in dieser Vorlesung nur andeutungsweise.
(Siehe Satz 2.19).
48
Noch eine Bemerkung zum Spezialfall des Bernoulli-Experimentes: Ist Sn binomialverteilt mit Erfolgswahrscheinlichkeit p, so besagt Satz 3.35, dass für jedes " > 0
P
Sn
n
p
" = P (jSn
=
npj
X
n")
X
P (Sn = k) =
k:jk npj n"
k:jk npj n"
n k
p (1
k
p)n
k
mit n ! 1 gegen 0 konvergiert. Man muss sich jedoch darüber im klaren sein, dass
keineswegs etwa P (Sn 6= np) gegen null konvergiert. In der Tat konvergiert P (jSn npj
r) gegen 1 für jede Zahl r > 0, wie wir später noch sehen werden. Nicht Sn liegt mit
grosser Wahrscheinlichkeit (für grosse n) in der Nähe von np, sondern Sn =n in der Nähe
von p.
Auch für unser Beispiel mit Quicksort kann ein “Gesetz der grossen Zahlen” bewiesen werden. Dazu muss die Varianz der Zufallsgrösse Xn , der Anzahl der benötigten
Vergleiche, abgeschätzt werden. Ohne Beweis zitieren wir das folgende Ergebnis:
Lemma 3.37
Sei Xn die Anzahl der benötigten Vergleiche beiQuicksort für eine Liste der Länge n.
Dann existiert c = limn!1 var(Xn )=n2 und ist grösser als 0.
Das Lemma besagt insbesondere, dass
sup
n
var(Xn )
<1
n2
gilt. Die wichtige Tatsache ist, dass die Standardabweichung (Xn ) n klein gegenüber
dem Erwartungswert ist, d.h. dass sich die Verteilung im relativen Massstab mehr und
mehr um den Erwartungswert konzentriert (siehe den Satz 3.38 gleich unten). Die Situation ist jedoch wesentlich schlechter als etwa beim Gesetz der grossen Zahlen für das
Bernoulli-Experiment. Dort war der Erwartungswert von der Ordnung n; die Standardp
abweichung jedoch nur von der Grössenordnung n: Bei Quicksort ist also die Standardabweichung nur um einen logarithmischen Faktor kleiner als der Erwartungswert.
Wir können das Lemma hier nicht beweisen.6 Man kann das Lemma “zu Fuss” veri…zieren, was jedoch nicht ohne Tücken ist. Wer gerne harte Nüsse knackt, soll das
versuchen. Als Konsequenz aus dem obigen Resultat über die Varianz bei Quicksort
erhält man das folgende Gesetz der grossen Zahlen:
Satz 3.38
Für jedes " > 0 gilt
lim P
n!1
Xn
n log n
2
" = 0:
6
siehe U. Rösler: A limit theorem for Quicksort, Theoretical Informatics and Applications, Vol 25
(1991), 85-100. Die Konstante c im Lemma ist übrigens 7 2= 3 2 : Röslers Beweis benutzt eine aufwendige Theorie (Kontraktionseigenschaften in gewissen unendlichdimensionalen metrischen Räumen).
49
Beweis. Nach Satz 3.11 existiert N" 2 N, so dass
EXn
n log n
für alle n
2
"=2
N" gilt. Für jedes derartige n gilt
Xn
n log n
2
Xn
n log n
"
EXn
n log n
"
2
und mittels mit der Tschebysche¤-Ungleichung folgt
P
Xn
n log n
2
"
P
Xn
n log n
EXn
n log n
"
2
4 var(Xn )
:
"2 n2 log2 n
Nach Lemma 3.37 konvergiert dies gegen 0 für n ! 1.
Obwohl das Resultat “aus mathematischer Sicht”befriedigt, ist die Abschätzung für
praktische Zwecke nicht allzu nützlich. Wählt man etwa " = 1; so erhält man etwa
P
Xn
n log n
4 7
4 var(Xn )
n2 log2 n
3
2
2= 3
2
log n
28
:
log2 n
Das ist erst ab etwa n = 1700 kleiner als 0:5: Da Quicksort hauptsächlich wegen
der besseren Konstante anderen Algorithmen vorgezogen wird, ist das ganz unbefriedigend. Tatsächlich sind jedoch die Wahrscheinlichkeiten wesentlich kleiner. Das liegt
nicht an “falschen” Aussagen über die Varianz, sondern daran, dass die Tschebysche¤Ungleichung für Quicksort keine gute Abschätzung ist. Wir können das hier nicht weiterverfolgen. Für Quicksort ist die Situation ziemlich kompliziert. Wir diskutieren diese Aspekte jedoch etwas weiter für das Bernoulli-Experiment, wo die Tschebysche¤Ungleichtung ebenfalls nur ganz schlechte Abschätzungen liefert.
Sei Sn die Anzahl der “Erfolge” in einem Bernoulli-Experiment der Länge n und
mit Erfolgswahrscheinlichkeit p 2 (0; 1). Wie wir schon wissen, gilt ESn = np und
var(Sn ) = np (1 p). Das Gesetz der grossen Zahlen besagt also in diesem Fall
lim P
n!1
Sn
n
p
"
=0
für jedes " > 0: Die Tschebysche¤-Ungleichung gibt die Abschätzung
P
Sn
n
p
"
p (1 p)
:
"2 n
Wir leiten nun eine wesentlich bessere Abschätzung her, was jedoch ein gutes Stück
aufwendiger ist. Es erweist sich als zweickmässig, die Abweichungen noch oben und nach
unten getrennt abzuschätzen. Wir untersuchen erst
P
Sn
n
p+
; 0<
50
1
p:
(Für
> 1 p ist P (Sn =n p + ) = 0:) Für jede Zahl
> 0 ist die Funktion
x
R 3 x 7! e monoton wachsend. Zusammen mit Lemma 3.32 folgt
P
Sn
n
p
=P e
(Sn pn)
n
e
n
e
E e
(Sn pn)
;
wobei der Erwartungswert existiert, da Sn nur endlich viele Werte
P annimmt. Um diesen Erwartungswert auszuwerten, schreiben wir (Sn pn) = ni=1 (Xi p), wobei
X1 ; : : : ; Xn die unabhängigen Zufallsgrössen mit P (Xi = 1) = p, P (Xi = 0) = 1 p:
Wir de…nieren die Zufallsgrössen Zi := e (Xi p) für i 2 f1; : : : ; ng. Man beachte
(1i p)
EZi = pe
+ (1
p
p) e
:
Da die Xi unabhängig sind, folgt aus Korollar 3.28, dass auch die Z1 ; : : : ; Zn unabhängig
sind. Demnach folgt
!
n
n
Y
Y
n
(Sn n=2)
E e
=E
Zi =
EZi = pe (1i p) + (1 p) e p :
i=1
Insgesamt erhalten wir für jedes
P
Sn
n
p
e
wobei M ( ) := pe
folgt
(1i p)
n
+ (1
Sn
n
P
(1i p)
p
p) e
+ (1
n
p
p) e
= exp [n (
+ log M ( ))] :
ist. Da diese Abschätzung für jedes
exp n inf (
> 0 gilt,
+ log M ( )) :
>0
+ log M ( ) und berechnen nun das In…mum über diese
+
=
>0
p
Wir schreiben f ( ) :=
Funktion.
f0 ( ) =
pe
i=1
M0 ( )
=
M( )
+ p (1
"
e
f 00 ( ) = p (1 p)
pe + (1
h
p (1 p)
=
2 e
(pe + (1 p))
p)
+
p (1
(1i p)
(1 p) pe
p) + (1
p) e p
p
e
1
pe + (1 p)
e
p)
p) e
pe (1i
1
(pe + (1
pe + (1
2 pe
p))
p)
e
#
1 pe
i
Demzufolge ist f 0 ( ) streng monoton steigend. Anderseits gelten
lim f 0 ( ) =
< 0;
lim f 0 ( ) =
+1
!0
!1
51
p
0:
=
p (1
p) e
(pe + (1
2
p))
> 0:
Für = 1 p ist inf >0 (
+ log M ( )) = lim !1 (
+ log M ( )) = log p und für
2 (0; 1 p) existiert eine eindeutige Nullstelle 0 der Funktion ! f 0 ( ) auf R+ ;
an der f ihr Minimum annimmt. Einsetzen in f 0 ( 0 ) = 0 ergibt mit der Abkürzungen
x := + p
p (1
p)
e
0
e
pe
(p (1
0
1
0
+ (1
p)
p)
>0
=
0)
x log
=
;
p) =
0
inf f ( ) = f (
=
(1 p) + p (1 p) ;
(1 p) x
= h (p) h (x) :
= log
p (1 x)
(
(1 p) x
(1 p) x
log
+ log p
p (1 x)
p (1 x)
(1 p) x
1
+ log
p (1 x)
1
p
= (1
x
x) log
1
1
1 p
+ (1
(1 p) x
p)
p (1 x)
p
p
p
+ x log
x
x
Wir haben also den folgenden Satz gezeigt:
Satz 3.39
Sei Sn die Anzahl der Erfolge in einem Bernoulli-Experiment der Länge n mit Erfolgswahrscheinlichkeit p 2 (0; 1). Dann gilt für p x 1:Dann gilt
P
Sn
n
x
e
Ip (x) :=
(1
x) log
1
1
mit
nIp (x))
p
x
wobei wir für x = 1; Ip (1) := log p de…nieren. Für 0
P
Sn
n
x
e
;
p
x log ;
x
x
nIp (x))
(3.10)
p gilt
:
Es gilt Ip (x)
0 und Ip (x) ist genau dann = 0 wenn x = p ist. Insbesondere ist
Ip (x) > 0 für x 6= p:
Beweis. Für p < x 1 haben wir den Satz eben gezeigt. Für x = p ist Ip (x) = 0 und die
Abschätzung trivial. Für x p folgt die Abschätzung mit einem analogen Argument. Die
angegebenen Eigenschaften der Funktion Ip folgen sofort aus der (3.10) (Übungsaufgabe
zu Di¤-Int I).
Ip (x) ist eine Art Entropie. Überlegungen von dieser Art spielen in der Statistischen
Mechanik eine grosse Rolle. Der Graph von Ip für den Fall p = 3=4 ist:
52
)
Die Kurve hat übrigens Tangente 1 für x = 0 und 1; was man auf der Gra…k nicht
so recht sieht.
Der Vorteil einer Abschätzung wie der im obigen Satz gegeben besteht darin, dass
sie für jedes n gelten. Im Zentralen Grenzwertsatz, den wir später diskutieren werden,
werden asymptotische Aussagen für n ! 1 gemacht, was natürlich weitaus weniger
“nütztlich” ist. Hier ein Rechenbeispiel. Sie werfen einen Würfel 1000 mal. Mit welcher
Wahrscheinlichkeit werfen Sie weniger als 100 mal eine Sechs. Die obige Abschätzung
ergibt:
P (Sn
99)
P
Sn
n
0:099
exp
1000I1=6 (0:099) = 7:0095
10
9
:
Die Abschätzung ist schon recht gut. Der wahre Wert ist jedoch nochmals um etwa eine
Zehnerpotenz kleiner.
Zum Abschluss des Kapitels noch eine Diskussion des sogenannten starken Gesetzes
der grossen Zahlen
Der Satz 3.35 heisst schwaches Gesetz der grossen Zahlen, um es vom sogenannten starken Gesetz der grossen Zahlen zu unterscheiden. Dieses besagt
P
lim
n!1
Sn
existiert und ist =
n
= 1:
(3.11)
(3.11) macht jedoch nur Sinn, wenn alle Xi , i 2 N, auf einemWahrscheinlichkeitsraum
de…niert sind. Wir diskutieren das starke Gesetz der grossen Zahlen im Fall von Bernoulli Variablen, d.h. wenn die Xi unabhängig sind und Werte in f0; 1g annehmen
mit P (Xi = 1) = p; p 2 (0; 1) : In diesem Fall ist = p: Wir verwenden dabei den
(nicht bewiesenen) Satz 2.19. Zunächst eine Vorbereitung. Im untenstehenden Lemma
ist ( ; F; P ) ein beliebiger Wahrscheinlichkeitsraum (gemäss der De…nition 1.12.2.
53
Lemma 3.40
1. Sei fAn gn2N eine Folge von Ereignissen in F; die monoton ansteigend oder absteigend ist, d.h. An An+1 für alle n (bzw. An An+1 für alle n). Dann gilt
[
P
An = lim P (An )
n
n!1
im ansteigenden Fall, bzw.
P
im absteigenden.
\
n
An = lim P (An )
n!1
2. Sei fAn gn2N eine beliebige Folge von Ereignissen in F: Dann gilt
[
X
P
An
P (An ) :
n
n
Beweis. 1.: Wir zeigen die Aussage im ansteigenden Fall. Im absteigenden Fall folgt die
Aussage analog.
Wir setzen
B1 : = A1 ;
Bn : = An nAn
2:
S
S
Die Bn sind in F und paarweise disjunkt. Ferner gilt n An = n Bn : Somit folgt
[
[
X
P
An
= P
Bn =
P (Bn )
n
n
=
=
lim
N !1
N
X
1;
n
n2N
[N
P (Bn ) = lim P
Bn
n=1
N !1
n=1
lim P (AN ) :
N !1
Die zweite Gleichung nach der -Additivität (Axiom 1.11).
2.: Wir modi…zieren die De…nition der Bn etwas:
B1 : = A1 ;
/[ n
Bn : = An
1
i=1
Ai ; n
Die Bn sind in F und paarweise disjunkt, und es gilt
Bn An für alle n: Somit folgt
[
[
X
P
An
= P
Bn =
P (Bn )
n
n
=
lim
N !1
N
X
2:
S
n An
=
S
n Bn .
Ferner gilt
n2N
P (Bn )
n=1
54
lim
N !1
N
X
n=1
P (An ) =
X
n
P (An ) :
Satz 3.41 (Starkes Gesetz der grossen Zahlen)
Es seien Xi unabhängige Zufallsgrössen mit Werten in f0; 1g mit P (Xi = 1) = p; p 2
(0; 1) ; P
de…niert auf dem Wahrscheinlichkeitsraum ( ; F; P ) gemäss Satz 2.19. Sei ferner
Sn := ni=1 Xi : Dann gilt
P
lim
n!1
Sn
existiert und ist = p
n
= 1:
Beweis. Wie wir am Schluss vom 2. Kapitel gesehen haben, ist
Sn
existiert und ist = p
n!1 n
lim
wobei
An;m :=
d.h.
!2
=
\
m2N
[
\
N 2N
n:n N
1
Sn (!)
1
<
<p+
m
n
m
:p
c
Sn
existiert und ist = p
n!1 n
lim
=
[
m2N
\
N 2N
[
An;m ;
;
n:n N
Acn;m :
c
Um den Satz zu zeigen, müssen wir daher P limn!1 Snn existiert und ist = p
=
T
S
c
0 nachweisen. Die Folge der Ereignisse N 2N n:n N An;m ist ansteigend in m: Nach
Lemma 3.40.1 gilt daher
Sn
existiert und ist = p
n!1 n
P
c
lim
= lim P
m!1
T
S
\
N 2N
[
n:n N
Acn;m ;
c
N 2N n:n N An;m = 0 ist. Dabei können wir
1
1
einschränken, für die
S 0 p cm < p + m 1 ist. (Wir hatten 0 < p < 1
Nun ist die Folge n:n N An;m monoton fallend in N und daher gilt
und es genügt daher zu zeigen, dass P
uns auf m 2 N
angenommen).
(wieder nach Lemma 3.40.1)
P
\
N 2N
[
Ac
n:n N n;m
= lim P
N !1
[
Ac
n:n N n;m
lim sup
1
X
N !1 n=N
P Acn;m ;
die letzte Ungleichung nach der -Subadditivität (Lemma 3.40.2)
P Acn;m
= P
e
Sn
n
p+
nIp (p+1=m))
1
m
+e
Sn
n
+P
p
nIp (p 1=m))
1
m
:
Demzufolge ist nach Satz 3.39 unter Ausnützung von Ip (p+1=m)) > 0; Ip (p 1=m)) > 0
und der Summation geometrischer Reihen
1
X
n=N
P Acn;m
e
1
N Ip (p+1=m))
e
Ip (p+1=m))
55
+
e
1
N Ip (p 1=m))
e
Ip (p 1=m))
und es gilt
lim
N !1
"
e
1
N Ip (p+1=m))
e
Ip (p+1=m))
+
N Ip (p 1=m))
e
1
e
Ip (p 1=m))
#
= 0:
Damit ist der Satz gezeigt.
Bemerkung 3.42
1. Der obige Satz gilt sehr viel allgemeiner, wie Sie später sehen werden. Für unabhängige Zufallsgrössen Xn ; die alle die gleiche Verteilung besitzen, genügt es, die
Existenz des Erwartungswertes vorauszusetzen. (p muss dann durch den Erwartungswert der Xi ersetzt werden). Allerdings gilt unter einer solchen Voraussetzung eine Abschätzung von Typus von Satz 3.39 nicht mehr, sodass man sehr viel
subtiler argumentieren muss.
2. Wieso heisst der Satz “Starkes Gesetz der grossen Zahlen”. Sei
MN := sup
n:n N
Sn
n
p :
Eine genaue Analyse des Beweises des obigen Satzes zeigt (Übungsaufgabe), dass
man für die Aussage des Satzes nachweisen muss, dass für jedes " > 0
lim P (MN
") = 0
N !1
gilt. Wegen MN
SN
N
p ist dies o¤ensichtlich eine stärkere Aussage als (3.8).
3. Ob die Aussage des starken Gesetzes der grossen Zahlen oder die des schwachen
Gesetzes relevanter ist, ist weitgehend eine “Glaubensfrage”. Für die Praxis relevant sind einzig konkrete Abschätzungen von
P
Sn
n
p
"
für n; "; wie etwa die Abschätzungen in Satz 3.39. Allerdings sind Beweise von
Limesaussagen wie in den Gesetzen der grossen Zahlen typischerweise sehr viel
einfacher zu beweisen als gute konkrete Abschätzungen für endliches n:
56
4
Die Poisson-Verteilung und der Poissonsche Punktprozess
4.1
Der Poissonsche Grenzwertsatz
Es sei daran erinnert, dass eine Zufallsgrösse X mit der Verteilung
n k
p (1
k
P (X = k) = b(k; n; p) =
p)n
k
; k = 0; 1; : : : ; n
binomialverteiltheisst (mit Erfolgswahrscheinlichkeit p und Länge n).
Wir wollen diese Verteilung durch eine neue approximieren, die jeder nicht negativen
ganzen Zahl ein positives Gewicht gibt, der sogenannten Poissonverteilung.
Für eine reelle Zahl > 0 betrachte man die Wahrscheinlichkeitsverteilung auf N0 :=
N[ f0g, die durch
e
k
(k) :=
; k 2 N0 ;
k!
de…niert ist. Zunächst überzeugt man sich davon, dass
1
X
(k) = e
k=0
ist.
1
X
k=0
k
=e
k!
e =1
ist also tatsächlich eine Wahrscheinlichkeitsverteilung.
De…nition 4.1
Sei > 0: Eine Zufallsgrösse X mit X( ) = N0 und der Verteilung
verteilt mit Parameter
heisst Poisson-
Der Erwartungswert dieser Verteilung ist leicht auszurechnen:
1
X
k
(k) = e
k=0
1
X
k=0
1
X
k
k
k!
=e
k=1
k 1
(k
1)!
=e
1
X
k=0
k
k!
e+ = :
=e
Eine Poisson-verteilte Zufallsgrösse hat also Erwartungswert .
Als nächstes die Varianz:
E(X 2 ) =
1
X
k2
(k) = e
k=0
= e
1
X
k2
k=1
1
X
(k(k
1) + k)
k=1
k
k!
1
X
k
k!
=e
k=0
k+2
k!
+
=
2
+ :
Somit gilt
var(X) = E(X 2 )
(EX)2 =
2
+
2
= :
Lemma 4.2
Erwartungswert und Varianz einer Poisson-verteilten Zufallsgrösse sind gleich dem Parameter .
57
Die Poissonverteilung wurde von Siméon Poisson (1781-1840) in die Wahrscheinlichkeitstheorie eingeführt. Poisson war ein sehr vielseitiger Mathematiker. Es gibt sehr bedeutende andere Leistungen von ihm, z.B. die Analyse der sogenannte Poisson-Gleichung
in der Theorie der Partiellen Di¤erentialgleichungen.
Siméon Poisson
Wir zeigen nun, dass die Poissonverteilung eine Approximation der Binomialverteilung ist, wenn n gross und p klein sind. Zunächst überlegt man sich, in welcher Beziehung
zu den Parametern n, p der Binomialverteilung stehen soll. Wir wählen so, dass die
Erwartungswerte übereinstimmen, dass also = np ist. b(k; n; p) liegt nahe bei
(k)
für = np. Um das zu präzisieren, leiten wir eine konkrete Schranke für
(n; p) :=
1
X
k=0
jb(k; n; p)
np (k)j
her. Wir werden nachweisen, dass unter zu präzisierenden Bedingungen die Grösse
(n; p) klein ist. Wir formulieren und beweisen jedoch ein etwas allgemeineres Resultat. Dazu erinnern wir uns, dass sich eine binomialverteilte Zufallsgrösse S als S =
X1 +: : :+Xn schreiben lässt, wobei die Xi unabhängige Zufallsgrössen mit P (Xi = 1) = p
und P (Xi = 0) = 1 p ist. Wir verallgemeinern das nun: Die Xi sollen weiter unabhängig sein und nur die Werte 0 oder 1 annehmen; wir setzten jedoch nicht mehr voraus,
dass alle dieselbe Verteilung haben, d.h. wir lassen zu, dass die Wahrscheinlichkeiten
pi := P (Xi = 1) verschieden sind, d.h. dass die “Erfolgswahrscheinlichkeit” sich im
Zeitverlauf verändert. In einem solchen Fall ist es für grosse n praktisch unmöglich, die
Verteilung von S auszurechnen.
58
Satz 4.3
Es seien X1 ; : : : ; Xn unabhängige Zufallsvariablen, de…niert auf einem gemeinsamen
Wahrscheinlichkeitsraum, mit P (Xi = 1) = pi und P (Xi = 0) = 1 pi (0 < pi < 1) für
i = 1; : : : ; n. Sei S := X1 +
+ Xn und := p1 +
+ pn , dann gilt:
1
X
k=0
jP (S = k)
Es folgt also im Fall p = p1 =
Korollar 4.4
Für alle n 2 N und p 2 (0; 1) gilt
(k)j
2
p2i :
i=1
= pn :
(n; p)
n
X
2np2 .
Bevor wir den Satz beweisen, einige Kommentare: Die Schranke ist nur für kleine
p interessant. Man kann daraus Grenzwertaussagen ableiten. Wir lassen dabei p von
n abhängen (p := pn ) und n nach unendlich streben. Falls limn!1 np2n = 0 gilt, so
folgt aus Korollar 4.4, dass limn!1 (n; pn ) = 0 gilt. Insbesondere folgt der sogenannte
Poissonsche Grenzwertsatz:
Korollar 4.5 (Poissonscher Grenzwertsatz)
Ist > 0 und gilt npn ! > 0 für n ! 1, so gilt für jedes k 2 N0 :
lim b(k; n; pn ) =
n!1
(k):
Korollar 4.5 folgt sofort aus Korollar 4.4: Aus npn ! folgt pn ! 0 für n ! 1 und
damit np2n ! 0. Ferner ist jb(k; n; p)
(n; p) für jedes k 2 N0 . Demzufolge
np (k)j
gilt
lim jb(k; n; pn )
npn (k)j = 0:
n!1
Wegen npn (k) ! (k) folgt Korollar 4.5.
Die Aussage von Korollar 4.4 ist auch im Fall, wo np2n ! 0, npn ! 1 gelten,
von Interesse (z.B. pn = 1=n2=3 ). Aus der De…nition der
(k) ergibt sich zwar, dass
lim !1 (k) = 0 für jedes k gilt, und somit ergibt sich für die einzelnen b(k; n; pn )
nur limn!1 b(k; n; pn ) = 0, was ohnehin nicht schwer
P zu sehen ist. Korollar 4.4 besagt
jedoch wesentlich mehr, denn natürlich gilt stets k b(k; n; pn ) = 1 für alle n, so dass
die Aussage keinesfalls trivial ist.
Der wichtigste Vorzug von Korollar 4.4 und Satz 4.3 im Vergleich zu Korollar 4.5
ist jedoch, dass eine ganz konkrete Approximationsschranke vorliegt. Satz 4.3 ist viel
schwieriger zu beweisen als Korollar 4.5, dessen Beweis ziemlich trivial ist. Hier der
Standardbeweis des Letzteren:
Beweis von Korollar 4.5. . Setze n = npn . Nach Voraussetzung gilt n ! .
n
n k
1
n
k
n
n(n 1) (n k + 1) kn (1
k!
nk (1
k
1
1
n
1
1
k
k! (1
n
n =n)
b(k; n; pn ) = b k; n;
=
=
n
=
59
n
n k
n
n
n =n)
k
n =n)
2
n
1
k
1
n
1
n
n
n
:
Wegen
n
! , also
n =n
! 0 folgt
k
lim b(k; n; pn ) =
n!1
k!
lim
n!1
n
n
1
n
=e
:
Die untenstehende Tabelle gibt einige numerisch ermittelte Anhaltspunkte für den
Vergleich zwischen Binomial- und Poissonverteilung (p := 0:1; n = 20).
k
0
1
2
3
4
b (k; 0:1; 20)
0:12158
0:27017
0:28518
0:19012
0:089779
2 (k)
0:13534
0:27067
0:27067
0:18045
0:090224
Wir kommen nun zum Beweis des Satzes 4.3, der einige Vorbereitungen benötigt.
Wichtige ist, dass Summen von unabhängigen Poisson-verteilten Zufallsgrössen wieder
Poisson-verteilt sind:
Proposition 4.6
X und Y seien unabhängig und Poisson-verteilt mit Parametern
0. Dann ist X + Y Poisson-verteilt mit Parameter + .
beziehungsweise
>
Beweis. Für n 2 N0 gilt:
P (X + Y = n) =
=
=
n
X
k=0
n
X
k=0
n
X
k=0
=
P (X = k; Y = n
k)
P (X = k)P (Y = n
k
k! (n
n k
k)!
1
( + )n e
n!
e
e
( + )
=
k)
1
=
n!
+
(Unabh•angigkeit)
n
X
n
k
k=0
k n k
!
e
( + )
(n):
Bemerkung 4.7
Mit Induktion folgt sofort, dass die Summe von endlich vielen unabhängigen Poissonverteilten Zufallsgrössen wieder Poisson-verteilt ist, wobei der Parameter sich als Summe
der Einzelparameter ergibt.
Der Beweis des Satzes 4.3 verwendet eine Technik, die man Kopplung nennt. Nehmen
wir
auf N0 : f; g : N0 ! [0; 1],
P an, f und
P g seien zwei Wahrscheinlichkeitsverteilungen
P1
f
(k)
=
g(k)
=
1.
Wir
wollen
zeigen,
dass
jf
(k)
g(k)j klein ist. Die Idee der
k
k
k=0
60
Kopplungsmethode besteht darin, Zufallsgrössen X, Y auf einem gemeinsamen Wahrscheinlichkeitsraum zu konstruieren, die die Verteilung f beziehungsweise g haben, und
die möglichst weitgehend übereinstimmen. Es soll also die folgende Situation vorliegen:
f (k) = P (X = k);
g(k) = P (Y = k);
und P (X 6= Y ) “so klein wie möglich”. Wir werden gleich nach dem nächsten Lemma
sehen, wie man das für den uns hier interessierenden Fall macht. Wir beweisen zunächst
ein Lemma, das uns angibt, was wir nach einer solchen Kopplung gewonnen hat.7 Sie
A := f ! : X(!) = Y (!) g. Man sagt, X und Y seien auf A “gekoppelt”.
Lemma 4.8
Unter den obigen Bedingungen gilt
1
X
k=0
jf (k)
g(k)j
2P (Ac ):
Beweis. Sei M := f k 2 N0 : f (k) > g(k) g. Dann ist
1
X
k=0
jf (k)
g(k)j =
X
(f (k)
g(k))
k2M
= 2
X
(f (k)
g(k))
k2M
X
(f (k)
k2M
=
1
X
g(k))
(f (k)
g(k))
k=0
= 2(P (X 2 M )
P (Y 2 M ))
(1
c
= 2(P (X 2 M; A) + P (X 2 M; A )
c
= 2(P (Y 2 M; A) + P (X 2 M; A )
c
2(P (Y 2 M; A) + P (A )
1)
P (Y 2 M ))
P (Y 2 M ))
P (Y 2 M ))
2P (Ac ):
Wir wenden nun dieses Kopplungsargument an, um unseren Satz zu beweisen.
Beweis von Satz 4.3. Der Hauptteil des Beweises besteht in einer geeigneten Wahl des
zugrundeliegenen Wahrscheinlichkeitsraumes. Da wir nur die Verteilung von S berechnen
müssen, ist es egal, auf welchem Wahrscheinlichkeitsraum die Zufallsgrössen Xi de…niert
werden. Es ist für uns nur wichtig, dass die Zufallsgrössen unabhängig sind und P (Xi =
1) = pi sowie P (Xi = 0) = 1 pi gilt. Diese Freiheit nutzen wir für unsere Wahl
so, dass eine Poisson-verteilte Zufallsgrösse zum Parameter möglichst weitgehend mit
p
S übereinstimmt. Dazu sei i = f 1; 0;
1 pi und Pi (k) = e k! i pki
P1; 2; : : : g, Pi (0) p=
i
für k
1 sowie Pi ( 1) = 1 Pi (0)
(1 pi )
0. (Wieso gilt
k 1 Pi (k) = e
das letzte Ungleichheitszeichen?) Nach Konstruktion sind somit ( i ; Pi ) W.-Räume. Wir
7
Die Wahrscheinlichkeitstheoretiker schätzen den Rahmen mit ganz allgemeinen Wahrscheinlichkeitsräumen vor allem wegen der Freiheit, Manipulationen wie diese Kopplungstricke durchführen zu können.
61
betrachten den Produktraum ( ; P ) der (
für ! 2
Xi (!) :=
i ; Pi )
im Sinne der De…nition 2.13. Wir setzen
0 falls ! i = 0
1
sonst
und
Yi (!) :=
k falls ! i = k; k
0
sonst
1
Dann haben nach De…nition die Zufallsgrössen Xi die geforderte Verteilung: P (Xi =
1) = pi und P (Xi = 0) = 1 pi . Sie sind weiter nach Satz 2.14 unabhängig (siehe auch
Proposition 3.36). Die Yi sind nach De…nition Poisson-verteilt zum Parameter pi und
ebenfalls unabhängig. Also folgt mit Proposition 4.6, dass Y = Y1 +
+ Yn Poissonverteilt ist zum Parameter . Nun stimmen die Zufallsgrössen in den Werten 0 und 1
überein, und es ist P (Xi = Yi ) = Pi (0) + Pi (1) = (1 pi ) + e pi pi , und somit
P (Xi 6= Yi ) = pi (1
denn für x > 0 gilt 1
1
X
k=0
e
x
jP (X = k)
e
pi
)
p2i ;
x. Nach Lemma 4.8 folgt dann
(k)j
2P (X 6= Y )
2
n
X
i=1
P (Xi 6= Yi )
2
n
X
p2i :
i=1
Damit ist Satz 4.3 bewiesen.
Erstaunlich ist, dass viele verschiedene, natürliche oder künstlich erzeugte Zufallserscheinungen recht gut zum Poisson-Schema passen. Das wohl “berühmteste”Beispiel ist
das folgende:
Beispiel 4.9
Über einen Zeitraum von 20 Jahren wurde im alten Preussen die Zahl der Toten durch
Hufschlag in 10 Kavallerieregimenten beobachtet. Insgesamt hatte man also 200 “Regimentsjahre” beobachtet. Es ergab sich das folgende Bild:
k
Anzahl Regimentsjahre mit k Toten 200 (k) ( = 061) (gerundet)
0
109
109
1
65
66
2
22
20
3
3
4
4
1
1
5 0
0
( wurde so bestimmt, dass sich die beste Übereinstimmung ergibt.)
Die theoretische Begründung für die gute Übereinstimmung ist etwa die: Für den
einzelnen Kavalleristen ist die Wahrscheinlichkeit p, in einem Jahr vom Pferd erschlagen
zu werden, sehr klein. Hat das Regiment n Kavalleristen, so ist die Verteilung der Anzahl
der Toten pro Regiment und Jahr
b(k; n; p)
(k). Nach dem Gesetz der grossen
Zahlen ist dann bei 200 Repetitionen des “Versuchs” die Anzahl der Regimentsjahre
mit k Toten 200 (k). Die obige Übereinstimmung ist jedoch eher ungewöhnlich, was
wohl der Disziplin Preussischer Kavallieriepferde zuzuschreiben ist.
62
Das obige Beispiel stammt aus L. Bortkiewicz: Das Gesetz der kleinen Zahlen. Leipzig 1898. Ladislaus J. Bortkiewicz (1868-1931) ist heute fast ausschliesslich wegen “der
Toten durch Hufschlag” in einem weiteren Kreis bekannt, jedoch völlig zu unrecht: In
der Tat war er der Erste, der festgestellt hatte, dass die Anzahl der Erfolge in einem
Bernoulli-Experiment bei kleinem p genähert Poisson-verteilt ist (sogar, wenn die Erfolgswahrscheinlichkeiten nicht alle die gleichen sind). Der Poisson-Grenzwertsatz sollte
daher eigentlich nach ihm benannt werden.
LadislausJosephowitschBortkiewicz
Die Poisson-Verteilung tritt in sehr vielen Situationen auf, auch solchen, die nicht
direkt mit dem Bernoulli-Experiment zusammenhängen. Sie ist klarerweise die “zweitwichtigste”Verteilung der Wahrscheinlichkeittheorie. (Die wichtigste diskutieren wir im
nächsten Kapitel).
4.2
Der Poissonsche Punktprozess
Wir konstruieren ein mathematisches Modell für auf einer Zeitachse zufällig eintretende
Vorkommnisse. Beispiele sind etwa: Ankommende Anrufe in einer Telefonzentrale, Registrierung radioaktiver Teilchen in einem Geigerzähler, Impulse in einer Nervenfaser etc.
Die Zeitachse sei (0; 1), und die “Vorkommnisse”seien einfach zufällige Punkte auf dieser Achse. In einem Anhang zu diesem Kapitel diskutieren wir den abstrakten Rahmen,
in dem man solche “Punktprozesse”, wie man sie nennt, de…niert werden können.
Ist I = (t; t + s] ein halbo¤enes Intervall, so bezeichnen wir mit NI die zufällige
Anzahl der Punkte in I. NI ist also eine Zufallsgrösse mit Werten in N0 . Statt N(0;t]
schreiben wir auch einfach Nt .
63
An unser Modell stellen wir eine Anzahl von Bedingungen (P1) bis (P5), die für
Anwendungen oft nur teilweise realistisch sind.
(P1) Die Verteilung von NI hängt nur von der Länge des Intervalls I ab. Anders ausgedrückt: Haben die beiden Intervalle I, I 0 dieselbe Länge, so haben die Zufallsgrössen NI und NI 0 dieselbe Verteilung. Man bezeichnet das auch als (zeitliche)
Homogenität des Punktprozesses.
(P2) Sind I1 ; I2 ; : : : ; Ik paarweise disjunkte Intervalle, so sind NI1 ; NI2 ; : : : ; NIk unabhängige Zufallsgrössen.
(P3) Für alle I (stets mit endlicher Länge) existiert ENI .
Um Trivialitäten zu vermeiden, fordern wir:
(P4) Es existiert ein Intervall I mit P (NI > 0) > 0.
Aus (P1), (P3), (P4) lassen sich schon einige Schlüsse ziehen: Sei
(t) = ENt
0:
O¤ensichtlich gilt (0) = 0, denn N0 ist natürlich 0. Die Anzahl der Punkte in einer
Vereinigung disjunkter Intervalle ist natürlich die Summe für die Einzelintervalle. Insbesondere gilt:
Nt+s = Nt + N(t;t+s] :
Demzufolge:
(t + s) = (t) + EN(t;t+s] ;
was wegen (P1)
(t + s) = (t) + (s)
ist. Nach einem Satz aus der Analysis, der hier nicht bewiesen werden soll, muss eine
derartige Funktion linear sein, das heisst, es existiert
0 mit (s) = s. = 0 können
wir wegen (P4) sofort ausschliessen. In diesem Fall müsste nach (P1) ENI = 0 für jedes
Intervall gelten. Dies widerspricht o¤ensichtlich (P4).
Für kleine Intervalle ist die Wahrscheinlichkeit dafür, dass überhaupt ein Punkt in
diesem Intervall liegt, klein. Es gilt nämlich:
P (NI
1) =
1
X
P (NI = k)
k=1
1
X
kP (NI = k) = ENI
k=1
und demzufolge
P (N(t;t+"]
1)
"
fu
•r alle t; "
0:
Unsere letzte Forderung ist, dass die Wahrscheinlichkeit für zwei oder mehr Punkte
in einem kleinen Intervall noch etwas kleiner ist, genauer:
64
(P5)
1
lim "
"!0
P (N"
2) = 0:
Man kann nachweisen, dass (P5) nur die Möglichkeit von Mehrfachpunkten ausschliesst; wir wollen das jedoch nicht weiter ausführen.
Wir können jedoch nachweisen, dass für einen Punktprozess, der (P1) bis (P5) erfüllt,
die NI alle Poisson-verteilt sein müssen:
Satz 4.10
Sind (P1) bis (P5) erfüllt, so sind für alle t; s
verteilt mit Parameter s.
0 die Zufallsgrössen N(t;t+s] Poisson-
Beweis. Wegen (P1) genügt es, Ns = N(0;s] zu betrachten. Wir halten s > 0 fest. Für
k 2 N, 1 j k, de…nieren wir
(k)
Xj
:=
N(s(j
(
(k)
Xj
: =
1)=k;sj=k]
(k)
=0
(k)
falls Xj
0
0 falls Xj
1
(k)
(k)
Für jedes feste k sind die Xj nach (P2) unabhängig und die X j damit ebenfalls.
Wir stellen einige einfach zu veri…zierende Eigenschaften dieser Zufallsgrössen zusammen. Zunächst gilt o¤ensichtlich
Ns =
k
X
(k)
Xj :
j=1
(k)
Sei N s :=
Pk
(k)
j=1 X j .
Dann gilt für jede mögliche Kon…guration der Punkte:
(k)
Ns
Ns :
Demzufolge gilt für jedes m 2 N:
(k)
P (N s
(k)
Sei pk = P (X i
(k)
= 1) = P (Xi
(k)
Ns
m)
P (Ns
1) = P (Ns=k
m):
1).
ist binomialverteilt mit Parameter k; pk .
Wir verwenden nun (P5), um nachzuweisen, dass sich für grosse k die Zufallsgrössen
(k)
N s nur wenig von Ns unterscheidet:
P
(k)
Ns
6= Ns
= P
[k
(k)
fXi
i=1
= kP (Ns=k
2g
k
X
i=1
2) ! 0 für k ! 1:
65
(k)
P (Xi
2)
(4.1)
Für m 2 N und k 2 N gilt:
(k)
P (Ns = m)
(k)
P (N s = m; N s = Ns )
(k)
P (N s
= m)
(k)
P (Ns = m)
(k)
P (N s
(4.2)
6= Ns )
(k)
(k)
P (N s = m; N s = Ns ) + P (N s 6= Ns )
(k)
P (N s
= m) +
(k)
P (N s
(4.3)
6= Ns ):
Unter Benutzung von (4.1) - (4.3) folgt:
(k)
P (Ns = m) = lim P (N s = m) = lim b(m; k; pk )
k!1
k!1
(4.4)
und analog
(k)
P (Ns
m):
m) = lim P (N s
k!1
(4.5)
Wir zeigen nun:
lim kpk = s:
(4.6)
k!1
Um dies nachzuweisen, drücken wir kpk etwas anders aus:
(k)
kpk = EN s =
1
X
(k)
jP (N s = j) =
j=1
=
1 X
1
X
j
1 X
X
(k)
P (N s = j)
j=1 l=1
(k)
P (N s = j) =
l=1 j=1
1
X
(k)
P (N s
l):
l=1
(k)
l) P (Ns l) und (4.5) folgt nach einem Satz über reelle Zahlenfolgen
Wegen P (N s
(falls nicht vergessen: Übungsaufgabe):
lim kpk = lim
k!1
k!1
1
X
(k)
P (N s
l) =
l=1
1
X
P (Ns
l) = ENs = s:
l=1
Damit ist (4.6) gezeigt.
Unser Satz folgt nun aus (4.6), (4.4) und Korollar 4.5.
Der Poissonsche Punktprozess wird oft verwendet um etwa eintre¤ende Anrufe in
einer Telefonzentrale, ankommende Jobs in einem Computernetzwerk etc. zu modellieren. Die Annahmen (P1)–(P5) sind natürlich nicht immer realistisch oder nur näherungsweise richtig. Problematisch in Anwendungen sind oft (P1) und (P2). Es gibt viele
Möglichkeiten, den Poissonschen Punktprozess zu verallgemeinern, um dem Rechnung
zu tragen. Es ist ziemlich einfach, einen Punktprozess zu konstruieren, der nicht mehr
(P1) erfüllt, wohl aber noch die anderen Voraussetzungen. Es sei f : (0; 1) ! R+ eine
lokal (Lebesgue-)integrierbare Funktion. Lokale
R Integrierbarkeit bedeutet, dass für jedes
kompakte Intervall J (0; 1) das Integral J f (x) dx endlich ist.
66
De…nition 4.11
Ein Punktprozess heisst Poissonscher Punktprozess mit Intensität Rf; wenn für jedes
Intervall I = (s; t] die Zufallsgrösse NI Poissonverteilt mit Parameter I f (x) dx ist, und
wenn (P2) gilt.
Wir können hier die Existenz solcher nicht-homogener Punktprozesse nicht beweisen.
Für eine genaue Formulierung eines entsprechenden Satzes, siehe den Anhang dieses
Kapitels 4.A.
Punktprozesse lassen sich auch leicht auf höherdimensionale Räume verallgemeinern.
Die Zeitachse (0; 1) wird dabei durch Rd (oder eine Teilmenge davon) ersetzt. Man
konstruiert auf diese Weise ein wahrscheinlichkeitstheoretisches Modell für zufällig im
Raum Rd liegende Punkte. Für beschränkte (Borel-)Mengen A Rd bezeichne NA die
Anzahl der Punkte, die in A liegen. Unter Bedingungen, die analog zu (P1)–(P5) sind,
lässt sich nachweisen, dass NA Poisson-verteilt mit Parameter jAj sein muss, wobei jAj
das d-dimensionale Volumen von A ist und > 0 ein fester Parameter, und dass ferner
NA1 ; NA2 ; : : : ; NAk unabhängig sind, sofern die Mengen A1 ; : : : ; Ak paarweise disjunkt
sind. Das Modell hat ausserordentlich breite Anwendungen, z.B. in der Biologie, der
Astronomie, bis hin zu militärischen Anwendungen.
Die Graphik unten gibt eine Realisierung eines derartigen Punktprozesses in der
Ebene (mit 25 Punkten im Einheitsquadrat):
(Falls der Zufallszahlengenerator von Maple zuverlässig ist, ist die Klumpung in der
Gegend der rechten unteren Ecke rein zufällig).
Untenstehend sind zwei Beispiele für dieses Flächenschema.
Beispiele 4.12
a) Es wird eine Probe einer Flüssigkeit auf mikroskopisch kleine Partikel untersucht,
z.B. Blut auf Bakterien, Leukozyten, Trinkwasser auf Salmonellen oder ähnliches.
In der Praxis wird das oft so gemacht, dass ein kleiner Teil der Probe unter dem
Mikroskop untersucht und zusammen mit einem Gitternetz angeschaut wird.
67
Eine Zählung aller Punkte ist oft zu aufwendig und deshalb begnügt man sich damit, nur einige Gitterquadrate auszuzählen und daraus die Gesamtzahl zu schätzen. Als Basis dieser Schätzung dient meist die Modellannahme, dass die Punkte
gemäss einem Poissonschen Punktprozess verteilt sind, so dass insbesondere die
Anzahl der Punkte NA , die in einem Quadrätchen A des Gitters liegen, Poissonverteilt mit Parameter jAj ist. Mit Hilfe einer Auszählung von wenigen Quadrätchen soll dann eine Schätzung des unbekannten Parameters vorgenommen
werden. Nehmen wir einmal an, ein Laborant zählt m Quadrätchen A1 ; : : : ; Am
aus. Aufgrund dieser Auszählung soll er den Parameter schätzen.
Pm
Er kann zum
Sm Beispiel alles zusammenzählen, NA := j=1 NAj , wobei A die Vereinigung j=1 Aj ist. NA ist ebenfalls Poisson-verteilt mit Parameter jAj. Eine
natürliche Schätzung von ist daher
^ := NA =jAj:
(Schätzungen eines unbekannten Parameters werden in der Statistik meist mit
einem Dach geschrieben.)
Wir wollen nicht weiter darauf eingehen, ob ^ eine gute Schätzung ist, sondern kurz
begründen, wieso die NA Poisson-verteilt sein sollten, mit einem Argument, das
(P1)–(P5) nicht explizit voraussetzt: Wir stellen uns vor, dass die gesamte Probe
auf einer grossen Fläche liegt, die in n kleine aber gleich grosse Quadrate aufgeteilt
ist. Auf der gesamten Fläche sollen M Bakterien liegen, so dass im Mittel auf
jedes der Quadrätchen := M=n kommen. Betrachten wir nun ein festes Quadrat
A und nehmen an, dass jedes der Bakterien unabhängig von jedem anderen mit
Wahrscheinlichkeit 1=n auf A fällt, so ist o¤enbar
P (NA = k) = b(k; M; 1=n) '
falls M; n sehr gross sind. Natürlich ist
Bakterien pro Einheits‡äche ist.
(k);
= jAj, wobei
die mittlere Anzahl der
Wir können auch begründen, wieso die NA für verschiedene Quadrätchen (mit paarweise leerem Schnitt) im Limes unabhängig sind. Wir beschränken uns auf zwei:
A1 , A2 . Um P (NA1 = k1 ; NA2 = k2 ) zu berechnen, stellen wir uns die Bakterien
von 1 bis M durchnumeriert vor. Das Bakterium i fällt mit Wahrscheinlichkeit
1=n auf A1 , mit derselben Wahrscheinlichkeit auf A2 und mit Wahrscheinlichkeit
1 2=n auf keines der beiden (A1 , A2 sind disjunkt). Eine einfache Abzählung
ergibt, dass es k1 ! k2 ! (MM ! k1 k2 )! Bakterienfolgen gibt mit k1 Tre¤ern in A1 und
k2 Tre¤ern in A2 . Ist der Aufenthaltsort der einzelnen Bakterien unabhängig, so
ergibt sich also:
P (NA1 = k1 ; NA2 = k2 ) =
M!
k1 !k2 !(M k1
k2 )!
1
n
k1
1
n
k2
1
2
n
M k1 k2
:
Dies konvergiert gegen
(k1 ) (k2 ) für M; n ! 1 und M
> 0, was man
n !
sofort mit demselben Argument wie im Beweis von Korollar 4.5 sieht. Obgleich wir
68
in diesem Argument (P1)–(P5) nicht vorausgesetzt haben, sie sich also von selbst
ergeben, so steckt die wesentliche Unabhängigkeitsannahme natürlich darin, dass
die einzelnen Bakterien unabhängig von den anderen auf die einzelnen Quadrätchen
fallen. Das ist eine oft etwas fragwürdige Annahme, wenn man nicht weiss, ob die
Probe gut durchmischt ist.
b) Ein konkretes, oft zitiertes Beispiel für das Flächen-Schema lieferte die Zählung
der V-Raketen, die während des 2. Weltkriegs auf den Süden Londons …elen. Die
Fläche war in N = 576 Planquadrate von je 1=4 Quadratmeile unterteilt und
wurde statistisch zu etwa 0; 930 bestimmt. Die folgende Tabelle zeigt die Anzahlen
Nk der k-mal getro¤enen Quadrate und die Poissonschen Näherungen
(k) mit
= 0; 93.
4.A
k
0
1
2
3
4
5
Nk
N (k)
229
226,74
211
211,39
93
98,54
35
30,62
7
7,14
1
1,59
Anhang: Der abstrakte mathematische Rahmen für Punktprozesse.
Ich gehe davon aus, dass die Borel- -Algebra Bd in Rd bekannt ist. Bd ist die kleinste
-Algebra, die die o¤enen Menge enthält, d.h. der Durchschnitt aller -Algebren, welche
die Menge der o¤enen Teilmengen enthalten. Die Mengen in Bd heissen Borel-Mengen.
bBd bezeichne die Menge der beschränkten Borel-Mengen B; d.h. der Borelmengen, für
die ein R > 0 existiert mit B
x 2 Rd : jxj R
Wir betrachten Punktprozesse in Rd : Die Theorie lässt sich mühelos auf allgemeinere
lokalkompakte Räume verallgemeinern, was wir jedoch nicht weiter verfolgen wollen.
Wir nennen eine endliche oder abzählbare Menge A
Rd lokal endlich, wenn A \
fx : jxj Rg für jedes R > 0 endlich ist. Die Menge der lokal endlichen Teilmengen von
Rd bezeichnen wir mit X: X ist die Menge aller unserer “Elementarereignisse”. Für jede
beschränkte Borel-Menge B 2 bBd sie die Abbildung NB : X !N0 wie folgt de…niert:
NB (A) := jA \ Bj :
Wir wollen nun eine -Algebra FX auf X de…nieren und dann auf FX ein Wahrscheinlichkeitsmass P: Es ist nicht schwer zu erraten, wie wir vorgehen müssen: Die minimale
Forderung an unseren Wahrscheinlichkeitsraum (X;FX ; P ) ist, dass für jede Borelmenge
B und jedes k 2 N0 die Wahrscheinlichkeiten P (NB = k) de…niert sind. Somit müssen
Mengen der Form fA 2 X : NB (A) = kg in unserer -Algebra liegen. Wir betrachten
daher die Familie F0 der Teilmengen von X dieser Form:
F0 := ffA 2 X : NB (A) = kg : B 2 bBd ; k 2 N0 g
FX bezeichne die von F0 erzeugte -Algebra, d.h. die kleinste -Algebra, die F0 umfasst. Wie die Mengen in FX aussehen, braucht uns nicht im geringsten zu interessieren.
69
Hauptsache ist, dass dies erstens eine -Algebra ist, und zweitens, dass die Mengen
fA 2 X : NB (A) = kg in FX sind. Die “Konstruktion” von FX ist völlig trivial: Es ist
einfach der Durchschnitt aller -Algebren, die F0 umfassen. Ein Punktprozess wird nun
einfach durch ein Wahrscheinlichkeitsmass P auf FX beschrieben. Genau genommen bezeichnet man das als einen einfachen Punkprozess. (Gelegentlich lässt man auch Mehrfachpunkte zu. In diesem Fall muss die De…nition des Grundraumes X etwas modi…ziert
werden, was wir jedoch nicht weiter verfolgen). Unsere Eigenschaften (P1)-(P5) können nun mühelos als Eigenschaften unseres Wahrscheinlichkeitsmasses P interpretiert
werden. Der Satz 4.10 besagt dann (in einem Spezialfall), dass ein derartiger Punktprozess ein Poisson-Punktprozess sein muss. Wir haben jedoch die Existenz derartiger
Punktprozesse nicht gezeigt. Wir zitieren den entsprechenden Satz ohne Beweis.
Satz 4.13
Sei f : Rd ! R+ eine lokal integrierbare Funktion. Dann existiert genau ein Wahrscheinlichkeitsmass P auf FX mit den folgenden Eigenschaften:
1. Für jedes B 2 bBd ist NB Poisson-verteilt mit Parameter
es gilt
P (NB = k) =
k
B
k!
e
B
B
:=
R
B
f (x) dx; d.h.
; k 2 N0 :
2. Sind B1 ; : : : ; Bn paarweise diskjunkte beschränkte Borel-Mengen, so sind die Zufallsgrössen NB1 ; : : : ; NBn unabhängig.
Mit diesem Satz ist der Punktprozess präzise de…niert: Wir haben einen Wahrscheinlichkeitsraum, auf dem die NB für alle beschränkten Borel-Mengen de…niert sind und
zwar so, dass die Verteilungen die von uns gewünschten Eigenschaften haben.
70
5
Der Zentrale Grenzwertsatz
Die Glockenkurve hält Einzug! Es ist der Graph der Funktion:
1
' (x) = p e
2
x2 =2
:
Die Funktion hat ihren Namen von Carl Friedrich Gauss (1777-1855), einem der bedeutendsten Mathematiker überhaupt. Die Bedeutung der Funktion in der Wahrscheinlichkeitstheorie war jedoch lange vor Gauss bekannt. Gauss hat sich mit wahrscheinlichkeitstheoretischen Fragen hauptsächlich im Rahmen der statistischen Schätztheorie
befasst.
Carl Friedrich Gauss
Die Glockenkurve war auf der dem alten Zehnmarkschein in Deutschland mit einem
Porträt von Gauss in reiferen Jahren abgebildet:
Die Funktion ist symmetrisch in x und fällt sehr rasch ab für x !
benötigen wir das folgende Resultat:
71
1: Zunächst
Lemma 5.1
Z
1
' (x) dx = 1:
1
Beweis. Die Existenz des uneigentlichen Riemann-Integrals folgt sofort aus dem raschen Abfall der Funktion bei 1: Der Trick besteht darin, das Quadrat des gewünschten
Integrals mit Fubini als Doppelintegral zu schreiben:
Z 1
Z 1
Z 1
Z 1Z 1
2
' (x) dx
=
' (x) dx
' (y) dy =
' (x) ' (y) dx dy
1
1
1
1
1
Z 1Z 1
1 2
1
x + y 2 dx dy
=
exp
2
2
1
1
Z 1Z 2
Z 1
1
2
=
exp r =2 d rdr =
r exp r2 =2 dr
2 0
0
0
1
=
exp r2 =2 0 = 1:
Die vierte Gleichung kommt von einer Umrechnung in Polarkoordinaten. (Der etwas
saloppe Umgang mit uneigentlichen Integralen ist leicht zu rechtfertigen. Dies sei dem
Leser als Übungsaufgabe überlassen).
Bemerkung 5.2
Die Stammfunktion von ' :
(x) :=
Z
x
' (y) dy
1
nennt man die Verteilungsfunktion der Normalverteilung. Man kann sie nicht durch
einfacher Funktionen, wie eine Kombination von Polynomen, trigonometrischen Funktion
etc ausdrücken. (Versuchen Sie es nicht: Das ist Zeitverschwendung, denn es ist bewiesen,
dass es nicht geht.)
Die Gausssche Glockenkurve ' dient uns nun dazu, gewisse Wahrscheinlichkeiten
durch Integrale zu approximieren. Wir betrachten zunächst einige numerische Beispiele
und untersuchen die Binomialwahrscheinlichkeiten b (k; n; p) ; nun jedoch bei festem p
und grossem n: (Für festes p und n ! 1 ist die Poisson-Approximation des letzten
Kapitels nicht anwendbar: Die Schranke 2np2 ist in diesem Fall o¤enbar völlig wertlos).
Der Einfachheit halber nehmen wir zunächst p = 1=2: Dann ist b (k; n; 1=2) = nk 2 n :
Es ist nicht schwer zu sehen, dass für festes n der grösste dieser Wahrscheinlichkeiten
bei k = n=2 ist (exakt k = n=2; wenn n gerade ist und sonst für k = (n + 1) =2 und
k = (n 1) =2):
Die nachfolgende Tabelle gibt die Wahrscheinlichkeiten b (k; 500; 1=2) als Funktion
von k dar, wobei der Massstab auf der y-Achse von 0 bis 1 geht.
Natürlich sieht man gar nicht viel. Der maximale Wert ist sehr klein, nämlich (wie
wir weiter unten sehen) b (500; 1000; 1=2) 0:03568: Versuchen wir einfach die y-Achse
zu strecken, so erhalten wir einfach folgendes Bild:
72
Das ist auch noch nicht sehr vielsagend, denn, wie wir aus dem Gesetz der grossen
Zahlen schon wissen, konzentriert sich die Verteilung ziemlich stark um den Wert bei
k = 250: Um ein “schönes” Bild zu erhalten, müssen wir den im Bild 1 gerade noch
sichtbaren Knubbel sowohl in der x-Achse, wie in der y-Achse strecken. Damit ergibt
sich das folgende Bild:
Hier sieht man deutlich die Glockenkurve. Die richtige Skalierung ist nicht schwer zu
erraten. Wir betrachten gleich den allgemeineren Fall mit einer beliebigen Erfolgswahrscheinlichkeit p 2 (0; 1) : Sie Sn die Anzahl der Erfolge in einem Bernoulli-Experiment.
Wie wir schon wissen, ist der Erwartungswert ESn p
= np und die Varianz var (Sn ) =
np (1 p) ; d.h. die Standardabweichung (Sn ) =
np (1 p): Wenn wir daher die
normierte Zufallsgrösse
Sn np
S^n := p
np (1 p)
betrachten, so gilt E S^n = 0 und var S^n
= 1: Es stellt sich nun raus, dass in einem
noch zu präzisierenden Sinn die Verteilung von S^n asymptotisch (für n ! 1) durch die
Gaussche Glockenkurve beschrieben wird. Es gibt verschiedene Möglickeiten dies zu beschreiben. Die “robusteste”besteht darin, dass man nicht die Einzelwahrscheinlichkeiten
untersucht, die ohnehin ziemlich klein sind, sondern grössere Ereignisse, z.B. Ereignisse
der Form P S^n x : In der Tat gilt der folgende
Satz 5.3
Für jedes x 2 R gilt
lim P S^n
x =
n!1
Z
x
' (y) dy =
(x) :
1
Wir werden gleich einen viel allgemeineren Satz formulieren und beweisen. Kommen
wir jedoch für einen Moment auf unser vorheriges Problem zurück, nämlich die b (k; n; p)
selbst asymptotisch auszuwerten. Wenn man das obige Theorem akzeptiert, so ist leicht
zu erraten, wie die Sache aussehen muss. Es ist nämlich
b (k; n; p) = P (Sn = k) = P (Sn
= P
S^n
p
k
np
np (1
p)
k)
!
P (Sn
k
S^n
P
1)
p
k
np
np (1
p)
p
Der Satz 5.3 macht es ziemlich plausibel, dass dies ungefähr gleich
!
!
k np
k np
1
1
p
p
p
p
'
np (1 p)
np (1 p)
np (1 p)
np (1 p)
sein sollte, d.h.
p
np (1
p)b (k; n; p)
73
'
p
k
np
np (1
p)
!
:
1
np (1
p
k
p)
!
:
np
np (1
p)
!
(5.1)
Das folgt jedoch natürlich nicht direkt aus Satz 5.3. Dennoch ist die Aussage “im Wesentlichen” korrekt. Die genaue Formulierung als Limesaussage erfordert jedoch noch
etwas Nachdenken. Wir führen die Abkürzung
k
xk;n := p
np
np (1
(5.2)
p)
ein. Nun stehen wir vor dem Problem, dass es o¤ensichtlich keinen Sinn macht, für fest
k einen Grenzwertsatz für n ! 1 zu formulieren,
denn es gilt limn!1 xk;n ! 1
p
für jedes k 2 N; sodass (5.1) nur limn!1 np (1 p)b (k; n; p) = 0 nahelegt, was zwar
stimmt aber nicht weiter interessant ist. Wir sollen o¤ensichtlich nur solche k betrachten,
für die xk;n von der Grössenordnung 1 bleibt, dann sonst sehen wir die Glockenkurve gar
nicht in der Asymptotik. Eine naheliegende Formulierung ist daher der folgende Satz:
Satz 5.4
Sie A > 0 beliebig. Dann gilt
lim
n!1
sup
k:jxk;n j
A
p
np (1 p)b (k; n; p)
' (xk;n )
1 = 0:
Einen Satz von diesem Typus bezeichnet man lokalen Grenzwertsatz, während man
einen Satz, wie Satz 5.3 ein globalen Grenzwertsatz nennt. Trotz des obigen Plausibilitätsarguments, kann man Satz 5.4 nicht aus Satz 5.3 herleiten. Umgekehrt folgt jedoch Satz 5.3 aus Satz 5.4 ziemlich leicht durch eine Aufsummation der entsprechenden
Wahrscheinlichkeiten, wobei für grosse n die Summe eine Riemann-Approximation des
Integrals ist, welches die Verteilungsfunktion
de…niert. Wir wollen das jedoch nicht
weiter verfolgen, da wir die beiden Sätze getrennt beweisen und zwar Satz 5.3 in einer
sehr viel allgemeineren Version und nicht nur für Bernoulli-Variablen.
Satz 5.5
Es sei X1 ; X2 ; : : : eine Folge von unabhängigen Zufallsgrössen, die alle dieselbe Verteilung
haben (man sagt, sie seien identisch verteilt). Wir nehmen ferner an, dass der Erwartungswert := EXi und die Varianz 2 := var (Xi ) existiert. (Da wir annehmen, dass die
Zufallsgrössen alle dieselbe Verteilung haben, haben auch alle denselben Erwartungswert
und dieselbe Varianz). Dann gilt für jedes x 2 R
lim P
n!1
wobei Sn :=
Pn
i=1 Xi
Sn n
p
n 2
x
=
(x) ;
ist.
Bemerkung 5.6
Es ist in der obigen Aussage gleichgültig, ob
lim P
n!1
x oder < x seht, d.h. es gilt auch
Sn n
p
<x
n 2
74
=
(x) :
Dies sieht man wie folgt: Für jedes " > 0 gilt
Sn n
p
n 2
P
x
"
Sn n
p
<x
n 2
P
P
Sn n
p
n 2
x :
Gilt Satz 5.5, so ergibt sich
(x
Da
") =
Sn n
p
x "
n!1
n 2
Sn n
p
<x
lim sup P
n!1
n 2
lim P
stetig ist, so folgt lim""0
(x
lim P
n!1
") =
Sn n
p
<x
n 2
Sn n
p
x =
n 2
lim inf P
n!1
lim P
n!1
(x) :
(x) : Somit folgt
Sn n
p
<x
n 2
=
(x) :
Korollar 5.7
Für a < b gilt
Sn n
a< p
b =
n!1
n 2
und nach der obigen Bemerkung kann man < durch
lim P
(b)
(a)
ersetzen, oder umgekehrt.
Beweis.
P
Sn n
a< p
n 2
b
=P
Sn n
p
n 2
b
P
Sn n
p
n 2
a :
Die Aussage folgt nun sofort aus Satz
p 5.5.
Man beachte, dass (Sn n ) = n 2 Erwartungswert 0 und Varianz 1 hat.
Der Satz 5.5 heisst Zentraler Grenzwertsatz. Der eigentliche Clou an dem Satz
ist, dass die genaue Verteilung der Xi für die Grenzverteilung gar keine Rolle spielt;
nur der Erwartungswert und die Varianz sind relevant. Die asymptotische Verteilung
vergisst quasi alle weiteren Details der Verteilung. Dies erklärt das universelle Auftreten dieser Grenzverteilung: Man stellt sich oft vor, dass in der “Natur” vorkommende
Zufallsgrössen (z.B. Messfehler) durch Summierung von vielen unabhängigen Zufallsgrössen zustande kommen und nach dem obigen Satz dann asymptotisch normalverteilt
sind, wie man sagt. (Es gibt viele Verallgemeinerungen des obigen Satzes, bei denen auch
nicht mehr vorausgesetzt wird, dass alle Xi die gleiche Verteilung haben. Sogar auf die
Unabhängigkeiten kann man bis zu einem gewissen Grad verzichten).
Der Satz wurde erstmals von Abraham de Moivre (1667-1754) (im Bernoulli-Fall)
gezeigt. De Moivres Beweis für binomialverteilte Zufallsgrössen basiert auf einer Anwendung der Stirlingschen Formel. De Moivre gebührt o¤ensichtlich auch die Priorität
für die Entdeckung der nach Stirling benannten Formel. (De Moivre scheint an der fehlerhaften Namensgebung selbt nicht ganz unschuldig zu sein. Stirling hatte nämlich de
75
Moivres erste Version etwas verschärft; auf dieses Faktum wies de Moivre in seinen späteren Publikationen hin. Die Leserschaft scheint daraus den Schluss gezogen zu haben,
dass die Formel auf Stirling zurückgeht). In der obigen Formulierung geht der Satz 5.5 im
Wesentlichen auf Pierre-Simon Laplace zurück (1749-1824). Der Satz heisst auch Satz
von de Moivre-Laplace, ausnahmsweise eine korrekte Namensgebung.
Pierre-Simon Laplace
Abraham de Moivre
Wieso tritt überhaupt die Gausssche Glockenkurve auf? Es gibt eine Vielzahl von
Charakterisierung der Funktion '; und fast jede dieser Charakterisierungen kann verwendet werden, um den obigen Satz zu beweisen. Der Beweis, den wir hier vorstellen,
benützt eine Charakterisierung von ' durch eine einfache Di¤erentialgleichung. Leitet
man ' ab, so erhält man o¤ensichtlich
'0 (x) =
x' (x) :
Es istR nicht schwer zu zeigen, dass ' die einzige Lösung dieser Gleichung mit ' (x) > 0
1
und 1 ' (x) dx = 1 ist. (Wir benützen diese Tatsache nicht explizit). Diese Di¤erentialgleichung schlachten wir nun aus, um den Satz zu beweisen. Zunächst benötigen wir
eine Umformulierung der Aussage des Satzes.
Proposition 5.8
Es sei Yn ; n 2 N eine Folge von Zufallsgrössen. Dann gilt
lim P (Yn
n!1
x) =
(x) ; 8x 2 R
(5.3)
genau dann, wenn für jede stetige beschränkte Funktion f : R ! R die Beziehung
Z 1
lim Ef (Yn ) =
f (y) ' (y) dy
(5.4)
n!1
1
76
gilt.
Beweis. Wir beweisen nur die Richtung, die wir zum Beweis unseres Satzes benötigen,
nämlich dass (5.4) die Aussage (5.3) impliziert. Wir setzen also (5.4) voraus. Sei x 2 R
und " > 0. Wir de…nieren die stetige Funktion fx;" : R ! R durch
8
1
fu
•r y x
<
fx;" (y) :=
1 y " x fu
•r x y x + " :
:
0
fu
•r y x + "
O¤ensichtlich gilt
1(
1;x] (y)
fx;" (y)
1(
1;x+"] (y) :
Somit folgt
E 1(
1;x] (Yn )
E (fx;" (Yn ))
E 1(
1;x+"] (Yn )
;
d.h.
P (Yn
x)
E (fx;" (Yn ))
P (Yn
x + ") :
(5.5)
Somit gilt
lim sup P (Yn
n!1
x)
lim sup E (fx;" (Yn )) =
n!1
Z 1
1(
1
Da
Z
1
1;x+"] (y) ' (y) dy
eine stetige Funktion ist, gilt lim"!0
fx;" (y) ' (y) dy
1
=
(x + ") =
lim sup P (Yn
x)
Z
x+"
' (y) dy =
(x + ") :
1
(x) : Somit folgt
(x) :
n!1
Unter Verwendung der zweiten Ungleichung in (5.5) folgt analog
lim inf P (Yn
x)
lim P (Yn
x) =
n!1
(x)
und daher
n!1
(x) :
Wir benötigen die Umkehrung, nämlich dass (5.3) die Aussage (5.4) impliziert, für
den Beweis des Satzes 5.5 nicht. Wir überlassen den (eher etwas mühsamen aber nicht
sehr schwierigen) Beweis daher dem Leser.
R1
Die Idee zu unserem Beweis des Satzes 5.5 besteht darin, Ef S^n
1 f (y) ' (y) dy;
p
S^n := (Sn n ) = n in anderer Weise auszudrücken. Wir versuchen nämlich, eine
Funktion h : R ! R zu …nden, die die Di¤erentialgleichung
Z 1
f (y) ' (y) dy = h0 (x) xh (x)
(5.6)
f (x)
1
löst.
Wir benötigen zunächst die folgenden Aussagen über
77
(x) :
Lemma 5.9
a)
ist stetig di¤erenzierbar, monoton wachsend, und es gilt limx!
limx!1 (x) = 1:
1
(x) = 0;
b)
( x) = 1
(x) :
(5.7)
c) Für x > 0 gilt
1
1
' (x) ;
x
(x)
für x < 0 gilt
(x)
1
' (x) :
jxj
Beweis. Dass
stetig di¤erenzierbar ist, folgt sofort aus der Darstellung als Integral
über eine stetige Funktion. Monotonie folgt aus ' > 0: limx! 1 (x) = 0 folgt sofort aus
der De…nition‘. limx!1 (x) = 1 folgt aus Lemma 5.1. (5.7) folgt aus ' (x) = ' ( x) :
Wir kommen zu den Abschätzungen in c). Die zweite Ungleichung folgt mit b) aus der
ersten. Wir beweisen daher nur die erste: Für x > 0 gilt
Z 1
Z 1
y
1
(x) =
' (y) dy
' (y) dy
x
x
x
Z 1
1
1
' (x)
=
y' (y) dy = ( ' (y)) j1
:
y=x =
x x
x
x
Lemma 5.10
Sei f : R ! R eine stetige und beschränkte Funktion. Wir schreiben
Sei h : R ! R de…niert durch
Z x
1
h (x) :=
(f (y)
(f )) ' (y) dy:
' (x) 1
(f ) für
R1
1f
(y) ' (y) dy:
(5.8)
Dann gelten:
a) Die Di¤erentialgleichung (5.6) ist erfüllt.
b) h ist eine stetig di¤ernzierbare Funktion. Ferner sind h, h0 und die Funktion x !
xh (x) beschränkt.
Beweis. h ist o¤ensichtlich stetig di¤erenzierbar. Anwendung von '0 (x) = x' (x)
liefert
Z x
f (x) ' (x)
1
0
h (x) =
f (y) ' (y) dy
(f )
'0 (x)
2
' (x)
'
(x)
1
Z x
x' (x)
= f (x)
(f ) +
(f (y)
(f )) ' (y) dy
= f (x)
(f ) + xh (x) ;
'2 (x)
1
78
d.h. (5.6) gilt. Es bleibt zu zeigen, dass
sup jh (x)j < 1; sup jxh (x)j < 1
x
(5.9)
x
gelten. Die Beschränktheit von h0 folgt dann aus (5.6). Man beachte zunächst, dass wegen
Z 1
(f (y)
(f )) ' (y) dy = 0
1
die Gleichung
h (x) =
1
' (x)
gilt. Wir erhalten daher für x > 0
Z 1
1
jh (x)j
jf (y)
' (x) x
2
kf k1 :
x
Z
1
(f (y)
(f )) ' (y) dy
x
(f )j ' (y) dy
kf
(f )k1
1
(x)
' (x)
(5.10)
(Für eine beschränkte Funktion g : R ! R ist die 1-Norm durch kgk1 := supx jg (x)j
de…niert.) Analog zeigt man für x < 0 :
jh (x)j
2
kf k1 :
jxj
(5.11)
Diese Ungleichungen sind natürlich nur für grosse jxj interessant, z.B. für jxj
jxj 1 gilt
1
jh (x)j
kf
(f )k1 :
inf y2[ 1;1] ' (y)
1: Für
(5.12)
Aus (5.10)-(5.12) folgt (5.9) sofort.
Beweis von Satz 5.5. Wir bemerken zunächst, dass
n
1 X ^
Sn n
Xi
S^n = p
=p
n
n
i=1
^ i := (Xi
^ i = 0; var X
^ i = 1 und die X
^ i sind
mit X
) = ist. O¤ensichtlich gilt E X
unabhängig. Wir können daher ohne Einschränkung der Allgemeinheit annehmen, dass
die Xi Erwartungswert 0 und Varianz 1 haben, was wir von nun an tun werden. Ist f
eine beschränkte stetige Funktion und h durch (5.8) de…niert, so gilt
Ef
S
pn
n
(f ) = Eh0
S
pn
n
= Eh0
S
pn
n
= Eh0
S
pn
n
79
S
S
pn h pn
n
n
n
1 X
p
E Xi h
n
E
i=1
p
nE Xn h
S
pn
n
S
pn
n
:
Die erste Gleichung folgt aus (5.6), die zweite aus der Linearität des Erwartungswertes.
Die dritte Gleichung folgt aus der folgenden Tatsache: Da die Xi nach Voraussetzung alle
p
die gleiche Verteilung haben, so haben auch die Zufallsgrössen Xi h (Sn = n) alle dieselbe
Verteilung (überlegen Sie sich das bitte genau). Demzufolge sind die Erwartungswerte
p
E (Xi h (Sn = n)) alle gleich.
p
p
p
Wir schreiben nun Sn = n als Sn 1 = n + Xn = n und entwickeln nach der TaylorFormel:
Z
Sn 1
X n 1 0 Sn 1
X
Sn
p + s p n ds
= h p
+p
h
h p
n
n
n 0
n
n
X n 0 Sn 1
Xn
Sn 1
p
+p h
+ p Rn :
= h p
n
n
n
n
mit
Rn :=
Z
1
Sn
p
h0
0
Xn
+ sp
n
n
1
Sn
p
h0
1
n
ds:
Wir argumentieren nun wie folgt: Da die Xi alle unabhängig sind, sind Xn und
p
p
p
Sn 1 = n unabhängig und damit sind auch Xn und h (Sn 1 = n) bzw. Xn und h0 (Sn 1 = n)
unabhängig. Der Leser möge sich dies selbst überlegen. Damit ergibt sich
p
nE Xn h
S
pn
n
=
p
nE Xn h
Sn
p
=
p
nEXn Eh
Sn
p
Sn
p
= E h0
1
+ E Xn2 h0
Sn
p
+ E Xn2 E h0
Sn
p
1
n
1
n
1
n
1
n
+ E Xn2 Rn
+ E Xn2 Rn
+ E Xn2 Rn ;
n
die letzte Gleichung wegen EXn = 0; EXn2 = 1:
Um den Beweis zu beenden, müssen wir nur noch die zwei folgenden Aussagen
nachweisen:
lim E Xn2 Rn = 0:
(5.13)
n!1
lim E h0
n!1
S
pn
n
h0
Sn
p
1
= 0:
n
(5.14)
Sind diese beiden Aussagen gezeigt, so folgt
lim Ef
n!1
S
pn
n
(f ) = lim
n!1
Eh0
p
S
pn
n
nE Xn h
S
pn
n
= 0:
Die Beweise von (5.13) und (5.14) gehen völlig analog; die zweite Gleichung ist o¤ensichtlich einfacher. Wir beweisen daher die erste.
Sei " > 0: Nach der Tschebysche¤-Ungleichung gilt
P
Sn
p
1
n
a
1
var
a2
80
Sn
p
1
n
=
n 1
a2 n
1
:
a2
Wir können daher a (") > 0 so wählen, dass
Sn
p
P
1
a
n
"
p
gilt. Die Tschebysche¤-Ungleichung nochmals angewandt liefert auch P (jXn = nj
1=n: Wir setzen nun N1 (") := [1="] + 1; sodass für n N1 (") die Ungleichung
P
X
pn
n
1
gilt. De…nieren wir das Ereignis An (") :=
dass für n N1 (") die Ungleichung
n
Sp
n
P (An (")c )
1)
"
1
a (") ;
n
o
1 ; so sehen wir,
Xn
p
n
2"
p
p
gilt. Man beachte nun, dass für ! 2 An (") sowohl Sn 1 (!) = n wie Sn 1 (!) = n +
p
sXn (!) = n für jedes s 2 [0; 1] im Intervall [ a (") 1; a (") + 1] liegen, sofern n
N1 (") ist. Da die Funktion h0 stetig ist, ist sie gleichmässig stetig auf diesem Intervall.
Damit existiert (") > 0; sodass
h0 (x)
h0 (y)
für x; y 2 [ a (") 1; a (") + 1] ; jx yj
an, so …nden wir ein N2 ( ) ; sodass für n
P
"
(") : Wenden wir nochmals Tschebysche¤
N2 ( )
X
pn
n
":
N2 hängt via natürlich einfach von " ab, und wir schreiben daher N2 ("). Wir können
voraussetzen, dass
1 ist und dass demzufolge N2
N1 ist. Für ! 2 An (") und
n N2 (") gilt
jRn (!)j =
Z
Z
1
0
1
h0
h0
0
Sn
(!)
Xn (!)
p1
+s p
n
n
Sn 1 (!)
Xn (!)
p
+s p
n
n
h0
h0
Sn
(!)
p1
ds
n
Sn 1 (!)
p
ds ":
n
Demzufolge gilt
E Xn2 Rn
E Xn2 jRn j = E Xn2 jRn j ; An + E Xn2 jRn j ; Acn
"E
Xn2
+2 h
0
1
E
Xn2 ; Acn
="+2 h
0
1
E
(5.15)
Xn2 ; Acn
:
Wir verwenden hier die bequeme Notation E (X; A) := E (X1A ) ; wenn X eine Zufallsgrösse und A ein Ereignis ist. Wir müssen nun noch den letzten Summanden in (5.15)
untersuchen. Sei D
R der (abzählbare) Wertebereich der Xi und f die Verteilung:
81
Für x 2 D ist f (x) = P (Xi = x) : Da wir voraussetzen, dass die Xi alle die gleiche
Verteilung haben, hängen weder D noch f von n ab. O¤ensichtlich gilt
X
lim E Xn2 ; jXn j K = lim
z 2 f (z) = 0:
K!1
K!1
z2D:jzj K
Zu jedem > 0 existiert somit K ( ) 2 N mit E Xn2 ; jXn j
nur von ; aber nicht von n abhängt. Demzufolge ist
E Xn2 ; Acn
= E Xn2 ; Acn \ fjXn j
und es folgt für n
, wobei K ( )
K ( )g + E Xn2 ; Acn \ fjXn j < K ( )g
K ( ) + K ( )2 P (Acn )
E Xn2 ; jXn j
K( )
+ 2K ( )2 ";
N2 (") :
" + 2 h0
E Xn2 Rn
+ 2K ( )2 " ;
1
d.h. auch
" + 2 h0
lim sup E Xn2 Rn
n!1
1
+ 2K ( )2 " :
Da " > 0 beliebig ist, folgt
lim sup E Xn2 Rn
n!1
Da auch
2 h0
1
:
beliebig ist, folgt
lim E Xn2 Rn
n!1
= 0:
Damit ist (5.13) gezeigt. (5.14) folgt völlig analog und ist sogar etwas einfacher.
Die Idee zu obigem Beweis stammt von Charles Stein8 , Professor emeritus an der
Stanford-Universität.
Charles Stein
8
Der Beweis ist nicht der transparenteste und auch nicht der einfachste. Der übliche Beweis verwendet
charakteristische Funktionen. Dies benötigt jedoch einige Vorbereitungen zur Fourieranalyse. Der Vorteil
der Steinschen Methode ist, dass man den Satz “aus dem Stand”beweisen kann. Ein anderer klassischer
Beweis stammt von Lindeberg und nützt die Tatsache aus, dass Summen von unabhängigen Zufallsgrössen, die gemäss der Gaussschen Glockenkurve verteilt sind - sogenannte normalverteilte Zufallsgrössen wieder normalverteilt sind. Wir werden das im nächsten Kapitel diskutieren.
82
Wir wenden uns nun wieder dem lokalen Grenzwertsatz 5.4 zu, den wir nur für den
Bernoulli-Fall beweisen. Man beweist solche Sätze am einfachsten mit den Methoden
der Fourier-Analyse, die uns jedoch nicht zur Vefügung stehen. Hier der Beweis von de
Moivre mit Hilfe der Stirling-Formel, der allerdings nicht sehr transparent ist.
Satz 5.11 (Stirlingsche Formel)
p
lim n!=( 2 nn+1=2 e
n
n!1
) = 1:
Der Satz sollte aus der Vorlesung “Di¤erential- und Integralrechnung”bekannt sein.
Falls nicht, siehe etwa: O. Forster: Analysis 1 §20 Satz 6.
Beweis von Satz 5.4. Wir führen zunächst einige Notationen ein: Sei A > 0 eine
beliebige Zahl. Wir erhalten diese Zahl für den Rest des Beweises fest. Wir verwenden
ebenfalls die Abkürzung xk;n ; die wir in (5.2) eingeführt haben. Seien a (k; n) ; b (k; n) > 0
für k; n 2 N de…niert. Wir schreiben kurz a (k; n) b (k; n) falls
lim
sup
n!1 k: A x
k;n A
gilt. O¤ensichtlich gilt
p
k = np + np (1
p) xk;n ; n
a (k; n)
b (k; n)
k = n (1
1 =0
p
p)
np (1
also mit der obigen Notation
k
d.h.
lim
sup
n!1 k: A x
k;n A
k
np
np; n
k
1 = 0; lim
n (1
p) xk;n ;
p) ;
(5.17)
n k
n (1 p)
sup
n!1 k: A x
k;n A
Mit Hilfe der Stirlingschen Formel folgt:
p
(n=e)n 2 npk (1 p)n k
b(k; n; p)
p
p
(k=e)k 2 k ((n k) =e)n k 2 (n
1
p
'(n; k);
2 np (1 p)
k)
=
r
1 = 0:
n
2 k(n
wobei wir
np k n (1 p) n
) (
)
k
n k
gesetzt haben.Nach der Taylorformel gilt für x > 1
'(n; k) := (
log(1 + x) = x
x3
x2 1
+
mit
2
3 (1 + x)3
83
(5.16)
k
= (x) 2 [0; 1]:
k)
'(n; k)
Nach (5.16) ergibt sich daraus
np
log
k
k
log
np (1
= k log 1
p
=
n (1 p)
n k
p
n k
np (1
= (n
p
=
p) xk;n
k
!
p) x2k;n
np (1
p)xk;n
2k
p
np (1
k) log 1 +
n
p) xk;n
k
np (1
p) x2k;n
np (1
(np (1
p) xk;n
2(n
k)
np(1 p)xk;n 3
)
k
3k 2 (1
!
p))3=2 x3k;n
p
(np (1
+
3(n
k)2 (1 +
p))3=2 x3k;n
p
0
np(1 p)xk;n 3
)
n k
mit ; 0 2 [0; 1]. Wir addieren die beiden obigen Gleichungen, wobei die jeweils ersten
Summanden auf der rechten Seite sich freundlicherweise gegenseitig aufheben. Die Summe der beiden zweiten Summanden ist
p) x2k;n
np (1
np (1
2k
p) x2k;n
2(n
k)
n2 p (1
=
2k(n
p) x2k;n
k)
:
Abhängig von A, p gibt es eine positive Konstante C derart, dass die jeweils dritten
Summanden in den geschweiften Klammern auf der rechten Seite der obigen Gleichung
für genügend grosse n vom Betrag kleiner als Cn 3=2 sind. Dies entnimmt man sofort
(5.17). Demzufolge gilt:
lim
sup
n!1 k:jx
Aus (5.17) folgt
n2 p(1 p)
2k(n k)
k;n j
n2 p (1
log '(n; k)
p) x2k;n
2k(n
A
k)
= 0:
1 und somit
lim
sup
n!1 k:jx j A
k
log '(n; k)
x2k;n
2
= 0:
Daraus folgt
'(n; k)
e
x2k;n =2
:
Damit ist der Satz bewiesen. (Wir sind etwas locker mit der Relation
umgegangen.
Der Leser möge sich die einzelnen Schritte ganz genau selbst überlegen.)
Rechenbeispiel zu Satz 5.4:
Jemand wirft 1200-mal einen Würfel. Mit welcher Wahrscheinlichkeit hat er genau
200-mal eine 6? Mit welcher Wahrscheinlichkeit 250-mal?
84
;
Wir berechnen xk für k = 200; 250, n = 1200, p = 1=6.
p
5 6
x200 = 0; x250 = p = 3:873
10
b(200; 1200; 1=6) = 0:0309019
b(250; 1200; 1=6) = 0:0000170913:
Wie üblich muss hier bemerkt werden, dass ein reines Limesresultat für die Güte einer
Approximation wie in obigem Rechenbeispiel zunächst natürlich gar nichts aussagt. Gefragt sind konkrete Abschätzungen des Fehlers. Dies ist ein technisch aufwendiges Feld,
in das wir in dieser Vorlesung nicht eintreten können.
Nachfolgend ist eine numerische Illustration von Satz 5.4 für n = 30 für angegeben,
auf der linken Seite mit p = 0:5 und auf der rechten Seite mit p = 0:3 :
Das Balkendiagramm ist die Funktion
p
fn;p (k) = np(1
p)b(k; n; p):
Darüber ist die Gausssche Glockenkurve in der richtigen Skalierung eingetragen:
"
#
1
(k np)2
k ! p exp
2np (1 p)
2
Auf dem rechten Bild sieht man noch deutlich die Asymmetrie in der Treppenfunktion,
die natürlich für n ! 1 verschwinden muss.
Anwendungsbeispiel zu Satz 5.3:
Eine Fabrik stellt ein Werkstück her mit einer Ausschussrate von 10%. Mit welcher
Wahrscheinlichkeit sind unter 400
p produzierten mehr als 50 defekt?
n = 400, p = 0; 1, np = 40, np(1 p) = 6
!
5
Sn np
5
5
P (Sn > 50) = P p
>
=
=1
= 0; 05:
3
3
3
np(1 p)
Mit welcher Wahrscheinlichkeit sind zwischen 35 und 45 defekt?
!
5
Sn np
5
p
P (35 Sn 45) = P
6
6
np(1 p)
=
5
6
5
6
85
=1
2
5
6
= 0; 6:
Da wir keine Fehlerabschätzungen hergeleitet haben, wissen wir natürlich nicht, wie
genau solche Näherungen sind. Die Genauigkeit ist etwas besser, wenn man die Mitte
der möglichen Grenzpunkte nimmt; das heisst, im obigen Beispiel schreibt man besser:
P (Sn > 50) = P (Sn
P (35
Sn
50; 5) = 1
45) = P (34; 5
Sn
21
12
45; 5) = 1
2
11
12
:
Für n ! 1 ist die Korrektur natürlich belanglos; sie ist jedoch immerhin von der
p
Grössenordnung 1= n.
86
6
Zufallsgrössen mit Dichten
Im Kapitel 5 sind wir auf Wahrscheinlichkeiten gestossen, die sich durch Integrale approximieren lassen. Wir hatten gesehen, dass für Sn , die Anzahl der Erfolge in einem
Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p,
! Z
b
1
Sn np
2
p e x =2 dx
b =
lim P a < p
n!1
2
np(1 p)
a
gilt. Es ist daher naheliegend, Zufallsgrössen einzuführen, für die sich P (a < X
b)
durch ein Integral ausdrücken lässt. Gibt es so etwas?
Zunächst sei bemerkt, dass diese Frage für die Ergebnisse von Kapitel 5 irrelevant ist,
denn dort ist nur von (diskreten) Zufallsgrössen die Rede, für die sich die entsprechenden
Wahrscheinlichkeiten durch Integrale approximieren lassen. Für die Formulierung des
zentralen Grenzwertsatzes besteht keine Notwendigkeit, Zufallsgrössen einzuführen, für
die sich Wahrscheinlichkeiten als Integrale schreiben lassen. Dennoch ist es eine bequeme
mathematische Idealisierung, etwa von normalverteilten Zufallsgrössen zu sprechen,
d.h. von Zufallsgrössen X mit
P (a < X
b) =
Z
a
b
1
'(x) dx; '(x) := p e
2
x2 =2
:
Eine derartige Zufallsgrösse hat eine erstaunliche Eigenschaft: Ist a 2 R beliebig, so gilt
Z a
1
P (X = a) P a
<X a =
'(x) dx
n
a 1
n
für alle n 2 N, und die rechte Seite konvergiert gegen null für n ! 1. Somit gilt
P (X = a) = 0 für jedes a 2 R. Es ist evident, dass die in Kapitel 3, De…nition 3.1
de…nierte Zufallsgrössen diese Eigenschaft nicht haben können. Ist nämlich p(!) > 0
für ein ! 2 , so gilt P (X = a)
p(!) > 0 für a = X(!). Die Konstruktion von
normalverteilten Zufallsgrössen setzt den allgemeineren Rahmen der Wahrscheinlichkeitstheorie voraus, den wir in De…nition 1.12 eingeführt hatten.
De…nition 6.1
Sei ( ; F; P ) ein Wahrscheinlichkeitsraum gemäss De…nition 1.12. Eine Zufallsgrösse
X ist eine Abbildung X :
! R; die die Eigenschaft hat, dass für jede Borel-Menge
1
B 2 B; die Menge X (B) := f! 2 : X (!) 2 Bg in F ist. Man sagt, dass X eine
messbare Abbildung ! R ist.
Das ist eine Verallgemeinerung der De…nition 3.1. Ist nämlich
eine abzählbare
Menge, so nehmen wir für F stets einfach die Potenzmenge von : In diesem Fall ist
natürlich jede Abbildung X : ! R messbar.
87
De…nition 6.2
1. Sei X eine Zufallsgrösse gemäss der obigen De…nition 6.1. Dann heisst die Funktion
FX : R ! R; die de…niert ist durch
FX (t) := P (X
1
t) = P X
(( 1; t])
die Verteilungsfunktion von X:
2. Eine Lebesgue-integrierbare
R1
RFunktion f : R ! [0; 1) heisst Dichtefunktion,
wenn 1 f (x) dx = 1 gilt. ( : : : dx bezeichne das Lebesgue-Integral.)
3. Eine Zufallsgrösse hat Dichte f; wenn für jedes t 2 R
Z t
FX (t) =
f (x) dx
(6.1)
1
gilt.
Verteilungsfunktionen haben eine Reihe von einfachen Eigenschaften:
Proposition 6.3
Sei F die Verteilungsfunktion einer Zufallsgrösse X: F hat die folgenden Eigenschaften:
1. F ist nicht fallend, d.h. für s
t gilt F (s)
F (t) :
2. F ist rechtsseitig stetig.
3. limt!1 F (t) = 1; limt!
1F
(t) = 0:
Beweis. Die Monotonie ist klar wegen X 1 (( 1; s])
X 1 (( 1; t]) für s
die Rechtsstetigkeit zu zeigen genügt es nachzuweisen, dass für jedes t 2 R
lim F
n!1
gilt. Man beachte nun für n
Ferner ist
\
n2N
t+
1
n
m die Inklusion X
X
1
( 1; t +
1
]
n
t: Um
= F (t)
1
( 1; t +
=X
1
1
m]
X
1
( 1; t + n1 ] .
(( 1; t]) :
Unter Verwendung von Lemma 3.40.1 folgt daher
lim F
n!1
t+
1
n
= lim P
n!1
X
1
( 1; t +
1
]
n
=P X
Um 3. zu zeigen, genügt es
lim F ( n) = 0; lim F (n) = 1
n!1
n!1
88
1
(( 1; t]) = F (t) :
nachzuweisen. Nun gelten
\
[
X 1 (( 1; n]) = ?;
n2N
n2N
X
1
(( 1; n]) =
:
Unter nochmaliger Verwendung von Lemma 3.40.1
Besitzt eine Zufallsgrösse eine Dichte, so ist ihre Verteilungsfunktion natürlich stetig.
Verteilungsfunktionen von Zufallsgrössen, die auf einem abzählbaren Wahrscheinlichkeitsraum de…niert sind, sind jedoch unstetig. Es gilt nämlich in einem solchen Fall
X
X
P (X t) =
p (!) =
P (X = z) :
!:X(!) t
z2X( ):z t
Diese Funktion hat Sprünge der Höhe P (X = z) in allen Punkten z 2 X ( ) : Ohne Beweis sei die Tatsache erwähnt, dass nicht alle stetigen Verteilungsfunktionen eine Dichte
besitzen.
Beispiele 6.4
1. Die Dichte der Standard-Normalverteilung(oder Standard-Gauss-Verteilung)
ist de…niert durch
1
2
'(x) = p e x =2 ; x 2 R:
2
R1
Wir hatten schon im letzten Kapitel gesehen, dass 1 '(x) dx = 1 ist.
2. Die Dichte der Normalverteilung mit Mittel
de…niert durch
'(x; ;
2
) := p
1
2
e
(x
)2 =(2
2 R und Varianz
2)
;
2
> 0 ist
x 2 R:
Die Namensgebung für die Parameter 2 R und > 0 wird weiter unten klar
werden wird. (Beispiel 6.10 b). Durch die Transformation y = (x
)= geht
die Dichte '( ; ; 2 ) in die Dichte '( ; 0; 1) der Standard-Normalverteilung aus
Beispiel a) über, und es gilt
Z 1
Z 1
1
2
p e y =2 dy = 1:
'(x; ; 2 ) dx =
2
1
1
3. Für a < b ist die Dichte der gleichförmigen Verteilung auf [a; b] de…niert durch
f (x) =
1
b a
0
falls x 2 [a; b]
:
sonst
4. Die Dichte der Exponentialverteilung zum Parameter
durch
e x falls x 0
f (x) =
:
0
falls x < 0
89
> 0 ist de…niert
5. Die Dichte der Cauchy-Verteilung zum Parameter c > 0 ist de…niert durch
f (x) =
c
x2
1
;
+ c2
x 2 R:
Wir nennen eine Zufallsgrösse X standard-normalverteilt, wenn sie die Dichte gemäss Beispiel 6.4.1 hat. Ähnliche Bezeichnungen gelten für die anderen Dichten. Obwohl
die Dichte der Cauchy-Verteilung einen “glockenförmigen” Graphen wie die Gausssche
Glockenkurve hat, gibt es sehr wesentliche Unterschiede zwischen den beiden Dichten,
die damit zusammenängen, dass die Gausssche Glockenkurve sehr viel schneller gegen
0 abfällt als die Cauchy-Dichte. In der untenstehenden Gra…k ist die durchgezogenen
Kurve die Cauchy-Dichte und die gestrichelte die Gausssche Glockenkurve.
Eine Dichte ist nicht ganz eindeutig durch die Zufallsgrösse bzw. deren Verteilungsfunktion bestimmt, denn eine Änderung der Dichtefunktion auf einer Lebesgue-Nullmenge
ändert an der Darstellung (6.1) natürlich gar nichts.
Für die weitere Diskussion sind einige masstheoretische Überlegungen wichtig. Wir
formulieren sie etwas allgemeiner als hier unbedingt nötig wäre. Ist eine Menge und
F eine -Algebra, so bezeichnen wir ein Mengensystem F0
F ein Erzeugendensystem von F; wenn F die kleinste -Algebra ist, die F0 enthält, d.h. wenn für jede
-Algebra G F 0 ; die Inklusion F G gilt. Ein Erzeugendesystem F0 von F heisst
durchschnittstabil, wenn
A; B 2 F0 =) A \ B 2 F0
gilt. Ohne Beweis zitieren wir die folgenden zwei Ergebnisse aus der Masstheorie (sie die
Vorlesung Di¤.-Int. III):
Proposition 6.5
Sind Q1 ; Q2 zwei Wahrscheinlichkeitsmasse auf der -Algebra F, die auf einem durchschnittstabilen Erzeugendensystem F0 von F übereinstimmen, so stimmen Q1 und Q2
auf F überein.
Proposition 6.6
f( 1; t] : t 2 Rg ist ein durchsnittstabiles Erzeugendensystem der Borel- -Algebra B
auf R:
Als Folgerung ergibt sich das folgende
Korollar 6.7
Hat die Zufallsgrösse X die Dichte f; so gilt für jede Borel-Menge B 2 B
Z
P (X 2 B) =
f (x) dx:
B
R
Beweis. Die Abbildung B 3B ! B f (x) dx ist
R ein Mass auf (R; B) ; was aus der
Vorlesung Di¤.-Int. III bekannt sein sollte. Wegen R f (x) dx = 1 ist es ein Wahrscheinlichkeitsmass. Ebenso ist die Abbildung B 3B ! P (X 2 B) ein Wahrscheinlichkeitsmass, was man wie folgt einsieht:
90
Es gilt trivialerweise P (X 2 R) = 1;
Sind Bn ; n 2 N; paarweise disjunkte Borelmengen, so sind auch die Mengen An :=
f! 2 : X (!) 2 Bn g paarweise disjunkt. Ferner gilt
n
o
[
[
An = ! : X (!) 2
Bn :
n
n
Somit folgt
P X2
[
n
Bn = P
[
n
An =
X
P (An ) =
n
X
n
P (X 2 Bn ) :
Damit haben wir die Kolmogoro¤schen Axiome für die Abbildung B 3B ! P (X 2 B)
nachgewiesen. Nach Voraussetzung stimmen unsere beiden Wahrscheinlichkeitsmasse auf
dem Mengensystem f( 1; t] : t 2 Rg überein. Nach den Propositionen 6.5 und 6.6 stimmen die Masse daher auf der ganzen Borel- -Algebra überein.
Eine Verteilungsfunktion F , die eine Dichte hat, braucht natürlich keine stetige Dichte zu besitzen. Ist jedoch eine Dichte f in einem Punkt a stetig, so gilt nach dem Fundamentalsatz der Di¤erential- und Integralrechnung
f (a) =
dF (x)
dx
:
x=a
Somit hat eine Verteilungsfunktion F genau dann eine stetige Dichte, wenn sie stetig
di¤erenzierbar ist. Diese stetige Dichte ist, wenn sie existiert, eindeutig durch F bestimmt.
Wir kommen nun zur De…nition des Erwartungswertes und der Varianz für Zufallsgrössen, die eine Dichte besitzen.
De…nition 6.8
Die Zufallsgrösse X habe eine Dichte f .
a) Ist die Funktion R 3 x 7! xf (x) Lebesgue-integrierbar, so sagen wir, dass der
Erwartungswert von X existiert. Er ist dann de…niert durch
Z 1
EX =
xf (x) dx:
1
b) Falls EX existiert und R 3 x 7! (x EX)2 f (x) Lebesgue-integrierbar ist, so ist
die Varianz von X de…niert durch
Z 1
var(X) =
(x E(X))2 f (x) dx:
1
Die De…nition ist natürlich völlig analog zu den entsprechenden De…nitionen von Erwartungswert und Varianz für Zufallsgrössen, die auf diskreten Wahrscheinlichkeitsräumen
de…niert sind.
91
Bemerkung 6.9
Eine Cauchy-verteilte Zufallsgrösse hat keinen Erwartungswert, denn die Funktion
R 3 x 7!
c
x2
x
+ c2
ist nicht Lebesgue-integrierbar.
Beispiele 6.10
a) Sei X standard normalverteilt. Dann ist
Z 1
Z 1
1
2
x2 =2
p
p
jxj
e
dx =
xe
2
2 0
1
x2 =2
2
= lim p
N !1
2
e
dx
x2 =2
N
0
=
r
2
< 1;
also existiert der Erwartungswert von X, und es gilt
Z 1
1
2
EX =
x p e x =2 dx = 0;
2
1
da der Integrand eine ungerade Funktion ist. Die Varianz berechnet sich wie folgt:
Es gilt
Z 1
Z N
1
1
2
2
x2 =2
var(X) = p
x e
dx = lim p
x(xe x =2 ) dx;
N
!1
2
2
1
N
und mittels partieller Integration folgt
var(X) = lim
N !1
1
p
2
xe
x2 =2
N
N
1
+p
2
Z
N
e
x2 =2
dx
= 0 + 1 = 1:
N
b) Sei X normalverteilt mit den Parametern 2 R und > 0. Mit der Transformation
y = (x
)= folgt unter Verwendung von a)
Z 1
Z 1
1
1
2
(x )2 =2 2
jxj p
e
dx =
j + yj p e y =2 dy
2
2
1
1
Z 1
1
2
j j+
jyj p e y =2 dy < 1;
2
1
also existiert der Erwartungswert, und es gilt
Z 1
Z
1
1
(x )2 =2 2
EX =
xp
e
dx = p
2
2
1
1
(y + )e
y 2 =2
dy = :
1
Mit der gleichen Transformation und dem Ergebnis aus Beispiel a) folgt
Z 1
2 Z 1
1
2
2
2
var(X) =
(x
)2 p
e (x ) =2 dx = p
y 2 e y =2 dy =
2
2
1
1
92
2
:
Bemerkung 6.11
Eine Zufallsgrösse X ist genau dann normalverteilt mit Erwartungswert und Varianz
2 , wenn (X
)= standardnormalverteilt ist. Etwas allgemeiner: Ist X normalverteilt
mit Erwartungswert und Varianz 2 , und sind a; b 2 R, a 6= 0, so ist aX + b normalverteilt mit Erwartungswert a + b und Varianz a2 2 . Dies ergibt sich im Fall a > 0
aus der Tatsache, dass sowohl P (X
t) = P (aX + b
at + b) als auch (mittels der
Transformation y = ax + b)
Z
t
1
p
2
1
e
(x
)2 =2
2
dx =
für alle t 2 R gelten, also '( ; a + b; a2
a < 0 ist analog.
Z
Z
1
xe
x
dx =
xe
x
1
0
0
1
2)
Beispiel 6.12
Sei X exponentialverteilt mit Parameter
EX =
at+b
p
1
e
2 a
b)2 =2a2
(y a
var(X) =
1
x
1
> 0. Partielle Integration ergibt
+
Z
1
e
x
1
dx = 0 +
e
e
1
x
0
2
x
dy
eine Dichte von aX + b ist. Der Beweis für
dx =
0
Z
1
1
=
;
0
insbesondere existiert der Erwartungswert. Ausmultiplizieren von (x
von E(X) = 1= und zweimalige partielle Integration liefern
Z
2
x2 e
x
dx
2
1= )2 , verwenden
E(X) +
0
1
2
=
1
2:
Als nächstes wollen wir gemeinsame Eigenschaften von mehreren Zufallsgrössen X1 ; : : : ; Xn
betrachten. Wir nennen das n Tupel X = (X1 ; : : : ; Xn ) auch einen n-dimensionalen Zufallsvektor.
De…nition 6.13
a) Eine Lebesgue-integrierbare Funktion f : Rn ! [0; 1) heisst n-dimensionale
Dichtefunktion (oder kurz Dichte),wenn
Z
f (x) dx = 1
Rn
ist, wobei x das n-Tupel (x1 ; : : : ; xn ) 2 Rn bezeichnet.
b) f sei eine n-dimensionale Dichtefunktion, und X = (X1 ; : : : ; Xn ) ein Zufallsvektor.
f heisst Dichte von X; wenn
Z
P (X1 a1 ; X2 a2 ; : : : ; Xn an ) =
f (x) dx
(6.2)
( 1;a1 ]
( 1;an ]
für alle a1 ; : : : ; an 2 R gilt. Wir sagen dann auch, f sei eine gemeinsame Dichte
der Zufallsgrössen X1 ; : : : ; Xn :
93
Die linke Seite der Gleichung (6.2) ist die Wahrscheinlichkeit der Menge
f! : X (!) 2 A (a)g ;
wobei A (a) := ( 1; a1 ]
( 1; an ] Rn ist. Die Teilmengen von Rn dieser Form
bilden ein durchschnittstabiles Erzeugendensystem der n-dimensionalen Borel- -Algebra
Bn : Aus Proposition 6.5 folgt daher wie oben im eindimensionalen Fall:
Satz 6.14
Ist f eine Dichte des Zufallsvektors X; so gilt für jede Borel-Menge C
Z
P (X 2 C) =
f (x) dx:
Rn :
C
Setzt man im obigen Satz speziell C = Rk 1 ( 1; a] Rn k , so ergibt sich aus
dem Satz von Fubini:
Z a Z 1
Z 1
P (Xk a) =
:::
f (x1 ; : : : ; xn ) dx1 : : : dxk 1 dxk+1 : : : dxn dxk
1
1
1
Z a
=
fk (x) dx;
1
mit
fk (x) :=
Z
1
:::
1
Z
1
f (x1 ; : : : ; xk
1 ; x; xk+1 ; : : : ; xn ) dx1 : : : dxk 1 dxk+1 : : : dxn :
(6.3)
1
Daraus folgt, dass die Funktion fk eine Dichte für die Zufallsgrösse Xk ist. fk heisst die
k-te Randdichte von f . Wir haben somit den folgenden Satz gezeigt:
Satz 6.15
Hat der Zufallsvektor X = (X1 ; : : : ; Xn ) eine Dichte f , so hat für jedes k 2 f1; : : : ; ng
die Zufallsgrösse Xk die Dichte fk , die de…niert ist durch (6.3).
Bemerkung 6.16
a) Eine präzise Ausformulierung der obigen Überlegungen erfordert etwas Sorgfalt.
Tatsächlich garantiert der Satz von Fubini nicht, dass für alle x 2 R die Funktion
Rn
1
3 (x1 ; : : : ; xk
1 ; xk+1 ; : : : ; xn )
! f (x1 ; : : : ; xk
1 ; x; xk+1 ; : : : ; xn )
Lebesgue-integrierbar auf Rn 1 ist, sondern nur für alle x 2 R n N , wobei N eine
Nullmenge ist. Die Funktion fk ist somit im allgemeinen
nur auf RnN de…niert. Für
Ra
die weitere Integration von fk , zum Beispiel für 1 fk (x) dx, ist diese Nullmenge
jedoch belanglos. Wir können fk (x) für x 2 R n N durch (6.3) de…nieren, und für
x 2 N können wir fk (x) := 0 (oder irgend eine andere Zahl) setzen. Dann ist fk auf
ganz R de…niert. Die Festlegung auf der Nullmenge spielt keine Rolle. (Tatsächlich
ist es formal besser, Dichten als Äquivalenzklassen von Funktionen aufzufassen,
wobei die Äquivalenzrelation durch die Gleichheit fast überall de…niert ist).
94
b) Satz 6.15 besagt, dass die Existenz einer gemeinsamen Dichte die Existenz der
Dichten für die einzelnen Komponenten des Zufallsvektors impliziert. Die Umkehrung gilt jedoch nicht. Dazu das folgende Beispiele: Habe die Zufallsgrösse
X eine Dichte. Wir setzen Y := X: Dann hat natürlich auch Y eine Dichte
(dieselbe wie X): Der Zufallsvektor (X; Y ) hat jedoch keine Dichte. Ist nämlich
A := (x; y) 2 R2 : x = y ; so gilt P ((X; Y ) 2 A) = 1: Anderseits ist A eine
Lebesgue-Nullmenge. Demzufolge gilt für jede Lebesgue-integrierbare Funktion
f : R2 ! R+
ZZ
A
f (x; y) dxdy = 0 6= 1 = P ((X; Y ) 2 A) :
Als Anwendung von Satz 6.14 können wir die Dichte von X + Y berechnen, wenn X
und Y eine gemeinsame Dichte f : R2 ! [0; 1) besitzen. Dazu berechnen wir zunächst
P (X + Y
a) für alle a 2 R. Mit Ca := f(x; y) 2 R2 : x + y ag können wir dies als
P ((X; Y ) 2 Ca ) schreiben. Nach Satz 6.14 und dem Satz von Fubini ergibt sich
Z 1Z a y
P (X + Y
a) =
f (x; y) dx dy
1
1
Z 1Z a
Z a Z 1
=
f (x y; y) dx dy =
f (x y; y) dy dx:
1
1
1
1
Somit gilt
Satz 6.17
Haben X und Y eine gemeinsame Dichte f , so ist die durch
Z 1
f (x y; y) dy
g(x) =
1
für (fast alle) x 2 R de…nierte Funktion eine Dichte von X + Y .
Korollar 6.18
Haben X und Y eine gemeinsame Dichte f; und existieren EX, EY; so existiert auch
E(X + Y ) und es gilt
E(X + Y ) = EX + EY:
Beweis. Nach dem Satz von Fubini-Tonelli gilt
Z 1
Z 1
Z 1
f (x y; y) dy dx
jxj g(x) dx =
jxj
1
1
Z 1Z 1
Z 1 1
Z 1
(jxj + jyj) f (x; y) dy dx
jx + yj f (x; y) dy dx
=
1
1
1
1
Z 1
Z 1
jyj f2 (y) dy < 1;
jxj f1 (x) dx +
=
1
1
95
wobei f1 ; f2 die beiden Randdichten sind. Somit existiert der Erwartungswert von X + Y
im Sinne der De…nition 6.8 gezeigt. Mit Fubini folgt nun auch
Z 1
Z 1 Z 1
xg(x) dx =
x
f (x y; y) dy dx
1
1
1
Z 1Z 1
=
(x + y) f (x; y) dy dx
1
1
Z 1
Z 1
=
xf1 (x) dx +
yf2 (y) dy = EX + EY:
1
1
De…nition 6.19
X1 ; : : : ; Xn seien n Zufallsgrössen. Sie heissen unabhängig, wenn für alle a1 ; : : : ; an 2 R
P (X1
a1 ; : : : ; Xn
an ) = P (X1
a1 )
P (Xn
an )
gilt.
Bemerkung 6.20
Man prüft leicht nach, dass diese De…nition für diskrete Zufallsgrössen äquivalent zu der
in Kapitel 3 gegebenen ist.
Satz 6.21
X1 ; : : : ; Xn seien n Zufallsgrössen. Jedes der Xj habe eine Dichte fj . (Wir setzen nicht
voraus, dass eine gemeinsame Dichte existiert.) Dann sind die Zufallsgrössen X1 ; : : : ; Xn
genau dann unabhängig, wenn die Funktion f de…niert durch
Rn 3 x ! f (x) := f1 (x1 )f2 (x2 ) : : : fn (xn )
eine Dichte von X = (X1 ; : : : ; Xn ) ist.
Beweis. Ist f eine Dichte von X, so ergibt sich für alle a1 ; : : : ; an 2 R
Z a1
Z an
P (X1 a1 ; : : : ; Xn an ) =
:::
f1 (x1 ) : : : fn (xn ) dxn : : : dx1
1
=
n Z
Y
j=1
1
aj
fj (xj ) dxj =
1
n
Y
P (Xj
aj ):
j=1
Somit sind X1 ; : : : ; Xn unabhängig.
Umkehrung: Aus der Unabhängigkeit gemäss De…nition 6.19 folgt
P (X1
a1 ; : : : ; Xn
an ) =
=
=
n
Y
P (Xj
j=1
n Z aj
Y
j=1
Z a1
1
:::
1
96
aj )
fj (xj ) dxj
Z
an
f1 (x1 ) : : : fn (xn ) dxn : : : dx1 ;
1
und somit ist f eine Dichte von X:
Wir wollen nun den Satz 6.17 auf den Fall, dass X; Y unabhängig sind, spezialisieren:
Satz 6.22
Es seien X und Y unabhängige Zufallsgrössen; X habe die Dichte f und Y die Dichte
g. Dann hat X + Y die Dichte
Z 1
h(x) =
f (x y)g(y) dy; x 2 R:
(6.4)
1
Beweis. Der Satz folgt unmittelbar aus Satz 6.17 und Satz 6.21.
Sind f und g zwei Dichten, so de…niert (6.4) eine neue Dichte h, die man als die
Faltung von f und g bezeichnet und meist als f g schreibt. Dass f g wieder eine
Dichte in unserem Sinne ist, folgt sofort aus dem Satz von Fubini. Die Faltung ist eine
kommutative und assoziative Verknüpfung auf der Menge der Dichten. Als Anwendung
von Satz 6.17 können wir die wichtigste Eigenschaft von normalverteilten Zufallsgrössen
zeigen:
Satz 6.23
Es seien Xi , 1
i
n, unabhängige undPnormalverteilte Zufallsgrössen mit Erwarn
2 . Dann ist
tungswerten
und
Varianzen
i
i
i=1 Xi normalverteilt mit Erwartungswert
Pn
Pn
2
und
Varianz
.
i=1 i
i=1 i
Beweis. Sind X1 ; : : : ; Xn unabhängig, so sind X1 +
+ Xn 1 und Xn ebenfalls unabhängig, was sich der Leser als Übungsaufgabe überlegen soll. Der Satz folgt somit mit
Induktion nach n aus dem Fall n = 2.
Die Zufallsgrössen Y1 = X1
1 und Y2 = X2
2 sind Nach Bemerkung 6.11
normalverteilt mit Erwartungswert 0. Nach (6.4) ist die Dichte h von Y1 + Y2 gegeben
durch
Z 1
y2
1
1 (x y)2
+
dy
h(x) =
exp
2
2
2 1 2 1
2
1
2
für alle x 2 R. Schreibt man den Term in der Klammer in der Form
!2
p
2+ 2
(x y)2
y2
x2
2
1
2
p
+
=
y
x
+
2
2
2+
2+ 2
1 2
1
1
2
1
1
2
2:
2
und benutzt die Transformation
z(y) =
p
2
1
+
2
2
y
1 2
1
so ergibt sich
h(x) = p
1
2 (
2
1
+
2)
2
exp
1
2
x2
2+
1
2
2
97
Z
p
1
1
2
2+
1
1
p e
2
2
2
x;
z 2 =2
dz = '(x; 0;
2
1
+
2
2 ):
Also ist Y1 + Y2 normalverteilt mit Erwartungswert 0 und Varianz 21 + 22 . Demzufolge
ist X1 + X2 normalverteilt mit Erwartungswert 1 + 2 und Varianz 21 + 22 .
Die Normalverteilung ist die weitaus wichtigste Verteilung. Für viele statistische
Anwendungen wird vorausgesetzt, dass die diskutierten Grössen normalverteilt sind (z.B.
Messfehler bei astronomischen Beobachtungen, Intelligenzquotienten in einer Population
etc., siehe die Vorlesungen über Statistik). Viele Grössen, die oft und unter identischen
Bedingungen gemessen werden können, sind tatsächlich wenigstens genähert normalverteilt. Eine gewisse theoretische Rechtfertigung gibt der zentrale Grenzwertsatz aus
Kapitel 5. Man stellt sich etwa vor, dass Messfehler zustande kommen, indem sich kleine
Fehler unabhängig überlagern. Ist dies der Fall, so ist nach dem zentralen Grenzwertsatz
der gesamte Messfehler genähert normalverteilt.
Zufallsgrössen mit Dichten sind noch zu Ende des 19. Jahrhunderts zum Teil nicht
richtig verstanden worden. 1888 publizierte Joseph Bertrand sein Buch Calcul des probabilités, worin des folgende sogenannte Bertrandsche Paradoxon erwähnt wird. Gegeben
sei ein Kreis mit Radius 1: In diesen Kreis wird eine zufällige Sehne gezogen. Mit welcher Wahrscheinlichkeit ist diese Sehne kürzer als die Seitenlänge eines in den Kreis
eingeschriebenen gleichseitigen Dreiecks?
Die Frage ist, was hier “zufällig”bedeutet. Dafür gibt es mehrere mögliche Ansätze.
Ein naheliegender ist es, zwei zufällige Punkte (X; Y ) auf dem Einheitskreis zu wählen.
Wir können X und Y mit zufälligen Winkeln 2 [0; 2 ) identi…zieren und vorauszusetzen, dass (X; Y ) als gemeinsame Dichte die Gleichverteilung auf dem Einheitsquadrat
[0; 2 )2 hat, d.h. die Dichtefunktion, die auf diesem Quadrat gleich 1= (2 )2 ist, und 0
ausserhalb. In diesem Modell lässt sich die gesuchte Wahrscheinlichkeit leicht ermitteln:
Sie ist einfach gegeben durch die Wahrscheinlichkeit, dass X und Y sich um weniger als
2 =3 unterscheiden. Die gesuchte Wahrscheinlichkeit ist daher o¤ensichtlich 2=3:
Wir können jedoch auch auf andere Weise festlegen, was “zufällig” hier heissen soll,
z.B. indem wir den Mittelpunkt der Sehne gemäss der Gleichverteilung auf der Kreisscheibe wählen. Bezeichnen wir die Koordinaten dieses Mittelpunktes der Sehne mit
(U; V ) ; so legen wir also fest, dass dieser zweidimensionale Vektor eine Dichte hat, die
1= auf der Kreisscheibe ist und 0 ausserhalb. Die Länge der Sehne ist genau dann kürzer
als die Seiten des eingeschriebenen Dreiecks, wenn der Abstand von (U; V ) vom 0-Punkt
grösser als der Radius
des dem Dreieck eingeschriebenen Inkreises ist, der Radius 1=2
p
hat, d.h. wenn U 2 + V 2 > 1=2 ist, was unter dem obigen Modell Wahrscheinlichkeit
3=4 6= 2=3 hat. Bertrand scheint über dieses Resultat verwundert gewesen zu sein, aber
es gibt eigentlich nicht den geringsten Grund, weshalb die Gleichverteilung von (X; Y )
auf [0; 2 )2 der Gleichverteilung von (U; V ) auf der Kreisscheibe entsprechen sollte.9
9
Natürlich ist es billig, sich über die Ignoranz der Alten zu mokkieren; dass zu Ende des 19. Jh.
jemand mit diesem Beispiel Schwierigkeiten gehabt hat, verwundert jedoch schon etwas. Es ist kaum
anzunehmen, dass z.B. Gauss oder Laplace über das Ergebnis erstaunt gewesen wären. Bertrands Buch
enthält übrigens viele Fehler und Ungenauigkeiten, ist jedoch in glänzendem sprachlichen Stil geschrieben. Seine meisterhafte Beherrschung der französischen Sprache haben ihm einen Sitz in der Académie
Française eingetragen.
98
Joseph Louis François Bertrand
6.A
Anhang: Masstheoretische Ergänzungen
Die Diskussion von allgemeinen Zufallsgrössen und ihren Erwartungswerten wird wesentlich durch den abstrakten masstheoretischen Rahmen erleichtert. Wir beginnen mit
einer neuen De…nition des Erwartungswertes und zeigen nachher, dass damit sowohl der
diskrete Fall wie der Fall von Zufallsgrössen mit Dichten erfasst werden.
De…nition 6.24
Sei X eine Zufallsgrösse gemäss De…nition 6.1. Dann besitzt X einen Erwartungswert,
wenn die Abbildung X integrierbar bezüglich des Masses P ist, und der Erwartungswert
ist dann de…niert als
Z
EX := X dP:
(Ich setzte hier voraus, dass die Integrationstheorie auf allgemeinen Massräumen bekannt
ist.)
R
P
Ist abzählbar und F die Potenzmenge von ; so gilt X dP = ! X (!) P (f!g) :
Wir fallen also in diesem Fall zurück auf die De…nition 3.7 (mit Lemma 3.8). Wir diskutieren nun, dass auch die De…nition des Erwartungswertes einer Zufallsgrösse X; die
eine Dichte besitzt (De…nition 6.8 a)) in diesen allgemeinen Rahmen eingebettet werden
kann.
Die Zufallsgrösse X de…niert ein Wahrscheinlichkeitsmass auf der Borel- -Algebra B
druch B 3 B ! P (X 2 B) = P X 1 (B) ; wobei X 1 (B) := f! 2 : X (!) 2 Bg ist.
99
Dieses Wahrscheinlichkeitsmass bezeichnen wir mit P X 1 : Wichtig ist hier der nachfolgende Transformationssatz, der aus der Vorlesung Di¤.-Int.III bekannt sein sollte:
Proposition 6.25
Sei f : R ! R eine Borel-messbare Funktion und X eine Zufallsgrösse (de…niert auf
einem Wahrscheinlichkeitsraum ( ; F; P )): Dann ist f X genau dann P -integrierbar,
wenn f integrierbar bezüglich P X 1 ist, und es gilt in diesem Fall
Z
Z
(f X) dP = f d P X 1 :
Wenden wir dies auf die Funktion f = idR an, so sehen wir, dass X genau dann einen
Erwartungswert (gemäss der obigen De…nition) besitzt, wenn idR integrierbar bezüglich
P X 1 ist, und es gilt dann
Z
EX = idR d P X 1 :
R
Die rechte Seite schreibt man üblicherweise als x P X 1 (dx) : Im Spezialfall, wo
abzählbar ist, ist das nichts anderes als unser altes Umsummierungslemma 3.8.
Um den Fall von Zufallsgrössen mit Dichten in den abstrakten Rahmen einzubetten,
brauchen wir etwas weiterführende Theorie, die hier kurz skizziert werden soll.
De…nition 6.26
Es seien ; zwei Masse auf F: heisst absolut stetig bezüglich ; wenn
jedes A 2 F mit (A) = 0 gilt. Notation:
:
(A) = 0 für
Sie eine Menge und F eine -Algebra auf F: Ein Mass S
auf F heisst -endlich,
wenn eine aufsteigende Folge An 2 F; n 2 N; existiert mit = n An und (An ) < 1
für alle n: Ohne Beweis zitieren wir den folgenden wichtigen Satz:
Satz 6.27 (Radon-Nikodym)
Es seien ; zwei -endliche Masse auf F: Dann ist genau dann absolut stetig bezüglich
; wenn eine messbare Abbildung f : ! R+ existiert mit
Z
(A) =
f d :
(6.5)
A
Die Abbildung f ist eindeutig bis auf Gleichheit -fast überall.
f im obigen Satz bezeichnet man auch als die (Radon-Nikodym-) Dichte von
züglich und schreibt dafür
d
f=
:
d
be-
Hier nur ein paar Kommentare: Die eine Richtung ist trivial: Wenn ein derartiges f existiert, so ist (A) natürlich 0 für jede -Nullmenge A: Die andere Richtung ist schwieriger
100
zu zeigen. Der Beweis ist übrigens “nicht konstruktiv”, was einer der Nachteile des Satzes
ist. Es ist naheliegend, f über einen Limes zu konstruieren:
f (!) := lim
A#f!g
(A)
;
(A)
wobei die A’s sich mehr und mehr um ! konzentrieren. Das geht leider nur in Spezielfällen.
In dieser Situation gilt der folgende Transformationssatz, der nicht schwierig zu beweisen ist:
Proposition 6.28
Sei eine Menge und G eine -Algebra. Seien ferner ; zwei -endliche Masse auf G mit
und f = dd : Ferner sei h : ! R eine messbare Funktion (d.h. h 1 (B) 2 G gilt
für alle B 2 B). Dann ist h genau dann -integrierbar, wenn f h integrierbar bezüglich
ist und es gilt in diesem Fall
Z
Z
h d = fh d :
Der Beweis ist nicht schwierig. Hier eine Skizze: Für h = 1A ; A 2 G; ist die Gleichung
einfach (6.5). Linearität des Integrals und das übliche Monotone-Klasse-Argument (das
aus Di¤.-Int.III bekannt sein sollte) erledigen den Rest.
Wir wenden das nun auf Zufallsvektor X :
! Rd und
= Rd an. Wir sagen,
dass X eine Dichte bezüglich des d-dimensionalen Lebesgue Masses d besitzt, wenn
PX 1
d gilt. Die Radon-Nikodym-Dichte
f=
d PX
d d
1
bezeichnet man dann kurz als die Dichte von X: Nach der obigen Proposition ist eine
messbare Funktion h : Rd ! R genau dann integrierbar bezüglich P X 1 ; wenn f h
integrierbar bezüglich d ist und es gilt in diesem Fall
Z
Z
1
h d PX
= f h d d:
Spezialisieren wir das weiter auf d = 1 und h = idR ; so sehen wir, dass eine Zufallsgrösse X, die eine Dichte f besitzt, genau dann einen Erwartungswert besitzt, wenn die
Funktion x ! xf (x) Lebesgue-integrierbar ist, und es gilt dann
Z
EX = xf (x) (dx) :
Damit haben wir den Erwartungswert gemäss De…nition 6.8 einer Zufallsgrösse X, die
eine Dichte besitzt, als Spezialfall des Erwartungswertes gemäss De…nition 6.24 erkannt.
Es sollte jedoch betont werden, dass die De…nition 6.24 allgemeiner ist und auf Zufallsgrössen angewandt werden kann, die weder eine Dichte besitzen, noch auf einem
diskreten Wahrscheinlichkeitsraum de…niert sind.
101
Der hier kurz vorgestellte abstrakte Rahmen hat den Vorteil, dass alle Integrationskonzepte, die man in der Wahrscheinlichkeitstheorie braucht, in einem einheitlichen
Rahmen diskutiert werden können und man die lästige Unterscheidung zwischen diskreten Zufallsgrössen und Zufallsgrössen mit Dichten nicht weiter braucht.
102
7
Einführung in die Informations- und Kodierungstheorie
Wir diskutieren in diesem Kapitel zwei Kodierungsprobleme. In Unterkapitel 7.1 wird
das Problem diskutiert, eine Informationsquelle möglichst knapp zu “verpacken”. In der
Informationstheorie nennt man das ein Quellenkodierungs-Problem. Im Unterkapitel ??
wird die Unterdrückung von Übertragungsfehlern behandelt.
7.1
Optimale Quellenkodierung nach Hu¤man, Entropie
Zunächst eine Einkleidung des Problems, die an das bekannte Kinderspiel anknüpft, mit
möglichst wenig Fragen, die mit “Ja” oder “Nein” beantwortet werden, ein Element
aus einer vorgegebenen Menge von Objekten (z.B. Tiere, Personen etc) herauszu…nden.
Wir bezeichnen die Menge mit
= f! 1 ; : : : ; ! n g: Wir nehmen weiter an, dass den
Elementen ! i eine Wahrscheinlichkeit p (! i ) zugeordnet wird. Dies ist nichts anderes
als unser altbekannter Wahrscheinlichkeitsraum, nur dass wir hier voraussetzen, dass
endlich ist. Die Wahrscheinlichkeiten p(! i ) kürzen wir mit pi ab, und p sei der Wahrscheinlichkeitsvektor (p1 ; : : : ; pn ). Wir nehmen an, dass diese Wahrscheinlichkeiten dem
Frager bekannt sind. Es ist intuitiv plausibel, dass der Frager seine Fragestrategie von
diesen Wahrscheinlichkeiten abhängig macht, und dass er z.B. nach denjenigen ! i fragt,
die kleine Wahrscheinlichkeiten haben.
Wir werden im Laufe der Diskussion dieses Problems auf einen wichtigen Begri¤
stossen, nämlich auf die sogenannte Entropie H (p). Diese misst, wieviel “Unsicherheit”
in dem Zufallsexperiment steckt. Diese Unsicherheit steht naheliegenderweise in einem
engen Zusammenhang mit der Anzahl der benötigten Fragen, wenn wir wie oben das
Problem als Fragespiel einkleiden. Die Entropie wird eher gross sein, wenn n gross ist.
Anderseits erhält ein Zufallsexperiment mit n = 100; wobei jedoch alle ! i bis auf eines
nur Wahrscheinlichkeit 10 6 haben natürlich eine kleine Entropie. Der Begri¤ “Entropie”
wurde 1865 von Rudolf Clausius in die Thermodynamik eingeführt.
103
Rudolf Clausius (1822-1888)
Hier seine eigenen Worte:
Da ich es aber für besser halte, die Namen derartiger für die Wissenschaft wichtiger
Größ
en aus den alten Sprachen zu entnehmen, damit sie unverändert in allen neuen
Sprachen angewandt werden können, so schlage ich vor, die Größ
e S nach dem griechischen Worte “tropae”, die Verwandlung, die Entropie des Körpers zu nennen. Das Wort
Entropie habe ich absichtlich dem Wort Energie möglichst ähnlich nachgebildet, denn die
beiden Größ
en, welche durch diese Worte benannt werden sollen, sind ihren physikalischen Bedeutungen nach einander so nahe verwandt, daßeine gewisse Gleichartigkeit in
der Benennung mir zweckmäß
ig zu seyn scheint.
Clausius war übrigens von 1855-1867 Professor an der Universität Zürich.
Auf die Beziehungen zwischen Informationstheorie und statistischer Mechanik kann
hier nicht eingegangen werden.
Im Gegensatz zu Clausius, der die Entropie mit S bezeichnet hat, hat es sich eingebürgert, sie mit H zu bezeichnen (wobei allerdings H für den grossen griechischen
Buchstaben “Eta” steht). Hier ist die De…nition:
H(p) :=
n
X
pi log2 pi
(7.1)
i=1
wobie log2 der Logarithmus zur Basis 2 ist. (Man kann natürlich jeden Logarithmus
nehmen; das ist nur eine Skalierung).
Wir versuchen zu einer Herleitung der Entropie zu kommen, die deren Interpretation
als “Mass der Unbestimmtheit” Rechnung trägt und gehen daher zurück zu unserem
Fragespiel. Die Anzahl der benötigten Fragen hängt natürlich vom Geschick des Fragestellers ab, ferner im allgemeinen vom Ausgang des Zufallsexperimentes. Wir wollen
deshalb die mittlere Anzahl der benötigten Fragen betrachten, wenn der Fragesteller
104
optimal fragt. Leider ist auch dies, auch wenn genau präzisiert, noch nicht die übliche
De…nition von H, d.h. der Ausdruck in (7.1). Wir werden diesen Punkt später diskutieren. Die Grösse, zu der wir nach einigen Präzisierungen gelangen werden, nennen wir die
wahre Entropie und bezeichnen sie mit H0 . Zur Unterscheidung nennen wir H aus (7.1)
die ideelle Entropie. Die beiden Grössen sind jedoch eng miteinander verwandt, wie wir
später sehen werden.
Wir fassen die bisherige Diskussion in der nachfolgenden De…nition zusammen; wir
werden sie später durch die De…nition 7.6 präzisieren.
De…nition 7.1
Für ein Zufallsexperiment ( ; p) ist die wahre Entropie H0 (p) de…niert als der Erwartungswert der Anzahl benötigter Fragen um den Ausgang des Zufallsexperimentes zu
identi…zieren bei Verwendung einer optimaler Fragestrategie.
Was eine Fragestrategie ist, werden wir weiter unten gleich präzisieren.
Beispiele 7.2
a) Beim Münzwurf, also bei p = (1=2; 1=2), fragt man etwa: “Ist es ! 1 ?”. Aus der
Antwort weiss man in jedem Fall das Ergebnis. Das ist o¤ensichtlich optimal. Somit
ist H0 (1=2; 1=2) = 1.
b) Auch für p = (1=2; 1=4; 1=4) kann man die optimale Fragestrategie leicht erraten:
Man fragt natürlich: „Ist es ! 1 ?“ Falls die Antwort “nein“ ist, so fragt man nach
! 2 . Die mittlere Anzahl der Fragen ist
1
1
1
3
1+
2+
2= :
2
4
4
2
Fragt man zuerst nach ! 2 und dann, falls nötig, nach ! 1 , so beträgt die mittlere
Anzahl der benötigten Fragen
1
1
1
7
1+
2+
2= ;
4
2
4
4
was o¤enbar schlechter ist.
c) Bei p = (1=4; 1=4; 1=4; 1=4) fragt man am besten zunächst: “Ist es ! 1 oder ! 2 “?
und dann nach ! 1 bzw. ! 3 . Man braucht also bei jedem Versuchsausgang zwei
Fragen. Fragt man jedoch der Reihe nach “Ist es ! 1 ?“, “Ist es ! 2 ?“ und “Ist es
! 3 ?“, so benötigt man zwar nur eine Frage, wenn ! 1 der Ausgang ist, im Mittel
aber mehr, nämlich
1
1
1
9
1
1+
2+
3+
3= :
4
4
4
4
4
Um zu präzisieren, was eine Fragestrategie ist, führen wir den Begri¤ Codeein. Statt
“ja” und “nein” verwenden wir die Zeichen 1 und 0. Ein Wort sei eine endliche Folge
von Nullen und Einsen. Ist ein Wort, so bezeichnen wir mit j j die Länge von , zum
Beispiel hat = 001101 die Länge j j = 6. Die leere Folge nennen wir das leere Wort.
Es hat die Länge 0: Die Menge aller Wörter bezeichnen wir mit W:
105
Ein Wort 1 heisst Prä…x eines Wortes 2 , wenn j 1 j < j 2 j ist und die ersten j 1 j
Stellen von 2 mit 1 identisch sind. Zum Beispiel ist 01 ein Prä…x von 010010 aber
nicht von 000. Das leere Wort ist natürlich Prä…x von jedem anderen Wort.
De…nition 7.3
Ein Code für ( ; p) ist eine injektive Abbildung die jedem Element ! i in ein Codewort (! i ) zuordnet. Dabei darf keines der Wörter (! i ) Prä…x eines anderen Wortes
(! j ) sein.
Von den vier Abbildung
als Codes brauchbar, denn
i
1
: ! W in der nachfolgenden Tabelle sind nur 3 un 4
ist nicht injektiv und 2 hat nicht die Prä…xeigenschaft.
Beispiel 7.4
1
!1
!2
!3
!4
01
1111
01
000
2
0
01
011
0111
3
1
01
001
0001
4
00
01 :
10
11
Es ist nun nicht schwer, den Zusammenhang zwischen Fragestrategien für ( ; p) und
Codes zu erörtern. Nehmen wir zunächst an, wir hätten eine Fragestrategie für ( ; p).
Wenn wir zum Beispiel fünf Fragen brauchen, falls ! 1 das zu erratende Objekt ist,
wobei die Antworten auf die fünf Fragen “ja”, “ja”, “nein”, “ja”, “nein”, so ist das
zu ! 1 gehörende Wort einfach 11010: Wir haben einfach “ja” in 1 und “nein” in 0
übersetzt. Wir konstruieren den zu einer Fragestrategie gehörenden Code also einfach
folgendermassen: Die erste Zi¤er von (! i ) setzen wir gleich 1 bzw. 0, je nachdem ob
die Antwort auf die erste Frage “ja” bzw. “nein” ist, falls das Ereignis ! i ist. Falls für
! i nur eine Frage benötigt wird, so haben wir das Codewort (! i ) bereits gefunden.
Benötigt man dagegen mehrere Fragen, so setzen wir die zweite Zi¤er in (! i ) gleich 1
bzw. 0, je nachdem ob die Antwort auf die zweite Frage “ja” bzw. “nein” lautet, falls
! i eintritt. Auf diese Weise fahren wir fort, bis der ganze Code steht. O¤ensichtlich ist
injektiv. Die Prä…xeigenschaft ergibt sich einfach daraus, dass bei einer vernünftigen
Fragestrategie natürlich dem Frager jederzeit klar sein muss, ob er das Element in
identi…ziert hat, oder ob er noch weiterfragen muss.
Wenn umgekehrt ein Code gegeben ist, so ergibt sich die Fragestrategie wie folgt.
Die erste Frage ist: “Ist die erste Zi¤er des Codeworts für das eingetretene Ereignis
gleich 1?”Als nächstes die Frage: “Ist die zweite Zi¤er des Codewortes des eingetretenen
Ereignisses eine 1?”, etc. Da der Code die Prä…xeigenschaft hat, ist jederzeit klar, ob
man mit den Fragen aufhören kann.
Beispiele 7.5
a) Die erste Strategie in Beispiel 7.2 b) ergibt den untenstehenden Code
führt auf 2 :
106
1;
die zweite
1
!1
!2
!3
1
01
00
2
01
:
1
00
b) Für das Beispiel 7.2 c) ergeben sich die beiden folgenden Codes:
1
!1
!2
!3
!4
11
10
01
00
2
1
01 :
001
000
Unsere Codes haben eine zusätzliche angenehme Eigenschaft. Wir stellen uns vor,
dass das Experiment mehrfach hintereinander ausgeführt wird und dass wir laufend
eine Mitteilung über den Ausgang jedes einzelnen in Codeform erhalten vermöge eines
bestimmten Codes . Wir können dann einfach die Codewörter hintereinander schreiben.
Da kein Codewort Prä…x eines anderen ist, sind wir nie im Zweifel darüber, wo ein Codewort aufhört und das nächste anfängt. Jede mit Hilfe des Codes gegebene Mitteilung kann
daher auf eindeutige Weise decodiert oder entzi¤ert werden. Wenn wir z.B. den Code 1
aus Beispiel 7.5 a) benutzen und die Folge 11100101100 empfangen, so entspricht dies
eindeutig den Versuchsausgängen ! 1 , ! 1 , ! 1 , ! 3 , ! 1 , ! 2 , ! 1 , ! 3 .
Der bekannte Morsecode hat die Prä…xeigenschaft nicht. Dafür wird jedoch ein Pausenzeichen benötigt, das die Codewörter eindeutig trennt. Der Morsecode arbeitet daher
in Wirklichkeit mit einem Alphabeth von 3 Zeichen.
Welcher Code, das heisst welche Fragestrategie, optimal ist, hängt natürlich vom
Wahrscheinlichkeitsvektor p = (p1 ; : : : ; pn ) ab. Der Erwartungswert der Länge eines
Codes ist wie folgt de…niert:
E(j j) =
n
X
i=1
pi j (! i )j:
Dies ist gleichzeitig der Erwartungswert der Anzahl der Fragen bei Verwendung der zu
gehörigen Fragestrategie. Wir können also unsere De…nition 7.1präzisieren:
De…nition 7.6
Für ein Zufallsexperiment ( ; p) ist die wahre Entropie H0 (p) de…niert durch
H0 (p) = minfE(j j) :
ist Code für ( ; p)g:
Man müsste vorsichtigerweise das In…mum statt des Minimums verwenden. Wir werden jedoch gleich sehen, dass stets ein optimaler Code existiert, das heisst ein Code
E(j 0 j) für jeden anderen Code für ( ; p). Natürlich ist die obige
0 mit E(j j)
De…nition von H0 unhandlich, denn wir haben noch kein praktikables Verfahren für die
107
Bestimmung eines optimalen Codes angegeben und haben damit noch keine Möglichkeit,
H0 (p) e¤ektiv zu berechnen.
Manchmal ist es nützlich, Codes als binäre Bäume zu veranschaulichen. Bäume sind
spezielle Graphen. Dabei ist die Knotenmenge K ( ) des Baumes die Menge aller Codewörter und ihrer Prä…xe. Wir ziehen eine Verbindung zwischen und a, a 2 f0; 1g,
sofern und a zu K( ) gehören. Die Menge dieser Verbindungen bezeichnen wir mit
V ( ). (K( ); V ( )) ist dann ein Graph, der o¤ensichtlich zusammenhängend ist und
keine Kreise aufweist. (Ein Kreis in einem Graphen (K; V ) ist eine Folge (e1 ; : : : ; en ) von
verschiedenen Knoten mit n 3, fei ; ei+1 g, fen ; e1 g 2 V für 1 i n 1.)
Wir ordnen die Elemente von K( ) aufsteigend der Länge nach. Auf der untersten
Ebene ist das leere Wort, sozusagen die “Wurzel”des Baumes, und dann aufsteigend die
Wörter der Länge 1; 2; : : : Dabei zeichnen wir eine Verbindung nach rechts oben von
nach 1 und nach links oben von nach 0, sofern 1 beziehungsweise 0 2 K( ) sind.
Beispiel 7.7
= f! 1 ; ! 2 ; ! 3 ; ! 4 ; ! 5 g.
(! 1 ) = 00;
(! 4 ) = 110;
(! 2 ) = 010;
(! 5 ) = 1111:
(! 3 ) = 10
Dann ist
K( ) = f;; 0; 1; 00; 01; 10; 11; 010; 110; 111; 1111g;
und hier der zugehörige Baum:
108
Aus dem Baum eines Codes läß
t sich die zugehörige Fragestrategie sofort ablesen. Im
obigen Beispiel fragt man zuerst: “Ist es ! 3 , ! 4 oder ! 5 .”Falls “ja”so be…ndet man sich
im Knoten 1 und falls “nein” im Knoten 0, und dann fährt man entsprechend weiter.
Wir nennen einen derartigen binären Baum vollständig, falls für jedes Wort 2
K( ), das kein Blatt ist, das heisst, das nicht zu den Codewörtern des Codes gehört,
sowohl 0 wie 1 zu K( ) gehören. Es ist evident, dass man sich bei der Suche nach
einem optimalen Code auf solche beschränken kann, die zu vollständigen Bäumen gehören. Fragestrategien mit unvollständigen Bäumen enthalten über‡üssige Fragen. Wir
nennen einen Code vollständig, falls der zugehörige Baum es ist. Unvollständige Bäume
lassen sich durch Weglassen der über‡üssigen Knoten zu vollständigen verkürzen und
entsprechend lassen sich unvollständige Codes verbessern.
Beispiel 7.8
Wir betrachten den Code mit den Codewörtern 01, 1101, 1110, 1111. Er ist o¤ensichtlich
unvollständig. Durch Weglassung von über‡üssigen Fragen erhalten wir den besseren
Code mit den Codewörtern 0, 10, 110, 111.
Ein Verfahren für einen optimalen Code ist von Hu¤man 1950 angegeben worden.
Man bezeichnet diesen Code als Hu¤ man-Code.
David Hu¤man (1925-1999)
Hu¤man hat übrigens seinen Code im Alter von 25 Jahren, als Student am MIT gefunden.
Der Code ist praktisch allgegenwärtig und wird z.B. für die Kompression von Bilddateien
im jpeg-Format verwendet.
Die Konstruktion des Codes erfolgt rekursiv nach der Anzahl n der möglichen Versuchsausgänge. Wir setzen dabei stets pi > 0 für alle i 2 f1; : : : ; ng voraus, denn gilt
pi = 0 für ein i, so lassen wir ! i aus der Betrachtung weg. Für n = 2 ist (1) = 0 und
(2) = 1 o¤ensichtlich eine optimale Codierung von (p1 ; p2 ).
109
Sei also n > 2. Wir nehmen an, dass wir den Hu¤man-Code für alle Wahrscheinlichkeitsvektoren der Länge n 1 schon konstruiert haben und geben nun den Code für (p1 ; : : : ; pn ) an. Zunächst bemerkt man, dass die Reihenfolge der pi für die
Codierung keine Rolle spielt, denn wenn
: f1; : : : ; ng ! f1; : : : ; ng eine Permutation und
ein Code für (p1 ; : : : ; pn ) mit den Codewörtern (1); : : : ; (n) ist, so ist
( (1)); : : : ; ( (n)) natürlich ein Code für (p (1) ; : : : ; p (n) ) mit derselben mittleren
Länge. Wir können daher voraussetzen, dass p1
p2
pn gilt. Nun fasst
man die beiden kleinsten Wahrscheinlichkeiten zusammen und betrachtet den Wahrscheinlichkeitsvektor (p1 ; p2 ; : : : ; pn 2 ; pn 1 + pn ) mit n 1 Komponenten. Natürlich
braucht pn 1 + pn nicht mehr die kleinste Komponente dieses Vektors zu sein. Bezeichnet gemäss Rekursion (1); : : : ; (n 1) den Hu¤man-Code für diesen Vektor, so ist
(1); (2); : : : ; (n 2); (n 1)0; (n 1)1 der Hu¤man-Code für (p1 ; : : : ; pn ).
Es ist o¤ensichtlich, dass der Hu¤man-Code stets zu einem vollständigen Baum führt.
Das beweist natürlich noch lange nicht, dass er optimal ist. Bevor wir das zeigen, machen
wir ein Beispiel:
Beispiel: In der untenstehenden Tabelle ist der zu codierende Wahrscheinlichkeitsvektor (p1 ; : : : ; p8 ) die erste Spalte:
Die Spalten sind die Wahrscheinlichkeitsvektoren. Die erste ist der ursprüngliche,
der codiert werden soll. Den nächsten gewinnt man, indem man die beiden kleinsten
Wahrscheinlichkeiten zusammenzählt und gleich richtig einordnet. Auf diese Weise fährt
man fort. Diese Summe ist im neuen Wahrscheinlichkeitsvektor jeweils unterstrichen.
0:34
0:25
0:11
0:10
0:07
0:06
0:05
0:02
0:34
0:25
0:11
0:10
0:07
0:07
0:06
0:34
0:25
0:13
0:11
0:10
0:07
0:34
0:25
0:17
0:13
0:11
0:34 0:41 0:59
0:25 0:34 0:41
0:24 0:25
0:17
Den Hu¤man-Code gewinnt man rückwärts. Für den Vektor der Länge zwei besteht
der zugehörige Code aus den Wörtern 0 und 1. Danach wird jeweils das Codewort, das
zur unterstrichenen Wahrscheinlichkeit gehört, durch Anhängen der Zi¤er 0 bzw. 1 aufgespaltet, um die beiden neuen Codewörter für die beiden letzten Wahrscheinlichkeiten
in der vorangegangenen Spalte zu erhalten. In der folgenden Tabelle sind die aufgespaltenen Codewörter jeweils unterstrichen:
110
11
11
10
10
010
010
001
001
000
000
0110 0111
01111 0110
01110
11 11
10 10
011 00
010 011
001 010
000
11 0 1
10 11 0
01 10
00
Hier noch der zugehörige Baum mit den Codewörtern des Codes als Blätter:
Die mittlere Länge des Codes ist:
0:02 5 + 0:05 5 + 0:06 4 + 0:07 3 + 0:1 3 + 0:11 3 + 0:25 2 + 0:34 2 = 2:61:
In einem Experiment mit 8 möglichen Ausgängen kann man natürlich auch einfach einen
Code benützen, der für jedes Elementarereignis 3 Fragen benötigt. Der Hu¤man-Code
verbessert diesen Wert also um 13%:
Der Hu¤man-Code ist o¤enbar nicht immer eindeutig de…niert. Es kann nämlich
vorkommen (wie auch im Beispiel oben), dass die Summe der beiden kleinsten Wahrscheinlichkeiten gleich einer der anderen ist, so dass die Einordnung nicht eindeutig ist.
Dies ist jedoch ohne Belang, denn offensichtlich haben die entstehenden Hu¤man-Codes
alle dieselbe mittlere Länge.
Satz 7.9
Jeder Hu¤man-Code ist optimal.
111
Beweis. Der Beweis verläuft mit Induktion nach n, der Länge des Wahrscheinlichkeitsvektors. Der Fall n = 2 ist trivial.
Induktionsschluss von n 1 auf n:
Wir nehmen an, dass der Satz für Vektoren der Länge n 1 2 gezeigt ist. Sei (p1 ; : : : ; pn )
ein beliebiger Wahrscheinlichkeitsvektor der Länge n mit pi > 0 für alle i 2 f1; : : : ; ng.
Wir können annehmen, dass p1
p2
pn > 0 gilt, denn dies lässt sich durch
Vertauschen stets erreichen.
(n)
Sei Hu ein Hu¤man-Code für diesen Vektor. Sei ein beliebiger anderer Code mit
den Codewörtern 1 ; : : : ; n . Wir zeigen nun
E(j j)
E(j
(n)
Hu
j):
(7.2)
Zunächst ordnen wir die Codewörter von nach aufsteigender Länge. Den geordneten
Code nennen wir 0 = ( 01 ; : : : ; 0n ); für die Codewörter gilt j 01 j
j 02 j
j 0n j.
Die Menge der Codewörter ist dieselbe geblieben. Es ist ziemlich o¤ensichtlich, dass
E(j j) E(j 0 j) ist (Nachprüfen!).
Falls j 0n j > j 0n 1 j ist, so stutzen wir das Wort 0n , indem wir von 0n die letzten
0
j n j j 0n 1 j Binärzeichen weglassen. Dieses Wort sei 00n . Wegen der Prä…x-Eigenschaft
unterscheidet sich dieses Wort von 01 ; : : : ; 0n 1 . Das neue Wort 00n kann aber auch nicht
Prä…x eines der anderen Wörter sein, denn seine Länge ist zumindest die der anderen.
Also ist 00 = ( 01 ; : : : ; 0n 1 ; 00n ) ein Code.
Gilt j 0n 1 j = j 0n j, so setzen wir 00 = 0 . In jedem Fall gilt E(j 0 j) E(j 00 j).
Mindestens zwei Wörter von 00 haben die Länge m := j 00n j. Sei das aus den ersten
m 1 Zeichen von 00n bestehende Wort. Dann gilt 00n = 0 oder 00n = 1. Wir nehmen
das letztere an, der andere Fall geht genau gleich. Wir betrachten nun zwei Fälle:
(i) Eines der anderen Wörter von 00 der Länge m ist das Wort 0. Falls 0 nicht
bereits das zweitletzte Wort ist, so vertauschen wir 0 mit dem zweitletzten Wort.
Diesen (eventuell neuen) Code nennen wir 000 .
(ii) Keines der anderen Wörter der Länge m ist 0. Dann ersetzen wir 0n 1 durch 0
und nennen den neuen Code 000 . Die Prä…xeigenschaft wird dadurch nicht zerstört,
denn 1 war ja schon Codewort.
Es gilt o¤enbar E(j 00 j) = E(j 000 j), denn die Längen sind gleichgeblieben. Wir schreiben 000 = ( 1 ; : : : ; n ) mit n 1 = 0 und n = 1. Dann ist ( 1 ; : : : ; n 2 ; ) ein Code
für (p1 ; : : : ; pn 2 ; pn 1 + pn ). Um dies einzusehen, müssen wir nur die Prä…xeigenschaft
nachprüfen. Das Wort kann aber kein Prä…x von 1 ; : : : ; n 2 sein, denn die Längen
dieser Codewörter sind kleiner oder gleich j j + 1, und 0, 1 waren verschieden von
1; : : : ; n 2.
Nach Induktionsvoraussetzung ist die mittlere Länge des Codes ( 1 ; : : : ; n 2 ; )
grösser oder gleich der mittleren Länge des zugehörigen Hu¤man-Codes, also
n
X2
i=1
pi j i j + (pn
1
+ pn )j j
112
E(j
(n 1)
j);
Hu
(n 1)
wobei Hu
ein Hu¤man-Code für (p1 ; : : : ; pn 2 ; pn
(n)
(n 1)
Konstruktion des Hu¤man-Codes Hu aus Hu ist
Ej
(n)
Hu
j = Ej
(n 1)
j
Hu
+ pn
1
1
+ pn ) ist. Nach der rekursiven
+ pn :
Somit gilt
Ej
000
j=
n
X
i=1
pi j i j =
n
X2
i=1
Ej
pi j i j + (pn
1
+ pn )j j + (pn
(n 1)
j
Hu
1
+ pn = Ej
+ pn
(n)
Hu
1
+ pn )
j:
Damit ist (7.2) gezeigt.
Wegen der Optimalität des Hu¤man-Codes haben wir natürlich auch ein e¤ektives
Berechnungsverfahren für H0 (p) gewonnen.
Wir wollen nun noch die Beziehung zwischen H0 (p) und dem bereits in (7.1) angegebenen Ausdruck für die ideelle Entropie H(p) diskutieren.
Im allgemeinen stimmen H0 (p) und H(p) nicht überein. Das sieht man schon bei
n = 2, wo stets H0 (p) = 1 ist. Der folgende Satz zeigt, dass die wahre Entropie H0 (p)
nur wenig über der ideellen Entropie
Pn H(p) liegt. Man beachte, dass wegen pi 1 stets
log2 pi 0 und somit H(p) =
0 ist.
i=1 pi log2 pi
Satz 7.10
Für jeden Wahrscheinlichkeitsvektor p = (p1 ; : : : ; pn ) gilt
H(p)
H0 (p) < H(p) + 1:
Da ein Versuchsausgang ! i 2 mit pi = p(! i ) = 0 bei den De…nitionen der ideellen
und der wahren Entropie in (7.1) bzw. De…nition 7.6 keinen Beitrag liefert, können wir
für den Beweis des Satzes pi > 0 für alle i 2 f1; : : : ; ng voraussetzen.
Wir benötigen einige einfache Aussagen über die Längen der Codewörter eines Codes.
Proposition 7.11
P
a) l1 ; : : : ; ln seien die Längen der Codewörter eines Codes. Dann gilt ni=1 2 li
1
und Gleichheit gilt genau dann, wenn der Code vollständig ist.
P
b) Seien l1 ; : : : ; ln 2 N mit ni=1 2 li 1. Dann existiert ein Code mit den Wortlängen
l1 ; : : : ; l n .
Beweis. a) Wir zeigen zunächst mit Induktion nach n, dass für einen vollständigen Code
P
n
li = 1 gilt.
i=1 2
Für n = 2 ist die Aussage trivial, denn dann muss l1 = l2 = 1 gelten. Sei n
3.
O.E.d.A. können wir annehmen, dass l1
l2
ln gilt. Aus der Vollständigkeit
folgt, dass ln 1 = ln 2 gilt. Die letzten beiden Codewörter sind dann von der Form 0
und 1. Ersetzen wir diese beiden Codewörter durch das eine , so erhalten wir einen
113
vollständigen Code mit n 1 Codewörtern, wobei das
Länge ln 1 hat. Wenden
Pnletzteli die P
wir nun die Induktionsvoraussetzung an, so folgt i=1 2 = ni=12 2 li + 2 ln +1 = 1.
EinPunvollständiger Code lässt sich zu einem vollständigen verkürzen. Damit folgt
sofort ni=1 2 li
1 für jeden Code, wobei das Gleichheitszeichen nur für vollständige
gilt.
b) Wir wenden wieder Induktion nach n an. Für n = 2 ist die Sache
Sei
Pntrivial.
l
i
n 3.PWir können wieder annehmen, dass l1 l2
ln gilt. Wegen i=1 2
1
folgt ni=11 2 li < 1. Per Induktionsvoraussetzung existiert ein Code mit Wortlängen
l1 ; : : : ; ln 1 , der jedoch nach a) nicht vollständig ist. Der zugehörige Baum hat also einen
Knoten , der kein Codewort ist, sodass entweder 0 oder 1 keine Knoten sind. Da ln
mindestens so gross wie die anderen Längen sind, ergibt sich, dass wir den Baum mit
einem neuen Blatt ergänzen können, das als Prä…x hat und das die Länge ln hat.
Wir benötigen noch das folgende elementare analytische Ergebnis:
Lemma 7.12
P
Für P
alle i 2 f1; : : : ; ng seien si und ri positive reelle Zahlen mit ni=1 si
gilt ni=1 si log2 (si =ri ) 0.
Pn
i=1 ri .
Dann
Beweis. Es gilt log x
x 1 für alle x > 0, wobei log den Logarithmus zur Basis e
bezeichnet. Somit folgt
n
n
n
n
X
X
X
ri X
ri
si log
si
1 =
ri
si 0;
si
si
i=1
i=1
i=1
114
i=1
P
also ni=1 si log(si =ri ) 0. Die log2 -Funktion ist proportional zur log-Funktion. Damit
ist Lemma gezeigt.
Beweis von Satz 7.10.
H(p)
H0 (p): Es seien l1 ; : : : ; ln die Wortlängen des Hu¤man-Codes
für p =
Pn
li = 1 =
(p
;
:
:
:
;
p
).
Da
dieser
vollständig
ist,
folgt
nach
Proposition
7.11
2
1
n
i=1 P
Pn
Pn
Pn
n
li ) =
i=1 pi . Nach Lemma 7.12 ist dann
i=1 pi log2 (pi =2
i=1 pi log2 pi +
i=1 li pi
0. Das bedeutet, dass E(j j) H(p) gilt.
H0 (p) < H(p) + 1: Zu vorgegebenen pi können wir natürliche
liPwählen mit
Pn Zahlen
n
l
i
log2 pi li < log2 pi + 1. Aus der ersten Ungleichung folgt i=1 2
i=1 pi = 1.
Nach Proposition 7.11 existiert
ein
Code
mit
diesen
l
als
Wortlängen.
Wegen
der
zweiten
i
P
Pn
Ungleichung für die li folgt ni=1 pi lP
<
p
log
p
+
1.
Der
optimale
Code
hat
i
2 i
i=1 i
n
jedoch höchstens die mittlere Länge i=1 pi li .
Bemerkung 7.13
Der letzte Beweisteil 7.10 deutet darauf hin, dass bei einem optimalen Code die Länge
des i-ten Codewortes ungefähr gleich log2 pi sein wird.
Es ist klar, dass die wahre Entropie H0 in einigen Situation etwas unbefriedigend
ist. Am deutlichsten sieht man das bei einem Experiment mit zwei möglichen Ausgängen, die mit den Wahrscheinlichkeiten p1 und p2 = 1 p1 auftreten, denn dann gilt
H0 (p1 ; 1 p1 ) = 1 für jedes p1 2 (0; 1). Diese Sachlage ändert sich jedoch, wenn wir
unabhängige Repetitionen des gleichen Zufallsexperimentes ( ; p) betrachten. Nach Kapitel 2 ist der geeignete W.-Raum für eine k-fache Repetition der Produktraum ( k ; pk ),
mit pk (! 1 ; : : : ; ! k ) = p(! 1 ) : : : p(! k ) für (! 1 ; : : : ; ! k ) 2 k .
Es ist klar, wie aus einer Fragestrategie (d.h. einem Code) für p eine für pk gewonnen
werden kann: Man fragt zunächst nach dem Ausgang des ersten Experimentes, dann nach
dem zweiten etc. bis nach dem k-ten. Die gesamte Anzahl der benötigten Fragen ergibt
sich als Summe der benötigten Fragen für die einzelnen Experimente; somit summieren
sich auch die Erwartungswerte. Ist ein optimaler Code für p, so ist der optimale Code
für pk natürlich mindestens so gut wie dieser “Repetitionscode”, der die mittlere Länge
kE(j j) hat. Somit folgt:
H0 (pk ) kH0 (p):
Es zeigt sich jedoch, dass die oben beschriebene k-fache Repetition der optimalen Fragestrategie für p im allgemeinen nicht die optimale Fragestrategie für pk ist. Dazu ein
Beispiel:
Beispiel 7.14
Sei (p1 ; p2 ) = (3=4; 1=4). Dann ist H0 (p) = 1. Der Hu¤man-Algorithmus für p2 wird
durch das folgende Schema gegeben:
9 9 9
3 4 7
;
3 3
1
115
wobei die einzelnen Zahlen mit 1=16 zu multiplizieren sind. Die mittlere Länge des
zugehörigen Hu¤man-Codes ist also 27=16, was deutlich kleiner als 2 ist.
Satz 7.15
Sei p = (p1 ; : : : ; pn ) ein Wahrscheinlichkeitsvektor. Dann gilt
1
H0 (pk ) = H(p):
k!1 k
lim
Beweis. Einsetzen in die De…nition (7.1) ergibt H(pk ) = kH(p). Aus Satz 7.10 folgt
dann H(p) H0 (pk )=k < H(p) + 1=k, woraus sich der Satz ergibt.
Die ideelle Entropie H(p) ist also die pro Versuch benötigte mittlere Anzahl von
Fragen bei vielen unabhängigen Repetitionen des Versuchs. In der Regel liegt H0 (pk )=k
bereits für kleine k sehr nahe an der ideellen Entropie H(p).
Die ideelle Entropie H hat einige interessante Eigenschaften. Zu vorgegebenem n 2 N
ist sie de…niert auf der Menge von Wahrscheinlichkeitsvektoren
4n =
(p1 ; : : : ; pn ) 2 Rn p1
0; : : : ; pn
0;
Xn
j=1
pj = 1 :
Als Durchschnitt von n Halbräumen und einer Hyperebene ist 4n eine konvexe Teilmenge des Rn . Benutzt man die Konvention 0 log2 0 = 0, so wird durch (7.1) eine stetige
Funktion H : 4n ! [0; 1) de…niert. Der Beweis des folgenden Satzes sei dem Leser
überlassen, für Teil (b) ist Lemma 7.12 hilfreich:
Satz 7.16
1. Die Funktion H ist streng konkav auf 4n , das heisst für 2 (0; 1) und p; p0 2 4n
mit p 6= p0 , gilt H( p + (1
)p0 ) > H(p) + (1
)H(p0 ).
2. Für alle p 2 4n gilt H(p)
7.2
H(1=n; : : : ; 1=n).
Kanalcodierung, der Satz von Shannon
Ein Übertragungssystem (ein sogenannter Kanal) übertrage Binärzeichen, die in grossen Mengen anfallen. Das Übertragungssystem kann auch ein Speicher sein, in den die
Zeichen erst eingegeben und später wieder abgerufen werden, wie eine CD oder ein
Speicherchip eines Computers.. Wir haben somit ein System, das schematisch wie folgt
aussieht:
Quelle ! Kanal ! Empfänger
Kein derartiges Übertragungssystem arbeitet absolut zuverlässig. Man sagt, der Kanal
sei verrauscht. Das bedeutet, dass ein eingegebenes Binärzeichen ab und zu falsch aus
dem Kanal herauskommt.
Bei der Nachrichtenübermittlung verursachen z.B. die thermischen Bewegungen in
den Sender-, Empfangs- und Verstärkeranlagen solche Fehler. Auch im Computerbau
treten diese Probleme auf: Es ist z.B. technisch nicht zu vermeiden, dass die Bauteile geringe Spuren radioaktiver Substanzen enthalten, z.B. Uran. Derartige Atomkerne
116
zerfallen rein zufällig und strahlen gewisse Partikel aus. Einer der Zerfallstypen ist der
sogennante -Zerfall, bei dem ein Heliumkern entsteht. Durchquert dieser Kern einen
Speicherplatz, so kann dieser gelöscht werden. Dies geschieht zwar für einen einzigen
Platz im Durchschnitt erst nach Millionen von Jahren; in hochintegrierten Speicherchips
verursachen diese Zerfälle jedoch Probleme. Eine CD, zumindest wenn sie mit niedrigen
Kosten hergestellt wird, ist auch niemals zu 100 Prozent zuverlässig. Falls Sie eine CD
gegen das Licht halten, so erkennen Sie typischerweise kleine Löcher in der Schicht. Ausserdem entstehen schon nach kurzer Zeit Kratzer. Natürlich gibt es technische Möglichkeiten, solche Fehlerquellen auf ein erträgliches Mass zu drücken: Sendeanlagen können
mit mehr Leistung arbeiten, es können Zwischenverstärker eingebaut werden, Speicherplätze können so gross dimensioniert werden, dass der Durchgang eines -Teilchens den
Platz nicht mehr löscht etc. Oft erweist es sich jedoch als günstiger, auf “mathematischem Wege”das Rauschen zu unterdrücken. Dies geschieht einfach dadurch, dass mehr
Zeichen durch den Kanal geschickt werden, als für die Nachricht notwendig wären. Die
zusätzlichen Zeichen dienen zur Absicherung gegen Fehler. Man kann das jedoch mehr
oder weniger geschickt machen.
Wir wollen zunächst das wahrscheinlichkeitstheoretische Modell für den Kanal beschreiben. Dabei begnügen wir uns mit der Diskussion eines Spezialfalles. Unser Kanal
soll nur die Zeichen 0 und 1 übertragen. Man sagt, der Kanal sei binär. Bei der Übertragung von 0 soll mit Wahrscheinlichkeit p(0) ein Fehler auftreten, das heisst, statt
der 0 erscheint am Ausgang eine 1. Ferner sei p(1) die Wahrscheinlichkeit für einen
Übertragungsfehler beim Eingangssignal 1. Die Übertragung der einzelnen Zeichen geschehe unabhängig. Wird z.B. 001101 eingegeben, so erscheint mit Wahrscheinlichkeit
(1 p(0))p(0)(1 p(1))(1 p(1))(1 p(0))p(1) die Folge 011100 am Ausgang.
Wir setzen nun weiter voraus, dass p(0) = p(1) = p < 1=2 gilt. In diesem Fall
spricht man von einem binären symmetrischen Kanal mit Fehlerwahrscheinlichkeit p,
wofür wir die englische Abkürzung BSC(p) verwenden werden. Symmetrische Kanäle
sind mathematisch einfacher zu diskutieren als asymmetrische.
Es gibt ein sehr simples Verfahren der Rauschunterdrückung: Man sendet einfach
jedes Zeichen mehrmals; z.B. dreimal. Statt 0 sendet man 000 und statt 1 einfach 111.
Die Nachricht wird dadurch dreimal so lang, und wenn der Kanal eine feste Anzahl
von Bits pro Zeiteinheit übertragen kann, so sinkt die Rate der Zeichen, die eigentlich
interessieren und die auf diese Weise übertragen werden können, auf ein Drittel. Für
einen Computerspeicher bedeutet diese Repetition, dass für jedes Zeichen drei Plätze
vorzusehen sind oder für eine CD, dass sie statt 70 Minuten Musik nur noch 23 abspeichert.
Am Ausgang des Kanals erscheint dann eine Zeichenfolge, bei der die Dreierblöcke
wegen der möglichen Fehler nicht mehr aus dem gleichen Zeichen bestehen müssen. Man
muss einen derartigen Dreierblock, wie man sagt, dekodieren. Da die Fehlerwahrscheinlichkeit p < 1=2 ist, wird man vernünftigerweise eine “Mehrheitsentscheidung” herbeiführen, das heisst 000; 001; 010; 100 werden als 0 und 111, 110; 101; 011 als 1 decodiert.
Was leistet das nun? Welche Fehlerrate hat das gesamte Übertragungssystem?
Wird 0 gesendet, so ist die Wahrscheinlichkeit für eine 1 am Schluss gleich der Wahr-
117
scheinlichkeit, dass 110; 101; 011 oder 111 aus dem Kanal kommt, das heisst 3p2 (1 p) +
p3 = 3p2 2p3 . Dies ist kleiner als p für alle p < 1=2 und sehr viel kleiner, wenn p sehr
klein ist. Ist etwa p = 10 2 , so ist 3p2 2p3 = 2; 98 10 4 . Hier der Graph dieser Funktion
für 0 p 0:1 :
Die Zuverlässigkeit ist also wesentlich verbessert worden. Wir können das natürlich
noch weiter treiben und jedes Zeichen statt dreimal fünfmal repetieren oder siebenmal
etc. Die Zuverlässigkeit steigt damit weiter. Der Preis, den man für die erhöhte Zuverlässigkeit bezahlt, ist jedoch sehr gross. Niemand ist bereit, für ein abzuspeicherndes
Binärzeichen drei Speicherplätze zu reservieren. Derartige Repetitionscodes werden in
der Praxis nicht verwendet, vor allem weil es wesentlich cleverere Methoden gibt, die
die gleiche Qualitätsverbesserung erzielen. Es ist jedoch klar, dass man nicht anders
vorgehen kann, wenn man alle Binärzeichen getrennt kodiert. Die Idee ist, nicht die
Zeichen getrennt zu kodieren, sondern ganze Blöcke. Es mag auf den ersten Blick etwas
erstaunen, dass man damit wesentlich besser fährt.
Wir bezeichnen mit Bk := f0; 1gk die Menge der Binärblöcke der Länge k.
De…nition 7.17
Es seien k; n 2 N mit n > k.
1. Ein (n; k)-Code ist eine injektive Abbildung von Bk nach Bn . Die Bilder (x)
für x 2 Bk bezeichnen wir als die Codewörter.
2. Eine Decodierung zu einem (n; k)-Code
nach Bk mit ( (x)) = x für alle x 2 Bk .
ist eine surjektive Abbildung von Bn
Im Gegensatz zu Kapitel ?? haben hier alle Codewörter dieselbe Länge. Das ganze
Übertragungsschema sieht wie folgt aus:
Quelle:Bk
Kodierung
!
Bn
Kanal
Bn
Dekodierung
!
Bk
Zum Unterteilen der Binärfolge in Blöcke der Länge k muss die Länge der ursprünglichen Folge ein Vielfaches von k sein. In der Praxis ist dies keine Einschränkung, denn
in der Regel werden sehr viele Binärzeichen übertragen; daher ist es belanglos, wenn die
Sequenz - etwa mit Nullen - noch verlängert wird, damit sie dieser Forderung genügt.
Den Quotienten k=n bezeichnet man auch als die Übertragungsrate.
Es ist klar, dass bei unzuverlässiger Übertragung n sehr viel grösser als k sein wird.
Die Mariner Mars-Sonden der NASA zum Beispiel haben bis 1977 einen (32; 6)-Code verwendet. (Später, bis vor ein paar Jahren, sogenannte Konvolutionscodes, die nicht ganz
in das obige System passen.) Speicherplätze sind sehr zuverlässig. In Rechnern werden
häu…g (64; 57)-Codes verwendet, Modi…kationen des sogenannten Hamming-Codes. CD’s
verwenden Codes, die besonders gut ganze Cluster von Fehlern korrigieren können (sogenannte Reed-Solomon-Codes). Es wird sich herausstellen, dass man umso besser fährt,
je länger die Blöcke sind, die man kodiert. Anderseits wird die Länge jedoch dadurch
beschränkt, dass die Dekodierung für lange Blockcodes typischerweise aufwendig wird.
In der Praxis verwendet man selten Blockcodes mit k 100:
118
Für die Diskussion der Eigenschaften der Codes ist die Abbildung
besonders relevant; wichtig ist nur, wie die Menge C der Codewörter,
C := f (x) : x 2 Bk g
eigentlich nicht
Bn
in Bn liegt. Eine Dekodierung können wir dann einfach als eine Abbildung Bn ! C
au¤assen, die die Elemente von C fest lässt.
Eine in der Praxis wichtige spezielle Klasse von Codes sind die sogenannten linearen
Codes. Hier betrachten man f0; 1g als den Körper Z2 := Z=2Z und ist einfach eine
injektive lineare Abbildung Bk := Zk2 ! Bn := Zn2 : Die Menge C der Codewörter in
Bn ist somit ein linearer Unterraum von Bn : Bekanntlich lässt sich ein linearer Unterraum
auch als Lösungsmenge eines homogenen Gleichungssystems beschreiben, d.h. es gibt eine
reguläre n (n k)-Matrix P mit
C = fy 2 Bn : P y = 0g :
Wir geben ein einfaches aber wichtiges Beispiel für einen derartigen linearen Code:
Beispiele 7.18
1. Als Beispiel betrachten wir den (7; 4)-Hamming
eine 7 3-Matrix. Ihre Spalten sind genau die von
B3 :
0
1 1 1 0 1 0
@
1 1 0 1 0 1
P =
1 0 1 1 0 0
Code. Die Matrix P ist dann
Null verschiedenen Vektoren in
1
0
0 A:
1
Die Matrix ist o¤ensichtlich regulär und beschreibt somit die Codewörter eines
(7; 4)-Codes. Die Eigenschaften dieses Codes lassen sich leicht bestimmen. Ist nämlich y 2 B7 kein Codewort, so ist s := P y 6= 0: In diesem Fall ist jedoch s gleich
einem der Spalten von P; sagen wir die r-te Spalte. Ändert man in y die r-te
Komponente, so erhält man eine Vektor y 0 2 B7 ; der o¤enbar die Eigenschaft hat,
dass P y 0 = 0 gilt und somit ein Codewort ist. Unser Code hat somit die folgende
Eigenschaft: Zu jedem Vektor y 2 B7 , das kein Codewort ist, gibt es genau ein
Codewort y 0 ; das sich von y an genau einer Stelle unterscheidet. Eine naheliegende
Dekordierung besteht dann einfach darin, einem y 2 B7 das kein Codewort ist,
dieses Codewort y 0 zuzuordnen. Man überlegt sich dann ganz einfach, dass dieser
Code genau die 1-Bit-Fehler bei der Übertragung der Siebenerblöcke korrigiert.
2. Das obige Beispiel lässt sich leicht verallgemeinern. Wir wählen für P eine Matrix
mit k Zeilen, wobei die Spalten genau die von 0 verschiedenen Vektoren in Bk
sind. Davon gibt es o¤ensichtlich 2k 1: P ist also eine 2k 1
k-Matrix. Der
k
zugehörige Unterraum von B2k 1 hat o¤enbar Dimension 2 1 k: Durch P wird
also ein 2k 1; 2k 1 k -Code beschrieben. Diese Codes nennt man Hamming
Codes. Sie korrigieren o¤enbar genau die 1-Bit-Fehler in den 2k 1 -Blöcken. Für
k = 6 erhält man z.B. einen (63; 57)-Code. (In Computern verwendet man oft einen
(64; 57)-Code, der eine leichte Modi…kation dieses Hamming-Codes ist. Dieser Code
119
korrigiert nicht nur die 1-Bit-Fehler, sondern er entdeckt das Vorhandensein von
2-Bit-Fehlern, ohne sie allerdings zuverlässig korrigieren zu können.)
Die Theorie linearer Codes ist ein sehr weites Feld. Die auf den CDs und DVDs
verwendet Codes, die sogenannten Reed-Solomon-Codes, sind ebenfalls lineare Codes.
Wir gehen jedoch nicht weiter auf diese Theorie ein, sondern wollen ein theoretisches
Resultat in einem Spezialfall herleiten, den berühmten Satz von Shannon. Er besagt,
dass sich bei Verwendung sehr langer Blockcodes die Fehlerwahrscheinlichkeit unter jeden
Wert drücken lässt (das geht natürlich auch mit den primitiven Repetitionscodes), wobei
aber n=k eine Obergrenze, die von p abhängt, nicht überschreiten muss! Etwas salopp
und ungenau ausgedrückt besagt der Satz, dass sich Rauschen in einem Kanal mit einer
nur von p abhängigen Übertragungsrate vollständig eliminieren lässt. Das ist auf den
ersten Blick verblü¤end. Shannon hat die grundlegende Arbeit zu diesem Thema im
Jahre 1948 publiziert.
Claude Shannon (1916-2001)
Um den Satz zu formulieren, legen wir zunächst zu jedem Code eine Dekodierung
fest. Wir tun das Naheliegendste: Zu y 2 Bn wählen wir (y) 2 Bk so, dass ( (y))
(dies ist ein Element aus Bn ) sich von y an möglichst wenigen Stellen unterscheidet.
Gibt es mehrere derartige Möglichkeiten zur Wahl von (y), so legen wir uns auf eine
beliebige fest. Man nennt diese Dekodierung die Maximum-Likelihood-Dekodierung
oder auch die ML-Dekodierung.10
10
Es ist jedoch klar, dass die ML-Dekodierung in der Praxis nicht durchgeführt werden kann, jedenfalls
nicht ohne Ausnützung eventueller zusätzlicher Strukturen des Codes: Man müsste für jeden empfangen
Block der Länge n alle 2k Codewörter durchprobieren um dasjenige zu …nden, das dem empfangenen
Block am nächsten liegt. Eines der Hauptprobleme der Kodierungstheorie, auf das wir hier nicht eingehen
können, ist die e¢ ziente Dekodierung. Aus diesem Grund kann der Satz von Shannon nicht direkt zur
Konstrukition von praktikablen Codes verwendet werden.
120
Nun zur genauen Formulierung des Satzes von Shannon. Es seien x1 ; : : : ; x2k die 2k
Elemente von Bk , und sei ein (n; k)-Code. Für jedes i 2 f1; 2; : : : ; 2k g bezeichnen wir
mit i ( ; p) die Wahrscheinlichkeit, dass beim Senden des Codeworts (xi ) über einen
BSC(p) und dem anschliessenden Decodieren (mit der gewählten ML-Decodierung) sich
nicht wieder xi ergibt, also ein Fehler beim Übertragen des Wortes xi passiert. Treten alle
2k Elemente von Bk mit gleicher Wahrscheinlichkeit auf, was wir annehmen wollen, so ist
die Wahrscheinlichkeit für einen Fehler nach dem Satz über die totale Wahrscheinlichkeit
gegeben durch
2k
X
k
p( ) = 2
i ( ; p):
i=1
Bemerkung. Die oben angegebene Regel legt die ML-Dekodierung dann nicht eindeutig
fest, wenn Wörter y in Bn existieren, für die es mehrere Codewörter gibt, die sich von
y an einer minimalen Anzahl von Stellen unterscheiden. Aufgrund der Symmetrie des
Kanals hat p ( ) jedoch für alle möglichen Festlegungen der ML-Dekodierung denselben
Wert. Der Leser möge sich das selbst überlegen. Für die nachfolgende Diskussion spielt
dieses Problem ohnehin keine Rolle.
Für k; n 2 N mit n k sei P (n; k; p) := minf p ( ) j ist ein (n; k)-Code g die Fehlerwahrscheinlichkeit des besten (n; k)-Codes bei Verwendung eines BSC(p). Für einen
BSC(p) heisst c(p) := 1 + p log2 p + (1 p) log2 (1 p) die Kapazität des Kanals. Die
Bedeutung dieser Kenngrösse ergibt sich aus dem nachfolgenden Satz von Shannon. Man
beachte, dass 0 < c(p) < 1 für alle p 2 (0; 1=2) gilt.
Satz 7.19 (Shannon 1948)
Sei a < c(p). Dann gilt
inf P (n; k; p) = 0:
k;n2N
k=n a
Bemerkung 7.20
a) Anders ausgedrückt besagt der Satz von Shannon, dass es zu jedem " > 0 und
jedem a 0, das kleiner als die Kapazität des verwendeten binären symmetrischen
Kanals ist, einen (n; k)-Code gibt, dessen Übertragungsrate k=n grösser oder
gleich der vorgegebenen Rate a und dessen Fehlerwahrscheinlichkeit p ( ) kleiner
als " ist.
b) Das In…mum im obigen Satz ist ein Limes für k; n ! 1. Der Satz wird meist
in dieser Weise formuliert. Die Codes, die das leisten, was der Satz verspricht,
müssen also sehr lang gewählt werden. Tatsächlich gilt für jedes feste n und jedes
p 2 (0; 1=2)
min P (n; k; p) > 0;
1 k n
denn für jedes feste k 2 f1; : : : ; ng gibt es nur endlich viele (n; k)-Codes, und jeder
feste Code hat für p 2 (0; 1=2) selbstverständlich eine positive Fehlerwahrscheinlichkeit p ( ). Das In…mum im Satz ist also kein Minimum, denn es gibt natürlich
keinen Code mit der Fehlerwahrscheinlichkeit Null.
121
c) Die Kapazität kann auch für nichtsymmetrische Kanäle de…niert werden. Ihre Berechnung ist jedoch schwieriger.
d) Die Kapazität eines binären symmetrischen Kanals ist auch wirklich die grösstmögliche Übertragungsrate, mit der eine fehlerfreie Übertragung (im obigen asymptotischen Sinn) möglich ist. Genauer: Ist a > c(p), so gilt
inf P (n; k; p) > 0:
k;n2N
k=n a
Dieser Teil des Shannonschen Satzes wird hier nicht bewiesen.
Die Tatsache, dass gute Codes lange Codes sein müssen, deutet natürlich auf die
Schwierigkeit bei der Dekodierung hin. In der Praxis ist die Verwendung von Codes
mit k = 30 oder 40 keine Seltenheit. Um in einem solchen Fall die ML-Dekodierung
naiv zu implementieren, müsste man für jeden empfangenen Block die 230 oder 240
Codewörter durchprobieren und nach demjenigen suchen, das den kleinsten Abstand
zum empfangenen Block hat. Es ist klar, dass das in der Praxis nicht machbar ist.
Ein Rechenbeispiel zum Satz von Shannon: Sei p = 0:01. Dann ist c(p) 0:92; das Inverse
davon ungefähr gleich 1:09. Durch Verlängerung der Länge der Nachricht um etwas mehr
als 9 % kann man die Fehlerwahrscheinlichkeit also unter jede Grenze drücken.
Beweis von Satz 7.19. Für x, y 2 Bn bezeichnen wir mit d(x; y) den sogenannten
Hamming-Abstand zwischen x = ( 1 ; : : : ; n ) und y = ( 1 ; : : : ; n ), also
d(x; y) =
n
X
i=1
j
i j;
i
was gleich der Anzahl der Komponenten ist, in denen sich x und y unterscheiden. Für
r 2 N und x 2 Bn sei Br (x) die “Kugel” vom Radius r um x, also
Br (x) = f y 2 Bn j d(x; y)
r g:
Ist M = 2k und sind x1 ; : : : ; xM 2 Bn die Codewörter eines (n; k)-Codes, so hat für jedes
r 2 N jede ML-Dekodierung die folgende Eigenschaft:
Liegt y 2 Bn in genau einem Br (xi ), so gilt (y) = xi .
(7.3)
Da sich Bk und die Menge der Codewörter bijektiv entsprechen, haben wir hierbei als
eine Abbildung in die Menge der Codewörter aufgefasst. Wir wollen die simple Tatsache
(7.3) kompliziert ausdrücken. Sei f : Bn Bn ! f0; 1g für r 2 N de…niert durch
(
1 falls d(x; y) r
f (x; y) =
0 falls d(x; y) > r:
Für jedes i 2 f1; : : : ; M g sei gi : Bn ! N0 de…niert durch
gi (y) = 1
f (xi ; y) +
M
X
j=1
j6=i
122
f (xj ; y):
Also ist gi (y) = 0 genau dann, wenn d(xi ; y) r und d(xj ; y) > r für alle j 6= i gelten.
Demzufolge lässt sich (7.21) wie folgt ausdrücken:
gi (y) = 0 ) (y) = xi :
(7.4)
Wir betrachten ein beliebiges Codewort xi und übertragen es über einen BSC(p). Dies
ist nichts anderes als ein Bernoulli-Experiment, denn für jedes l 2 f1; : : : ; ng wird die l-te
Komponente von xi mit Wahrscheinlichkeit p falsch übertragen und mit Wahrscheinlichkeit q = 1 p richtig. Die Wahrscheinlichkeit p(xi ; y) dafür, dass das Wort y 2 Bn aus
dem Kanal kommt, ist gleich ph q n h , wenn h der Hamming-Abstand zwischen xi und y
ist.
Sei i die Wahrscheinlichkeit dafür, dass, wenn xi gesendet wird, ein anderes Codewort aus der Dekodierung kommt. Nach (7.4) gilt
i
X
p(xi ; y)gi (y) =
y2Bn
X
p(xi ; y)(1
f (xi ; y)) +
M
X X
p(xi ; y)f (xj ; y):
y2Bn j=1
j6=i
y2Bn
Somit folgt für die Fehlerwahrscheinlichkeit eines beliebigen (n; k)-Codes
0
1
M
M
X
X
X
X
1
@
p(xi ; y)(1 f (xi ; y)) +
p(xi ; y)f (xj ; y)A :
p( )
M
i=1
y2Bn
(7.5)
y2Bn j=1; j6=i
Nach diesen Vorbemerkungen kommen wir nun zum Kern des Arguments. Die Funktion f hängt von Radius r ab, den wir noch wählen können. Je grösser r ist, desto kleiner
ist der erste Summand auf der rechten Seite von (7.5), aber desto grösser der zweite.
Wir wählen zunächst r gerade gross genug, um den ersten Summanden zu kontrollieren,
das heisst, zu beliebig vorgegebenem " > 0 wählen wir
p
r = b pn + 2np(1 p)="c;
wobei
bzc den ganzzahligen Anteil einer reellen Zahl z bezeichnet. Für jedes xi ist
P
f (xi ; y)) gleich der Wahrscheinlichkeit, dass mehr als r Komponeny2Bn p(xi ; y)(1
ten von xi fehlerhaft übertragen werden. Da die Anzahl der Fehler binomialverteilt mit
Parametern n; p ist, folgt aus der Tschebysche¤-Ungleichung und der obigen Wahl von
r, dass diese Wahrscheinlichkeit höchstens gleich "=2 ist. Demzufolge gilt nach dieser
Festlegung von r
M
"
1 X X
(
)
+
p(xi ; y)f (xj ; y);
(7.6)
p
2 M
y2Bn i;j=1
i6=j
wobei die x1 ; : : : ; xM die Codewörter eines (n; k)-Codes sind.
Wir haben bisher in keiner Weise die Wahl des Codes
eingeschränkt. Die Abschätzung (7.6) gilt für jeden (n; k)-Code, wie ungeschickt er auch konstruiert sein mag.
Wir wollen nun nachweisen, dass es (n; k)-Codes mit k=n a gibt, für die der zweite
123
Summand auf der rechten Seite von (7.5) kleiner als "=2 wird. Damit wäre dann der Satz
von Shannon bewiesen. Es ist jedoch nicht leicht, solche Codes explizit zu konstruieren,
für die diese Abschätzung gilt. Das Verfahren, mit dem man die Existenz guter Codes
nachweist, ist indirekt und etwas eigenartig: Man mittelt über alle möglichen (n; k)Codes und zeigt, dass das arithmetische Mittel der p ( ) klein ist. Demzufolge muss es
gute Codes geben.
Die Menge der (n; k)-Codes ist die Menge der injektiven Abbildungen von Bk nach
Bn . Für 2 bezeichnen wir mit C die Menge der Codewörter in Bn , also das Bild von
Bk unter . Das arithmetische Mittel der p ( ) kann nach (7.6) wie folgt abgeschätzt
werden:
"
1 X X X
1 X
+
p(x; y)f (x0 ; y)
p( )
j j
2 j jM
0
2 y2Bn x;x 2C
x6=x0
2
=
"
1 X
+
2 j jM
X
X
p(x; y)f (x0 ; y):
y2Bn x;x0 2Bn
2
x6=x0 x;x0 2C
Für beliebige feste x 6= x0 aus Bn enthält die Menge des Codes, die x und x0 als Codewörter enthalten M (M 1)(2n 2)(2n 3) (2n M +1) Elemente. Die gesamte Menge
enthält j j = 2n (2n 1) (2n M + 1) Elemente. Eingesetzt in die obige Ungleichung
erhalten wir
1 X
"
M 1 X X
+ n n
p(x; y)f (x0 ; y)
p( )
j j
2 2 (2
1)
0
y2Bn x;x 2Bn
x6=x0
2
"
M 1
+ n n
2 2 (2
1)
X
y2Bn
X
x2Bn
!0
p(x; y) @
X
x0 2Bn
1
f (x0 ; y)A :
(7.7)
An dieser Stelle nutzen wir nun
symmetrisch ist und demzufolge
Paus, dass der Kanal
P
p(x; y) = p(y; x) gilt. Somit ist x2Bn p(x; y) = x2Bn p(y; x) = 1 für alle y 2 Bn . Der
allerletzte Term in (7.7) zählt die Anzahl der x0 2 Bn , die sich von y in höchstens r
Komponenten unterscheiden, also gilt
X
f (x0 ; y) =
x0 2Bn
r
X
n
l
l=0
für alle y 2 Bn ;
was einfach 2n P (Sn
r) ist, wobei Sn die Anzahl der Erfolge in einem gewöhnlichen
Münzwurfexperiment der Länge n ist. Aus (7.7) erhalten wir also (M = Z k ):
1 X
j j
2
p(
)
" 2k
+
2 2n
1 n
2 P (Sn
1
r)
"
+ 2k P (Sn
2
r);
(7.8)
p
wobei r = bpn + 2np(1 p)="c war. Der Wurzelausdruck braucht uns nun jedoch
nicht weiter zu beschäftigen: Für jedes > 0 ist er
n, sofern n gross genug ist,
124
n
n0 ("; ; p). Nach der Abschätzung ganz am Schluss von Kapitel 3 ist für p + < 1=2
P (Sn
n(p + ))
exp( nI(p + ));
wobei I(x) = x log x + (1 x) log(1 x) + log 2 war, der Logarithmus hier zur Basis e.
Damit ist jedoch exp( nI(p + )) = 2 nc(p+ ) , einfach durch Umrechnung der Logarithmen zu unterschiedlichen Basen. Wir setzen k = dane an + 1, womit k=n a erfüllt
ist. Damit ergibt sich für n n0 ("; ; p):
1 X
j j
p(
"
+ 2 2n[a
2
)
2
c(p+ )]
:
(7.9)
Nach Voraussetzung ist a < c(p). Wegen der Stetigkeit von c( ) existiert also > 0 so
dass a < c(p + ), das heisst a c(p + ) < 0. Somit können wir n …nden, so dass die
rechte Seite von (7.9) " ist. Zusammenfassend: Wir haben also gezeigt, dass für jedes
a < c(p) und jedes a > 0 natürliche Zahlen k, n existieren mit k=n a und
1 X
j j
p(
)
";
2
wobei die Menge der (n; k)-Codes ist. Somit muss auch mindestens ein (n; k)-Code
existieren, für den p ( ) " gilt. Der Satz von Shannon ist damit bewiesen.
Weiterführende Literatur:
Ein sehr gutes Buch, sowohl zur Shannon-Theorie, wie über algebraische Kodierungstheorie ist: R. J. McEliece, The Theory of Information and Coding. Addison-Wesley
1977. Allerdings wird darin natürlich auf die neuesten Entwicklung nicht eingegangen.
Die ersten wirklich (halbwegs) guten Codes mit schnellen Dekodierungsalgorithmen entstammten Ideen der Algebraischen Geometrie (die sogenannten Goppa-Codes). Ein guter
einführender Text dazu ist: J. H. van Lint & G. van der Geer: Introduction to Coding
Theory and Algebraic Geometry. Birkhäuser Verlag 1988. In der Praxis werden oft Codes verwendet, die spezielle Eigenschaften haben. So werden Codes, die sogenannten
Reed-Solomon-Codes, die auf CDs und DVDs implementiert sind, besonders gut mit
Clustern von Fehlern fertig, die etwa durch Kratzer auf den Scheiben sehr häu…g sind.
Die Codes aus der Algebraischen Geometrie sind durch die vor etwa 5-10 Jahren gefundenen Tubo-Codes und LDPC (“low density parity check”)- (oder Gallagher-) Codes
weitgehend überholt worden.11 Mit ihnen sind erstmals praktisch fehlerfreie Übertragungen mit eine Kapazität nahe an der Shannon-Grenze möglich, und zwar mit Codes,
die rasche Dekodierungsalgorithmen haben. Die Entdeckung der Tubo- und der LDPCCodes ist sicher die spektakulärste Entwicklung der Kodierungstheorie seit Shannon.
Einschränkend muss man allerdings sagen, dass diese Eigenschaften “nur”experimentell
nachgewiesen wurden, d.h. die Codes und die Dekodierungsalgorithmen funktionieren
11
Die LDPC-Codes wurden schon 1963 von Gallagher entdeckt; waren jedoch lange Zeit vergessen.
Erst Ende der 90er-Jahre wurden sie durch Luby wiederentdeckt und ihre hervorragenden Eigenschaften
gefunden.
125
zwar in der Praxis hervorragend; ein mathematischer Beweis dafür ist jedoch nicht bekannt. Einige (mathematisch nicht rigorose) theoretische Überlegungen dazu sind mit
Hilfe von Methoden aus der Theoretischen Physik durchgeführt worden.12
12
Siehe H. Nishimori: Statistical Physics of Spin Glasses and Information Processing. Oxford Science
Publications 2001.
126
8
Statistische Probleme
Grundlage aller statistischen Probleme sind probabilistische Modelle mit Parametern,
die dem “Statistiker” nicht oder nicht vollständig bekannt sind. Aus Beobachtungsdaten sollen dann Rückschlüsse auf diese Parameter gezogen werden, die den Grad der
Unsicherheit einschränken. Das Grundproblem ist daher sehr ähnlich zum Problem der
“Fragestrategien” des letzten Kapitels, obwohl die Gesichtspunkte etwas anders liegen.
Ein einfaches Beispiel ist eine Binomialverteilung mit Erfolgswahrscheinlichkeit p;
wobei p nicht zum vornherein bekannt ist. Jedermann ist schon solchen Problemen begegnet, z.B. ist sicher schon jeder beim Würfelspielen nach eine Pechsträhne auf den
Gedanken gekommen, ob denn die Wahrscheinlichkeiten für die einzelnen Augenzahlen
wirklich dieselben seien. Es ist naheliegend, solche Zweifel anhand von (langen) Versuchsreihen zu testen.
Man unterscheidet zwei Typen von statistischen Problemen, die miteinander zusammenhängen: Einerseits gibt es die Testprobleme. Hier geht es darum, eine Hypothese
anhand von Daten zu überprüfen. Eine typische Hypothese wäre etwa, dass der Würfel
o.k. ist, die der sogenannten Alternative gegenüber gestellt wird, die besagen würde,
dass der Würfel gezinkt ist. Ein anderes Beispiel: Man interessiert sich dafür, ob ein
neues Medikament gegenüber älteren wie man sagt signi…kant besser ist. Man formuliert
dann eine sogenannte 0-Hypothese, die besagt, dass kein Unterschied besteht, bzw. das
neue Medikament höchstens so gut wie das alte ist. Die Hypothese wird dann einem
statistischen Test aufgrund von Daten unterworfen. Je nach Ausgang des Tests wird
man die 0-Hypothese verwerfen und die Alternative akzeptieren, nämlich dass das neue
Medikament besser ist. Man sagt dann auch, dass die Daten signi…kant nicht mit der
0-Hypothese in Einklang zu bringen sind.
Der zweite Typus von Problemen (die wir jedoch zuerst behandeln) sind Schätzprobleme. Hier geht es darum, Parameter in einem Modell zu schätzen. Ein typisches
Beispiel ist die Schätzung des Parameters p in einem Bernoulliexperiment.
Das Kapitel gliedert sich in drei Unterabschnitte. In einem ersten diskutieren wir
Schätzprobleme, in einem zweiten Testprobleme, und in einem dritten kommen wir auf
Schätzprobleme zurück, nämlich auf sogenannte Kon…denzschätzungen.
Noch etwas zur Notation: In Abweichung von früheren Gep‡ogenheiten bezeichnen
wir die Wahrscheinlichkeiten der Elementarereignisse mit P (!) ; hauptsächlich um P von
Parametern, wie p des Bernoulli-Experiments, abzugrenzen. Die meisten Wahrscheinlichkeiten in diesem Kapitel werden noch von Parametern abhängen. wir schreiben dann den
Parameter als Index, z.B. Pp für das Bernoulli-Experiment mit Erfolgswahrscheinlichkeit
p. n, die Länge des Experiments, ist natürlich auch ein Parameter. Wenn wir ihn betonen
(n)
wollen schreiben wir Pp :
8.1
Einfache Schätzprobleme
Schätzprobleme bestehen einfach darin, dass gewisse Parameter eines Modells aufgrund
von erhobenen Daten geschätzt werden sollen.
127
Betrachten wir etwa ein Bernoulli-Experiment mit (unbekanntem) Parameter p: Wir
gehen davon aus, dass wir das Zufallsexperiment, wie im Bernoulli-Experiment beschrieben, n-mal unabhängig wiederholen. Bezeichnet Xn die Anzahl der Erfolge, so wissen
wir, dass Xn binomialverteilt mit Parametern p und n ist. Wir setzen voraus, dass wir
n kennen. Eine naheliegende Schätzung von p ist Xn =n: Es ist üblich, eine derartige
Schätzung eines Parameters mit einem “Dach” über dem zu schätzenden Parameter zu
bezeichnen; wir schreiben also
Xn
p^n :=
:
(8.1)
n
Dies ist natürlich eine Zufallsgrösse. Nach der erfolgten “Messung”, d.h. der Realisierung des Zufallsexperimentes, ist p^n natürlich einfach eine Zahl. Manchmal macht man
die Unterscheidung nicht sehr sorgfältig. Es ist jedoch klar, dass wir uns hauptsächlich
für die probabilistischen Aspekte interessieren, d.h. dass wir Eigenschaften von p^n als
Zufallsgrösse diskutieren. Allerdings haben wir uns mit der Schwierigkeit auseinanderzusetzen, dass die Verteilung dieser Zufallsgrösse vom Parameter p abhängt, den wir nicht
kennen.
Es ist wichtig, einige grundlegende Annahmen festzuhalten, über deren Berechtigung
viel Tinte verspritzt worden ist: Wir nehmen in diesem Beispiel (und hier fast durchgehend) keinesfalls an, dass p selbst zufällig ist. Im Gegenteil betrachten wir p als eine
feste Zahl, die bloss dem Statistiker (zunächst) unbekannt ist. Es hat daher keinen Sinn,
nach der Wahrscheinlichkeit zu fragen, mit der p = 1=6 ist. Es ist jedoch sinnvoll zu
fragen, mit welcher Wahrscheinlichkeit p^n sich um weniger als 0:1 von p unterscheidet.13
Zunächst einige theoretische Konzepte. Wir betrachten einen Wahrscheinlichkeitsraum
( ; F; P ) : Dabei sind die P Wahrscheinlichkeitsmasse auf F, die noch von einem Parameter abhängen, der “unbekannt”ist. Für die meisten Beispiele, die wir diskutieren,
nehmen wir an, dass abzählbar ist, sodass wir den allgemeinen masstheoretischen Rahmen nicht brauchen. Der Parameter kann im Prinzip ziemlich beliebig sein; wir nehmen
jedoch an, dass = ( 1 ; : : : ; m ) 2 Rm gilt, meist sogar einfach 2 R: In letzterem Fall
nennt man den Parameter eindimensional. Oft tritt jedoch die Situation ein, dass nicht
jeder mögliche Vektor in Rm (oder im eindimensionalen Fall jede reelle Zahl) tatsächlich ein Parameter ist. Auch im Bernoulli-Experiment ist ja der Parameter p auf das
Intervall [0; 1] eingeschränkt. Die Menge aller Parameterwerte, die vorkommen können,
bezeichnen wir mit
Rm : Für jeden möglichen Parameter 2 ist also ein Wahrscheinlichkeitsmass P auf ( ; F) de…niert. Erwartungswerte bezüglich P schreiben wir
als E : Es werden in der statistischen Literatur oft auch unendlichdimensionale Parametermengen diskutiert. Im Jargon der Statistik nennt man solche Situationen etwas
13
Die “philosphische” Schwierigkeit mit diesem Ansatz ist, dass p als eine Grösse betrachtet wird, die
dem Würfel quasi als physikalische Konstante angeheftet ist, wie etwa die Masse oder die chemische
Zusammensetzung und wir p nur noch messen müssen. Bei einem Würfel mag diese Vorstellung noch gut
angehen; in anderen (wichtigeren) Fällen ist dieser Ansatz natürlich fragwürdig und ist unter Beschuss
gekommen (z.B. von de Finetti). Im Gegensatz dazu geht die sogenannte Bayessche Statistik von einer
Zufallsverteilung der Parameter aus, die durch “subjektive” Einschätzungen des Statistikers zustande
kommt. Wir können auf diese Auseinandersetzungen hier jedoch nicht eingehen und lassen die Bayessche
Statistik hier ausser Betracht.
128
missverständlich nichtparametrisch. Wir gehen jedoch hier nicht auf solche Situationen
ein.
De…nition 8.1
Ein Schätzer ist eine Zufallsvektor ^ = ^1 ; : : : ; ^m :
! Rm : Der Schätzer heisst
erwartungstreu (engl.: unbiased), wenn E ^i = i für i = 1; : : : ; m und für alle 2
gilt.
Bemerkung 8.2
Manchmal interessiert man sich auch nur für eine Funktion des Parameters, d.h. es ist
eine Abbildung g : ! R gegeben, und man möchte einen Schätzer für g ( ) gewinnen.
Wir gehen darauf hier jedoch nicht ein.
O¤ensichtlich ist unser oben de…nierter Schätzer (8.1) für den Parameter p des
Bernoulli-Experimentes erwartungstreu, denn es gilt
Ep p^n =
Ep X n
np
=
= p:
n
n
Erwartungstreue ist o¤ensichtlich eine “wünschbare”Eigenschaft eines Schätzers, es
ist aber klar, dass sie nicht das einzige Kriterium eines guten Schätzers sein kann. Viele
gute Schätzer sind übrigens auch gar nicht erwartungstreu. (Man kann leicht Beispiele
angeben, bei denen die Einschränkung auf erwartungstreue Schätzer nur zu ziemlich
unsinnigen Schätzern führt). Ein wichtiges Konzept ist die sogenannte Konsistenz. Man
kann davon jedoch nur sprechen, wenn eine Folge von Schätzern betrachtet wird. In den
meisten Situationen hängt der Wahrscheinlichkeitsraum von einem Parameter n 2 N ab,
der die “Stichprobengrösse” beschreibt, genau wie etwa im Bernoulli-Experiment. Es
(n)
liegen deshalb Wahrscheinlichkeitsräume
vor, wobei die Parametermenge
n; P
2
sich jedoch nicht mit n ändert. Wir betrachten dann Folgen von Schätzern ^n =
^n;1 ; : : : ; ^n;m : Natürlich wird man von vernünftigen Schätzverfahren erwarten, dass
bei “genügend langen Messreihen”der gesuchte Parameter durch den Schätzer bestimmt
ist.
De…nition 8.3
Eine Folge von Schätzern heisst (schwach) konsistent, wenn für jedes " > 0; für jedes
i 2 f1; : : : ; mg und für jeden Parameter 2
lim P
n!1
^n;i
i
" =0
gilt.
Manchmal sagt man auch einfach, der Schätzer sei konsistent. Konsistenz ist aber
immer eine Eigenschaft von Folgen von Schätzern. Der Zusatz “schwach” in der obigen
De…nition, den wir jedoch nicht weiter verwenden werden, bezieht sich auf die Form der
Limesaussage. Für einen stark konsistenten Schätzer müsste limn!1 ^n;i = i ; mit P Wahrscheinlichkeit 1 gelten. Wir werden nicht weiter auf die Unterscheidung eingehen.
129
Schwache Konsistenz ist o¤ensichtlich das für die “Praxis”relevante Konzept, denn eine
unendliche lange Versuchsreihe kommt “in der Praxis” ohnehin nicht vor.
Satz 8.4
In einem Bernoulli-Experiment ist (^
pn )n2N , de…niert durch (8.1) ein konsistenter Schätzer für p.
Beweis. Dies ist das (schwache) Gesetz der grossen Zahlen. (Satz 3.35)
Es gibt viele Methoden Schätzer zu konstruieren, die alle ihre Vor- und Nachteile
haben. Eine beliebte Klasse sind die sogenannten Maximum-Likelihood-Schätzer.
Der Einfachheit halber nehmen wir an, dass die Wahrscheinlichkeiten P auf einer
abzählbaren Menge
de…niert sind, und dass wir ferner den Parameter aufgrund
des Wertes einer Zufallsgrösse X :
! R schätzen wollen (oder eines Zufallsvektors
k
X : ! R ). Jedes der Wahrscheinlichkeitsmasse P de…niert dann eine Verteilung auf
X ( ): l (x) := P (X = x) : Wenn eine abzählbare Menge ist, so ist natürlich auch
X ( ) abzählbar. Zu x 2 X ( ) de…nieren wir ^ (x) so, dass l^(x) (x) maximal ist:
l^(x) (x) = max l (x) :
2
Wir gehen davon aus, dass ein solcher Wert ^ (x) existiert und eindeutig ist, was natürlich
nicht immer der Fall zu sein braucht. ^ de…niert dann eine Abbildung X ( ) ! : Setzen
wir diese Abbildung mit der Zufallsgrösse X zusammen, so erhalten wir die Abbildung
^ (X) : ! : Dies nennt man den Maximum-Likelihood-Schätzer.
Bemerkung 8.5
Es mag etwas eigenartig erscheinen, dass wir den Schätzer oben über den Umweg einer Zufallsgrösse X de…nieren wollen. Tatsächlich können wir natürlich auch einfach
versuchen, P (!) zu maximieren. In vielen Fällen liegen die Wahrscheinlichkeitsmasse
jedoch nur über die Verteilungen von Zufallsgrössen vor, die uns auch eigentlich nur
interessieren. Es ist jedoch klar, dass der Maximum-Likelihood-Schätzer dann von X
abhängen kann. In einigen wichtigen Fällen lässt sich jedoch nachweisen, dass es keine
Einschränkung ist, wenn man sich von vornherein auf Schätzer, die über eine (einfache)
Zufallsgrösse X de…niert sind, beschränkt. Ein Beispiel ist das Bernoulli-Experiment.
Hier kann man nachweisen, dass man keine Information über p erhalten kann, die man
nicht via die Anzahl der Erfolge Xn gewinnen kann. Man nennt eine Zufallsgrösse, die
alle Information über einen Parameter enthält, eine su¢ ziente Statistik. Die genaue
mathematische De…nition erfordert etwas Sorgfalt; wir wollen das hier nicht weiter ausführen.
Man kann das Konzept auch auf Zufallsgrössen mit Dichten erweitern: Sei X eine mdimensionaler RZufallsvektor mit Dichten f ; 2 ; d.h. für jede Borelmenge A Rm gilt
P (X 2 A) = A f (x) dx: Für x 2 Rm de…nieren wir analog wie oben ^ (x) so, dass f (x)
maximal ist. ^ (X) ist dann wieder eine Zufallsgrösse, die man in diesem Fall ebenfalls als
den Maximum-Likelihood-Schätzer bezeichnet. Wie oben muss natürlich betont werden,
dass dieser Schätzer nicht in jeder Situation existiert. Es ist übrigens auch keinesfalls
130
klar, dass die Maximum-Likelihood-Schätzer erwartungstreu sind (ausser in Spezialfällen sind sie es auch nicht). Unter ziemlich allgemeinen Bedingungen kann man jedoch
nachweisen, dass sie konsistent sind. Über die Berechtigung des Maximum-LikelihoodAnsatzes ist viel geschrieben und gestritten worden. Die stärkste theoretische Stütze für
die Maximum-Likelihood-Methode ist ein Satz der besagt, dass (unter gewissen Bedingungen), diese Schätzer in einem asymptotischen Sinne (der natürlich noch zu präzisieren
ist) optimal sind. Für eine ausführliche Diskussion von Maximum-Likelihood-Schätzern
muss auf die Spezialvorlesungen über Statistik verwiesen werden. Wir betrachten hier
nur einige einfach Beispiele.
Beispiele 8.6
a) Bernoulli-Experiment
Der unbekannte Parameter sei p: X sei die Anzahl der Erfolge. Ist n die Anzahl
der Versuche (die wir als bekannt voraussetzen), so ist X ( ) = f0; : : : ; ng : Für
x 2 X ( ) ist
n x
Pp (X = x) =
p (1 p)n x :
x
Um den Maximum-Liklihood-Schätzer zu …nden, müssen wir diesen Ausdruck als
Funktion in p nun maximieren. Wir können genauso gut natürlich den Logarithmus
maximieren:
log Pp (X = x) = log
n
+ x log p + (n
x
x) log (1
p) :
Der erste Summand hängt nicht von p ab und kann daher aus der Betrachtung
weggelassen werden. Wir …nden das Maximum, indem wir nach p di¤erentieren:
d
(x log p + (n
dp
x) log (1
p)) =
x
p
n
1
x
:
p
Diese Ableitung ist genau dann 0; wenn p = x=n ist. Unser Maximum-LikelihoodSchätzer ist daher nichts anderes als (8.1).
b) Hypergeometrische Verteilung
Wir betrachten das folgende Problem: Ein Teich enthalte eine Anzahl n von Fischen, wobei wir n nicht kennen. n ist der unbekannte Parameter in unserem Modell. Um n zu schätzen, entnimmt jemand dem Teich m Fische, markiert sie und
setzt sie wieder aus. Anschliessend wartet er, bis sich die Fische gut durchmischt
(aber nicht vermehrt) haben. Dann entnimmt er wieder m Fische, von denen er
feststellt, dass k
m markiert sind. Wir nehmen an, dass k
1 ist. Wir wollen nun die Maximum-Likelihood-Schätzung für n herleiten. m ist bekannt, nicht
aber n: Die beobachtete Zufallsgrösse X ist die Anzahl der markierten Fische beim
zweiten Fang. Abhängig von n; n ist X hypergeometrisch verteilt:
Pn (X = k) =
131
m
k
n m
m k
n
m
:
Für den Maximum-Likelihood-Schätzer müssen wir dies als Funktion von n maximieren. Nun gilt
(n + 1 m)2
:
2m + k + 1) (n + 1)
Pn+1 (X = k)
=
Pn (X = k)
(n
Dieser Quotient ist genau dann
(n + 1
1; wenn
m)2
m2
(n + 1
2m + k) (n + 1)
k (n + 1) ;
d.h. wenn n+1 m2 =k gilt. Mit anderen Worten: Pn (X = k) ist maximal als Funktion von n für n = m2 =k 1 : Dies ist somit der Maximum-Likelihood Schätzer
für n: Man beachte, dass der Schätzer nicht für alle möglichen Realisierungen von
X de…niert ist. Pn (X = 0) ist natürlich positiv. Anderseits ist in diesem Fall der
Schätzer nicht de…niert (oder wenn man will = 1):
Nach welchen Kriterien soll man zwischen guten und weniger guten Schätzern unterscheiden? Ein naheliegendes Kriterium ist die Varianz var ^ des Schätzers und man
wird einen Schätzer mit kleinerer Varianz vorziehen. Das Problem ist allerdings, dass
diese Varianz von abhängt. Wir können ho¤en, dass wir einen Schätzer …nden, der
erstens erwartungstreu ist und zweitens minimale Varianz unter allen möglichen Schätzern und für jeden möglichen Parameter hat. Leider gibt es derartige Schätzer nur in
wenigen sehr einfachen Fällen. Wir können jedoch nachweisen, dass unser Schätzer (8.1)
diese Eigenschaft hat. Dazu leiten wir in einem Spezialfall eine wichtige Ungleichung her,
nämlich die sogenannte Cramer-Rao-Schranke.
Der Einfachheit halber betrachten wir eine endliche Menge : Für 2 seien Wahrscheinlichkeiten P auf gegeben. Wir nehmen an, dass der Parameter eindimensional
ist, und dass ferner für jedes ! 2
die Abbildung
3 ! P (!) di¤erenzierbar in
^
und überall postive ist. Ferner sei ein Schätzer : !
gegeben. Wir nehmen im
Moment nicht an, dass der Schätzer erwartungstreu ist. Der Fehler zum Erwartungswert
ist dann
b ( ) := E ^
:
(8.2)
Diese Abweichung bezeichnet man auch als den “Bias”.
Proposition 8.7 (Cramer-Rao Schranke)
Unter den obigen Bedingungen gilt für die Varianz var
chung:
var
^
db( )
d
+1
^ des Schätzers die Unglei-
2
;
I( )
wobei I ( ) die sogenannte Fisher-Information ist:
I ( ) := E
d log p
d
132
2
!
:
Für einen unverfälschten Schätzer (d.h. b ( ) = 0) gilt insbesondere
1
:
I( )
^
var
Beweis. Di¤erenzieren der Gleichung (8.2) nach
dE ^
db ( )
=
d
d
1=
ergibt
X dp (!)
^ (!)
d
1
!2
X d log p (!)
^ (!) p (!)
=
d
1=E
!2
wobei
d log p
d
d log p ^
d
als Zufallsgrösse aufgefasst wird. Anderseits gilt wegen 1 =
0=
X dp (!)
=E
d
d log p
d
!2
:
1;
P
!
p (!) auch
Aus den beiden Gleichungen erhalten wir
db ( )
d log p ^
+1=E
d
d
v
u
u
d log p
tE
d
b( )
2
!
var
^ =
r
I ( ) var ^ :
Von besonderem Interesse sind natürlich unverfälschte Schätzer, für die var ^ =
1=I ( ) gilt. Diese haben minimale Varianz unter allen möglichen unverfälschten Schätzern.
Beispiel 8.8
Wir nehmen unser Standardbeispiel: Den Parameter p bei der Binomialverteilung. Ist
! 2 := f0; 1gn ; so ist Pp (!) = pXn (!) (1 p)n Xn (!) ; wobei Xn (!) wieder die Anzahl
der Erfolge bezeichnet. Es gilt dann
d log Pp (!)
Xn (!)
=
dp
p
n
Xn (!)
Xn (!) np
=
:
1 p
p (1 p)
Demzufolge ist die Fisher-Information
E (Xn (!)
I (p) =
p2 (1
np)2
2
p)
=
var (Xn )
n
:
2 = p (1
2
p)
p (1 p)
1=I (p) = p (1 p) =n ist aber gerade die Varianz von p^n = Xn =n: Demzufolge ist p^n ein
unverfälschter Schätzer mit minimaler Varianz.
133
Es muss betont werden, dass in komplizierteren Situation solche unverfälschten Schätzer mit minimaler Varianz nur selten existieren. Unter relative schwachen Regularitätsannahmen kann man jedoch nachweisen, dass die Maximum-Likelihood-Schätzer diese
Eigenschaft in einem gewissen asymptotischen Sinn (für n ! 1) haben.
Ein wichtiges Beispiel ist die Familie der Normalverteilung mit Mittel 2 R und
Varianz 2 > 0: Der Parameter ist dann zweidimensional: ; 2 2
:= R R+
R2 : Wir betrachten n unabhängige Zufallsgrössen X1 ; : : : ; Xn mit dieser Verteilung. Die
Dichte des Zufallsvektors (X1 ; : : : ; Xn ) ist
f
;
2
(x) = 2
n=2
2
exp
2
1 Xn
2
i=1
(xi
)2
(8.3)
Die Aufgabe ist nun, die Parameter aus diesen Zufallsgrössen zu schätzen. Eine naheliegende Schätzung von ist
Pn
Xi
^ n := i=1 :
(8.4)
n
Wie wir schon wissen, ist ^ n selbst wieder normalverteilt mit Erwartungswert
Pn
E( ; 2 ) X i
n
E( ; 2 ) ^ n = i=1
=
=
n
n
und Varianz
var(
2)
;
^n =
2
n 2
=
:
n2
n
Daraus folgt sehr leicht, dass für jedes " > 0
lim P(
n!1
;
2)
(j^ n
j
") = 0
gilt. ^ n ist also ein erwartungstreuer und konsistenter Schätzer für : Was tun mit
Ein naheliegender Schätzer für 2 wäre
2?
n
1X
(Xi
n
)2 :
i=1
Aus der Linearität des Erwartungswertes folgt sofort:
E(
;
2)
1 Xn
(Xi
i=1
n
n
)2
=
1X
E(
n
;
2)
(Xi
)2
i=1
=
2
:
Das Problem dabei ist nur, dass wir ja nicht kennen und deshalb nicht im Schätzer
verwenden können. Es ist naheliegend, den unbekannten Parameter
einfach durch
seinen Schätzer ^ n zu ersetzen und deshalb den Schätzer
!2
Pn
n
n
X
X
j
1X
1
j=1
(Xi ^ n )2 =
Xi
n
n
n
i=1
i=1
134
zu versuchen. Hier ergibt sich jedoch eine kleine Überraschung bei der Berechnung des
Erwartungswertes:
0
!2 1
!
Pn
2
Xn
Xn
Xn
X
j
1
1
1
j=1
2
A=E
Xi
X
Xi
E@
i=1
i=1 i
i=1
n
n
n
n
!
2
1 Xn
2
= E X1
E
Xi
i=1
n
P
E X12 = 2 + 2 : Ferner ist n1 ni=1 Xi normalverteilt mit Mittel und Varianz
Demzufolge gilt
0
!2 1
Pn
n
2
X
X
j
1
(n 1) 2
j=1
A= 2+ 2
E@
Xi
+ 2 =
;
n
n
n
n
2 =n:
i=1
und unser ins Auge gefasster Schätzer ist nicht erwartungstreu. Man kann das jedoch
beheben, indem man den Schätzer leicht modi…ziert und einfach
^ 2n :=
n
X
1
n
1
^ n )2
(Xi
(8.5)
i=1
setzt. Dieser Schätzer ist dann evidenterweise erwartungstreu. Er ist auch konsistent.
Der Beweis dafür sei dem Leser als Übungsaufgabe überlassen.
Was ist der Maximum-Likelihood-Schätzer für ; 2 ? Dazu müssen wir (8.3) als
Funktion von ; 2 maximieren. Es ist oft günstiger, den Logarithmus zu maximieren,
was auf dasselbe hinausläuft.
log f
;
2
n
log (2 )
2
(x) =
n
log
2
2
2
n
1 X
2
(xi
)2 :
i=1
Die partiellen Ableitungen ergeben:
@ log f
@
@ log f
@(
;
2
(x)
=
n
1 X
2
(xi
);
i=1
2
;
2)
(x)
=
n
n
1 X
+
(xi
2 2 2 4
)2 :
i=1
Man überzeugt sich leicht davon, dass die Lösung von r log f ; 2 (x) = 0 ein eindeutiges
Maximum ist. Daraus folgt, dass der Maximum-Likelihood-Schätzer von ; 2 durch
n
^ n;M L = ^ n =
1X
xi ;
n
i=1
^ 2n;M L
n
1X
:=
xi
n
i=1
135
^ n;M L
2
:
Will man den Schätzer als Zufallsgrösse interpretieren, so muss man die xi natürlich wieder durch die Zufallsgrössen Xi ersetzen. Wie man sieht, ist das für derselbe Schätzer
wie oben; für 2 erhält man aber den mit dem falschen Erwartungswert. Für n ! 1
verschwinder der Fehler natürlich.
Es muss betont werden, dass es andere Schätzer von und 2 gibt, die gegenüber ^ n
und ^ 2n gewichtige Vorteile haben. Das Hauptproblem z.B. mit ^ n ist, dass der Schätzer
sehr emp…ndlich auf auch nur geringfügige Verletzungen der grundlegenden Normalverteilheitsannahme ist. Ist diese nicht richtig, so kann die Varianz des Schätzers massiv
ansteigen. Der Schätzer ist, wie man sagt, nicht robust. Eine alte Bauernregel verwendet das folgende Verfahren: Wenn der mittlere Jahresertrag (z.B. von Getreide) aus einer
Messreihe von 10 Jahren bestimmt werden soll, so lässt man das beste und das schlechteste Ergebnis weg und mittelt die acht verbleibenden Werte. Solche Schätzer nennt man
abgeschnittene Mittel (“trimmed means” auf Englisch). Hier die formale De…nition: Sei
2 (0; 1=2) : Sind X1 ; : : : ; Xn die n Zufallsgrössen, so ordnet man sie erst der Grösse
nach an. Die entsprechend der Grösse nach geordneten Grössen bezeichnen wir mit
Xn;1
Xn;2
:::
Xn;n :
(Falls der Vektor (X1 ; : : : ; Xn ) eine Dichte besitzt, so folgt übrigens sofort, dass alle Xi
verschieden sind, mit Wahrscheinlichkeit 1): Anschliessend bildet man
^ n; :=
n
1
2 [ n]
n [ n]
X
Xn;i :
i=[ n]+1
Man kann leicht nachweisen, dass diese Schätzer ebenfalls erwartungstreu sind. Sind die
Xi exakt normalverteilt, so ist die Varianz von ^ n; grösser als die von ^ n ; wenn
jedoch nicht zu gross ist ( = 0:1 oder darunter sind typische Werte), so ist der Unterschied jedoch nicht sehr gross. (Die Berechnung der Varianz von ^ n; ist allerdings
nicht ganz einfach). Auf der anderen Seite hat ^ n; wesentlich bessere Robustheitseigenschaften. Ein ganz primitives aber praktisch stets präsentes Problem ist etwa, dass
vielleicht einige der erhobenen Daten gänzlich schlecht sind, weil etwa das Messgerät
gerade ausgefallen ist, der Laborant gerade die Messung verpatzt, oder beim Eintrag
der Daten ein Kommafehler passiert. Auf das arithmetische Mittel hat das dann einen
enormen Ein‡uss; das abgeschnittene Mittel ^ n; spürt das jedoch kaum, falls nicht zuviele der Messwerte verdorben sind. Diese Gesichtspunkte sind in den vergangenen 20-30
Jahren intensiv untersucht worden und für fast alle Schätzer sind “robuste” Versionen
entwickelt worden.14
Für spätere Zwecke wollen wir noch die gemeinsame Verteilung unserer beiden Schätzer (8.4) und (8.5) berechnen. Wir können dabei
= 0 und 2 = 1 annehmen; die
anderen Fälle ergeben sich sofort durch eine Skalierung.
14
Zürich war übrigens ein Zentrum der Forschung in robuster Statistik, vor allem mit Peter Huber
und Frank Hampel von der ETH.
136
Wir betrachten zunächst eine etwas einfachere Situation: Seien 1 ; : : : ; n n unabhängige standard-normalverteilte Zufallsgrössen. Wir betrachten die Zufallsgrösse
2
n
:=
n
X
2
i:
i=1
De…nition 8.9
Die Verteilung von
2
n
nennt man die
2 -Verteilung
mit n Freiheitsgraden.
Die Dichte der Chi-Quadrat-Verteilung können wir sehr einfach berechnen:
"
#
Z
Z
n
1X 2
n=2
2
P n x =
(2 )
exp
xi dx1
dxn
2
P
=
Z
n
i=1
p
i=1
x2i x
x
(2 )
n=2
sn rn
1
e
r 2 =2
dr
0
wobei sn die Ober‡äche der Einheitskugel mit Radius 1 ist, die bekanntlich durch
2 n=2
(n=2)
sn =
gegeben ist, mit
als der Gamma-Funktion:
Z 1
( ) :=
e
x
1
x
dx;
0
( (n) = (n
Verteilung:
1)! für ganzzahliges n:) Di¤erentiation liefert uns die Dichte der
d
dx
Z
p
x
(2 )
n=2
sn rn
1
e
r2 =2
dr = (2 )
n=2
sn x
n 1
2
0
e
x=2
2-
1
p :
2 x
Proposition 8.10
Die 2 -Verteilung mit n Freiheitsgraden hat die Dichte
cn (x) =
1
xn=2
(n=2) 2n=2
1
e
x=2
; x
0:
(8.6)
Für x < 0 ist die Dichte gleich 0:
Es ist plausibel, dass die Verteilung von ^ 2n etwas mit der 2 -Verteilung zu tun hat.
Ein Problem besteht o¤enbar darin, dass wir die normalverteilten Zufallsgrössen erst
nach einer Zentrierung durch die Zufallsgrösse ^ n quadrieren. Diese zufällige Zentrierung
führt jedoch nur zu
P einerpReduktion der Zahl der Freiheitsgrade, wie wir gleich zeigen
p
werden. n^ n = ni Xi = n ist o¤enbar standard normalverteilt, wenn die Xi es sind.
Damit haben wir schon Teil a) des folgenden Satzes eingesehen (wir beweisen es jedoch
gleich nochmals).
137
Satz 8.11
Seien X1 ; : : : ; Xn unabhängige und standard-normalverteilte Zufallsgrössen. Dann gilt
a)
p
n
1 X
n^ n = p
Xi
n
i=1
ist standard normalverteilt.
b)
(n
1) ^ 2n =
n
X
^ n )2
(Xi
i=1
ist
2 -verteilt
mit n
1 Freiheitsgraden.
c) ^ n und ^ 2n sind unabhängig.
Beweis. Wir beweisen a), b) und c) zusammen. Sie e1 := p1n ; : : : ; p1n : Dieser Vektor hat Euklidsche Länge 1: Wir können diesen Vektor zu einer orthonormierten Basis
e2 ; : : : ; en in Rn ergänzen, und zwar so, dass die orthogonale Matrix der Basistransformation Determinante 1 hat. Wir betrachten die Variablentransformation
Pn y (x)p=
(y1 (x) ; : : : ; yn (x))
P ; die durch yi (x)p:= hx; ei i gegeben ist. Wegen y1 (x) = i=1 xi / n
folgt mit x := ni=1 xi / n = y1 (x) = n :
n
X
(xi
x)2 =
i=1
n
X
x2i
nx2
i=1
=
n
X
2
yi (x)
2
y1 (x) =
i=1
n
X
yi (x)2 :
i=2
p
Daraus folgt für die gemeinsame Verteilung von n^ n und (n 1) ^ 2n :
p
P
n^ n a; (n 1) ^ 2n r
Z
Z
1
1 Xn
=
exp
x2i dx1
P
p
n=2
n
2
i=1
2
nx a; i=1 (xi x) r (2 )
Z
Z
1
1 Xn
=
exp
yi2 dy1
dyn
Pn
n=2
i=1
2
2
y1 a; i=2 y2 r (2 )
Z a
Z
Z
1
1 Xn
y12 =2
p e
=
dy1
exp
y 2 dy2
Pn
i=2 i
2 r
2
2
1
y
i=2 2
dxn
dyn :
p
Daraus ergibt sich, dass n^ n und (n 1) ^ 2n unabhängig sind, dass die Verteilung
p
von n^ n die Standard-Normalverteilung ist (was wir schon wussten), und dass die
Verteilung von (n 1) ^ 2n die 2 -Verteilung mit n 1 Freiheitsgraden ist.
138
8.2
Testprobleme
Die Testtheorie ist eine konzeptionell etwas verwirrende Angelegenheit, weniger in mathematischen Hinsicht, sondern von den (ho¤entlich existierenden) Beziehungen zur “realen Welt”.
Die sich heutezutage weitgehend durchgesetzten Konzepte stammen aus dem Anfang
des 20. Jahrhunderts und basieren auf den Ideen zweier englischen Wissenschaftlern,
Pearson und Fisher, die sich allerdings spinnefeind waren und sich bekämpften. Auf den
(mehr philosophischen) Hintergrund der Auseinandersetzungen können wir hier nicht
eingehen.
Karl Pearson 1857-1936
Sir Ronald A. Fisher 1890-1962
Ein Standarproblem ist zu entscheiden, ob z.B. ein neues Medikament eine positive
Wirkung hat, oder keine bzw. eine negative. Nehmen wir an, dass sich die möglicherweise existierende Wirkung auf eine einfach zu messende eindimensionale Grösse bezieht,
z.B. den systolischen Blutdruck. In der Praxis sind die Probleme natürlich meist weitaus
komplexer. Um die E¢ zienz des Medikaments zu testen wird eine Gruppe von n Personen untersucht. Deren Bludruck wird vor der Behandlung gemessen. Die Ergebnisse
seien n reelle Zahlen, die als Zufallsgrössen interpretiert werden: U1 ; : : : ; Un : Nun wird
das Medikament verabreicht und dann wird wieder gemessen. Die Ergebnisse seien nun
V1 ; : : : ; Vn : Dann bildet man die Di¤erenzen Xi = Ui Vi und möchte aufgrund dieser
Di¤erenzen nun Rückschlüsse ziehen.
Ohne weiter Annahmen ist das so gut wie unmöglich. Wir setzen daher voraus (was
allerdings in vielen Situationen schon ziemlich fragwürdig ist), dass die Paare (Ui ; Vi ) alle
139
unabhängig sind und dieselbe Verteilung besitzen. Dann sind auch die Xi alle unabhängig
und haben dieselbe Verteilung. Wir sind dann daran interessiert, ob := EXi = 0 oder
nicht ist. Falls man eine Blutdrucksenkung im Auge hat ist die sinnvolle Alternative, an
der man interessiert ist, > 0: Man nennt = 0 die 0-Hypothese. Dass exakt gleich
0 ist, ist natürlich wenig plausibel; es interessiert eigentlich nur, ob
0 oder > 0 ist.
Wir formulieren die 0-Hypothese entsprechend, also
0-Hypothese
0
Alternative
>0
Das Problem ist, dass man ohne weitere Voraussetzungen immer noch so gut wie
keine vernünftigen statistischen Aussagen machen kann. Wir setzen daher weiter voraus,
dass wir die Verteilung der Xi bis auf den Parameter kennen. Eine beliebte Annahme
ist die der Normalverteiltheit der Xi . Die Normalverteilung hat zwei Parameter: Den
Mittelwert
und die Varianz 2 : Wenn wir voraussetzen, dass nur der Parameter
unbekannt ist, müssen wir also voraussetzen, dass 2 bekannt ist. Das ist natürlich sehr
fragwürdig und tatsächlich werden wir gleich auf diese Annahme verzichten. Im Moment
wollen wir sie jedoch gelten lassen um das Prinzip eines statistischen Tests zu erläutern.
Es ist plausibel, dass wir unsere Entscheidung anhand des Mittelwertes der Messwerte,
d.h. anhand von
n
1X
Xi
^ n :=
n
i=1
tre¤en wollen. Weiter ist plausibel, dass ein “zu grosser”^ n -Wert und zum Schluss führen
wird, dass die Alternative zutri¤t. Wir werden daher einen Wert d > 0 festlegen und uns
für die Alternative entscheiden, wenn ^ n d ist.
Nun gibt es o¤ensichtlich zwei Möglichkeiten, wie wir zu einer fehlerhaften Entscheidung kommen kann. Ist die 0-Hypothese richtig, hat das Medikament also keine Wirkung,
so können wir augrund eines Ausgangs ^ n d zu dem falschen Schluss kommen, dass die
Alternative richtig ist. Dies nennt man einen Fehler 1. Art. Anderseits könnte die Alternative richtig sein und wir verwerfen die 0-Hypothese aufgrund eines Ausgangs ^ n < d
nicht. Dies nennt man einen Fehler 2. Art. Die Vorgehensweise ist nun die, dass wir d
so wählen, dass die Wahrscheinlichkeit für einen Fehler 1. Art einen bestimmten vorgegebenen Wert 2 (0; 1) nicht überschreitet. nennt man das Signi…kanzniveau. Es
ist üblich entweder = 0:05 oder = 0:01 zu wählen. Eine Festlegung von führt nun
ohne Schwierigkeiten zu der Bestimmung von d : Wir wissen ja (oder besser, wir nehmen
an, dass wir wissen), dass die Xi unabhängig und normalverteilt sind, mit Mittel und
Varianz 2 ; wobei wir 2 ebenfalls kennen. Dann ist ^ n normalverteilt mit Mittel und
Varianz 2 =n: Es ist leicht zu sehen, dass P (^ n d) eine ansteigende Funktion von
ist. (Mit P bezeichnen wir die Wahrscheinlichkeit unter den Parametern ; 2 : Da
wir 2 im Moment als bekannt voraussetzen, lassen wir es in der Notation weg.) Wenn
wir erzwingen wollen, dass P (^ n d)
für alle
0 ist, so reicht es deshalb aus,
140
den Fall = 0 zu betrachten. Demzufolge ist die Wahrscheinlichkeit für einen Fehler 1.
Art höchstens
p
Z 1
Z 1
h n
i
n
1
1 2
2
P0 (^ n d) = p
x dx = p
exp
x dx
exp
p
2
2
2
2
2 d n=
2
d
p
=1
d n= ;
wobei die Verteilungsfunktion der Standardnormalverteilung ist. Sie z 2 R die eindeutig de…nierte Zahl mit
(z ) = 1
:
(8.7)
Ist < 1=2; was wir stets annehmen wollen, so ist z > 0: Hier die nummerischen Werte
für = 0:05; = 0:01; = 0:001 : z0:05 = 1:6449; z0:01 = 2:3263; z0:001 = 3:0902: Man
nennt z das obere -Quantil der Nomralverteilung. Wählen wir
z
d = d ( ; ; n) := p ;
n
so erhalten wir
P0 (^ n
d) = :
(8.8)
Wir erhalten somit das folgende Entscheidungsverfahren:
z
p : Verwerfung der 0 Hypothese
n
z
^ n < p : keine Verwerfung der 0 Hypothese
n
^n
(8.9)
Ein solches Entscheidungsverfahren nennt man einen Test. Die Wahrscheinlichkeit
für einen Fehler 1. Art ist dabei : Man nennt den Test einen Niveau- -Test. Im
Falle ^ n < pzn kann man jedoch natürlich immer noch den Verdacht haben, dass die
0-Hypothese nicht richtig ist, und dass z.B. eine grössere Stichprobe zum entsprechenden
Schluss geführt hätte. Man sagt dann auch einfach, der Ausgang sei nicht signi…kant
(zum vorgegebenen Niveau ):
Ursprünglich hatten wir eigentlich nur verlangt, dass wir in (8.8)
haben. Es ist
jedoch klar, dass wir für > 0 die Wahrscheinlichkeit P (^ n d) möglichst gross haben
wollen. Von daher wird man d so wählen, dass (8.8) gilt. Es ist ziemlich üblich = 0:01
zu nehmen. In der Praxis wird man natürlich ausrechnen, zu welchem das Resultat
noch signi…kant ist. Im statistischen Jargon nennt man ein Niveau = 0:05 “schwach
signi…kant” und = 0:001 “hoch signi…kant”.
Es ist wichtig zu bemerken, dass die 0-Hypothese und die Alternative nicht ganz
symmetrisch behandelt werden. In der Tat “klebt” der Statistiker gewissermassen an
der 0-Hypothese und will diese nur verwerfen, wenn dafür gute Gründe vorliegen. Das
ist für viele Situationen in der Praxis vernünftig. Eine bewährte Behandlungsmethode
141
in der Medizin aufzugeben und zu einer neuen zu wechseln hat nur dann Sinn, wenn die
neue Methode wirklich “signi…kant” besser ist.15
Hier noch eine ganz abstrakte allgemeine De…nition, was ein Niveau- -Test ist.
Sei (P ) 2 eine Familie von Wahrscheinlichkeitsmassen auf : Seien 0 ; A
zwei disjunkte Teilmengen von :
De…nition 8.12
Sei 2 (0; 1) : Ein Niveau- -Test für die 0-Hypothese f 2
f 2 A g ist ein Entscheidungsverfahren der Form
Entscheidung für die Alternative, falls X
0g
gegen die Alternative
z ist
Keine Ablehnung der 0-Hypothese, falls X < z ist.
Dabei ist X : ! R ein Zufallsgrösse (die sogenannte Teststatistik), und z 2 R
ist so gewählt, dass
sup P (X z)
2
0
gilt.
Ein Niveau- -Test garantiert somit, dass die Wahrscheinlichkeit für einen Fehler 1.
Art stets kleiner als ist, d.h. die Wahrscheinlichkeit für eine fehlerhafte Annahme der
Alternative ist durch beschränkt. Dies ist jedoch o¤ensichtlich nur eine Seite der Sache:
Man möchte natürlich, dass die Wahrscheinlichkeit für eine Verwerfung der 0-Hypothese
gross ist, sofern die Alternative auch zutri¤t. Ausser in ganz einfachen und arti…ziellen
Fällen besteht die Alternative aus einer Vielzahl von Wahrscheinlichkeitsmassen, und
man wird davon ausgehen müssen, dass die Wahrscheinlichkeit für einen Fehler 2. Art
vom Parameter abhängt (und natürlich von der gewählten Teststatistik).
Wir untersuchen den obigen sehr einfachen gelagerten Fall der Normalverteilung
(8.9). Der Fehler 2. Art, bei Vorliegen der Alternative > 0 ist natürlich einfach gegeben
durch
z
P ^n < p
:
n
Nun ist ^ n unter P einfach normalverteilt mit Mittel
!
pz
z
^n
n
p
P ^n < p
=P
< p
=P
2 =n
2 =n
n
p
=
z
n = ;
^n
die letzte Gleichung weil p
2
=n
und Varianz
^
pn
2 =n
<z
2 =n;
p
d.h.
n =
!
unter P standard-normalverteilt ist. Nun muss man
sich daran erinnern, dass z so gewählt war, dass (z ) = 1
p
[0; 1) 3 !
z
n = 2 [0; 1]
15
ist. Die Funktion
Eine di¤erenziertere Betrachtungsweise würde jedoch genauer gewichten, welche Schäden durch die
beiden Typen von Fehlern potentiell angerichtet werden.
142
ist eine monoton fallende Funktion in : Es ist klar, dass für “sehr nahe” bei 0; diese
Wahrscheinlichkeit für einen Fehler 2. Art immer noch nahe bei 1
ist. Wie schnell
die Funktion abfällt hängt natürlich von n ab: Je grösser n ist, desto schneller fällt sie
p
ab. Meist wird übrigens die Funktion 1
(z
n = ) aufgezeichnet, also die Wahrscheinlichkeit für Ablehnung der 0-Hypothese. Diese Wahrscheinlichkeit sollte natürlich
möglichst gross auf den Alternativen sein. Auf Englisch heisst das die “power function”
in Deutsch meist mit Gütefunktion übersetzt. Unten ist die Gütefunktion in unserem
Beispiel für = 0:01; n = 10 und n = 100 (bei 2 = 1) aufgezeichnet.
Gütefunktion bei n = 10
Gütefunktion bei n = 100
Wie man den Graphiken entnimmt, vermag der Test -Werte über etwa 1:5 bei n = 10
sicher zu erkennen und bei n = 100 schon -Werte ab etwa 0:5: Diese Sachverhalte sollten
dem Anwender bekannt sein. Man wird natürlich nach möglichst “guten”Tests Ausschau
halten.
De…nition 8.13
Ein Niveau- -Test für die Hypothese f 2 0 g gegen die Alternative f 2 A g heist
UMP-Test (uniformly most powerfull), falls seine Wahrscheinlichkeit für einen Fehler 2.
Art höchstens die jedes anderen Niveau- -Tests ist, und zwar gleichmässig in 2 A :
143
Es vesteht sich fast von selbst, dass UMP-Tests für die meisten Testprobleme nicht
existieren. Das Problem besteht darin, dass die Optimalität gleichmässig in allen Alternativen gelten soll. Allerdings ist gerade das bisher diskutierte einfache Beispiel eine
Ausnahme von dieser Regel: Für den Test von f
0g gegen f > 0g ist der oben diskutierte Test tatsächliche UMP.
Ein UMP-Test existiert stets, wenn die 0-Hypothese und die Alternative wie man
sagt einfach sind, d.h. jeweils nur ein Wahrscheinlichkeitsmass enthalten. Das ist der
Inhalt des Neyman-Pearson Lemmas. Wir formulieren und beweisen es in einer ganz
einfachen Situation:
Seien P1 und P0 zwei Wahrscheinlichkeiten auf der abzählbaren Menge : Der Einfachheit halben nehmen wir an, dass P0 (!) > 0; P1 (!) > 0 für alle ! 2 gelten. Wir
wählen als Teststatistik den sogenannten Likelihoodquotienten:
P1 (!)
2 R:
P0 (!)
L (!) :=
Der Likelihood-Quotienten-Test für die Hypothese P0 gegen die Alternative P1 ist
nun einfach der Test mit Teststatistik L : Für z > 0 sei
X
(z) :=
P0 (!) :
!:L(!) z
Satz 8.14 (Neyman-Pearson Lemma)
Der Test fL zg ist UMP zum Niveau (z) für die 0-Hypothese P0 gegen die Alternative
P1 :
Beweis. Wir betrachten den Ablehnungsbereich A := fL (!) zg für unseren LikelihoodQuotienten-Test und den Ablehungsbereich B
für einen beliebigen
anderen Test
P
zum Niveau (z) : Dann ist die Güte dieses anderen Tests einfach !2B P1 (!) und wir
erhalten die Ungleichung
X
X
X
X
X
P1 (!) =
P1 (!) +
P1 (!)
P1 (!) + z
P0 (!)
!2B
!2B\Ac
!2B\A
X
P1 (!) + z
!2B\A
=
X
X
!2B\Ac
!2B\A
P0 (!)
!2B c \A
X
!2B\A
P1 (!) +
X
P1 (!)
!2B c \A
P1 (!) :
!2A
P
P
Die zweite Ungleichung folgt wegen (z) = !2A P0 (!)
!2B P0 (!) ; was einfach
die Eigenschaft ist, dass der zweite Test auch ein Niveau -Test ist.
Hier die allgemeine Formulierung des Neyman-Pearson Lemmas. Der Beweis ist im
wesentlichen eine Kopie dies obigen und sei dem Leser überlassen:
P0 und P1 seien zwei Wahrscheinlichkeitsmasse auf dem messbaren Raum ( ; F) :
Wir betrachten das Wahrscheinlichkeitsmass Q := (P0 + P1 ) =2: O¤enbar sind P0 und
P1 absolut stetig bezüglich Q und wir setzen
f0 :=
dP0
dP1
; f1 :=
;
dQ
dQ
144
und den Liklihood-Quotienten l :
! [0; 1] durch
l (!) :=
f1 (!)
;
f0 (!)
wobei wir a=0 = 1 setzen für a > 0: Die Festlegung von 0=0 spielt im untenstehenden
Satz keine Rolle; Sie können 0=0 = 1 setzen.
Satz 8.15
Für z
0 ist der Test fl
P0 (l z) :
zg ein UMP-Test für P0 gegen P1 zum Niveau
(z) :=
Mit Hilfe des Neyman-Pearson-Lemmas können wir nun leicht nachweisen, dass unser
Test
0 gegen > 0 UMP ist. Wir betrachten dazu die einfache Hypothese f = 0g
gegen die einfache Alternative f = 0 g mit einem beliebigen 0 > 0: Nach dem NeymanPearson-Lemma 8.15 ist dafür der Likelihood-Quotienten-Test der UMP-Test. Nun hat
der Zufallsvektor (X1 ; : : : ; Xn ) die gemeinsame Dichte (8.3). Der Quotient ist
f 0 ; 2 (x)
= exp
f0; 2 (x)
0
2
Xn
i=1
xi
n
2
0
2
:
(Wir setzen 2 als P
bekannt voraus). Als Funktion der xi ist das einfach eine monon
tone Funktion von
i=1 xi : Demzufolge lehnt der Likelihood-Quotienten-Test die 0Hypothese ab, wenn diese Summe zu gross wird, wobei die Schranke einfach durch das
Niveau festgelegt wird. Somit ist Likelihood-Quotienten-Test einfach der Test, den wir
schon betrachtet haben. Da unser Test somit exakt gleich dem Likelihood-QuotientenTest für f = 0g gegen f = 0 g für ein belibiges 0 > 0 ist, und demzufolge UMP für
diese Situation, so folgt dass er UMP für f = 0g gegen f > 0g ist. Es folgt dann auch
sofort, dass er UMP für f
0g gegen f > 0g ist.
Es kommt natürlich auch vor, dass man daran interessiert ist, ob ein Medikament
überhaupt eine Wirkung hat, die sich von Placebos unterscheidet, gleichgültig ob diese
Wirkung positiv oder negativ ist. In einem solchen Fall möchte man die 0-Hypothese
f = 0g gegen die Alternative f 6= 0g testen. Ein natürlicher Test ist einfach der folgende zweiseitige Test: Man lehnt die 0-Hypothese ab, wenn j^ n j zu gross ist. Um das
Niveau zu gewährleisten, muss der Test dann wie folgt aussehen:
z =2
p : Verwerfung der 0 Hypothese
n
z =2
j^ n j < p : keine Verwerfung der 0 Hypothese:
n
j^ n j
(8.10)
Dieser Test ist evidenterweise nicht mehr UMP. Dies liegt einfach daran, dass unser
vorheriger einseitiger Test auch für unsere Situation ein Niveau- -Test ist, der für > 0
natürlich eine bessere Güte hat. Allerdings ist die Ablehnungswahrscheinlichkeit für <
0 kleiner als ; was sicher nicht wünschbar oder sinnvoll ist. Jedenfalls ist klar, dass (8.10)
145
nicht mehr UMP ist. Es ist jedoch sinnvoll, das UMP-Konzept etwas einzuschränken.
Generell wird man natürlich keine Tests in Betracht ziehen wollen, die für irgendeine
Alternative eine Ablehnungswahrscheinlichkeit < haben.
De…nition 8.16
Ein Test für die 0-Hypothese 0 gegen die Alternative A heisst unverfälscht (englisch
“unbiased”), wenn P (Ablehnung)
für alle 2 A ist. Ein Test heisst gleichmässig
bester unverfälschter Test, wenn für jedes 2 A die Ablehnungswahrscheinlichkeit
maximal unter allen unverfälschten Tests ist. (Auf Englisch: UMP unbiased).
Man kann nachweisen, dass unser Test (8.10) UMP unbiased ist, worauf wir jedoch
hier nicht weiter eingehen wollen.
Wir kommen nun noch zu einer wichtigen Modi…kation des Tests von f
0g gegen
f > 0g im Falle der Normalverteilung. Wir hatten ja bisher angenommen, dass die
Varianz 2 bekannt ist. Das ist in der Praxis natürlich völlig unsinnig, und wir lassen
diese Voraussetzung nun fallen. Unsere Parametermenge ist daher
:=
2
;
:
2 R;
2
>0 :
Für 2 interessieren wir uns eigentlich nicht. (Das nennt man einen “nuisance parameter”). Die 0-Hypothese ist daher nach wie vor
0
:=
;
2
:
0;
2
>0 ;
A
:=
;
2
:
> 0;
2
>0 :
und die Alternative
Es ist dann klar, dass wir den Test (8.9) nicht benützen können, da wir 2 nicht kennen.
Ein naheliegendes Verfahren besteht darin, 2 einfach aus den Daten selbst zu schätzen.
Wie wir in Abschnitt ?? ausgeführt haben, ist
^ 2n :=
1
n
1
n
X
(Xi
^ n )2
i=1
P
p
p
Wir ersetzen die Teststatistik n^ n = = (1= n ) ni=1 Xi
p
n^ n
Tn :=
:
(8.11)
^n
In der englischsprachigen Literatur nennt man das die “studentized statistics”. Die Bezeichnung geht auf den Statistiker William Gosset zurück, der seine Arbeiten unter dem
Pseudonym “Student” publiziert hat. Der berühmte t-Test besteht dann einfach darin,
dass die 0-Hypothese verworfen wird, wenn Tn zu gross ist.
ein vernünftiger Schätzer für
durch
2:
Student’s t-Test:
Tn
t
;n 1
: Annahme der Alternative
Tn < t
;n 1
: keine Verwerfung der 0
146
(8.12)
Hypothese:
(Der Grund für die Schreibweise t ;n 1 wird gleich ersichtlich werden.) t ;n 1 muss so
bestimmt werden, dass unter der 0-Hypothese P( ; 2 ) (Tn t ;n 1 )
ist. Natürlich
ist wieder der Fall = 0 der Extremfall und wir wollen daher t ;n 1 so bestimmen, dass
P(0; 2 ) (Tn t ;n 1 ) = ist. Etwas lästig erscheint die Anwesenheit von 2 ; aber es stellt
sich zum Glück heraus, dass die Verteilung von Tn gar nicht von 2 abhängt: Ist nämlich
Xi normalverteilt mit Mittel 0 und Varianz 2 ; so ist Xi = standard-normalverteilt. Die
Substitution von Xi durch Xi = ändert jedoch im Ausdruck (8.11) gar nichts. Demzufolge ist die Verteilung von Tn von 2 unabhängig. Es ist jedoch klar, dass die Verteilung
von n abhängt.
De…nition 8.17
Sind X1 ; : : : ; Xn unabhängige und standard-normalverteilte Zufallsgrössen, so heisst die
Verteilung von Tn die t-Verteilung mit n 1 Freiheitsgraden.
p
p
Gemäss Satz 8.10 sind n^ n und ^ 2n unabhängig, wobei n^ n standard normalverteilt und (n 1) ^ 2n 2 -verteilt mit n 1 Freiheitsgraden sind.
Proposition 8.18
Ist Y standard normalverteilt, ist Z 2 -verteilt mit n Freiheitsgraden und sind Y und
Z unabängig, so hat die Zufallsgrösse Y =Z die Dichtefunktion
((n + 1) =2)
fn (t) = p
n (n=2)
t2
+1
n
(n+1)=2
:
Beweis. Übungsaufgabe.
Der kritische Wert t ;n 1 ist einfach das obere -Quantil der t-Verteilung mit n
Freiheitsgraden, also die eindeutig bestimmte Zahl mit
Z 1
fn 1 (t) dt = :
t
1
;n 1
Für n ! 1 konvergiert die t-Veteilung gegen die Standard-Normalverteilung. Insbesondere gilt
lim t ;n 1 = z ;
n!1
wobei z durch (8.7) de…niert ist. Wir wollen dies hier nicht beweisen. Die Unterschiede
sind jedoch nicht ganz zu vernachlässigen.
Die folgende Tabelle gibt einige Werte für die t-Quantile t ;n bei
= 0:05 und
= 0:01 :
n
10
20
50
100
1
= 0:05
1:8125
1:7247
1:6759
1:6602
1:6449
147
= 0:01
2:7638
2:5280
2:4033
2:3642
2:3263
Der t-Test ist übrigens auch im einseitigen Fall nicht mehr UMP, jedoch UMP unbiased. Wir können jedoch auf den Beweis nicht eingehen, der etwas aufwendig ist.
Wir diskutieren noch zwei wichtige Varianten des t-Test.
Unter Umstände möchte man auch auf zweiseitige Alternativen testen: Nämlich
die 0-Hypothese f = 0g gegen die Alternative f 6= 0g : In diesem Fall verwirft man die
Hypothese, wenn der Absolutbetrag von Tn zu gross, ist, d.h. wenn Tn
t =2;n oder
Tn
t =2;n ist. Da die Verteilung von Tn unter der 0-Hypothese symmetrisch ist, ist
das o¤ensichtlich ein Niveau- -Test.
Eine weitere Modi…kation ist der sogenannte Zweistrichprobentest: Wir sind ja ursprünglich beim motivierenden Beispiel davon ausgegangen, dass die Xi als Di¤erenzen
von zwei Zufallsgrössen Ui und Vi zustande kommen. Es kommt jedoch oft vor, dass
nicht einfach dieselbe Person zweimal - einmal vor und einmal nach einer Behandlung
- gemessen wird, sondern dass zwei Gruppen von Personen untersucht werden. Typischerweise wird in der klinischen Forschung einer Gruppe das Medikament und einer
zweite Gruppe ein Placebo gegeben (natürlich ohne dass die Versuchspersonen wissen,
zu welcher Gruppe sie gehören16 ). Es liegen dann zwei Gruppen von Messungen vor unter Umständen auch mit unterschiedlicher Stichprobengrösse: Etwa Ui ; i = 1; : : : ; n und
Vi ; i = 1; : : : ; m: Eine der Standardannahmen ist, dass die Ui unabhängig und normalverteilt mit Mittel 1 , Varianz 2 und die Vi normalverteilt mit Mittel 2 und Varianz
2 : Die 0-Hypothese lautet im einseitigen Fall dann etwas f
1
2 g gegen die Alternative f 1 > 2 g oder im zweiseitigen Fall f 1 = 2 g gegen f 1 6= 2 g : Als Teststatistik
wird dann
Tn := q
1
m
+
1
n
r
U
1
m+n 2
mit
U=
Pn
i=1
V
Ui
U
2
+
n
m
i=1
i=1
Pm
i=1
;
Vi
V
1X
1X
Ui ; V =
Vi
n
n
verwendet. Unter der 0-Hypothese 1 = 2 ist Tn t-verteilt mit n + m
den.17 Der t-Test ist also im einseitigen Fall:
Tn
t
;n+m 2
: Annahme der Alternative
Tn < t
;n+m 2
: keine Verwerfung der 0
2
2 Freiheitsgra-
Hypothese;
und im zweiseitigen Fall
16
Der “Goldstandard” in der klinischen Forschung ist der sogenannte Doppelblindversuch, wo weder
der Patient noch der behandelnde Arzt weiss, wer das Medikament und wer das Placebo erhält. Es
versteht sich von selbst, dass es viele Situationen gibt, wo das nicht gemacht werden kann.
17
Es wird dabei vorausgesetzt, dass die Varianzen der beiden Stichproben gleich (aber nicht bekannt)
sind. Das ist natürlich etwas fragwürdig. Das Problem mit zwei normalverteilten Stichproben unterschiedlicher (und unbekannter) Varianzen ist das sogenannte “Behrens-Fisher-Problem”. Leider brechen
dafür die UMP-Konzepte zusammen.
148
jTn j
t
=2;n+m 2
: Annahme der Alternative
jTn j < t
=2;n+m 2
: keine Verwerfung der 0
Hypothese:
Der t-Test ist vielleicht der am weitesten verbreitete Test überhaupt. Viele mathematische Statistiker stimmen jedoch darin überein, dass man ihn eigentlich nicht verwenden
sollte. Der Haupteinwand gegen ihn besteht darin, dass der Test zwar UMP unverfälscht
ist, dass aber diese Eigenschaft sehr schnell verloren geht, wenn die Voraussetzung der
Normalverteiltheit verletzt ist. Die Optimalität des t-Test ist sehr wenig robust. Es gibt
eine Reihe von Alternativen, die sich in dieser Beziehung besser verhalten.18
Wir kommen nochmals auf das Bernoulli-Experiment zurück. Wir nehmen an, dass
jemand testen will, ob die Erfolgswahrscheinlichkeit p = p0 oder p 6= p0 ist. Es ist naheliegend, dafür wieder die Anzahl der Erfolge Xn zu verwenden und die Hypothese zu
verwerfen, wenn jXn np0 j zu gross ist. Da es ziemlich lästig ist, für jedes feste n den
Schwellenwert für Ablehnung getrennt auszurechnen macht man meist eine Asymptotik für n ! 1: Natürlich p
kann man den Test dann nur für grosse n verwenden. Wie
wir wissen ist (Xn np0 ) = np0 (1 p0 ) unter der 0-Hypothese asymptotisch standard
normalverteilt, d.h. es gilt für jedes x 2 R :
!
Z x
1
Xn np0
2
p e y =2 dy:
x = (x) :=
lim Pp0 p
n!1
2
np0 (1 p0 )
1
Wenn z das obere -Quantil von
lim Pp0
n!1
ist:
(z ) = 1
jX
np0 j
p n
np0 (1 p0 )
z
; so gilt
!
=2
= :
Der Test mit dem Ablehnungsbereich
jXn
np0 j
z
=2
p
np0 (1
p0 )
hat daher asymptotisch das korrekte Niveau.
Wir wollen noch eine wichtige Verallgemeinerung dieses Test distkutieren, den 2 Test. Man will etwa testen, ob ein Würfel auf alle Seiten mit gleicher Wahrscheinlichkeit
fällt. Dazu wirft man den Würfel n mal. Wir bezeichnen mit Ni die Anzahl der Würfe
bei denen der Würfel i anzeigt. Es ist plausibel, dass wir die 0-Hypothese verwerfen
werden, wenn der Vektor Nn1 ; : : : ; Nn6 zu sehr von 16 ; : : : ; 16 abweicht. Eine naheliegende Teststatistik ist der Euklidsche Abstand. Wir fassen das gleich etwas allgemeiner:
Sei p = (p (1) ; : : : ; p (m)) ein Wahrscheinlichkeitsvektor. Wir betrachten ein Zufallsexperiment mit m möglichen Ausgängen, der Einfachheit halber bezeichnen wir sie mit
18
Zur Verteidigung der Verwendung des t-Tests muss man jedoch bemerken, dass es wichtig ist, dass
langjährig standardisierte Verfahren benützt werden. Wenn dies nicht gemacht würde, so könnte jeder
gerade den Test verwenden, der ihm gerade am besten in den Kram passt und dem Missbrauch wäre
Tür und Tor geö¤net.
149
1; : : : ; m: Dabei hat i die Wahrscheinlichkeit p (i) : Dieses Zufallsexperiment wird nun n
mal unabhängig wiederholt. Wir bezeichnen mit N1 ; : : : ; Nm die Anzahl von Ausgänge
des Zufallsexperiments, bei denen i auftritt. Ein geeigneter Wahrscheinlichkeitsraum ist
einfach zu konstruieren: := f! = (! 1 ; : : : ; ! n ) Q
: ! i 2 f1; : : : ; mgg : Ein Elementarereignis ! hat dann die Wahrscheinlichkeit Pp (!) = ni=1 p (! i ) : Damit können wir auch die
Verteilung des Vektors N := (N1 ; : : : ; Nm ) ausrechnen: Für n1 + : : : + nm = n gilt
Pp (N = (n1 ; : : : ; nm )) = A (n1 ; : : : ; nm )
m
Y
p (i)ni ;
i=1
wobei A (n1 ; : : : ; nm ) die Anzahl der Möglichkeiten ist, die n1 Plätze bei denen 1 vorkommt, die n2 Plätze bei denen 2 vorkommt, etc. in den n Ausgängen des Zufallsexperimentes zu verteilen: Demzufolge ergibt sich
A (n1 ; : : : ; nm ) =
=
Somit erhalten wir
n
n n1
n1
n2
n!
Qm
:
i=1 ni !
n
n1
n3
n2
n!
Pp (N = (n1 ; : : : ; nm )) = Qm
i=1 ni !
n
m
Y
n1
:::
nm
nm
1
p (i)ni :
i=1
Dies nennt man die Multinomialverteilung.
Die Verteilung von N1 alleine ist natürlich einfach die Binomialverteilung mit Erfolgswahrscheinlichkeit p1 ; und analog für N2 ; N3 ; : : : . Daraus ergibt sich, dass
Ni
p
np (i)
np (i) (1
p (i))
asymptotisch standard normalverteilt ist. Wir benötigen den folgenden Satz, den wir
hier nicht beweisen können:
Satz 8.19
m
X
(Ni np (i))2
np (i) (1 p (i))
i=1
ist asymptotisch
2 -verteilt
lim P
n!1
wobei cm
1
1 Freiheitsgraden, d.h. für jedes x 2 R+ gilt
! Z
m
x
X
(Ni np (i))2
x =
cm 1 (y) dy;
np (i) (1 p (i))
0
mit m
i=1
die Dichte der
2 -Verteilung
mit m
150
1 Freiheitsgraden ist (8.6).
Unter Verwendung dieses Satzes können wir nun sofort einen Niveau- -Test für die
Multinomialverteilung angeben. Wir wollen die 0-Hypothese p = p0 gegen die Alternative
p 6= p0 testen (p und p0 sind Wahrscheinlichkeitsvektoren der Länge m): Wir verwerfen
die 0-Hypothese, wenn
m
X
(Ni np (i))2
2
(8.13)
m 1;
np (i) (1 p (i))
i=1
ist. Dabei ist 2k; das obere -Quantil der 2 -Verteilung mit k Freiheitsgraden, d.h. die
eindeutige de…nierte postive Zahl mit
Z 1
1
xk=2 1 e x=2 dx = :
(k=2) 2k=2 2k;
(Falls k gerade ist, lässt sich das Integral natürlich explizit ausrechnen). Der Test (8.13)
hat für endliches n natürlich nicht genau das Niveau ; der Unterschied ist für einigermassen grosse n jedoch vernachlässigbar. Für Leser, die ihre Würfel testen wollen: hier
die Quantile for m = 6 :
2
5;0:05
= 11:07;
2
5;0:01
= 15:086;
2
5;0:001
= 20:515:
Zur Illustration nehmen wir an, sie werfen den Würfel 600 mal und erhalten die folgende
Verteilung der Augenzahlen. 120; 123; 81; 85; 111; 80: Dann ist
m
X
(Ni np (i))2
202 + 232 + 192 + 152 + 112 + 202
= 3:3925:
=
5
np (i) (1 p (i))
600 36
i=1
Somit besteht kein Grund zur Beunruhigung. Wären jedoch alle Zahlen 10 mal grösser,
so hätte man ebenfalls den 10-fachen Wert der Teststatistik. Dann könnte man getrost
davon ausgehen, dass der Würfel gezinkt oder schlecht verarbeitet ist.
8.3
Kon…denzintervalle
Wir kommen kurz zurück zu Schätzproblemen wie in Abschnitt ??, aber nun unter einem etwas anderen Gesichtspunkt. Wir nehmen wieder ein parametrisches Modell an,
d.h. einen Raum mit einer Familie von Wahrscheinlichkeitsmassen P ; wobei wir für
den Moment annehmen, dass eindimensional ist. Wichtiger als eine Schätzung ^; wie
in Abschnitt ?? diskutiert, ist meist, dass hman gewisse
Fehlergrenzen angibt, die eini
^
^
schränken. Wir wollen also ein Intervall
; + bestimmen, in dem “mit grosser
Wahrscheinlichkeit”liegt. Ein solches Intervall nennt man Kon…denzintervall. Nun muss
man den folgenden konzeptionellen Gesichtspunkt festhalten (der nicht von allen Statistikern geteilt wird): Wir haben stets angenommen, dass nicht zufällig ist, sondern
nur dem Statistiker unbekannt ist. Somit macht es keinen Sinn, eine Wahrscheinlichkeit zu bestimmen, mit der irgendwo liegt. Zufällig sind jedoch die Grenzen ^ ; ^+
^ ; ^+ ; die die Eiunseres Kon…denzintervalles. Wir
h suchen
i also nach Zufallsgrössen
genschaft haben, dass P
2 ^ ; ^+
für alle möglichen Parameter gross ist. Der
151
Statistiker muss festlegen, wie gross diese Wahrscheinlichkeit sein soll, bzw. wie klein die
Fehlerwahrscheinlichkeit werden soll.
De…nition 8.20
Sei 2 (0; 1). Ein Kon…denzintervall zum Kon…denzniveau ist ein Intervall der
h
i
Form ^ ; ; ^ ;+ ; wobei ^ ; und ^ ;+ Zufallsgrössen sind, für die
P
für alle
2
gilt.
h
2 ^
;
;^
;+
i
1
Es ergibt sich sofort ein direkter Zusammenhang mit der Testtheorie aus dem letzten
Abschnitt 8.2: Nehmen wir einmal an, wir wollen die 0-Hypothese f = 0 g gegen die
zweiseitige Alternative f 6= 0 g testen, und wir hätten dazu eine Teststatistik T mit
der Eigenschaft, dass die 0-Hypothese verworfen wird, wenn T 2
= A gilt, wobei A eine
Teilmenge von R ist. Natürlich hängt A von
und natürlich auch von 0 ab. Wir
schreiben daher A ( ; 0 ) : Bei einer gegebenen Realisierung von T können wir die Menge
aller 0 bestimmen, für die die 0-Hypothese nicht verworfen wird:
K (!) := f
0
2
: T (!) 2 A ( ;
0 )g
Dies ist natürlich eine zufällige Teilmenge der Parametermenge
fallsgrösse. Per De…nition eines Niveau- -Tests gilt dann
P 0 (f! 2
: T (!) 2 A ( ;
0 )g)
:
, denn T ist eine Zu-
1
für alle 0 2 : (Den Index 0 können wir uns in Zukunft natürlich wieder sparen). Wenn
K (!) die Form eines Intervalls hat, was in der Regel der Fall ist, so haben wir genau
unser Kon…denzintervall gefunden. Wir brauchen daher nur die Tests aus dem letzten
Abschnitt unter diesem Gesichtspunkt ausschlachten.
Wir beschränken uns auf den allereinfachsten Fall, nämlich den Parameter p der
Binomialverteilung. Sei Xn die Anzahl der Erfolge und X n := Xn =n: Wie wir gesehen
hatten, wird die 0-Hypothese p = p0 im zweiseitigen Fall nicht abgelehnt, wenn
p
p
z =2 np0 (1 p0 ) < Xn np0 < z =2 np0 (1 p0 );
p
p
p0 (1 p0 )
p0 (1 p0 )
p
p
p0 z =2
< X n < p0 + z =2
n
n
gilt. (Allerdings setzen wir hier voraus, dass n schon so gross ist, dass die Normalapproximation gerechtfertigt ist). Wir müssen nun diese Bedingung nur noch umformen. Da
wir n ohnehin als einigermassen gross voraussetzen müssen, ersetzen wir p0 unter den
Wurzelausdrücken durch X n ; was zu einem Fehler der Ordnung 1=n führen wird, den
wir vernachlässigen. Wir erhalten deshalb das approximative Kon…denzintervall
q
q
0
1
Xn 1 Xn
Xn 1 Xn
A;
p
p
Kn := @X n z =2
; X n + z =2
n
n
152
wobei die Fehler in den Grenzen des Intervalls von der Ordnung O (1=n) sind. Tatsächlich
lässt sich leicht nachweisen, dass für jedes p 2 (0; 1)
lim Pp (p 2 Kn ) = 1
n!1
gilt. Dies sind die üblichen Kon…denzintervalle für den Parameter der Binomialverteilung. Für kleine n sind sie jedoch nicht genau; dann sollte man aber auch nicht die
Approximation durch die Normalverteilung verwenden.
Ein Rechenbeispiel: n = 1000 und 310 Erfolge. Dann ist das 99%-Kon…denzintervall
(z0:005 = 2:5758)
!
r
r
0:310 0:590
0:310 0:590
0:31 z0:005
; 0:31 + z0:005
= (0:275; 0:345) :
1000
1000
Oft wird jedoch auch nur ein 95% Kon…denzintervall angegeben, das natürlich enger ist.
Meinungsforschungs-Institutionen geben oft noch kleinere Bandbreiten an. Diese werden
dadurch erzielt, dass die Stichprobe nicht ganz zufällig ausgewählt wird, sondern nach
teilweise systematischen Gesichtspunkten. Dies birgt jedoch immer die Gefahr, dass auch
systematische Fehler eingebaut werden.
153
9
9.1
Marko¤-Ketten
Grundlegende Begri¤e
Marko¤-Ketten kann man anschaulich wie folgt beschreiben: Ein Teilchen bewegt sich in
diskreter Zeit auf einer höchstens abzählbaren Menge I. Be…ndet es sich auf einem Platz
i 2 I, so wechselt es mit gewissen Wahrscheinlichkeiten (die von i abhängen) zu einem
anderen Platz j 2 I. Diese Übergangswahrscheinlichkeiten hängen aber nicht weiter von
der Vorgeschichte ab, das heisst vom Weg, auf dem das Teilchen zum Platz i gekommen
ist. Die Element in I nennen wir auch die “Zustände”, in denen sich die Kette be…nden
kann.
De…nition 9.1
Es sei I eine nichtleere, höchstens abzählbare Menge. Eine Matrix
P = (pij )i;j2I heisst
P
stochastische Matrix, wenn pij 2 [0; 1] für alle i; j 2 I und j2I pij = 1 für alle i 2 I
gelten. Die Komponenten pij nennt man die Übergangswahrscheinlichkeiten.
Eine auf einem Wahrscheinlichkeitsraum ( ; F; P ) de…nierte messbare Abbildung X :
! I nennen wir eine I-wertige Zufallsgrösse. Da wir I als abzählbar voraussetzen,
bedeutet Messbarkeit einfach, dass für jedes i 2 I die Menge f! : X (!) = ig in F ist.
De…nition 9.2
Sei P ein stochastische Matrix. Eine endlich oder unendlich lange Folge X0 ; X1 ; X2 ; : : :
I-wertiger Zufallsgrössen heisst (zeitlich homogene) Marko¤-Kette mit stochastischer
Matrix P, wenn für alle n 0 und alle i0 ; i1 ; : : : ; in ; in+1 2 I; die P (X0 = i0 ; : : : ; Xn =
in ) > 0 erfüllen, die Gleichung
P ( Xn+1 = in+1 j X0 = i0 ; X1 = i1 ; : : : ; Xn = in ) = pin in+1
gilt. Die Startverteilung
i 2 I.
(9.1)
einer Marko¤-Kette ist de…niert durch (i) = P (X0 = i),
Man schreibt oft P , um die Startverteilung hervorzuheben. Ist die Startverteilung
auf einen Punkt konzentriert, d. h·gilt (i) = 1 für ein i 2 I, so schreiben wir meist Pi
anstelle von P . Wenn wir einfach P schreiben, so betrachten wir eine beliebige nicht
weiter spezi…zierte Startverteilung. Wir haben die obige De…nition für eine unendlich
lange Marko¤-Kette formuliert. Die gleiche De…nition kann jedoch auch für eine Marko¤Kette X0 ; : : : ; XN von endlicher zeitlicher Länge verwendet werden. Ohne Beweis zitieren
wir den folgenden Satz über die Existenz von Marko¤-Ketten.
Satz 9.3
Sei I eine abzählbare Menge,
eine Wahrscheinlichkeitsverteilung auf I und P eine
stochastische Matrix. Sei ferner := I N0 , Xn : ! I für n 2 N0 die Projektionen und
F die Produkt- -Algebra auf ; d.h. die vom Mengensystem Xn 1 (fig) : n 2 N0 ; i 2 I
erzeugte -Algebra. Dann existiert genau ein Wahrscheinlichkeitsmass P auf ( ; F) mit
der Eigenschaft, dass die Folge (Xn )n2N0 eine Marko¤-Kette im Sinne der De…nition 9.2
mit Startverteilung ist.
154
Der Satz ist ein Spezialfall des Satzes von Ionescu-Tulcea, mit dem man praktisch
alle Existenzprobleme für Wahrscheinlichkeitsmasse mit einem Schlag lösen kann. Ein
Beweis wird in der Vorlesung im nächsten Semester gegeben werden.
Für s < t; s; t 2 N0 schreiben wir oft X[s;t] für die Folge (Xs ; Xs+1 ; : : : ; Xt ) ; den
sogenannten “Pfad”. Dieselbe Notation verwenden wir auch für eine (nicht zufällige)
Folge a = (ai )i2N0 : Wir schreiben auch i 2
= X[s;t] ; falls Xu 6= i für u = s; s + 1; : : : ; t ist.
Satz 9.4
Sei fXn gn2N0 eine Folge von I-wertigen Zufallsgrössen,
und P = (pij ) eine stochastischer Matrix.
eine Wahrscheinlichkeit auf I
a) fXn gn2N0 ist genau dann eine Marko¤-Kette mit stochastischer Matrix P und Startverteilung ; wenn für alle n 2 N0 und i0 ; i1 ; : : : ; in 2 I die Gleichung
P (X[0;n] = i[0;n] ) = (i0 )pi0 i1 pi1 i2 : : : pin
(9.2)
1 in
gilt.
b) Ist fXn gn2N0 eine Marko¤-Kette so gilt die folgende Aussage: Es seien n < m und
in 2 I sowie A I n und B I m n . Falls P (X[0;n 1] 2 A; Xn = in ) > 0 ist, so ist
P
X[n+1;m] 2 B j X[0;n
1]
2 A; Xn = in
= P (X[n+1;m] 2 B j Xn = in(9.3)
)
= Pin X[1;m
n]
2B
Beweis. a): Aus (9.1) folgt (9.2) durch Induktion nach n: De…nitionsgemäss gilt die
Behauptung für n = 0. Es gelte die Aussage für ein n 2 N0 und seien i0 ; i1 ; : : : ; in+1 2 I.
Ist P (X0 = i0 ; : : : ; Xn = in ) = 0, so gilt die behauptete Formel ebenfalls für n + 1: Ist
P (X0 = i0 ; : : : ; Xn = in ) > 0, so folgt aus De…nition
P
X[0;n+1] = i[0;n+1] = P (Xn+1 = in+1 j X[0;n] = i[0;n] )P (X[0;n] = i[0;n] )
= (i0 )pi0 i1 : : : pin
1 in
pin in+1 :
Umgekehrt folgt aus (9.2) sofort (9.1) durch Einsetzen in die De…nition der bedingten
Wahrscheinlichkeit.
b) Sei P (X[0;n 1] 2 A; Xn = in ) > 0. Mit der De…nition der bedingten Wahrscheinlichkeit und Teil a) folgt
P
X[n+1;m] 2 B j X[0;n
1]
2 A; Xn = in
P (X[n+1;m] 2 B; Xn = in ; X[0;n 1] 2 A)
P (X[0;n 1] 2 A; Xn = in )
P
P
(in+1 ;:::;im )2B
(i0 ;:::;in 1 )2A (i0 )pi0 i1 : : : pim
P
=
(i0 ;:::;in 1 )2A (i0 )pi0 i0 : : : pin 1 in
X
=
pin in+1 pin+1 in+2 : : : pim 1 im :
=
(in+1 ;:::;im )2B
155
1 im
Dieser Ausdruck auf der rechten Seite hängt nicht von A ab. Wir können insbesondere
A = I f0;1;:::;n 1g setzen. Dann erhalten wir
X
P X[n+1;m] 2 B j Xn = in =
pin in+1 pin+1 in+2 : : : pim 1 im :
(9.4)
(in+1 ;:::;im )2B
Somit folgt für eine beliebige Teilmenge A
I f0;1;:::;n 1g , die P (X[0;n 1] 2 A; Xn =
in ) > 0 erfüllt, die erste Formel. Die zweite ergibt sich aus (9.4) und a).
Die Aussage von b) heisst Marko¤-Eigenschaft. Es sollte jedoch hervorgehoben
werden, dass nicht jede Folge von I-wertigen Zufallsgrössen X0 ; X1 ; : : : , die (9.3) erfüllt,
auch eine homogene Marko¤-Kette im Sinne der De…nition 9.2 ist. Es gilt jedoch der
folgende Satz, dessen einfacher Beweis dem Leser überlassen sei:
Satz 9.5
Sei X0 ; X1 ; : : : eine Folge von I-wertigen Zufallsgrössen, die (9.3) erfüllt. Dann existert
eine Wahrscheinlichkeitsverteilung auf I und eine Folge fPn gn2N0 von stochastischen
Matrizen Pn = (pn (i; j))i;j2I , sodass für alle n 2 N und alle i0 ; i1 ; : : : ; in 2 I die folgende
Gleichung gilt:
P (X[0;n] = i[0;n] ) = (i0 )p0 (i0 ; i1 ) : : : pn
1 (in 1 ; in ):
Der Unterschied zu (9.2) besteht darin, dass wir dort die zusätzliche Eigenschaft
haben, dass die Übergangswahrscheinlichkeiten nicht von der Zeit abhängen. Man nennt
die Ketten deshalb zeitlich homogen. Wir schränken uns in diesem Kapitel vollständig
auf zeitlich homogene Ketten ein ohne dies jedesmal besonders zu betonen.
Eine stochastische Matrix P = (pij )i;j2I kann man stets ohne Probleme potenzieren:
(n)
(0)
Für n 2 N0 de…niert man die n-te Potenz Pn = (pij )i;j2I rekursiv durch pij = ij und
(n+1)
pij
=
X
(n)
pik pkj
k2I
für alle i; j 2 I, das heisst, Pn ist das n-fache Matrixprodukt von P mit sich selbst. Aus
der rekursiven De…nition folgt, dass Pn selbst eine stochastische Matrix ist. Es gelten
die aus der linearen Algebra bekannten Rechenregeln für Matrizen, insbesondere gilt
Pm Pn = Pm+n , das heisst
X (m) (n)
(m+n)
pik pkj = pij
; i; j 2 I:
(9.5)
k2I
(n)
(n)
Die Komponenten pij der Matrix Pn = (pij )i;j2I heissen n-stu…ge Übergangswahrscheinlichkeiten.
Lemma 9.6
Es sei X0 ; X1 ; X2 ; : : : eine Marko¤-Kette mit Startverteilung
Dann gilt
X
(n)
P (Xn = j) =
(i)pij
i2I
156
und Übergangsmatrix P.
für alle n 2 N0 und j 2 I. Ist die Startverteilung
(n)
Pi (Xn = j) = pij .
Beweis. Aus Satz 9.4 a) folgt
X
P (Xn = j) =
i0 ;:::;in
=
X
i0 ;:::;in
auf i 2 I konzentriert, so gilt
P (X0 = i0 ; : : : ; Xn
1 2I
(i0 )pi0 i1 : : : pin
1j
= in
1
=
X
1;
Xn = j)
(n)
(i)pij :
i2I
1 2I
Lemma 9.7
Sei X0 ; X1 ; X2 ; : : : eine Marko¤-Kette mit stochastischer Matrix P = (pij )i;j2I . Sind
m; n 2 N0 und i; j 2 I mit P (Xm = i) > 0, so gilt
(n)
P (Xm+n = j j Xm = i) = pij :
Beweis. Aus (9.3) folgt:
(n)
P ( Xm+n = j j Xm = i ) = Pi (Xn = j) = pij ;
die letzte Gleichung nach Lemma 9.6.
Lemma 9.8
(m+n)
Für alle m; n 2 N0 und i; j; k 2 I gilt pij
(m) (n)
pik pkj .
Beweis. Dies ergibt sich sofort aus (9.5).
9.2
Beispiele von Marko¤-Ketten
Zunächst einige Beispiele, die wir eigentlich schon kennen.
Beispiel 9.9
P
a) Sei pij = qj für alle i; j 2 I, wobei j2I qj = 1 ist. Dann gilt
P (X0 = i0 ; X1 = i1 ; : : : ; Xn = in ) = (i0 )qi1 : : : qin :
Man sieht leicht, dass qj = P (Xm = j) für m
1 ist. Somit gilt
P (X0 = i0 ; : : : ; Xn = in ) = P (X0 = i0 )P (X1 = i1 ) : : : P (Xn = in );
d. h,· die X0 ; X1 ; : : : ; Xn sind unabhängig.
b) Irrfahrt auf Z: Es sei Y1 ; Y2 ; : : : eine Folge unabhängiger, f1; 1g-wertiger Zufallsgrössen mitP
P (Yj = 1) = p und P (Yj = 1) = 1 p, wobei p 2 [0; 1] ist. Sei X0 := 0
und Xn := nj=1 Yj für n 1. Dann ist X0 ; X1 ; : : : eine Marko¤-Kette auf Z. Die
Übergangsmatrix P = (pij )i;j2Z ist durch pi;i+1 = p und pi;i 1 = 1 p eindeutig
festgelegt, und die Startverteilung ist in 0 konzentriert. Für p = 1=2 nennt man
das die (eindimensionale) symmetrische Irrfahrt.
157
c) Symmetrische Irrfahrt auf Zd : Hier ist I = Zd und p(i1 ;:::;id );(j1 ;:::;jd ) = 1=(2d),
falls ik = jk für alle bis auf genau ein k 2 f1; 2; : : : ; dg, für das jik jk j = 1 ist.
Alle anderen Übergangswahrscheinlichkeiten müssen dann gleich null sein.
d) Irrfahrt auf I = f0; : : : ; ng mit Absorption: 0 und n seien absorbierend, also
p00 = 1 und pnn = 1. Für i 2 f1; 2; : : : ; n 1g geschehe ein Schritt nach rechts
mit Wahrscheinlichkeit p 2 (0; 1) und ein Schritt nach links mit Wahrscheinlichkeit
q := 1 p,0also pi;i+1 = p und 1
pi;i 1 = q. Die stochastische Matrix hat somit die
1 0
0
Bq 0
C
p
B
C
B .. .. ..
C
Form P = B
C:
.
.
.
B
C
@
q
0 pA
0
0 1
e) Irrfahrt mit Re‡exion: Das gleiche Modell wie in Beispiel d) mit der Änderung,
dass p01 = pn;n 1 = 1 sein soll.
Einige interessante Beispiele können als sogenannte Urnenmodelle realisiert werden.
Beispiel 9.10
a) Polyas Urnenschema: In einer Urne liegen rote und schwarze Kugeln. Eine wird
zufällig gezogen und zusammen mit einer neuen Kugel der gleichen Farbe zurückgelegt. Hier ist I = f (r; s) j r; s 2 N g sowie p(r;s);(r+1;s) = r=(r + s) und
p(r;s);(r;s+1) = s=(r + s) für alle r; s 2 N. Polya hatte dies als einfaches Modell für
Ansteckungen (z.B. von Krankheiten) vorgeschlagen.
b) Ehrenfests Urnenmodell: Insgesamt n Kugeln liegen in zwei Urnen. Man wählt
eine der Urnen jeweils mit Wahrscheinlichkeit proportional zur Anzahl der Kugeln
in dieser Urne. Enthält die Urne 1 als k Kugeln (die Urne 2 also n k); so wählt
man die Urne 1 mit Wahrscheinlichkeit k=n und die Urne 2 mit Wahrscheinlichkeit 1 k=n: Anschliessend verschiebt man eine Kugel von der gewählten Urne
in die andere. Auf diese Weise fährt man weiter. Wir können für I einfach die
Möglichkeiten für die Belegung der Urne 1 nehmen, also I := f0; : : : ; ng : Der obige
Zufallsvorgang lässt sich durch die stochastische Matrix pk;k 1 = k=n; pk;k+1 :=
1 k=n, pk;j = 0 für j 2
= fk 1; k + 1g beschreiben. Das Beispiel ist von Ehrenfest
zur Illustration irreversibler Vorgänge in der Statistischen Mechanik angegeben
worden. Beginnen wir mit je gleich vielen Kugeln in beiden Urnen, so ist die Wahrscheinlichkeit 1; dass irgendwann einmal eine der Urnen leer ist. Dies werden wir
später nachweisen. Ist n nicht zu klein, so muss man jedoch sehr lange darauf
warten. Beginnt man umgekehrt mit allen Kugeln in einer Urne, so gelangt man
sehr viel schneller zu einem Ausgleich.
Zwei weitere wichtige Klassen von Beispielen sind Irrfahrten auf Graphen und Irrfahrten auf Gruppen. Ein Graph besteht aus “Knoten”und “Kanten”, wobei die Kanten
jeweils zwei Knoten verbinden, die jedoch auch gleich sein können. Wir schliessen auch
158
nicht aus, dass zwei verschiedene Kanten dieselben Knoten verbinden; wir wollen jedoch
voraussetzen, dass jeder Knoten nur zu endlich vielen Verbindungen gehört.
De…nition 9.11
Ein Graph G ist ein Tripel (K; V; '), bestehend aus einer nichtleeren, höchstens abzählbaren Knotenmenge K, einer höchstens abzählbaren Menge von Kanten V und einer
Abbildung ' : V ! K10 [ K20 , wobei Ki0 die Menge der i-elementigen Teilmengen von K
ist. Für e 2 K sei Ve := f v 2 V j e 2 '(v) g die Menge der zu e führenden Kanten. Wir
setzen stets voraus, dass der Graph, wie man sagt, lokal endlich ist, d.h. dass jVe j < 1
für jedes e 2 K gilt.
Beispiel 9.12
Sei G = (K; V; ') ein Graph gemäss der obigen De…nition. Wir de…nieren eine Marko¤Kette auf K. Anschaulich soll folgendes passieren: Be…ndet sich das Teilchen im Knoten
e 2 K, so wählt es (sofern vorhanden) eine der Verbindung aus Ve mit gleicher Wahrscheinlichkeit aus und springt zum anderen Knoten dieser Verbindung, der aber auch e
selbst sein kann. Gibt es keine Verbindung in Ve , so bleibt das Teilchen auf der Ecke e
sitzen. Formal de…nieren wir die stochastische Matrix P = (pef )e;f 2K durch
(
für Ve = ;;
ef
(9.6)
pef = jf v2V :'(v)=fe;f g gj
sonst:
jVe j
Die anderen pef sind gleich 0: Die so konstruierte Marko¤-Kette heisst symmetrische
Irrfahrt auf G.
O¤enbar ist die symmetrische Irrfahrt auf Zd ein Spezialfall des Beispiels 9.12 mit
K = Zd und V der Menge der Verbindungen nächster Nachbarn. Die Irrfahrt mit Re‡exion auf f0; : : : ; ng ist ebenfalls ein Spezialfall, wenn p = 1=2 ist, nicht aber die Irrfahrt
mit Absorption.
Eine weitere Verallgemeinerung der symmetrischen Irrfahrt auf Zd sind Irrfahrten
auf Gruppen.
Beispiel 9.13
Es seien G eine abzählbare Gruppe mit neutralem Element 1 und eine beliebige Wahrscheinlichkeitsverteilung auf G. Wir de…nieren pg;h = (g 1 h) für alle g; h 2 G. Wegen
der Gruppeneigenschaft ist für jedes g 2 G die Abbildung h 7! g 1 h bijektiv auf G, und
es gilt
X
X
X
pg;h =
(g 1 h) =
(h0 ) = 1:
h2G
h0 2G
h2G
Also ist P = (pg;h )g;h2G eine stochastische Matrix. Die zugehörige Marko¤-Kette heisst
-Irrfahrt auf G.
Die symmetrische Irrfahrt auf Zd ist wieder ein Spezialfall, denn Zd ist bezüglich
der Addition eine abelsche Gruppe und die Wahrscheinlichkeitsverteilung
ist in diePd
sem Fall gegeben durch ((x1 ; : : : ; xd )) = 1=(2d), falls
i=1 jxi j = 1 ist, und durch
((x1 ; : : : ; xd )) = 0 für alle anderen (x1 ; : : : ; xd ) 2 Zd .
159
Irrfahrten auf nichtabelschen Gruppen spielen bei der Modellierung von Mischvorgängen eine grosse Rolle. Zur Beschreibung des Mischens eines Kartenstapels wählt man
zum Beispiel die Gruppe aller Permutationen der Karten im Stapel.
Beispiel 9.14
Zum Schluss diskutieren wir noch kurz ein einfaches Beispiel eines sogenannten Verzweigungsprozesses, den sogenannten Galton-Watson Prozess. Damit wird eine sich
verändernde Population von Individuen modelliert. Mit Xn bezeichnen wir die Grösse
der Population zum Zeitpunkt n: Der Übergang von Xn nach Xn+1 wir nun wie folgt beschrieben. Jedes Indiviuum der n-Population hinterlässt eine zufällige Anzahl von Nachkommen und stirbt selbst ab, und zwar ist die Anzahl der Nachkommen (die auch 0 sein
kann) durch eine Verteilung q auf N0 gegeben. Wir nehmen weiter an, dass die Anzahlen
der Nachkommen der Individuen unabhängig sind. Wir bezeichnen mit 1 ; 2 ; : : : diese
Anzahlen der Individuen in der Population. Die Annahme ist also, dass diese Zufallsgrössen Werte in N0 annehmen, dass sie unabhängig sind, und dass P ( i = k) = q (k)
ist, wobei q ein Wahrscheinlichkeit auf N0 ist. Ist Xn = r; so ist Xn+1 als
Xn+1 =
r
X
i
i=1
de…niert. Falls r = 0 ist, so setzt man natürlich Xn+1 = 0: Die Verteilung von Xn+1 (bei
fester Populationsgrösse r zum Zeitpunkt n) ist dann als das r-fache Konvolutionsprodukt von q gegeben:
Xr
r
P (Xn+1 = s j Xn = r) = P
i = s = q (s) ;
i=1
wobei die Verteilung q
r
wie folgt de…niert ist:
0
(s) :=
(r+1)
(s) :=
q
q
0;s ;
s
X
q
r
(j) q (s
j) :
j=0
Dies folgt sofort aus der Unabhängigkeit der i : Es ist auch klar, dass
gilt. Wir de…nieren daher Übergangswahrscheinlichkeiten durch
prs := q
r
P
s2N0
q
r
(s) = 1
(s) :
Es gilt p0;j = 0;j ; p1;j = q (j) : Die anderen Übergangswahrscheinlichkeiten sind in
der Regel nicht mehr explizit berechenbar. Eine Marko¤-Kette mit dieser stochastischen
Matrix nennt man Galton-Watson Kette. 0 ist, wie man sagt, ein absorbierender
Zustand: Wenn die Population einmal ausgestorben ist, bleibt sie ausgestorben. Von
besonderem Interesse ist die Diskussion der Aussterbewahrscheinlichkeit
Pi (9n mit Xn = 0) :
Wir können im Moment jedoch nicht darauf eingehen.
160
9.3
Klasseneigenschaften, Rekurrenz, Transienz
De…nition 9.15
Es sei P = (pij )i;j2I eine stochastische Matrix. Man sagt, j 2 I sei von i 2 I aus
(n)
erreichbar, wenn ein n 2 N0 existiert mit pij > 0. Notation: i
j.
(0)
Die Relation
auf I ist re‡exiv und transitiv. Wegen pii = 1 > 0 gilt i
i für alle
(m)
(n)
i 2 I. Falls i
j und j
k gelten, so gibt es m; n 2 N0 mit pij > 0 und pjk > 0, und
(m+n)
(m) (n)
dann ist pik
pij pjk > 0 nach Lemma 9.8.
Die durch i j , (i
j und j
i) für i; j 2 I de…nierte Relation ist o¤enbar eine
Äquivalenzrelation auf I. Wir werden i j für den Rest dieses Kapitels stets in diesem
Sinne verwenden.
Sind A; B
I zwei Äquivalenzklassen der obigen Äquivalenzrelation, so sagen wir,
B ist von A aus erreichbar und schreiben A
B, wenn i 2 A und j 2 B existieren mit
i
j. O¤ensichtlich hängt dies nicht von den gewählten Repräsentanten in A und B
ab, ist also “wohlde…niert”.
De…nition 9.16
Es sei P eine stochastische Matrix.
a) Eine Teilmenge I 0 von I heisst abgeschlossen, wenn keine i 2 I 0 und j 2 I n I 0
existieren mit i
j.
b) Die Matrix P (und dann auch eine Marko¤-Kette mit stochastischer Matrix P) heisst
irreduzibel, wenn je zwei Elemente aus I äquivalent sind.
Bemerkung 9.17
Es sei P = (pij )i;j2I eine stochastische Matrix.
a) Ist I 0 I abgeschlossen, so ist die zu I 0 gehörige Einschränkung der stochastischen
Matrix P0 := (pij )i;j2I 0 eine stochastische Matrix für I 0 .
b) Ist P irreduzibel, so existieren keine abgeschlossenen echten Teilmengen von I.
Beispiel 9.18
a) Die symmetrische Irrfahrt auf Zd ist irreduzibel.
b) Polyas Urnenschema: Keine zwei Elemente von I = f (r; s) j r; s 2 N g sind äquivalent. Es gibt aber sehr viele abgeschlossene Teilmengen von I, zum Beispiel ist für
jede Wahl von r0 ; s0 2 N die Menge f (r; s) j r r0 ; s s0 g abgeschlossen.
c) Bei der Irrfahrt auf f0; : : : ; ng mit absorbierenden Rändern gibt es drei Äquivalenzklassen, nämlich f0g, f1; : : : ; n 1g und fng. Die Mengen f0g und fng sind abgeschlossen, und es gelten f1; : : : ; n 1g
fng und f1; : : : ; n 1g
f0g.
d) Eine symmetrische Irrfahrt auf einem Graphen G ist o¤enbar genau dann irreduzibel, wenn der Graph zusammenhängend ist. (Ein Graph heisst zusammenhängend,
wenn je zwei Knoten über einen endlichen Zug verbunden werden können.)
161
Für die nachfolgenden Überlegungen sei die Startverteilung
Um dies zu betonen, schreiben wir Pi statt P . Für n 2 N sei
(n)
fii := Pi (X1 6= i; : : : ; Xn
1
in i 2 I konzentriert.
6= i; Xn = i):
Lemma 9.19
Es gilt die sogenannte Erneuerungsgleichung
(n)
pii =
n
X
(k) (n k)
fii pii
;
k=1
n 2 N:
(9.7)
(n)
Beweis. Gemäss Lemma 9.7 gilt pii = Pi (Xn = i). Aufspalten des Ereignisses fXn = ig
nach dem ersten Zeitpunkt, an dem die Marko¤-Kette wieder i erreicht, ergibt
(n)
pii
=
=
n
X
k=1
n
X
k=1
Pi (i 2
= X[1;k
1] ;
Xk = i; Xn = i)
Pi (Xn = i j i 2
= X[1;k
1] ;
(k)
Xk = i) fii :
Anwendung der Marko¤-Eigenschaft (Satz 9.4b)) und Lemma 9.7 ergibt:
(n)
pii
=
n
X
k=1
Pi (Xn = i j Xk =
(k)
i)fii
=
n
X
(k) (n k)
fii pii
:
k=1
Wir führen die erste Rückkehrzeit Ti nach i ein:
Ti := inf fn
1 : Xn = ig :
(9.8)
Wir de…nieren das auch, wenn gar kein n 1 existiert mit Xn = i: In diesem Fall setzen
wir einfach Ti := 1: Von o¤ensichtlichem Interesse ist die Frage, ob Ti < 1 gilt oder
nicht, ob man also zu irgend einem (endlichen) Zeitpunkt wieder in i ist. O¤ensichtlich
(n)
gilt fii = Pi (Ti = n) ; und eine Anwendung der -Aditivität (Axiom 1.11) ergibt
fii = Pi (Ti < 1) :
De…nition 9.20
Sei P eine stochastische Matrix. Ein Element i 2 I heisst rekurrent falls
fii = 1
gilt, andernfalls heisst i transient.
Satz 9.21
P
(n)
i 2 I ist genau dann transient, wenn 1
n=0 pii < 1 gilt.
162
(9.9)
Beweis. Aus der Erneuerungsgleichung (9.7) erhalten wir
1
X
(n)
pii
=1+
n=0
=1+
1
X
n=1
1
X
(n)
pii
=1+
1 X
n
X
(k) (n k)
fii pii
(9.10)
n=1 k=1
(n)
pii fii :
n=0
Da alle Grössen nicht negativ sind, ist diese Gleichung in jedem Fall korrekt, wenn wir für
P
(n)
eine divergente Reihe 1
n=0 pii = 1 setzen. (Dies sollte aus der Analysis bekannt sein).
P
(n)
Wenn also fii = 1 ist, so folgt also 1
n=0 pii = 1: Die Umkehrung geht jedoch nicht
ganz so einfach: Aus fii < 1 kann aus der obigen Gleichung nicht auf die Konvergenz
P
(n)
von 1
n=0 pii geschlossen werden. Wir argumentieren wie folgt: Für 0 < s < 1 setzen
wir
1
1
X
X
(n)
(n)
(s) :=
pii sn ; (s) :=
fii sn :
n=0
n=0
Wegen s < 1 konvergieren diese Reihen und wir erhalten auf dieselbe Weise wie die
Gleichung (9.10):
1
(s) = 1 + (s) (s) ; (s) =
:
1
(s)
Ist
(1) = fii < 1, so folgt nun
1
X
1
(n)
pii = lim (s) =
s"1
n=0
1
fii
< 1:
Eine nützliche Eigenschaft ist, dass Rekurrenz und Transienz Klasseneigenschaften
sind:
Satz 9.22
Es seien i; j 2 I mit i
j. Dann ist i genau dann rekurrent, wenn j es ist.
(M )
Beweis. Aus i j folgt, dass M 2 N0 mit pij
Dann ist gemäss Lemma 9.8
(M +n+N )
pii
(M +n+N )
Analog folgt pjj
(M ) (n) (N )
pij pjj pji
(N )
> 0 und N 2 N0 mit pji
(n)
= pjj mit
(n)
pii . Somit gilt
1
X
n=0
(n)
pii < 1 ,
1
X
n=0
Die Behauptung folgt nun aus Satz 9.21
163
(n)
(M ) (N )
:= pij pji
pjj < 1:
> 0:
> 0 existieren.
Rekurrenz und Transienz sind also Klasseneigenschaften bezüglich unserer Äquivalenzrelation : Wir sprechen daher auf von rekurrenten bzw. transienten Klassen.
(n)
Wir verallgemeinern die De…nition von fii und setzen ganz allgemein für i; j 2 I :
(n)
fij := Pi (j 2
= X[1;n
1] ;
Xn = j) = Pi (Tj = n) ; n
1;
und
fij := Pi (Tj < 1)
1
Lemma 9.23
Sind i und j in derselben rekurrenten Klasse, so gilt fij = fji = 1.
(N )
Beweis. Wir müssen nur i 6= j diskutieren. Sei N 2 N0 die kleinste Zahl mit pji
Für M > N gilt
Pj (Tj
M; XN = i) =
N
X1
n=1
+
M
X
n=N +1
Pj (j 2
= X[1;n
Pj (j 2
= X[1;n
=
N
X1
1] ;
N
(n) (N n)
fjj pji
+
Pj (Tj
M
X
n=N +1
(N n)
1g ist pji
Xn = j; XN = i)
Xn = j; XN = i)
n=1
Für jedes n
ist
1] ;
Pj (j 2
= X[1;N
= 0, und Pj (j 2
= X[1;N
(N )
pji
M; XN = i)
M
X
1] ;
1] ;
XN = i)
(n N )
fij
(n N )
XN = i)fij
(N )
(N )
pji
1) = limM !1 Pj (Tj
= lim Pj (Tj
;
M !1
M ) = 1 folgt
M; XN = i)
(N )
pji fij :
(N )
Wegen fij 1 und pji > 0 ergibt sich fij = 1. fji = 1 folgt analog.
Eine weitere wichtige Klasseneigenschaft ist die Periodizität:
De…nition 9.24
Sei P eine stochastische Matrix und i 2 I: Die Periode di von i ist de…niert durch
n
o
(n)
di := ggT n 1 : pii > 0 ;
wobei wir ggT (;) := 1 setzen. i heisst aperiodisch, wenn di = 1 ist.
Lemma 9.25
a) Für i j gilt di = dj :
164
:
pji : Demzufolge
n=N +1
und wegen limM !1 Pj (Tj
> 0.
(ndi )
b) Ist di < 1; so existiert n0 2 N; sodass pii
> 0 für alle n
n0 gilt.
Beweis. a):
(N ) (M )
Für i = j ist nichts zu zeigen. Für i 6= j existieren N; M 2 N mit pij ; pji > 0: Aus
Lemma 9.8 folgt
(n+N +M )
(N ) (n) (M )
pii
pij pjj pji ;
(n)
(n+N +M )
(n)
(n+N +M )
und damit: pjj > 0 =) pii
> 0 für jedes n: Analog gilt pii > 0 =) pjj
>
0: Daraus ergibt sich a).
b):
n
o
(n)
Die Menge A := n 1 : pii > 0 hat ebenfalls wegen Lemma 9.8 die folgende
Halbgruppeneigenschaft: n 2 A; m 2 A =) n + m 2 A: Jede derartige Teilmenge von N
hat die Eigenschaft, dass ein n0 2 N existiert mit n ggT (A) 2 A für alle n n0 : Dies
sollte aus der Linearen Algebra bekannt sein. (Falls nicht: Übungsaufgabe).
Proposition 9.26
Endliche irreduzible Ketten sind rekurrent.
P (n)
Beweis. I sein endlich. Wegen j pij = 1 folgt, dass für jedes i ein j existiert mit
P (n)
P (n)
n pij = 1: Aus Lemma ?? folgt
n pjj = 1:
Irreduzible Ketten mit unendlichem I brauchen nicht rekurrent zu sein. Eines der
bekanntesten und wichtigsten Beispiele sind Irrfahrten auf Zd : Diese ist natürlich irreduzibel (aber hat Periode 2):
Satz 9.27
Die symmetrische Irrfahrt auf Zd (Beispiel 9.9 c)) ist rekurrend für d = 1; 2 und transient
für d 3:
P
(2n)
Beweis. Wir müssen einfach die Divergenz von 1
n=0 p00 für d = 1; 2 und die Konvergenz für d 3 nachweisen. Nun haben alle Pfade der Länge 2n dieselbe Wahrscheinlich(2n)
keit (2d) 2n : Um p00 = P0 (X2n = 0) zu berechnen, müssen wir dies mit der Anzahl
aller Pfade, die nach 2n Schritten in 0 sind, multiplizieren. Für d = 1 ist das ganz einfach.
O¤enbar gibt es 2n
n derartige Pfade und wir erhalten mit der Sterling-Approximation
(für d = 1) :
p
2n
4 n
1
(2n)
2n 2n
2n (2n=e)
p00 = 2
2
=p :
2n
n
n
(n=e) 2 n
(Hier bedeutet für zwei Folgen positiver Zahlen (an ) und (bn ) : limn!1 an =bn = 1:)
P (2n)
Daraus folgt n p00 = 1:
Für d = 2 ist die Sache etwas komplizierter. Um die Pfade zu zählen, die nach 2n
Schritten wieder im Nullpunkt sind, unterscheiden wir zunächst danach, wieviele Schritte
in “Ost-West-Richtung”und wieviele in “Nord-Süd-Richtung”gemacht werden. Es seien
2k Schritte in “Ost-West-Richtung”und 2n 2k Schritte in “Nord-Süd-Richtung”. Von
den 2k Ost-West-Schritten mussen k nach “Ost” und ebensoviele nach “West” gehen
und analog müssen sich die Nord-Süd-Schritte aufteilen, damit der Pfad nach den 2n
165
Schritten wieder im 0-Punkt ist. Somit ist die Anzahl der Pfade, die wieder nach 0
gelangen, durch
n
X
2n
2k
k=0
2k
k
2n
n
2k
k
=
n
X
(2n)!
=
(k! (n k)!)2
k=0
2n
n
2
(9.11)
gegeben. Der erste Faktor auf der linken Seite kommt von der Auswahl der 2k Ost–
West-Schritte aus allen 2n Schritten, der zweite von der Auswahl der k Ost-Schritte aus
den 2k Ost-West Schritten, und der letzte Faktor analog für die Nord-Süd Schritte. Die
zweite Gleichung sei dem Leser als Übungsaufgabe überlassen. Wir erhalten also
(2n)
p00
=4
2n
n
n
2
=
2
n
2n
n
2
1
n
und die Divergenz ist ebenfalls gezeigt.
Wir diskutieren nun den Fall d = 3: Der Fall d > 3 kann leicht darauf zurückgeführt
werden. Analog wie oben ergibt sich
P0 (X2n = 0) = 6
X
2n
0 k1 ;k2 ;k3
k1 +k2 +k3 =n
(2n)!
=2
(k1 !k2 !k3 !)2
2n
2n
n
X
0 k1 ;k2 ;k3
k1 +k2 +k3 =n
n!
k1 !k2 !k3 !
2
3
2n
:
Leider gibt es für die rechte Seite keine so einfach Formel mehr wie (9.11), sodass wir
etwas mehr arbeiten müssen.
X
0 k1 ;k2 ;k3
k1 +k2 +k3 =n
n!
k1 !k2 !k3 !
2
max 3
n
X
n!
: k1 + k2 + k3 = n
k1 !k2 !k3 !
0 k1 ;k2 ;k3
k1 +k2 +k3 =n
n!
3
k1 !k2 !k3 !
Nun ist die Summe auf der rechten Seite einfach 1; denn k1 !kn!2 !k3 ! 3 n ist die Wahrscheinlichkeit, dass eine Münze, die mit gleicher Wahrscheinlichkeit auf Kopf, Zahl oder Kante
fällt, k1 Kopfwürfe, k2 Zahlwürfe und k3 Kantenwürfe in n Würfen hat. Ist n durch 3
teilbar, n = 3m; so ist für k1 + k2 + k3 = 3m :
(3m)!
k1 !k2 !k3 !
(3m)!
;
(m!)3
was man mit einer elementaren Abschätzung nachprüfen kann. Mit Hilfe der StirlingFormel erhalten wir:
p
3m
6 m
1
3m (3m)!
3m (3m=e)
3
3
=
;
3
3m
3=2
6 m
(m!)
(m=e) (6 m)
also
P0 (X6m = 0)
p
1
1
= const m
3 m6 m
166
3=2
:
n
:
Nun ist o¤ensichtlich
(6m)
p00
1
6
2
(6m 2)
p00
(6m)
; p00
4
1
6
(6m 4)
p00
und somit folgt
1
X
n=0
(n)
p00 =
1
X
(2n)
p00
1 + const
n=0
1
X
m
m=1
3=2
< 1:
Der obige Satz stammt von George Pólya, der vom 1920 bis 1940 an der ETH Zürich
lehrte. Die Sage geht, dass Pólya den Satz für d = 2 bei ausgedehnten Spaziergängen
auf dem Zürichberg fand, bei denen er immer wieder auf die selben Bekannten stiess.
George Pólya, 1887-1985
9.4
Gleichgewichtsverteilung
De…nition 9.28
Eine Wahrscheinlichkeitsverteilung auf I heisst stationär oder GleichgewichtsverP
teilung bezüglich der stochastischen Matrix P = (pij )i;j2I , wenn (j) = i2I (i)pij
für alle j 2 I gilt. Wir werden auch Masse auf I betrachten, die keine Wahrscheinlich+
keiten sind,
P d.h. einfach Funktionen : I ! R : Ein solches Mass heist invariant, wenn
(j) = i2I (i)pij gilt.
167
Bemerkung 9.29
Ist ein invariantes Mass, so gilt natürlich
X
(n)
(j) =
(i)pij
i2I
für alle n 2 N0 : Ist P irreduzibel und ein nichttriviales invariantes Mass (d.h. nicht
identisch 0); so folgt daraus sofort, dass (j) > 0 ist für alle j: Ist nämlich i ein Zustand
(n)
mit (i) > 0 und j beliebig, so existiert n 2 N0 mit pij > 0 und demzufolge gilt
(n)
(j)
(i) pij > 0:
Ein wichtiger Spezialfall invarianter Masse liegt vor, wenn die sogenannte “detailed
balance” Bedingung erfüllt ist:
(i) pij =
(j) pji ; i; j 2 I:
(9.12)
Ein Mass ; das diese Bedingung erfüllt, ist o¤ensichtlich invariant, denn es gilt
X
X
(i) pij =
(j) pji = (j) :
i
i
Man muss jedoch betonen, dass in vielen Fällen invariante Masse existieren ohne dass
ein Mass existiert, das der detailed balance Bedingung genügt. Ein Beispiel, bei dem
die detailed balance Bedingung immer erfüllt ist, sind Irrfahrten auf Graphen. (Beispiel
9.12). Hier erfüllt (e) := jVe j ; e 2 K die Bedingung (9.12), denn es gilt (e) pef =
jf v 2 V : '(v) = fe; f g gj; was symmetrisch in e und f ist. (siehe (9.6)).
Wir verwenden im folgenden den Ausdruck Gleichgewichtsverteilung für Wahrscheinlichkeiten und “invariantes Mass“ für die allgemeinere Situation.
Bemerkung 9.30
a) Betrachten wir eine stationäre Verteilung = ( (i))i2I als Vektor im RI , so erfüllt
(als Zeilenvektor aufgefasst) die Gleichung P = . Das heisst, ist ein Linkseigenvektor von P zum Eigenwert 1. In der aus der Linearen Algebra üblichen Notation
ist T also ein Eigenvektor von PT zum Eigenwert 1. Man beachte, dass P in jedem
Fall den Eigenwert 1 hat, denn es gilt
0 1 0 1
1
1
B .. C B .. C
P @.A = @.A :
1
1
Zumindest wenn I endlich ist, folgt daraus, dass auch PT den Eigenwert 1 besitzt.
Es ist jedoch im Moment noch nicht klar, ob sich ein Eigenvektor mit nichtnegativen Komponenten …nden lässt.
b) Ist
stationär, so gilt
(j) =
X
i2I
168
(n)
(i)pij ;
also P (Xn = j) = (j) für alle j 2 I und n 2 N0 . Das heisst, hat die Marko¤-Kette
die Startverteilung , so ist die Verteilung von Xn gleich für alle n 2 N0 .
Wir setzen für den Rest des Unterkapitels voraus, dass P irreduzibel ist, d.h. dass
ganz I eine Äquivalenzklasse. Wir weisen zunächst nach, dass für rekurrente Ketten stets
mindestens ein invariantes Mass exisitiert (jedoch nicht notwendigerweise ein stationäres
Wahrscheinlichkeitsmass). Sie k 2 I beliebig. Wir setzen
XTk
k (i) := Ek
n=1
1fXn =ig :
Wir zählen also die Anzahl der Besuche in i bis zur ersten Rückkehr nach k und nehmen
davon den Erwartungswert unter der Kette, die in i startet. Falls der Erwartungswert
nicht existieren sollte, setzen wir k (i) = 1; wir werden jedoch gleich sehen, dass dies
nicht eintritt.
Proposition 9.31
Sie P irreduzibel und rekurrent und k sei in I: Dann gelten
a)
k
b)
k
(k) = 1:
ist ein invariantes Mass.
c) 0 <
d)
k
k
(i) < 1 gilt für alle i 2 I:
ist das einzige invariante Mass, das a) erfüllt.
Beweis. a) ist trivial. Wir beweisen b):
Wir bemerken zunächst, dass wir k (i) wie folgt umschreiben können:
k (i) = Ek
=
X1
n=1
1 X
X
1fXn =i; n
Tk g
Pk (Xn = i; Xn
1
=
1
X
Pk (Xn = i; n
Tk )
n=1
= j; n
Tk ) :
n=1 j2I
Man beachte nun, dass fn Tk g = k 2
= X[1;n 1] ist, d.h. ein Ereignis, das durch die
Pfade bis zum Zeitpunkt n 1 beschrieben ist. Anwendung der Marko¤-Eigenschaft (9.3)
zum Zietpunkt n 1 ergibt
Pk (Xn = i; Xn
1
= j; n
Tk ) = Pk (Xn
1
= j; n
Tk ) Pj (X1 = i)
= Pk (Xn
1
= j; n
1
169
Tk
1) pji :
Demzufolge ist
k
X
(i) =
pji
j2I
X
=
pji
X
n=1
1
X
Pk (Xn
X
= j; n
Pk (Xn = j; n
pji Ek
j2I
=
1
1
Tk
Tk
1)
1)
n=0
j2I
=
1
X
k
XTk
1
n=0
1fXn =jg
=
X
XTk
pji Ek
n=1
j2I
1fXn =jg
(j) pji :
j2I
Damit ist b) gezeigt.
Wir beweisen c): Aus b) folgt per Induktion sofort
X
(n)
k (i) =
k (j) pji
j2I
für jedes n 2 N0 ; also insbesonder 1 =
k
(n)
(k)
k
(j) pjk : Wegen der Irreduzibilität
(n)
existiert für jedes j ein n mit pjk > 0 und somit folgt
(n)
k (k) pkj
folgt auch k (j)
Beweis von d):
k
(n)
pkj :
(j) < 1 für jedes j: Anderseits
=
Somit folgt k (j) > 0 für jedes j:
sei ein beliebiges invariantes Mass mit (k) = 1: Dann gilt
X
(j) =
(i) pij + pkj
i2I:i6=k
Nun ersetzen wir (i) auf der rechten Seite durch denselben Ausdruck und erhalten
0
1
X
X
X
X
@
(j) =
(i1 ) pi1 i + pki A pij + pkj =
(i1 ) pi1 i pij +
pki pij + pkj
i2I:i6=k
=
X
i1 2I:ii 6=k
i;i1 2I:i;ii 6=k
(i1 ) pi1 i pij + Pk (Tk
2; X2 = j) + Pk (Tk
i2I:i6=k
1; X1 = j) :
i;i1 2I:i;ii 6=k
In dieser Weise fahren wir fort und erhalten schliesslich
!
n
n+1
X
Y
X
(j) =
(in )
pir ;ir 1 pi0 ;j +
Pk (Tk
i0 ;i1 ;:::;in 6=k
n+1
X
r=1
r=1
0
r=1
min(Tk ;n+1)
Pk (Tk
r; Xr = j) = Ek @
170
X
r=1
r; Xr = j)
1
1fXr =1g A :
Wegen
0
X
lim Ek @
n!1
folgt also
1
min(Tk ;n+1)
Tk
X
1fXr =1g A = Ek
r=1
(j)
Wir betrachten nun das Mass :=
der Vorausssetzung, dass a) erfüllt,
0=
k
r=1
1fXr =1g
!
=
k
(j)
(j) ; 8j:
k;
das ebenfalls invariant ist. Ferner gilt nach
(k) = 0: Somit folgt
X
(n)
(k) =
(j) pjk
j
für alle n: Wegen der Irreduzibilität folgt sofort (j) = 0 fur alle j 2 I:
Einer der Hauptsätze über Marko¤-Ketten ist der folgende Satz:
Satz 9.32
P sei irreduzibel. Dann sind die folgenden Aussagen a)-c) äquivalent.
a) Es existiert eine Gleichgewichtsverteilung (d.h. eine invariante Wahrscheinlichkeitsverteilung)
b) Es existiert i 2 I mit
Ei (Ti ) =
1
X
n=0
(n)
nfii < 1:
(9.13)
c) (9.13) gilt für alle i 2 I:
Sind diese Bedingungen erfüllt, so ist die Gleichgewichtsverteilung
durch
1
(i) =
Ei (Ti )
eindeutig und
(9.14)
gegeben.
Beweis. c)=)b) ist trivial. Wir zeigen b)=)a): Aus Ei (Ti ) < 1 folgt, dass i (und
somit die ganze Kette) rekurrent ist. Wir können daher Proposition 9.31 anwenden, die
besagt, dass ein invariantes Mass existiert, nämlich k : Nun gilt
X
j
k
(j) =
X
j
Ek
XTk
= Ek (Tk ) =
n=1
1
X
1fXn =jg
= Ek
(n)
nfkk =
k
n=0
Somit ist
(j) :=
k
< 1:
(j)
k
171
XTk X
n=1
j
1fXn =jg
ein invariantes Wahrscheinlichkeitsmass, d.h. eine Gleichgewichtsverteilung.
a)=)c): Sei eine Gleichgewichtsverteilung und k 2 I beliebig. Dann ist ^ (j) :=
(j) = (k) ein invariantes Mass mit ^ (k) = 1: Nach Proposition 9.31 gilt ^ = k : Nach
der vorangegangen Überlegung gilt dann
1
X
n=0
(n)
nfkk =
X
k
(j) =
j
X
^ (j) =
j
1
< 1:
(k)
Damit ist c) gezeigt.
Die Zusatzaussage des Satzes, dass die Gleichgewichtsverteilung eindeutig ist, folgt
sofort aus der vorangegangenen Diskussion, ebenso wie (9.14).
De…nition 9.33
P
(n)
i 2 I heisst positiv rekurrent, wenn Ei (Ti ) = 1
n=0 nfii < 1 gilt. Ist i rekurrent
aber nicht positiv rekurrent, so heisst i nullrekurrent.
Bemerkung 9.34
Ist P irreduzibel, so folgt aus Satz 9.32 sofort, dass alle Zustände positive rekurrent sind,
wenn einer es ist.
Es muss betont werden, dass die Gleichgewichtsverteilung, selbst wenn man weiss,
dass sie existiert, in der Regel nicht explizit berechnet werden kann. In wichtigen Fällen,
vor allem wenn die detailed balance Bedinung (9.12) efüllbar ist, kann man die Gleichgewichtsverteilung “erraten”, wie zum Beispiel bei Irrfahrten auf Graphen, wie wir gesehen
haben.
Wie wir in diesem Abschnitt gesehen haben, gibt es für eine irreduzible, rekurrente Kette bis auf Multiplikation mit einer Konstanten genau ein invariantes Mass. Für
transiente Ketten ist die Situation komplizierter. Es gibt transiente Ketten ohne (nichttriviales) invariantes Mass und solche, die mehrere besitzen. Natürlich kann eine irreduzible transiente Kette kein endliches invariantes Mass besitzen, denn aus Satz 9.32 folgt
automatisch die Positivrekurrenz, wenn ein solches existiert.
Beispiel 9.35
Wir betrachten die asymmetrische Irrfahrt auf Z: Sie hat die Übergangswahrscheinlichkeiten pi;i 1 = q < p = pi;i+1 ; mit q = 1 p: Die Bedingung für ein invariantes Mass
ist
(i) = (i 1) p + (i + 1) q:
Die allgemeine Lösung dieser Gleichung ist
(i) = A + B (p=q)i :
Es gilt (i) > 0 für alle i; sofern A und B positiv sind. Es existieren also mehrere
invariante Masse. Daraus folgt, dass die Kette transient ist, was man natürlich auch
direkt zeigen kann.
172
Ist p = q = 1=2; so ist die Kette, wie wir wissen, rekurrent. Die allgemeine Lösung
der obigen Gleichung ist in diesem Fall
(i) = A + Bi:
Dies erfüllt jedoch nur dann (i)
0; 8i; wenn B = 0 ist, in Übereinstimmung mit
dem Satz, dass im rekurrenten Fall ein invariantes Mass eindeutig ist (bis auf skalare
Multiplikation).
Proposition 9.36
Die symmetrische Irrfahrt für d = 1 und 2 ist nullrekurrent.
Beweis. Wir hatten schon gesehen, dass die Irrfahrt rekurrent ist. Es gibt also ein bis
auf Multiplikation mit einem Skalar eindeutiges invariantes Mass. Dieses Mass lässt sich
einfach erraten: (i) = 1 für alle i: Da dies kein Wahrscheinlichkeitsmass ist, kann die
Irrfahrt nicht positiv rekurrent sein, d.h. die Rückkehrzeiten haben keinen endlichen
Erwartungswert.
Proposition 9.37
Endliche irreduzible Marko¤-Ketten sind positiv rekurrent.
Beweis. Wir betrachten einen festen Punkt i 2 I und T := Ti : Wir müssen nur zeigen,
(n )
(n )
dass Ei (T ) < 1 gilt. Für jedes j 2 I existiert nj mit pji j > 0: Sie " := minj pji j > 0
und N := max fnj : j 2 Ig : Dann gilt Pj (T N )
" für alle j 2 I: Wir zeigen mit
Induktion nach k 2 N; dass
Pi (T > kN ) (1 ")k
(9.15)
ist. Für k = 1 ist das schon gezeigt. Für k > 1 gilt
X
Pi (T > kN ) =
Pi T > (k 1) N; X(k
1)N
= j; T > kn
1)N
= j Pj (T > n)
j:j6=i
X
=
Pi T > (k
1) N; X(k
j:j6=i
Pi (T > (k
1) N ) max Pj (T > n)
j:j6=i
(1
")k
1
(1
") :
Die zweite Gleichung folgt aus der Marko¤-Eigenschaft (9.3) und die letzte Ungleichung
benützt die Induktionsvoraussetzung. Damit ist (9.15) gezeigt. Aus dieser Ungleichung
folgt sofort
Ei (T ) =
1
X
Ei T 1fkN <T
k=0
1
X
N
k=0
(1
(k+1)N g
")k (k + 1) < 1:
173
1
X
k=0
Pi (T > kN ) (k + 1) N
9.5
Konvergenz gegen die Gleichgewichtsverteilung
Wir zeigen in diesem Abschnitt, dass die n-stu…gen Übergangswahrscheinlichkeiten einer
irreduziblen, aperiodischen und rekurrenten Marko¤-Kette konvergieren:
Satz 9.38
Sei P irreduzibel, aperiodisch und positiv rekurrent mit Gleichgewichtsverteilung : Dann
gilt
a) Für alle i; j 2 I gilt
(n)
lim p
n!1 ij
b) Für eine beliebige Startverteilung
=
(j) :
gilt:
lim P (Xn = j) =
n!1
(j) ; j 2 I:
b) folgt sofort aus a):
lim P (Xn = j) = lim
n!1
n!1
=
X
X
(n)
(i) pij =
i
(i) (j) =
X
i
(n)
(i) lim pij
n!1
(j) ;
i
P
P
(n)
wobei die Vertauschung des Limes mit der Summe wegen i (i) pij
i (i) =
1 < 1 gerechtfertigt ist.
Der Beweis von a) braucht etwas Vorbereitung.
^ auf I I ein: p^(i;j);(k;l) = pik pjl : Hat P die
Wir führen eine stochastische Matrix P
^ die Gleichgewichtsverteilung ^ (i; j) =
Gleichgewichtsverteilung ; so hat o¤ensichtlich P
(i) (j) : Ferner gilt
(n)
(n) (n)
p^(i;j);(k;l) = pik pjl :
^
Diese Eigenschaften prüft man sehr einfach nach. Es ist allerding nicht richtig, dass P
automatisch irreduzibel ist, wenn P es ist.
Lemma 9.39
^ irreduzibel und aperiodisch.
Ist P irreduzibel und aperiodisch, so ist P
Beweis. Seien i; j; k; l 2 I: Nach Lemma
Lemma 9.40
^ positiv rekurrent.
Erfüllt P die Voraussetzungen unseres Satzes, so ist P
^ ist irreduzibel und besitzt eine Gleichgewichtsverteilung. Nach Satz 9.32 folgt
Beweis. P
damit die Positivrekurrenz.
Sei i 2 I beliebig, aber fest gewählt. Wir betrachten nun eine Markovkette mit
^ und Startverteilung = i
stochastischer Matrix P
; d.h. (k; l) = ik (l) : ( hängt
174
natürlich von i ab). Die Marko¤-Kette schreiben wir als (Xn ; Yn )n2N0 : (Xn ) und (Yn )
sind einfach zwei unabhängige Marko¤-Ketten, die eine mit Start in i und die andere
mit Startverteilung : Sind i0 ; ; : : : ; in und j0 ; : : : ; jn zwei Folgen von Elementen in I;
so gilt o¤ensichtlich
P
X[0;n] = i[0;n] ; Y[0;n] = j[0;n] = Pi X[0;n] = i[0;n] P
Y[0;n] = j[0;n] :
(9.16)
Sei
T := inf fn 2 N0 : Xn = Yn g :
Lemma 9.41
lim P (T > N ) = 0;
N !1
d.h. es gilt P (T < 1) = 1:
Wir de…nieren nun eine neue Folge (Zn )n2N0 von I-wertigen Zufallsgrössen:
Zn :=
Xn f u
•r n T
:
Yn f u
•r n > T
Lemma 9.42
Z0 ; Z1 ; : : : ist eine Marko¤-Kette mit Start in i und stochastischer Matrix P:
Beweis. Wir müssen einfach die Gleichung (9.2) für die Z-Folge (für Start in i) nachweisen. Seien i0 ; : : : ; in 2 I:
P
Z[0;n] = i[0;n] =
n
X
P
Z[0;n] = i[0;n] ; T = k + P
Z[0;n] = i[0;n] ; T > n
P
X[0;k] = i[0;k] ; Y[k+1;n] = i[k+1;n] ; Y0 6= i0 ; : : : ; Yk
k=0
=
n
X
k=0
+P
1
6= ik
X[0;n] = i[0;n] ; Y0 6= i0 ; : : : ; Yn 6= in :
Mit (9.16) folgt
P
X[0;k] = i[0;k] ; Y[k+1;n] = i[k+1;n] ; Y0 6= i0 ; : : : ; Yk
= Pi X[0;k] = i[0;k] P
= Pi X[0;k] = i[0;k] P
1
6= ik
Y[k+1;n] = i[k+1;n] ; Y0 6= i0 ; : : : ; Yk
Y[k+1;n] = i[k+1;n] j Y0 6= i0 ; : : : ; Yk
P (Y0 6= i0 ; : : : ; Yk 1 6= ik 1 ; Yk = ik )
n
Y
= i;i0
pij 1 ;ij P (Y0 6= i0 ; : : : ; Yk 1 6= ik
j=1
175
1 ; Yk
= ik ) ;
1 ; Yk
1
1
= ik
6= ik
6= ik
1 ; Yk
1 ; Yk
= ik
= ik
1 ; Yk
= ik
und
P
X[0;n] = i[0;n] ; Y0 6= i0 ; : : : ; Yn 6= in =
i;i0
n
Y
pij
P (Y0 6= i0 ; : : : ; Yn 6= in ) :
1 ;ij
j=1
Nun ist
n
X
k=0
P (Y0 6= i0 ; : : : ; Yk
1
6= ik
1 ; Yk
= ik ) + P (Y0 6= i0 ; : : : ; Yn 6= in ) = 1:
Kombinieren wir diese Gleichungen, so erhalten wir
P
Z[0;n] = i[0;n] =
i;i0
n
Y
pij
1 ;ij
:
j=1
Beweis von Satz 9.38 a).
(n)
pij = P (Zn = j) = P (Zn = j; T
= P (Zn = j; T
n) + P (Zn = j; T > n) ;
(j) = P (Yn = j) = P (Yn = j; T
= P (Zn = j; T
n) + P (Zn = j; T > n)
n) + P (Yn = j; T > n)
n) + P (Yn = j; T > n)
Somit folgt
(n)
pij
(j)
2P (T > n) ! 0
für n ! 1; nach Lemma 9.41.
Bemerkung 9.43
Satz 9.38 muss im periodischen Fall etwas umformuliert werden. Für positiv rekurrente,
irreduzible Ketten mit Periode d gilt:
d 1
1X
P (Xn+k = i) =
n!1 d
lim
(i)
k=0
für jede Startverteilung
führen.
und jedes i 2 I. Wir wollen den Beweis jedoch nicht durch-
176
Herunterladen