Diskrete Wahrscheinlichkeitstheorie

Werbung
SS 2014
Diskrete Wahrscheinlichkeitstheorie
Susanne Albers
Fakultat f
ur Informatik
TU M
unchen
http://www14.in.tum.de/lehre/2014SS/dwt/
Sommersemester 2014
DWT
c Susanne Albers und Ernst W. Mayr
Kapitel 0 Organisatorisches
Vorlesungen:
Mi 16:00{18:00 und Mi 18:00{19:00 (MI HS1)
Pichtvorlesung Bachelor IN, Bioinformatik
Modulnr.: IN0018
 bung:
U

2SWS Tutorubung: siehe Webseite zur Ubung
2SWS (freiwillige) Zentralubung: Do 14:00{15:00 (Physik HS1 Rudolf Mobauer )

Ubungsleitung:
Dr. W. Meixner
Umfang:

 6 ECTS-Punkte
3V+2TU+2Z
U,
Sprechstunde:
nach Vereinbarung
DWT
c Susanne Albers und Ernst W. Mayr
2/462
 bungsleitung:
U
Dr. Werner Meixner, MI 03.09.040 ([email protected])
Sprechstunde: Donnerstag, 12:00{12:30 nach Vereinbarung
Sekretariat:
Frau Lissner, MI 03.09.052 ([email protected])
DWT
c Susanne Albers und Ernst W. Mayr
3/462
 bungsaufgaben:
U
Ausgabe jeweils am Montag auf der Webseite der Vorlesung, ab 14:00 Uhr
Abgabe eine Woche spater, jeweils Mittwoch bis 10:00 Uhr, Briefkasten Westseite
Untergeschoss FMI Magistrale
Vorbereitung in der Tutorubung

vorauss. 12 Ubungsbl
atter, das letzte am 07. Juli 2014, jedes 20 Punkte

Bonusregelung: Werden mindestens 50% der insgesamt erreichbaren Ubungspunkte
erzielt, so verbessert sich die Note einer bestandenen Klausur um 1/3 Notenstufe.
Klausur:
Klausur am 29. Juli 2014, 11{13 Uhr
Wiederholungsklausur am 01. Oktober 2014, 11:30{13:30 Uhr
bei den Klausuren sind keine Hilfsmittel auer einem handbeschriebenen
DIN-A4-Blatt zugelassen
DWT
c Susanne Albers und Ernst W. Mayr
4/462
Vorkenntnisse:
Einfuhrung in die Informatik I/II
Diskrete Strukturen
Weiterfuhrende Vorlesungen:
Eziente Algorithmen und Datenstrukturen
Randomisierte Algorithmen
Online- und Approximationsalgorithmen
Komplexitatstheorie
...
Webseite:
http://www14.in.tum.de/lehre/2014SS/dwt/
DWT
c Susanne Albers und Ernst W. Mayr
5/462
1. Vorlesungsinhalt
Diskrete Wahrscheinlichkeitsraume
Wahrscheinlichkeitsraum, Ereignis, Zufallsvariable
spezielle Verteilungen
Ungleichungen von Markov und Chebyshev
Kontinuierliche Wahrscheinlichkeitsraume
Normalverteilung, Exponentialverteilung
Zentraler Grenzwertsatz
Statistik
Schatzvariablen
Kondenzintervalle
Testen von Hypothesen
Stochastische Prozesse
Markovketten
Warteschlangen
DWT
c Susanne Albers und Ernst W. Mayr
1 Vorlesungsinhalt
6/462
2. Literatur
T. Schickinger, A. Steger:
Diskrete Strukturen - Band 2,
Springer Verlag, 2001
M. Greiner, G. Tinhofer:
Stochastik fur Informatiker,
Carl Hanser Verlag, 1996
H. Gordon:
Discrete Probability,
Springer-Verlag, 1997
M. Mitzenmacher, E. Upfal:
Probability and Computing: Randomized Algorithms and Probabilistic Analysis,
Cambridge University Press, 2005
DWT
c Susanne Albers und Ernst W. Mayr
7/462
R. Motwani, P. Raghavan:
Randomized Algorithms,
Cambridge University Press, 1995
M. Hofri:
Probabilistic Analysis of Algorithms,
Springer Verlag, 1987
L. Fahrmeir, R. Kunstler, I. Pigeot, G. Tutz:
Statistik - Der Weg zur Datenanalyse,
Springer-Verlag, 1997
DWT
c Susanne Albers und Ernst W. Mayr
2 Literatur
8/462
3. Einleitung
Was bedeutet Zufall?
Unkenntnis uber den Ausgang eines durchgefuhrten Experiments
Ein Experiment wird vielfach mit eventuell sich anderndem Ergebnis ausgefuhrt
Ereignisse stehen in keinem kausalen Zusammenhang
physikalischer Zufall (Rauschen, Kernzerfall)
DWT
c Susanne Albers und Ernst W. Mayr
3 Einleitung
9/462
Zufall in der diskreten Informatik
Die Eingabe fur einen bestimmten Algorithmus wird aus einer groen Menge
moglicher Eingaben zufallig gewahlt:
average case
Kombination von Worst-Case- und Average-Case-Analyse, in der Eingaben gema
einer Verteilung leicht pertubiert werden:
smoothed analysis
Der Algorithmus verwendet Zufallsbits, um mit groer Wahrscheinlichkeit gewisse
Problemsituationen zu vermeiden:
Randomisierung
DWT
c Susanne Albers und Ernst W. Mayr
3 Einleitung
10/462
Kapitel I Diskrete Wahrscheinlichkeitsraume
1. Grundlagen
Denition 1
1
2
Ein diskreter Wahrscheinlichkeitsraum ist durch eine Ergebnismenge
= f!1 ; !2 ; : : :g von Elementarereignissen gegeben.
Jedem Elementarereignis !i ist eine (Elementar-)Wahrscheinlichkeit Pr[!i ]
zugeordnet, wobei wir fordern, dass 0 Pr[!i ] 1 und
X
! 2
DWT
c Susanne Albers und Ernst W. Mayr
Pr[!] = 1:
1 Grundlagen
11/462
3
Eine Menge E heit Ereignis. Die Wahrscheinlichkeit Pr[E ] eines Ereignisses
ist durch
X
Pr[E ] :=
deniert.
DWT
c Susanne Albers und Ernst W. Mayr
! 2E
1 Grundlagen
Pr[!]
12/462
Beispiel 2
Zwei faire Wurfel (einer wei, einer schwarz) werden geworfen. Wir sind an der
Gesamtzahl der angezeigten Augen interessiert:
= f (1; 1); (1; 2); (1; 3); (1; 4); (1; 5); (1; 6);
(2; 1); (2; 2); (2; 3); (2; 4); (2; 5); (2; 6);
(3; 1); (3; 2); (3; 3); (3; 4); (3; 5); (3; 6);
(4; 1); (4; 2); (4; 3); (4; 4); (4; 5); (4; 6);
(5; 1); (5; 2); (5; 3); (5; 4); (5; 5); (5; 6);
(6; 1); (6; 2); (6; 3); (6; 4); (6; 5); (6; 6) g
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
13/462
1
Die Wahrscheinlichkeit Pr((i; j )) eines jeden Elementarereignisses (i; j ) ist 361 .
2
Die Wahrscheinlichkeit Pr(E ) des Ereignisses
E = fDie Gesamtzahl der Augen ist 10g
ist 121 .
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
14/462
Wir hatten aber auch sagen konnen:
= f2; 3; 4; : : : ; 10; 11; 12g
Die Wahrscheinlichkeiten der Elementarereignisse sind dann aber nicht mehr gleich. Es
ist z.B.
1 Pr(2) = 1 ;
36
2 Pr(4) = 1 ;
12
3 Pr(7) = 1 .
6
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
15/462
Beispiel 3
Eine faire Munze wird so lange geworfen, bis die gleiche Seite zweimal hintereinander
fallt. Dann ist
= fhh, tt, htt, thh, thtt, hthh, hthtt, ththh, : : :g
Frage: Was sind die Wahrscheinlichkeiten der einzelnen Elementarereignisse?
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
16/462
E heit komplementares Ereignis zu E .
Allgemein verwenden wir bei der Denition von Ereignissen alle bekannten Operatoren
aus der Mengenlehre. Wenn also A und B Ereignisse sind, dann sind auch A [ B ,
A \ B , A n B etc. Ereignisse.
Zwei Ereignisse A und B heien disjunkt oder auch unvereinbar, wenn A \ B = ; gilt.
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
17/462
Denition 4
relative Haugkeit von E
absolute Haugkeit von E
:= Anzahl
aller Beobachtungen
Anzahl Eintreten von E
:
= Anzahl
aller Beobachtungen
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
18/462
Denition 5
Ein Wahrscheinlichkeitsraum mit = f!1 ; : : : ; !n g heit endlicher
Wahrscheinlichkeitsraum.
Bei unendlichen Wahrscheinlichkeitsraumen werden wir gewohnlich nur den Fall
= N0 betrachten. Dies stellt keine groe Einschrankung dar, da wir statt einer
Ergebnismenge = f!1 ; !2 ; : : :g auch N0 als Ergebnismenge verwenden konnen,
indem wir !i mit i 1 identizieren. Wir sagen, dass durch die Angabe der
Elementarwahrscheinlichkeiten ein Wahrscheinlichkeitsraum auf deniert ist.
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
19/462
Beispiel 6
Wir beobachten die an einer Strae in Bayern vorbeifahrenden Autos. Dabei gelte:
1 Es fahren doppelt so viele Autos von links nach rechts wie von rechts nach links.
2 Von zehn Autos haben zwei die Farbe hellelfenbein, die u
brigen eine andere
Lackierung.
Das Ereignis \Wir beobachten ein von links nach rechts fahrendes Auto" hat die
Wahrscheinlichkeit 23 .
Das Ereignis \Das nachste Auto ist ein Taxi von rechts" passiert mit
Wahrscheinlichkeit
11:
3 5
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
20/462
Beispiel 7 (Unendlicher Wahrscheinlichkeitsraum)
Wir betrachten eine Munze, die mit Wahrscheinlichkeit p Kopf zeigt und mit
Wahrscheinlichkeit q := 1 p Zahl.
Wir fuhren Versuche aus, indem wir die Munze wiederholt solange werfen, bis Zahl fallt.
Das Ergebnis eines solchen Versuchs ist die Anzahl der durchgefuhrten Munzwurfe.
Damit ergibt sich hier als Ergebnismenge
= N = f1; 2; 3; : : :g :
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
21/462
Beispiel 7 (Forts.)
Sei, fur i 2 N, !i das Elementarereignis
!i =
b Die M
unze wird i-mal geworfen :
Dann gilt:
und
Pr[!i ] = pi 1 q ;
X
! 2
Pr[!] =
1
X
i=1
1
X
q
pi 1 q = q pi =
i=0
1 p =1:
(wie es sein soll!)
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
22/462
Lemma 8
Fur Ereignisse A; B; A1 ; A2 ; : : : gilt:
1 Pr[;] = 0, Pr[
] = 1.
2
3
4
0 Pr[A] 1.
Pr[A] = 1 Pr[A].
Wenn A B , so folgt Pr[A] Pr[B ].
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
23/462
Lemma 8 (Forts.)
5
(Additionssatz) Wenn die Ereignisse A1 ; : : : ; An paarweise disjunkt sind (also wenn fur
alle Paare i 6= j gilt, dass Ai \ Aj = ;), so folgt
"
Pr
n
[
i=1
#
Ai =
n
X
i=1
Pr[Ai ]:
Fur disjunkte Ereignisse A, B erhalten wir insbesondere
Pr[A [ B ] = Pr[A] + Pr[B ] :
Fur eine unendliche Menge von disjunkten Ereignissen A1 ; A2 ; : : : gilt analog
"
Pr
DWT
c Susanne Albers und Ernst W. Mayr
1
[
i=1
#
Ai =
1 Grundlagen
1
X
i=1
Pr[Ai ] :
24/462
Beweis:
Die Aussagen folgen unmittelbar aus Denition 1, den Eigenschaften der Addition und
der Denition der Summe.
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
25/462
Eigenschaft 5 in Lemma 8 gilt nur fur disjunkte Ereignisse. Fur den allgemeinen Fall
erhalten wir folgenden
Satz 9 (Siebformel, Prinzip der Inklusion/Exklusion)
Fur Ereignisse A1 ; : : : ; An (n 2) gilt:
"
Pr
n
[
i=1
#
Ai
=
n
X
i=1
+ ( 1)l
+ (
DWT
c Susanne Albers und Ernst W. Mayr
Pr[Ai ]
1
X
1i1 <i2 n
X
Pr[Ai \ Ai ] + : : :
1
2
Pr[Ai \ : : : \ Ail ] + : : :
1
1i1 <:::<il n
n
1
1) Pr[A1 \ : : : \ An ] :
1 Grundlagen
26/462
Satz 9 (Forts.)
Insbesondere gilt fur zwei Ereignisse A und B
Pr[A [ B ] = Pr[A] + Pr[B ] Pr[A \ B ] :
Fur drei Ereignisse A1 , A2 und A3 erhalten wir
Pr[A1 [ A2 [ A3 ] = Pr[A1 ] + Pr[A2 ] + Pr[A3 ]
Pr[A1 \ A2 ] Pr[A1 \ A3 ]
Pr[A2 \ A3 ]
+Pr[A1 \ A2 \ A3 ] :
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
27/462
Beweis:
Wir betrachten zunachst den Fall n = 2. Dazu setzen wir C := A n B = A n (A \ B ).
Gema dieser Denition gilt, dass C und A \ B sowie C und B disjunkt sind. Deshalb
konnen wir Eigenschaft 5 von Lemma 8 anwenden:
Pr[A] = Pr[C [ (A \ B )] = Pr[C ] + Pr[A \ B ] :
Wegen A [ B = C [ B folgt daraus
Pr[A [ B ] = Pr[C [ B ] = Pr[C ] + Pr[B ] =
Pr[A] Pr[A \ B ] + Pr[B ]
und wir haben die Behauptung fur n = 2 gezeigt.
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
28/462
Beweis (Forts.):
Der Fall n = 3:
A1
A2
A3
Ω
Man beachte, dass durch die im Satz angegebene Summe jedes Flachenstuck
insgesamt genau einmal gezahlt wird.
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
29/462
Beweis (Forts.):
Der allgemeine Fall kann nun durch Induktion uber n gezeigt werden (was wir aber hier
nicht ausfuhren!).
Satz 9 ndet man manchmal auch unter der Bezeichung Satz von Poincare-Sylvester,
nach dem Franzosen
Jules Henri Poincare (1854{1912)
und dem Englander
James Joseph Sylvester (1814{1897)
benannt.
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
30/462
Boolesche Ungleichung:
Die folgende Abschatzung ist nach George Boole (1815{1864) benannt:
Korollar 10
Fur Ereignisse A1 ; : : : ; An gilt
"
Pr
n
[
i=1
#
Ai
n
X
i=1
Pr[Ai ] :
Analog gilt fur eine unendliche Folge von Ereignissen A1 ; A2 ; : : :, dass
"
Pr
DWT
c Susanne Albers und Ernst W. Mayr
1
[
i=1
#
Ai
1
X
i=1
1 Grundlagen
Pr[Ai ] :
31/462
Beweis:
Zunachst betrachten wir die linke Seite der Ungleichung fur den endlichen Fall und
erhalten
"
#
Pr
Fur die rechte Seite gilt
n
[
i=1
n
X
i=1
Ai =
Pr[Ai ] =
X
S
!2 ni=1 Ai
n X
X
i=1 !2Ai
Pr[!] :
Pr[!] :
Jedes Elementarereignis kommt links also genau einmal und rechts mindestens einmal
vor.
DWT
c Susanne Albers und Ernst W. Mayr
1 Grundlagen
32/462
1.1 Wahl der Wahrscheinlichkeiten
Frage: Wie konnen Wahrscheinlichkeiten sinnvoll festgelegt werden?
Prinzip von Laplace (Pierre Simon Laplace (1749{1827)): Wenn nichts dagegen
spricht, gehen wir davon aus, dass alle Elementarereignisse gleich wahrscheinlich sind.
Also:
Pr[E ] = jjE
jj
DWT
c Susanne Albers und Ernst W. Mayr
1.1 Wahl der Wahrscheinlichkeiten
33/462
1.2 Historische Anfange der Wahrscheinlichkeitstheorie
Die ersten Hinweise auf mathematische Untersuchungen zu Problemen der
Wahrscheinlichkeitstheorie nden sich in einem Briefwechsel zwischen den
franzosischen Mathematikern
Pierre Fermat (1601{1665)
und
Blaise Pascal (1623{1662).
Pascal beschaftigte sich neben der Mathematik auch mit Fragestellungen aus dem
Bereich der Physik und auch aus der Informatik! Sein Vater hatte als Steuerinspektor
in Rouen umfangreiche Rechnungen durchzufuhren und so wurde Pascal zum Bau einer
mechanischen Rechenmaschine, der so genannten Pascaline, motiviert.
DWT
c Susanne Albers und Ernst W. Mayr
1.2 Historische Anfange der Wahrscheinlichkeitstheorie
34/462
In dem Briefwechsel taucht bereits der Ansatz Pr[E ] = jE j=j
j zur Berechnung der
Wahrscheinlichkeit von E auf. Auch den Begri des Erwartungswerts kann man dort
 berlegungen zur
schon nden. Weder Fermat noch Pascal publizierten ihre U
Wahrscheinlichkeitstheorie. Der Niederlander
Christiaan Huygens (1629{1695)
entwickelte ebenfalls Methoden zum Arbeiten mit Wahrscheinlichkeiten aus. Er
publizierte im Jahre 1657 auch eine kleine Arbeit mit dem Titel De ratiociniis in ludo
"
 ber die Gesetzmaigkeiten beim Wurfelspiel).
aleae\ (U
DWT
c Susanne Albers und Ernst W. Mayr
1.2 Historische Anfange der Wahrscheinlichkeitstheorie
35/462
2. Bedingte Wahrscheinlichkeiten
Beispiel 11
A und B spielen Poker (52 Karten, 5 Karten pro Spieler, keine getauschten Karten).
A halt vier Asse und eine Herz Zwei in der Hand. B kann dieses Blatt nur uberbieten,
wenn er einen Straight Flush (funf Karten einer Farbe in aufsteigender Reihenfolge hat.
Die Wahrscheinlichkeit fur das Ereignis F := B hat einen Straight Flush\ betragt
"
31 = 2;02:: 10 5 :
Pr[F ] = jjF
jj = 3 528 +57 = 1533939
5
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
36/462
Beispiel 11 (Forts.)
A hat die Karten allerdings gezinkt und wei, dass B nur Kreuz in der Hand halt.
Bezeichne nun 0 den Wahrscheinlichkeitsraum aller Moglichkeiten fur B und F 0 das
Ereignis, dass B einen Straight Flush der Farbe Kreuz hat:
0
8 0;01 !!
Pr[F 0 ] = jjF
0 jj = 128 = 792
5
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
37/462
Fur Pr[AjB ] erforderliche Eigenschaften:
1 Pr[B jB ] = 1;
2 Pr[Aj
] = Pr[A];
3 f
ur festes B ist Pr[AjB ] proportional zu Pr[A \ B ].
Denition 12
A und B seien Ereignisse mit Pr[B ] > 0. Die bedingte Wahrscheinlichkeit Pr[AjB ]
von A gegeben B ist deniert als
A \ B]
Pr[AjB ] := Pr[Pr[
:
B]
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
38/462
Die bedingten Wahrscheinlichkeiten Pr[jB ] bilden fur ein beliebiges Ereignis B mit Pr[B ] > 0 einen neuen Wahrscheinlichkeitsraum uber .
Es ist leicht nachzurechnen, dass dadurch die Denition eines diskreten
Wahrscheinlichkeitsraums erfullt ist:
X
! 2
Pr[!jB ] =
Pr[! \ B ] = X Pr[!] = Pr[B ] = 1:
Pr[B ]
Pr[B ] Pr[B ]
! 2
! 2B
X
Damit gelten alle Rechenregeln fur Wahrscheinlichkeiten auch fur bedingte
Wahrscheinlichkeiten. Beispielsweise:
Pr[;jB ] = 0 sowie Pr[AjB ] = 1 Pr[AjB ] :
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
39/462
Beispiel 13 (Reskalierung bei bedingten Wahrscheinlichkeiten)
Betrachte folgenden gezinkten Wurfel:
0,7
Pr[x℄
0,6
0,5
0,4
0,3
0,2
0,1
0,0
DWT
c Susanne Albers und Ernst W. Mayr
0
1
2
3
4
2 Bedingte Wahrscheinlichkeiten
5
6
7
40/462
Beispiel 13 (Forts.)
Wir betrachten nun den durch B := f3; 4; 5g gegebenen bedingten
Wahrscheinlichkeitsraum:
0,7
0,7
Pr[x℄
0,6
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0,0
0
1
2
DWT
c Susanne Albers und Ernst W. Mayr
3
4
5
6
7
0,0
Pr[xjB ℄
0
1
2 Bedingte Wahrscheinlichkeiten
2
3
4
5
6
7
41/462
Was genau war die Bedingung?
Beispiel 14 (Zweikinderproblem)
Wir nehmen an, dass bei der Geburt eines Kindes beide Geschlechter gleich
wahrscheinlich sind. Wir wissen, dass eine bestimmte Familie zwei Kinder hat und eines
davon ein Madchen ist. Wie gro ist die Wahrscheinlichkeit, dass beide Kinder der
Familie Madchen sind?
Naturlich 12 .
Wirklich?
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
42/462
Beispiel 14 (Forts.)
Eigentlich gilt:
und
:= fmm; mj; jm; jj g
M := fmm; mj; jmg :
Wir bedingen auf M , und damit gilt fur A := fmmg:
A \ M ] 1=4 1
Pr[AjM ] = Pr[Pr[
= 3=4 = 3 :
M]
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
43/462
Beispiel 15 (Ziegenproblem)
Sie nehmen an einer Spielshow im Fernsehen teil, bei der Sie eine von drei
verschlossenen Turen auswahlen sollen. Hinter einer Tur wartet der Preis, ein Auto,
hinter den beiden anderen stehen Ziegen. Sie zeigen auf eine Tur, sagen wir Nummer
eins. Sie bleibt vorerst geschlossen. Der Moderator wei, hinter welcher Tur sich das
Auto bendet; mit den Worten \Ich gebe Ihnen mal einen kleinen Hinweis" onet er
eine andere Tur, zum Beispiel Nummer drei, und eine Ziege schaut heraus und
meckert. Er fragt: \Bleiben Sie bei Nummer eins, oder wahlen sie Nummer zwei? "
Frage: Welche Strategie ist gunstiger:
S1 Der Spieler bleibt immer bei seiner ursprunglichen Wahl.
S2 Der Spieler wechselt stets die ausgewahlte Tur.
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
44/462
Beispiel (Forts.)
Wir betrachten hier eine Diskussion des Ziegenproblems mit Hilfe von bedingten
Wahrscheinlichkeiten. Wir betrachten bei jeder Variante den Fall, dass der Spieler
a) die \richtige",
b) eine falsche Tur gewahlt hat.
Ersteres geschieht mit Wahrscheinlichkeit 31 , Letzteres mit Wahrscheinlichkeit 23 .
Mit der vom Moderator gegebenen Information ergeben sich fur die beiden Strategien
die folgenden Gewinnwahrscheinlichkeiten:
a)
b)
DWT
c Susanne Albers und Ernst W. Mayr
S1
?
?
S2
?
?
2 Bedingte Wahrscheinlichkeiten
45/462
Haug verwendet man die Denition der bedingten Wahrscheinlichkeit in der Form
Pr[A \ B ] = Pr[B jA] Pr[A] = Pr[AjB ] Pr[B ] :
(1)
Damit:
Satz 16 (Multiplikationssatz)
Seien die Ereignisse A1 ; : : : ; An gegeben. Falls Pr[A1 \ : : : \ An ] > 0 ist, gilt
Pr[A1 \ : : : \ An ] =
Pr[A1 ] Pr[A2 jA1 ] Pr[A3 jA1 \ A2 ] : : :
: : : Pr[An jA1 \ : : : \ An 1 ] :
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
46/462
Beweis:
Zunachst halten wir fest, dass alle bedingten Wahrscheinlichkeiten wohldeniert sind,
da Pr[A1 ] Pr[A1 \ A2 ] : : : Pr[A1 \ : : : \ An ] > 0.
Die rechte Seite der Aussage im Satz konnen wir umschreiben zu
Pr[A1 ] Pr[A1 \ A2 ] Pr[A1 \ A2 \ A3 ] : : : Pr[A1 \ : : : \ An ] :
1
Pr[A1 ]
Pr[A1 \ A2 ]
Pr[A1 \ : : : \ An 1 ]
Oensichtlich kurzen sich alle Terme bis auf Pr[A1 \ : : : \ An ].
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
47/462
Beispiel 17 (Geburtstagsproblem)
Wie gro ist die Wahrscheinlichkeit, dass in einer m-kopgen Gruppe zwei Personen
am selben Tag Geburtstag haben?
Umformulierung:
Man werfe m Balle zufallig und gleich wahrscheinlich in n Korbe. Wie gro ist die
Wahrscheinlichkeit, dass nach dem Experiment jeder Ball allein in seinem Korb liegt?
Fur das Geburtstagsproblem: n = 365
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
48/462
Oensichtlich muss m n sein, damit uberhaupt jeder Ball allein in einem Korb liegen
kann.
Wir nehmen an, dass die Balle nacheinander geworfen werden. Ai bezeichne das
Ereignis Ball i landet in einem noch leeren Korb\. Das gesuchte Ereignis Alle Balle
"
"
liegen allein in einem Korb\ bezeichnen wir mit A. Nach Satz 16 konnen wir Pr[A]
berechnen durch
Pr[A] = Pr [\mi=1 Ai ]
= Pr[A1 ] Pr[A2 jA1 ] : : : Pr[Am j \mi=11 Ai ]:
Unter der Bedingung, dass die ersten j 1 Balle jeweils in einem leeren Korb gelandet
sind, bedeutet Aj , dass der j -te Ball in eine der n (j 1) leeren Korbe fallen muss,
die aus Symmetriegrunden jeweils mit derselben Wahrscheinlichkeit gewahlt werden.
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
49/462
Daraus folgt
Pr[Aj j \ij=11 Ai ] = n (nj 1) = 1 j n 1 :
Mit der Abschatzung 1 x e x und wegen Pr[A1 ] = 1 erhalten wir
Pr[A] =
m
Y
j =1
m
Y
1
j
n
1
Pm 1
e (j 1)=n = e (1=n) j=1 j
j =2
= e m(m 1)=(2n)
DWT
c Susanne Albers und Ernst W. Mayr
=: f (m) :
2 Bedingte Wahrscheinlichkeiten
50/462
1,0
f (m)
0,8
0,6
0,4
0,2
0,0
0
50
100
DWT
c Susanne Albers und Ernst W. Mayr
150
200
250
300
350
2 Bedingte Wahrscheinlichkeiten
Verlauf von f (m) fur n = 365
51/462
Ausgehend von der Darstellung der bedingten Wahrscheinlichkeit in Gleichung 1 zeigen
wir:
Satz 18 (Satz von der totalen Wahrscheinlichkeit)
Die Ereignisse A1 ; : : : ; An seien paarweise disjunkt und es gelte B A1 [ : : : [ An .
Dann folgt
Pr[B ] =
n
X
i=1
Pr[B jAi ] Pr[Ai ] :
S
Analog gilt fur paarweise disjunkte Ereignisse A1 ; A2 ; : : : mit B 1
i=1 Ai , dass
1
X
Pr[B ] =
DWT
c Susanne Albers und Ernst W. Mayr
i=1
Pr[B jAi ] Pr[Ai ] :
2 Bedingte Wahrscheinlichkeiten
52/462
Beweis:
Wir zeigen zunachst den endlichen Fall. Wir halten fest, dass
B = (B \ A1 ) [ : : : [ (B \ An ) :
Da fur beliebige i; j mit i 6= j gilt, dass Ai \ Aj = ;, sind auch die Ereignisse B \ Ai
und B \ Aj disjunkt. Wegen (1) folgt Pr[B \ Ai ] = Pr[B jAi ] Pr[Ai ] (auch fur den
Fall, dass Pr[Ai ] = 0!). Wir wenden nun den Additionssatz (Lemma 8, Teil 5) an
Pr[B ] = Pr[B \ A1 ] + : : : + Pr[B \ An ] =
Pr[B jA1 ] Pr[A1 ] + : : : + Pr[B jAn ] Pr[An ]
und haben damit die Behauptung gezeigt. Da der Additionssatz auch fur unendlich
viele Ereignisse A1 ; A2 ; : : : gilt, kann dieser Beweis direkt auf den unendlichen Fall
ubertragen werden.
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
53/462
Mit Hilfe von Satz 18 erhalten wir leicht einen weiteren nutzlichen Satz:
Satz 19 (Satz von Bayes)
Die Ereignisse A1 ; : : : ; An seien paarweise disjunkt, mit Pr[Aj ] > 0 fur alle j . Ferner sei
B A1 [ : : : [ An ein Ereignis mit Pr[B ] > 0. Dann gilt fur ein beliebiges i = 1; : : : ; n
Ai \ B ] P Pr[B jAi ] Pr[Ai ]
= n Pr[B jA ] Pr[A ] :
Pr[Ai jB ] = Pr[Pr[
B]
j
j
j =1
S
Analog gilt fur paarweise disjunkte Ereignisse A1 ; A2 ; : : : mit B 1
i=1 Ai , dass
Ai \ B ] P Pr[B jAi ] Pr[Ai ]
Pr[Ai jB ] = Pr[Pr[
= 1 Pr[B jA ] Pr[A ] :
B]
j
j
j =1
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
54/462
Mit dem Satz von Bayes dreht man gewissermaen die Reihenfolge der Bedingung um.
Gegeben die Wahrscheinlichkeit von B unter den Bedingungen Ai (sowie die
Wahrscheinlichkeiten der Ai selbst), berechnet man die Wahrscheinlichkeit von Ai
bedingt auf das Ereignis B .
Thomas Bayes (1702{1761) war ein bekannter Theologe und Mitglied der Royal
Society. Als sein bedeutendstes Werk gilt sein Beitrag zur Wahrscheinlichkeitstheorie
Essay Towards Solving a Problem in the Doctrine of Chances\. Diese Arbeit wurde
"
erst 1763 publiziert.
DWT
c Susanne Albers und Ernst W. Mayr
2 Bedingte Wahrscheinlichkeiten
55/462
3. Unabhangigkeit
Bei einer bedingten Wahrscheinlichkeit Pr[AjB ] kann der Fall auftreten, dass die
Bedingung auf B , also das Vorwissen, dass B eintritt, keinen Einuss auf die
Wahrscheinlichkeit hat, mit der wir das Eintreten von A erwarten. Es gilt also
Pr[AjB ] = Pr[A], und wir nennen dann die Ereignisse A und B unabhangig.
DWT
c Susanne Albers und Ernst W. Mayr
3 Unabhangigkeit
56/462
Beispiel 20 (Zweimaliges Wurfeln)
:= f(i; j ) j 1 i; j 6g :
Alle Elementarereignisse erhalten nach dem Prinzip von Laplace die
Wahrscheinlichkeit 361 .
Wir denieren die Ereignisse
A := Augenzahl im ersten Wurf ist gerade;
B := Augenzahl im zweiten Wurf ist gerade;
C := Summe der Augenzahlen beider Wurfe betragt 7:
Es gilt Pr[A] = Pr[B ] = 12 und Pr[C ] = 16 . Wie gro ist Pr[B jA]?
DWT
c Susanne Albers und Ernst W. Mayr
3 Unabhangigkeit
57/462
Beispiel 20 (Forts.)
Nach unserer Intuition beeinusst der Ausgang des ersten Wurfs den zweiten Wurf
nicht. Daher gewinnen wir durch das Eintreten von A keine Information in Bezug auf
das Ereignis B hinzu:
B \ A = f(2; 2); (2; 4); (2; 6); (4; 2); (4; 4); (4; 6); (6; 2); (6; 4); (6; 6)g:
Daraus folgt
9
36 = 1 = Pr[B ] :
1
2
2
Das Eintreen des Ereignisses B hat mit dem Ereignis A nichts zu tun\.
"
B \ A]
=
Pr[B jA] = Pr[Pr[
A]
DWT
c Susanne Albers und Ernst W. Mayr
3 Unabhangigkeit
58/462
Denition 21
Die Ereignisse A und B heien unabhangig, wenn gilt
Pr[A \ B ] = Pr[A] Pr[B ] :
Falls Pr[B ] 6= 0, so konnen wir diese Denition zu
A \ B]
Pr[A] = Pr[Pr[
= Pr[AjB ]
B]
umschreiben.
DWT
c Susanne Albers und Ernst W. Mayr
3 Unabhangigkeit
59/462
Beispiel 20 (Zweimaliges Wurfeln, Forts.)
Zur Erinnerung:
A := Augenzahl im ersten Wurf ist gerade;
B := Augenzahl im zweiten Wurf ist gerade;
C := Summe der Augenzahlen beider Wurfe betragt 7:
Bei den Ereignissen A und B ist die Unabhangigkeit klar, da oensichtlich kein
kausaler Zusammenhang zwischen den Ereignissen besteht. Wie steht es mit A und C ?
A \ C = f(2; 5); (4; 3); (6; 1)g
und damit
3 = 1 1 = Pr[A] Pr[C ] bzw. Pr[C jA] = Pr[C ] :
Pr[A \ C ] = 36
2 6
DWT
c Susanne Albers und Ernst W. Mayr
3 Unabhangigkeit
60/462
Beispiel 20 (Forts.)
Also sind auch A und C (und analog B und C ) unabhangig.
Bemerkung: Im Beispiel ist A \ C 6= ;.
Es gilt sogar allgemein fur zwei unabhangige Ereignisse A und B mit Pr[A]; Pr[B ] > 0,
dass sie gar nicht disjunkt sein konnen, da ansonsten
0 = Pr[;] = Pr[A \ B ] 6= Pr[A] Pr[B ] :
DWT
c Susanne Albers und Ernst W. Mayr
3 Unabhangigkeit
61/462
Beispiel 20 (Zweimaliges Wurfeln (Forts.))
Zur Erinnerung:
A := Augenzahl im ersten Wurf ist gerade;
B := Augenzahl im zweiten Wurf ist gerade;
C := Summe der Augenzahlen beider Wurfe betragt 7:
Wir betrachten das Ereignis A \ B \ C . Wenn A \ B eintritt, so sind beide
gewurfelten Augenzahlen gerade und somit ergibt auch die Summe davon eine gerade
Zahl. Daraus folgt Pr[A \ B \ C ] = 0 bzw. Pr[C jA \ B ] = 0 6= Pr[C ]. Das Ereignis
A \ B liefert uns also Information uber das Ereignis C .
DWT
c Susanne Albers und Ernst W. Mayr
3 Unabhangigkeit
62/462
Denition 22
Die paarweise verschiedenen Ereignisse A1 ; : : : ; An heien unabhangig, wenn fur alle
Teilmengen I = fi1 ; : : : ; ik g f1; : : : ; ng mit i1 < i2 < : : : < ik gilt, dass
Pr[Ai \ : : : \ Aik ] = Pr[Ai ] : : : Pr[Aik ]:
1
(2)
1
Eine unendliche Familie von paarweise verschiedenen Ereignissen Ai mit i 2 N heit
unabhangig, wenn (2) fur jede endliche Teilmenge I N erfullt ist.
DWT
c Susanne Albers und Ernst W. Mayr
3 Unabhangigkeit
63/462
Lemma 23
Die (paarweise verschiedenen) Ereignisse A1 ; : : : ; An sind genau dann unabhangig,
wenn fur alle (s1 ; : : : ; sn ) 2 f0; 1gn gilt, dass
Pr[As1 \ : : : \ Asnn ] = Pr[As1 ] : : : Pr[Asnn ];
1
1
(3)
wobei A0i = Ai und A1i = Ai .
DWT
c Susanne Albers und Ernst W. Mayr
3 Unabhangigkeit
64/462
Beweis:
Zunachst zeigen wir, dass aus (2) die Bedingung (3) folgt. Wir beweisen dies durch
Induktion uber die Anzahl der Nullen in s1 ; : : : ; sn . Wenn s1 = : : : = sn = 1 gilt, so ist
nichts zu zeigen. Andernfalls gelte ohne Einschrankung s1 = 0. Aus dem Additionssatz
folgt dann
Pr[A1 \ As2 \ : : : \ Asnn ] = Pr[As2 \ : : : \ Asnn ]
Pr[A1 \ As2 \ : : : \ Asnn ]:
2
2
2
Darauf konnen wir die Induktionsannahme anwenden und erhalten
Pr[A1 \ As2 \ : : : \ Asnn ]
= Pr[As2 ] : : : Pr[Asnn ] Pr[A1 ] Pr[As2 ] : : : Pr[Asnn ]
= (1 Pr[A1 ]) Pr[As2 ] : : : Pr[Asnn ];
woraus die Behauptung wegen 1 Pr[A1 ] = Pr[A1 ] folgt.
2
2
2
2
DWT
c Susanne Albers und Ernst W. Mayr
3 Unabhangigkeit
65/462
Beweis (Forts.):
Fur die Gegenrichtung zeigen wir nur, dass aus (3) Pr[A1 \ A2 ] = Pr[A1 ] Pr[A2 ]
folgt. Es gilt wegen des Satzes von der totalen Wahrscheinlichkeit, dass
Pr[A1 \ A2 ] =
=
X
s3 ;:::;sn 2f0;1g
X
s3 ;:::;sn 2f0;1g
Pr[A1 \ A2 \ As3 \ : : : \ Asnn ]
3
Pr[A1 ] Pr[A2 ] Pr[As3 ] : : : Pr[Asnn ]
3
= Pr[A1 ] Pr[A2 ] = Pr[A1 ] Pr[A2 ];
X
s3 =0;1
Pr[As3 ] : : : 3
X
sn =0;1
Pr[Asnn ]
und es folgt die Behauptung.
DWT
c Susanne Albers und Ernst W. Mayr
3 Unabhangigkeit
66/462
Aus der Darstellung in Lemma 23 folgt die wichtige Beobachtung, dass fur zwei
unabhangige Ereignisse A und B auch die Ereignisse A und B (und analog auch A
und B bzw. A und B ) unabhangig sind!
Ebenso folgt:
DWT
c Susanne Albers und Ernst W. Mayr
3 Unabhangigkeit
67/462
Lemma 24
Seien A, B und C unabhangige Ereignisse. Dann sind auch A \ B und C bzw. A [ B
und C unabhangig.
Beweis:
Die Unabhangigkeit von A \ B und C folgt unmittelbar aus Denition 22.
Aus
Pr[(A [ B ) \ C ] =
=
=
=
Pr[(A \ C ) [ (B \ C )]
Pr[A \ C ] + Pr[B \ C ] Pr[A \ B \ C ]
Pr[C ] (Pr[A] + Pr[B ] Pr[A \ B ])
Pr[A [ B ] Pr[C ]
folgt die Unabhangigkeit von A [ B und C .
DWT
c Susanne Albers und Ernst W. Mayr
3 Unabhangigkeit
68/462
4. Zufallsvariablen
4.1 Grundlagen
Anstatt der Ereignisse selbst sind wir oft an Auswirkungen\ oder Merkmalen\ der
"
"
(Elementar)Ereignisse interessiert.
Denition 25
Sei ein Wahrscheinlichkeitsraum auf der Ergebnismenge gegeben. Eine Abbildung
X:
!R
heit (numerische) Zufallsvariable.
Eine Zufallsvariable X uber einer endlichen oder abzahlbar unendlichen
Ergebnismenge heit diskret.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Grundlagen
69/462
Bei diskreten Zufallsvariablen ist der Wertebereich
WX := X (
) = fx 2 R; 9 ! 2 mit X (!) = xg
ebenfalls wieder endlich (bzw. abzahlbar unendlich).
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Grundlagen
70/462
Beispiel 26
Wir werfen eine ideale Munze drei Mal. Als Ergebnismenge erhalten wir := fH; T g3 .
Die Zufallsvariable Y bezeichne die Gesamtanzahl der Wurfe mit Ergebnis Head\.
"
Beispielsweise gilt also Y (HT H ) = 2 und Y (HHH ) = 3. Y hat den Wertebereich
WY = f0; 1; 2; 3g.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Grundlagen
71/462
Fur WX
= fx1 ; : : : ; xn g bzw. WX = fx1 ; x2 ; : : :g betrachten wir (fur ein beliebiges
1 i n bzw. xi 2 N) das Ereignis
Ai := f! 2 ; X (!) = xi g = X 1 (xi ):
Bemerkung: Anstelle von Pr[X 1 (xi )] verwendet man haug auch die Schreibweise
Pr["X = xi\ ]. Analog setzt man
Pr["X xi\ ] =
X
x2WX : xxi
Pr["X = x\ ]
= Pr[f! 2 ; X (!) xi g] :
Oft lasst man auch die Anfuhrungszeichen weg.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Grundlagen
72/462
Denition 27
Die Funktion
fX : R 3 x 7! Pr[X = x] 2 [0; 1]
(4)
nennt man (diskrete) Dichte(funktion) der Zufallsvariablen X .
Die Funktion
FX : R 3 x 7! Pr[X x] =
X
x0 2WX : x0 x
Pr[X = x0 ] 2 [0; 1]
(5)
heit Verteilung(sfunktion) der Zufallsvariablen X .
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Grundlagen
73/462
Beispiel 28
Fur die Zufallsvariable Y erhalten wir
Pr[Y = 0] = Pr[T T T ] = 18 ;
Pr[Y = 1] = Pr[HT T ] + Pr[T HT ] + Pr[T T H ] = 38 ;
Pr[Y = 2] = Pr[HHT ] + Pr[HT H ] + Pr[T HH ] = 38 ;
Pr[Y = 3] = Pr[HHH ] = 18 :
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Grundlagen
74/462
FY
fY
1,0
1,0
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0,0
0
1
2
3
0,0
0
1
2
3
Dichte und Verteilung von Y
Bemerkung: Man kann statt auch den zugrunde liegenden Wahrscheinlichkeitsraum
uber WX betrachten.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Grundlagen
75/462
4.2 Erwartungswert und Varianz
Denition 29
Zu einer Zufallsvariablen X denieren wir den Erwartungswert E[X ] durch
E[X ] :=
sofern
P
x 2W X
Beispiel 30
X
x 2W X
x Pr[X = x] =
X
x 2W X
x fX (x) ;
jxj Pr[X = x] konvergiert.
E[Y ] =
3
X
i=0
i Pr[Y = i]
= 1 Pr[Y = 1] + 2 Pr[Y = 2] + 3 Pr[Y = 3]
= 1 83 + 2 83 + 3 18 = 32 :
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
76/462
Beispiel 31
Eine Munze wird so lange geworfen, bis sie zum ersten Mal Head\ zeigt. Sei k die
"
Anzahl der durchgefuhrten Wurfe. Wenn k ungerade ist, zahlt der Spieler an die
Bank k Euro. Andernfalls (k gerade) zahlt die Bank k Euro an den Spieler.
(
G :=
k
falls k ungerade;
k falls k gerade:
Wie schon gesehen, gilt dann
Pr["Anzahl Wurfe = k\ ] = (1=2)k :
Damit erhalten wir
E[G] =
DWT
c Susanne Albers und Ernst W. Mayr
1
X
k=1
(
1)k 1 k k
4.2 Erwartungswert und Varianz
1
2
:
77/462
Da
1
X
k=1
j(
1)k 1 kj k
1
2
1
X
k=1
k
k
1
2
;
existiert der Erwartungswert E[G].
Es gilt
1
X
"
2j
#
1
2j
2j 21
E[G] =
(2j 1) 12
j =1
1 1 2j 1
X
=
[(2j 1) j ]
2
j =1
j 1
1
1
X
1
= 2 (j 1) 14
= 12 4 1 2 = 29 :
1 4
j =1
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
78/462
Wird jedoch, um das Risiko zu steigern, der zu zahlende Betrag von k Euro jeweils auf
2k Euro erhoht, also
(
2k falls k ungerade;
G0 :=
2k falls k gerade ;
dann existiert E[G0 ] nicht, da
k
1
X
1
0
k
1
k
E[G ] = ( 1) 2 k=1
=
DWT
c Susanne Albers und Ernst W. Mayr
1
X
k=1
2
( 1)k 1 = +1 1 + 1 1 + : : : :
4.2 Erwartungswert und Varianz
79/462
Berechnung des Erwartungswerts:
E[X ] =
=
=
X
x 2W X
X
x Pr[X = x] =
x
X
x2WX !2
:X (!)=x
X
! 2
X
x 2W X
x fX (x)
Pr[!]
X (!) Pr[!] :
Bei unendlichen Wahrscheinlichkeitsr
aumen ist dabei analog zur Denition des
P
Erwartungswerts erforderlich, dass !2
jX (! )j Pr[! ] konvergiert (absolute
Konvergenz).
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
80/462
Satz 32 (Monotonie des Erwartungswerts)
Seien X und Y Zufallsvariablen uber dem Wahrscheinlichkeitsraum mit
X (!) Y (!) fur alle ! 2 . Dann gilt E[X ] E[Y ].
Beweis:
E[X ] =
DWT
c Susanne Albers und Ernst W. Mayr
X
! 2
X (!) Pr[!] X
! 2
Y (!) Pr[!] = E[Y ] :
4.2 Erwartungswert und Varianz
81/462
Aus Satz 32 folgt insbesondere, dass a E[X ] b gilt, wenn fur die Zufallsvariable X
die Eigenschaft a X (! ) b fur alle ! 2 erfullt ist.
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
82/462
4.2.1 Rechenregeln fur den Erwartungswert
Oft betrachtet man eine Zufallsvariable X nicht direkt, sondern wendet noch eine
Funktion darauf an:
Y := f (X ) = f X ;
wobei f : D ! R eine beliebige Funktion sei mit WX D R.
Beobachtung: f (X ) ist wieder eine Zufallsvariable.
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
83/462
Aus
Pr[Y = y] = Pr[f! j f (X (!)) = yg] =
X
x : f (x)=y
Pr[X = x]
folgt
E[f (X )] = E[Y ] =
=
=
X
y2WY
X
! 2
DWT
c Susanne Albers und Ernst W. Mayr
X
y 2W Y
y
y Pr[Y = y]
X
x : f (x)=y
Pr[X = x] =
f (X (!)) Pr[!] :
4.2 Erwartungswert und Varianz
X
x 2W X
f (x) Pr[X = x]
84/462
Satz 33 (Linearitat des Erwartungswerts, einfache Version)
Fur eine beliebige Zufallsvariable X und a; b 2 R gilt
E[a X + b] = a E[X ] + b :
Beweis:
E[a X + b] =
X
x 2W X
=a
(a x + b) Pr[X = x]
X
x 2W X
x Pr[X = x] + b = a E[X ] + b :
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
X
x2WX
Pr[X = x]
85/462
Satz 34
Sei X eine Zufallsvariable mit WX
N0. Dann gilt
E[X ] =
1
X
i=1
Pr[X i] :
Beweis:
E[X ] =
=
DWT
c Susanne Albers und Ernst W. Mayr
1
X
i=0
i Pr[X = i] =
1 X
1
X
j =1 i=j
i
1 X
X
i=0 j =1
Pr[X = i] =
1
X
j =1
4.2 Erwartungswert und Varianz
Pr[X = i]
Pr[X j ] :
86/462
Denition 35
Sei X eine Zufallsvariable und A ein Ereignis mit Pr[A] > 0. Die bedingte
Zufallsvariable X jA besitzt die Dichte
fX jA (x) := Pr[X = x j A] =
Pr["X = x\ \ A] :
Pr[A]
Die Denition von fX jA ist zulassig, da
X
x 2W X
fX jA (x) =
Pr["X = x\ \ A] = Pr[A] = 1 :
Pr[A]
Pr[A]
x2 W X
X
Der Erwartungswert E[X jA] der Zufallsvariablen X jA berechnet sich entsprechend:
E[X jA] =
DWT
c Susanne Albers und Ernst W. Mayr
X
x2 W X
x fX jA (x) :
4.2 Erwartungswert und Varianz
87/462
Satz 36
Sei X eine Zufallsvariable. Fur paarweise disjunkte Ereignisse A1 ; : : : ; An mit A1 [ : : :
[An = und Pr[A1]; : : : ; Pr[An] > 0 gilt
E[X ] =
n
X
i=1
E[X jAi ] Pr[Ai ] :
S
Fur paarweise disjunkte Ereignisse A1 ; A2 ; : : : mit 1
i=1 Ak = und Pr[A1 ],
Pr[A2 ]; : : : > 0 gilt analog
E[X ] =
1
X
i=1
E[X jAi ] Pr[Ai ];
sofern
die Erwartungswerte auf der rechten Seite alle existieren und die Summe
P1
i=1 jE[X jAi ]j Pr[Ai ] konvergiert.
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
88/462
Beweis:
E[X ] =
=
X
x2WX
n
X
i=1
x Pr[X = x] =
Pr[Ai ]
X
x2WX
X
x2 W X
x
n
X
i=1
Pr[X = xjAi ] Pr[Ai ]
x Pr[X = xjAi ] =
n
X
i=1
Pr[Ai ] E[X jAi ]:
Der Beweis fur den unendlichen Fall verlauft analog.
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
89/462
Beispiel 37
Wir werfen eine Munze so lange, bis zum ersten Mal Kopf\ erscheint. Dies geschehe
"
in jedem Wurf unabhangig mit Wahrscheinlichkeit p. Wir denieren dazu die
Zufallsvariable X := Anzahl der Wurfe\. Wir haben bereits gesehen, dass
"
Pr[X = k] = p(1 p)k 1
und damit
E[X ] =
DWT
c Susanne Albers und Ernst W. Mayr
1
X
k=1
k p(1 p)k 1 = p 1
1
(1 (1 p))2 = p :
90/462
Beispiel 37
Andere Berechnungsmethode: (gestutzt auf Satz 36)
Deniere das Ereignis
K1 := "Im ersten Wurf fallt Kopf\ :
Oensichtlich gilt E[X jK1 ] = 1.
Nehmen wir nun an, dass im ersten Wurf nicht Kopf\ gefallen ist. Wir starten das
"
Experiment neu.
DWT
c Susanne Albers und Ernst W. Mayr
90/462
Beispiel 37
Sei X 0 die Anzahl der Wurfe bis zum ersten Auftreten von Kopf\ im neu gestarteten
"
Experiment. Wegen der Gleichheit der Experimente gilt E[X 0 ] = E[X ]. Damit schlieen
wir
E[X jK 1 ] = 1 + E[X 0 ] = 1 + E[X ]
und erhalten mit Satz 36:
E[X ] = E[X jK1 ] Pr[K1 ] + E[X jK 1 ] Pr[K 1 ]
= 1 p + (1 + E[X ]) (1 p) :
Daraus ergibt sich wiederum E[X ] = 1=p.
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
90/462
4.2.2 Varianz
Wir betrachten die beiden folgenden Zufallsexperimente:
1 Wir w
urfeln (mit einem fairen Wurfel), bei gerader Augenzahl erhalten wir 1 Euro,
bei ungerader Augenzahl mussen wir 1 Euro bezahlen.
2 Wir w
urfeln (mit einem fairen Wurfel), bei 6 Augen erhalten wir 5 Euro,
ansonsten mussen wir 1 Euro bezahlen.
Beobachtung:
In beiden Fallen ist der erwartete Gewinn = 0.
Dennoch sind die Schwankungen\ im ersten Fall geringer als im zweiten.
"
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
91/462
Eine nahe liegende Losung ware,
E[jX j]
zu berechnen, wobei = E[X ] sei. Dies scheitert jedoch meist an der unhandlichen\
"
Betragsfunktion. Aus diesem Grund betrachtet man stattdessen E[(X )2 ], also die
quadratische Abweichung vom Erwartungswert.
Denition 38
Fur eine Zufallsvariable X mit = E[X ] denieren wir die Varianz Var[X ] durch
Var[X ] := E[(X )2 ] =
Die Groe :=
X
x2WX
(x )2 Pr[X = x] :
p
Var[X ] heit Standardabweichung von X .
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
92/462
Satz 39
Fur eine beliebige Zufallsvariable X gilt
Var[X ] = E[X 2 ] E[X ]2 :
Beweis:
Sei := E[X ]. Nach Denition gilt
Var[X ] = E[(X )2 ] = E[X 2 2 X + 2 ]
X
=
(x2 2 x + 2 ) Pr[X = x]
=
x2WX
X
x2WX
x2 Pr[X = x]
= E[X 2 ]
= E[X 2 ]
X
x2WX
2 x Pr[X = x] +
2 E[X ] + 2
E[X ]2 :
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
X
x 2W X
2 Pr[X = x]
93/462
Beispiel 40
1
Wir wurfeln (mit einem fairen Wurfel), bei gerader Augenzahl erhalten wir 1 Euro,
bei ungerader Augenzahl mussen wir 1 Euro bezahlen. Es ist
= 0 und Var[X ] =
2
1 12 + 1 ( 1)2 = 1 :
2
2
Wir wurfeln (mit einem fairen Wurfel), bei 6 Augen erhalten wir 5 Euro,
ansonsten mussen wir 1 Euro bezahlen.
Es ist
1
5
= 0 und Var[X ] = 52 + ( 1)2 = 5 :
6
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
6
94/462
Satz 41
Fur eine beliebige Zufallsvariable X und a; b 2 R gilt
Var[a X + b] = a2 Var[X ] :
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
95/462
Beweis:
Aus der in Satz 33 gezeigten Linearitat des Erwartungswerts folgt E[Y
Zusammen mit der Denition der Varianz ergibt sich damit sofort
Y
Var[
+
b] = E[(Y
+
b
E[Y
+
b])2 ] = E[(Y
+ b] = E[Y ] + b.
E[Y ])2 ] = Var[Y ] :
Weiter folgt mit Satz 39:
a X ] = E[(aX )2 ]
Var[
E[aX ]2 = a2 E[X 2 ]
aE[X ])2 = a2 Var[X ] ;
(
und daraus zusammen die Behauptung.
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
96/462
Der Erwartungswert und die Varianz gehoren zu den so genannten Momenten einer
Zufallsvariablen:
Denition 42
Fur eine Zufallsvariable X nennen wir E[X k ] das k-te Moment und E[(X
das k-te zentrale Moment.
E[X ])k ]
Der Erwartungswert ist also identisch zum ersten Moment, wahrend die Varianz dem
zweiten zentralen Moment entspricht.
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Erwartungswert und Varianz
97/462
4.3 Mehrere Zufallsvariablen
Beispiel 43
Aus einem Skatblatt mit 32 Karten ziehen wir zufallig eine Hand von zehn Karten
sowie einen Skat von zwei Karten. Unter den Karten gibt es vier Buben. Die
Zufallsvariable X zahlt die Anzahl der Buben in der Hand, wahrend Y die Anzahl der
Buben im Skat angibt. Die Werte von X und Y hangen oensichtlich stark
voneinander ab. Beispielsweise muss Y = 0 sein, wenn X = 4 gilt.
Wie kann man mit mehreren Zufallsvariablen uber demselben Wahrscheinlichkeitsraum
rechnen, auch wenn sie, wie im obigen Beispiel, sehr voneinander abhangig sind?
Wir untersuchen Wahrscheinlichkeiten der Art
Pr[X = x; Y = y] = Pr[f!; X (!) = x; Y (!) = yg] :
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
98/462
Beispiel 44
Wenn wir nur die Zufallsvariable X betrachten, so gilt fur 0 x 4
Pr[X = x] =
4 28 :
32
10
x 10 x
Allgemein nennt man Zufallsvariablen mit der Dichte
Pr[X = x] =
b a x r x
a+b
r
hypergeometrisch verteilt. Durch diese Dichte wird ein Experiment modelliert, bei dem
r Elemente ohne Zurucklegen aus einer Grundmenge der Machtigkeit a + b mit b
besonders ausgezeichneten Elementen gezogen werden.
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
99/462
Beispiel 44 (Forts.)
Die Zufallsvariable Y ist fur sich gesehen ebenfalls hypergeometrisch verteilt mit b = 4,
a = 28 und r = 2.
Fur X und Y zusammen gilt jedoch z.B.
Pr[X = 4; Y = 1] = 0;
und allgemein
Pr[X = x; Y = y] =
4 28 4 x 28 (10 x)
y
2 y
:
32 22
10 2
x 10 x
Bemerkung: Die Schreibweise Pr[X = x; Y = y] stellt eine Abkurzung von
Pr["X = x ^ Y = y\ ] dar. Ein anderes Beispiel ist
p
Pr[X x; Y y1 ; Y = y2 ] :
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
100/462
Die Funktion
fX;Y (x; y) := Pr[X = x; Y = y]
heit gemeinsame Dichte der Zufallsvariablen X und Y .
Aus der gemeinsamen Dichte fX;Y kann man ableiten
fX (x) =
X
y 2W Y
fX;Y (x; y) bzw. fY (y) =
X
x 2W X
fX;Y (x; y) :
Die Funktionen fX und fY nennt man Randdichten.
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
101/462
Die Ereignisse Y
"
es gilt daher
= y\ bilden eine Partitionierung des Wahrscheinlichkeitsraumes, und
Pr[X = x] =
X
y2WY
Pr[X = x; Y = y] = fX (x) :
Die Dichten der einzelnen Zufallsvariablen entsprechen also genau den Randdichten.
Fur zwei Zufallsvariablen deniert man die gemeinsame Verteilung
FX;Y (x; y) = Pr[X x; Y y] = Pr[f!; X (!) x; Y (!) yg]
X X
=
fX;Y (x0 ; y0 ) :
x0 x y0 y
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
102/462
Die Randverteilung ergibt sich gema
FX (x) =
sowie
FY (y) =
DWT
c Susanne Albers und Ernst W. Mayr
X
x0 x
X
y0 y
fX (x0 ) =
fY (y0 ) =
X X
x0 x y2WY
X X
y0 y x2WX
4.3 Mehrere Zufallsvariablen
fX;Y (x0 ; y)
fX;Y (x; y0 ) :
103/462
4.3.1 Unabhangigkeit von Zufallsvariablen
Denition 45
Die Zufallsvariablen X1 ; : : : ; Xn heien unabhangig, wenn fur alle
(x1 ; : : : ; xn ) 2 WX1 : : : WXn gilt
Pr[X1 = x1 ; : : : ; Xn = xn ] = Pr[X1 = x1 ] : : : Pr[Xn = xn ] :
Alternativ:
fX1 ;:::;Xn (x1 ; : : : ; xn ) = fX1 (x1 ) : : : fXn (xn ) :
Bei unabhangigen Zufallsvariablen ist also die gemeinsame Dichte gleich dem Produkt
der Randdichten. Ebenso gilt
FX1 ;:::;Xn (x1 ; : : : ; xn ) = FX1 (x1 ) : : : FXn (xn ) :
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
104/462
Satz 46
Seien X1 ; : : : ; Xn unabhangige Zufallsvariablen und S1 ; : : : ; Sn beliebige Mengen mit
Si WXi . Dann sind die Ereignisse "X1 2 S1\, . . . , "Xn 2 Sn\ unabhangig.
Beweis:
Pr[X1 2 S1 ; : : : ; Xn 2 Sn ]
X
X
=
:::
Pr[X1 = x1 ; : : : ; Xn = xn ]
x1 2S1
=
Unabh.
0
=@
X
xn 2Sn
x 1 2S 1
X
x1 2S1
:::
X
x n 2S n
Pr[X1 = x1 ] : : : Pr[Xn = xn ]
1
Pr[X1 = x1 ]A : : : X
xn 2Sn
!
Pr[Xn = xn ]
= Pr[X1 2 S1 ] : : : Pr[Xn 2 Sn ] :
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
105/462
Satz 47
Seien f1 ; : : : ; fn reellwertige Funktionen (fi : R ! R fur i = 1; : : : ; n). Wenn die
Zufallsvariablen X1 ; : : : ; Xn unabhangig sind, dann gilt dies auch fur
f1 (X1 ); : : : ; fn (Xn ).
Beweis:
Sei zi 2 Wfi (Xi ) fur i = 1; : : : ; n und Si = fx; fi (x) = zi g.
Pr[f1 (X1 ) = z1 ; : : : ; fn (Xn ) = zn ]
= Pr[X1 2 S1 ; : : : ; Xn 2 Sn ]
= Pr[X1 2 S1 ] : : : Pr[Xn 2 Sn ]
= Pr[f1 (X1 ) = z1 ] : : : Pr[fn (Xn ) = zn ] :
Unabh.
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
106/462
4.3.2 Zusammengesetzte Zufallsvariablen
Beispiel 48
Ein Wurfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten
bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewurfelten Augenzahlen.
Fur Z gilt z.B.:
Pr[Z = 1] = Pr[;] = 0, Pr[Z = 4] = Pr[f(1; 3); (2; 2); (3; 1)g] = 363 .
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
107/462
Fur die Verteilung der Summe zweier unabhangiger Zufallsvariablen gilt der folgende
Satz:
Satz 49
Fur zwei unabhangige Zufallsvariablen X und Y sei Z
fZ (z ) =
DWT
c Susanne Albers und Ernst W. Mayr
X
x2 W X
:= X + Y . Es gilt
fX (x) fY (z x) :
4.3 Mehrere Zufallsvariablen
108/462
Beweis:
Mit Hilfe des Satzes von der totalen Wahrscheinlichkeit folgt, dass
fZ (z ) = Pr[Z = z ] =
=
=
X
x 2W X
X
x 2W X
X
x 2W X
Pr[X + Y = z j X = x] Pr[X = x]
Pr[Y = z x] Pr[X = x]
fX (x) fY (z x) :
P
Den Ausdruck x2WX fX (x) fY (z x) aus Satz 49 nennt man in Analogie zu den
entsprechenden Begrien bei Potenzreihen auch Faltung oder Konvolution der Dichten
fX und fY .
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
109/462
Beispiel (Forts.)
Berechne die Dichte von Z
=X +Y:
Pr[Z = z ] =
=
X
x2WX
Pr[X = x] Pr[Y = z x]
6;z 1g
1 Pr[Y = z x] = minfX
1:
6
36
x=1
x=maxf1;z 6g
6
X
Fur 2 z 7 erhalten wir
Pr[Z = z ] =
Und fur 7 < z 12:
DWT
c Susanne Albers und Ernst W. Mayr
z 1
X
1 = z 1:
36
36
i=1
Pr[Z = z ] = 1336 z :
4.3 Mehrere Zufallsvariablen
110/462
4.3.3 Momente zusammengesetzter Zufallsvariablen
Satz 50 (Linearitat des Erwartungswerts)
Fur Zufallsvariablen X1 ; : : : ; Xn und X := a1 X1 + + an Xn mit a1 ; : : : ; an 2 R gilt
E[X ] = a1 E[X1 ] + + an E[Xn ] :
Beweis:
E[X ] =
=
=
X
! 2
a1 X1 (! ) + : : : + an Xn (! )) Pr[! ]
(
a1 X
! 2
X1 (! ) Pr[! ]
!
+
+
an a1 E[X1 ] + : : : + an E[Xn ] :
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
X
! 2
Xn (! ) Pr[! ]
!
111/462
Beispiel 51
n betrunkene Seeleute torkeln nach dem Landgang in ihre Kojen. Sie haben vollig die
Orientierung verloren, weshalb wir annehmen, dass jede Zuordnung der Seeleute zu den
n Betten gleich wahrscheinlich ist (genau ein Seemann pro Bett). Wie viele Seeleute
liegen im Mittel im richtigen Bett?
Die Anzahl der Seeleute im richtigen Bett zahlen wir mit der Zufallsvariablen X , die
als Summe der Zufallsvariablen X1 ; : : : ; Xn dargestellt wird, wobei
(
Xi :=
Oenbar gilt X
1 falls Seemann i in seinem Bett liegt,
0 sonst.
:= X1 + + Xn .
DWT
c Susanne Albers und Ernst W. Mayr
112/462
Beispiel 51
Fur die Variablen Xi erhalten wir Pr[Xi = 1] = n1 , da jedes Bett von Seemann i mit
gleicher Wahrscheinlichkeit aufgesucht wird.
Daraus folgt
1
und somit
E[Xi ] = 0 Pr[Xi = 0] + 1 Pr[Xi = 1] = ;
n
E[X ] =
n
X
i=1
E[Xi ] =
n
X
i=1
1 = 1:
n
Im Mittel hat also nur ein Seemann sein eigenes Bett aufgesucht.
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
112/462
Satz 52 (Multiplikativitat des Erwartungswerts)
Fur unabhangige Zufallsvariablen X1 ; : : : ; Xn gilt
E[X1 Xn ] = E[X1 ] E[Xn ] :
Beweis:
Wir beweisen den Fall n = 2. Der allgemeine Fall ist analog.
E[X Y ] =
X
X
xy Pr[X = x; Y = y]
x2WX y2WY
Unabh: X X
=
=
x2WX y2WY
X
x2WX
x Pr[X = x]
= E[X ] E[Y ] :
DWT
c Susanne Albers und Ernst W. Mayr
xy Pr[X = x] Pr[Y = y]
X
y 2W Y
4.3 Mehrere Zufallsvariablen
y Pr[Y = y]
113/462
Dass fur die Gultigkeit von Satz 52 die Unabhangigkeit der Zufallsvariablen wirklich
notwendig ist, sieht man beispielsweise am Fall Y = X fur eine Zufallsvariable mit
einer von Null verschiedenen Varianz. Dann gilt
E[X Y ] = E[X 2 ] 6= (E[X ])2 = E[X ] E[Y ] :
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
114/462
Denition 53
Zu einem Ereignis A heit die Zufallsvariable
(
IA :=
1 falls A eintritt;
0 sonst
Indikatorvariable des Ereignisses A.
Beobachtung:
Fur die Indikatorvariable IA gilt nach Denition
E[IA ] = 1 Pr[A] + 0 Pr[A] = Pr[A] :
Ebenso gilt
E[IA : : : IAn ] = Pr[A1 \ : : : \ An ];
1
da das Produkt von Indikatorvariablen genau dann gleich 1 ist, wenn alle
entsprechenden Ereignisse eintreten.
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
115/462
Beispiel (Forts.)
Wir betrachten wieder das Beispiel der total betrunkenen Matrosen.
Sei Ai das Ereignis, dass der i-te Seemann im richtigen Bett liegt. Mit der Notation
der Indikatorvariablen sei Xi = IAi . Dann gilt fur beliebige i; j 2 f1; : : : ; ng, i 6= j :
E[Xi Xj ] = E[IAi IAj ] = Pr[Ai \ Aj ] =
sowie
1
n(n 1)
;
E[Xi2 ] = 02 Pr[Ai ] + 12 Pr[Ai ] = Pr[Ai ] = 1=n:
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
116/462
Beispiel (Forts.)
Daraus folgt wegen der Linearitat des Erwartungswerts fur X
E[X 2 ] =
2
3
n
n X
X
X
E 4 Xi2 +
Xi Xj 5
i=1
= X1 + + Xn :
i=1 j 6=i
= n n1 + n(n 1) n(n1 1) = 2 :
Fur die Varianz erhalten wir somit den Wert
Var[X ] = E[X 2 ] E[X ]2 = 2 1 = 1:
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
117/462
Einfacher Beweis fur Satz 9 mit Hilfe von Indikatorvariablen:
Zur Erinnerung:
Satz 9 (Siebformel, Prinzip der Inklusion/Exklusion)
Fur Ereignisse A1 ; : : : ; An (n 2) gilt:
"
Pr
n
[
i=1
#
Ai =
n
X
i=1
+ ( 1)l
+(
DWT
c Susanne Albers und Ernst W. Mayr
Pr[Ai ]
1
X
1i1 <i2 n
X
Pr[Ai \ Ai ] + : : :
1
2
Pr[Ai \ : : : \ Ail ] + : : :
1
1i1 <:::<il n
n
1
1) Pr[A1 \ : : : \ An ] :
4.3 Mehrere Zufallsvariablen
118/462
Beweis:
Zur Erinnerung: Zu Ereignissen A1 ; : : : ; An wollen wir die Wahrscheinlichkeit Pr[B ]
des Ereignisses B := A1 [ : : : [ An ermitteln.
Wir betrachten die Indikatorvariablen Ii := IAi der Ereignisse A1 ; : : : ; An und die
Indikatorvariable
I des Ereignisses B .
Qn B
Das Produkt i=1 (1 Ii ) ist genau dann
gleich 1, wenn I1 = : : : = In = 0, d.h.
Q
wenn B nicht eintritt. Somit gilt IB = ni=1 (1 Ii ) und wir erhalten:
IB = 1
X
1in
Ii +
X
1i1 <i2 n
Ii1 Ii2
+ : : : + ( 1)n I1 : : : In ;
also
IB = 1 IB
X
=
Ii
1in
DWT
c Susanne Albers und Ernst W. Mayr
X
1i1 <i2 n
Ii1 Ii2 + : : : + ( 1)n 1 I1 : : : In :
119/462
Beweis:
Wegen der Eigenschaften von Indikatorvariablen gilt
Pr[B ] = 1 Pr[B ] = 1 E[IB ]:
Mit Hilfe von Satz 50 verteilen\ wir den Erwartungswert auf die einzelnen Produkte
"
von Indikatorvariablen. Wenn wir nun E[Ii ] durch Pr[Ai ] und allgemein E[Ii1 : : : Iik ]
durch Pr[Ai1 \ : : : \ Aik ] ersetzen, haben wir Satz 9 (dieses Mal vollstandig) bewiesen.
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
119/462
Satz 54
Fur unabhangige Zufallsvariablen X1 ; : : : ; Xn und X
:= X1 + : : : + Xn gilt
Var[X ] = Var[X1 ] + : : : + Var[Xn ] :
Beweis:
Wir betrachten nur den Fall n = 2 mit den Zufallsvariablen X und Y .
E[(X + Y )2 ] = E[X 2 + 2XY + Y 2 ] = E[X 2 ] + 2E[X ]E[Y ] + E[Y 2 ]
E[X + Y ]2 = (E[X ] + E[Y ])2 = E[X ]2 + 2E[X ]E[Y ] + E[Y ]2
Wir ziehen die zweite Gleichung von der ersten ab und erhalten
E[(X + Y )2 ] E[X + Y ]2 = E[X 2 ] E[X ]2 + E[Y 2 ]
Mit Hilfe von Satz 39 folgt die Behauptung.
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
E[Y ]2 :
120/462
Fur abhangige Zufallsvariablen X1 ; : : : ; Xn gilt Satz 54 im Allgemeinen nicht. Als
Beispiel funktioniert wiederum der Fall X = Y :
Var[X + Y ] = 0 6= 2 Var[X ] = Var[X ] + Var[Y ] :
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Mehrere Zufallsvariablen
121/462
5. Wichtige diskrete Verteilungen
Wir diskutieren nun einige wichtige diskrete Verteilungen. Bei diesen Verteilungen
handelt es sich um Funktionen, die von gewissen Parametern abhangen. Eigentlich
betrachten wir also immer eine ganze Familie von ahnlichen Verteilungen.
DWT
c Susanne Albers und Ernst W. Mayr
5.0 Mehrere Zufallsvariablen
122/462
5.1 Bernoulli-Verteilung
Eine Zufallsvariable X mit WX = f0; 1g und der Dichte
(
fX (x) =
p
1
fur x = 1;
p fur x = 0:
heit Bernoulli-verteilt. Den Parameter p nennen wir Erfolgswahrscheinlichkeit.
Eine solche Verteilung erhalt man z.B. bei einer einzelnen Indikatorvariablen. Es gilt
mit q := 1 p
E[X ] = p und Var[X ] = pq;
wegen E[X 2 ] = p und Var[X ] = E[X 2 ] E[X ]2 = p p2 .
DWT
c Susanne Albers und Ernst W. Mayr
5.1 Bernoulli-Verteilung
123/462
Der Name der Bernoulli-Verteilung geht zuruck auf den Schweizer Mathematiker Jakob
Bernoulli (1654{1705). Wie viele andere Mathematiker seiner Zeit hatte auch Bernoulli
nach dem Wunsch seines Vaters ursprunglich Theologe werden sollen. Sein Werk ars
conjectandi stellt eine der ersten Arbeiten dar, die sich mit dem Teil der Mathematik
beschaftigen, den wir heute als Wahrscheinlichkeitstheorie bezeichnen.
DWT
c Susanne Albers und Ernst W. Mayr
5.1 Bernoulli-Verteilung
124/462
5.2 Binomialverteilung
Eine Bernoulli-verteilte Zufallsvariable entspricht der Verteilung einer
Indikatorvariablen. Haug betrachtet man jedoch Summen von Indikatorvariablen.
Denition 55
Sei X := X1 + : : : + Xn als Summe von n unabhangigen, Bernoulli-verteilten
Zufallsvariablen mit gleicher Erfolgswahrscheinlichkeit p deniert. Dann heit X
binomialverteilt mit den Parametern n und p. In Zeichen schreiben wir
X Bin(n; p) :
DWT
c Susanne Albers und Ernst W. Mayr
5.2 Binomialverteilung
125/462
Es gilt WX
= f0; : : : ; ng. Die Binomialverteilung besitzt die Dichte
fX (x) := b(x; n; p) =
n x n
pq
x
x
mit q := 1 p. Da die Binomialverteilung eine sehr wichtige Rolle spielt, fuhren wir fur
die Dichtefunktion die Abkurzung b(x; n; p) ein.
Mit den Satzen uber Erwartungswert und Varianz von Summen unabhangiger
Zufallsvariablen erhalten wir sofort
E[X ] = np und Var[X ] = npq :
DWT
c Susanne Albers und Ernst W. Mayr
5.2 Binomialverteilung
126/462
0,4
b(x;
0,4
10; 0:1)
0,3
0,3
0,2
0,2
0,1
0,1
0,0
0
1
2
3
4
5
0,4
6
b(x;
7
8
9
10
0,0
0,3
0,2
0,2
0,1
0,1
0
1
2
3
4
5
6
7
8
0
1
0,4
10; 0:7)
0,3
0,0
b(x;
9
10
0,0
2
b(x;
0
1
2
10; 0:4)
3
4
5
6
7
8
9
10
5
6
7
8
9
10
10; 0:9)
3
4
Dichte der Binomialverteilung
DWT
c Susanne Albers und Ernst W. Mayr
5.2 Binomialverteilung
127/462
Satz 56
Wenn X
Bin(nx; p) und Y Bin(ny ; p) unabhangig sind, dann gilt fur
Z := X + Y , dass Z Bin(nx + ny ; p).
Beweis:
Die Aussage folgt sofort, wenn man gema der Denition der Binomialverteilung X
und Y als Summen von Indikatorvariablen darstellt. Z ist dann oensichtlich wieder
eine Summe von unabhangigen Indikatorvariablen.
DWT
c Susanne Albers und Ernst W. Mayr
5.2 Binomialverteilung
128/462
5.3 Geometrische Verteilung
Man betrachte ein Experiment, das so lange wiederholt wird, bis Erfolg eintritt. Gelingt
ein einzelner Versuch mit Wahrscheinlichkeit p, so ist die Anzahl der Versuche bis zum
Erfolg geometrisch verteilt.
Denition 57
Eine geometrisch verteilte Zufallsvariable X mit Parameter (Erfolgswahrscheinlichkeit)
p 2 [0; 1] und q := 1 p hat die Dichte
fX (i) = pqi 1 fur i 2 N :
Fur Erwartungswert und Varianz geometrisch verteilter Zufallsvariablen gilt
E[X ] =
DWT
c Susanne Albers und Ernst W. Mayr
1 und Var[X ] = q :
p2
p
5.3 Geometrische Verteilung
129/462
Es gilt
E[X ] =
Ferner ist
1
X
i=1
i pqi 1
E[X 2 ] =
1
X
i=1
=p
1
X
i=1
= p p23
DWT
c Susanne Albers und Ernst W. Mayr
i=1
i qi 1 = p 1
1
(1 q)2 = p :
i2 pqi 1
=p
und damit
1
X
i(i + 1) qi 1
1 = 2 p;
p2
p2
1
X
i=1
i qi 1
!
Var[X ] = pq2 :
5.3 Geometrische Verteilung
130/462
0,8
p
= 0;8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0,0
1
2
3
4
5
6
0,8
7
p
8
9
10
= 0;4
0,0
0,6
0,4
0,4
0,2
0,2
1
2
3
4
5
6
7
8
1
2
3
4
5
6
0,8
0,6
0,0
p
9
10
0,0
7
p
1
2
3
4
5
6
7
= 0;6
8
9
10
9
10
= 0;2
8
Dichte der geometrischen Verteilung
DWT
c Susanne Albers und Ernst W. Mayr
5.3 Geometrische Verteilung
131/462
Sei X wieder geometrisch verteilt mit Erfolgswahrscheinlichkeit p. Dann ist Pr[X = k]
die Wahrscheinlichkeit, dass wir bei einem binaren Experiment mit
Erfolgswahrscheinlichkeit p genau in der k-ten unabhangigen Wiederholung das erste
Mal erfolgreich sind.
Wie gro ist die Wahrscheinlichkeit Pr[X > y + x j X > x]?
Da bei den ersten x Versuchen kein Erfolg eintrat, stellen wir uns vor, dass das
eigentliche\ Experiment erst ab dem (x + 1)-ten Versuch beginnt. Die Zeit bis zum
"
ersten Erfolg bei diesem neuen Experiment nennen wir X 0 . Damit X > y + x gilt,
muss X 0 > y gelten. Es ist intuitiv, dass X 0 wieder geometrisch verteilt ist mit
Erfolgswahrscheinlichkeit p, dass also fur x; y 2 N gilt:
Pr[X > y + x j X > x] = Pr[X 0 > y]:
DWT
c Susanne Albers und Ernst W. Mayr
5.3 Geometrische Verteilung
(6)
132/462
Formal gilt
Pr[X > x] =
1
X
(1 p)i 1 p = (1 p)x p i=x+1
1
X
i=0
(1 p)i
= (1 p)x p 1 (11 p) = (1 p)x ;
sowie
> y + x; X > x]
Pr[X > y + x j X > x] = Pr[X Pr[
X > x]
X > y + x]
= Pr[Pr[
X > x]
= (1 p)y+x (1 p) x = (1 p)y
= Pr[X > y] :
DWT
c Susanne Albers und Ernst W. Mayr
5.3 Geometrische Verteilung
133/462
Diese Eigenschaft nennt man Gedachtnislosigkeit, da eine geometrisch verteilte
Zufallsvariable gewissermaen vergisst, dass sie schon x Misserfolge hinter sich hat und
sich deshalb zum Zeitpunkt y + x genauso verhalt wie ursprunglich zur Zeit y .
DWT
c Susanne Albers und Ernst W. Mayr
5.3 Geometrische Verteilung
134/462
Warten auf den n-ten Erfolg.
Wir betrachten n unabhangige Zufallsvariablen X1 ; : : : ; Xn , die jeweils geometrisch
verteilt sind mit Parameter p, und bestimmen die Dichte der Zufallsvariablen
Z := X1 + + Xn . Damit bezeichnet Z also die Anzahl der Versuche bis zum n-ten
erfolgreichen Experiment (einschlielich).
Falls Z = z ist, so werden also genau n erfolgreiche und
z n nicht erfolgreiche
Experimente durchgefuhrt. Dafur gibt es genau nz 11 Moglichkeiten, von denen jede
mit Wahrscheinlichkeit pn (1 p)z n eintritt. Es gilt also
z 1
fZ (z ) =
n 1
pn(1 p)z n :
Die Zufallsvariable Z nennt man negativ binomialverteilt mit Ordnung n.
DWT
c Susanne Albers und Ernst W. Mayr
5.3 Geometrische Verteilung
135/462
Das Coupon-Collector-Problem
In manchen Branchen legen Firmen den Verpackungen ihrer Produkte oft kleine Bilder
oder andere Gegenstande bei, um den Kaufer zum Sammeln anzuregen. Wenn es
insgesamt n verschiedene solche Beilagen gibt, wie viele Packungen muss man im
Mittel erwerben, bis man eine vollstandige Sammlung besitzt? Hierbei nehmen wir an,
dass bei jedem Kauf jede Beilage mit gleicher Wahrscheinlichkeit auftritt.
Bezeichne
X die Anzahl der zu tatigenden Kaufe und
Phase i die Schritte vom Erwerb der (i 1)-ten Beilage (ausschlielich) bis zum
Erwerb der i-ten Beilage (einschlielich).
DWT
c Susanne Albers und Ernst W. Mayr
5.3 Geometrische Verteilung
136/462
Sei etwa n = 4, und seien die Beilagen mit den Zahlen 1; 2; 3; 4 identiziert. Ein
Experiment ist z.B.:
2 ; |{z}
2; 1 ; 2| ;{z2; 3}; 1| ; 3; 2{z; 3; 1; 4}
|{z}
1
2
3
4
:
Beobachtung:
Phase i endet genau dann, wenn wir eine der n i + 1 Beilagen erhalten, die wir noch
nicht besitzen.
Somit ist Xi geometrisch verteilt mit Parameter p = n ni+1 und es gilt E[Xi ] = n ni+1 .
DWT
c Susanne Albers und Ernst W. Mayr
5.3 Geometrische Verteilung
137/462
Damit folgt aber sofort
E[X ] =
=
n
X
i=1
n
X
E[Xi ]
n
n i+1
i=1
=n
n
X
i=1
1 =nH ;
n
i
P
wobei Hn := ni=1 1i die n-te harmonische Zahl bezeichnet. Da Hn = ln n + O(1),
folgt E[X ] = n ln n + O(n).
DWT
c Susanne Albers und Ernst W. Mayr
5.3 Geometrische Verteilung
138/462
5.4 Poisson-Verteilung
Die Poisson-Verteilung kann verwendet werden, um die Anzahl von Ereignissen zu
modellieren, welche mit konstanter Rate und unabhangig voneinander in einem
Zeitintervall auftreten.
Eine Poisson-verteilte Zufallsvariable X mit dem Parameter 0 hat den
Wertebereich WX = N0 und besitzt die Dichte
fX (i) =
e i
fur i 2 N0 :
i!
fX ist eine zulassige Dichte, da
1
X
i=0
DWT
c Susanne Albers und Ernst W. Mayr
1
X
e i
i!
i=0
= e e = 1 :
fX (i) =
5.4 Poisson-Verteilung
139/462
Fur den Erwartungswert erhalten wir
E[X ] =
1
X
i=0
= e
= e
= e
DWT
c Susanne Albers und Ernst W. Mayr
i
e i
i!
1
X
i 1
(i 1)!
i=1
1 i
X
i!
i=0
e = :
5.4 Poisson-Verteilung
140/462
Da
E[X (X 1)] =
1
X
i=0
i(i 1) = 2 e
= 2 e
= 2 e
1
X
e i
i!
i 2
(i 2)!
i=2
1 i
X
i!
i=0
e = 2
und
E[X (X 1)] + E[X ] E[X ]2
= E[X 2 ] E[X ] + E[X ] E[X ]2 = Var[X ] ;
DWT
c Susanne Albers und Ernst W. Mayr
5.4 Poisson-Verteilung
141/462
folgt
Var[X ] = E[X (X 1)] + E[X ] E[X ]2 = 2 + 2 = :
(7)
Dafur, dass eine Zufallsvariable X Poisson-verteilt mit Parameter ist, schreiben wir
auch
X Po().
DWT
c Susanne Albers und Ernst W. Mayr
5.4 Poisson-Verteilung
142/462
Po(0;5)
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0,0
0
1
2
3
4
5
6
7
8
9
10
Po(2)
0,6
0,0
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
2
4
6
8
0
1
2
3
4
5
6
10
0,0
7
8
9
10
9
10
Po(5)
0,6
0,5
0,0
Po(1)
0,6
0
1
2
3
4
5
6
7
8
Dichte der Poisson-Verteilung
DWT
c Susanne Albers und Ernst W. Mayr
5.4 Poisson-Verteilung
143/462
5.4.1 Poisson-Verteilung als Grenzwert der Binomialverteilung
Wir betrachten eine Folge von binomialverteilten Zufallsvariablen Xn mit
Xn Bin(n; pn ), wobei pn = =n. Fur ein beliebiges k mit 0 k n ist die
Wahrscheinlichkeit, dass Xn den Wert k annimmt, gleich
n
pkn (1
k
k
k
= (n kp!n ) nnk
k nk
= k! nk 1
b(k; n; pn ) =
DWT
c Susanne Albers und Ernst W. Mayr
pn ) n
k
(1 pn) k (1 pn)n
n
k 5.4 Poisson-Verteilung
1
n
n
:
144/462
Wir betrachten nun n ! 1 und erinnern uns, dass
k
lim n = 1;
n!1 nk
lim (1 n ) k = 1; und
n!1
n
lim
(1
) = e :
n!1
n
Damit folgt
k
n
k (1 p )n k = e :
lim
b
(
k
;
n;
p
)
=
lim
p
n
n
n
n!1
n!1 k
k!
DWT
c Susanne Albers und Ernst W. Mayr
5.4 Poisson-Verteilung
145/462
Die Wahrscheinlichkeit b(k; n; pn ) konvergiert also fur n ! 1 gegen die
Wahrscheinlichkeit, dass eine Poisson-verteilte Zufallsvariable mit Parameter den
Wert k annimmt. Insgesamt folgt somit, dass die Verteilung einer Zufallsvariablen
X Bin(n; =n) sich fur n ! 1 der Poisson-Verteilung Po() annahert.
DWT
c Susanne Albers und Ernst W. Mayr
5.4 Poisson-Verteilung
146/462
Vergleich von Binomial- und Poisson-Verteilung
DWT
c Susanne Albers und Ernst W. Mayr
5.4 Poisson-Verteilung
147/462
Ist also n im Vergleich zu hinreichend gro, so kann man die Poisson-Verteilung als
Approximation der Binomialverteilung verwenden.
Diese Tatsache wird manchmal auch als Gesetz seltener Ereignisse bezeichnet, da die
Wahrscheinlichkeit eines einzelnen Treers pn = =n relativ klein sein muss, wenn die
Approximation gute Ergebnisse liefern soll.
DWT
c Susanne Albers und Ernst W. Mayr
5.4 Poisson-Verteilung
148/462
Die folgenden Voraussetzungen mussen erfullt sein, damit die Annahme der
Poisson-Verteilung gerechtfertigt ist:
Die Ereignisse treten nie zur gleichen Zeit auf.
Die Wahrscheinlichkeit, dass ein Ereignis in einem (kleinen) Zeitintervall auftritt,
ist proportional zur Lange des Intervalls.
Die Anzahl der Ereignisse in einem festen Zeitintervall hangt nur von dessen
Lange ab, nicht aber von der Lage auf der Zeitachse.
Wenn man zwei disjunkte Zeitintervalle betrachtet, so sind die Anzahlen der
Ereignisse in diesen Zeitraumen voneinander unabhangig.
DWT
c Susanne Albers und Ernst W. Mayr
5.4 Poisson-Verteilung
149/462
Beispiel 58
Wir wollen wissen, wie oft eine bestimmte Gegend im Durchschnitt von einer
Naturkatastrophe (z.B. Vulkanausbruch) getroen wird. Aus Statistiken entnehmen
wir, dass so ein Ereignis im Mittel 10 4 -mal pro Jahr auftritt. Wir interessieren uns
nun fur die Wahrscheinlichkeit, dass die Region in einem Jahr mehr als einmal von
einem solchen Ungluck heimgesucht wird.
Die Voraussetzungen scheinen erfullt zu sein, die Anzahl X der Katastrophen durch
eine Poisson-Verteilung mit Parameter = 10 4 zu modellieren.
Damit gilt
Pr[X 2] = 1 Pr[X = 0] Pr[X = 1] = 1 e e
1 0;999900005 0;000099990 = 5 10 9:
DWT
c Susanne Albers und Ernst W. Mayr
5.4 Poisson-Verteilung
150/462
Summe von Poisson-verteilten Zufallsvariablen
Satz 59
Sind X und Y unabhangige Zufallsvariablen mit X
Z := X + Y
DWT
c Susanne Albers und Ernst W. Mayr
Po() und Y Po(), dann gilt
Po( + ) :
5.4 Poisson-Verteilung
151/462
Beweis:
fZ (z ) =
1
X
x=0
fX (x) fY (z
x) =
z
(+) ( + )
= e
z!
=
z
X
z
X
e
x=0
x!(z
x=0
z X
z!
z
x
x!
ez
z x
(
x)!
x x)! + 1
e (+) ( + )z px (1
z ! x=0 x
z
x
+
p)z x ;
wobei p := + .
Da die Summe gleich 1 ist, folgt
1
fZ (z ) = e (+) ( + )z :
z!
DWT
c Susanne Albers und Ernst W. Mayr
5.4 Poisson-Verteilung
152/462
Erlauterungen und Beispiele zur Poisson-Verteilung
In der Wikipedia nden sich ein paar weitere Details und Beispiele.
Eine Anwendung der Poisson-Verteilung auf die Fuball-Bundesliga wird in einem
Artikel prasentiert, der im Spektrum der Wissenschaft, Heft Juni 2010, erschienen
ist.
DWT
c Susanne Albers und Ernst W. Mayr
5.4 Poisson-Verteilung
153/462
6. Abschatzen von Wahrscheinlichkeiten
6.1 Die Ungleichungen von Markov und Chebyshev
Satz 60 (Markov-Ungleichung)
Sei X eine Zufallsvariable, die nur nicht-negative Werte annimmt. Dann gilt fur alle
t 2 R mit t > 0, dass

Aquivalent
dazu:
DWT
c Susanne Albers und Ernst W. Mayr
Pr[X t] E[tX ] :
Pr[X t E[X ]] 1=t :
6.1 Die Ungleichungen von Markov und Chebyshev
154/462
Beweis:
t Pr[X t] = t X
x2WX ; xt
X
x 2W X ; x t
X
x 2W X
Pr[X = x]
x Pr[X = x]
x Pr[X = x]
= E[X ] :
DWT
c Susanne Albers und Ernst W. Mayr
6.1 Die Ungleichungen von Markov und Chebyshev
155/462
Alternativer Beweis:
Es gilt
E[X ] = E[X jX < t] Pr[X < t] + E[X jX t] Pr[X t] :
Wegen E[X jX < t] Pr[X < t] 0 und E[X jX t] t folgt sofort
E[X ] t Pr[X t] :
DWT
c Susanne Albers und Ernst W. Mayr
6.1 Die Ungleichungen von Markov und Chebyshev
156/462
Die Markov-Ungleichung ist nach Andrey Andreyevich Markov (1856{1922) benannt,
der an der Universitat von St. Petersburg bei Chebyshev studierte und spater dort
arbeitete. Neben seiner mathematischen Tatigkeit el Markov durch heftige Proteste
gegen das Zaren-Regime auf, und nur sein Status als vermeintlich harmloser
Akademiker schutzte ihn vor Repressalien durch die Behorden. Im Jahr 1913
organisierte er parallel zum dreihundertjahrigen Geburtstag der Zarenfamilie Romanov
eine Feier zum zweihundertjahrigen Geburtstag des Gesetzes der groen Zahlen (s.u.).
DWT
c Susanne Albers und Ernst W. Mayr
6.1 Die Ungleichungen von Markov und Chebyshev
157/462
Die folgende Abschatzung ist nach Pavnuty Lvovich Chebyshev (1821{1894) benannt,
der ebenfalls an der Staatl. Universitat in St. Petersburg wirkte.
Satz 61 (Chebyshev-Ungleichung)
Sei X eine Zufallsvariable, und sei t 2 R mit t > 0. Dann gilt
X]
Pr[jX E[X ]j t] Var[
:
2
t

Aquivalent
dazu:
DWT
c Susanne Albers und Ernst W. Mayr
p
Pr[jX E[X ]j t Var[X ]] 1=t2 :
6.1 Die Ungleichungen von Markov und Chebyshev
158/462
Beweis:
Wir stellen fest, dass
Pr[jX E[X ]j t] = Pr[(X E[X ])2 t2 ] :
Setze
Y := (X
E[X ])2 :
Dann gilt E[Y ] = Var[X ], und damit mit der Markov-Ungleichung:
X]
Pr[jX E[X ]j t] = Pr[Y t2 ] Et[Y2 ] = Var[
:
2
t
DWT
c Susanne Albers und Ernst W. Mayr
6.1 Die Ungleichungen von Markov und Chebyshev
159/462
Beispiel 62
Wir werfen 1000-mal eine faire Munze und ermitteln die Anzahl X der Wurfe, in denen
Kopf\ fallt.
"
X ist binomialverteilt mit X Bin(1000; p = 12 ), also gilt
1
2
1
4
E[X ] = n = 500 und Var[X ] = n = 250:
Wie gro ist die Wahrscheinlichkeit, dass mehr als 550-mal Kopf\ fallt?
"
DWT
c Susanne Albers und Ernst W. Mayr
160/462
Beispiel 62
Chebyshev-Ungleichung:
Pr[X 550] Pr[jX 500j 50] 250
502 = 0;1 :
Setze nun n = 10000 und betrachte wieder eine maximal 10%-ige Abweichung vom
Erwartungswert:
E[X ] = 5000 und Var[X ] = 2500, und damit
Pr[X 5500] Pr[jX 5000j 500] 2500
5002 = 0;01 :
DWT
c Susanne Albers und Ernst W. Mayr
6.1 Die Ungleichungen von Markov und Chebyshev
160/462
6.2 Gesetz der groen Zahlen
Wir haben diskutiert, wie Wahrscheinlichkeiten als Grenzwerte von relativen
Haugkeiten aufgefasst werden konnen.
Satz 63 (Gesetz der groen Zahlen)
Gegeben sei eine Zufallsvariable X . Ferner seien "; > 0 beliebig aber fest. Dann gilt
X]
fur alle n Var[
"2 :
Sind X1 ; : : : ; Xn unabhangige Zufallsvariablen mit derselben Verteilung wie X und
setzt man
X + : : : + Xn
Z := 1
;
so gilt
DWT
c Susanne Albers und Ernst W. Mayr
n
Pr[jZ E[X ]j ] ":
6.2 Gesetz der groen Zahlen
161/462
Beweis:
Fur Z gilt
1
1
E[Z ] = (E[X1 ] + : : : + E[Xn ]) = n E[X ] = E[X ];
n
n
sowie
Var[Z ] = n12 (Var[X1 ] + : : : + Var[Xn ]) = n12 n Var[X ] = Var[nX ] :
Mit der Chebyshev-Ungleichung erhalten wir
Z ] Var[X ]
Pr[jZ E[X ]j ] = Pr[jZ E[Z ]j ] Var[
= n2 ";
2
nach Wahl von n.
DWT
c Susanne Albers und Ernst W. Mayr
6.2 Gesetz der groen Zahlen
162/462
Wahrscheinlichkeit und relative Haugkeit.
Sei X eine Indikatorvariable fur ein Ereignis A, Pr[A] = p. Somit ist X
Bernoulli-verteilt mit E[X ] = p.
Z = n1 (X1 + : : : + Xn ) gibt die relative Haugkeit an, mit der A bei n
Wiederholungen des Versuchs eintritt, denn
Z=
Anzahl der Versuche, bei denen A eingetreten ist
:
Anzahl aller Versuche
Mit Hilfe des obigen Gesetzes der groen Zahlen folgt
Pr[jZ pj ] ";
fur genugend groes n. Also nahert sich die relative Haugkeit von A bei hinreichend
vielen Wiederholungen des Experiments mit beliebiger Sicherheit beliebig nahe an die
wahre\ Wahrscheinlichkeit p an.
"
DWT
c Susanne Albers und Ernst W. Mayr
6.2 Gesetz der groen Zahlen
163/462
Die obige Variante eines Gesetzes der groen Zahlen geht auf Jakob Bernoulli zuruck,
der den Satz in seinem Werk ars conjectandi zeigte.
Es soll betont werden, dass das Gesetz der groen Zahlen die
P
relative Abweichung j 1
Xi pj
i
n
und nicht die
absolute Abweichung j
P
i Xi
npj
abschatzt!
DWT
c Susanne Albers und Ernst W. Mayr
6.2 Gesetz der groen Zahlen
164/462
6.3 Cherno-Schranken
6.3.1 Cherno-Schranken fur Summen von 0{1{Zufallsvariablen
Die hier betrachtete Art von Schranken ist nach Herman Cherno ( 1923) benannt.
Sie nden in der komplexitatstheoretischen Analyse von Algorithmen eine sehr hauge
Verwendung.
Satz 64
Seien X1 ; : : : ; Xn unabhangige Bernoulli-verteilte
Zufallsvariablen mit Pr[P
Xi = 1] = pi
P
und Pr[Xi = 0] = 1 pi . Dann gilt fur X := ni=1 Xi und := E[X ] = ni=1 pi ,
sowie jedes > 0, dass
Pr[X (1 + )] DWT
c Susanne Albers und Ernst W. Mayr
e
(1 + )1+
6.3 Cherno-Schranken
:
165/462
Beweis:
Fur t > 0 gilt
Pr[X (1 + )] = Pr[etX et(1+) ] :
Mit der Markov-Ungleichung folgt
[etX ] :
Pr[X (1 + )] = Pr[etX et(1+) ] Et(1+
)
e
Wegen der Unabhangigkeit der Zufallsvariablen X1 ; : : : ; Xn gilt
"
E[etX ] = E
exp
n
X
i=1
Weiter ist fur i 2 f1; : : : ; ng:
E[etXi ] = et1 pi + et0 (1
DWT
c Susanne Albers und Ernst W. Mayr
!#
tXi
"
=E
n
Y
i=1
#
etXi
=
n
Y
i=1
E[etXi ]:
pi ) = et pi + 1 pi = 1 + pi (et 1) ;
166/462
Beweis (Forts.):
und damit
Pr[X (1 + )] =
Qn
t
i=1 (1 + pi (e
et(1+)
Qn
t
i=1 exp(pi (e
et(1+)
Pn
exp( i=1 pi (et
et(1+)
1))
1))
1)) = e(et
1)
et(1+)
=: f (t) :
Wir wahlen nun t so, dass f (t) minimiert wird, namlich
t = ln(1 + ) :
Damit wird
DWT
c Susanne Albers und Ernst W. Mayr
e(et 1)
e
f (t) = t(1+) =
:
e
(1 + )(1+)
6.3 Cherno-Schranken
166/462
Beispiel 65
Wir betrachten wieder das Beispiel, dass wir eine faire Munze n-mal werfen und
abschatzen wollen, mit welcher Wahrscheinlichkeit Kopf\
"
n
2 (1 + 10%)
oder ofter fallt.
n
1000
10000
n
DWT
c Susanne Albers und Ernst W. Mayr
Chebyshev
0;1
0;01
1
4
n
(0;1 12 n)2
Cherno
0;0889
0;308 10
e0;1
(1+0;1)1+0;1
6.3 Cherno-Schranken
10
1n
2
167/462
Satz 66
Seien X1 ; : : : ; Xn unabhangige Bernoulli-verteilte
Zufallsvariablen mit Pr[P
Xi = 1] = pi
Pn
und Pr[Xi = 0] = 1 pi . Dann gilt fur X := i=1 Xi und := E[X ] = ni=1 pi ,
sowie jedes 0 < < 1, dass
e
Pr[X (1 )] (1 )1
:
Beweis:
Analog zum Beweis von Satz 64.
Bemerkung: Abschatzungen, wie sie in Satz 64 und Satz 66 angegeben sind, nennt
man auch tail bounds, da sie Schranken fur die tails, also die vom Erwartungswert weit
entfernten Bereiche angeben. Man spricht hierbei vom upper tail (vergleiche Satz 64)
und vom lower tail (vergleiche Satz 66).
Die Cherno-Schranken hangen exponentiell von ab!
DWT
c Susanne Albers und Ernst W. Mayr
6.3 Cherno-Schranken
168/462
Lemma 67
Fur 0 < 1 gilt
(1 )1 e
+2 =2
und
(1 + )1+ e+ =3 :
Beweis:
Wir betrachten
2
1
2
f (x) = (1 x) ln(1 x) und g(x) = x + x2 :
Es gilt fur 0 x < 1:
sowie
g0 (x) = x 1 ln(1 x) 1 = f 0 (x)
f (0) = 0 = g(0) ;
also im angegebenen Intervall f (x) g (x).
Die Herleitung der zweiten Ungleichung erfolgt analog.
DWT
c Susanne Albers und Ernst W. Mayr
6.3 Cherno-Schranken
169/462
Korollar 68
Seien X1 ; : : : ; Xn unabhangige Bernoulli-verteilte Zufallsvariablen mit Pr[P
Xi = 1] = pi
und Pr[Xi = P
0] = 1 pi . Dann gelten folgende Ungleichungen fur X := ni=1 Xi und
:= E[X ] = ni=1 pi :
2
1 Pr[X (1 + )] e =3
fur alle 0 < 1,
2
2 Pr[X (1
)] e =2 fur alle 0 < 1,
3
4
5
Pr[jX j ] 2e =3 fur alle 0 < 1,
(1+)
Pr[X (1 + )] 1+e und
Pr[X t] 2 t fur t 2e.
DWT
c Susanne Albers und Ernst W. Mayr
2
6.3 Cherno-Schranken
170/462
Beweis:
1 und 2 folgen direkt aus Satz 64 bzw. 66 und Lemma 67.
Aus 1 und 2 zusammen folgt 3.
Die Abschatzung 4 erhalten wir direkt aus Satz 64, da fur den Zahler gilt
e e(1+) :
5 folgt aus 4, indem man t = (1 + ) setzt, t 2e:
e
1+
DWT
c Susanne Albers und Ernst W. Mayr
(1+)
e
t=
t
6.3 Cherno-Schranken
t
12 :
171/462
Beispiel 69
Wir betrachten wieder balls into bins und werfen n Balle unabhangig und gleichverteilt
in n Korbe. Sei
Xi := Anzahl der Balle im i-ten Korb
fur i = 1; : : : ; n, sowie X := max1in Xi .
Fur die Analyse von Xi (i 2 f1; : : : ; ng beliebig) verwenden wir Aussage 5 von
Korollar 68, mit p1 = : : : = pn = n1 , = 1 und t = 2 log n. Es folgt
Pr[Xi 2 log n] 1=n2 :
Daraus ergibt sich
Pr[
X
2 log
n] = Pr[X1 2 log n _ : : : _ Xn 2 log n] n 2
n
1
Es gilt also mit Wahrscheinlichkeit 1
DWT
c Susanne Albers und Ernst W. Mayr
=
1
n
:
1=n, dass X < 2 log n ist.
6.3 Cherno-Schranken
172/462
Literatur:
Torben Hagerup, Christine Rub:
A guided tour of Cherno bounds
Inf. Process. Lett. 33, pp. 305{308 (1990)
DWT
c Susanne Albers und Ernst W. Mayr
6.3 Cherno-Schranken
173/462
7. Erzeugende Funktionen
7.1 Einfuhrung
Denition 70
Fur eine Zufallsvariable X mit WX
Funktion deniert durch
GX (s) :=
N0 ist die (wahrscheinlichkeits-)erzeugende
1
X
k=0
Pr[X = k] sk = E[sX ] :
Die obige Denition gilt fur allgemeine s 2 R, wir werden uns aber auf s 2 [
konzentrieren.
1; 1]
Eine wahrscheinlichkeitserzeugende Funktion ist also die (gewohnliche) erzeugende
Funktion der Folge (fi )i2N0 mit fi := Pr[X = i].
DWT
c Susanne Albers und Ernst W. Mayr
7.1 Einfuhrung
174/462
Bei wahrscheinlichkeitserzeugenden Funktionen haben wir kein Problem mit der
Konvergenz, da fur jsj < 1 gilt
jGX (s)j =
DWT
c Susanne Albers und Ernst W. Mayr
1
X
Pr[X
k=0
1
X
k=0
= k] sk Pr[X = k] jsk j 7.1 Einfuhrung
1
X
k=0
Pr[X = k] = 1 :
175/462
Beobachtung:
Sei Y := X + t mit t 2 N0 . Dann gilt
GY (s) = E[sY ] = E[sX +t ] = E[st sX ] = st E[sX ] = st GX (s) :
Ebenso lasst sich leicht nachrechnen, dass
1
X
0
GX (s) = k Pr[X = k] sk 1 , also
k=1
0
GX (0) = Pr[X = 1], sowie
G(i) (0) = Pr[X = i] i!, also
X
G(i) (0)=i! = Pr[X
X
DWT
c Susanne Albers und Ernst W. Mayr
= i] :
7.1 Einfuhrung
176/462
Satz 71 (Eindeutigkeit der w.e. Funktion)
Die Dichte und die Verteilung einer Zufallsvariablen X mit WX
wahrscheinlichkeitserzeugende Funktion eindeutig bestimmt.
N sind durch ihre
Beweis:
Folgt aus der Eindeutigkeit der Potenzreihendarstellung.
DWT
c Susanne Albers und Ernst W. Mayr
7.1 Einfuhrung
177/462
Bernoulli-Verteilung
Sei X eine Bernoulli-verteilte Zufallsvariable mit Pr[X = 0] = 1 p und
Pr[X = 1] = p. Dann gilt
GX (s) = E[sX ] = (1 p) s0 + p s1 = 1 p + ps :
Gleichverteilung auf f0; : : : ; ng
Sei X auf f0; : : : ; ng gleichverteilt, d.h. fur 0 k n ist Pr[X = k] = 1=(n + 1).
Dann gilt
GX (s) = E[sX ] =
DWT
c Susanne Albers und Ernst W. Mayr
n
X
1 sk = sn+1 1 :
n+1
(n + 1)(s 1)
k=0
7.1 Einfuhrung
178/462
Binomialverteilung
Fur X Bin(n; p) gilt nach der binomischen Formel
GX
(s) = E[sX ] =
n
X
n k
p (1 p)n
k
k=0
k sk
= (1 p + ps)n :
Geometrische Verteilung
Sei X eine geometrisch verteilte Zufallsvariable mit Erfolgswahrscheinlichkeit p. Dann
gilt
GX (s) = E[sX ] =
1
X
k=1
= ps DWT
c Susanne Albers und Ernst W. Mayr
p(1 p)k 1 sk
1
X
((1 p)s)k 1 = 1 (1ps p)s :
k=1
7.1 Einfuhrung
179/462
Poisson-Verteilung
Fur X Po() gilt
GX
(s) = E[sX ] =
DWT
c Susanne Albers und Ernst W. Mayr
1
X
k=0
e
k
k!
sk = e
7.1 Einfuhrung
+s
= e(s 1) :
180/462
Beispiel 72
Sei X binomialverteilt mit X
GX (s) = 1
Bin(n; =n), Fur n ! 1 folgt
s
+
n n
n
= 1 + (sn 1)
n
! e(s 1) :
Man kann beweisen, dass aus der Konvergenz der wahrscheinlichkeitserzeugenden
Funktion die Konvergenz der Verteilung folgt.
DWT
c Susanne Albers und Ernst W. Mayr
7.1 Einfuhrung
181/462
7.1.1 Zusammenhang zwischen der w.e. Funktion und den Momenten
Da
gilt
GX (s) :=
1
X
k=0
Pr[X = k] sk = E[sX ] ;
1
X
0
GX (1) = k Pr[X = k] = E[X ] :
k=1
DWT
c Susanne Albers und Ernst W. Mayr
7.1 Einfuhrung
182/462
Beispiel 73
Sei X binomialverteilt mit X
Bin(n; p), also
GX (s) = (1 p + ps)n :
Dann gilt
G0X (s) = n (1 p + ps)n 1 p
und somit
E[X ] = G0X (1) = np :
DWT
c Susanne Albers und Ernst W. Mayr
183/462
Beispiel 73
Ebenso ergibt sich
E[X (X 1) : : : (X i + 1)] = G(Xi) (1) ;
also etwa
Var[X ] = E[X (X 1)] + E[X ] E[X ]2
= G00X (1) + G0X (1) (G0X (1))2 :
Andere Momente von X kann man auf ahnliche Art und Weise berechnen.
DWT
c Susanne Albers und Ernst W. Mayr
7.1 Einfuhrung
183/462
Momenterzeugende Funktionen
Denition 74
Zu einer Zufallsvariablen X ist die momenterzeugende Funktion gema
MX (s) := E[eXs ]
deniert.
Es gilt
MX
und
(s) = E[eXs ] = E
"
1
X
#
1 E[X i ]
(Xs)i = X
si
i
!
i
!
i=0
i=0
MX (s) = E[eXs ] = E[(es )X ] = GX (es ) :
DWT
c Susanne Albers und Ernst W. Mayr
7.1 Einfuhrung
184/462
7.2 Summen von Zufallsvariablen
Satz 75 (Erzeugende Funktion einer Summe)
Fur unabhangige Zufallsvariablen X1 ; : : : ; Xn und die Zufallsvariable
Z := X1 + : : : + Xn gilt
GZ (s) = GX1 (s) : : : GXn (s) :
Ebenso gilt
MZ (s) = MX1 (s) : : : MXn (s) :
Beweis:
Wegen der Unabhangigkeit von X1 ; : : : ; Xn gilt
GZ (s) = E[sX1 +:::+Xn ] = E[sX1 ] : : : E[sXn ] = GX1 (s) : : : GXn (s):
DWT
c Susanne Albers und Ernst W. Mayr
7.2 Summen von Zufallsvariablen
185/462
Beispiel 76
Seien X1 ; : : : Xk mit Xi Bin(ni ; p) unabhangige Zufallsvariable und
Z := X1 + : : : + Xk . Dann gilt
GZ (s) =
und somit
k
Y
i=1
(1 p + ps)ni = (1 p + ps)
Z Bin(
k
X
i=1
Pk
i=1 ni
ni ; p)
(vgl. Satz 56).
Seien X1 ; : : : ; Xk Po() unabhangige Zufallsvariablen. Dann folgt fur
Z := X1 + : : : + Xk
k
Y
GZ (s) = e(s 1) = ek(s 1)
i=1
und somit Z Po(k) (vgl. Satz 59).
DWT
c Susanne Albers und Ernst W. Mayr
7.2 Summen von Zufallsvariablen
186/462
7.2.1 Zufallige Summen
Wir betrachten die Situation, dass Z := X1 + : : : + XN , wobei N ebenfalls eine
Zufallsvariable ist.
Satz 77
Seien X1 ; X2 ; : : : unabhangige und identisch verteilte Zufallsvariablen mit der
wahrscheinlichkeitserzeugenden Funktion GX (s). N sei ebenfalls eine unabhangige
Zufallsvariable mit der wahrscheinlichkeitserzeugenden Funktion GN (s). Dann besitzt
die Zufallsvariable Z := X1 + : : : + XN die wahrscheinlichkeitserzeugende
Funktion GZ (s) = GN (GX (s)).
DWT
c Susanne Albers und Ernst W. Mayr
7.2 Summen von Zufallsvariablen
187/462
Beweis:
Nach Voraussetzung ist WN
N0. Deshalb folgt mit Satz 36
GZ (s) =
=
=
=
1
X
n=0
1
X
n=0
1
X
n=0
1
X
n=0
E[sZ j N = n] Pr[N = n]
E[sX +:::+Xn ] Pr[N = n]
1
E[sX ] : : : E[sXn ] Pr[N = n]
1
(GX (s))n Pr[N = n]
= E[(GX (s))N ]
= GN (GX (s)) :
DWT
c Susanne Albers und Ernst W. Mayr
7.2 Summen von Zufallsvariablen
188/462
8. Formelsammlung
8.1 Gesetze zum Rechnen mit Ereignissen
Im Folgenden seien A und B , sowie A1 ; : : : ; An Ereignisse. Die Notation A ] B steht
fur A [ B und zugleich A \ B = ; (disjunkte Vereinigung). A1 ] : : : ] An = bedeutet
also, dass die Ereignisse A1 ; : : : ; An eine Partition der Ergebnismenge bilden.
Pr[;] = 0
0 Pr[A] 1
Pr[A] = 1 Pr[A]
A B =) Pr[A] Pr[B ]
DWT
c Susanne Albers und Ernst W. Mayr
8.1 Gesetze zum Rechnen mit Ereignissen
189/462
8i 6=Sj : Ai \ APj = ; =)
Pr [
n A]=
i=1 i
Additionssatz
n Pr[A ]
i
i=1
Pr[A [ B ] = Pr[A] + Pr[B ] Pr[A \ B ] Inklusion/Exklusion,
allgemeine Form: siehe Satz 9
Sn
Pr [
i=1 Ai ] Boolesche
Ungleichung
Pn
i=1 Pr[Ai ]
Pr[AjB ] = Pr[Pr[AB\B] ] fur Pr[B ] > 0
DWT
c Susanne Albers und Ernst W. Mayr
Siebformel
Def. bedingte Ws.
8.1 Gesetze zum Rechnen mit Ereignissen
190/462
B A1 ]P: : : ] An =)
Pr[B ] = ni=1 Pr[B jAi ] Pr[Ai ]
Satz von der totalen
Wahrscheinlichkeit
Pr[B ] > 0, B A1 ] : : : ] An =)
B jAi ]Pr[Ai ]
Pr[Ai jB ] = PniPr[Pr[
B jAi ]Pr[Ai ]
Satz von Bayes
=1
Pr[A1 \ : : : \ An ] = Pr[A1 ] Pr[A2 jA1 ] Multiplikationssatz
: : : Pr[An jA1 \ : : : \ An 1 ]
A und B unabhangig
()
Pr[A \ B ] = Pr[A] Pr[B ]
DWT
c Susanne Albers und Ernst W. Mayr
Denition
Unabhangigkeit
8.1 Gesetze zum Rechnen mit Ereignissen
191/462
8.2 Erwartungswert und Varianz diskreter Zufallsvariablen
Sei X eine diskrete Zufallsvariable. Fur Erwartungswert und Varianz gelten die folgenden
Formeln (sofern E[X ] und Var[X ] existieren).
E[X ] =
=
Var[X ]
=
X
x 2W X
X
! 2
1
X
i=1
x Pr[X = x]
X (!) Pr[!]
Pr[X i]; falls WX N0
Erwartungswert
= E[(X E[X ])2 ]
= x2WX Pr[X = x] (x E[X ])2
P
DWT
c Susanne Albers und Ernst W. Mayr
Varianz
8.2 Erwartungswert und Varianz diskreter Zufallsvariablen
192/462
8.3 Gesetze zum Rechnen mit Zufallsvariablen
Seien a, b, a1 , . . . , an 2 R, f1 ; : : : ; fn : R ! R.
X1 ; : : : ; Xn unabhangig
()
fur alle (a1 ; : : : ; an ):
Pr[X1 = a1 ; : : : ; Xn = an ]
= Pr[X1 = a1 ] : : : Pr[Xn = an ]
X1 ; : : : ; Xn unabhangig =) f1 (X1 ); : : : ; fn (Xn ) unabhangig
E[a X + b] = a E[X ] + b
DWT
c Susanne Albers und Ernst W. Mayr
8.3 Gesetze zum Rechnen mit Zufallsvariablen
193/462
X (!) Y (!) fur alle ! 2 =)
E[X ] E[Y ]
E[X ] =
Monotonie des
Erwartungswerts
Pn
i=1 E[X jAi ] Pr[Ai ]
Var[X ] = E[X 2 ] E[X ]2
Var[a X + b] = a2 Var[X ]
DWT
c Susanne Albers und Ernst W. Mayr
8.3 Gesetze zum Rechnen mit Zufallsvariablen
194/462
E[a1 X1 + : : : + an Xn ]
= a1 E[X1 ] + : : : + an E[Xn ]
Linearitat des
Erwartungswerts
X1 ; : : : ; Xn unabhangig =)
E[X1 : : : Xn ] = E[X1 ] : : : E[Xn ]
Multiplikativitat des
Erwartungswerts
X1 ; : : : ; Xn unabhangig =)
Var[X1 + : : : + Xn ] = Var[X1 ] + : : : + Varianz
einer Summe
Var[Xn ]
DWT
c Susanne Albers und Ernst W. Mayr
8.3 Gesetze zum Rechnen mit Zufallsvariablen
195/462
X 0 =)
Pr[X t] E[X ]=t fur t > 0
Markov
Pr[jX E[X ]j t]
Var[X ]=t2 fur t > 0
Chebyshev
siehe Satz 63
Gesetz der
groen Zahlen
DWT
c Susanne Albers und Ernst W. Mayr
8.3 Gesetze zum Rechnen mit Zufallsvariablen
196/462
Kapitel II Kontinuierliche Wahrscheinlichkeitsraume
1. Einfuhrung
1.1 Motivation
Interpretation der Poisson-Verteilung als Grenzwert der Binomialverteilung.
DWT
c Susanne Albers und Ernst W. Mayr
1.1 Motivation
197/462
Beispiel 78
Wir betrachten das Szenario: Bei einem Druckerserver kommen Auftrage in einer
Warteschlange an, die alle 1=n Zeiteinheiten vom Server abgefragt wird. Der Server
nimmt also zu den diskreten Zeitpunkte 1=n; 2=n; 3=n; : : : neue Auftrage entgegen.
Durch den Grenzwert n ! 1 verschmelzen\ diese diskreten Zeitpunkte zu einer
"
kontinuierlichen Zeitachse, und fur die Zufallsvariable T , welche die Zeitspanne bis
zum Eintreen des nachsten Auftrags misst, reicht eine diskrete Wertemenge WT nicht
mehr aus.
DWT
c Susanne Albers und Ernst W. Mayr
1.1 Motivation
198/462
1.2 Kontinuierliche Zufallsvariablen
Denition 79
Eine kontinuierliche oder auch stetige Zufallsvariable X und ihr zugrunde liegender
kontinuierlicher (reeller) Wahrscheinlichkeitsraum sind deniert durch eine integrierbare
Dichte(-funktion) fX : R ! R+
0 mit der Eigenschaft
Z +1
fX (x) d x = 1:
1
S
Eine Menge A R, die durch Vereinigung A = k Ik abzahlbar vieler paarweise
disjunkter Intervalle beliebiger Art (oen, geschlossen, halboen, einseitig unendlich)
gebildet werden kann, heit Ereignis. Ein Ereignis A tritt ein, wenn X einen Wert
aus A annimmt. Die Wahrscheinlichkeit
von A ist bestimmt
durch
Z
Z
Pr[A] =
DWT
c Susanne Albers und Ernst W. Mayr
A
fX (x) d x =
X
k
Ik
1.2 Kontinuierliche Zufallsvariablen
fX (x) d x:
199/462
Beispiel 80 (Gleichverteilung)
Eine besonders einfache kontinuierliche Dichte stellt die Gleichverteilung auf dem
Intervall [a; b] dar. Sie ist deniert durch
(
f (x) =
1
b a
0
fur x 2 [a; b],
sonst.
Analog zum diskreten Fall ordnen wir jeder Dichte fX eine Verteilung oder
Verteilungsfunktion FX zu:
FX (x) := Pr[X x] = Pr[ft 2 R j t xg] =
DWT
c Susanne Albers und Ernst W. Mayr
1.2 Kontinuierliche Zufallsvariablen
Z x
1
fX (t) d t:
200/462
Beispiel 81
Die Verteilungsfunktion der Gleichverteilung:
F (x) =
DWT
c Susanne Albers und Ernst W. Mayr
8
>
<0
Z x
1
f (t) d t = xb aa
>
:
1
fur x < a;
fur a x b;
fur x > b:
1.2 Kontinuierliche Zufallsvariablen
201/462
f (x)
1,4
1,2
1,0
1,0
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0,0
-0,2
-0,5
F (x)
1,4
1,2
0,0
0,0
0,5
1,0
-0,2
1,5
-0,5
0,0
0,5
1,0
1,5
Gleichverteilung uber dem Intervall [0; 1]
DWT
c Susanne Albers und Ernst W. Mayr
1.2 Kontinuierliche Zufallsvariablen
202/462
Beobachtungen:(Eigenschaften der Verteilungsfunktion)
FX ist monoton steigend.
FX ist stetig. Man spricht daher auch von einer "stetigen Zufallsvariablen\.
Es gilt: limx! 1 FX (x) = 0 und limx!1 FX (x) = 1.
Jeder (auer an endlich vielen Punkten) dierenzierbaren Funktion F , welche die
zuvor genannten Eigenschaften erfullt, konnen wir eine Dichte f durch
f (x) = F 0 (x) zuordnen.
Es gilt
DWT
c Susanne Albers und Ernst W. Mayr
Pr[a < X b] = FX (b) FX (a) :
1.2 Kontinuierliche Zufallsvariablen
203/462
Bei den von uns betrachteten Dichten besteht zwischen den Ereignissen a < X
"
a
X
b
\, a X < b\ und a < X < b\ kein wesentlicher Unterschied, da
"
"
"
Z
[a;b]
f (t) d t =
DWT
c Susanne Albers und Ernst W. Mayr
Z
]a;b]
f (t) d t =
Z
[a;b[
f (t) d t =
1.2 Kontinuierliche Zufallsvariablen
Z
]a;b[
b\,
f (t) d t:
204/462
1.3 Kolmogorov-Axiome und -Algebren
1.3.1 -Algebren
Denition 82
Sei eine Menge. Eine Menge A P (
) heit -Algebra uber , wenn folgende
Eigenschaften erfullt sind:
(E1) 2 A.
(E2) Wenn A 2 A, dann folgt A 2 A.
S
(E3) Fur n 2 N sei An 2 A. Dann gilt auch 1
n=1 An 2 A.
DWT
c Susanne Albers und Ernst W. Mayr
1.3 Kolmogorov-Axiome und -Algebren
205/462
Fur jede (endliche) Menge stellt die Menge P (
) eine -Algebra dar.
Fur = R ist die Klasse der Borel'schen Mengen, die aus allen Mengen A R
besteht, welche sich durch abzahlbare Vereinigungen und Schnitte von Intervallen
(oen, halboen oder geschlossen) darstellen lassen, eine -Algebra.
DWT
c Susanne Albers und Ernst W. Mayr
1.3 Kolmogorov-Axiome und -Algebren
206/462
1.3.2 Kolmogorov-Axiome
Denition 83 (Wahrscheinlichkeitsraum, Kolmogorov-Axiome)
Sei eine beliebige Menge und A eine -Algebra uber . Eine Abbildung
Pr[:] : A ! [0; 1]
heit Wahrscheinlichkeitsma auf A, wenn sie folgende Eigenschaften besitzt:
1 (W1) Pr[
] = 1.
2
(W2) A1 ; A2 ; : : : seien paarweise
Ereignisse. Dann gilt
" disjunkte
#
1
1
[
X
Pr
i=1
Ai =
i=1
Pr[Ai ]:
Fur ein Ereignis A 2 A heit Pr[A] Wahrscheinlichkeit von A. Ein
Wahrscheinlichkeitsraum ist deniert durch das Tupel (
; A; Pr).
DWT
c Susanne Albers und Ernst W. Mayr
1.3 Kolmogorov-Axiome und -Algebren
207/462
Die in obiger Denition aufgelisteten Eigenschaften eines Wahrscheinlichkeitsmaes
wurden von dem russischen Mathematiker Andrei Nikolaevich Kolmogorov
(1903{1987) formuliert. Kolmogorov gilt als einer der Pioniere der modernen
Wahrscheinlichkeitstheorie, leistete jedoch auch bedeutende Beitrage zu zahlreichen
anderen Teilgebieten der Mathematik. Informatikern begegnet sein Name auch im
Zusammenhang mit der so genannten Kolmogorov-Komplexitat, einem relativ jungen
Zweig der Komplexitatstheorie.
Die Eigenschaften in obiger Denition nennt man auch Kolmogorov-Axiome.
DWT
c Susanne Albers und Ernst W. Mayr
1.3 Kolmogorov-Axiome und -Algebren
208/462
Lemma 84
Sei (
; A; Pr) ein Wahrscheinlichkeitsraum. Fur Ereignisse A, B , A1 , A2 , : : : gilt
1
2
3
4
Pr[;] = 0, Pr[
] = 1.
0 Pr[A] 1.
Pr[A] = 1 Pr[A].
Wenn A B , so folgt Pr[A] Pr[B ].
DWT
c Susanne Albers und Ernst W. Mayr
209/462
Lemma 84
5
(Additionssatz) Wenn die Ereignisse A1 ; : : : ; An paarweise disjunkt sind, so folgt
"
Pr
n
[
i=1
#
Ai =
n
X
i=1
Pr[Ai ]:
Fur disjunkte Ereignisse A, B erhalten wir insbesondere
Pr[A [ B ] = Pr[A] + Pr[B ]:
Fur eine unendliche
Menge
von paarweise disjunkten Ereignissen A1 ; A2 ; : : : gilt
S
P1
analog Pr [ 1
A
]
=
i=1 i
i=1 Pr[Ai ].
DWT
c Susanne Albers und Ernst W. Mayr
1.3 Kolmogorov-Axiome und -Algebren
209/462
Beweis:
Wenn wir in Eigenschaft (W2)
A = und A2 ; A3 ; : : : = ; setzen, so ergibt die
P1 1
Eigenschaft, dass Pr[
] + i=2 Pr[;] = Pr[
]. Daraus folgt Pr[;] = 0.
Regel 2 und Regel 5 gelten direkt nach Denition der Kolmogorov-Axiome und Regel 1.
Regel 3 erhalten wir mit Regel 5 wegen 1 = Pr[
] = Pr[A] + Pr[A].
Fur Regel 4 betrachten wir die disjunkten Ereignisse A und C := B n A, fur die gilt,
dass A [ B = A [ C . Mit Regel 5 folgt die Behauptung.
DWT
c Susanne Albers und Ernst W. Mayr
1.3 Kolmogorov-Axiome und -Algebren
210/462
1.3.3 Lebesgue-Integrale
Eine Funktion f : R ! R heit messbar, falls das Urbild jeder Borel'schen Menge
ebenfalls eine Borel'sche Menge ist.
Z.B. ist fur jede Borel'sche Menge A die Indikatorfunktion
IA : x 7!
(
1 falls x 2 A,
0 sonst
messbar. Jede stetige Funktion ist messbar. Auch Summen und Produkte von
messbaren Funktionen sind wiederum messbar.
Jeder messbaren
Funktion kann man ein Integral, das so genannte Lebesgue-Integral,
R
geschrieben f d , zuordnen.
DWT
c Susanne Albers und Ernst W. Mayr
1.3 Kolmogorov-Axiome und -Algebren
211/462
Ist f : R ! R+
0 eine messbare Funktion, so deniert
R
Pr : A 7! f IA d eine Abbildung auf den Borel'schen Mengen, die die Eigenschaft (W2) der
Kolmogorov-Axiome erfullt. Gilt daher zusatzlich noch Pr[R] = 1, so deniert f auf
naturliche Weise einen Wahrscheinlichkeitsraum (
; A; Pr), wobei = R und A die
Menge der Borel'schen Mengen ist.
DWT
c Susanne Albers und Ernst W. Mayr
1.3 Kolmogorov-Axiome und -Algebren
212/462
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
1.4.1 Funktionen kontinuierlicher Zufallsvariablen
Sei Y := g (X ) mit einer Funktion g : R ! R.
Die Verteilung von Y erhalten wir durch
FY (y) = Pr[Y
y] = Pr[g(X ) y] =
Z
C
fX (t) d t:
Hierbei bezeichnet C := ft 2 R j g (t) y g alle reellen Zahlen t 2 R, fur welche die
Bedingung Y y\ zutrit. Das Integral uber C ist nur dann sinnvoll deniert,
"
wenn C ein zulassiges Ereignis darstellt. Aus der Verteilung FY konnen wir durch
Dierenzieren die Dichte fY ermitteln.
DWT
c Susanne Albers und Ernst W. Mayr
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
213/462
Beispiel 85
Sei X gleichverteilt auf dem Intervall ]0; 1[. Fur eine Konstante > 0 denieren wir
die Zufallsvariable Y := (1=) ln X .
FY (y) = Pr[ (1=) ln X y] = Pr[ln X y]
= Pr[X e y ]
= 1 FX (e y )
(
y f
ur y 0;
= 1 e
0
sonst:
DWT
c Susanne Albers und Ernst W. Mayr
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
214/462
Beispiel (Forts.)
Damit folgt mit fY (y ) = FY0 (y ) sofort
(
fY (y) =
e
0
y
fur y 0;
sonst:
Eine Zufallsvariable mit einer solchen Dichte fY nennt man exponentialverteilt.
DWT
c Susanne Albers und Ernst W. Mayr
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
215/462
Beispiel 86
Sei X eine beliebige Zufallsvariable. Fur a; b 2 R mit a > 0 denieren wir die
Zufallsvariable Y := a X + b.
Es gilt
FY (y ) = Pr[aX + b y ] = Pr X
yab
=
und somit
fY (y) =
DWT
c Susanne Albers und Ernst W. Mayr
d FY (y )
dy
FX
y
a
b
;
= d FX ((dy y b)=a) = fX y a b a1 :
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
216/462
Simulation von Zufallsvariablen
Unter der Simulation einer Zufallsvariablen X mit Dichte fX versteht man die
algorithmische Erzeugung von Zufallswerten, deren Verteilung der Verteilung von X
entspricht.
Dazu nehmen wir an, dass die zu simulierende Zufallsvariable X eine stetige, im
Bildbereich ]0; 1[ streng monoton wachsende Verteilungsfunktion FX besitzt. Weiter
nehmen wir an, dass U eine auf ]0; 1[ gleichverteilte Zufallsvariable ist, die wir
simulieren konnen.
Aus unserer Annahme uber FX folgt, dass es zu FX eine (eindeutige) inverse Funktion
F 1 gibt mit FX (F 1 (x)) = x fur alle x 2]0; 1[.
X
X
DWT
c Susanne Albers und Ernst W. Mayr
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
217/462
Sei nun
X~ := FX 1 (U ) ;
dann gilt
Pr[X~ t] = Pr[FX 1 (U ) t]
= Pr[U FX (t)]
= FU (FX (t))
= FX (t) :
DWT
c Susanne Albers und Ernst W. Mayr
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
218/462
Beispiel 87
Im obigen Beispiel der Exponentialverteilung gilt FX (t) = 1 e t fur t 0, und wir
erhalten auf ]0; 1[ die Umkehrfunktion FX 1 (t) = ln(1 t). Also gilt
X~ = FX 1 (U ) = ln(1 U ).
Statt X~ haben wir im Beispiel die Zufallsvariable
oensichtlich dieselbe Verteilung besitzt.
DWT
c Susanne Albers und Ernst W. Mayr
ln U betrachtet, die aber
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
219/462
1.4.2 Kontinuierliche Zufallsvariablen als Grenzwerte diskreter Zufallsvariablen
Sei X eine kontinuierliche Zufallsvariable. Wir konnen aus X leicht eine diskrete
Zufallsvariable konstruieren, indem wir fur ein festes > 0 denieren
X = n
Fur X gilt
() X 2 [n; (n + 1)[ fur n 2 Z:
Pr[X = n] = FX ((n + 1)) FX (n) :
DWT
c Susanne Albers und Ernst W. Mayr
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
220/462
1,0
FX (x)
FXÆ (x)
0,8
0,6
0,4
0,2
0,0
-3,0
-2,0
-1,0
0,0
1,0
2,0
3,0
Fur ! 0 nahert sich die Verteilung von X der Verteilung von X immer mehr an.
DWT
c Susanne Albers und Ernst W. Mayr
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
221/462
1.4.3 Erwartungswert und Varianz
Denition 88
Fur eine kontinuierliche Zufallsvariable X ist der Erwartungswert deniert durch
E[X ] =
Z
1
1
t fX (t) d t;
R
sofern das Integral 11 jtj fX (t) d t endlich ist.
Fur die Varianz gilt entsprechend
Z 1
2
Var[X ] = E[(X E[X ]) ] =
(t
1
wenn E[(X E[X ])2 ] existiert.
DWT
c Susanne Albers und Ernst W. Mayr
E[X ])2 fX (t) d t;
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
222/462
Lemma 89
Sei X eine kontinuierliche Zufallsvariable, und sei
Y := g(X ) :
Dann gilt
DWT
c Susanne Albers und Ernst W. Mayr
E[Y ] =
Z
1
1
g(t) fX (t) d t :
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
223/462
Beweis:
Wir zeigen die Behauptung nur fur den einfachen Fall, dass g eine lineare Funktion ist,
also Y := a X + b fur a; b 2 R und a > 0.
Es gilt (siehe obiges Beispiel)
E[a X + b] =
Z
1
1
Durch die Substitution u := (t
t fY (t) d t =
1
1
t fX
t b
a
a1 d t:
b)=a mit d u = (1=a) d t erhalten wir
E[a X + b] =
DWT
c Susanne Albers und Ernst W. Mayr
Z
Z
1
1
(au + b)fX (u) d u:
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
224/462
Beispiel 90
Fur Erwartungswert und Varianz der Gleichverteilung ergibt sich
Z b
Z b
1
1
E[X ] = t dt = b a t dt
b a
a
a
1
2
b
= 2(b a) [t ]a
2
2
= 2(b b aa) = a +2 b ;
1 Z b t2 d t = b2 + ba + a2 ;
b a a
3
2
Var[X ] = E[X 2 ] E[X ]2 = : : : = (a 12b) :
E[X 2 ] =
DWT
c Susanne Albers und Ernst W. Mayr
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
225/462
1.4.4 Laplace-Prinzip in kontinuierlichen Wahrscheinlichkeitsraumen
Das folgende Beispiel zeigt, dass im kontinuierlichen Fall die Bedeutung von
gleichwahrscheinlich\ nicht immer ganz klar sein muss.
"
Bertrand'sches Paradoxon
Wir betrachten einen Kreis mit einem eingeschriebenen gleichseitigen Dreieck. Was ist
die Wahrscheinlichkeit, mit der die Lange einer zufallig gewahlten Sehne die
Seitenlange dieses Dreiecks ubersteigt (Ereignis A)?
DWT
c Susanne Albers und Ernst W. Mayr
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
226/462
r
2
S
120Æ
M
DWT
c Susanne Albers und Ernst W. Mayr
d
S
M
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
'
227/462
Beobachtungen:
Die Seiten des Dreiecks haben Abstand 2r vom Mittelpunkt M .
Die Lage jeder Sehne ist (bis auf Rotation um M ) durch einen der folgenden
Parameter festgelegt:
Abstand d zum Kreismittelpunkt,
Winkel ' mit dem Kreismittelpunkt.
Wir nehmen fur jeden dieser Parameter Gleichverteilung an und ermitteln Pr[A].
1 Sei d 2 [0; r ] gleichverteilt. A tritt ein, wenn d < r , und es folgt Pr[A] = 1 .
2
2
2 Sei ' 2 [0 ; 180 ] gleichverteilt. F
ur A muss gelten ' 2]120 ; 180 ], und es folgt
somit Pr[A] = 31 .
Siehe auch diese graphischen Darstellungen!
DWT
c Susanne Albers und Ernst W. Mayr
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
228/462
2. Wichtige stetige Verteilungen
2.1 Gleichverteilung
(
f (x) =
F (x) =
0
8
>
<0
Z x
1
E[X ] =
DWT
c Susanne Albers und Ernst W. Mayr
fur x 2 [a; b];
sonst:
1
b a
f (t) d t = xb aa
>
:
1
a+b
2
fur x < a;
fur a x b;
fur x > b:
und Var[X ] =
2.1 Gleichverteilung
(a b)2 :
12
229/462
2.2 Normalverteilung
Die Normalverteilung nimmt unter den stetigen Verteilungen eine besonders
prominente Position ein.
Denition 91
Eine Zufallsvariable X mit Wertebereich WX = R heit normalverteilt mit den
Parametern 2 R und 2 R+ , wenn sie die Dichte
1 exp
f (x) = p
2
(x )2 =: '(x; ; )
2 2
besitzt.
In Zeichen schreiben wir X N (; 2 ).
N (0; 1) heit Standardnormalverteilung. Die zugehorige Dichte '(x; 0; 1) kurzen wir
durch '(x) ab.
DWT
c Susanne Albers und Ernst W. Mayr
2.2 Normalverteilung
230/462
Die Verteilungsfunktion zu N (; 2 ) ist
1 F (x) = p
2
Z x
1
exp
(t )2 d t =: (x; ; ) :
2 2
Diese Funktion heit Gau'sche -Funktion (' ist nicht geschlossen integrierbar).
DWT
c Susanne Albers und Ernst W. Mayr
2.2 Normalverteilung
231/462
Lemma 92
I :=
Beweis:
Wir berechnen zunachst I 2 :
I2 =
=
Z
1
Z
1Z
1
Z
1
1
e
1
e
x2 =2 d x = p2:
Z
x2 =2 d x
1
1
e
y2 =2 d y
2
2
e (x +y )=2 d x d y :
1 1
Wir gehen nun zu Polarkoordinaten uber und setzen x := r cos und y := r sin .
Dann ist
@x
@r
@x
@
@y
@r
@y
@
DWT
c Susanne Albers und Ernst W. Mayr
sin = r(cos2 + sin2 ) = r
= cos
r sin r cos 2.2 Normalverteilung
232/462
Beweis (Forts.):
und wir erhalten
I2 =
=
Z 2 Z
0
Z
0
DWT
c Susanne Albers und Ernst W. Mayr
2
0
1
e
r2 =2 r d r d =
Z 2 h
0
e
r2 =2
i1
0
d
1 d = 2:
2.2 Normalverteilung
233/462
= 0;5
=1
=2
1,0
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0,0
-3,0
-2,0
-1,0
DWT
c Susanne Albers und Ernst W. Mayr
= 0;5
=1
=2
1,0
0,0
1,0
2,0
3,0
0,0
-3,0
-2,0
-1,0
0,0
Dichte und Verteilung von N (0; 2 )
2.2 Normalverteilung
1,0
2,0
3,0
234/462
Satz 93 (Lineare Transformation der Normalverteilung)
Sei X eine normalverteilte Zufallsvariable mit X N (; 2 ). Dann gilt fur beliebiges
a 2 R n f0g und b 2 R, dass Y = aX + b normalverteilt ist mit Y N (a + b; a2 2 ).
Beweis:
Wir betrachten zunachst den Fall a > 0\:
"
Pr[Y y] = Pr[aX + b y] = Pr X y a b
Z (y b)=a
1
(
u )2
p
=
exp
22 d u:
2 1
Nach der Substitution u = (v
DWT
c Susanne Albers und Ernst W. Mayr
b)=a und d u = (1=a) d v erhalten wir
2.2 Normalverteilung
235/462
Beweis (Forts.):
Z y
2
1
Pr[Y y] = p
exp (v 2aa2 2 b) d v :
2a 1
Also Y N (a + b; a2 2 ). Fur a < 0 verlauft der Beweis analog.
DWT
c Susanne Albers und Ernst W. Mayr
2.2 Normalverteilung
236/462
Sei also X eine beliebige N (; 2 )-verteilte Zufallsvariable X und Y
Dann ist nach Satz 93 Y
N (0; 1)-verteilt. Y
:= X .
heit auch normiert.
Ferner gilt
Pr[a < X b] = Pr a < Y b b a = :
DWT
c Susanne Albers und Ernst W. Mayr
2.2 Normalverteilung
237/462
Satz 94
X sei N (0; 1)-verteilt. Dann gilt
E[X ] = 0 und Var[X ] = 1:
Beweis:
Z 1
1
x2
E[X ] = p
x exp
2 d x:
2 1
Da der Integrand punktsymmetrisch zu (0; 0) ist, folgt E[X ] = 0.
DWT
c Susanne Albers und Ernst W. Mayr
2.2 Normalverteilung
238/462
Beweis (Forts.):
Mittels Lemma 92 und durch partielle Integration erhalten wir
p
2 =
Z
1
1
exp
= x exp
|
x2
2
{z
=0
x2
2 dx
1
1}
+
Z
1
1
x2 exp
Daraus folgt, dass E[X 2 ] = 1 ist und somit Var[X ] = E[X 2 ]
DWT
c Susanne Albers und Ernst W. Mayr
2.2 Normalverteilung
x2
2 dx
E[X ]2 = 1.
239/462
Satz 95
X sei N (; 2 )-verteilt. Dann gilt
E[X ] = und Var[X ] = 2 :
Beweis:
Y :=
X ist standardnormalverteilt. Ferner gilt gema der Rechenregeln f
ur
Erwartungswert und Varianz
E[X ] = E[Y + ] = E[Y ] + = und
Var[X ] = Var[Y + ] = 2 Var[Y ] = 2 :
DWT
c Susanne Albers und Ernst W. Mayr
2.2 Normalverteilung
240/462
2.3 Exponentialverteilung
Die Exponentialverteilung ist in gewisser Weise das kontinuierliche Analogon zur
geometrischen Verteilung. Wie die geometrische Verteilung ist sie gedachtnislos\. Sie
"
spielt daher vor allem bei der Modellierung von Wartezeiten eine groe Rolle.
DWT
c Susanne Albers und Ernst W. Mayr
2.3 Exponentialverteilung
241/462
Denition 96
Eine Zufallsvariable X heit exponentialverteilt mit dem Parameter , > 0, wenn sie
die Dichte
(
e x falls x 0;
f (x) =
0
sonst
besitzt.
Fur die entsprechende Verteilungsfunktion gilt (fur x 0)
F (x) =
Z x
0
e
t d t =
h
e
i
t x
0
=1 e
x :
Fur x < 0 gilt selbstverstandlich F (x) = 0.
DWT
c Susanne Albers und Ernst W. Mayr
2.3 Exponentialverteilung
242/462
E[X ] =
Z
h
0
1
te
t d t
Z
i1
1
e t d t
= t ( e t ) 0 +
1 0
1
=0+
e t = 1 :
DWT
c Susanne Albers und Ernst W. Mayr
0
2.3 Exponentialverteilung
243/462
Analog erhalten wir
E[X 2 ] =
=
Z
h
1
t2 e
t d t
0
i1 Z 1
2
t
2t e t d t
t ( e ) +
0
0
= 0 + 2 E[X ] = 22
und somit
DWT
c Susanne Albers und Ernst W. Mayr
Var[X ] = E[X 2 ] E[X ]2 = 12 :
2.3 Exponentialverteilung
244/462
2,0
1,0
= 0;5
=1
=2
1,6
0,8
1,2
0,6
0,8
0,4
0,4
0,2
0,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
0,0
0,0
= 0;5
=1
=2
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
Dichte und Verteilung der Exponentialverteilung
DWT
c Susanne Albers und Ernst W. Mayr
2.3 Exponentialverteilung
245/462
2.3.1 Eigenschaften der Exponentialverteilung
Satz 97 (Skalierung exponentialverteilter Variablen)
Sei X eine exponentialverteilte Zufallsvariable mit dem Parameter . Fur a > 0 ist die
Zufallsvariable Y := aX wieder exponentialverteilt mit dem Parameter =a.
Beweis:
FY (x) = Pr[Y x] = Pr[aX x]
h
i
= Pr X xa = FX xa
= 1 e xa :
DWT
c Susanne Albers und Ernst W. Mayr
2.3 Exponentialverteilung
246/462
Gedachtnislosigkeit
Satz 98 (Gedachtnislosigkeit)
Eine (positive) kontinuierliche Zufallsvariable X mit Wertebereich R+ ist genau dann
exponentialverteilt, wenn fur alle x; y > 0 gilt, dass
Pr[X > x + y j X > y] = Pr[X > x] :
(*)
Beweis:
Sei X exponentialverteilt mit Parameter . Dann gilt
> x + y; X > y]
Pr[X > x + y j X > y] = Pr[X Pr[
X > y]
X > x + y]
= Pr[Pr[
X > y]
(x+y)
y
=ee
DWT
c Susanne Albers und Ernst W. Mayr
2.3 Exponentialverteilung
=e
x
= Pr[X > x] :
247/462
Beweis (Forts.):
Sei umgekehrt X eine kontinuierliche Zufallsvariable, die die Gleichung () erfullt. Wir
denieren g (x) := Pr[X > x]. Fur x; y > 0 gilt
g(x + y) = Pr[X > x + y]
= Pr[X > x + y j X > y] Pr[X > y]
= Pr[X > x] Pr[X > y] = g(x)g(y) :
Daraus folgt durch wiederholte Anwendung
1
1 = g 1 g(1) = g + +
n}
n
|n
{z
n
fur alle n 2 N
n-mal
und somit insbesondere auch g (1=n) = (g (1))1=n .
DWT
c Susanne Albers und Ernst W. Mayr
2.3 Exponentialverteilung
248/462
Beweis (Forts.):
Da X nur positive Werte annimmt, muss es ein n 2 N geben mit g (1=n) > 0. Wegen
0 < g(1) 1 muss es daher auch ein 0 geben mit g(1) = e .
Nun gilt fur beliebige p; q 2 N
g(p=q) = g(1=q)p = g(1)p=q ;
und somit g (r) = e r fur alle r 2 Q+ .
Aufgrund der Stetigkeit folgt daraus
g(x) = e
DWT
c Susanne Albers und Ernst W. Mayr
x :
2.3 Exponentialverteilung
249/462
Beispiel 99
 ber das Casium-Isotop 134
U
55 Cs ist bekannt, dass es eine mittlere Lebensdauer von
ungefahr 3,03 Jahren oder 1;55 106 Minuten besitzt. Die Zufallsvariable X messe die
Lebenszeit eines bestimmten 134
55 Cs-Atoms. X ist exponentialverteilt mit dem Parameter
1 = 1 0;645 10
=
E[X ] 1;55 106
6
1
min
Da den Kehrwert einer Zeit als Einheit besitzt, spricht man von der Zerfallsrate.
Auch bei anderen Anwendungen ist es ublich, als Rate einzufuhren.
DWT
c Susanne Albers und Ernst W. Mayr
2.3 Exponentialverteilung
250/462
2.3.2 Exponentialverteilung als Grenzwert der geometrischen Verteilung
Erinnerung: Die Poisson-Verteilung lasst sich als Grenzwert der Binomialverteilung
darstellen.
Wir betrachten eine Folge geometrisch verteilter Zufallsvariablen Xn mit Parameter
pn = =n. Fur ein beliebiges k 2 N ist die Wahrscheinlichkeit, dass Xn k n, gleich
Pr[Xn kn] =
kn
X
i=1
(1 pn )i 1 pn = pn = pn 1 (1p pn
)kn
n
DWT
c Susanne Albers und Ernst W. Mayr
2.3 Exponentialverteilung
=1
kn
X1
i=0
1
(1 pn )i
n
kn
:
251/462
Wegen limn!1 (1
n
n)
= e gilt daher fur die Zufallsvariablen Yn := n1 Xn , dass
lim Pr[Yn t] = nlim
!1 Pr[Xn t n]
n!1
"
= nlim
!1 1
=1 e
1
n
tn #
t :
Die Folge Yn der (skalierten) geometrisch verteilten Zufallsvariablen geht also fur
n ! 1 in eine exponentialverteilte Zufallsvariable mit Parameter uber.
DWT
c Susanne Albers und Ernst W. Mayr
2.3 Exponentialverteilung
252/462
3. Mehrere kontinuierliche Zufallsvariablen
3.1 Mehrdimensionale Dichten
Beobachtung
Zu zwei kontinuierlichen Zufallsvariablen X , Y wird der zugrunde liegende gemeinsame
Wahrscheinlichkeitsraum uber R2 durch eine integrierbare (gemeinsame)
Dichtefunktion fX;Y : R2 ! R+
0 mit
Z 1 Z 1
1
1
fX;Y (x; y) d x d y = 1
beschrieben. Fur ein Ereignis A R2 (das aus abzahlbar vielen geschlossenen oder
oenen Bereichen gebildet sein muss) gilt
Pr[A] =
DWT
c Susanne Albers und Ernst W. Mayr
Z
A
fX;Y (x; y) d x d y:
3.1 Mehrdimensionale Dichten
253/462
Unter einem Bereich B verstehen wir dabei Mengen der Art
B = f(x; y) 2 R2 j a x b; c y dg mit a; b; c; d 2 R:
Dabei konnen die einzelnen Intervallgrenzen auch oen\ bzw. 1 sein.
"
DWT
c Susanne Albers und Ernst W. Mayr
3.1 Mehrdimensionale Dichten
254/462
Analog zum eindimensionalen Fall ordnen wir der Dichte fX;Y eine (gemeinsame)
Verteilung FX;Y : R2 ! [0; 1] zu:
FX;Y (x; y) = Pr[X x; Y
DWT
c Susanne Albers und Ernst W. Mayr
y] =
Z y Z x
1
3.1 Mehrdimensionale Dichten
1
fX;Y (u; v) d u d v:
255/462
3.2 Randverteilungen und Unabhangigkeit
Denition 100
Sei fX;Y die gemeinsame Dichte der Zufallsvariablen X und Y . Die Randverteilung der
Variablen X ist gegeben durch
FX (x) = Pr[X x] =
Analog nennen wir
fX (x) =
Z x Z
1
1
1
Z
1
fX;Y (u; v) d v d u:
fX;Y (x; v) d v
1
die Randdichte von X . Entsprechende Denitionen gelten symmetrisch fur Y .
DWT
c Susanne Albers und Ernst W. Mayr
3.2 Randverteilungen und Unabhangigkeit
256/462
Denition 101
Zwei kontinuierliche Zufallsvariablen X und Y heien unabhangig, wenn
Pr[X x; Y y] = Pr[X x] Pr[Y y]
fur alle x; y 2 R gilt.
Dies ist gleichbedeutend mit
FX;Y (x; y) = FX (x) FY (y) :
Dierentiation ergibt
DWT
c Susanne Albers und Ernst W. Mayr
fX;Y (x; y) = fX (x) fY (y) :
3.2 Randverteilungen und Unabhangigkeit
257/462
Fur mehrere Zufallsvariablen X1 ; : : : ; Xn gilt analog: X1 ; : : : ; Xn sind genau dann
unabhangig, wenn
FX1 ;:::;Xn (x1 ; : : : ; xn ) = FX1 (x1 ) : : : FXn (xn )
bzw.
fX1 ;:::;Xn (x1 ; : : : ; xn ) = fX1 (x1 ) : : : fXn (xn )
fur alle x1 ; : : : ; xn 2 R.
DWT
c Susanne Albers und Ernst W. Mayr
3.2 Randverteilungen und Unabhangigkeit
258/462
3.3 Warteprobleme mit der Exponentialverteilung
Warten auf mehrere Ereignisse
Satz 102
Die Zufallsvariablen X1 ; : : : ; Xn seien unabhangig und exponentialverteilt mit den
Parametern 1 ; : : : ; n . Dann ist auch X := minfX1 ; : : : ; Xn g exponentialverteilt mit
dem Parameter 1 + : : : + n .
Beweis:
Der allgemeine Fall folgt mittels Induktion aus dem fur n = 2. Fur die
Verteilungsfunktion FX gilt:
1 FX (t) = Pr[X > t] = Pr[minfX1 ; X2 g > t]
= Pr[X1 > t; X2 > t]
= Pr[X1 > t] Pr[X2 > t]
= e 1 t e 2 t = e (1 +2 )t :
DWT
c Susanne Albers und Ernst W. Mayr
3.3 Warteprobleme mit der Exponentialverteilung
259/462
Anschaulich besagt Satz 102, dass sich die Raten addieren, wenn man auf das erste
Eintreten eines Ereignisses aus mehreren unabhangigen Ereignissen wartet. Wenn
beispielsweise ein Atom die Zerfallsrate besitzt, so erhalten wir bei n Atomen die
Zerfallsrate n (wie uns auch die Intuition sagt).
DWT
c Susanne Albers und Ernst W. Mayr
3.3 Warteprobleme mit der Exponentialverteilung
260/462
Poisson-Prozess
Wir hatten bei der Diskussion der geometrischen und der Poisson-Verteilung
festgestellt:
Wenn der zeitliche Abstand der Treer geometrisch verteilt ist, so ist ihre Anzahl in
einer festen Zeitspanne binomialverteilt.
Im Grenzwert n ! 1, wobei wir die Treerwahrscheinlichkeit mit pn = =n ansetzen,
konvergiert die geometrische Verteilung gegen die Exponentialverteilung und die
Binomialverteilung gegen die Poisson-Verteilung. Im Grenzwert n ! 1 erwarten wir
deshalb die folgende Aussage:
Wenn man Ereignisse zahlt, deren zeitlicher Abstand exponentialverteilt ist, so ist die
Anzahl dieser Ereignisse in einer festen Zeitspanne Poisson-verteilt.
DWT
c Susanne Albers und Ernst W. Mayr
3.3 Warteprobleme mit der Exponentialverteilung
261/462
Seien T1 ; T2 : : : unabhangige exponentialverteilte Zufallsvariablen mit Parameter . Die
Zufallsvariable Ti modelliert die Zeit, die zwischen Treer i 1 und i vergeht.
Fur den Zeitpunkt t > 0 denieren wir
X (t) := maxfn 2 N j T1 + : : : + Tn tg:
X (t) gibt also an, wie viele Treer sich bis zur Zeit t (von Zeit Null ab) ereignet
haben. Es gilt:
DWT
c Susanne Albers und Ernst W. Mayr
3.3 Warteprobleme mit der Exponentialverteilung
262/462
Fakt 103
Seien T1 ; T2 ; : : : unabhangige Zufallsvariablen und sei X (t) fur t > 0 wie oben
deniert. Dann gilt: X (t) ist genau dann Poisson-verteilt mit Parameter t, wenn es
sich bei T1 ; T2 ; : : : um exponentialverteilte Zufallsvariablen mit Parameter handelt.
Zum Zufallsexperiment, das durch T1 ; T2 ; : : : deniert ist, erhalten wir fur jeden Wert
t > 0 eine Zufallsvariable X (t). Hierbei konnen wir t als Zeit interpretieren und X (t)
als Verhalten des Experiments zur Zeit t. Eine solche Familie (X (t))t>0 von
Zufallsvariablen nennt man allgemein einen stochastischen Prozess. Der hier
betrachtete Prozess, bei dem T1 ; T2 ; : : : unabhangige, exponentialverteilte
Zufallsvariablen sind, heit Poisson-Prozess und stellt ein fundamentales und zugleich
praktisch sehr bedeutsames Beispiel fur einen stochastischen Prozess dar.
DWT
c Susanne Albers und Ernst W. Mayr
3.3 Warteprobleme mit der Exponentialverteilung
263/462
Beispiel 104
Wir betrachten eine Menge von Jobs, die auf einem Prozessor sequentiell abgearbeitet
werden. Die Laufzeiten der Jobs seien unabhangig und exponentialverteilt mit
Parameter = 1=30[1=s]. Jeder Job benotigt also im Mittel 30s.
Gema Fakt 103 ist die Anzahl von Jobs, die in einer Minute vollstandig ausgefuhrt
werden, Poisson-verteilt mit Parameter t = 60 (1=30) = 2.
Die Wahrscheinlichkeit, dass in einer Minute hochstens ein Job abgearbeitet wird,
betragt in diesem Fall (t = 2)
e
DWT
c Susanne Albers und Ernst W. Mayr
t + te t
0;406 :
3.3 Warteprobleme mit der Exponentialverteilung
264/462
3.4 Summen von Zufallsvariablen
Satz 105
Seien X und Y unabhangige kontinuierliche Zufallsvariablen. Fur die Dichte von
Z := X + Y gilt
Z
fZ (z ) =
1
1
fX (x) fY (z x) d x :
Beweis:
Nach Denition der Verteilungsfunktion gilt
FZ (t) = Pr[Z t] = Pr[X + Y
t] =
Z
A(t)
fX;Y (x; y) d xd y
wobei A(t) = f(x; y ) 2 R2 j x + y tg.
DWT
c Susanne Albers und Ernst W. Mayr
3.4 Summen von Zufallsvariablen
265/462
Beweis (Forts.):
Aus der Unabhangigkeit von X und Y folgt
FZ (t) =
=
Z
A(t)
Z
1
1
fX (x) fY (y) d xd y
fX (x) Z t x
1
fY (y) d y d x:
Mittels der Substitution z := x + y , d z = d y ergibt sich
Z t x
1
und somit
FZ (t) =
DWT
c Susanne Albers und Ernst W. Mayr
fY (y) d y =
Z t Z
1
1
1
Z t
1
fY (z x) d z
fX (x)fY (z x) d x d z :
3.4 Summen von Zufallsvariablen
266/462
Satz 106 (Additivitat der Normalverteilung)
Die Zufallsvariablen X1 ; : : : ; Xn seien unabhangig und normalverteilt mit den
Parametern i ; i (1 i n). Es gilt: Die Zufallsvariable
Z := a1 X1 + : : : + an Xn
ist normalverteilt mit Erwartungswert = a1 1 + : : : + an n und Varianz
2 = a21 12 + : : : + a2n n2 .
Beweis:
Wir beweisen zunachst den Fall n = 2 und a1 = a2 = 1. Nach Satz 105 gilt fur
Z := X1 + X2 , dass
Z1
fZ (z ) =
=
1
fX1 (z
1
1 2
2
DWT
c Susanne Albers und Ernst W. Mayr
Z1
1
y ) fX2 (y ) d y
exp
1
2
|
z
(
y 1 )2 (y 2 )2
+
d y:
12
22
{z
}
=:v
3.4 Summen von Zufallsvariablen
267/462
Beweis (Forts.):
Wir setzen
:= 1 + 2
2 := 12 + 22
v1 := (z )=
v22 := v v12
Damit ergibt sich unmittelbar
v22 =
(z y 1 )2 + (y 2 )2
woraus wir
ermitteln.
DWT
c Susanne Albers und Ernst W. Mayr
12
v2 =
22
y12 2 12 + y22
1 2 (z 1 2 )2 ;
12 + 22
z22 + 1 22
3.4 Summen von Zufallsvariablen
268/462
Beweis (Forts.):
Damit folgt fur die gesuchte Dichte
fZ (z ) =
Wir substituieren noch
und erhalten
1
2 1 2 exp
v12
Z
2 1 exp
t := v2 und d t =
1
2 d y:
dy
1 2
Z 1
(
z )2
1
fZ (z ) =
2 exp
22 1 exp
Mit Lemma 92 folgt, dass fZ (z ) = '(z ; ; ) ist.
DWT
c Susanne Albers und Ernst W. Mayr
v22
3.4 Summen von Zufallsvariablen
t2
2 d t:
269/462
Beweis (Forts.):
Daraus erhalten wir die Behauptung fur n = 2, denn den Fall Z := a1 X1 + a2 X2 fur
beliebige Werte a1 ; a2 2 R konnen wir leicht mit Hilfe von Satz 93 auf den soeben
bewiesenen Fall reduzieren. Durch Induktion kann die Aussage auf beliebige Werte
n 2 N verallgemeinert werden.
DWT
c Susanne Albers und Ernst W. Mayr
3.4 Summen von Zufallsvariablen
270/462
3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen
Fur diskrete Zufallsvariablen X haben wir die momenterzeugende Funktion
MX (s) = E[eXs ]
eingefuhrt. Diese Denition kann man unmittelbar auf kontinuierliche Zufallsvariablen
ubertragen. Die fur MX (s) gezeigten Eigenschaften bleiben dabei erhalten.
DWT
3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen
c Susanne Albers und Ernst W. Mayr
271/462
Beispiel 107
Fur eine auf [a; b] gleichverteilte Zufallsvariable U gilt
MU (t) = E[etX ] =
etx
= t(b a)
etb
eta
Z b
a
b
etx 1 dx
b a
a
= t(b a) :
DWT
3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen
c Susanne Albers und Ernst W. Mayr
272/462
Beispiel (Forts.)
Fur eine standardnormalverteilte Zufallsvariable N
N (0; 1) gilt
Z +1
1
MN (t) = p
et e =2 d 2 1 Z
+1
e (t ) =2 d = et =2 p1
2 1
t
=
2
=e :
2
2
2
2
DWT
3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen
c Susanne Albers und Ernst W. Mayr
273/462
Beispiel (Forts.)
Daraus ergibt sich fur Y
N (; 2) wegen Y N (0; 1)
MY (t) = E[etY ]
Y = et E[e(t) ]
= et MN (t)
= et+(t)2 =2 :
DWT
3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen
c Susanne Albers und Ernst W. Mayr
274/462
Weiterer Beweis von Satz 106:
Beweis:
Gema dem vorhergehenden Beispiel gilt
MXi (t) = eti +(ti ) =2 :
Wegen der Unabhangigkeit der Xi folgt
2
MZ (t) = E[et(a1 X1 ++an Xn ) ] =
=
=
n
Y
i=1
n
Y
n
Y
i=1
E[e(ai t)Xi ]
MXi (ai t)
eai ti +(ai ti ) =2
2
i=1
= et+(t)2 =2 ;
mit = a1 1 + + an n und 2 = a21 12 + + a2n n2 .
DWT
3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen
c Susanne Albers und Ernst W. Mayr
275/462
4. Zentraler Grenzwertsatz
Satz 108 (Zentraler Grenzwertsatz)
Die Zufallsvariablen X1 ; : : : ; Xn besitzen jeweils dieselbe Verteilung und seien
unabhangig. Erwartungswert und Varianz von Xi existieren fur i = 1; : : : ; n und seien
mit bzw. 2 bezeichnet ( 2 > 0).
Die Zufallsvariablen Yn seien deniert durch Yn := X1 + : : : + Xn fur n 1. Dann
folgt, dass die Zufallsvariablen
Yn n
p
n
asymptotisch standardnormalverteilt sind, also Zn N (0; 1) fur n ! 1.
Zn :=
DWT
c Susanne Albers und Ernst W. Mayr
4 Zentraler Grenzwertsatz
276/462
Etwas formaler ausgedruckt gilt: Die Folge der zu Zn gehorenden
Verteilungsfunktionen Fn hat die Eigenschaft
lim F (x) = (x) fur alle
n!1 n
x 2 R:
Wir sagen dazu auch: Die Verteilung von Zn konvergiert gegen die
Standardnormalverteilung fur n ! 1.
DWT
c Susanne Albers und Ernst W. Mayr
4 Zentraler Grenzwertsatz
277/462
Dieser Satz ist von groer Bedeutung fur die Anwendung der Normalverteilung in der
Statistik. Der Satz besagt, dass sich die Verteilung einer Summe beliebiger
unabhangiger Zufallsvariablen (mit endlichem Erwartungswert und Varianz) der
Normalverteilung umso mehr annahert, je mehr Zufallsvariablen an der Summe
beteiligt sind.
DWT
c Susanne Albers und Ernst W. Mayr
4 Zentraler Grenzwertsatz
278/462
Beweis:
Wir betrachten Xi := (Xi )= fur i = 1; : : : ; n mit E[Xi ] = 0 und Var[Xi ] = 1.
Damit gilt (gema vorhergehendem Beispiel)
p
MZ (t) = E[etZ ] = E[et(X1 +:::+Xn )= n ]
p
p
= MX1 (t= n) : : : MXn (t= n) :
Fur beliebiges i betrachten wir die Taylorentwicklung von MXi (t) =: h(t) an der Stelle
t=0
h00 (0) 2
h(t) = h(0) + h0 (0) t +
t + O(t3):
Aus der Linearitat des Erwartungswerts folgt
2
h0 (t) = E[etXi Xi ] und h00 (t) = E[etXi (Xi )2 ]:
DWT
c Susanne Albers und Ernst W. Mayr
4 Zentraler Grenzwertsatz
279/462
Beweis (Forts.):
Damit gilt
h0 (0) = E[Xi ] = 0 und h00 (0) = E[(Xi )2 ] = Var[X ] = 1:
Durch Einsetzen in die Taylorreihe folgt h(t) = 1 + t2 =2 + O(t3 ), und wir konnen
MZ (t) umschreiben zu
t2
t3
MZ (t) = 1 + + O 3=2
2n
n
n
! et =2 fur n ! 1:
2
Aus der Konvergenz der momenterzeugenden Funktion folgt auch die Konvergenz der
Verteilung. Damit ist Z asymptotisch normalverteilt.
DWT
c Susanne Albers und Ernst W. Mayr
4 Zentraler Grenzwertsatz
280/462
Beweis (Forts.):
Die momenterzeugende Funktion existiert leider nicht bei allen Zufallsvariablen und
unser Beweis ist deshalb unvollstandig. Man umgeht dieses Problem, indem man statt
der momenterzeugenden Funktion die so genannte charakteristische Funktion
M~ X (t) = E[eitX ] betrachtet. Fur Details verweisen wir auf die einschlagige
Literatur.
DWT
c Susanne Albers und Ernst W. Mayr
4 Zentraler Grenzwertsatz
281/462
Der Zentrale Grenzwertsatz hat die folgende intuitive Konsequenz:
Wenn eine Zufallsgroe durch lineare Kombination vieler unabhangiger,
identisch verteilter Zufallsgroen entsteht, so erhalt man naherungsweise eine
Normalverteilung.
DWT
c Susanne Albers und Ernst W. Mayr
4 Zentraler Grenzwertsatz
282/462
Ein wichtiger Spezialfall das Zentralen Grenzwertsatzes besteht darin, dass die
auftretenden Zufallsgroen Bernoulli-verteilt sind.
Korollar 109 (Grenzwertsatz von de Moivre)
X1 ; : : : ; Xn seien unabhangige Bernoulli-verteilte Zufallsvariablen mit gleicher
Erfolgswahrscheinlichkeit p. Dann gilt fur die Zufallsvariable Hn mit
Hn := X1 + : : : + Xn
fur n 1, dass die Verteilung der Zufallsvariablen
Hn :=
Hn np
np(1 p)
p
fur n ! 1 gegen die Standardnormalverteilung konvergiert.
DWT
c Susanne Albers und Ernst W. Mayr
4 Zentraler Grenzwertsatz
283/462
Beweis:
Die Behauptung folgt unmittelbar aus dem Zentralen Grenzwertsatz, da
= n1 E[Hn ] = p und 2 = n1 Var[Hn ] = p(1 p).
Bemerkung
Wenn man X1 ; : : : ; Xn als Indikatorvariablen fur das Eintreten eines Ereignisses A bei
n unabhangigen Wiederholungen eines Experimentes interpretiert, dann gibt Hn die
absolute Haugkeit von A an.
DWT
c Susanne Albers und Ernst W. Mayr
4 Zentraler Grenzwertsatz
284/462
4.1 Normalverteilung als Grenzwert der Binomialverteilung
Korollar 109 ermoglicht, die Normalverteilung als Grenzwert der Binomialverteilung
aufzufassen. Die folgende Aussage ist eine Konsequenz von Korollar 109:
Korollar 110
Sei Hn Bin(n; p) eine binomialverteilte Zufallsvariable. Die Verteilung von Hn =n
konvergiert gegen N (p; p(1 p)=n) fur n ! 1.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Normalverteilung als Grenzwert der Binomialverteilung
285/462
0.4
0.4
Bin(10, 0.3)
ϕ(x)
0.3
0.3
0.2
0.2
0.1
0.1
0.0
-4.0
-3.0
-2.0
-1.0
0.0
0.4
1.0
2.0
3.0
4.0
0.0
-4.0
0.3
0.2
0.2
0.1
0.1
-3.0
-2.0
-1.0
0.0
1.0
2.0
-3.0
-2.0
-1.0
0.0
0.4
Bin(50, 0.3)
ϕ(x)
0.3
0.0
-4.0
Bin(20, 0.3)
ϕ(x)
3.0
4.0
0.0
-4.0
1.0
2.0
3.0
4.0
3.0
4.0
Bin(100, 0.3)
ϕ(x)
-3.0
-2.0
-1.0
0.0
1.0
2.0
Vergleich von Binomial- und Normalverteilung
n; 0:3) bei 0:3n zentriert, mit
Bin(
DWT
c Susanne Albers und Ernst W. Mayr
p0:3 0:7n horizontal gestaucht und vertikal gestreckt
4.1 Normalverteilung als Grenzwert der Binomialverteilung
286/462
Historisch gesehen entstand Korollar 109 vor Satz 108.
Fur den Fall p = 1=2 wurde Korollar 109 bereits von Abraham de Moivre (1667{1754)
bewiesen. De Moivre war geburtiger Franzose, musste jedoch aufgrund seines
protestantischen Glaubens nach England iehen. Dort wurde er unter anderem Mitglied
der Royal Society, erhielt jedoch niemals eine eigene Professur.
Die allgemeine Formulierung von Korollar 109 geht auf Pierre Simon Laplace
(1749{1827) zuruck. Allerdings vermutet man, dass die Losung des allgemeinen Falls
p 6= 1=2 bereits de Moivre bekannt war.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Normalverteilung als Grenzwert der Binomialverteilung
287/462
4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2
Wir betrachten die Wahrscheinlichkeit Pr[a H2n b] fur p = 1=2 und a; b 2 R mit
a b. Wenn die Verteilung von H2n , wieRin Korollar 109 angegeben, gegen N (0; 1)
konvergiert, so sollte Pr[a H2n b] ab '(t) d t fur genugend groe n gelten.
Wir schreiben f (n) 1 g (n) fur limn!1 f (n)=g (n) = 1, wollen also zeigen:
Pr[a H 2n b] 1
Z b
a
'(t) d t:
Da fur H2n Bin(2n; 1=2) gilt, dass E[H2n ] = n und Var[H2n ] = n=2 ist, erhalten wir
H2n n
;
H2n = p
n=2
DWT
4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2
c Susanne Albers und Ernst W. Mayr
288/462
und es folgt
p
p
Pr[a H2n b] = Pr[n + a n=2 H2n n + b n=2]
X
= Pr[H2n = n + i]
i2In
p
p
fur In := fz 2 Z j a n=2 z b n=2g. Damit ist
2n
2n 1
2n b] =
n
+ i {z 2
i2In |
Pr[a H X
=:pn;i
:
}
DWT
4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2
c Susanne Albers und Ernst W. Mayr
289/462
Es gilt
2n
max pn;i pn := 2n
i
21
n
und mit der Stirling'schen Approximation fur n!
p
2n
n)! 1
= (2
(n!)2 2
;
(2n)2n e 2n p 2 2n 1 2n = p1 :
pn 1
2
n
(nn e n 2n)2
Ersetzen wir nun die pn;i durch pn , so entsteht dabei ein Fehler, den wir mit
qn;i := ppn;i
n bezeichnen.
DWT
4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2
c Susanne Albers und Ernst W. Mayr
290/462
Fur i > 0 gilt
qn;i =
=
2n 1 2n
n+i 2
2n 1 2n
2
n
Qi 1
j =0 (n j )
Qi
j =1 (n + j )
= (n + i(2)!n )!(n n! i)!n! (2n)!
i i
Y
Y
2
j 1
n j+1
=
1 n+j :
=
n+j
j =1
j =1
Wegen der Symmetrie der Binomialkoezienten gilt qn; i = qn;i , womit auch der Fall
i < 0 abgehandelt ist.
DWT
4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2
c Susanne Albers und Ernst W. Mayr
291/462
Man macht sich leicht klar, dass 1
schlieen wir, dass
0
ln @
i
Y
j =1
p
1
1 A
1 2nj + j
1=x ln x x 1 fur x > 0 gilt. Damit
=
i
X
ln 1 2nj + j1
j =1
i
X
i
X
2
j 1
2j 1
n+j
n+i
j =1
j =1
2
3
= i(i n++1)i i = in + n(ni + i)
2
= in + O p1n ;
da i = O( n) fur i 2 In .
DWT
4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2
c Susanne Albers und Ernst W. Mayr
292/462
Ebenso erhalten wir
0
ln @
i
Y
j =1
1
1 A
1 2nj + j
=
i
X
1
j =1
i
X
1 2nj + j1
2j + 1 n j+1
j =1
i2
= n i =
Zusammen haben wir
e
i2
n i
=e
i2
n
O p1n
qn;i e
p
Wegen eO(1= n) = 1 o(1) folgt daraus qn;i
1 e
i2
n
i
X
1!
2j 1
j =1
n i
O p1n :
i2 +O p1
n
n
i2 =n .
DWT
4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2
c Susanne Albers und Ernst W. Mayr
293/462
Damit schatzen wir nun Pr[a H2n b] weiter ab:
X
Pr[a H2n b] = pn qn;i 1
i2In
Mit :=
p1n |
X
i 2I n
{z
=:Sn
e
i2 =n :
}
p
2=n konnen wir die Summe Sn umschreiben zu
1 X e (i) :
Sn = p 2 i2In
2 1
2
R
R
2
Diese Summe entspricht einer Naherung fur ab '(t) d t = p12 ab e t =2 d t durch
Aufteilung der integrierten Flache in Balken der Breite
ur n ! 1 konvergiert die
R . F
Flache der Balken gegen das Integral, d. h. Sn 1 ab '(t) d t.
q. e. d.
DWT
4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2
c Susanne Albers und Ernst W. Mayr
294/462
4.3 Verschiedene Approximationen der Binomialverteilung
Sei Hn Bin(n; p) eine binomialverteilte Zufallsvariable mit der Verteilungsfunktion
Fn . Fur n ! 1 gilt
Fn (t) = Pr[Hn =n t=n]
!
t=n p
! p
=
p(1 p)=n
!
t np
p
:
p(1 p)n
Wir konnen Fn somit fur groe n durch approximieren. Diese Approximation ist in
der Praxis deshalb von Bedeutung, da die Auswertung der Verteilungsfunktion der
Binomialverteilung fur groe n sehr aufwandig ist, wahrend fur die Berechnung der
Normalverteilung eziente numerische Methoden vorliegen.
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Verschiedene Approximationen der Binomialverteilung
295/462
Beispiel 111
Wenn man die Wahrscheinlichkeit berechnen mochte, mit der bei 106 Wurfen mit
einem idealen Wurfel mehr als 500500-mal eine gerade Augenzahl fallt, so muss man
eigentlich folgenden Term auswerten:
T :=
10
X
106
6
i=5;00510
5
i
106
1
2
:
Dies ist numerisch kaum ezient moglich.
Die numerische Integration der Dichte ' der Normalverteilung ist hingegen relativ
einfach. Auch andere Approximationen der Verteilung , beispielsweise durch
Polynome, sind bekannt. Entsprechende Funktionen werden in zahlreichen
Softwarebibliotheken als black box\ angeboten.
"
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Verschiedene Approximationen der Binomialverteilung
296/462
Beispiel
Mit der Approximation durch die Normalverteilung erhalten wir
5;005p 105 5 105
T 1 2;5 105
102
= 1 55 10
2
= 1 (1) 0;1573 :
DWT
c Susanne Albers und Ernst W. Mayr
!
4.3 Verschiedene Approximationen der Binomialverteilung
297/462
Bei der Approximation der Binomialverteilung mit Hilfe von Korollar 109 fuhrt man oft
noch eine so genannte Stetigkeitskorrektur durch. Zur Berechnung von Pr[X x] fur
X Bin(n; p) setzt man
Pr[X x] xp+ 0;5 np
np(1 p)
statt
an.
DWT
c Susanne Albers und Ernst W. Mayr
Pr[X x] p x np
np(1 p)
!
!
4.3 Verschiedene Approximationen der Binomialverteilung
298/462
Der Korrekturterm lat sich in der Histogramm-Darstellung der Binomialverteilung
veranschaulichen. Die Binomialverteilung wird dort durch Balken angegeben, deren
Flache in etwa der Flache unterhalb der Dichte ' von N (0; 1) entspricht. Wenn man
die Flache der Balken mit X x\ durch das Integral von ' approximieren mochte, so
"
sollte man bis zum Ende des Balkens fur X = x\ integrieren und nicht nur bis zur
"
Mitte. Dafur sorgt der Korrekturterm 0;5.
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Verschiedene Approximationen der Binomialverteilung
299/462
Approximationen fur die Binomialverteilung
Approximation durch die Poisson-Verteilung: Bin(n; p) wird approximiert durch
Po(np). Diese Approximation funktioniert sehr gut fur seltene Ereignisse, d. h.
wenn np sehr klein gegenuber n ist. Als Faustregel fordert man n 30 und
p 0;05.
Approximation durch die Cherno-Schranken: Bei der Berechnung der tails der
Binomialverteilung liefern diese Ungleichungen meist sehr gute Ergebnisse. Ihre
Starke liegt darin, dass es sich bei den Schranken nicht um Approximationen,
sondern um echte Abschatzungen handelt. Dies ist vor allem dann wichtig, wenn
man nicht nur numerische Naherungen erhalten mochte, sondern allgemeine
Aussagen uber die Wahrscheinlichkeit von Ereignissen beweisen mochte.
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Verschiedene Approximationen der Binomialverteilung
300/462
Approximation durch die Normalverteilung: Als Faustregel sagt man, dass die
Verteilungsfunktion Fn (t) von Bin(n; p) durch
p
Fn (t) ((t np)= p(1 p)n)
approximiert werden kann, wenn np 5 und n(1
DWT
c Susanne Albers und Ernst W. Mayr
p) 5 gilt.
4.3 Verschiedene Approximationen der Binomialverteilung
301/462
Kapitel III Induktive Statistik
1. Einfuhrung
Das Ziel der induktiven Statistik besteht darin, aus gemessenen Zufallsgroen auf die
zugrunde liegenden Gesetzmaigkeiten zu schlieen. Im Gegensatz dazu spricht man
von deskriptiver Statistik, wenn man sich damit beschaftigt, groe Datenmengen
verstandlich aufzubereiten, beispielsweise durch Berechnung des Mittelwertes oder
anderer abgeleiteter Groen.
DWT
c Susanne Albers und Ernst W. Mayr
1 Einfuhrung
302/462
2. Schatzvariablen
Wir betrachten die Anzahl X von Lesezugrien auf eine Festplatte bis zum ersten
Lesefehler und nehmen an, dass Pr[X = i] = (1 p)i 1 p, setzen also fur X eine
geometrische Verteilung an. Dahinter verbirgt sich die Annahme, dass bei jedem
Zugri unabhangig und mit jeweils derselben Wahrscheinlichkeit p ein Lesefehler
auftreten kann.
Unter diesen Annahmen ist die Verteilung der Zufallsvariablen X eindeutig festgelegt.
Allerdings entzieht sich der numerische Wert des Parameters p noch unserer Kenntnis.
Dieser soll daher nun empirisch geschatzt werden. Statt p konnen wir ebensogut E[X ]
bestimmen, da wir daraus nach den Eigenschaften der geometrischen Verteilung p
mittels p = E[1X ] berechnen konnen.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
303/462
Dazu betrachten wir n baugleiche Platten und die zugehorigen Zufallsvariablen Xi (fur
1 i n), d. h. wir zahlen fur jede Platte die Anzahl von Zugrien bis zum ersten
Lesefehler. Die Zufallsvariablen Xi sind dann unabhangig und besitzen jeweils dieselbe
Verteilung wie X . Wir fuhren also viele Kopien eines bestimmten Zufallsexperiments
aus, um Schlusse auf die Gesetzmaigkeiten des einzelnen Experiments ziehen zu
konnen. Dies ist das Grundprinzip der induktiven Statistik. Die n Messungen heien
Stichproben, und die Variablen Xi nennt man Stichprobenvariablen.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
304/462
Grundprinzip statistischer Verfahren
Wir erinnern an das Gesetz der groen Zahlen (Satz 63) bzw. den Zentralen
Grenzwertsatz (Satz 108). Wenn man ein Experiment genugend oft wiederholt, so
nahert sich der Durchschnitt der Versuchsergebnisse immer mehr dem Verhalten an,
das man im Mittel\ erwarten wurde. Je mehr Experimente wir also durchfuhren, umso
"
genauere und zuverlassigere Aussagen konnen wir uber den zugrunde liegenden
Wahrscheinlichkeitsraum ableiten. Auf diesem Grundprinzip beruhen alle statistischen
Verfahren.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
305/462
Um E[X ] empirisch zu ermitteln, bietet es sich an, aus den Zufallsvariablen Xi das
arithmetische Mittel X zu bilden, das deniert ist durch
n
X
1
Xi :
X :=
n
i=1
Es gilt
E[X ] =
n
n
1X
1X
E[X ] =
E[X ] = E[X ]:
n i=1
i
n i=1
X liefert uns also im Mittel den gesuchten Wert E[X ]. Da wir X zur Bestimmung von
E[X ] verwenden, nennen wir X einen Schatzer fur den Erwartungswert E[X ]. Wegen
der obigen Eigenschaft ist X sogar ein so genannter erwartungstreuer Schatzer.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
306/462
Denition 112
Gegeben sei eine Zufallsvariable X mit der Dichte f (x; ). Eine Schatzvariable oder
kurz Schatzer fur den Parameter der Dichte von X ist eine Zufallsvariable, die aus
mehreren (meist unabhangigen und identisch verteilten) Stichprobenvariablen
zusammengesetzt ist. Ein Schatzer U heit erwartungstreu, wenn gilt
E[U ] = :
Bemerkung:
Die Groe E[U
] nennt man Bias der Schatzvariablen U . Bei erwartungstreuen
Schatzvariablen ist der Bias gleich Null.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
307/462
Der Schatzer X ist also ein erwartungstreuer Schatzer fur den Erwartungswert von X .
Ein wichtiges Ma fur die Gute eines Schatzers ist die mittlere quadratische
Abweichung, kurz MSE fur mean squared error genannt. Diese berechnet sich durch
MSE := E[(U )2 ]. Wenn U erwartungstreu ist, so folgt
MSE = E[(U E[U ])2 ] = Var[U ].
Denition 113
Wenn die Schatzvariable A eine kleinere mittlere quadratische Abweichung besitzt als
die Schatzvariable B , so sagt man, dass A ezienter ist als B .
Eine Schatzvariable heit konsistent im quadratischen Mittel, wenn MSE ! 0 fur
n ! 1 gilt. Hierbei bezeichne n den Umfang der Stichprobe.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
308/462
Fur X erhalten wir wegen der Unabhangigkeit von X1 ; : : : ; Xn
"
n
1X
MSE = Var[X ] = Var
Xi
n
= n12
DWT
c Susanne Albers und Ernst W. Mayr
n
X
i=1
#
i=1
Var[Xi ] = n1 Var[X ]:
2 Schatzvariablen
309/462
Bei jeder Verteilung mit endlicher Varianz folgt MSE = O(1=n) und somit MSE ! 0
fur n ! 1. Der Schatzer X ist also konsistent.
Aus der Konsistenz von X im quadratischen Mittel konnen wir mit Hilfe des Satzes
von Chebyshev (siehe Satz 61) folgende Konsequenz ableiten. Sei " > 0 beliebig, aber
fest. Dann gilt
X]
!0
Pr[jX j "] = Pr[jX E[X ]j "] Var[
2
"
fur n ! 1. Fur genugend groe n liegen also die Werte von X beliebig nahe am
gesuchten Wert = E[X ]. Diese Eigenschaft nennt man auch schwache Konsistenz, da
sie aus der Konsistenz im quadratischen Mittel folgt.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
310/462
Als nachstes betrachten wir eine weitere von X abgeleitete Schatzvariable:
S :=
v
u
u
t
1
n
X
n 1 i=1
(Xi X )2 :
Wir zeigen, dass S 2 ein erwartungstreuer Schatzer fur die Varianz von X ist. Sei
:= E[X ] = E[Xi ] = E[X ].
(
Xi
X )2 = (Xi
= (Xi
+ X )2
)2 + ( X )2 + 2(Xi
)2 + (
Xi
= (
=
DWT
c Susanne Albers und Ernst W. Mayr
n
2
n
Xi
(
X )2
)2 + (
2
n
X
n j =1
X )2
2 Schatzvariablen
)(
(
Xi
2
)(Xj
X
n j 6=i
X)
(
Xi
)
)(Xj
):
311/462
Fur je zwei unabhangige Zufallsvariablen Xi , Xj mit i 6= j gilt
E[(Xi )(Xj )] = E[Xi ] E[Xj ]
= (E[Xi ] ) (E[Xj ] ) = 0 0 = 0:
Daraus folgt
n 2
E[(Xi )2] + E[( X )2]
n
= n n 2 Var[Xi ] + Var[X ]:
E[(Xi X )2 ] =
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
312/462
Wegen Var[Xi ] = Var[X ] und Var[X ] = n1 Var[X ] folgt nun
E[(Xi X )2 ] =
n 1
Var[X ];
n
und somit gilt fur S 2
E[S 2 ] =
1
n
X
E[(Xi X )2 ]
n 1 i=1
= n 1 1 n n n 1 Var[X ] = Var[X ]:
S 2 ist also eine erwartungstreue Schatzvariable fur die Varianz von X .
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
313/462
Die vorangegangene Rechnung erklart, warum man als Schatzer nicht
n
1X
(X
n i=1
i
!
X )2 6= S 2
verwendet, wie man vielleicht intuitiv erwarten wurde.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
314/462
Denition 114
Die Zufallsvariablen
X :=
n
n
1X
1 X
Xi und S 2 :=
(Xi X )2
n
n 1
i=1
i=1
heien Stichprobenmittel bzw. Stichprobenvarianz der Stichprobe X1 ; : : : ; Xn . X und
S 2 sind erwartungstreue Schatzer fur den Erwartungswert bzw. die Varianz.
DWT
c Susanne Albers und Ernst W. Mayr
2 Schatzvariablen
315/462
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
Wir betrachten nun ein Verfahren zur Konstruktion von Schatzvariablen fur Parameter
von Verteilungen. Sei
X~ = (X1 ; : : : ; Xn ):
Bei X1 ; : : : ; Xn handelt es sich um unabhangige Kopien der Zufallsvariablen X mit der
Dichte f (x; ). Hierbei sei der gesuchte Parameter der Verteilung. Wir setzen
f (x; ) = Pr[X = x];
wobei ein Parameter der Verteilung ist.
Wenn wir den Parameter explizit angeben wollen, so schreiben wir dafur auch
f (x; ) = Pr [X = x]. Eine Stichprobe liefert fur jede Variable Xi einen Wert xi .
Diese Werte fassen wir ebenfalls zu einem Vektor ~x = (x1 ; : : : ; xn ) zusammen.
DWT
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
316/462
Der Ausdruck
L(~x; ) :=
n
Y
i=1
f (xi ; ) =
n
Y
i=1
Pr [Xi = xi ]
= Pr [X1 = x1 ; : : : ; Xn = xn ]
unabh.
entspricht der Wahrscheinlichkeit, dass wir die Stichprobe ~x erhalten, wenn wir den
Parameter mit dem Wert belegen.
Wir betrachten nun eine feste Stichprobe ~x und fassen L(~x; ) somit als Funktion von
auf. In diesem Fall nennen wir L die Likelihood-Funktion der Stichprobe.
DWT
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
317/462
Es erscheint sinnvoll, zu einer gegebenen Stichprobe ~x den Parameter so zu wahlen,
dass L(x; ) maximal wird.
Denition 115
Ein Schatzwert b fur den Parameter einer Verteilung f (x; ) heit
Maximum-Likelihood-Schatzwert (ML-Schatzwert) fur eine Stichprobe ~x, wenn gilt
L(~x; ) L(~x; b) fur alle :
DWT
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
318/462
Beispiel 116
Wir konstruieren mit der ML-Methode einen Schatzer fur den Parameter p der
Bernoulli-Verteilung. Es gilt Prp [Xi = 1] = p und Prp [Xi = 0] = 1 p. Daraus
schlieen wir, dass Prp [Xi = xi ] = pxi (1 p)1 xi , und stellen die Likelihood-Funktion
n
Y
L(~x; p) = pxi (1 p)1 xi
i=1
auf.
Wir suchen als Schatzer fur p den Wert, an dem die Funktion L maximal wird. Wir
erhalten
n
ln L(~x; p) =
X
i=1
(xi ln p + (1 xi ) ln(1 p))
= nx ln p + (n nx) ln(1 p):
P
Hierbei bezeichnet x das arithmetische Mittel n1 ni=1 xi .
DWT
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
319/462
Beispiel (Forts.)
Wir nden das Maximum durch Nullsetzen der Ableitung:
d ln L(~x; p)
dp
= npx n1 npx = 0:
Diese Gleichung hat die Losung p = x.
DWT
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
320/462
Beispiel 117
Die Zufallsvariable X sei N (; 2 )-verteilt, und wir suchen Schatzvariablen fur die
Parameter und . Nach Denition der Likelihood-Funktion gilt
L(~x; ; 2 ) =
p1
2
n
n
Y
i=1
exp
(xi )2 :
2 2
Durch Logarithmieren erhalten wir
X
p
ln L(~x; ; 2 ) = n(ln 2 + ln ) +
i=1
n DWT
c Susanne Albers und Ernst W. Mayr
(xi )2 :
2 2
321/462
Beispiel 117
Fur die Nullstellen der Ableitungen ergibt sich
also
n
@ ln L X
= xi2 =! 0;
@
i=1
n
(xi )2 =! 0;
@ ln L
n X
=
+
@
i=1 3
= x und 2 =
n
1X
(x
n i=1
i
)2 :
Wir haben also durch die ML-Methode fast\ das Stichprobenmittel und die
"
Stichprobenvarianz erhalten. Allerdings besitzt der Schatzer fur die Varianz hier den
Vorfaktor n1 statt n 1 1 . Die ML-Schatzvariable fur die Varianz ist somit nicht
erwartungstreu.
DWT
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
321/462
3. Kondenzintervalle
Bei der Verwendung von Schatzvariablen geht man davon aus, dass der erhaltene
Schatzwert nahe\ beim gesuchten Parameter liegt. Die Schatzungen werden
"
besser\, je groer die betrachtete Stichprobe ist. Diese Angaben sind aus
"
quantitativer Sicht naturlich unbefriedigend, da nicht erkennbar ist, wie gut man sich
auf den Schatzwert verlassen kann.
Die Losung dieses Problems besteht darin, statt einer Schatzvariablen U zwei Schatzer
U1 und U2 zu betrachten. U1 und U2 werden so gewahlt, dass
Pr[U1 U2 ] 1 :
Die Wahrscheinlichkeit 1 heit Kondenzniveau und kann dem
Sicherheitsbedurfnis\ angepasst werden.
"
DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
322/462
Wenn wir fur eine konkrete Stichprobe die Schatzer U1 und U2 berechnen und davon
ausgehen, dass 2 [U1 ; U2 ] ist, so ziehen wir hochstens mit Wahrscheinlichkeit einen
falschen Schluss. [U1 ; U2 ] heit Kondenzintervall.
In vielen Fallen verwendet man nur eine Schatzvariable U und konstruiert mittels
U1 := U und U2 := U + ein symmetrisches Kondenzintervall [U ; U + ].
DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
323/462
Sei X eine N (; 2 )-verteilte Zufallsvariable, und seien X1 ; : : : ; Xn n zugehorige
Stichprobenvariablen. Gema der Additivitat der Normalverteilung (siehe Satz 106) ist
2
das Stichprobenmittel X ebenfalls normalverteilt mit X N (; n ). Wir suchen fur X
ein symmetrisches Kondenzintervall.
Nach Satz 93 ist
standardnormalverteilt.
p X Z := n DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
324/462
Fur Z betrachten wir das Kondenzintervall [ c; c] fur ein geeignetes c > 0 und setzen
Pr[ c Z c] =! 1 :
Auosen nach ergibt
Pr X
pcn
X + pcn =! 1 :
Das gesuchte Kondenzintervall lautet also
K = [X
pcn ; X + pcn ] :
DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
325/462
Den Parameter c wahlen wir wie folgt:
Pr[ c Z c] = (c) ( c) =! 1 :
Wegen der Symmetrie von gilt ( x) = 1
(x) und wir erhalten
(c) ( c) = 2 (c) 1 =! 1 () (c) = 1 2 ;
also
c= 1 1
2 :
DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
326/462
Denition 118
X sei eine stetige Zufallsvariable mit Verteilung FX . Eine Zahl x mit
FX (x ) = heit -Quantil von X bzw. der Verteilung FX .
Denition 119
Fur die Standardnormalverteilung bezeichnet z das -Quantil.
DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
327/462
Damit konnen wir das gesuchte Kondenzintervall angeben durch
K= X
z(1 2 ) z(1 2 ) pn ; X + pn :
DWT
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
c Susanne Albers und Ernst W. Mayr
328/462
4. Testen von Hypothesen
4.1 Einfuhrung
Bislang haben wir versucht, Parameter von Verteilungen zu schatzen. In der Praxis ist
man jedoch oft an der eigentlichen Kenntnis dieser Parameter gar nicht interessiert,
sondern man mochte gewisse, damit zusammenhangende Behauptungen uberprufen.
Im Folgenden stellen wir die Bestandteile eines statistischen Tests anhand eines
abstrakten Beispiels vor. Wir betrachten dazu eine Zufallsvariable X mit
Pr[X = 1] = p und Pr[X = 0] = 1 p. Durch einen Test soll uberpruft werden, ob
p < 1=3 oder p 1=3 gilt.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
329/462
Denition eines Tests
Wir betrachten eine Stichprobe von n unabhangigen Stichprobenvariablen X1 ; : : : ; Xn ,
die dieselbe Verteilung wie die Zufallsvariable X besitzen. Zu einem zugehorigen
Stichprobenvektor ~x mussen wir nun die Frage beantworten, ob wir fur diesen
Versuchsausgang die Hypothese p 1=3\ annehmen oder ablehnen.
"
Sei
K := f~x 2 Rn ; ~x fuhrt zur Ablehnung der Hypotheseg:
K nennen wir den Ablehnungsbereich oder den kritischen Bereich des Tests.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
330/462
Gewohnlich wird K konstruiert, indem man die Zufallsvariablen X1 ; : : : ; Xn zu einer
neuen Variablen T , der so genannten Testgroe, zusammenfasst. Dann unterteilt man
den Wertebereich R von T in mehrere Bereiche, die entweder zur Ablehnung der
Hypothese fuhren sollen oder nicht. Dabei betrachtet man meist ein einzelnes
halboenes oder abgeschlossenes Intervall und spricht dann von einem einseitigen bzw.
von einem zweiseitigen Test.
e R enthalte die Werte von T , die zur Ablehnung der Hypothese f
Die Menge K
uhren
sollen. Da wir Tests immer uber eine Testgroe denieren, werden wir der Einfachheit
e als Ablehnungsbereich bezeichnen. K
e R entspricht direkt dem
halber auch K
1
n
e
Ablehnungbereich K = T (K ) R , wie wir ihn oben festgelegt haben.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
331/462
Die zu uberprufende Hypothese bezeichnen wir mit H0 und sprechen deshalb auch von
der Nullhypothese. Bei manchen Tests formuliert man noch eine zweite Hypothese H1 ,
die so genannte Alternative. Im Beispiel konnen wir
H0 : p 1=3 und H1 : p < 1=3
setzen.
Manchmal verzichtet man darauf, H1 anzugeben. Dann besteht die Alternative wie
oben einfach darin, dass H0 nicht gilt. In diesem Fall nennen wir H1 triviale Alternative.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
332/462
Ein echter, also nicht-trivialer Alternativtest lage beispielsweise vor, wenn wir ansetzen
H00 : p 1=3 und H10 : p 1=6:
Beispiel 120
Wir untersuchen eine Festplatte, von der bekannt ist, dass sie zu einer von zwei
Baureihen gehort. Die mittleren Zugriszeiten dieser Baureihen betragen 9ms
bzw. 12ms. Wir mochten nun herausnden, zu welchem Typ die betrachtete Festplatte
gehort, indem wir die Zugriszeit bei n Zugrien bestimmen. Hier wurde man dann
ansetzen: H0 : 9 und H1 := 12, wobei die mittlere Zugriszeit bezeichnet.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
333/462
Fehler bei statistischen Tests
Bei jedem statistischen Test konnen mit einer gewissen Wahrscheinlichkeit falsche
Schlusse gezogen werden. Dieser Fall tritt beispielsweise ein, wenn H0 gilt, aber das
Ergebnis ~x der Stichprobe im Ablehnungsbereich K liegt.
Dann spricht man von einem Fehler 1. Art.
Analog erhalten wir einen Fehler 2. Art, wenn H0 nicht gilt und ~x nicht im
Ablehnungsbereich liegt.
Fehler 1. Art : H0 gilt, wird aber abgelehnt.
Fehler 2. Art : H0 gilt nicht, wird aber angenommen.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
334/462
Fur die Beurteilung eines Tests ist es wesentlich, mit welcher Wahrscheinlichkeit diese
beiden Fehler eintreten konnen. Ziel ist es naturlich, diese Wahrscheinlichkeiten
moglichst klein zu halten. Allerdings sind die Minimierung des Fehlers 1. Art und des
Fehlers 2. Art gegenlauge Ziele, so dass ein vernunftiger Ausgleich zwischen beiden
Fehlern gefunden werden muss. Wenn man beispielsweise K = ; setzt, so erhalt man
Wahrscheinlichkeit Null fur den Fehler 1. Art, da H0 immer angenommen wird.
Allerdings tritt der Fehler 2. Art dann mit Wahrscheinlichkeit Eins ein, wenn H0 nicht
gilt.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
335/462
Die Wahrscheinlichkeit fur den Fehler 1. Art wird mit bezeichnet, und man spricht
deshalb gelegentlich vom -Fehler. heit auch Signikanzniveau des Tests.
In der Praxis ist es ublich, sich ein Signikanzniveau vorzugeben (ubliche Werte
hierfur sind 0;05, 0;01 oder 0;001) und dann den Test so auszulegen (also den
Ablehnungsbereich K so zu bestimmen), dass die Wahrscheinlichkeit fur den Fehler
1. Art den Wert besitzt.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
336/462
Konstruktion eines einfachen Tests
Wir konstruieren einen Test fur den Parameter p einer Bernoulli-verteilten
Zufallsvariablen X . Wir setzen
H0 : p p0 ;
H1 : p < p0 :
Als Testgroe verwenden wir
T := X1 + : : : + Xn :
Fur groere Wahrscheinlichkeiten p erwarten wir auch groere Werte fur T . Deshalb ist
es sinnvoll, einen Ablehnungsbereich der Art K := [0; k] fur T zu wahlen, wobei k 2 R
geeignet festzulegen ist. Wir konstruieren hier also einen einseitigen Test, wahrend fur
eine Nullhypothese H0 : p = p0 sowohl zu kleine als auch zu groe Werte von T zur
Ablehnung von H0 fuhren sollten und somit ein zweiseitiger Test vorzuziehen ware.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
337/462
T ist binomialverteilt. Da wir von einem groen Stichprobenumfang n ausgehen, bietet
es sich an, die Verteilung von T nach dem Grenzwertsatz von de Moivre (siehe
Korollar 109) durch die Normalverteilung zu approximieren.
Sei
T~ :=
T~ ist annahernd standardnormalverteilt.
DWT
c Susanne Albers und Ernst W. Mayr
T np
:
np(1 p)
p
4.1 Einfuhrung
338/462
Wir berechnen fur jeden Wert von k das zugehorige Signikanzniveau des Tests.
2 K]
Pr [T k]
= pmax
2H p
Fehlerwahrscheinlichkeit 2. Art = sup Prp [T 62 K ]
Fehlerwahrscheinlichkeit 1. Art = max Prp [T
p2H0
0
p2H1
= sup Prp [T > k]
p2H1
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
339/462
Fur den Fehler 1. Art erhalten wir
= max Prp [T
pp0
"
k] = Prp=p [T k]
0
#
= Prp=p0 T~ p k np
np(1 p)
"
#
k
np
0
= Pr T~ p
np0 (1 p0 )
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
!
k np0
p
:
np0 (1 p0 )
340/462
Unter Verwendung der Quantile der Standardnormalverteilung ergibt sich damit:
p
Ist k so gewahlt, dass (k np0 )= np0 (1 p0 ) = z , so ist das Signikanzniveau
gleich .
Ist das gewunschte Signikanzniveau des Tests vorgegeben, so erhalt man den
Wert k = k(n) in Abhangigkeit vom Umfang n der Stichprobe durch
p
k = z np0 (1 p0 ) + np0 :
(8)
Kleinere Werte fur k verkleinern zwar den Fehler 1. Art, vergroern jedoch den
Annahmebereich und damit die Wahrscheinlichkeit fur einen Fehler 2. Art.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
341/462
Verhalten der Testfehler
Wie verhalten sich die moglichen Testfehler des konstruierten Verfahrens? Was
geschieht beispielsweise, wenn p nur geringfugig kleiner als p0 ist?
In diesem Fall betrachten wir beim Fehler 2. Art die Wahrscheinlichkeit
Prp=p " [T k] Prp=p [T k] 1 :
0
0
Wenn sich also die wahren\ Verhaltnisse nur minimal von unserer Nullhypothese
"
unterscheiden, so werden wir diese im Zweifelsfall\ annehmen.
"
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
342/462
Bei echten Alternativtests werden fur hinreichend groe Stichproben und einen
geeignet eingestellten Ablehnungsbereich beide Testfehler klein.
Beispiel 121
Die Abbruchrate p der Transaktionen in einem Online-Datenbanksystem wurde bereits
fruher einmal ermittelt. Allerdings sind die entsprechenden Daten verloren gegangen
und die Entwickler erinnern sich nur noch, dass das Ergebnis entweder p = 1=3 oder
p = 1=6 lautete. Unter dieser Annahme wurde man den Test wie folgt ansetzen:
H0 : p 1=3;
DWT
c Susanne Albers und Ernst W. Mayr
H10 : p 1=6:
4.1 Einfuhrung
343/462
Beispiel (Forts.)
Fur den Fehler 2. Art erhalt man nun:
Fehlerwahrsch. 2. Art =
max Prp [T > k]
p1=6
!
1 pk (1=6) n :
(1=6) (5=6)n
Mit den obigen Werten k = 25 und n = 100 ergibt sich mit
p
p 100 = ( 5) 0;9871
150
5 10
ein Fehler 2. Art der Groe 0;0129, wahrend sich fur die triviale Alternative
H1 : p < 1=3 ein Wert von etwa 0;95 ergibt.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
344/462
Die so genannte Gutefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein
Test die Nullhypothese verwirft. Fur unser hier entworfenes Testverfahren gilt
!
k np
:
g(n; p) = Prp [T 2 K ] = Prp [T k] p
np(1 p)
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
345/462
n = 50
n = 100
n = 200
1,0
0,8
0,6
0,4
0,2
0,0
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
Gutefunktion g (n; p) fur verschiedene Werte von n
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
346/462
Man erkennt deutlich, dass fur alle n der Wert von k = k(n) genau so gewahlt wurde,
dass g (n; 1=3) = 0;05 gilt. Dies wird durch den in Gleichung 8 angegebenen Ausdruck
erreicht.
Fur Werte von p groer als 1=3 wird H0 : p 1=3 mit hoher Wahrscheinlichkeit
angenommen, wahrend fur Werte deutlich unter 1=3 die Hypothese H0 ziemlich sicher
abgelehnt wird.
Ferner ist auallig, dass g fur groere Werte von n schneller von Eins auf Null fallt.
Daran erkennt man, dass durch den Test die Falle H0 gilt\ und H0 gilt nicht\ umso
"
"
besser unterschieden werden konnen, je mehr Stichproben durchgefuhrt werden. Fur
Werte von p, bei denen g (n; p) weder nahe bei Eins noch nahe bei Null liegt, kann der
Test nicht sicher entscheiden, ob die Nullhypothese abzulehnen ist.
DWT
c Susanne Albers und Ernst W. Mayr
4.1 Einfuhrung
347/462
4.2 Praktische Anwendung statistischer Tests
Das im vorhergehenden Abschnitt konstruierte Testverfahren taucht in der Literatur
unter dem Namen approximativer Binomialtest auf.
 berblick uber die Eckdaten dieses Tests.
Die folgende Tabelle 1 gibt einen U
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Praktische Anwendung statistischer Tests
348/462
Tabelle : Approximativer Binomialtest
Annahmen:
X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit Pr[Xi = 1] = p und Pr[Xi = 0] = 1 p, wobei p unbekannt
sei. n sei hinreichend gro, so dass die Approximation aus Korollar 109 brauchbare Ergebnisse liefert.
Hypothesen:
a) H0 : p = p0 gegen H1 : p 6= p0 ,
b) H0 : p p0 gegen H1 : p < p0 ,
c) H0 : p p0 gegen H1 : p > p0 .
Testgroe:
Z :=
h np0
;
np0 (1 p0 )
p
wobei h := X1 + : : : + Xn die Haugkeit bezeichnet, mit der die Ereignisse Xi = 1 aufgetreten sind.
Ablehnungskriterium fur H0 bei Signikanzniveau :
a) jZ j > z1 =2 ,
b) Z < z ,
c) Z > z1 .
DWT
c Susanne Albers und Ernst W. Mayr
4.2 Praktische Anwendung statistischer Tests
349/462
4.3 Allgemeines Vorgehen bei statistischen Tests
1. Schritt: Formulierung von Annahmen. Ganz ohne Annahmen kommt man meist nicht
 bliche Annahmen betreen meist die Verteilung der Stichprobenvariablen
aus. U
und deren Unabhangigkeit.
2. Schritt: Formulierung der Nullhypothese.
3. Schritt: Auswahl des Testverfahrens.
4. Schritt: Durchfuhrung des Tests und Entscheidung.
DWT
c Susanne Albers und Ernst W. Mayr
4.3 Allgemeines Vorgehen bei statistischen Tests
350/462
4.4 Ausgewahlte statistische Tests
4.4.1 Wie ndet man das richtige Testverfahren?
Statistische Tests kann man nach mehreren Kriterien in Klassen einteilen.
Anzahl der beteiligten Zufallsgroen
Sollen zwei Zufallsgroen mit potentiell unterschiedlichen Verteilungen verglichen
werden, fur die jeweils eine Stichprobe erzeugt wird (Zwei-Stichproben-Test), oder
wird nur eine einzelne Zufallsgroe untersucht (Ein-Stichproben-Test)?
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
351/462
Bei der Fragestellung
Betragt die mittlere Zugriszeit auf einen Datenbankserver im Mittel
hochstens 10ms?
hat man es mit einem Ein-Stichproben-Test zu tun, wahrend die Untersuchung der
Frage
Hat Datenbankserver A eine kurzere mittlere Zugriszeit als
Datenbankserver B?
auf einen Zwei-Stichproben-Test fuhrt.
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
352/462
Bei mehreren beteiligten Zufallsgroen wird zusatzlich unterschieden, ob aus
voneinander unabhangigen Grundmengen Stichproben erhoben werden oder nicht.
Beim vorigen Beispiel werden unabhangige Messungen vorgenommen, sofern die
Server A und B getrennt voneinander arbeiten. Wenn man jedoch die Frage
Lauft ein Datenbankserver auf einer Menge festgelegter Testanfragen mit
Query-Optimierung schneller als ohne?
untersucht, so spricht man von verbundenen Messungen.
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
353/462
Gelegentlich betrachtet man auch den Zusammenhang zwischen mehreren
Zufallsgroen. Beispielsweise konnte man sich fur die Frage interessieren:
Wie stark wachst der Zeitbedarf fur eine Datenbankanfrage im Mittel mit der
(syntaktischen) Lange der Anfrage, d. h. fuhren kompliziertere
Formulierungen zu proportional langeren Laufzeiten?
Mit solchen Fragenstellungen, bei denen ein funktionaler Zusammenhang zwischen
Zufallsgroen ermittelt werden soll, beschaftigt sich die Regressionsanalyse. Wenn
uberhaupt erst zu klaren ist, ob ein solcher Zusammenhang besteht oder ob die
Zufallsgroen vielmehr unabhangig voneinander sind, so spricht man von
Zusammenhangsanalyse.
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
354/462
Formulierung der Nullhypothese
Welche Groe dient zur Denition der Nullhypothese? Hierbei werden in erster
Linie Tests unterschieden, die Aussagen uber verschiedene so genannte
Lageparameter treen, wie z.B. den Erwartungswert oder die Varianz der
zugrunde liegenden Verteilungen.
Im Zwei-Stichproben-Fall konnte man beispielsweise untersuchen, ob der
Erwartungswert der Zufallsgroe A groer oder kleiner als bei Zufallsgroe B ist.
Gelegentlich wird zur Formulierung der Nullhypothese auch der so genannte
Median betrachtet: Der Median einer Verteilung entspricht dem (kleinsten)
Wert x mit F (x) = 1=2.
Neben solchen Tests auf Lageparameter gibt es z.B. auch Tests, die auf eine
vorgegebene Verteilung oder auf ein Ma fur die Abhangigkeit verschiedener
Zufallsgroen testen.
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
355/462
Annahmen uber die Zufallsgroen
Was ist uber die Verteilung der untersuchten Groe(n) bekannt? Bei
entsprechenden Annahmen konnte es sich z.B. um die Art der Verteilung, den
Erwartungswert oder die Varianz handeln.
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
356/462
4.4.2 Ein-Stichproben-Tests fur Lageparameter
Beim approximativen Binomialtest wird ausgenutzt, dass die Binomialverteilung fur
groe n nach dem Grenzwertsatz von de Moivre (Korollar 109) gegen die
Normalverteilung konvergiert. Aus diesem Grund kann man diesen Test auch als
Spezialfall eines allgemeineren Testverfahrens ansehen, namlich des Gautest, der nun
dargestellt wird.
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
357/462
Tabelle : Gautest
Annahmen:
X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit Xi N (; 2 ), wobei 2 bekannt ist.
Alternativ gelte E[Xi ] = und Var[Xi ] = 2 , und n sei gro genug.
Hypothesen:
a) H0 : = 0 gegen H1 : 6= 0 ,
b) H0 : 0 gegen H1 : < 0 ,
c) H0 : 0 gegen H1 : > 0 .
Testgroe:
Z :=
X
0 p
n:
Ablehnungskriterium fur H0 bei Signikanzniveau :
a) jZ j > z1 =2 ,
b) Z < z ,
c) Z > z1 .
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
358/462
Der Gautest hat den Nachteil, dass man die Varianz 2 der beteiligten Zufallsgroen
kennen muss.
Wenn diese unbekannt ist, so liegt es nahe, die Varianz durch die
Stichprobenvarianz S 2 (siehe Denition 114) anzunahern. Dies fuhrt auf den so
 bersicht dargestellt ist.
genannten t-Test, der in der folgenden U
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
359/462
Tabelle : t-Test
Annahmen:
X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit Xi N (; 2 ).
Alternativ gelte E[Xi ] = und Var[Xi ] = 2 , und n sei gro genug.
Hypothesen:
a) H0 : = 0 gegen H1 : 6= 0 ,
b) H0 : 0 gegen H1 : < 0 ,
c) H0 : 0 gegen H1 : > 0 .
Testgroe:
T :=
X
S
0 p
n:
Ablehnungskriterium fur H0 bei Signikanzniveau :
a) jT j > tn 1;1 =2 ,
b) T < tn 1; ,
c) T > tn 1;1 .
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
360/462
Hierbei gibt tn 1;1 das (1 )-Quantil der t-Verteilung mit n 1 Freiheitsgraden
an. Die t-Verteilung taucht manchmal auch unter dem Namen Student-Verteilung auf,
da sie ursprunglich unter dem Pseudonym Student\ publiziert wurde.
"
Wir gehen an dieser Stelle nicht darauf ein, wieso die Testgroe die t-Verteilung besitzt,
sondern weisen nur darauf hin, dass die Dichte dieser Verteilung (eigentlich handelt es
sich um eine ganze Familie von Verteilungen, da die Anzahl der Freiheitsgrade jeweils
noch gewahlt werden kann) der Dichte der Normalverteilung ahnelt. Fur groe n
(Faustregel: n 30) liegen die beiden Dichten so genau ubereinander, dass man in der
Praxis die t-Verteilung durch die Normalverteilung annahert.
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
361/462
0,4
n=1
n=5
n = 20
n
!1
0,3
0,2
0,1
0,0
-4,0
-2,0
0,0
2,0
4,0
Dichte der t-Verteilung mit n Freiheitsgraden
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
362/462
Als weitere Beispiele fur gangige Ein-Stichproben-Tests zu Lageparametern seien der
Wilcoxon-Test und der 2 -Varianztest genannt. Ersterer dient zum Testen von
Hypothesen zum Median, wahrend der zweite Test Hypothesen zur Varianz beinhaltet.
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
363/462
4.4.3 Zwei-Stichproben-Tests fur Lageparameter
Bei Zwei-Stichproben-Tests wollen wir das Verhaltnis von Lageparametern
untersuchen. Besonders wichtig sind hierbei Tests zum Erwartungswert. Fur zwei
Zufallsgroen X und Y konnten wir beispielsweise die Frage untersuchen, ob fur die
Erwartungswerte X und Y gilt, dass X = Y ist.
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
364/462
Tabelle : Zwei-Stichproben-t-Test
Annahmen:
X1 ; : : : ; Xm und Y1 ; : : : ; Yn seien unabhangig und jeweils identisch verteilt, wobei Xi
Yi N (Y ; Y2 ) gelte. Die Varianzen seien identisch, also X2 = Y2 .
Hypothesen:
a) H0 : X
b) H0 : X
c) H0 : X
Testgroe:
T :=
s
= Y gegen H1 : X 6= Y ,
gegen H1 : X < Y ,
gegen H1 : X > Y .
Y
Y
n+m 2
1
m
+ n1
N (X ; X2 ) und
q
X
Y
(m 1) SX2 + (n 1) SY2
:
Ablehnungskriterium fur H0 bei Signikanzniveau :
a) jT j > tm+n 2;1 =2 ,
b) T < tm+n 2; ,
c) T > tm+n 2;1 .
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
365/462
Vom Zwei-Stichproben-t-Test ndet man in der Literatur noch zusatzliche Varianten,
die auch dann einsetzbar sind, wenn die beteiligten Zufallsgroen nicht dieselbe Varianz
besitzen. Der beim Ein-Stichproben-Fall erwahnte Wilcoxon-Test kann ebenfalls auf
den Zwei-Stichproben-Fall ubertragen werden.
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
366/462
4.4.4 Nicht an Lageparametern orientierte Tests
Wir betrachten in diesem Abschnitt exemplarisch den 2 -Anpassungstest. Bei einem
Anpassungstest wird nicht nur der Lageparameter einer Verteilung getestet, sondern es
wird die Verteilung als Ganzes untersucht.
Beim approximativen Binomialtest (siehe Tabelle 1) haben wir streng genommen
bereits einen Anpassungstest durchgefuhrt. Bei der Nullhypothese H0 : p = p0 wird
untersucht, ob es sich bei der betrachteten Zufallsgroe um eine Bernoulli-verteilte
Zufallsvariable mit Parameter p0 handelt. Beim 2 -Test gehen wir nun einen Schritt
weiter: Wir nehmen an, dass die Zufallsgroe X genau k verschiedene Werte annimmt.
Ohne Beschrankung der Allgemeinheit sei WX = f1; : : : ; kg. Die Nullhypothese lautet
nun
H0 : Pr[X = i] = pi fur i = 1; : : : ; k:
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
367/462
Tabelle : 2 -Anpassungstest
Annahmen:
X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit WXi
Hypothesen:
= f1; : : : ; kg.
H0 : Pr[X = i] = pi fur i = 1; : : : ; k;
H1 : Pr[X = i] 6= pi fur mindestens ein i 2 f1; : : : ; kg;
Testgroe:
T=
k
X
i=1
(hi npi )2 ;
np
i
wobei hi die Haugkeit angibt, mit der X1 ; : : : ; Xn den Wert i angenommen haben.
Ablehnungskriterium fur H0 bei Signikanzniveau :
T > 2k 1;1 ;
dabei sollte gelten, dass npi 1 fur alle i und npi 5 fur mindestens 80% der Werte i = 1; : : : ; k.
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
368/462
Fur die Testgroe T wird naherungsweise eine 2 -Verteilung mit k 1 Freiheitsgraden
angenommen. Die Werte dieser Verteilung nden sich in entsprechenden Tabellen in
der Literatur. Damit diese Approximation gerechtfertigt ist, sollte gelten, dass npi 1
fur alle i und npi 5 fur mindestens 80% der Werte i = 1; : : : ; k. Das -Quantil einer
2 -Verteilung mit k Freiheitsgraden bezeichnen wir mit 2k; .
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
369/462
1,0
n=1
n=2
n=3
n=5
0,8
0,6
0,4
0,2
0,0
0,0
1,0
2,0
3,0
4,0
5,0
Dichte der 2 -Verteilung mit n Freiheitsgraden
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
370/462
Beispiel 122
Als Anwendung fur den 2 -Test wollen wir uberprufen, ob der Zufallszahlengenerator
von Maple eine gute Approximation der Gleichverteilung liefert. Dazu lassen wir Maple
n = 100000 Zufallszahlen aus der Menge f1; : : : ; 10g generieren. Wir erwarten, dass
jede dieser Zahlen mit gleicher Wahrscheinlichkeit p1 = : : : = p10 = 1=10 auftritt. Dies
sei unsere Nullhypothese, die wir mit einem Signikanzniveau von = 0;05 testen
wollen.
Beispiel:
i
hi
1
2
3
4
5
6
7
8
9
10
10102 10070 9972 9803 10002 10065 10133 9943 10009 9901
Fur den Wert der Testgroe gilt T = 8;9946. Ferner erhalten wir 29;0;95 16;919. Der
Test liefert also keinen Grund, die Nullhypothese abzulehnen.
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
371/462
Das Prinzip des 2 -Anpassungstests kann in leicht abgewandelter Form auch noch zum
Testen einiger anderer Hypothesen verwendet werden: Beim 2 -Homogenitatstest wird
uberpruft, ob zwei oder mehrere Verteilungen identisch sind, wahrend beim
2 -Unabhangigkeitstest zwei Zufallsgroen auf Unabhangigkeit untersucht werden.
Beschreibungen dieser Tests ndet man in der Literatur.
DWT
c Susanne Albers und Ernst W. Mayr
4.4 Ausgewahlte statistische Tests
372/462
Kapitel IV Stochastische Prozesse
1. Einfuhrung
Wir betrachten zeitliche Folgen von Zufallsexperimenten. Mathematisch beschreibt
man diese durch einen so genannten stochastischen Prozess. Darunter versteht man
eine Folge von Zufallsvariablen (Xt )t2T , die das Verhalten des Systems zu
verschiedenen Zeitpunkten t angeben.
DWT
c Susanne Albers und Ernst W. Mayr
1 Einfuhrung
373/462
Wenn wir T = N0 annehmen, sprechen wir von einem stochastischen Prozess mit
diskreter Zeit. Lasst man andererseits T = R+
0 zu, so spricht man von stochastischen
Prozessen mit kontinuierlicher Zeit.
Eine besonders einfache Art von stochastischen Prozessen sind so genannte
Markov-Ketten. Diese haben die Eigenschaft, dass der nachste Zustand des Prozesses
zwar vom aktuellen Zustand abhangen darf, nicht aber von der Historie, d.h. davon,
wie der aktuelle Zustand erreicht wurde.
DWT
c Susanne Albers und Ernst W. Mayr
1 Einfuhrung
374/462
2. Prozesse mit diskreter Zeit
2.1 Einfuhrung
Denition 123
Eine (endliche) Markov-Kette (mit diskreter Zeit) uber der Zustandsmenge
S = f0; : : : ; n 1g besteht aus einer unendlichen Folge von Zufallsvariablen (Xt )t2N0
mit Wertemenge S sowie einer Startverteilung q0 mit q0T 2 Rn . Die Komponenten von
q0 sind hierbei 0 und addieren sich zu 1. Fur jede Indexmenge I f0; : : : ; t 1g
und beliebige Zustande i; j; sk (k 2 I ) gilt
Pr[Xt+1 = j j Xt = i; 8k 2 I : Xk = sk ] =
Pr[Xt+1 = j j Xt = i] :
DWT
c Susanne Albers und Ernst W. Mayr
2.1 Einfuhrung
(9)
375/462
Sind die Werte
pij := Pr[Xt+1 = j j Xt = i]
von t unabhangig, so nennt man die Markov-Kette (zeit)homogen. In diesem Fall
 bergangsmatrix durch P = (pij )0i;j<n . Wenn man S = N0 zulasst,
deniert man die U
so spricht man von einer unendlichen Markov-Kette.
Markov-Ketten sind nach Andrey Andreyevich Markov (1856{1922) benannt.
DWT
c Susanne Albers und Ernst W. Mayr
2.1 Einfuhrung
376/462
Bedingung (9) heit Markov-Bedingung und besagt:
Wenn wir den Zustand i zum Zeitpunkt t kennen, so hangt die
 bergangswahrscheinlichkeit zum Folgezustand j nur von i und j ab. Die
U
Vergangenheit (Zustande zu Zeitpunkten < t) der Markov-Kette spielt keine Rolle. Das
Gedachtnis\ der Markov-Kette besteht also nur aus ihrem aktuellen Zustand und sie
"
wei\ nicht, wie sie dorthin gekommen ist.
"
Bei einer zeithomogenen Markov-Kette hat die (absolute) Zeit t keinen Einuss auf die
 bergangswahrscheinlichkeiten pij , d.h. das Systemverhalten wird nur durch den
U
aktuellen Zustand bestimmt und nicht durch eine absolute Uhr.
DWT
c Susanne Albers und Ernst W. Mayr
2.1 Einfuhrung
377/462
Wahrscheinlichkeitsraum einer Markov-Kette
Nehmen wir an, dass wir die Kette von der Zeit 0 bis zur Zeit t0 beobachten wollen.
Wir bezeichnen die Folge von Zustanden, die von der Kette in dieser Zeit durchlaufen
wurde, mit ~x = (x0 ; x1 ; : : : ; xt0 ). S t0 +1 sei die Menge moglicher Zustandsfolgen.
Einer beliebigen Folge ! := (x0 ; x1 ; : : : ; xt0 ) 2 ordnen wir die Wahrscheinlichkeit
Pr[!] = (q0 )x 0
t0
Y
i=1
Pr[Xi = xi j Xi 1 = xi 1 ]
zu. Dadurch erhalten wir einen diskreten Wahrscheinlichkeitsraum im Sinne der
Denition.
DWT
c Susanne Albers und Ernst W. Mayr
2.1 Einfuhrung
378/462
Beispiel 124
Pr[Xt+1 = 1 j Xt = 1] = 0;9; Pr[Xt+1 = 1 j Xt = 0] = 0;2
Pr[Xt+1 = 0 j Xt = 1] = 0;1; Pr[Xt+1 = 0 j Xt = 0] = 0;8
0;2
0;8
0
1
0;9
0;1
DWT
c Susanne Albers und Ernst W. Mayr
2.1 Einfuhrung
379/462
Einen bestimmten Ablauf des Systems kann man sich als so genannten Random Walk
vorstellen.
Wenn wir uns beispielsweise zum Zeitpunkt t = 0 im Knoten 1 (also X0 = 1) benden,
dann fuhren von dort zwei Kanten weiter, namlich zu den Knoten 0 und 1. Diese
Kanten sind mit Wahrscheinlichkeiten beschriftet, die sich zu Eins addieren. Gema
dieser Wahrscheinlichkeiten entscheiden wir zufallig, wohin wir uns im nachsten Schritt
begeben.
DWT
c Susanne Albers und Ernst W. Mayr
2.1 Einfuhrung
380/462
Wir konnen auch die Frage beantworten, mit welcher Wahrscheinlichkeit wir uns zum
Zeitpunkt t = 2 im Knoten 1 benden. Da wir vereinbarungsgema beim Knoten 1
starten, gibt es zwei mogliche Wege der Lange zwei durch den Graphen mit
Endknoten 1, namlich 111\ und 101\. Die Wahrscheinlichkeiten fur diese Wege
"
"
lauten 0;9 0;9 = 0;92 bzw. 0;1 0;2. Insgesamt erhalten wir also eine
Wahrscheinlichkeit von 0;81 + 0;02 = 0;83.
Auch eine Aussage uber die erwartete Anzahl Schritte, die wir im Knoten 1 bis zum
 bergang zu Knoten 0 verbleiben, ist schnell getroen. Die Wahrscheinlichkeit,
ersten U
dass man genau k Schritte verbleibt, ist (0;9)k 0;1. Die Anzahl Schritte ist also
geometrisch verteilt mit Erfolgswahrscheinlichkeit 0;1. Der Erwartungswert ist daher
1=0;1 = 10.
DWT
c Susanne Albers und Ernst W. Mayr
2.1 Einfuhrung
381/462
 bergangswahrscheinlichkeiten
2.2 Berechnung von U
Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor qt (den wir
als Zeilenvektor schreiben). Die i-te Komponente (qt )i bezeichnet dabei die
Wahrscheinlichkeit, mit der sich die Kette nach t Schritten im Zustand i aufhalt.
Es gilt
Pr[Xt+1 = k] =
also
bzw. in Matrixschreibweise
DWT
c Susanne Albers und Ernst W. Mayr
nX1
i=0
Pr[Xt+1 = k j Xt = i] Pr[Xt = i];
(qt+1 )k =
nX1
i=0
pik (qt )i ;
qt+1 = qt P:
 bergangswahrscheinlichkeiten
2.2 Berechnung von U
382/462
Mit der Matrixschreibweise konnen wir qt einfach durch die Startverteilung q0
ausdrucken:
qt = q0 P t :
Ebenso gilt wegen der Zeithomogenitat allgemein fur alle t; k 2 N:
qt+k = qt P k :
 bergang vom
Die Eintrage von P k geben an, mit welcher Wahrscheinlichkeit ein U
Zustand i zum Zustand j in genau k Schritten erfolgt.
p(ijk) := Pr[Xt+k = j j Xt = i] = (P k )ij :
DWT
c Susanne Albers und Ernst W. Mayr
 bergangswahrscheinlichkeiten
2.2 Berechnung von U
383/462
Exponentiation von Matrizen
Wenn P diagonalisierbar ist, so existiert eine Diagonalmatrix D und eine invertierbare
Matrix B , so dass P = B D B 1 gilt. Diese erhalten wir durch Berechnung der
Eigenwerte und Eigenvektoren von P und durch Transformation von P in den Raum
der Eigenvektoren.
Dann gilt
DWT
c Susanne Albers und Ernst W. Mayr
P k = B Dk B 1 :
 bergangswahrscheinlichkeiten
2.2 Berechnung von U
384/462
Beispiel 125
P = 00;;81 00;;29
Durch Bestimmung der Nullstellen des charakteristischen Polynoms der Matrix
(P I ) erhalten wir die Eigenwerte 0;7 und 1, sowie die zugehorigen (rechten)
Eigenvektoren
1 =
DWT
c Susanne Albers und Ernst W. Mayr
2 und = 1 :
2
1
1
385/462
Beispiel 125
Damit
D = 00;7 01 und B = 12 11
und
B 1=
Damit ergibt sich beispielsweise
P3 =
2 1
1 1
DWT
c Susanne Albers und Ernst W. Mayr
0;73 0
0 13
1
3
1 3 :
2
3
1
3
1
3
1
3
1 3 0;562
2
0;219
3
 bergangswahrscheinlichkeiten
2.2 Berechnung von U
0;438
0;781
385/462
 bergangszeiten
2.3 Ankunftswahrscheinlichkeiten und U
Bei der Analyse von Markov-Ketten treten oftmals Fragestellungen auf, die sich auf
zwei bestimmte Zustande i und j beziehen:
Wie wahrscheinlich ist es, von i irgendwann nach j zu kommen?
Wie viele Schritte benotigt die Kette im Mittel, um von i nach j zu gelangen?
DWT
c Susanne Albers und Ernst W. Mayr
 bergangszeiten
2.3 Ankunftswahrscheinlichkeiten und U
386/462
Denition 126
Die Zufallsvariable
Tij := minfn 0 j Xn = j , wenn X0 = ig
zahlt die Anzahl der Schritte, die von der Markov-Kette fur den Weg von i nach j
 bergangszeit (engl. hitting time) vom Zustand i
benotigt werden. Tij nennen wir die U
zum Zustand j . Wenn j nie erreicht wird, setzen wir Tij = 1.
Ferner denieren wir hij
:= E[Tij ].
Die Wahrscheinlichkeit, vom Zustand i nach beliebig vielen Schritten in den Zustand j
zu gelangen, nennen wir Ankunftswahrscheinlichkeit fij . Formal denieren wir
fij := Pr[Tij < 1]:
DWT
c Susanne Albers und Ernst W. Mayr
 bergangszeiten
2.3 Ankunftswahrscheinlichkeiten und U
387/462
Im Fall i = j gilt Tii = 0 und somit auch hii = 0, sowie fii = 1. Anschaulich ist dies
 bergangszeit gleich
klar: Wenn Anfangs- und Zielzustand identisch sind, so ist die U
Null. Fur viele Zwecke ist es andererseits auch interessant zu messen, wie lange es
dauert, bis Zustand i zu einem spateren Zeitpunkt wieder besucht wird. Wir erganzen
Denition 126 fur diesen Fall.
Denition 127
Die Zufallsvariable
Ti := minfn 1 j Xn = i, wenn X0 = ig
zahlt die Anzahl Schritte, die von der Markov-Kette benotigt werden, um von i nach i
zuruckzukehren (Ruckkehrzeit, engl. recurrence time). Der Erwartungswert sei
hi := E[Ti ]. Die Wahrscheinlichkeit, mit der Ti einen endlichen Wert annimmt, nennt
man Ruckkehrwahrscheinlichkeit:
fi := Pr[Ti < 1]:
DWT
c Susanne Albers und Ernst W. Mayr
 bergangszeiten
2.3 Ankunftswahrscheinlichkeiten und U
388/462
1,0
Beispiel 128
1,0
0,5
0
0,5
1
2
3
0,5
0,5
Beispiel zur Berechnung von fij und hij
Wir betrachten die obige Markov-Kette. Einige Besonderheiten fallen sofort auf:
Beginnt man im Zustand 0, so kann man niemals einen der ubrigen Zustande
 bergangszeiten T01 , T02 und T03 sind daher 1.
erreichen. Die U
DWT
c Susanne Albers und Ernst W. Mayr
389/462
1,0
Beispiel 128
1,0
0,5
0
0,5
2
1
3
0,5
0,5
Beginnt man im Zustand 1, so entscheidet sich im ersten Schritt, ob die Kette
sich zukunftig im linken Teil\ (Zustand 0) oder im rechten Teil\ (Zustand 2
"
 bergangszeit T10 gilt daher "
und 3) aufhalt. Fur die U
(
T10 =
1
1
falls X1 = 0;
falls X1 = 2:
Wegen Pr[X1 = 0 j X0 = 1] = 0;5 folgt f10 = 0;5 und E[T10 ] = 1.
DWT
c Susanne Albers und Ernst W. Mayr
389/462
1,0
Beispiel 128
1,0
0,5
0
0,5
1
2
3
0,5
0,5
Beginnt man im Zustand 2 oder 3, so wird die Kette auch weiterhin zwischen den
Zustanden 2 und 3 hin und her pendeln\. Genauer:
"
Die Anzahl der Schritte, in denen die Kette im Zustand 3 bleibt, ist geometrisch
verteilt mit Parameter 0;5. Der Zustand 3 wird daher im Mittel nach 1=0;5 = 2
Schritten verlassen. Da Zustand 2 der einzige Nachbar von 3 ist, folgt h32 = 2
und somit insbesondere auch f32 = 1.
DWT
c Susanne Albers und Ernst W. Mayr
 bergangszeiten
2.3 Ankunftswahrscheinlichkeiten und U
389/462
Lemma 129

Fur die erwarteten Ubergangs-/R
uckkehrzeiten gilt
hij = 1 +
X
hj = 1 +
X
k6=j
k6=j
pik hkj fur alle i; j 2 S; i 6= j;
pjk hkj ;
sofern die Erwartungswerte hij und hkj existieren.
Fur die Ankunfts-/Ruckkehrwahrscheinlichkeiten gilt analog
fij = pij +
X
fj = pjj +
X
DWT
c Susanne Albers und Ernst W. Mayr
k6=j
k6=j
pik fkj fur alle i; j 2 S; i 6= j ;
pjk fkj :
 bergangszeiten
2.3 Ankunftswahrscheinlichkeiten und U
390/462
Beweis:
Sei i 6= j . Wir bedingen auf das Ergebnis des ersten Schritts der Markov-Kette und
erhalten aufgrund der Gedachtnislosigkeit Pr[Tij < 1 j X1 = k] = Pr[Tkj < 1] fur
k 6= j sowie Pr[Tij < 1 j X1 = j ] = 1.
fij = Pr[Tij < 1] =
= pij +
X
k6=j
X
k 2S
Pr[Tkj < 1 j X1 = k] pik
Pr[Tkj < 1] pik = pij +
X
k6=j
pik fkj :
Die Ableitung fur fj (also i = j ) ist analog.
DWT
c Susanne Albers und Ernst W. Mayr
391/462
Beweis:
Sei wiederum i 6= j . Wegen der Gedachtnislosigkeit folgt E[Tij j X1 = k] = 1 + E[Tkj ]
fur k 6= j . Ferner gilt E[Tij j X1 = j ] = 1.
Bedingen wir wieder auf das Ergebnis des ersten Schritts, so folgt (siehe Satz 36):
hij= E[Tij ] =
= pij +
X
k6=j
X
k 2S
E[Tij j X1 = k] pik
(1 + E[Tkj ]) pik = 1 +
X
k6=j
hkj pik :
Wiederum ist die Herleitung fur hj analog.
DWT
c Susanne Albers und Ernst W. Mayr
 bergangszeiten
2.3 Ankunftswahrscheinlichkeiten und U
391/462
1,0
Beispiel 130
1,0
0,5
0
0,5
1
2
3
0,5
0,5
 bergangszeiten fur die Zustande 2 und 3 erhalten wir die
Fur die Berechnung der U
Gleichungen
h2 = 1 + h32 ;
h3 = 1 + 21 h23
und
h23 = 1;
h32 = 1 + 12 h32 = 2 :
Durch Losen dieses Gleichungssystems erhalten wir die Werte h2 = 3, h3 = 1;5,
h23 = 1 und h32 = 2, die man leicht veriziert. Die Ankunftswahrscheinlichkeiten
lassen sich analog herleiten. Man erhalt f2 = f3 = f23 = f32 = 1.
DWT
c Susanne Albers und Ernst W. Mayr
 bergangszeiten
2.3 Ankunftswahrscheinlichkeiten und U
392/462
2.4 Das Gambler's Ruin Problem
Anna und Bodo spielen Poker, bis einer von ihnen bankrott ist. A verfugt uber
Kapital a, und B setzt eine Geldmenge in Hohe von m a aufs Spiel. Insgesamt sind
also m Geldeinheiten am Spiel beteiligt. In jeder Pokerrunde setzen A und B jeweils
eine Geldeinheit. A gewinnt jedes Spiel mit Wahrscheinlichkeit p. B tragt folglich mit
Wahrscheinlichkeit q := 1 p den Sieg davon. Wir nehmen an, dass diese
Wahrscheinlichkeiten vom bisherigen Spielverlauf und insbesondere vom Kapitalstand
der Spieler unabhangig sind.
DWT
c Susanne Albers und Ernst W. Mayr
2.4 Das Gambler's Ruin Problem
393/462
Wir modellieren das Spiel durch die Markov-Kette
p
1
0
q
1
q
p
2
q
p
q
m
p
1
1
m
A interessiert sich fur die Wahrscheinlichkeit, mit der sie B in den Ruin treibt, also fur
die Wahrscheinlichkeit fa;m (wir schreiben hier der Deutlichkeit halber fi;j statt fij ).
Wir erhalten:
fi;m = p fi+1;m + q fi 1;m fur 1 i < m 1;
fm 1;m = p + q fm 2;m ;
f0;m = 0:
DWT
c Susanne Albers und Ernst W. Mayr
2.4 Das Gambler's Ruin Problem
(10)
394/462
Wir wollen nun fi;m allgemein als Funktion von m berechnen. Dazu beobachten wir
zunachst, dass wir (10) wegen fm;m = 1 umschreiben konnen zu
fi+1;m = (1=p) fi;m (q=p) fi 1;m fur 1 i < m:
(11)
Wir erganzen (11) um die Anfangswerte
f0;m = 0 und f1;m = :
(Fur den Moment fassen wir als Variable auf. Nach Losung der Rekursion werden wir
so wahlen, dass die Bedingung fm;m = 1 erfullt ist.)
DWT
c Susanne Albers und Ernst W. Mayr
2.4 Das Gambler's Ruin Problem
395/462
Als Losung dieser linearen homogenen Rekursionsgleichung 2. Ordnung (11) ergibt sich
fur p 6= 1=2:
!
p
fi;m =
2p 1 1
1 p
p
i
:
Setzen wir nun i = m, so folgt aus fm;m = 1, dass
=
p 1
2p 1
1 p m
p
gelten muss.
DWT
c Susanne Albers und Ernst W. Mayr
2.4 Das Gambler's Ruin Problem
396/462
Insgesamt erhalten wir somit das Ergebnis:
1
fj;m =
1
1 p j
p
:
1 p m
p
Fur p = 1=2 verlauft die Rechnung ahnlich.
DWT
c Susanne Albers und Ernst W. Mayr
2.4 Das Gambler's Ruin Problem
397/462
Beispiel 131
Wir wollen berechnen, wie lange A und B im Mittel spielen konnen, bis einer von
ihnen bankrott geht.
ha;m eignet sich dazu i.a. nicht (warum?).
Wir betrachten stattdessen:
Ti0 := "Anzahl der Schritte von Zustand i nach
Zustand 0 oder m\
und setzen
di := E[Ti0 ]:
Oensichtlich gilt d0 = dm = 0 und fur 1 i < m
di = qdi 1 + pdi+1 + 1 :
DWT
c Susanne Albers und Ernst W. Mayr
2.4 Das Gambler's Ruin Problem
398/462
Beispiel (Forts.)
Wir betrachten nun nur den Fall p = q = 1=2 und erhalten
di = i (m i) fur alle i = 0; : : : ; m:
Wegen di mi m2 folgt also, dass das Spiel unabhangig vom Startzustand im
Mittel nach hochstens m2 Schritten beendet ist.
DWT
c Susanne Albers und Ernst W. Mayr
2.4 Das Gambler's Ruin Problem
399/462
2.5 Stationare Verteilung
Reale dynamische Systeme laufen oft uber eine lange Zeit. Fur solche Systeme ist es
sinnvoll, das Verhalten fur t ! 1 zu berechnen.
Wir betrachten wieder die Markov-Kette aus unserem Beispiel. Wir hatten gezeigt,
 bergangsmatrix P gilt:
dass fur die U
P =BDB 1 =
DWT
c Susanne Albers und Ernst W. Mayr
2 1 107 0 1 1
0 1
2.5 Stationare Verteilung
1
3
1
3
1 3
2 :
3
400/462
Daraus folgt
Pt
= B Dt B 1
und fur t ! 1 erhalten wir
lim
t!1
Pt
= 12 11 0
= 12 11 00 01 DWT
c Susanne Albers und Ernst W. Mayr
7 t
10
1
3
2.5 Stationare Verteilung
1
3
0
1t 1 3 =
2
3
1
3
1
3
1
3
1
3
1 3 ;
2
3
2 3 :
2
3
401/462
Fur eine beliebige Startverteilung q0 = (a; 1
lim q
t!1 t
= tlim
q
!1 0
Pt
a) folgt
= (a; 1 a) 1
3
1
3
2 3
2
3
= 13 a + 13 (1 a); 23 a + 32 (1 a) = ( 13 ; 23 ):
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
402/462
Das System konvergiert also unabhangig vom Startzustand in eine feste Verteilung.
Der zugehorige Zustandsvektor = ( 13 ; 23 ) hat eine interessante Eigenschaft:
1 2
1 2
P = ( ; ) 00;;81 00;;29 = ( ; ) = :
3 3
3 3
ist also ein Eigenvektor der Matrix P zum Eigenwert 1 bezuglich Multiplikation von
links. Dies bedeutet: Wenn die Kette einmal den Zustandsvektor angenommen hat,
 bergangen erhalten.
so bleibt dieser bei allen weiteren U
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
403/462
Denition 132
P sei die U bergangsmatrix einer Markov-Kette. Einen Zustandsvektor mit = P
nennen wir stationare Verteilung der Markov-Kette.
Besitzen alle Markov-Ketten die Eigenschaft, dass sie unabhangig vom Startzustand in
eine bestimmte stationare Verteilung konvergieren?
Nein!
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
404/462
1
p
0
1
1
2
q
Eine Markov-Kette mit absorbierenden Zustanden
Die Abbildung zeigt die Kette aus dem gamblers ruin problem\ fur m = 2. Man sieht
"
sofort, dass hier sowohl 1 = (1; 0; 0) als auch 2 = (0; 0; 1) stationare Verteilungen
sind. Die beiden Zustande 0 und 2 haben jeweils keine ausgehenden Kanten. Solche
Zustande heien absorbierend.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
405/462
Denition 133
 bergange
Wir bezeichnen einen Zustand i als absorbierend, wenn aus ihm keine U
herausfuhren, d.h. pij = 0 fur alle j 6= i und folglich pii = 1.
Ein Zustand i heit transient, wenn fi < 1, d.h. mit positiver Wahrscheinlichkeit
1 fi > 0 kehrt der Prozess nach einem Besuch von i nie mehr dorthin zuruck.
Ein Zustand i mit fi = 1 heit rekurrent.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
406/462
Denition 134
Eine Markov-Kette heit irreduzibel, wenn es fur alle Zustandspaare i; j 2 S eine Zahl
n 2 N gibt, so dass p(ijn) > 0.
Die Denition besagt anschaulich, dass jeder Zustand von jedem anderen Zustand aus
mit positiver Wahrscheinlichkeit erreicht werden kann, wenn man nur genugend viele
Schritte durchfuhrt. Dies ist bei endlichen Markov-Ketten genau dann der Fall, wenn
 bergangsdiagramms stark zusammenhangend ist.
der gerichtete Graph des U
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
407/462
Lemma 135
Fur irreduzible endliche Markov-Ketten gilt: fij = Pr[Tij < 1] = 1 fur alle Zustande
i; j 2 S . Zusatzlich gilt auch, dass die Erwartungswerte hij = E[Tij ] alle existieren.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
408/462
Beweis:
Wir betrachten zunachst den Beweis fur die Existenz von hij .
Fur jeden Zustand k gibt es nach Denition der Irreduzibilitat ein nk , so dass
p(kjnk ) > 0. Wir halten nk fest und setzen n := maxk nk und p := mink p(kjnk ) .
Von einem beliebigen Zustand aus gelangen wir nach hochstens n Schritten mit
Wahrscheinlichkeit mindestens p nach j . Wir unterteilen die Zeit in Phasen zu
n Schritten und nennen eine Phase erfolgreich, wenn wahrend dieser Phase ein Besuch
bei j stattgefunden hat. Die Anzahl von Phasen bis zur ersten erfolgreichen Phase
konnen wir durch eine geometrische Verteilung mit Parameter p abschatzen. Die
erwartete Anzahl von Phasen ist somit hochstens 1=p, und wir schlieen hij (1=p)n.
Daraus folgt sofort, dass auch fij = Pr[Tij < 1] = 1.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
409/462
Satz 136
Eine irreduzible endliche Markov-Kette besitzt eine eindeutige stationare Verteilung ,
und es gilt j = 1=hjj fur alle j 2 S .
Beweis:
Wir zeigen zunachst, dass es einen Vektor 6= 0 mit = P gibt. Sei e := (1; : : : ; 1)T
 bergangsmatrix P gilt P e = e,
der All-1-Vektor und I die Einheitsmatrix. Fur jede U
da sich die Eintrage der Zeilen von P zu Eins addieren. Daraus folgt
0 = P e e = (P I )e, und die Matrix P I ist somit singular. Damit ist auch die
transponierte Matrix (P I )T = P T I singular. Es gibt also einen (Spalten-)Vektor
P6= 0 mit (P T I ) = 0 bzw. T P = T . Wir betrachten zunachst den Fall, dass
6= 0. Dann konnen wir o.B.d.A. annehmen, dass normiert ist, also dass
Pi i
i i = 1 gilt.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
410/462
Beweis (Forts.):
Wegen Lemma 135 existieren die Erwartungswerte hij . Fur jeden Zustand j 2 S gelten
somit nach Lemma 129 die Gleichungen
i hij = i 1 +
X
k6=j
pik hkj
fur i 2 S , i 6= j:
j hj +
X
i6=j
i hij = 1 +
= 1+
XX
i2S k6=j
X
k6=j
hkj
P
i i
i pik hkj
Wir addieren diese Gleichungen und erhalten wegen
X
i2S
=1
i pik = 1 +
X
k6=j
k hkj :
Wegen hj > 0 ist auch j = 1=hj positiv, und stellt somit einen zulassigen
Zustandsvektor
dar.
P
Fur den Fall i i = 0 zeigt die entsprechende Rechnung wie zuvor, dass j = 0 fur
alle j 2 S gilt. Dies steht im Widerspruch zu 6= 0.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
411/462
Auch wenn eine Markov-Kette irreduzibel ist und somit eine eindeutige stationare
Verteilung besitzt, so muss sie nicht zwangslaug in diese Verteilung konvergieren.
1
0
1
1
Eine Markov-Kette mit periodischen Zustanden
Als Startverteilung nehmen wir q0 (
= (1; 0) an. Es gilt:
(1; 0) falls t gerade,
qt =
(0; 1) sonst.
Die Kette pendelt also zwischen den beiden Zustandsvektoren (1; 0) und (0; 1) hin und
her.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
412/462
Denition 137
Die Periode eines Zustands j ist deniert als die grote Zahl 2 N, so dass gilt:
fn 2 N0 j p(jjn) > 0g fi j i 2 N0g
Ein Zustand mit Periode = 1 heit aperiodisch. Wir nennen eine Markov-Kette
aperiodisch, wenn alle Zustande aperiodisch sind.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
413/462
 bergangsdiagramm einen
Fur ein n 2 N gilt p(iin) > 0 genau dann, wenn es im U
geschlossenen Weg von i nach i der Lange n gibt.
Damit folgt insbesondere:
Ein Zustand i 2 S einer endlichen Markov-Kette ist sicherlich dann aperiodisch, wenn
 bergangsdiagramm
er im U
eine Schleife besitzt (also pii > 0) oder
auf mindestens zwei geschlossenen Wegen W1 und W2 liegt, deren Langen l1 und
l2 teilerfremd sind (fur die also ggT(l1 ; l2 ) = 1 gilt).
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
414/462
Lemma 138
Ein Zustand i 2 S ist genau dann aperiodisch, falls gilt: Es gibt ein n0 2 N, so dass
p(iin) > 0 fur alle n 2 N; n n0 .
Beweis:
Da je zwei aufeinanderfolgende naturliche Zahlen teilerfremd sind, folgt aus der
Existenz eines n0 mit der im Lemma angegebenen Eigenschaft sofort die Aperiodizitat
des Zustands. Nehmen wir daher umgekehrt an, dass der Zustand i aperiodisch ist. Mit
Hilfe des erweiterten euklidischen Algorithmus kann man die folgende Aussage zeigen.
Fur je zwei naturliche Zahlen a; b 2 N gibt es ein n0 2 N, so dass gilt: Bezeichnet
d := ggT(a; b) den groten gemeinsamen Teiler von a und b, so gibt es fur alle
n 2 N; n n0 nichtnegative Zahlen x; y 2 N0 mit nd = xa + yb.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
415/462
Beweis (Forts.):
Wegen pii(xa+yb) (p(iia) )x (p(iib) )y folgt daraus unmittelbar: Gilt fur a; b 2 N, dass
sowohl p(iia) als auch p(iib) positiv sind, so gilt auch p(iind) > 0 fur alle n 2 N, n n0 .
Aus der Aperiodizitat des Zustand i folgt andererseits, dass es Werte a0 ; : : : ; ak geben
muss mit p(iiai ) > 0 und der Eigenschaft, dass fur d1 = ggT(a0 ; a1 ) und
di := ggT(di 1 ; ai ) fur i = 2; : : : ; k gilt: d1 > d2 > > dk = 1.
Aus beiden Beobachtungen zusammen folgt die Behauptung.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
416/462
Korollar 139
Fur irreduzible, aperiodische endliche Markov-Ketten gilt: Es gibt ein t 2 N, so dass
unabhangig vom Startzustand (qt )i > 0 fur alle i 2 S .
Beweis:
Aus der Irreduzibilitat folgt, dass die Markov-Kette jeden Zustand i 2 S irgendwann
besuchen wird. Wegen Lemma 138 wissen wir ferner, dass die Kette hinreichend viele
Schritte nach dem ersten Besuch in i in jedem folgenden Zeitschritt mit positiver
Wahrscheinlichkeit zu i zuruckkehren wird. Da die Kette endlich ist, gibt es daher ein
n0 , so dass die Kette sich unabhangig vom Startzustand fur alle n n0 in jedem
Zustand i 2 S mit positiver Wahrscheinlichkeit aufhalt.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
417/462
Die Aperiodizitat einer irreduziblen Markov-Kette kann auf einfache Weise
sichergestellt werden. Man fugt an alle Zustande so genannte Schleifen an. Diese
 bergangswahrscheinlichkeit p = 1=2 und halbiert die
versieht man mit der U
Wahrscheinlichkeiten an allen ubrigen Kanten.
0;5
1;0
0
0;7
2
1
0;3
1;0
!
0;5
0;5
0
0;5
0;35
2
1
0;15
0;5
Einfuhrung von Schleifen
Bei irreduziblen Ketten genugt es, eine einzige Schleife einzufuhren, um die
Aperiodizitat der Kette sicherzustellen.
Denition 140
Irreduzible, aperiodische Markov-Ketten nennt man ergodisch.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
418/462
Satz 141 (Fundamentalsatz fur ergodische Markov-Ketten)
Fur jede ergodische endliche Markov-Kette (Xt )t2N0 gilt unabhangig vom Startzustand
lim q
n!1 n
= ;
wobei die eindeutige stationare Verteilung der Kette bezeichnet.
Beweis:
Gema Satz 136 existiert eine stationare Verteilung . Wir zeigen, dass fur beliebige
Zustande i und k gilt
p(ikn) ! k fur n ! 1:
Daraus folgt die Behauptung, da
(qn )k =
DWT
c Susanne Albers und Ernst W. Mayr
X
i2S
(q0 )i p(ikn) ! k 2.5 Stationare Verteilung
X
i2S
(q0 )i = k :
419/462
Beweis (Forts.):
(Yt )t2N0 sei eine unabhangige Kopie der Kette (Xt )t2N0 . Fur den Prozess
Zt := (Xt ; Yt ) (t 2 N0 ), bei dem die Ketten Xt und Yt gewissermaen "parallel\
betrieben werden, gilt also
Pr[(Xt+1 ; Yt+1 ) = (jx ; jy ) j (Xt ; Yt ) = (ix ; iy )]
= Pr[Xt+1 = jx j Xt = ix ] Pr[Yt+1 = jy j Yt = iy ]
= pix jx piy jy :
(Zt )t2N ist daher ebenfalls eine Markov-Kette. Fur die Wahrscheinlichkeit, in n
Schritten von (ix ; iy ) nach (jx ; jy ) zu gelangen, erhalt man analog pi(xnj)x p(iynj)y , was fur
genugend groes n gema Lemma 138 positiv ist. (Zt )t 2N ist daher ebenfalls
0
0
ergodisch.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
420/462
Beweis (Forts.):
Wir starten nun Zt so, dass die Ketten Xt und Yt in verschiedenen Zustanden ix bzw.
iy beginnen, und interessieren uns fur den Zeitpunkt H , bei dem sich Xt und Yt zum
ersten Mal im gleichen Zustand benden.
Die Menge der Zustande von Zt ist gegeben durch S S . Wir denieren die Menge
M := f(x; y) 2 S S j x = yg:
von Zustanden der Kette Zt , an denen sich Xt und Yt treen\. Denieren wir nun die
"
Trezeit H durch
H := maxfT(ix ;iy );(jx ;jy ) j (ix ; iy ) 2 S S; (jx ; jy ) 2 M g;
so folgt aus Lemma 135 und der Endlichkeit der Markov-Kette sofort, dass
Pr[H < 1] = 1 und E[H ] < 1.
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
421/462
Beweis (Forts.):
Da die weitere Entwicklung der Ketten Xt und Yt ab dem Zeitpunkt H nur vom
 bergangsmatrix abhangt, wird jeder Zustand s 2 SZ zu
Zustand XH = YH und der U
den Zeiten t H von Xt und Yt mit derselben Wahrscheinlichkeit angenommen. Es
gilt also Pr[Xt = s j t H ] = Pr[Yt = s j t H ] und somit auch
Pr[Xt = s; t H ] = Pr[Yt = s; t H ]:
(12)
Als Startzustand wahlen wir fur die Kette Xt den Zustand i, wahrend Yt in der
stationaren Verteilung beginnt (und naturlich auch bleibt). Damit erhalten wir fur
einen beliebigen Zustand k 2 S und n 1
jp(n) j = jPr[X = k] Pr[Y = k]j
ik
k
DWT
c Susanne Albers und Ernst W. Mayr
n
n
= jPr[Xn = k; n H ] + Pr[Xn = k; n < H ]
Pr[Yn = k; n H ] Pr[Yn = k; n < H ]j:
2.5 Stationare Verteilung
422/462
Beweis (Forts.):
Nun konnen wir (12) anwenden und schlieen, dass
jp(ikn) k j = jPr[Xn = k; n < H ] Pr[Yn = k; n < H ]j:
Zur Abschatzung dieses Ausdrucks benutzen wir die Abschatzung
jPr[A \ B ] Pr[A \ C ]j Pr[A]:
fur beliebige Ereignisse A, B und C (die oensichtlich ist).
Wir erhalten
jp(ikn) k j Pr[n < H ]:
Da Pr[H < 1] = 1, gilt Pr[n < H ] ! 0 fur n ! 1, d.h. die Wahrscheinlichkeiten
p(ikn) konvergieren fur n ! 1 gegen k .
DWT
c Susanne Albers und Ernst W. Mayr
2.5 Stationare Verteilung
423/462
2.6 Doppeltstochastische Matrizen
Wie berechnet man die nach Satz 141 (eindeutig bestimmte) stationare Verteilung,
gegen die ergodische endliche Markov-Ketten fur jede Startverteilung konvergieren?
Eine Moglichkeit besteht darin, das lineare Gleichungssystem P = aufzustellen
und zu losen. Fur groere Matrizen ist dieses Verfahren allerdings im Allgemeinen sehr
aufwandig.
Wir stellen hier einen anderen Ansatz vor.
DWT
c Susanne Albers und Ernst W. Mayr
2.6 Doppeltstochastische Matrizen
424/462
Denition 142
Eine n n Matrix P = (pij )0i;j<n heit stochastisch, falls alle Eintrage pij
nichtnegativ und alle Zeilensummen gleich Eins sind:
nX1
j =0
pij = 1 fur alle i = 0; : : : ; n 1:
Sind zusatzlich auch alle Spaltensummen gleich 1, also
nX1
i=0
pij = 1 fur alle j = 0; : : : ; n 1;
so nennt man P doppeltstochastisch.
 bergangsmatrix einer Markov-Kette ist immer stochastisch, und umgekehrt.
Die U
DWT
c Susanne Albers und Ernst W. Mayr
2.6 Doppeltstochastische Matrizen
425/462
Lemma 143
Ist P eine doppeltstochastische n n Matrix, so ist = ( n1 ; : : : ; n1 ) ein Eigenvektor
zum Eigenwert 1 bezuglich Multiplikation von links:
= P:
Beweis:
Fur alle 0 k < n gilt:
nX1
1
( P )k = i pik = n pik = n1 = k :
i=0
i=0
nX1
| {z }
=1
DWT
c Susanne Albers und Ernst W. Mayr
2.6 Doppeltstochastische Matrizen
426/462
Zusammen mit Satz 141 erhalten wir damit sofort:
Satz 144
Fur jede ergodische endliche Markov-Kette (Xt )t2N0 mit doppeltstochastischer

Ubergangsmatrix
gilt unabhangig vom Startzustand
lim q
t!1 t
= ( n1 ; : : : ; n1 );
wobei n die Kardinalitat der Zustandsmenge bezeichne.
Beweis:
Klar!
DWT
c Susanne Albers und Ernst W. Mayr
2.6 Doppeltstochastische Matrizen
427/462
Beispiel 145
Anna und Bodo verabreden sich wieder einmal zu einer Partie Poker. Misstrauisch
geworden durch ihre Verluste beim letzten Rendezvous verdachtigt Anna mittlerweile
ihren Spielpartner, beim Mischen zu mogeln. Um ganz sicher zu gehen, dass die Karten
zukunftig auch wirklich gut gemischt werden, schlagt sie folgendes Verfahren vor: Der
Stapel mit Karten wird verdeckt hingelegt; dann werden m-mal jeweils zwei Karten
daraus zufallig ausgewahlt und vertauscht. Soll Bodo dieser Prozedur zustimmen?
DWT
c Susanne Albers und Ernst W. Mayr
428/462
Beispiel 145
Wir modellieren den oben skizzierten Mischvorgang durch eine Markov-Kette. Als
Zustandsmenge S wahlen wir alle moglichen Anordnungen der Karten. Identizieren
wir die Karten mit den Zahlen [n] = f1; : : : ; ng, so besteht S aus der Menge aller
Permutationen der Menge [n].
Betrachten wir nun zwei verschiedene Permutationen ; 2 S . Nach Denition der
 bergangswahrscheinlichkeit p; genau dann positiv, wenn es
Markov-Kette ist die U
i; j 2 [n], i 6= j , gibt, so dass
8
>
< (j )
falls k = i;
(k) = (i) falls k = j;
>
:
(k) sonst.
DWT
c Susanne Albers und Ernst W. Mayr
428/462
Beispiel 145
Da nach Voraussetzung i und j zufallig gewahlt werden (und es genau n2 solcher
Paare i; j gibt), gilt in diesem Fall p; = 1= n2 .
Da man jede Vertauschung zweier Karten durch nochmaliges Vertauschen wieder
ruckgangig machen kann, sieht man auch sofort ein, dass p; = p; gilt. Die
 bergangsmatrix P ist also symmetrisch und damit insbesondere auch
U
doppeltstochastisch. Aus Satz 144 folgt somit, dass die Markov-Kette unabhangig von
der Startverteilung zur Gleichverteilung konvergiert.
Der von Anna vorgeschlagene Mischvorgang ist also in der Tat sinnvoll: Fur m ! 1
konvergiert die Wahrscheinlichkeitsverteilung fur die sich ergebende Kartenreihenfolge
gegen die Gleichverteilung, die Karten sind also bestens gemischt!
DWT
c Susanne Albers und Ernst W. Mayr
428/462
Beispiel 145
Anmerkung: Man kann zeigen, dass fur n Karten bereits m = O(n log n)
Vertauschungen genugen, um einen gut durchmischten Kartenstapel zu erhalten.
DWT
c Susanne Albers und Ernst W. Mayr
2.6 Doppeltstochastische Matrizen
428/462
Herunterladen