Diskrete Wahrscheinlichkeitstheorie

Werbung
SS 2016
Diskrete Wahrscheinlichkeitstheorie
Susanne Albers
Fakultat f
ur Informatik
TU M
unchen
http://wwwalbers.in.tum.de/lehre/2016SS/dwt/index.html.de
Sommersemester 2016
DWT
c Susanne Albers
Kapitel 0 Organisatorisches
Vorlesungen:
Fr 12:00{14:00 und Fr 14:00{15:00 (Interims Horsaal 1)
Pichtvorlesung Bachelor IN, Bioinformatik
Modulnr.: IN0018
 bung:
U

2SWS Tutorubung: siehe Webseite zur Ubung

Ubungsleitung:
Marinus Gottschau, Dennis Kraft, Sebastian Schraink, Richard Stotz
Umfang:
 6 ECTS-Punkte
3V+2TU,
Sprechstunde:
nach Vereinbarung
DWT
c Susanne Albers
1/460
 bungsaufgaben:
U
Ausgabe jeweils am Freitag auf der Webseite der Vorlesung, ab 18:00 Uhr
Abgabe eine Woche spater, jeweils Montag bis 10:00 Uhr, Briefkasten Westseite
Untergeschoss FMI Magistrale
Vorbereitung in der Tutorubung

vorauss. 12 Ubungsbl
atter, das letzte am 08. Juli 2016, jedes 20 Punkte

Bonusregelung: Werden bei den ersten sechs und zweiten sechs Ubungsbl
attern
jeweils mindestens 50% der insgesamt erreichbaren Punkte erzielt, so verbessert sich
die Note einer bestandenen Klausur um 1/3 Notenstufe.
Klausur:
Klausur am 03. August 2016, 10:30{12:30 Uhr
Wiederholungsklausur am 11. Oktober 2016, 13:30{15:30 Uhr
bei den Klausuren sind keine Hilfsmittel auer einem handbeschriebenen
DIN-A4-Blatt zugelassen
DWT
c Susanne Albers
2/460
Vorkenntnisse:
Einfuhrung in die Informatik I/II
Diskrete Strukturen
Weiterfuhrende Vorlesungen:
Eziente Algorithmen und Datenstrukturen
Randomisierte Algorithmen
Online- und Approximationsalgorithmen
Komplexitatstheorie
...
Webseite:
http://wwwalbers.in.tum.de/lehre/2016SS/dwt/index.html.de
DWT
c Susanne Albers
3/460
1. Vorlesungsinhalt
Diskrete Wahrscheinlichkeitsraume
Wahrscheinlichkeitsraum, Ereignis, Zufallsvariable
spezielle Verteilungen
Ungleichungen von Markov und Chebyshev
Kontinuierliche Wahrscheinlichkeitsraume
Normalverteilung, Exponentialverteilung
Zentraler Grenzwertsatz
Statistik
Schatzvariablen
Kondenzintervalle
Testen von Hypothesen
Stochastische Prozesse
Markovketten
Warteschlangen
DWT
c Susanne Albers
4/460
2. Literatur
T. Schickinger, A. Steger:
Diskrete Strukturen - Band 2,
Springer Verlag, 2001
M. Greiner, G. Tinhofer:
Stochastik fur Informatiker,
Carl Hanser Verlag, 1996
H. Gordon:
Discrete Probability,
Springer-Verlag, 1997
M. Mitzenmacher, E. Upfal:
Probability and Computing: Randomized Algorithms and Probabilistic Analysis,
Cambridge University Press, 2005
DWT
c Susanne Albers
2 Literatur
5/460
R. Motwani, P. Raghavan:
Randomized Algorithms,
Cambridge University Press, 1995
M. Hofri:
Probabilistic Analysis of Algorithms,
Springer Verlag, 1987
L. Fahrmeir, R. Kunstler, I. Pigeot, G. Tutz:
Statistik - Der Weg zur Datenanalyse,
Springer-Verlag, 1997
DWT
c Susanne Albers
6/460
3. Einleitung
Was bedeutet Zufall?
Unkenntnis uber den Ausgang eines durchgefuhrten Experiments
Ein Experiment wird vielfach mit eventuell sich anderndem Ergebnis ausgefuhrt
Ereignisse stehen in keinem kausalen Zusammenhang
physikalischer Zufall (Rauschen, Kernzerfall)
DWT
c Susanne Albers
7/460
Zufall in der diskreten Informatik
Die Eingabe fur einen bestimmten Algorithmus wird aus einer groen Menge
moglicher Eingaben zufallig gewahlt:
average case
Kombination von Worst-Case- und Average-Case-Analyse, in der Eingaben gema
einer Verteilung leicht pertubiert werden:
smoothed analysis
Der Algorithmus verwendet Zufallsbits, um mit groer Wahrscheinlichkeit gewisse
Problemsituationen zu vermeiden:
Randomisierung
DWT
c Susanne Albers
8/460
Kapitel I Diskrete Wahrscheinlichkeitsraume
1. Grundlagen
Denition 1
1
2
Ein diskreter Wahrscheinlichkeitsraum ist durch eine Ergebnismenge
= f!1 ; !2 ; : : :g von Elementarereignissen gegeben.
Jedem Elementarereignis !i ist eine (Elementar-)Wahrscheinlichkeit Pr[!i ]
zugeordnet, wobei wir fordern, dass 0 Pr[!i ] 1 und
X
! 2
DWT
c Susanne Albers
Pr[!] = 1:
9/460
3
Eine Menge E heit Ereignis. Die Wahrscheinlichkeit Pr[E ] eines Ereignisses
ist durch
X
Pr[E ] :=
deniert.
DWT
c Susanne Albers
! 2E
Pr[!]
10/460
Beispiel 2
Zwei faire Wurfel (einer wei, einer schwarz) werden geworfen. Wir sind an der
Gesamtzahl der angezeigten Augen interessiert:
= f (1; 1); (1; 2); (1; 3); (1; 4); (1; 5); (1; 6);
(2; 1); (2; 2); (2; 3); (2; 4); (2; 5); (2; 6);
(3; 1); (3; 2); (3; 3); (3; 4); (3; 5); (3; 6);
(4; 1); (4; 2); (4; 3); (4; 4); (4; 5); (4; 6);
(5; 1); (5; 2); (5; 3); (5; 4); (5; 5); (5; 6);
(6; 1); (6; 2); (6; 3); (6; 4); (6; 5); (6; 6) g
DWT
c Susanne Albers
11/460
1
Die Wahrscheinlichkeit Pr((i; j )) eines jeden Elementarereignisses (i; j ) ist 361 .
2
Die Wahrscheinlichkeit Pr(E ) des Ereignisses
E = fDie Gesamtzahl der Augen ist 10g
ist 121 .
DWT
c Susanne Albers
12/460
Wir hatten aber auch sagen konnen:
= f2; 3; 4; : : : ; 10; 11; 12g
Die Wahrscheinlichkeiten der Elementarereignisse sind dann aber nicht mehr gleich. Es
ist z.B.
1 Pr(2) = 1 ;
36
2 Pr(4) = 1 ;
12
3 Pr(7) = 1 .
6
DWT
c Susanne Albers
13/460
Beispiel 3
Eine faire Munze wird so lange geworfen, bis die gleiche Seite zweimal hintereinander
fallt. Dann ist
= fhh, tt, htt, thh, thtt, hthh, hthtt, ththh, : : :g
Frage: Was sind die Wahrscheinlichkeiten der einzelnen Elementarereignisse?
DWT
c Susanne Albers
14/460
E heit komplementares Ereignis zu E .
Allgemein verwenden wir bei der Denition von Ereignissen alle bekannten Operatoren
aus der Mengenlehre. Wenn also A und B Ereignisse sind, dann sind auch A [ B ,
A \ B , A n B etc. Ereignisse.
Zwei Ereignisse A und B heien disjunkt oder auch unvereinbar, wenn A \ B = ; gilt.
DWT
c Susanne Albers
1 Grundlagen
15/460
Denition 4
relative Haugkeit von E
absolute Haugkeit von E
:= Anzahl
aller Beobachtungen
Anzahl Eintreten von E
:
= Anzahl
aller Beobachtungen
DWT
c Susanne Albers
16/460
Denition 5
Ein Wahrscheinlichkeitsraum mit = f!1 ; : : : ; !n g heit endlicher
Wahrscheinlichkeitsraum.
Bei unendlichen Wahrscheinlichkeitsraumen werden wir gewohnlich nur den Fall
= N0 betrachten. Dies stellt keine groe Einschrankung dar, da wir statt einer
Ergebnismenge = f!1 ; !2 ; : : :g auch N0 als Ergebnismenge verwenden konnen,
indem wir !i mit i 1 identizieren. Wir sagen, dass durch die Angabe der
Elementarwahrscheinlichkeiten ein Wahrscheinlichkeitsraum auf deniert ist.
DWT
c Susanne Albers
17/460
Beispiel 6
Wir beobachten die an einer Strae in Bayern vorbeifahrenden Autos. Dabei gelte:
1 Es fahren doppelt so viele Autos von links nach rechts wie von rechts nach links.
2 Von zehn Autos haben zwei die Farbe hellelfenbein, die u
brigen eine andere
Lackierung.
Das Ereignis \Wir beobachten ein von links nach rechts fahrendes Auto" hat die
Wahrscheinlichkeit 23 .
Das Ereignis \Das nachste Auto ist ein Taxi von rechts" passiert mit
Wahrscheinlichkeit
11:
3 5
DWT
c Susanne Albers
1 Grundlagen
18/460
Beispiel 7 (Unendlicher Wahrscheinlichkeitsraum)
Wir betrachten eine Munze, die mit Wahrscheinlichkeit p Kopf zeigt und mit
Wahrscheinlichkeit q := 1 p Zahl.
Wir fuhren Versuche aus, indem wir die Munze wiederholt solange werfen, bis Zahl fallt.
Das Ergebnis eines solchen Versuchs ist die Anzahl der durchgefuhrten Munzwurfe.
Damit ergibt sich hier als Ergebnismenge
= N = f1; 2; 3; : : :g :
DWT
c Susanne Albers
19/460
Beispiel 7 (Forts.)
Sei, fur i 2 N, !i das Elementarereignis
!i =
b Die M
unze wird i-mal geworfen :
Dann gilt:
und
Pr[!i ] = pi 1 q ;
X
! 2
Pr[!] =
1
X
i=1
1
X
q
pi 1 q = q pi =
i=0
1 p =1:
(wie es sein soll!)
DWT
c Susanne Albers
20/460
Lemma 8
Fur Ereignisse A; B; A1 ; A2 ; : : : gilt:
1 Pr[;] = 0, Pr[
] = 1.
2
3
4
0 Pr[A] 1.
Pr[A] = 1 Pr[A].
Wenn A B , so folgt Pr[A] Pr[B ].
DWT
c Susanne Albers
21/460
Lemma 8 (Forts.)
5
(Additionssatz) Wenn die Ereignisse A1 ; : : : ; An paarweise disjunkt sind (also wenn fur
alle Paare i 6= j gilt, dass Ai \ Aj = ;), so folgt
"
Pr
n
[
i=1
#
Ai =
n
X
i=1
Pr[Ai ]:
Fur disjunkte Ereignisse A, B erhalten wir insbesondere
Pr[A [ B ] = Pr[A] + Pr[B ] :
Fur eine unendliche Menge von disjunkten Ereignissen A1 ; A2 ; : : : gilt analog
"
Pr
DWT
c Susanne Albers
1
[
i=1
#
Ai =
1
X
i=1
Pr[Ai ] :
22/460
Beweis:
Die Aussagen folgen unmittelbar aus Denition 1, den Eigenschaften der Addition und
der Denition der Summe.
DWT
c Susanne Albers
23/460
Eigenschaft 5 in Lemma 8 gilt nur fur disjunkte Ereignisse. Fur den allgemeinen Fall
erhalten wir folgenden
Satz 9 (Siebformel, Prinzip der Inklusion/Exklusion)
Fur Ereignisse A1 ; : : : ; An (n 2) gilt:
"
Pr
n
[
i=1
#
Ai
=
n
X
i=1
+ ( 1)l
+ (
DWT
c Susanne Albers
Pr[Ai ]
1
X
1i1 <i2 n
X
Pr[Ai \ Ai ] + : : :
1
2
Pr[Ai \ : : : \ Ail ] + : : :
1
1i1 <:::<il n
n
1
1) Pr[A1 \ : : : \ An ] :
24/460
Satz 9 (Forts.)
Insbesondere gilt fur zwei Ereignisse A und B
Pr[A [ B ] = Pr[A] + Pr[B ] Pr[A \ B ] :
Fur drei Ereignisse A1 , A2 und A3 erhalten wir
Pr[A1 [ A2 [ A3 ] = Pr[A1 ] + Pr[A2 ] + Pr[A3 ]
Pr[A1 \ A2 ] Pr[A1 \ A3 ]
Pr[A2 \ A3 ]
+Pr[A1 \ A2 \ A3 ] :
DWT
c Susanne Albers
25/460
Beweis:
Wir betrachten zunachst den Fall n = 2. Dazu setzen wir C := A n B = A n (A \ B ).
Gema dieser Denition gilt, dass C und A \ B sowie C und B disjunkt sind. Deshalb
konnen wir Eigenschaft 5 von Lemma 8 anwenden:
Pr[A] = Pr[C [ (A \ B )] = Pr[C ] + Pr[A \ B ] :
Wegen A [ B = C [ B folgt daraus
Pr[A [ B ] = Pr[C [ B ] = Pr[C ] + Pr[B ] =
Pr[A] Pr[A \ B ] + Pr[B ]
und wir haben die Behauptung fur n = 2 gezeigt.
DWT
c Susanne Albers
26/460
Beweis (Forts.):
Der Fall n = 3:
A1
A2
A3
Ω
Man beachte, dass durch die im Satz angegebene Summe jedes Flachenstuck
insgesamt genau einmal gezahlt wird.
DWT
c Susanne Albers
27/460
Beweis (Forts.):
Der allgemeine Fall kann nun durch Induktion uber n gezeigt werden (was wir aber hier
nicht ausfuhren!).
Satz 9 ndet man manchmal auch unter der Bezeichung Satz von Poincare-Sylvester,
nach dem Franzosen
Jules Henri Poincare (1854{1912)
und dem Englander
James Joseph Sylvester (1814{1897)
benannt.
DWT
c Susanne Albers
28/460
Boolesche Ungleichung:
Die folgende Abschatzung ist nach George Boole (1815{1864) benannt:
Korollar 10
Fur Ereignisse A1 ; : : : ; An gilt
"
Pr
n
[
i=1
#
Ai
n
X
i=1
Pr[Ai ] :
Analog gilt fur eine unendliche Folge von Ereignissen A1 ; A2 ; : : :, dass
"
Pr
DWT
c Susanne Albers
1
[
i=1
#
Ai
1
X
i=1
Pr[Ai ] :
29/460
Beweis:
Zunachst betrachten wir die linke Seite der Ungleichung fur den endlichen Fall und
erhalten
"
#
Pr
Fur die rechte Seite gilt
n
[
i=1
n
X
i=1
Ai =
Pr[Ai ] =
X
S
!2 ni=1 Ai
n X
X
i=1 !2Ai
Pr[!] :
Pr[!] :
Jedes Elementarereignis kommt links also genau einmal und rechts mindestens einmal
vor.
DWT
c Susanne Albers
30/460
1.1 Wahl der Wahrscheinlichkeiten
Frage: Wie konnen Wahrscheinlichkeiten sinnvoll festgelegt werden?
Prinzip von Laplace (Pierre Simon Laplace (1749{1827)): Wenn nichts dagegen
spricht, gehen wir davon aus, dass alle Elementarereignisse gleich wahrscheinlich sind.
Also:
Pr[E ] = jjE
jj
DWT
c Susanne Albers
31/460
1.2 Historische Anfange der Wahrscheinlichkeitstheorie
Die ersten Hinweise auf mathematische Untersuchungen zu Problemen der
Wahrscheinlichkeitstheorie nden sich in einem Briefwechsel zwischen den
franzosischen Mathematikern
Pierre Fermat (1601{1665)
und
Blaise Pascal (1623{1662).
Pascal beschaftigte sich neben der Mathematik auch mit Fragestellungen aus dem
Bereich der Physik und auch aus der Informatik! Sein Vater hatte als Steuerinspektor
in Rouen umfangreiche Rechnungen durchzufuhren und so wurde Pascal zum Bau einer
mechanischen Rechenmaschine, der so genannten Pascaline, motiviert.
DWT
c Susanne Albers
1.2 Historische Anfange der Wahrscheinlichkeitstheorie
32/460
In dem Briefwechsel taucht bereits der Ansatz Pr[E ] = jE j=j
j zur Berechnung der
Wahrscheinlichkeit von E auf. Auch den Begri des Erwartungswerts kann man dort
 berlegungen zur
schon nden. Weder Fermat noch Pascal publizierten ihre U
Wahrscheinlichkeitstheorie. Der Niederlander
Christiaan Huygens (1629{1695)
entwickelte ebenfalls Methoden zum Arbeiten mit Wahrscheinlichkeiten aus. Er
publizierte im Jahre 1657 auch eine kleine Arbeit mit dem Titel De ratiociniis in ludo
"
 ber die Gesetzmaigkeiten beim Wurfelspiel).
aleae\ (U
DWT
c Susanne Albers
33/460
2. Bedingte Wahrscheinlichkeiten
Beispiel 11
A und B spielen Poker (52 Karten, 5 Karten pro Spieler, keine getauschten Karten).
A halt vier Asse und eine Herz Zwei in der Hand. B kann dieses Blatt nur uberbieten,
wenn er einen Straight Flush (funf Karten einer Farbe in aufsteigender Reihenfolge)
hat. Die Wahrscheinlichkeit fur das Ereignis F := B hat einen Straight Flush\ betragt
"
31 = 2;02:: 10 5 :
Pr[F ] = jjF
jj = 3 528 +57 = 1533939
5
DWT
c Susanne Albers
2 Bedingte Wahrscheinlichkeiten
34/460
Beispiel 11 (Forts.)
A hat die Karten allerdings gezinkt und wei, dass B nur Kreuz in der Hand halt.
Bezeichne nun 0 den Wahrscheinlichkeitsraum aller Moglichkeiten fur B und F 0 das
Ereignis, dass B einen Straight Flush der Farbe Kreuz hat:
0
8 0;01 !!
Pr[F 0 ] = jjF
0 jj = 128 = 792
5
DWT
c Susanne Albers
35/460
Fur Pr[AjB ] erforderliche Eigenschaften:
1 Pr[B jB ] = 1;
2 Pr[Aj
] = Pr[A];
3 f
ur festes B ist Pr[AjB ] proportional zu Pr[A \ B ].
Denition 12
A und B seien Ereignisse mit Pr[B ] > 0. Die bedingte Wahrscheinlichkeit Pr[AjB ]
von A gegeben B ist deniert als
A \ B]
Pr[AjB ] := Pr[Pr[
:
B]
DWT
c Susanne Albers
36/460
Die bedingten Wahrscheinlichkeiten Pr[jB ] bilden fur ein beliebiges Ereignis B mit Pr[B ] > 0 einen neuen Wahrscheinlichkeitsraum uber .
Es ist leicht nachzurechnen, dass dadurch die Denition eines diskreten
Wahrscheinlichkeitsraums erfullt ist:
X
! 2
Pr[!jB ] =
Pr[! \ B ] = X Pr[!] = Pr[B ] = 1:
Pr[B ]
Pr[B ] Pr[B ]
! 2
! 2B
X
Damit gelten alle Rechenregeln fur Wahrscheinlichkeiten auch fur bedingte
Wahrscheinlichkeiten. Beispielsweise:
Pr[;jB ] = 0 sowie Pr[AjB ] = 1 Pr[AjB ] :
DWT
c Susanne Albers
37/460
Beispiel 13 (Reskalierung bei bedingten Wahrscheinlichkeiten)
Betrachte folgenden gezinkten Wurfel:
0,7
Pr[x℄
0,6
0,5
0,4
0,3
0,2
0,1
0,0
DWT
c Susanne Albers
0
1
2
3
4
5
2 Bedingte Wahrscheinlichkeiten
6
7
38/460
Beispiel 13 (Forts.)
Wir betrachten nun den durch B := f3; 4; 5g gegebenen bedingten
Wahrscheinlichkeitsraum:
0,7
0,7
Pr[x℄
0,6
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0,0
0
DWT
c Susanne Albers
1
2
3
4
5
6
7
0,0
Pr[xjB ℄
0
1
2
3
4
5
6
7
39/460
Was genau war die Bedingung?
Beispiel 14 (Zweikinderproblem)
Wir nehmen an, dass bei der Geburt eines Kindes beide Geschlechter gleich
wahrscheinlich sind. Wir wissen, dass eine bestimmte Familie zwei Kinder hat und eines
davon ein Madchen ist. Wie gro ist die Wahrscheinlichkeit, dass beide Kinder der
Familie Madchen sind?
Naturlich 12 .
Wirklich?
DWT
c Susanne Albers
40/460
Beispiel 14 (Forts.)
Eigentlich gilt:
und
:= fmm; mj; jm; jj g
M := fmm; mj; jmg :
Wir bedingen auf M , und damit gilt fur A := fmmg:
A \ M ] 1=4 1
Pr[AjM ] = Pr[Pr[
= 3=4 = 3 :
M]
DWT
c Susanne Albers
2 Bedingte Wahrscheinlichkeiten
41/460
Beispiel 15 (Ziegenproblem)
Sie nehmen an einer Spielshow im Fernsehen teil, bei der Sie eine von drei
verschlossenen Turen auswahlen sollen. Hinter einer Tur wartet der Preis, ein Auto,
hinter den beiden anderen stehen Ziegen. Sie zeigen auf eine Tur, sagen wir Nummer
eins. Sie bleibt vorerst geschlossen. Der Moderator wei, hinter welcher Tur sich das
Auto bendet; mit den Worten \Ich gebe Ihnen mal einen kleinen Hinweis" onet er
eine andere Tur, zum Beispiel Nummer drei, und eine Ziege schaut heraus und
meckert. Er fragt: \Bleiben Sie bei Nummer eins, oder wahlen sie Nummer zwei? "
Frage: Welche Strategie ist gunstiger:
S1 Der Spieler bleibt immer bei seiner ursprunglichen Wahl.
S2 Der Spieler wechselt stets die ausgewahlte Tur.
DWT
c Susanne Albers
42/460
Beispiel (Forts.)
Wir betrachten hier eine Diskussion des Ziegenproblems mit Hilfe von bedingten
Wahrscheinlichkeiten. Wir betrachten bei jeder Variante den Fall, dass der Spieler
a) die \richtige",
b) eine falsche Tur gewahlt hat.
Ersteres geschieht mit Wahrscheinlichkeit 31 , Letzteres mit Wahrscheinlichkeit 23 .
Mit der vom Moderator gegebenen Information ergeben sich fur die beiden Strategien
die folgenden Gewinnwahrscheinlichkeiten:
a)
b)
DWT
c Susanne Albers
S1
?
?
S2
?
?
2 Bedingte Wahrscheinlichkeiten
43/460
Haug verwendet man die Denition der bedingten Wahrscheinlichkeit in der Form
Pr[A \ B ] = Pr[B jA] Pr[A] = Pr[AjB ] Pr[B ] :
(1)
Damit:
Satz 16 (Multiplikationssatz)
Seien die Ereignisse A1 ; : : : ; An gegeben. Falls Pr[A1 \ : : : \ An ] > 0 ist, gilt
Pr[A1 \ : : : \ An ] =
DWT
c Susanne Albers
Pr[A1 ] Pr[A2 jA1 ] Pr[A3 jA1 \ A2 ] : : :
: : : Pr[An jA1 \ : : : \ An 1 ] :
2 Bedingte Wahrscheinlichkeiten
44/460
Beweis:
Zunachst halten wir fest, dass alle bedingten Wahrscheinlichkeiten wohldeniert sind,
da Pr[A1 ] Pr[A1 \ A2 ] : : : Pr[A1 \ : : : \ An ] > 0.
Die rechte Seite der Aussage im Satz konnen wir umschreiben zu
Pr[A1 ] Pr[A1 \ A2 ] Pr[A1 \ A2 \ A3 ] : : : Pr[A1 \ : : : \ An ] :
1
Pr[A1 ]
Pr[A1 \ A2 ]
Pr[A1 \ : : : \ An 1 ]
Oensichtlich kurzen sich alle Terme bis auf Pr[A1 \ : : : \ An ].
DWT
c Susanne Albers
2 Bedingte Wahrscheinlichkeiten
45/460
Beispiel 17 (Geburtstagsproblem)
Wie gro ist die Wahrscheinlichkeit, dass in einer m-kopgen Gruppe zwei Personen
am selben Tag Geburtstag haben?
Umformulierung:
Man werfe m Balle zufallig und gleich wahrscheinlich in n Korbe. Wie gro ist die
Wahrscheinlichkeit, dass nach dem Experiment jeder Ball allein in seinem Korb liegt?
Fur das Geburtstagsproblem: n = 365
DWT
c Susanne Albers
46/460
Oensichtlich muss m n sein, damit uberhaupt jeder Ball allein in einem Korb liegen
kann.
Wir nehmen an, dass die Balle nacheinander geworfen werden. Ai bezeichne das
Ereignis Ball i landet in einem noch leeren Korb\. Das gesuchte Ereignis Alle Balle
"
"
liegen allein in einem Korb\ bezeichnen wir mit A. Nach Satz 16 konnen wir Pr[A]
berechnen durch
Pr[A] = Pr [\mi=1 Ai ]
= Pr[A1 ] Pr[A2 jA1 ] : : : Pr[Am j \mi=11 Ai ]:
Unter der Bedingung, dass die ersten j 1 Balle jeweils in einem leeren Korb gelandet
sind, bedeutet Aj , dass der j -te Ball in eine der n (j 1) leeren Korbe fallen muss,
die aus Symmetriegrunden jeweils mit derselben Wahrscheinlichkeit gewahlt werden.
DWT
c Susanne Albers
2 Bedingte Wahrscheinlichkeiten
47/460
Daraus folgt
Pr[Aj j \ij=11 Ai ] = n (nj 1) = 1 j n 1 :
Mit der Abschatzung 1 x e x und wegen Pr[A1 ] = 1 erhalten wir
Pr[A] =
m
Y
j =1
m
Y
1
j
n
1
Pm 1
e (j 1)=n = e (1=n) j=1 j
j =2
= e m(m 1)=(2n)
DWT
c Susanne Albers
=: f (m) :
48/460
1,0
f (m)
0,8
0,6
0,4
0,2
0,0
0
50
DWT
c Susanne Albers
100
150
200
250
300
350
Verlauf von f (m) fur n = 365
49/460
Ausgehend von der Darstellung der bedingten Wahrscheinlichkeit in Gleichung 1 zeigen
wir:
Satz 18 (Satz von der totalen Wahrscheinlichkeit)
Die Ereignisse A1 ; : : : ; An seien paarweise disjunkt und es gelte B A1 [ : : : [ An .
Dann folgt
Pr[B ] =
n
X
i=1
Pr[B jAi ] Pr[Ai ] :
S
Analog gilt fur paarweise disjunkte Ereignisse A1 ; A2 ; : : : mit B 1
i=1 Ai , dass
1
X
Pr[B ] =
DWT
c Susanne Albers
i=1
Pr[B jAi ] Pr[Ai ] :
50/460
Beweis:
Wir zeigen zunachst den endlichen Fall. Wir halten fest, dass
B = (B \ A1 ) [ : : : [ (B \ An ) :
Da fur beliebige i; j mit i 6= j gilt, dass Ai \ Aj = ;, sind auch die Ereignisse B \ Ai
und B \ Aj disjunkt. Wegen (1) folgt Pr[B \ Ai ] = Pr[B jAi ] Pr[Ai ] (auch fur den
Fall, dass Pr[Ai ] = 0!). Wir wenden nun den Additionssatz (Lemma 8, Teil 5) an
Pr[B ] = Pr[B \ A1 ] + : : : + Pr[B \ An ] =
Pr[B jA1 ] Pr[A1 ] + : : : + Pr[B jAn ] Pr[An ]
und haben damit die Behauptung gezeigt. Da der Additionssatz auch fur unendlich
viele Ereignisse A1 ; A2 ; : : : gilt, kann dieser Beweis direkt auf den unendlichen Fall
ubertragen werden.
DWT
c Susanne Albers
2 Bedingte Wahrscheinlichkeiten
51/460
Mit Hilfe von Satz 18 erhalten wir leicht einen weiteren nutzlichen Satz:
Satz 19 (Satz von Bayes)
Die Ereignisse A1 ; : : : ; An seien paarweise disjunkt, mit Pr[Aj ] > 0 fur alle j . Ferner sei
B A1 [ : : : [ An ein Ereignis mit Pr[B ] > 0. Dann gilt fur ein beliebiges i = 1; : : : ; n
Ai \ B ] P Pr[B jAi ] Pr[Ai ]
= n Pr[B jA ] Pr[A ] :
Pr[Ai jB ] = Pr[Pr[
B]
j
j
j =1
S
Analog gilt fur paarweise disjunkte Ereignisse A1 ; A2 ; : : : mit B 1
i=1 Ai , dass
Ai \ B ] P Pr[B jAi ] Pr[Ai ]
Pr[Ai jB ] = Pr[Pr[
= 1 Pr[B jA ] Pr[A ] :
B]
j
j
j =1
DWT
c Susanne Albers
52/460
Mit dem Satz von Bayes dreht man gewissermaen die Reihenfolge der Bedingung um.
Gegeben die Wahrscheinlichkeit von B unter den Bedingungen Ai (sowie die
Wahrscheinlichkeiten der Ai selbst), berechnet man die Wahrscheinlichkeit von Ai
bedingt auf das Ereignis B .
Thomas Bayes (1702{1761) war ein bekannter Theologe und Mitglied der Royal
Society. Als sein bedeutendstes Werk gilt sein Beitrag zur Wahrscheinlichkeitstheorie
Essay Towards Solving a Problem in the Doctrine of Chances\. Diese Arbeit wurde
"
erst 1763 publiziert.
DWT
c Susanne Albers
2 Bedingte Wahrscheinlichkeiten
53/460
3. Unabhangigkeit
Bei einer bedingten Wahrscheinlichkeit Pr[AjB ] kann der Fall auftreten, dass die
Bedingung auf B , also das Vorwissen, dass B eintritt, keinen Einuss auf die
Wahrscheinlichkeit hat, mit der wir das Eintreten von A erwarten. Es gilt also
Pr[AjB ] = Pr[A], und wir nennen dann die Ereignisse A und B unabhangig.
DWT
c Susanne Albers
54/460
Beispiel 20 (Zweimaliges Wurfeln)
:= f(i; j ) j 1 i; j 6g :
Alle Elementarereignisse erhalten nach dem Prinzip von Laplace die
Wahrscheinlichkeit 361 .
Wir denieren die Ereignisse
A := Augenzahl im ersten Wurf ist gerade;
B := Augenzahl im zweiten Wurf ist gerade;
C := Summe der Augenzahlen beider Wurfe betragt 7:
Es gilt Pr[A] = Pr[B ] = 12 und Pr[C ] = 16 . Wie gro ist Pr[B jA]?
DWT
c Susanne Albers
55/460
Beispiel 20 (Forts.)
Nach unserer Intuition beeinusst der Ausgang des ersten Wurfs den zweiten Wurf
nicht. Daher gewinnen wir durch das Eintreten von A keine Information in Bezug auf
das Ereignis B hinzu:
B \ A = f(2; 2); (2; 4); (2; 6); (4; 2); (4; 4); (4; 6); (6; 2); (6; 4); (6; 6)g:
Daraus folgt
9
36 = 1 = Pr[B ] :
1
2
2
Das Eintreen des Ereignisses B hat mit dem Ereignis A nichts zu tun\.
"
DWT
c Susanne Albers
B \ A]
=
Pr[B jA] = Pr[Pr[
A]
3 Unabhangigkeit
56/460
Denition 21
Die Ereignisse A und B heien unabhangig, wenn gilt
Pr[A \ B ] = Pr[A] Pr[B ] :
Falls Pr[B ] 6= 0, so konnen wir diese Denition zu
A \ B]
Pr[A] = Pr[Pr[
= Pr[AjB ]
B]
umschreiben.
DWT
c Susanne Albers
3 Unabhangigkeit
57/460
Beispiel 20 (Zweimaliges Wurfeln, Forts.)
Zur Erinnerung:
A := Augenzahl im ersten Wurf ist gerade;
B := Augenzahl im zweiten Wurf ist gerade;
C := Summe der Augenzahlen beider Wurfe betragt 7:
Bei den Ereignissen A und B ist die Unabhangigkeit klar, da oensichtlich kein
kausaler Zusammenhang zwischen den Ereignissen besteht. Wie steht es mit A und C ?
A \ C = f(2; 5); (4; 3); (6; 1)g
und damit
3 = 1 1 = Pr[A] Pr[C ] bzw. Pr[C jA] = Pr[C ] :
Pr[A \ C ] = 36
2 6
DWT
c Susanne Albers
58/460
Beispiel 20 (Forts.)
Also sind auch A und C (und analog B und C ) unabhangig.
Bemerkung: Im Beispiel ist A \ C 6= ;.
Es gilt sogar allgemein fur zwei unabhangige Ereignisse A und B mit Pr[A]; Pr[B ] > 0,
dass sie gar nicht disjunkt sein konnen, da ansonsten
0 = Pr[;] = Pr[A \ B ] 6= Pr[A] Pr[B ] :
DWT
c Susanne Albers
3 Unabhangigkeit
59/460
Beispiel 20 (Zweimaliges Wurfeln (Forts.))
Zur Erinnerung:
A := Augenzahl im ersten Wurf ist gerade;
B := Augenzahl im zweiten Wurf ist gerade;
C := Summe der Augenzahlen beider Wurfe betragt 7:
Wir betrachten das Ereignis A \ B \ C . Wenn A \ B eintritt, so sind beide
gewurfelten Augenzahlen gerade und somit ergibt auch die Summe davon eine gerade
Zahl. Daraus folgt Pr[A \ B \ C ] = 0 bzw. Pr[C jA \ B ] = 0 6= Pr[C ]. Das Ereignis
A \ B liefert uns also Information uber das Ereignis C .
DWT
c Susanne Albers
60/460
Denition 22
Die paarweise verschiedenen Ereignisse A1 ; : : : ; An heien unabhangig, wenn fur alle
Teilmengen I = fi1 ; : : : ; ik g f1; : : : ; ng mit i1 < i2 < : : : < ik gilt, dass
Pr[Ai \ : : : \ Aik ] = Pr[Ai ] : : : Pr[Aik ]:
1
1
(2)
Eine unendliche Familie von paarweise verschiedenen Ereignissen Ai mit i 2 N heit
unabhangig, wenn (2) fur jede endliche Teilmenge I N erfullt ist.
DWT
c Susanne Albers
61/460
Lemma 23
Die (paarweise verschiedenen) Ereignisse A1 ; : : : ; An sind genau dann unabhangig,
wenn fur alle (s1 ; : : : ; sn ) 2 f0; 1gn gilt, dass
Pr[As1 \ : : : \ Asnn ] = Pr[As1 ] : : : Pr[Asnn ];
1
1
(3)
wobei A0i = Ai und A1i = Ai .
DWT
c Susanne Albers
3 Unabhangigkeit
62/460
Beweis:
Zunachst zeigen wir, dass aus (2) die Bedingung (3) folgt. Wir beweisen dies durch
Induktion uber die Anzahl der Nullen in s1 ; : : : ; sn . Wenn s1 = : : : = sn = 1 gilt, so ist
nichts zu zeigen. Andernfalls gelte ohne Einschrankung s1 = 0. Aus dem Additionssatz
folgt dann
Pr[A1 \ As2 \ : : : \ Asnn ] = Pr[As2 \ : : : \ Asnn ]
Pr[A1 \ As2 \ : : : \ Asnn ]:
2
2
2
Darauf konnen wir die Induktionsannahme anwenden und erhalten
Pr[A1 \ As2 \ : : : \ Asnn ]
= Pr[As2 ] : : : Pr[Asnn ] Pr[A1 ] Pr[As2 ] : : : Pr[Asnn ]
= (1 Pr[A1 ]) Pr[As2 ] : : : Pr[Asnn ];
woraus die Behauptung wegen 1 Pr[A1 ] = Pr[A1 ] folgt.
2
2
2
2
DWT
c Susanne Albers
63/460
Beweis (Forts.):
Fur die Gegenrichtung zeigen wir nur, dass aus (3) Pr[A1 \ A2 ] = Pr[A1 ] Pr[A2 ]
folgt. Es gilt wegen des Satzes von der totalen Wahrscheinlichkeit, dass
Pr[A1 \ A2 ] =
=
X
s3 ;:::;sn 2f0;1g
X
s3 ;:::;sn 2f0;1g
Pr[A1 \ A2 \ As3 \ : : : \ Asnn ]
3
Pr[A1 ] Pr[A2 ] Pr[As3 ] : : : Pr[Asnn ]
= Pr[A1 ] Pr[A2 ] = Pr[A1 ] Pr[A2 ];
3
X
s3 =0;1
Pr[As3 ] : : : 3
X
sn =0;1
Pr[Asnn ]
und es folgt die Behauptung.
DWT
c Susanne Albers
64/460
Aus der Darstellung in Lemma 23 folgt die wichtige Beobachtung, dass fur zwei
unabhangige Ereignisse A und B auch die Ereignisse A und B (und analog auch A
und B bzw. A und B ) unabhangig sind!
Ebenso folgt:
DWT
c Susanne Albers
3 Unabhangigkeit
65/460
Lemma 24
Seien A, B und C unabhangige Ereignisse. Dann sind auch A \ B und C bzw. A [ B
und C unabhangig.
Beweis:
Die Unabhangigkeit von A \ B und C folgt unmittelbar aus Denition 22.
Aus
Pr[(A [ B ) \ C ] =
=
=
=
Pr[(A \ C ) [ (B \ C )]
Pr[A \ C ] + Pr[B \ C ] Pr[A \ B \ C ]
Pr[C ] (Pr[A] + Pr[B ] Pr[A \ B ])
Pr[A [ B ] Pr[C ]
folgt die Unabhangigkeit von A [ B und C .
DWT
c Susanne Albers
66/460
4. Zufallsvariablen
4.1 Grundlagen
Anstatt der Ereignisse selbst sind wir oft an Auswirkungen\ oder Merkmalen\ der
"
"
(Elementar)Ereignisse interessiert.
Denition 25
Sei ein Wahrscheinlichkeitsraum auf der Ergebnismenge gegeben. Eine Abbildung
X:
!R
heit (numerische) Zufallsvariable.
Eine Zufallsvariable X uber einer endlichen oder abzahlbar unendlichen
Ergebnismenge heit diskret.
DWT
c Susanne Albers
67/460
Bei diskreten Zufallsvariablen ist der Wertebereich
WX := X (
) = fx 2 R; 9 ! 2 mit X (!) = xg
ebenfalls wieder endlich (bzw. abzahlbar unendlich).
DWT
c Susanne Albers
68/460
Beispiel 26
Wir werfen eine ideale Munze drei Mal. Als Ergebnismenge erhalten wir := fH; T g3 .
Die Zufallsvariable Y bezeichne die Gesamtanzahl der Wurfe mit Ergebnis Head\.
"
Beispielsweise gilt also Y (HT H ) = 2 und Y (HHH ) = 3. Y hat den Wertebereich
WY = f0; 1; 2; 3g.
DWT
c Susanne Albers
4.1 Grundlagen
69/460
Fur WX
= fx1 ; : : : ; xn g bzw. WX = fx1 ; x2 ; : : :g betrachten wir (fur ein beliebiges
1 i n bzw. xi 2 N) das Ereignis
Ai := f! 2 ; X (!) = xi g = X 1 (xi ):
Bemerkung: Anstelle von Pr[X 1 (xi )] verwendet man haug auch die Schreibweise
Pr["X = xi\ ]. Analog setzt man
Pr["X xi\ ] =
X
x2WX : xxi
Pr["X = x\ ]
= Pr[f! 2 ; X (!) xi g] :
Oft lasst man auch die Anfuhrungszeichen weg.
DWT
c Susanne Albers
70/460
Denition 27
Die Funktion
fX : R 3 x 7! Pr[X = x] 2 [0; 1]
(4)
nennt man (diskrete) Dichte(funktion) der Zufallsvariablen X .
Die Funktion
FX : R 3 x 7! Pr[X x] =
X
x0 2WX : x0 x
Pr[X = x0 ] 2 [0; 1]
(5)
heit Verteilung(sfunktion) der Zufallsvariablen X .
DWT
c Susanne Albers
71/460
Beispiel 28
Fur die Zufallsvariable Y erhalten wir
Pr[Y = 0] = Pr[T T T ] = 18 ;
Pr[Y = 1] = Pr[HT T ] + Pr[T HT ] + Pr[T T H ] = 38 ;
Pr[Y = 2] = Pr[HHT ] + Pr[HT H ] + Pr[T HH ] = 38 ;
Pr[Y = 3] = Pr[HHH ] = 18 :
DWT
c Susanne Albers
72/460
FY
fY
1,0
1,0
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0,0
0
1
2
3
0,0
0
1
2
3
Dichte und Verteilung von Y
Bemerkung: Man kann statt auch den zugrunde liegenden Wahrscheinlichkeitsraum
uber WX betrachten.
DWT
c Susanne Albers
4.1 Grundlagen
73/460
4.2 Erwartungswert und Varianz
Denition 29
Zu einer Zufallsvariablen X denieren wir den Erwartungswert E[X ] durch
E[X ] :=
sofern
P
x 2W X
Beispiel 30
X
x 2W X
x Pr[X = x] =
X
x 2W X
x fX (x) ;
jxj Pr[X = x] konvergiert.
E[Y ] =
3
X
i=0
i Pr[Y = i]
= 1 Pr[Y = 1] + 2 Pr[Y = 2] + 3 Pr[Y = 3]
= 1 83 + 2 83 + 3 18 = 32 :
DWT
c Susanne Albers
74/460
Beispiel 31
Eine Munze wird so lange geworfen, bis sie zum ersten Mal Head\ zeigt. Sei k die
"
Anzahl der durchgefuhrten Wurfe. Wenn k ungerade ist, zahlt der Spieler an die
Bank k Euro. Andernfalls (k gerade) zahlt die Bank k Euro an den Spieler.
(
G :=
k
falls k ungerade;
k falls k gerade:
Wie schon gesehen, gilt dann
Pr["Anzahl Wurfe = k\ ] = (1=2)k :
Damit erhalten wir
E[G] =
DWT
c Susanne Albers
1
X
k=1
(
1)k 1 k k
1
2
:
75/460
Da
1
X
k=1
j(
1)k 1 kj k
1
2
1
X
k=1
k
k
1
2
;
existiert der Erwartungswert E[G].
Es gilt
1
X
"
2j
#
1
2j
2j 21
E[G] =
(2j 1) 12
j =1
1 1 2j 1
X
=
[(2j 1) j ]
2
j =1
j 1
1
1
X
1
= 2 (j 1) 14
= 12 4 1 2 = 29 :
1 4
j =1
DWT
c Susanne Albers
4.2 Erwartungswert und Varianz
76/460
Wird jedoch, um das Risiko zu steigern, der zu zahlende Betrag von k Euro jeweils auf
2k Euro erhoht, also
(
2k falls k ungerade;
G0 :=
2k falls k gerade ;
dann existiert E[G0 ] nicht, da
k
1
X
1
0
k
1
k
E[G ] = ( 1) 2 k=1
=
DWT
c Susanne Albers
1
X
k=1
2
( 1)k 1 = +1 1 + 1 1 + : : : :
4.2 Erwartungswert und Varianz
77/460
Berechnung des Erwartungswerts:
E[X ] =
=
=
X
x 2W X
X
x Pr[X = x] =
x
X
x2WX !2
:X (!)=x
X
! 2
X
x 2W X
x fX (x)
Pr[!]
X (!) Pr[!] :
Bei unendlichen Wahrscheinlichkeitsr
aumen ist dabei analog zur Denition des
P
Erwartungswerts erforderlich, dass !2
jX (! )j Pr[! ] konvergiert (absolute
Konvergenz).
DWT
c Susanne Albers
4.2 Erwartungswert und Varianz
78/460
Satz 32 (Monotonie des Erwartungswerts)
Seien X und Y Zufallsvariablen uber dem Wahrscheinlichkeitsraum mit
X (!) Y (!) fur alle ! 2 . Dann gilt E[X ] E[Y ].
Beweis:
E[X ] =
DWT
c Susanne Albers
X
! 2
X (!) Pr[!] X
! 2
Y (!) Pr[!] = E[Y ] :
4.2 Erwartungswert und Varianz
79/460
Aus Satz 32 folgt insbesondere, dass a E[X ] b gilt, wenn fur die Zufallsvariable X
die Eigenschaft a X (! ) b fur alle ! 2 erfullt ist.
DWT
c Susanne Albers
80/460
4.2.1 Rechenregeln fur den Erwartungswert
Oft betrachtet man eine Zufallsvariable X nicht direkt, sondern wendet noch eine
Funktion darauf an:
Y := f (X ) = f X ;
wobei f : D ! R eine beliebige Funktion sei mit WX D R.
Beobachtung: f (X ) ist wieder eine Zufallsvariable.
DWT
c Susanne Albers
4.2 Erwartungswert und Varianz
81/460
Aus
Pr[Y = y] = Pr[f! j f (X (!)) = yg] =
X
x : f (x)=y
Pr[X = x]
folgt
E[f (X )] = E[Y ] =
=
=
DWT
c Susanne Albers
X
y2WY
X
! 2
X
y 2W Y
y
y Pr[Y = y]
X
x : f (x)=y
Pr[X = x] =
f (X (!)) Pr[!] :
X
x 2W X
4.2 Erwartungswert und Varianz
f (x) Pr[X = x]
82/460
Satz 33 (Linearitat des Erwartungswerts, einfache Version)
Fur eine beliebige Zufallsvariable X und a; b 2 R gilt
E[a X + b] = a E[X ] + b :
Beweis:
E[a X + b] =
X
x 2W X
=a
(a x + b) Pr[X = x]
X
x 2W X
x Pr[X = x] + b = a E[X ] + b :
DWT
c Susanne Albers
X
x2WX
Pr[X = x]
83/460
Satz 34
Sei X eine Zufallsvariable mit WX
N0. Dann gilt
E[X ] =
1
X
i=1
Pr[X i] :
Beweis:
E[X ] =
=
DWT
c Susanne Albers
1
X
i=0
i Pr[X = i] =
1 X
1
X
j =1 i=j
i
1 X
X
i=0 j =1
Pr[X = i] =
1
X
j =1
Pr[X = i]
Pr[X j ] :
84/460
Denition 35
Sei X eine Zufallsvariable und A ein Ereignis mit Pr[A] > 0. Die bedingte
Zufallsvariable X jA besitzt die Dichte
fX jA (x) := Pr[X = x j A] =
Pr["X = x\ \ A] :
Pr[A]
Die Denition von fX jA ist zulassig, da
X
x 2W X
fX jA (x) =
Pr["X = x\ \ A] = Pr[A] = 1 :
Pr[A]
Pr[A]
x2 W X
X
Der Erwartungswert E[X jA] der Zufallsvariablen X jA berechnet sich entsprechend:
E[X jA] =
DWT
c Susanne Albers
X
x2 W X
x fX jA (x) :
4.2 Erwartungswert und Varianz
85/460
Satz 36
Sei X eine Zufallsvariable. Fur paarweise disjunkte Ereignisse A1 ; : : : ; An mit A1 [ : : :
[An = und Pr[A1]; : : : ; Pr[An] > 0 gilt
E[X ] =
n
X
i=1
E[X jAi ] Pr[Ai ] :
S
Fur paarweise disjunkte Ereignisse A1 ; A2 ; : : : mit 1
i=1 Ak = und Pr[A1 ],
Pr[A2 ]; : : : > 0 gilt analog
E[X ] =
1
X
i=1
E[X jAi ] Pr[Ai ];
sofern
die Erwartungswerte auf der rechten Seite alle existieren und die Summe
P1
i=1 jE[X jAi ]j Pr[Ai ] konvergiert.
DWT
c Susanne Albers
4.2 Erwartungswert und Varianz
86/460
Beweis:
E[X ] =
=
X
x2WX
n
X
i=1
x Pr[X = x] =
Pr[Ai ]
X
x2WX
X
x2 W X
x
n
X
i=1
Pr[X = xjAi ] Pr[Ai ]
x Pr[X = xjAi ] =
n
X
i=1
Pr[Ai ] E[X jAi ]:
Der Beweis fur den unendlichen Fall verlauft analog.
DWT
c Susanne Albers
87/460
Beispiel 37
Wir werfen eine Munze so lange, bis zum ersten Mal Kopf\ erscheint. Dies geschehe
"
in jedem Wurf unabhangig mit Wahrscheinlichkeit p. Wir denieren dazu die
Zufallsvariable X := Anzahl der Wurfe\. Wir haben bereits gesehen, dass
"
Pr[X = k] = p(1 p)k 1
und damit
DWT
c Susanne Albers
E[X ] =
1
X
k=1
k p(1 p)k 1 = p 1
1
(1 (1 p))2 = p :
4.2 Erwartungswert und Varianz
88/460
Beispiel 37
Andere Berechnungsmethode: (gestutzt auf Satz 36)
Deniere das Ereignis
K1 := "Im ersten Wurf fallt Kopf\ :
Oensichtlich gilt E[X jK1 ] = 1.
Nehmen wir nun an, dass im ersten Wurf nicht Kopf\ gefallen ist. Wir starten das
"
Experiment neu.
DWT
c Susanne Albers
88/460
Beispiel 37
Sei X 0 die Anzahl der Wurfe bis zum ersten Auftreten von Kopf\ im neu gestarteten
"
Experiment. Wegen der Gleichheit der Experimente gilt E[X 0 ] = E[X ]. Damit schlieen
wir
E[X jK 1 ] = 1 + E[X 0 ] = 1 + E[X ]
und erhalten mit Satz 36:
E[X ] = E[X jK1 ] Pr[K1 ] + E[X jK 1 ] Pr[K 1 ]
= 1 p + (1 + E[X ]) (1 p) :
Daraus ergibt sich wiederum E[X ] = 1=p.
DWT
c Susanne Albers
88/460
4.2.2 Varianz
Wir betrachten die beiden folgenden Zufallsexperimente:
1 Wir w
urfeln (mit einem fairen Wurfel), bei gerader Augenzahl erhalten wir 1 Euro,
bei ungerader Augenzahl mussen wir 1 Euro bezahlen.
2 Wir w
urfeln (mit einem fairen Wurfel), bei 6 Augen erhalten wir 5 Euro,
ansonsten mussen wir 1 Euro bezahlen.
Beobachtung:
In beiden Fallen ist der erwartete Gewinn = 0.
Dennoch sind die Schwankungen\ im ersten Fall geringer als im zweiten.
"
DWT
c Susanne Albers
4.2 Erwartungswert und Varianz
89/460
Eine nahe liegende Losung ware,
E[jX j]
zu berechnen, wobei = E[X ] sei. Dies scheitert jedoch meist an der unhandlichen\
"
Betragsfunktion. Aus diesem Grund betrachtet man stattdessen E[(X )2 ], also die
quadratische Abweichung vom Erwartungswert.
Denition 38
Fur eine Zufallsvariable X mit = E[X ] denieren wir die Varianz Var[X ] durch
Var[X ] := E[(X )2 ] =
Die Groe :=
DWT
c Susanne Albers
X
x2WX
(x )2 Pr[X = x] :
p
Var[X ] heit Standardabweichung von X .
4.2 Erwartungswert und Varianz
90/460
Satz 39
Fur eine beliebige Zufallsvariable X gilt
Var[X ] = E[X 2 ] E[X ]2 :
Beweis:
Sei := E[X ]. Nach Denition gilt
Var[X ] = E[(X )2 ] = E[X 2 2 X + 2 ]
X
=
(x2 2 x + 2 ) Pr[X = x]
=
x2WX
X
x2WX
x2 Pr[X = x]
= E[X 2 ]
= E[X 2 ]
DWT
c Susanne Albers
X
x2WX
2 x Pr[X = x] +
2 E[X ] + 2
E[X ]2 :
4.2 Erwartungswert und Varianz
X
x 2W X
2 Pr[X = x]
91/460
Beispiel 40
1
Wir wurfeln (mit einem fairen Wurfel), bei gerader Augenzahl erhalten wir 1 Euro,
bei ungerader Augenzahl mussen wir 1 Euro bezahlen. Es ist
= 0 und Var[X ] =
2
1 12 + 1 ( 1)2 = 1 :
2
2
Wir wurfeln (mit einem fairen Wurfel), bei 6 Augen erhalten wir 5 Euro,
ansonsten mussen wir 1 Euro bezahlen.
Es ist
1
5
= 0 und Var[X ] = 52 + ( 1)2 = 5 :
6
DWT
c Susanne Albers
6
92/460
Satz 41
Fur eine beliebige Zufallsvariable X und a; b 2 R gilt
Var[a X + b] = a2 Var[X ] :
DWT
c Susanne Albers
93/460
Beweis:
Aus der in Satz 33 gezeigten Linearitat des Erwartungswerts folgt E[Y
Zusammen mit der Denition der Varianz ergibt sich damit sofort
Y
Var[
+
b] = E[(Y
+
b
E[Y
+
b])2 ] = E[(Y
+ b] = E[Y ] + b.
E[Y ])2 ] = Var[Y ] :
Weiter folgt mit Satz 39:
a X ] = E[(aX )2 ]
Var[
E[aX ]2 = a2 E[X 2 ]
aE[X ])2 = a2 Var[X ] ;
(
und daraus zusammen die Behauptung.
DWT
c Susanne Albers
4.2 Erwartungswert und Varianz
94/460
Der Erwartungswert und die Varianz gehoren zu den so genannten Momenten einer
Zufallsvariablen:
Denition 42
Fur eine Zufallsvariable X nennen wir E[X k ] das k-te Moment und E[(X
das k-te zentrale Moment.
E[X ])k ]
Der Erwartungswert ist also identisch zum ersten Moment, wahrend die Varianz dem
zweiten zentralen Moment entspricht.
DWT
c Susanne Albers
95/460
4.3 Mehrere Zufallsvariablen
Beispiel 43
Aus einem Skatblatt mit 32 Karten ziehen wir zufallig eine Hand von zehn Karten
sowie einen Skat von zwei Karten. Unter den Karten gibt es vier Buben. Die
Zufallsvariable X zahlt die Anzahl der Buben in der Hand, wahrend Y die Anzahl der
Buben im Skat angibt. Die Werte von X und Y hangen oensichtlich stark
voneinander ab. Beispielsweise muss Y = 0 sein, wenn X = 4 gilt.
Wie kann man mit mehreren Zufallsvariablen uber demselben Wahrscheinlichkeitsraum
rechnen, auch wenn sie, wie im obigen Beispiel, sehr voneinander abhangig sind?
Wir untersuchen Wahrscheinlichkeiten der Art
Pr[X = x; Y = y] = Pr[f!; X (!) = x; Y (!) = yg] :
DWT
c Susanne Albers
4.3 Mehrere Zufallsvariablen
96/460
Beispiel 44
Wenn wir nur die Zufallsvariable X betrachten, so gilt fur 0 x 4
Pr[X = x] =
4 28 :
32
10
x 10 x
Allgemein nennt man Zufallsvariablen mit der Dichte
Pr[X = x] =
b a x r x
a+b
r
hypergeometrisch verteilt. Durch diese Dichte wird ein Experiment modelliert, bei dem
r Elemente ohne Zurucklegen aus einer Grundmenge der Machtigkeit a + b mit b
besonders ausgezeichneten Elementen gezogen werden.
DWT
c Susanne Albers
97/460
Beispiel 44 (Forts.)
Die Zufallsvariable Y ist fur sich gesehen ebenfalls hypergeometrisch verteilt mit b = 4,
a = 28 und r = 2.
Fur X und Y zusammen gilt jedoch z.B.
Pr[X = 4; Y = 1] = 0;
und allgemein
Pr[X = x; Y = y] =
4 28 4 x 28 (10 x)
y
2 y
:
32 22
10 2
x 10 x
Bemerkung: Die Schreibweise Pr[X = x; Y = y] stellt eine Abkurzung von
Pr["X = x ^ Y = y\ ] dar. Ein anderes Beispiel ist
p
Pr[X x; Y y1 ; Y = y2 ] :
DWT
c Susanne Albers
98/460
Die Funktion
fX;Y (x; y) := Pr[X = x; Y = y]
heit gemeinsame Dichte der Zufallsvariablen X und Y .
Aus der gemeinsamen Dichte fX;Y kann man ableiten
fX (x) =
X
y 2W Y
fX;Y (x; y) bzw. fY (y) =
X
x 2W X
fX;Y (x; y) :
Die Funktionen fX und fY nennt man Randdichten.
DWT
c Susanne Albers
99/460
Die Ereignisse Y
"
es gilt daher
= y\ bilden eine Partitionierung des Wahrscheinlichkeitsraumes, und
Pr[X = x] =
X
y2WY
Pr[X = x; Y = y] = fX (x) :
Die Dichten der einzelnen Zufallsvariablen entsprechen also genau den Randdichten.
Fur zwei Zufallsvariablen deniert man die gemeinsame Verteilung
FX;Y (x; y) = Pr[X x; Y y] = Pr[f!; X (!) x; Y (!) yg]
X X
=
fX;Y (x0 ; y0 ) :
x0 x y0 y
DWT
c Susanne Albers
4.3 Mehrere Zufallsvariablen
100/460
Die Randverteilung ergibt sich gema
FX (x) =
sowie
DWT
c Susanne Albers
FY (y) =
X
x0 x
X
y0 y
fX (x0 ) =
fY (y0 ) =
X X
x0 x y2WY
X X
y0 y x2WX
fX;Y (x0 ; y)
fX;Y (x; y0 ) :
101/460
4.3.1 Unabhangigkeit von Zufallsvariablen
Denition 45
Die Zufallsvariablen X1 ; : : : ; Xn heien unabhangig, wenn fur alle
(x1 ; : : : ; xn ) 2 WX1 : : : WXn gilt
Pr[X1 = x1 ; : : : ; Xn = xn ] = Pr[X1 = x1 ] : : : Pr[Xn = xn ] :
Alternativ:
fX1 ;:::;Xn (x1 ; : : : ; xn ) = fX1 (x1 ) : : : fXn (xn ) :
Bei unabhangigen Zufallsvariablen ist also die gemeinsame Dichte gleich dem Produkt
der Randdichten. Ebenso gilt
FX1 ;:::;Xn (x1 ; : : : ; xn ) = FX1 (x1 ) : : : FXn (xn ) :
DWT
c Susanne Albers
102/460
Satz 46
Seien X1 ; : : : ; Xn unabhangige Zufallsvariablen und S1 ; : : : ; Sn beliebige Mengen mit
Si WXi . Dann sind die Ereignisse "X1 2 S1\, . . . , "Xn 2 Sn\ unabhangig.
Beweis:
Pr[X1 2 S1 ; : : : ; Xn 2 Sn ]
X
X
=
:::
Pr[X1 = x1 ; : : : ; Xn = xn ]
x1 2S1
=
Unabh.
0
=@
X
xn 2Sn
x 1 2S 1
X
x1 2S1
:::
X
x n 2S n
Pr[X1 = x1 ] : : : Pr[Xn = xn ]
1
Pr[X1 = x1 ]A : : : X
xn 2Sn
!
Pr[Xn = xn ]
= Pr[X1 2 S1 ] : : : Pr[Xn 2 Sn ] :
DWT
c Susanne Albers
4.3 Mehrere Zufallsvariablen
103/460
Satz 47
Seien f1 ; : : : ; fn reellwertige Funktionen (fi : R ! R fur i = 1; : : : ; n). Wenn die
Zufallsvariablen X1 ; : : : ; Xn unabhangig sind, dann gilt dies auch fur
f1 (X1 ); : : : ; fn (Xn ).
Beweis:
Sei zi 2 Wfi (Xi ) fur i = 1; : : : ; n und Si = fx; fi (x) = zi g.
Pr[f1 (X1 ) = z1 ; : : : ; fn (Xn ) = zn ]
= Pr[X1 2 S1 ; : : : ; Xn 2 Sn ]
= Pr[X1 2 S1 ] : : : Pr[Xn 2 Sn ]
= Pr[f1 (X1 ) = z1 ] : : : Pr[fn (Xn ) = zn ] :
Unabh.
DWT
c Susanne Albers
4.3 Mehrere Zufallsvariablen
104/460
4.3.2 Zusammengesetzte Zufallsvariablen
Beispiel 48
Ein Wurfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten
bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewurfelten Augenzahlen.
Fur Z gilt z.B.:
Pr[Z = 1] = Pr[;] = 0, Pr[Z = 4] = Pr[f(1; 3); (2; 2); (3; 1)g] = 363 .
DWT
c Susanne Albers
4.3 Mehrere Zufallsvariablen
105/460
Fur die Verteilung der Summe zweier unabhangiger Zufallsvariablen gilt der folgende
Satz:
Satz 49
Fur zwei unabhangige Zufallsvariablen X und Y sei Z
fZ (z ) =
DWT
c Susanne Albers
X
x2 W X
:= X + Y . Es gilt
fX (x) fY (z x) :
106/460
Beweis:
Mit Hilfe des Satzes von der totalen Wahrscheinlichkeit folgt, dass
fZ (z ) = Pr[Z = z ] =
=
=
X
x 2W X
X
x 2W X
X
x 2W X
Pr[X + Y = z j X = x] Pr[X = x]
Pr[Y = z x] Pr[X = x]
fX (x) fY (z x) :
P
Den Ausdruck x2WX fX (x) fY (z x) aus Satz 49 nennt man in Analogie zu den
entsprechenden Begrien bei Potenzreihen auch Faltung oder Konvolution der Dichten
fX und fY .
DWT
c Susanne Albers
107/460
Beispiel (Forts.)
Berechne die Dichte von Z
=X +Y:
Pr[Z = z ] =
=
X
x2WX
Pr[X = x] Pr[Y = z x]
6;z 1g
1 Pr[Y = z x] = minfX
1:
6
36
x=1
x=maxf1;z 6g
6
X
Fur 2 z 7 erhalten wir
Pr[Z = z ] =
Und fur 7 < z 12:
DWT
c Susanne Albers
z 1
X
1 = z 1:
36
36
i=1
Pr[Z = z ] = 1336 z :
4.3 Mehrere Zufallsvariablen
108/460
4.3.3 Momente zusammengesetzter Zufallsvariablen
Satz 50 (Linearitat des Erwartungswerts)
Fur Zufallsvariablen X1 ; : : : ; Xn und X := a1 X1 + + an Xn mit a1 ; : : : ; an 2 R gilt
E[X ] = a1 E[X1 ] + + an E[Xn ] :
Beweis:
E[X ] =
=
=
DWT
c Susanne Albers
X
! 2
a1 a1 X1 (! ) + : : : + an Xn (! )) Pr[! ]
(
X
! 2
X1 (! ) Pr[! ]
!
+
a1 E[X1 ] + : : : + an E[Xn ] :
+
an X
! 2
Xn (! ) Pr[! ]
!
109/460
Beispiel 51
n betrunkene Seeleute torkeln nach dem Landgang in ihre Kojen. Sie haben vollig die
Orientierung verloren, weshalb wir annehmen, dass jede Zuordnung der Seeleute zu den
n Betten gleich wahrscheinlich ist (genau ein Seemann pro Bett). Wie viele Seeleute
liegen im Mittel im richtigen Bett?
Die Anzahl der Seeleute im richtigen Bett zahlen wir mit der Zufallsvariablen X , die
als Summe der Zufallsvariablen X1 ; : : : ; Xn dargestellt wird, wobei
(
Xi :=
Oenbar gilt X
DWT
c Susanne Albers
1 falls Seemann i in seinem Bett liegt,
0 sonst.
:= X1 + + Xn .
4.3 Mehrere Zufallsvariablen
110/460
Beispiel 51
Fur die Variablen Xi erhalten wir Pr[Xi = 1] = n1 , da jedes Bett von Seemann i mit
gleicher Wahrscheinlichkeit aufgesucht wird.
Daraus folgt
1
und somit
E[Xi ] = 0 Pr[Xi = 0] + 1 Pr[Xi = 1] = ;
n
E[X ] =
n
X
i=1
E[Xi ] =
n
X
i=1
1 = 1:
n
Im Mittel hat also nur ein Seemann sein eigenes Bett aufgesucht.
DWT
c Susanne Albers
110/460
Satz 52 (Multiplikativitat des Erwartungswerts)
Fur unabhangige Zufallsvariablen X1 ; : : : ; Xn gilt
E[X1 Xn ] = E[X1 ] E[Xn ] :
Beweis:
Wir beweisen den Fall n = 2. Der allgemeine Fall ist analog.
E[X Y ] =
X
X
xy Pr[X = x; Y = y]
x2WX y2WY
Unabh: X X
=
=
x2WX y2WY
X
x2WX
x Pr[X = x]
= E[X ] E[Y ] :
DWT
c Susanne Albers
xy Pr[X = x] Pr[Y = y]
X
y 2W Y
4.3 Mehrere Zufallsvariablen
y Pr[Y = y]
111/460
Dass fur die Gultigkeit von Satz 52 die Unabhangigkeit der Zufallsvariablen wirklich
notwendig ist, sieht man beispielsweise am Fall Y = X fur eine Zufallsvariable mit
einer von Null verschiedenen Varianz. Dann gilt
E[X Y ] = E[X 2 ] 6= (E[X ])2 = E[X ] E[Y ] :
DWT
c Susanne Albers
112/460
Denition 53
Zu einem Ereignis A heit die Zufallsvariable
(
IA :=
1 falls A eintritt;
0 sonst
Indikatorvariable des Ereignisses A.
Beobachtung:
Fur die Indikatorvariable IA gilt nach Denition
E[IA ] = 1 Pr[A] + 0 Pr[A] = Pr[A] :
Ebenso gilt
E[IA : : : IAn ] = Pr[A1 \ : : : \ An ];
1
da das Produkt von Indikatorvariablen genau dann gleich 1 ist, wenn alle
entsprechenden Ereignisse eintreten.
DWT
c Susanne Albers
4.3 Mehrere Zufallsvariablen
113/460
Beispiel (Forts.)
Wir betrachten wieder das Beispiel der total betrunkenen Matrosen.
Sei Ai das Ereignis, dass der i-te Seemann im richtigen Bett liegt. Mit der Notation
der Indikatorvariablen sei Xi = IAi . Dann gilt fur beliebige i; j 2 f1; : : : ; ng, i 6= j :
E[Xi Xj ] = E[IAi IAj ] = Pr[Ai \ Aj ] =
sowie
DWT
c Susanne Albers
1
n(n 1)
;
E[Xi2 ] = 02 Pr[Ai ] + 12 Pr[Ai ] = Pr[Ai ] = 1=n:
114/460
Beispiel (Forts.)
Daraus folgt wegen der Linearitat des Erwartungswerts fur X
E[X 2 ] =
2
3
n
n X
X
X
E 4 Xi2 +
Xi Xj 5
i=1
= X1 + + Xn :
i=1 j 6=i
= n n1 + n(n 1) n(n1 1) = 2 :
Fur die Varianz erhalten wir somit den Wert
Var[X ] = E[X 2 ] E[X ]2 = 2 1 = 1:
DWT
c Susanne Albers
4.3 Mehrere Zufallsvariablen
115/460
Einfacher Beweis fur Satz 9 mit Hilfe von Indikatorvariablen:
Zur Erinnerung:
Satz 9 (Siebformel, Prinzip der Inklusion/Exklusion)
Fur Ereignisse A1 ; : : : ; An (n 2) gilt:
"
Pr
n
[
i=1
#
Ai =
n
X
i=1
+ ( 1)l
+(
DWT
c Susanne Albers
Pr[Ai ]
1
X
1i1 <i2 n
X
Pr[Ai \ Ai ] + : : :
1
2
Pr[Ai \ : : : \ Ail ] + : : :
1
1i1 <:::<il n
n
1
1) Pr[A1 \ : : : \ An ] :
116/460
Beweis:
Zur Erinnerung: Zu Ereignissen A1 ; : : : ; An wollen wir die Wahrscheinlichkeit Pr[B ]
des Ereignisses B := A1 [ : : : [ An ermitteln.
Wir betrachten die Indikatorvariablen Ii := IAi der Ereignisse A1 ; : : : ; An und die
Indikatorvariable
I des Ereignisses B .
Qn B
Das Produkt i=1 (1 Ii ) ist genau dann
gleich 1, wenn I1 = : : : = In = 0, d.h.
Q
wenn B nicht eintritt. Somit gilt IB = ni=1 (1 Ii ) und wir erhalten:
IB = 1
X
1in
Ii +
X
1i1 <i2 n
Ii1 Ii2
+ : : : + ( 1)n I1 : : : In ;
also
IB = 1 IB
X
=
Ii
1in
DWT
c Susanne Albers
X
1i1 <i2 n
Ii1 Ii2 + : : : + ( 1)n 1 I1 : : : In :
4.3 Mehrere Zufallsvariablen
117/460
Beweis:
Wegen der Eigenschaften von Indikatorvariablen gilt
Pr[B ] = 1 Pr[B ] = 1 E[IB ]:
Mit Hilfe von Satz 50 verteilen\ wir den Erwartungswert auf die einzelnen Produkte
"
von Indikatorvariablen. Wenn wir nun E[Ii ] durch Pr[Ai ] und allgemein E[Ii1 : : : Iik ]
durch Pr[Ai1 \ : : : \ Aik ] ersetzen, haben wir Satz 9 (dieses Mal vollstandig) bewiesen.
DWT
c Susanne Albers
117/460
Satz 54
Fur unabhangige Zufallsvariablen X1 ; : : : ; Xn und X
:= X1 + : : : + Xn gilt
Var[X ] = Var[X1 ] + : : : + Var[Xn ] :
Beweis:
Wir betrachten nur den Fall n = 2 mit den Zufallsvariablen X und Y .
E[(X + Y )2 ] = E[X 2 + 2XY + Y 2 ] = E[X 2 ] + 2E[X ]E[Y ] + E[Y 2 ]
E[X + Y ]2 = (E[X ] + E[Y ])2 = E[X ]2 + 2E[X ]E[Y ] + E[Y ]2
Wir ziehen die zweite Gleichung von der ersten ab und erhalten
E[(X + Y )2 ] E[X + Y ]2 = E[X 2 ] E[X ]2 + E[Y 2 ]
Mit Hilfe von Satz 39 folgt die Behauptung.
DWT
c Susanne Albers
E[Y ]2 :
118/460
Fur abhangige Zufallsvariablen X1 ; : : : ; Xn gilt Satz 54 im Allgemeinen nicht. Als
Beispiel funktioniert wiederum der Fall X = Y :
Var[X + Y ] = 0 6= 2 Var[X ] = Var[X ] + Var[Y ] :
DWT
c Susanne Albers
4.3 Mehrere Zufallsvariablen
119/460
5. Wichtige diskrete Verteilungen
Wir diskutieren nun einige wichtige diskrete Verteilungen. Bei diesen Verteilungen
handelt es sich um Funktionen, die von gewissen Parametern abhangen. Eigentlich
betrachten wir also immer eine ganze Familie von ahnlichen Verteilungen.
DWT
c Susanne Albers
120/460
5.1 Bernoulli-Verteilung
Eine Zufallsvariable X mit WX = f0; 1g und der Dichte
(
fX (x) =
p
1
fur x = 1;
p fur x = 0:
heit Bernoulli-verteilt. Den Parameter p nennen wir Erfolgswahrscheinlichkeit.
Eine solche Verteilung erhalt man z.B. bei einer einzelnen Indikatorvariablen. Es gilt
mit q := 1 p
E[X ] = p und Var[X ] = pq;
wegen E[X 2 ] = p und Var[X ] = E[X 2 ] E[X ]2 = p p2 .
DWT
c Susanne Albers
121/460
Der Name der Bernoulli-Verteilung geht zuruck auf den Schweizer Mathematiker Jakob
Bernoulli (1654{1705). Wie viele andere Mathematiker seiner Zeit hatte auch Bernoulli
nach dem Wunsch seines Vaters ursprunglich Theologe werden sollen. Sein Werk ars
conjectandi stellt eine der ersten Arbeiten dar, die sich mit dem Teil der Mathematik
beschaftigen, den wir heute als Wahrscheinlichkeitstheorie bezeichnen.
DWT
c Susanne Albers
5.1 Bernoulli-Verteilung
122/460
5.2 Binomialverteilung
Eine Bernoulli-verteilte Zufallsvariable entspricht der Verteilung einer
Indikatorvariablen. Haug betrachtet man jedoch Summen von Indikatorvariablen.
Denition 55
Sei X := X1 + : : : + Xn als Summe von n unabhangigen, Bernoulli-verteilten
Zufallsvariablen mit gleicher Erfolgswahrscheinlichkeit p deniert. Dann heit X
binomialverteilt mit den Parametern n und p. In Zeichen schreiben wir
X Bin(n; p) :
DWT
c Susanne Albers
123/460
Es gilt WX
= f0; : : : ; ng. Die Binomialverteilung besitzt die Dichte
fX (x) := b(x; n; p) =
n x n
pq
x
x
mit q := 1 p. Da die Binomialverteilung eine sehr wichtige Rolle spielt, fuhren wir fur
die Dichtefunktion die Abkurzung b(x; n; p) ein.
Mit den Satzen uber Erwartungswert und Varianz von Summen unabhangiger
Zufallsvariablen erhalten wir sofort
E[X ] = np und Var[X ] = npq :
DWT
c Susanne Albers
5.2 Binomialverteilung
124/460
0,4
b(x;
0,4
10; 0:1)
0,3
0,3
0,2
0,2
0,1
0,1
0,0
0
1
2
3
4
5
0,4
6
b(x;
7
8
9
10
0,0
0,3
0,2
0,2
0,1
0,1
0
1
2
3
4
5
6
7
8
0
1
0,4
10; 0:7)
0,3
0,0
b(x;
9
10
0,0
2
b(x;
0
1
2
10; 0:4)
3
4
5
6
7
8
9
10
5
6
7
8
9
10
10; 0:9)
3
4
Dichte der Binomialverteilung
DWT
c Susanne Albers
5.2 Binomialverteilung
125/460
Satz 56
Wenn X
Bin(nx; p) und Y Bin(ny ; p) unabhangig sind, dann gilt fur
Z := X + Y , dass Z Bin(nx + ny ; p).
Beweis:
Die Aussage folgt sofort, wenn man gema der Denition der Binomialverteilung X
und Y als Summen von Indikatorvariablen darstellt. Z ist dann oensichtlich wieder
eine Summe von unabhangigen Indikatorvariablen.
DWT
c Susanne Albers
126/460
5.3 Geometrische Verteilung
Man betrachte ein Experiment, das so lange wiederholt wird, bis Erfolg eintritt. Gelingt
ein einzelner Versuch mit Wahrscheinlichkeit p, so ist die Anzahl der Versuche bis zum
Erfolg geometrisch verteilt.
Denition 57
Eine geometrisch verteilte Zufallsvariable X mit Parameter (Erfolgswahrscheinlichkeit)
p 2 (0; 1] und q := 1 p hat die Dichte
fX (i) = pqi 1 fur i 2 N :
Fur Erwartungswert und Varianz geometrisch verteilter Zufallsvariablen gilt
E[X ] =
DWT
c Susanne Albers
1 und Var[X ] = q :
p2
p
5.3 Geometrische Verteilung
127/460
Es gilt
E[X ] =
Ferner ist
1
X
i=1
i pqi 1
E[X 2 ] =
1
X
i=1
=p
1
X
i=1
= p p23
DWT
c Susanne Albers
i=1
i qi 1 = p 1
1
(1 q)2 = p :
i2 pqi 1
=p
und damit
1
X
i(i + 1) qi 1
1 = 2 p;
p2
p2
1
X
i=1
i qi 1
!
Var[X ] = pq2 :
128/460
0,8
p
= 0;8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0,0
1
2
3
4
5
6
0,8
7
p
8
9
10
= 0;4
0,0
0,6
0,4
0,4
0,2
0,2
1
2
3
4
5
6
7
8
1
2
3
4
5
6
0,8
0,6
0,0
p
9
10
0,0
7
p
1
2
3
4
5
6
7
= 0;6
8
9
10
9
10
= 0;2
8
Dichte der geometrischen Verteilung
DWT
c Susanne Albers
5.3 Geometrische Verteilung
129/460
Sei X wieder geometrisch verteilt mit Erfolgswahrscheinlichkeit p. Dann ist Pr[X = k]
die Wahrscheinlichkeit, dass wir bei einem binaren Experiment mit
Erfolgswahrscheinlichkeit p genau in der k-ten unabhangigen Wiederholung das erste
Mal erfolgreich sind.
Wie gro ist die Wahrscheinlichkeit Pr[X > y + x j X > x]?
Da bei den ersten x Versuchen kein Erfolg eintrat, stellen wir uns vor, dass das
eigentliche\ Experiment erst ab dem (x + 1)-ten Versuch beginnt. Die Zeit bis zum
"
ersten Erfolg bei diesem neuen Experiment nennen wir X 0 . Damit X > y + x gilt,
muss X 0 > y gelten. Es ist intuitiv, dass X 0 wieder geometrisch verteilt ist mit
Erfolgswahrscheinlichkeit p, dass also fur x; y 2 N gilt:
Pr[X > y + x j X > x] = Pr[X 0 > y]:
DWT
c Susanne Albers
(6)
130/460
Formal gilt
Pr[X > x] =
1
X
(1 p)i 1 p = (1 p)x p i=x+1
1
X
i=0
(1 p)i
= (1 p)x p 1 (11 p) = (1 p)x ;
sowie
> y + x; X > x]
Pr[X > y + x j X > x] = Pr[X Pr[
X > x]
X > y + x]
= Pr[Pr[
X > x]
= (1 p)y+x (1 p) x = (1 p)y
= Pr[X > y] :
DWT
c Susanne Albers
5.3 Geometrische Verteilung
131/460
Diese Eigenschaft nennt man Gedachtnislosigkeit, da eine geometrisch verteilte
Zufallsvariable gewissermaen vergisst, dass sie schon x Misserfolge hinter sich hat und
sich deshalb zum Zeitpunkt y + x genauso verhalt wie ursprunglich zur Zeit y .
DWT
c Susanne Albers
132/460
Warten auf den n-ten Erfolg.
Wir betrachten n unabhangige Zufallsvariablen X1 ; : : : ; Xn , die jeweils geometrisch
verteilt sind mit Parameter p, und bestimmen die Dichte der Zufallsvariablen
Z := X1 + + Xn . Damit bezeichnet Z also die Anzahl der Versuche bis zum n-ten
erfolgreichen Experiment (einschlielich).
Falls Z = z ist, so werden also genau n erfolgreiche und
z n nicht erfolgreiche
Experimente durchgefuhrt. Dafur gibt es genau nz 11 Moglichkeiten, von denen jede
mit Wahrscheinlichkeit pn (1 p)z n eintritt. Es gilt also
z 1
fZ (z ) =
n 1
pn(1 p)z n :
Die Zufallsvariable Z nennt man negativ binomialverteilt mit Ordnung n.
DWT
c Susanne Albers
5.3 Geometrische Verteilung
133/460
Das Coupon-Collector-Problem
In manchen Branchen legen Firmen den Verpackungen ihrer Produkte oft kleine Bilder
oder andere Gegenstande bei, um den Kaufer zum Sammeln anzuregen. Wenn es
insgesamt n verschiedene solche Beilagen gibt, wie viele Packungen muss man im
Mittel erwerben, bis man eine vollstandige Sammlung besitzt? Hierbei nehmen wir an,
dass bei jedem Kauf jede Beilage mit gleicher Wahrscheinlichkeit auftritt.
Bezeichne
X die Anzahl der zu tatigenden Kaufe und
Phase i die Schritte vom Erwerb der (i 1)-ten Beilage (ausschlielich) bis zum
Erwerb der i-ten Beilage (einschlielich).
DWT
c Susanne Albers
5.3 Geometrische Verteilung
134/460
Sei etwa n = 4, und seien die Beilagen mit den Zahlen 1; 2; 3; 4 identiziert. Ein
Experiment ist z.B.:
2 ; |{z}
2; 1 ; 2| ;{z2; 3}; 1| ; 3; 2{z; 3; 1; 4}
|{z}
1
2
3
4
:
Beobachtung:
Phase i endet genau dann, wenn wir eine der n i + 1 Beilagen erhalten, die wir noch
nicht besitzen.
Somit ist Xi geometrisch verteilt mit Parameter p = n ni+1 und es gilt E[Xi ] = n ni+1 .
DWT
c Susanne Albers
135/460
Damit folgt aber sofort
E[X ] =
=
n
X
i=1
n
X
E[Xi ]
n
n i+1
i=1
=n
n
X
i=1
1 =nH ;
n
i
P
wobei Hn := ni=1 1i die n-te harmonische Zahl bezeichnet. Da Hn = ln n + O(1),
folgt E[X ] = n ln n + O(n).
DWT
c Susanne Albers
5.3 Geometrische Verteilung
136/460
5.4 Poisson-Verteilung
Die Poisson-Verteilung kann verwendet werden, um die Anzahl von Ereignissen zu
modellieren, welche mit konstanter Rate und unabhangig voneinander in einem
Zeitintervall auftreten.
Eine Poisson-verteilte Zufallsvariable X mit dem Parameter 0 hat den
Wertebereich WX = N0 und besitzt die Dichte
fX (i) =
e i
fur i 2 N0 :
i!
fX ist eine zulassige Dichte, da
1
X
i=0
DWT
c Susanne Albers
1
X
e i
i!
i=0
= e e = 1 :
fX (i) =
137/460
Fur den Erwartungswert erhalten wir
E[X ] =
1
X
i=0
= e
= e
= e
DWT
c Susanne Albers
i
e i
i!
1
X
i 1
(i 1)!
i=1
1 i
X
i!
i=0
e = :
5.4 Poisson-Verteilung
138/460
Da
E[X (X 1)] =
1
X
i=0
i(i 1) = 2 e
= 2 e
= 2 e
1
X
e i
i!
i 2
(i 2)!
i=2
1 i
X
i!
i=0
e = 2
und
E[X (X 1)] + E[X ] E[X ]2
= E[X 2 ] E[X ] + E[X ] E[X ]2 = Var[X ] ;
DWT
c Susanne Albers
139/460
folgt
Var[X ] = E[X (X 1)] + E[X ] E[X ]2 = 2 + 2 = :
(7)
Dafur, dass eine Zufallsvariable X Poisson-verteilt mit Parameter ist, schreiben wir
auch
X Po().
DWT
c Susanne Albers
5.4 Poisson-Verteilung
140/460
Po(0;5)
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0,0
0
1
2
3
4
5
6
7
8
9
10
Po(2)
0,6
0,0
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
2
4
6
8
0
1
2
3
4
5
6
10
0,0
7
8
9
10
9
10
Po(5)
0,6
0,5
0,0
Po(1)
0,6
0
1
2
3
4
5
6
7
8
Dichte der Poisson-Verteilung
DWT
c Susanne Albers
141/460
5.4.1 Poisson-Verteilung als Grenzwert der Binomialverteilung
Wir betrachten eine Folge von binomialverteilten Zufallsvariablen Xn mit
Xn Bin(n; pn ), wobei pn = =n. Fur ein beliebiges k mit 0 k n ist die
Wahrscheinlichkeit, dass Xn den Wert k annimmt, gleich
n
pkn (1
k
k
k
= (n kp!n ) nnk
k nk
= k! nk 1
b(k; n; pn ) =
DWT
c Susanne Albers
pn ) n
k
(1 pn) k (1 pn)n
n
k 1
n
n
:
142/460
Wir betrachten nun n ! 1 und erinnern uns, dass
k
lim n = 1;
n!1 nk
lim (1 n ) k = 1; und
n!1
n
lim
(1
) = e :
n!1
n
Damit folgt
k
n
k (1 p )n k = e :
lim
b
(
k
;
n;
p
)
=
lim
p
n
n
n
n!1
n!1 k
k!
DWT
c Susanne Albers
5.4 Poisson-Verteilung
143/460
Die Wahrscheinlichkeit b(k; n; pn ) konvergiert also fur n ! 1 gegen die
Wahrscheinlichkeit, dass eine Poisson-verteilte Zufallsvariable mit Parameter den
Wert k annimmt. Insgesamt folgt somit, dass die Verteilung einer Zufallsvariablen
X Bin(n; =n) sich fur n ! 1 der Poisson-Verteilung Po() annahert.
DWT
c Susanne Albers
144/460
Vergleich von Binomial- und Poisson-Verteilung
DWT
c Susanne Albers
5.4 Poisson-Verteilung
145/460
Ist also n im Vergleich zu hinreichend gro, so kann man die Poisson-Verteilung als
Approximation der Binomialverteilung verwenden.
Diese Tatsache wird manchmal auch als Gesetz seltener Ereignisse bezeichnet, da die
Wahrscheinlichkeit eines einzelnen Treers pn = =n relativ klein sein muss, wenn die
Approximation gute Ergebnisse liefern soll.
DWT
c Susanne Albers
146/460
Die folgenden Voraussetzungen mussen erfullt sein, damit die Annahme der
Poisson-Verteilung gerechtfertigt ist:
Die Ereignisse treten nie zur gleichen Zeit auf.
Die Wahrscheinlichkeit, dass ein Ereignis in einem (kleinen) Zeitintervall auftritt,
ist proportional zur Lange des Intervalls.
Die Anzahl der Ereignisse in einem festen Zeitintervall hangt nur von dessen
Lange ab, nicht aber von der Lage auf der Zeitachse.
Wenn man zwei disjunkte Zeitintervalle betrachtet, so sind die Anzahlen der
Ereignisse in diesen Zeitraumen voneinander unabhangig.
DWT
c Susanne Albers
5.4 Poisson-Verteilung
147/460
Beispiel 58
Wir wollen wissen, wie oft eine bestimmte Gegend im Durchschnitt von einer
Naturkatastrophe (z.B. Vulkanausbruch) getroen wird. Aus Statistiken entnehmen
wir, dass so ein Ereignis im Mittel 10 4 -mal pro Jahr auftritt. Wir interessieren uns
nun fur die Wahrscheinlichkeit, dass die Region in einem Jahr mehr als einmal von
einem solchen Ungluck heimgesucht wird.
Die Voraussetzungen scheinen erfullt zu sein, die Anzahl X der Katastrophen durch
eine Poisson-Verteilung mit Parameter = 10 4 zu modellieren.
Damit gilt
Pr[X 2] = 1 Pr[X = 0] Pr[X = 1] = 1 e e
1 0;999900005 0;000099990 = 5 10 9:
DWT
c Susanne Albers
5.4 Poisson-Verteilung
148/460
Summe von Poisson-verteilten Zufallsvariablen
Satz 59
Sind X und Y unabhangige Zufallsvariablen mit X
Z := X + Y
DWT
c Susanne Albers
Po() und Y Po(), dann gilt
Po( + ) :
5.4 Poisson-Verteilung
149/460
Beweis:
fZ (z ) =
1
X
x=0
fX (x) fY (z
x) =
z
(+) ( + )
= e
z!
=
z
X
z
X
e
x=0
x!(z
x=0
z X
z!
z
x
x!
ez
z x
(
x)!
x x)! + 1
e (+) ( + )z px (1
z ! x=0 x
z
x
+
p)z x ;
wobei p := + .
Da die Summe gleich 1 ist, folgt
1
fZ (z ) = e (+) ( + )z :
z!
DWT
c Susanne Albers
150/460
Erlauterungen und Beispiele zur Poisson-Verteilung
In der Wikipedia nden sich ein paar weitere Details und Beispiele.
Eine Anwendung der Poisson-Verteilung auf die Fuball-Bundesliga wird in einem
Artikel prasentiert, der im Spektrum der Wissenschaft, Heft Juni 2010, erschienen
ist.
DWT
c Susanne Albers
5.4 Poisson-Verteilung
151/460
6. Abschatzen von Wahrscheinlichkeiten
6.1 Die Ungleichungen von Markov und Chebyshev
Satz 60 (Markov-Ungleichung)
Sei X eine Zufallsvariable, die nur nicht-negative Werte annimmt. Dann gilt fur alle
t 2 R mit t > 0, dass

Aquivalent
dazu:
DWT
c Susanne Albers
Pr[X t] E[tX ] :
Pr[X t E[X ]] 1=t :
152/460
Beweis:
t Pr[X t] = t X
x2WX ; xt
X
x 2W X ; x t
X
x 2W X
Pr[X = x]
x Pr[X = x]
x Pr[X = x]
= E[X ] :
DWT
c Susanne Albers
153/460
Alternativer Beweis:
Es gilt
E[X ] = E[X jX < t] Pr[X < t] + E[X jX t] Pr[X t] :
Wegen E[X jX < t] Pr[X < t] 0 und E[X jX t] t folgt sofort
E[X ] t Pr[X t] :
DWT
c Susanne Albers
6.1 Die Ungleichungen von Markov und Chebyshev
154/460
Die Markov-Ungleichung ist nach Andrey Andreyevich Markov (1856{1922) benannt,
der an der Universitat von St. Petersburg bei Chebyshev studierte und spater dort
arbeitete. Neben seiner mathematischen Tatigkeit el Markov durch heftige Proteste
gegen das Zaren-Regime auf, und nur sein Status als vermeintlich harmloser
Akademiker schutzte ihn vor Repressalien durch die Behorden. Im Jahr 1913
organisierte er parallel zum dreihundertjahrigen Geburtstag der Zarenfamilie Romanov
eine Feier zum zweihundertjahrigen Geburtstag des Gesetzes der groen Zahlen (s.u.).
DWT
c Susanne Albers
155/460
Die folgende Abschatzung ist nach Pavnuty Lvovich Chebyshev (1821{1894) benannt,
der ebenfalls an der Staatl. Universitat in St. Petersburg wirkte.
Satz 61 (Chebyshev-Ungleichung)
Sei X eine Zufallsvariable, und sei t 2 R mit t > 0. Dann gilt
X]
Pr[jX E[X ]j t] Var[
:
2
t

Aquivalent
dazu:
DWT
c Susanne Albers
p
Pr[jX E[X ]j t Var[X ]] 1=t2 :
6.1 Die Ungleichungen von Markov und Chebyshev
156/460
Beweis:
Wir stellen fest, dass
Pr[jX E[X ]j t] = Pr[(X E[X ])2 t2 ] :
Setze
Y := (X
E[X ])2 :
Dann gilt E[Y ] = Var[X ], und damit mit der Markov-Ungleichung:
X]
Pr[jX E[X ]j t] = Pr[Y t2 ] Et[Y2 ] = Var[
:
2
t
DWT
c Susanne Albers
157/460
Beispiel 62
Wir werfen 1000-mal eine faire Munze und ermitteln die Anzahl X der Wurfe, in denen
Kopf\ fallt.
"
X ist binomialverteilt mit X Bin(1000; p = 12 ), also gilt
1
2
1
4
E[X ] = n = 500 und Var[X ] = n = 250:
Wie gro ist die Wahrscheinlichkeit, dass mehr als 550-mal Kopf\ fallt?
"
DWT
c Susanne Albers
158/460
Beispiel 62
Chebyshev-Ungleichung:
Pr[X 550] Pr[jX 500j 50] 250
502 = 0;1 :
Setze nun n = 10000 und betrachte wieder eine maximal 10%-ige Abweichung vom
Erwartungswert:
E[X ] = 5000 und Var[X ] = 2500, und damit
Pr[X 5500] Pr[jX 5000j 500] 2500
5002 = 0;01 :
DWT
c Susanne Albers
6.1 Die Ungleichungen von Markov und Chebyshev
158/460
6.2 Gesetz der groen Zahlen
Wir haben diskutiert, wie Wahrscheinlichkeiten als Grenzwerte von relativen
Haugkeiten aufgefasst werden konnen.
Satz 63 (Gesetz der groen Zahlen)
Gegeben sei eine Zufallsvariable X . Ferner seien "; > 0 beliebig aber fest. Dann gilt
X]
fur alle n Var[
"2 :
Sind X1 ; : : : ; Xn unabhangige Zufallsvariablen mit derselben Verteilung wie X und
setzt man
X + : : : + Xn
Z := 1
;
so gilt
DWT
c Susanne Albers
n
Pr[jZ E[X ]j ] ":
159/460
Beweis:
Fur Z gilt
1
1
E[Z ] = (E[X1 ] + : : : + E[Xn ]) = n E[X ] = E[X ];
n
n
sowie
Var[Z ] = n12 (Var[X1 ] + : : : + Var[Xn ]) = n12 n Var[X ] = Var[nX ] :
Mit der Chebyshev-Ungleichung erhalten wir
Z ] Var[X ]
Pr[jZ E[X ]j ] = Pr[jZ E[Z ]j ] Var[
= n2 ";
2
nach Wahl von n.
DWT
c Susanne Albers
160/460
Wahrscheinlichkeit und relative Haugkeit.
Sei X eine Indikatorvariable fur ein Ereignis A, Pr[A] = p. Somit ist X
Bernoulli-verteilt mit E[X ] = p.
Z = n1 (X1 + : : : + Xn ) gibt die relative Haugkeit an, mit der A bei n
Wiederholungen des Versuchs eintritt, denn
Z=
Anzahl der Versuche, bei denen A eingetreten ist
:
Anzahl aller Versuche
Mit Hilfe des obigen Gesetzes der groen Zahlen folgt
Pr[jZ pj ] ";
fur genugend groes n. Also nahert sich die relative Haugkeit von A bei hinreichend
vielen Wiederholungen des Experiments mit beliebiger Sicherheit beliebig nahe an die
wahre\ Wahrscheinlichkeit p an.
"
DWT
c Susanne Albers
6.2 Gesetz der groen Zahlen
161/460
Die obige Variante eines Gesetzes der groen Zahlen geht auf Jakob Bernoulli zuruck,
der den Satz in seinem Werk ars conjectandi zeigte.
Es soll betont werden, dass das Gesetz der groen Zahlen die
P
relative Abweichung j 1
Xi pj
i
n
und nicht die
absolute Abweichung j
P
i Xi
npj
abschatzt!
DWT
c Susanne Albers
6.2 Gesetz der groen Zahlen
162/460
6.3 Cherno-Schranken
6.3.1 Cherno-Schranken fur Summen von 0{1{Zufallsvariablen
Die hier betrachtete Art von Schranken ist nach Herman Cherno ( 1923) benannt.
Sie nden in der komplexitatstheoretischen Analyse von Algorithmen eine sehr hauge
Verwendung.
Satz 64
Seien X1 ; : : : ; Xn unabhangige Bernoulli-verteilte
Zufallsvariablen mit Pr[P
Xi = 1] = pi
P
und Pr[Xi = 0] = 1 pi . Dann gilt fur X := ni=1 Xi und := E[X ] = ni=1 pi ,
sowie jedes > 0, dass
Pr[X (1 + )] DWT
c Susanne Albers
e
(1 + )1+
:
163/460
Beweis:
Fur t > 0 gilt
Pr[X (1 + )] = Pr[etX et(1+) ] :
Mit der Markov-Ungleichung folgt
[etX ] :
Pr[X (1 + )] = Pr[etX et(1+) ] Et(1+
)
e
Wegen der Unabhangigkeit der Zufallsvariablen X1 ; : : : ; Xn gilt
"
E[etX ] = E
exp
n
X
i=1
Weiter ist fur i 2 f1; : : : ; ng:
E[etXi ] = et1 pi + et0 (1
DWT
c Susanne Albers
!#
tXi
"
=E
n
Y
i=1
#
etXi
=
n
Y
i=1
E[etXi ]:
pi ) = et pi + 1 pi = 1 + pi (et 1) ;
6.3 Cherno-Schranken
164/460
Beweis (Forts.):
und damit
Pr[X (1 + )] =
Qn
t
i=1 (1 + pi (e
et(1+)
Qn
t
i=1 exp(pi (e
et(1+)
Pn
exp( i=1 pi (et
et(1+)
1))
1))
1)) = e(et
1)
et(1+)
=: f (t) :
Wir wahlen nun t so, dass f (t) minimiert wird, namlich
t = ln(1 + ) :
Damit wird
DWT
c Susanne Albers
e(et 1)
e
f (t) = t(1+) =
:
e
(1 + )(1+)
164/460
Beispiel 65
Wir betrachten wieder das Beispiel, dass wir eine faire Munze n-mal werfen und
abschatzen wollen, mit welcher Wahrscheinlichkeit Kopf\
"
n
2 (1 + 10%)
oder ofter fallt.
n
1000
10000
n
DWT
c Susanne Albers
Chebyshev
0;1
0;01
1
4
n
(0;1 12 n)2
Cherno
0;0889
0;308 10
e0;1
(1+0;1)1+0;1
10
1n
2
165/460
Satz 66
Seien X1 ; : : : ; Xn unabhangige Bernoulli-verteilte
Zufallsvariablen mit Pr[P
Xi = 1] = pi
Pn
und Pr[Xi = 0] = 1 pi . Dann gilt fur X := i=1 Xi und := E[X ] = ni=1 pi ,
sowie jedes 0 < < 1, dass
e
Pr[X (1 )] (1 )1
:
Beweis:
Analog zum Beweis von Satz 64.
Bemerkung: Abschatzungen, wie sie in Satz 64 und Satz 66 angegeben sind, nennt
man auch tail bounds, da sie Schranken fur die tails, also die vom Erwartungswert weit
entfernten Bereiche angeben. Man spricht hierbei vom upper tail (vergleiche Satz 64)
und vom lower tail (vergleiche Satz 66).
Die Cherno-Schranken hangen exponentiell von ab!
DWT
c Susanne Albers
6.3 Cherno-Schranken
166/460
Lemma 67
Fur 0 < 1 gilt
(1 )1 e
+2 =2
und
(1 + )1+ e+ =3 :
Beweis:
Wir betrachten
2
1
2
f (x) = (1 x) ln(1 x) und g(x) = x + x2 :
Es gilt fur 0 x < 1:
sowie
g0 (x) = x 1 ln(1 x) 1 = f 0 (x)
f (0) = 0 = g(0) ;
also im angegebenen Intervall f (x) g (x).
Die Herleitung der zweiten Ungleichung erfolgt analog.
DWT
c Susanne Albers
167/460
Korollar 68
Seien X1 ; : : : ; Xn unabhangige Bernoulli-verteilte Zufallsvariablen mit Pr[P
Xi = 1] = pi
und Pr[Xi = P
0] = 1 pi . Dann gelten folgende Ungleichungen fur X := ni=1 Xi und
:= E[X ] = ni=1 pi :
2
1 Pr[X (1 + )] e =3
fur alle 0 < 1,
2
2 Pr[X (1
)] e =2 fur alle 0 < 1,
3
4
5
Pr[jX j ] 2e =3 fur alle 0 < 1,
(1+)
Pr[X (1 + )] 1+e und
Pr[X t] 2 t fur t 2e.
DWT
c Susanne Albers
2
168/460
Beweis:
1 und 2 folgen direkt aus Satz 64 bzw. 66 und Lemma 67.
Aus 1 und 2 zusammen folgt 3.
Die Abschatzung 4 erhalten wir direkt aus Satz 64, da fur den Zahler gilt
e e(1+) :
5 folgt aus 4, indem man t = (1 + ) setzt, t 2e:
e
1+
DWT
c Susanne Albers
(1+)
e
t=
t
6.3 Cherno-Schranken
t
12 :
169/460
Beispiel 69
Wir betrachten wieder balls into bins und werfen n Balle unabhangig und gleichverteilt
in n Korbe. Sei
Xi := Anzahl der Balle im i-ten Korb
fur i = 1; : : : ; n, sowie X := max1in Xi .
Fur die Analyse von Xi (i 2 f1; : : : ; ng beliebig) verwenden wir Aussage 5 von
Korollar 68, mit p1 = : : : = pn = n1 , = 1 und t = 2 log n. Es folgt
Pr[Xi 2 log n] 1=n2 :
Daraus ergibt sich
Pr[
X
2 log
n] = Pr[X1 2 log n _ : : : _ Xn 2 log n] n 2
n
1
Es gilt also mit Wahrscheinlichkeit 1
DWT
c Susanne Albers
=
1
n
:
1=n, dass X < 2 log n ist.
6.3 Cherno-Schranken
170/460
Literatur:
Torben Hagerup, Christine Rub:
A guided tour of Cherno bounds
Inf. Process. Lett. 33, pp. 305{308 (1990)
DWT
c Susanne Albers
171/460
7. Erzeugende Funktionen
7.1 Einfuhrung
Denition 70
Fur eine Zufallsvariable X mit WX
Funktion deniert durch
GX (s) :=
N0 ist die (wahrscheinlichkeits-)erzeugende
1
X
k=0
Pr[X = k] sk = E[sX ] :
Die obige Denition gilt fur allgemeine s 2 R, wir werden uns aber auf s 2 [
konzentrieren.
1; 1]
Eine wahrscheinlichkeitserzeugende Funktion ist also die (gewohnliche) erzeugende
Funktion der Folge (fi )i2N0 mit fi := Pr[X = i].
DWT
c Susanne Albers
7.1 Einfuhrung
172/460
Bei wahrscheinlichkeitserzeugenden Funktionen haben wir kein Problem mit der
Konvergenz, da fur jsj < 1 gilt
jGX (s)j =
DWT
c Susanne Albers
1
X
Pr[X
k=0
1
X
k=0
= k] sk Pr[X = k] jsk j 1
X
k=0
Pr[X = k] = 1 :
173/460
Beobachtung:
Sei Y := X + t mit t 2 N0 . Dann gilt
GY (s) = E[sY ] = E[sX +t ] = E[st sX ] = st E[sX ] = st GX (s) :
Ebenso lasst sich leicht nachrechnen, dass
1
X
0
GX (s) = k Pr[X = k] sk 1 , also
k=1
0
GX (0) = Pr[X = 1], sowie
G(i) (0) = Pr[X = i] i!, also
X
G(i) (0)=i! = Pr[X
X
DWT
c Susanne Albers
= i] :
7.1 Einfuhrung
174/460
Satz 71 (Eindeutigkeit der w.e. Funktion)
Die Dichte und die Verteilung einer Zufallsvariablen X mit WX
wahrscheinlichkeitserzeugende Funktion eindeutig bestimmt.
N sind durch ihre
Beweis:
Folgt aus der Eindeutigkeit der Potenzreihendarstellung.
DWT
c Susanne Albers
175/460
Bernoulli-Verteilung
Sei X eine Bernoulli-verteilte Zufallsvariable mit Pr[X = 0] = 1 p und
Pr[X = 1] = p. Dann gilt
GX (s) = E[sX ] = (1 p) s0 + p s1 = 1 p + ps :
Gleichverteilung auf f0; : : : ; ng
Sei X auf f0; : : : ; ng gleichverteilt, d.h. fur 0 k n ist Pr[X = k] = 1=(n + 1).
Dann gilt
GX (s) = E[sX ] =
DWT
c Susanne Albers
n
X
1 sk = sn+1 1 :
n+1
(n + 1)(s 1)
k=0
176/460
Binomialverteilung
Fur X Bin(n; p) gilt nach der binomischen Formel
GX
(s) = E[sX ] =
n
X
n k
p (1 p)n
k
k=0
k sk
= (1 p + ps)n :
Geometrische Verteilung
Sei X eine geometrisch verteilte Zufallsvariable mit Erfolgswahrscheinlichkeit p. Dann
gilt
GX (s) = E[sX ] =
1
X
k=1
= ps DWT
c Susanne Albers
p(1 p)k 1 sk
1
X
((1 p)s)k 1 = 1 (1ps p)s :
k=1
7.1 Einfuhrung
177/460
Poisson-Verteilung
Fur X Po() gilt
GX
DWT
c Susanne Albers
(s) = E[sX ] =
1
X
k=0
e
k
k!
sk = e
+s
= e(s 1) :
178/460
Beispiel 72
Sei X binomialverteilt mit X
GX (s) = 1
Bin(n; =n), Fur n ! 1 folgt
s
+
n n
n
= 1 + (sn 1)
n
! e(s 1) :
Man kann beweisen, dass aus der Konvergenz der wahrscheinlichkeitserzeugenden
Funktion die Konvergenz der Verteilung folgt.
DWT
c Susanne Albers
7.1 Einfuhrung
179/460
7.1.1 Zusammenhang zwischen der w.e. Funktion und den Momenten
Da
gilt
GX (s) :=
1
X
k=0
Pr[X = k] sk = E[sX ] ;
1
X
0
GX (1) = k Pr[X = k] = E[X ] :
k=1
DWT
c Susanne Albers
180/460
Beispiel 73
Sei X binomialverteilt mit X
Bin(n; p), also
GX (s) = (1 p + ps)n :
Dann gilt
G0X (s) = n (1 p + ps)n 1 p
und somit
E[X ] = G0X (1) = np :
DWT
c Susanne Albers
7.1 Einfuhrung
181/460
Beispiel 73
Ebenso ergibt sich
E[X (X 1) : : : (X i + 1)] = G(Xi) (1) ;
also etwa
Var[X ] = E[X (X 1)] + E[X ] E[X ]2
= G00X (1) + G0X (1) (G0X (1))2 :
Andere Momente von X kann man auf ahnliche Art und Weise berechnen.
DWT
c Susanne Albers
181/460
Momenterzeugende Funktionen
Denition 74
Zu einer Zufallsvariablen X ist die momenterzeugende Funktion gema
MX (s) := E[eXs ]
deniert.
Es gilt
MX
(s) = E[eXs ] = E
und fur Zufallsvariablen X mit WX
"
1
X
#
1 E[X i ]
(Xs)i = X
si
i
!
i
!
i=0
i=0
N0
MX (s) = E[eXs ] = E[(es )X ] = GX (es ) :
DWT
c Susanne Albers
7.1 Einfuhrung
182/460
7.2 Summen von Zufallsvariablen
Satz 75 (Erzeugende Funktion einer Summe)
Fur unabhangige Zufallsvariablen X1 ; : : : ; Xn und die Zufallsvariable
Z := X1 + : : : + Xn gilt
GZ (s) = GX1 (s) : : : GXn (s) :
Ebenso gilt
MZ (s) = MX1 (s) : : : MXn (s) :
Beweis:
Wegen der Unabhangigkeit von X1 ; : : : ; Xn gilt
GZ (s) = E[sX1 +:::+Xn ] = E[sX1 ] : : : E[sXn ] = GX1 (s) : : : GXn (s):
DWT
c Susanne Albers
183/460
Beispiel 76
Seien X1 ; : : : Xk mit Xi Bin(ni ; p) unabhangige Zufallsvariable und
Z := X1 + : : : + Xk . Dann gilt
GZ (s) =
und somit
k
Y
i=1
(1 p + ps)ni = (1 p + ps)
Z Bin(
k
X
i=1
Pk
i=1 ni
ni ; p)
(vgl. Satz 56).
Seien X1 ; : : : ; Xk Po() unabhangige Zufallsvariablen. Dann folgt fur
Z := X1 + : : : + Xk
k
Y
GZ (s) = e(s 1) = ek(s 1)
i=1
und somit Z Po(k) (vgl. Satz 59).
DWT
c Susanne Albers
7.2 Summen von Zufallsvariablen
184/460
7.2.1 Zufallige Summen
Wir betrachten die Situation, dass Z := X1 + : : : + XN , wobei N ebenfalls eine
Zufallsvariable ist.
Satz 77
Seien X1 ; X2 ; : : : unabhangige und identisch verteilte Zufallsvariablen mit der
wahrscheinlichkeitserzeugenden Funktion GX (s). N sei ebenfalls eine unabhangige
Zufallsvariable mit der wahrscheinlichkeitserzeugenden Funktion GN (s). Dann besitzt
die Zufallsvariable Z := X1 + : : : + XN die wahrscheinlichkeitserzeugende
Funktion GZ (s) = GN (GX (s)).
DWT
c Susanne Albers
7.2 Summen von Zufallsvariablen
185/460
Beweis:
Nach Voraussetzung ist WN
N0. Deshalb folgt mit Satz 36
GZ (s) =
=
=
=
1
X
n=0
1
X
n=0
1
X
n=0
1
X
n=0
E[sZ j N = n] Pr[N = n]
E[sX +:::+Xn ] Pr[N = n]
1
E[sX ] : : : E[sXn ] Pr[N = n]
1
(GX (s))n Pr[N = n]
= E[(GX (s))N ]
= GN (GX (s)) :
DWT
c Susanne Albers
186/460
8. Formelsammlung
8.1 Gesetze zum Rechnen mit Ereignissen
Im Folgenden seien A und B , sowie A1 ; : : : ; An Ereignisse. Die Notation A ] B steht
fur A [ B und zugleich A \ B = ; (disjunkte Vereinigung). A1 ] : : : ] An = bedeutet
also, dass die Ereignisse A1 ; : : : ; An eine Partition der Ergebnismenge bilden.
Pr[;] = 0
0 Pr[A] 1
Pr[A] = 1 Pr[A]
A B =) Pr[A] Pr[B ]
DWT
c Susanne Albers
8.1 Gesetze zum Rechnen mit Ereignissen
187/460
8i 6=Sj : Ai \ APj = ; =)
Pr [
n A]=
i=1 i
Additionssatz
n Pr[A ]
i
i=1
Pr[A [ B ] = Pr[A] + Pr[B ] Pr[A \ B ] Inklusion/Exklusion,
allgemeine Form: siehe Satz 9
Sn
Pr [
i=1 Ai ] Siebformel
Boolesche
Ungleichung
Pn
i=1 Pr[Ai ]
Pr[AjB ] = Pr[Pr[AB\B] ] fur Pr[B ] > 0
DWT
c Susanne Albers
Def. bedingte Ws.
8.1 Gesetze zum Rechnen mit Ereignissen
188/460
B A1 ]P: : : ] An =)
Pr[B ] = ni=1 Pr[B jAi ] Pr[Ai ]
Satz von der totalen
Wahrscheinlichkeit
Pr[B ] > 0, B A1 ] : : : ] An =)
B jAi ]Pr[Ai ]
Pr[Ai jB ] = PniPr[Pr[
B jAi ]Pr[Ai ]
Satz von Bayes
=1
Pr[A1 \ : : : \ An ] = Pr[A1 ] Pr[A2 jA1 ] Multiplikationssatz
: : : Pr[An jA1 \ : : : \ An 1 ]
A und B unabhangig
()
Pr[A \ B ] = Pr[A] Pr[B ]
DWT
c Susanne Albers
Denition
Unabhangigkeit
189/460
8.2 Erwartungswert und Varianz diskreter Zufallsvariablen
Sei X eine diskrete Zufallsvariable. Fur Erwartungswert und Varianz gelten die folgenden
Formeln (sofern E[X ] und Var[X ] existieren).
E[X ] =
=
Var[X ]
=
X
x 2W X
X
! 2
1
X
i=1
x Pr[X = x]
X (!) Pr[!]
Pr[X i]; falls WX N0
Erwartungswert
= E[(X E[X ])2 ]
= x2WX Pr[X = x] (x E[X ])2
DWT
c Susanne Albers
P
Varianz
8.2 Erwartungswert und Varianz diskreter Zufallsvariablen
190/460
8.3 Gesetze zum Rechnen mit Zufallsvariablen
Seien a, b, a1 , . . . , an 2 R, f1 ; : : : ; fn : R ! R.
X1 ; : : : ; Xn unabhangig
()
fur alle (a1 ; : : : ; an ):
Pr[X1 = a1 ; : : : ; Xn = an ]
= Pr[X1 = a1 ] : : : Pr[Xn = an ]
X1 ; : : : ; Xn unabhangig =) f1 (X1 ); : : : ; fn (Xn ) unabhangig
E[a X + b] = a E[X ] + b
DWT
c Susanne Albers
191/460
X (!) Y (!) fur alle ! 2 =)
E[X ] E[Y ]
E[X ] =
Monotonie des
Erwartungswerts
Pn
i=1 E[X jAi ] Pr[Ai ]
Var[X ] = E[X 2 ] E[X ]2
Var[a X + b] = a2 Var[X ]
DWT
c Susanne Albers
8.3 Gesetze zum Rechnen mit Zufallsvariablen
192/460
E[a1 X1 + : : : + an Xn ]
= a1 E[X1 ] + : : : + an E[Xn ]
Linearitat des
Erwartungswerts
X1 ; : : : ; Xn unabhangig =)
E[X1 : : : Xn ] = E[X1 ] : : : E[Xn ]
Multiplikativitat des
Erwartungswerts
X1 ; : : : ; Xn unabhangig =)
Var[X1 + : : : + Xn ] = Var[X1 ] + : : : + Varianz
einer Summe
Var[Xn ]
DWT
c Susanne Albers
193/460
X 0 =)
Pr[X t] E[X ]=t fur t > 0
Markov
Pr[jX E[X ]j t]
Var[X ]=t2 fur t > 0
Chebyshev
siehe Satz 63
Gesetz der
groen Zahlen
DWT
c Susanne Albers
194/460
Kapitel II Kontinuierliche Wahrscheinlichkeitsraume
1. Einfuhrung
1.1 Motivation
Interpretation der Poisson-Verteilung als Grenzwert der Binomialverteilung.
DWT
c Susanne Albers
1.1 Motivation
195/460
Beispiel 78
Wir betrachten das Szenario: Bei einem Druckerserver kommen Auftrage in einer
Warteschlange an, die alle 1=n Zeiteinheiten vom Server abgefragt wird. Der Server
nimmt also zu den diskreten Zeitpunkte 1=n; 2=n; 3=n; : : : neue Auftrage entgegen.
Durch den Grenzwert n ! 1 verschmelzen\ diese diskreten Zeitpunkte zu einer
"
kontinuierlichen Zeitachse, und fur die Zufallsvariable T , welche die Zeitspanne bis
zum Eintreen des nachsten Auftrags misst, reicht eine diskrete Wertemenge WT nicht
mehr aus.
DWT
c Susanne Albers
196/460
1.2 Kontinuierliche Zufallsvariablen
Denition 79
Eine kontinuierliche oder auch stetige Zufallsvariable X und ihr zugrunde liegender
kontinuierlicher (reeller) Wahrscheinlichkeitsraum sind deniert durch eine integrierbare
Dichte(-funktion) fX : R ! R+
0 mit der Eigenschaft
Z +1
fX (x) d x = 1:
1
S
Eine Menge A R, die durch Vereinigung A = k Ik abzahlbar vieler paarweise
disjunkter Intervalle beliebiger Art (oen, geschlossen, halboen, einseitig unendlich)
gebildet werden kann, heit Ereignis. Ein Ereignis A tritt ein, wenn X einen Wert
aus A annimmt. Die Wahrscheinlichkeit
von A ist bestimmt
durch
Z
Z
Pr[A] =
DWT
c Susanne Albers
A
fX (x) d x =
X
k
Ik
fX (x) d x:
1.2 Kontinuierliche Zufallsvariablen
197/460
Beispiel 80 (Gleichverteilung)
Eine besonders einfache kontinuierliche Dichte stellt die Gleichverteilung auf dem
Intervall [a; b] dar. Sie ist deniert durch
(
f (x) =
1
b a
0
fur x 2 [a; b],
sonst.
Analog zum diskreten Fall ordnen wir jeder Dichte fX eine Verteilung oder
Verteilungsfunktion FX zu:
FX (x) := Pr[X x] = Pr[ft 2 R j t xg] =
DWT
c Susanne Albers
Z x
1
fX (t) d t:
198/460
Beispiel 81
Die Verteilungsfunktion der Gleichverteilung:
F (x) =
DWT
c Susanne Albers
Z x
1
8
>
<0
f (t) d t = xb aa
>
:
1
fur x < a;
fur a x b;
fur x > b:
1.2 Kontinuierliche Zufallsvariablen
199/460
f (x)
1,4
1,2
1,0
1,0
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0,0
-0,2
-0,5
F (x)
1,4
1,2
0,0
0,0
0,5
1,0
-0,2
1,5
-0,5
0,0
0,5
1,0
1,5
Gleichverteilung uber dem Intervall [0; 1]
DWT
c Susanne Albers
200/460
Beobachtungen:(Eigenschaften der Verteilungsfunktion)
FX ist monoton steigend.
FX ist stetig. Man spricht daher auch von einer "stetigen Zufallsvariablen\.
Es gilt: limx! 1 FX (x) = 0 und limx!1 FX (x) = 1.
Jeder (auer an endlich vielen Punkten) dierenzierbaren Funktion F , welche die
zuvor genannten Eigenschaften erfullt, konnen wir eine Dichte f durch
f (x) = F 0 (x) zuordnen.
Es gilt
DWT
c Susanne Albers
Pr[a < X b] = FX (b) FX (a) :
201/460
Bei den von uns betrachteten Dichten besteht zwischen den Ereignissen a < X
"
a
X
b
\, a X < b\ und a < X < b\ kein wesentlicher Unterschied, da
"
"
"
Z
[a;b]
DWT
c Susanne Albers
f (t) d t =
Z
]a;b]
f (t) d t =
Z
[a;b[
f (t) d t =
Z
]a;b[
b\,
f (t) d t:
202/460
1.3 Kolmogorov-Axiome und -Algebren
1.3.1 -Algebren
Denition 82
Sei eine Menge. Eine Menge A P (
) heit -Algebra uber , wenn folgende
Eigenschaften erfullt sind:
(E1) 2 A.
(E2) Wenn A 2 A, dann folgt A 2 A.
S
(E3) Fur n 2 N sei An 2 A. Dann gilt auch 1
n=1 An 2 A.
DWT
c Susanne Albers
203/460
Fur jede (endliche) Menge stellt die Menge P (
) eine -Algebra dar.
Fur = R ist die Klasse der Borel'schen Mengen, die aus allen Mengen A R
besteht, welche sich durch abzahlbare Vereinigungen und Schnitte von Intervallen
(oen, halboen oder geschlossen) darstellen lassen, eine -Algebra.
DWT
c Susanne Albers
204/460
1.3.2 Kolmogorov-Axiome
Denition 83 (Wahrscheinlichkeitsraum, Kolmogorov-Axiome)
Sei eine beliebige Menge und A eine -Algebra uber . Eine Abbildung
Pr[:] : A ! [0; 1]
heit Wahrscheinlichkeitsma auf A, wenn sie folgende Eigenschaften besitzt:
1 (W1) Pr[
] = 1.
2
(W2) A1 ; A2 ; : : : seien paarweise
Ereignisse. Dann gilt
" disjunkte
#
1
1
[
X
Pr
i=1
Ai =
i=1
Pr[Ai ]:
Fur ein Ereignis A 2 A heit Pr[A] Wahrscheinlichkeit von A. Ein
Wahrscheinlichkeitsraum ist deniert durch das Tupel (
; A; Pr).
DWT
c Susanne Albers
205/460
Die in obiger Denition aufgelisteten Eigenschaften eines Wahrscheinlichkeitsmaes
wurden von dem russischen Mathematiker Andrei Nikolaevich Kolmogorov
(1903{1987) formuliert. Kolmogorov gilt als einer der Pioniere der modernen
Wahrscheinlichkeitstheorie, leistete jedoch auch bedeutende Beitrage zu zahlreichen
anderen Teilgebieten der Mathematik. Informatikern begegnet sein Name auch im
Zusammenhang mit der so genannten Kolmogorov-Komplexitat, einem relativ jungen
Zweig der Komplexitatstheorie.
Die Eigenschaften in obiger Denition nennt man auch Kolmogorov-Axiome.
DWT
c Susanne Albers
206/460
Lemma 84
Sei (
; A; Pr) ein Wahrscheinlichkeitsraum. Fur Ereignisse A, B , A1 , A2 , : : : gilt
1
2
3
4
Pr[;] = 0, Pr[
] = 1.
0 Pr[A] 1.
Pr[A] = 1 Pr[A].
Wenn A B , so folgt Pr[A] Pr[B ].
DWT
c Susanne Albers
1.3 Kolmogorov-Axiome und -Algebren
207/460
Lemma 84
5
(Additionssatz) Wenn die Ereignisse A1 ; : : : ; An paarweise disjunkt sind, so folgt
"
Pr
n
[
i=1
#
Ai =
n
X
i=1
Pr[Ai ]:
Fur disjunkte Ereignisse A, B erhalten wir insbesondere
Pr[A [ B ] = Pr[A] + Pr[B ]:
Fur eine unendliche
Menge
von paarweise disjunkten Ereignissen A1 ; A2 ; : : : gilt
S
P1
analog Pr [ 1
A
]
=
i=1 i
i=1 Pr[Ai ].
DWT
c Susanne Albers
207/460
Beweis:
Wenn wir in Eigenschaft (W2)
A = und A2 ; A3 ; : : : = ; setzen, so ergibt die
P1 1
Eigenschaft, dass Pr[
] + i=2 Pr[;] = Pr[
]. Daraus folgt Pr[;] = 0.
Regel 2 und Regel 5 gelten direkt nach Denition der Kolmogorov-Axiome und Regel 1.
Regel 3 erhalten wir mit Regel 5 wegen 1 = Pr[
] = Pr[A] + Pr[A].
Fur Regel 4 betrachten wir die disjunkten Ereignisse A und C := B n A, fur die gilt,
dass A [ B = A [ C . Mit Regel 5 folgt die Behauptung.
DWT
c Susanne Albers
208/460
1.3.3 Lebesgue-Integrale
Eine Funktion f : R ! R heit messbar, falls das Urbild jeder Borel'schen Menge
ebenfalls eine Borel'sche Menge ist.
Z.B. ist fur jede Borel'sche Menge A die Indikatorfunktion
IA : x 7!
(
1 falls x 2 A,
0 sonst
messbar. Jede stetige Funktion ist messbar. Auch Summen und Produkte von
messbaren Funktionen sind wiederum messbar.
Jeder messbaren
Funktion kann man ein Integral, das so genannte Lebesgue-Integral,
R
geschrieben f d , zuordnen.
DWT
c Susanne Albers
209/460
Ist f : R ! R+
0 eine messbare Funktion, so deniert
R
Pr : A 7! f IA d eine Abbildung auf den Borel'schen Mengen, die die Eigenschaft (W2) der
Kolmogorov-Axiome erfullt. Gilt daher zusatzlich noch Pr[R] = 1, so deniert f auf
naturliche Weise einen Wahrscheinlichkeitsraum (
; A; Pr), wobei = R und A die
Menge der Borel'schen Mengen ist.
DWT
c Susanne Albers
1.3 Kolmogorov-Axiome und -Algebren
210/460
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
1.4.1 Funktionen kontinuierlicher Zufallsvariablen
Sei Y := g (X ) mit einer Funktion g : R ! R.
Die Verteilung von Y erhalten wir durch
FY (y) = Pr[Y
y] = Pr[g(X ) y] =
Z
C
fX (t) d t:
Hierbei bezeichnet C := ft 2 R j g (t) y g alle reellen Zahlen t 2 R, fur welche die
Bedingung Y y\ zutrit. Das Integral uber C ist nur dann sinnvoll deniert,
"
wenn C ein zulassiges Ereignis darstellt. Aus der Verteilung FY konnen wir durch
Dierenzieren die Dichte fY ermitteln.
DWT
c Susanne Albers
211/460
Beispiel 85
Sei X gleichverteilt auf dem Intervall ]0; 1[. Fur eine Konstante > 0 denieren wir
die Zufallsvariable Y := (1=) ln X .
FY (y) = Pr[ (1=) ln X y] = Pr[ln X y]
= Pr[X e y ]
= 1 FX (e y )
(
y f
ur y 0;
= 1 e
0
sonst:
DWT
c Susanne Albers
212/460
Beispiel (Forts.)
Damit folgt mit fY (y ) = FY0 (y ) sofort
(
fY (y) =
e
0
y
fur y 0;
sonst:
Eine Zufallsvariable mit einer solchen Dichte fY nennt man exponentialverteilt.
DWT
c Susanne Albers
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
213/460
Beispiel 86
Sei X eine beliebige Zufallsvariable. Fur a; b 2 R mit a > 0 denieren wir die
Zufallsvariable Y := a X + b.
Es gilt
FY (y ) = Pr[aX + b y ] = Pr X
und somit
fY (y) =
DWT
c Susanne Albers
d FY (y )
dy
yab
=
FX
y
a
b
;
= d FX ((dy y b)=a) = fX y a b a1 :
214/460
Simulation von Zufallsvariablen
Unter der Simulation einer Zufallsvariablen X mit Dichte fX versteht man die
algorithmische Erzeugung von Zufallswerten, deren Verteilung der Verteilung von X
entspricht.
Dazu nehmen wir an, dass die zu simulierende Zufallsvariable X eine stetige, im
Bildbereich ]0; 1[ streng monoton wachsende Verteilungsfunktion FX besitzt. Weiter
nehmen wir an, dass U eine auf ]0; 1[ gleichverteilte Zufallsvariable ist, die wir
simulieren konnen.
Aus unserer Annahme uber FX folgt, dass es zu FX eine (eindeutige) inverse Funktion
F 1 gibt mit FX (F 1 (x)) = x fur alle x 2]0; 1[.
X
DWT
c Susanne Albers
X
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
215/460
Sei nun
X~ := FX 1 (U ) ;
dann gilt
Pr[X~ t] = Pr[FX 1 (U ) t]
= Pr[U FX (t)]
= FU (FX (t))
= FX (t) :
DWT
c Susanne Albers
216/460
Beispiel 87
Im obigen Beispiel der Exponentialverteilung gilt FX (t) = 1 e t fur t 0, und wir
erhalten auf ]0; 1[ die Umkehrfunktion FX 1 (t) = ln(1 t). Also gilt
X~ = FX 1 (U ) = ln(1 U ).
Statt X~ haben wir im Beispiel die Zufallsvariable
oensichtlich dieselbe Verteilung besitzt.
DWT
c Susanne Albers
ln U betrachtet, die aber
217/460
1.4.2 Kontinuierliche Zufallsvariablen als Grenzwerte diskreter Zufallsvariablen
Sei X eine kontinuierliche Zufallsvariable. Wir konnen aus X leicht eine diskrete
Zufallsvariable konstruieren, indem wir fur ein festes > 0 denieren
X = n
Fur X gilt
DWT
c Susanne Albers
() X 2 [n; (n + 1)[ fur n 2 Z:
Pr[X = n] = FX ((n + 1)) FX (n) :
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
218/460
1,0
FX (x)
FXÆ (x)
0,8
0,6
0,4
0,2
0,0
-3,0
-2,0
-1,0
0,0
1,0
2,0
3,0
Fur ! 0 nahert sich die Verteilung von X der Verteilung von X immer mehr an.
DWT
c Susanne Albers
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
219/460
1.4.3 Erwartungswert und Varianz
Denition 88
Fur eine kontinuierliche Zufallsvariable X ist der Erwartungswert deniert durch
E[X ] =
Z
1
1
t fX (t) d t;
R
sofern das Integral 11 jtj fX (t) d t endlich ist.
Fur die Varianz gilt entsprechend
Z 1
2
Var[X ] = E[(X E[X ]) ] =
(t
1
wenn E[(X E[X ])2 ] existiert.
DWT
c Susanne Albers
E[X ])2 fX (t) d t;
220/460
Lemma 89
Sei X eine kontinuierliche Zufallsvariable, und sei
Y := g(X ) :
Dann gilt
DWT
c Susanne Albers
E[Y ] =
Z
1
1
g(t) fX (t) d t :
221/460
Beweis:
Wir zeigen die Behauptung nur fur den einfachen Fall, dass g eine lineare Funktion ist,
also Y := a X + b fur a; b 2 R und a > 0.
Es gilt (siehe obiges Beispiel)
E[a X + b] =
Z
1
Durch die Substitution u := (t
1
t fY (t) d t =
1
1
t fX
t b
a
a1 d t:
b)=a mit d u = (1=a) d t erhalten wir
E[a X + b] =
DWT
c Susanne Albers
Z
Z
1
1
(au + b)fX (u) d u:
222/460
Beispiel 90
Fur Erwartungswert und Varianz der Gleichverteilung ergibt sich
Z b
Z b
1
1
E[X ] = t dt = b a t dt
b a
a
a
1
2
b
= 2(b a) [t ]a
2
2
= 2(b b aa) = a +2 b ;
1 Z b t2 d t = b2 + ba + a2 ;
b a a
3
2
Var[X ] = E[X 2 ] E[X ]2 = : : : = (a 12b) :
E[X 2 ] =
DWT
c Susanne Albers
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
223/460
1.4.4 Laplace-Prinzip in kontinuierlichen Wahrscheinlichkeitsraumen
Das folgende Beispiel zeigt, dass im kontinuierlichen Fall die Bedeutung von
gleichwahrscheinlich\ nicht immer ganz klar sein muss.
"
Bertrand'sches Paradoxon
Wir betrachten einen Kreis mit einem eingeschriebenen gleichseitigen Dreieck. Was ist
die Wahrscheinlichkeit, mit der die Lange einer zufallig gewahlten Sehne die
Seitenlange dieses Dreiecks ubersteigt (Ereignis A)?
DWT
c Susanne Albers
1.4 Rechnen mit kontinuierlichen Zufallsvariablen
224/460
r
2
S
120Æ
M
DWT
c Susanne Albers
d
S
M
'
225/460
Beobachtungen:
Die Seiten des Dreiecks haben Abstand 2r vom Mittelpunkt M .
Die Lage jeder Sehne ist (bis auf Rotation um M ) durch einen der folgenden
Parameter festgelegt:
Abstand d zum Kreismittelpunkt,
Winkel ' mit dem Kreismittelpunkt.
Wir nehmen fur jeden dieser Parameter Gleichverteilung an und ermitteln Pr[A].
1 Sei d 2 [0; r ] gleichverteilt. A tritt ein, wenn d < r , und es folgt Pr[A] = 1 .
2
2
2 Sei ' 2 [0 ; 180 ] gleichverteilt. F
ur A muss gelten ' 2]120 ; 180 ], und es folgt
somit Pr[A] = 31 .
Siehe auch diese graphischen Darstellungen!
DWT
c Susanne Albers
226/460
2. Wichtige stetige Verteilungen
2.1 Gleichverteilung
(
f (x) =
F (x) =
0
8
>
<0
Z x
1
E[X ] =
DWT
c Susanne Albers
fur x 2 [a; b];
sonst:
1
b a
f (t) d t = xb aa
>
:
1
a+b
2
fur x < a;
fur a x b;
fur x > b:
und Var[X ] =
2.1 Gleichverteilung
(a b)2 :
12
227/460
2.2 Normalverteilung
Die Normalverteilung nimmt unter den stetigen Verteilungen eine besonders
prominente Position ein.
Denition 91
Eine Zufallsvariable X mit Wertebereich WX = R heit normalverteilt mit den
Parametern 2 R und 2 R+ , wenn sie die Dichte
1 exp
f (x) = p
2
(x )2 =: '(x; ; )
2 2
besitzt.
In Zeichen schreiben wir X N (; 2 ).
N (0; 1) heit Standardnormalverteilung. Die zugehorige Dichte '(x; 0; 1) kurzen wir
durch '(x) ab.
DWT
c Susanne Albers
228/460
Die Verteilungsfunktion zu N (; 2 ) ist
1 F (x) = p
2
Z x
1
exp
(t )2 d t =: (x; ; ) :
2 2
Diese Funktion heit Gau'sche -Funktion (' ist nicht geschlossen integrierbar).
DWT
c Susanne Albers
229/460
Lemma 92
I :=
Beweis:
Wir berechnen zunachst I 2 :
I2 =
=
Z
1
Z
1Z
1
Z
1
1
e
1
e
x2 =2 d x = p2:
Z
x2 =2 d x
1
1
e
y2 =2 d y
2
2
e (x +y )=2 d x d y :
1 1
Wir gehen nun zu Polarkoordinaten uber und setzen x := r cos und y := r sin .
Dann ist
DWT
c Susanne Albers
@x
@r
@x
@
@y
@r
@y
@
sin = r(cos2 + sin2 ) = r
= cos
r sin r cos 2.2 Normalverteilung
230/460
Beweis (Forts.):
und wir erhalten
I2 =
=
DWT
c Susanne Albers
Z 2 Z
0
Z
0
2
0
1
e
r2 =2 r d r d =
Z 2 h
0
e
r2 =2
i1
0
d
1 d = 2:
231/460
= 0;5
=1
=2
1,0
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0,0
DWT
c Susanne Albers
-3,0
-2,0
-1,0
= 0;5
=1
=2
1,0
0,0
1,0
2,0
3,0
0,0
-3,0
-2,0
-1,0
0,0
Dichte und Verteilung von N (0; 2 )
1,0
2,0
3,0
232/460
Satz 93 (Lineare Transformation der Normalverteilung)
Sei X eine normalverteilte Zufallsvariable mit X N (; 2 ). Dann gilt fur beliebiges
a 2 R n f0g und b 2 R, dass Y = aX + b normalverteilt ist mit Y N (a + b; a2 2 ).
Beweis:
Wir betrachten zunachst den Fall a > 0\:
"
Pr[Y y] = Pr[aX + b y] = Pr X y a b
Z (y b)=a
1
(
u )2
p
=
exp
22 d u:
2 1
Nach der Substitution u = (v
DWT
c Susanne Albers
b)=a und d u = (1=a) d v erhalten wir
233/460
Beweis (Forts.):
Z y
2
1
Pr[Y y] = p
exp (v 2aa2 2 b) d v :
2a 1
Also Y N (a + b; a2 2 ). Fur a < 0 verlauft der Beweis analog.
DWT
c Susanne Albers
2.2 Normalverteilung
234/460
Sei also X eine beliebige N (; 2 )-verteilte Zufallsvariable X und Y
Dann ist nach Satz 93 Y
N (0; 1)-verteilt. Y
:= X .
heit auch normiert.
Ferner gilt
Pr[a < X b] = Pr a < Y b b a = :
DWT
c Susanne Albers
235/460
Satz 94
X sei N (0; 1)-verteilt. Dann gilt
E[X ] = 0 und Var[X ] = 1:
Beweis:
Z 1
1
x2
E[X ] = p
x exp
2 d x:
2 1
Da der Integrand punktsymmetrisch zu (0; 0) ist, folgt E[X ] = 0.
DWT
c Susanne Albers
236/460
Beweis (Forts.):
Mittels Lemma 92 und durch partielle Integration erhalten wir
p
2 =
Z
1
1
exp
= x exp
|
x2
2
{z
=0
x2
2 dx
1
1}
+
Z
1
1
x2 exp
Daraus folgt, dass E[X 2 ] = 1 ist und somit Var[X ] = E[X 2 ]
DWT
c Susanne Albers
2.2 Normalverteilung
x2
2 dx
E[X ]2 = 1.
237/460
Satz 95
X sei N (; 2 )-verteilt. Dann gilt
E[X ] = und Var[X ] = 2 :
Beweis:
Y :=
X ist standardnormalverteilt. Ferner gilt gema der Rechenregeln f
ur
Erwartungswert und Varianz
E[X ] = E[Y + ] = E[Y ] + = und
DWT
c Susanne Albers
Var[X ] = Var[Y + ] = 2 Var[Y ] = 2 :
238/460
2.3 Exponentialverteilung
Die Exponentialverteilung ist in gewisser Weise das kontinuierliche Analogon zur
geometrischen Verteilung. Wie die geometrische Verteilung ist sie gedachtnislos\. Sie
"
spielt daher vor allem bei der Modellierung von Wartezeiten eine groe Rolle.
DWT
c Susanne Albers
2.3 Exponentialverteilung
239/460
Denition 96
Eine Zufallsvariable X heit exponentialverteilt mit dem Parameter , > 0, wenn sie
die Dichte
(
e x falls x 0;
f (x) =
0
sonst
besitzt.
Fur die entsprechende Verteilungsfunktion gilt (fur x 0)
F (x) =
Z x
0
e
t d t =
h
e
i
t x
0
=1 e
x :
Fur x < 0 gilt selbstverstandlich F (x) = 0.
DWT
c Susanne Albers
2.3 Exponentialverteilung
240/460
E[X ] =
Z
h
0
1
te
t d t
Z
i1
1
e t d t
= t ( e t ) 0 +
1 0
1
=0+
e t = 1 :
DWT
c Susanne Albers
0
241/460
Analog erhalten wir
E[X 2 ] =
=
Z
h
1
t2 e
t d t
0
i1 Z 1
2
t
2t e t d t
t ( e ) +
0
0
= 0 + 2 E[X ] = 22
und somit
DWT
c Susanne Albers
Var[X ] = E[X 2 ] E[X ]2 = 12 :
242/460
2,0
1,0
= 0;5
=1
=2
1,6
0,8
1,2
0,6
0,8
0,4
0,4
0,2
0,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
0,0
0,0
= 0;5
=1
=2
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
Dichte und Verteilung der Exponentialverteilung
DWT
c Susanne Albers
2.3 Exponentialverteilung
243/460
2.3.1 Eigenschaften der Exponentialverteilung
Satz 97 (Skalierung exponentialverteilter Variablen)
Sei X eine exponentialverteilte Zufallsvariable mit dem Parameter . Fur a > 0 ist die
Zufallsvariable Y := aX wieder exponentialverteilt mit dem Parameter =a.
Beweis:
FY (x) = Pr[Y x] = Pr[aX x]
h
i
= Pr X xa = FX xa
= 1 e xa :
DWT
c Susanne Albers
244/460
Gedachtnislosigkeit
Satz 98 (Gedachtnislosigkeit)
Eine (positive) kontinuierliche Zufallsvariable X mit Wertebereich R+ ist genau dann
exponentialverteilt, wenn fur alle x; y > 0 gilt, dass
Pr[X > x + y j X > y] = Pr[X > x] :
(*)
Beweis:
Sei X exponentialverteilt mit Parameter . Dann gilt
> x + y; X > y]
Pr[X > x + y j X > y] = Pr[X Pr[
X > y]
X > x + y]
= Pr[Pr[
X > y]
(x+y)
y
=ee
DWT
c Susanne Albers
=e
2.3 Exponentialverteilung
x
= Pr[X > x] :
245/460
Beweis (Forts.):
Sei umgekehrt X eine kontinuierliche Zufallsvariable, die die Gleichung () erfullt. Wir
denieren g (x) := Pr[X > x]. Fur x; y > 0 gilt
g(x + y) = Pr[X > x + y]
= Pr[X > x + y j X > y] Pr[X > y]
= Pr[X > x] Pr[X > y] = g(x)g(y) :
Daraus folgt durch wiederholte Anwendung
1
1 = g 1 g(1) = g + +
n}
n
|n
{z
n
fur alle n 2 N
n-mal
und somit insbesondere auch g (1=n) = (g (1))1=n .
DWT
c Susanne Albers
246/460
Beweis (Forts.):
Da X nur positive Werte annimmt, muss es ein n 2 N geben mit g (1=n) > 0. Wegen
0 < g(1) 1 muss es daher auch ein 0 geben mit g(1) = e .
Nun gilt fur beliebige p; q 2 N
g(p=q) = g(1=q)p = g(1)p=q ;
und somit g (r) = e r fur alle r 2 Q+ .
Aufgrund der Stetigkeit folgt daraus
g(x) = e
DWT
c Susanne Albers
x :
247/460
Beispiel 99
 ber das Casium-Isotop 134
U
55 Cs ist bekannt, dass es eine mittlere Lebensdauer von
ungefahr 3,03 Jahren oder 1;55 106 Minuten besitzt. Die Zufallsvariable X messe die
Lebenszeit eines bestimmten 134
55 Cs-Atoms. X ist exponentialverteilt mit dem Parameter
1 = 1 0;645 10
=
E[X ] 1;55 106
6
1
min
Da den Kehrwert einer Zeit als Einheit besitzt, spricht man von der Zerfallsrate.
Auch bei anderen Anwendungen ist es ublich, als Rate einzufuhren.
DWT
c Susanne Albers
2.3 Exponentialverteilung
248/460
2.3.2 Exponentialverteilung als Grenzwert der geometrischen Verteilung
Erinnerung: Die Poisson-Verteilung lasst sich als Grenzwert der Binomialverteilung
darstellen.
Wir betrachten eine Folge geometrisch verteilter Zufallsvariablen Xn mit Parameter
pn = =n. Fur ein beliebiges k 2 N ist die Wahrscheinlichkeit, dass Xn k n, gleich
Pr[Xn kn] =
kn
X
i=1
(1 pn )i 1 pn = pn = pn 1 (1p pn
n
DWT
c Susanne Albers
)kn
=1
kn
X1
i=0
1
(1 pn )i
n
kn
:
249/460
Wegen limn!1 (1
n
n)
= e gilt daher fur die Zufallsvariablen Yn := n1 Xn , dass
lim Pr[Yn t] = nlim
!1 Pr[Xn t n]
n!1
"
= nlim
!1 1
=1 e
1
n
tn #
t :
Die Folge Yn der (skalierten) geometrisch verteilten Zufallsvariablen geht also fur
n ! 1 in eine exponentialverteilte Zufallsvariable mit Parameter uber.
DWT
c Susanne Albers
2.3 Exponentialverteilung
250/460
3. Mehrere kontinuierliche Zufallsvariablen
3.1 Mehrdimensionale Dichten
Beobachtung
Zu zwei kontinuierlichen Zufallsvariablen X , Y wird der zugrunde liegende gemeinsame
Wahrscheinlichkeitsraum uber R2 durch eine integrierbare (gemeinsame)
Dichtefunktion fX;Y : R2 ! R+
0 mit
Z 1 Z 1
1
1
fX;Y (x; y) d x d y = 1
beschrieben. Fur ein Ereignis A R2 (das aus abzahlbar vielen geschlossenen oder
oenen Bereichen gebildet sein muss) gilt
Pr[A] =
DWT
c Susanne Albers
Z
A
fX;Y (x; y) d x d y:
3.1 Mehrdimensionale Dichten
251/460
Unter einem Bereich B verstehen wir dabei Mengen der Art
B = f(x; y) 2 R2 j a x b; c y dg mit a; b; c; d 2 R:
Dabei konnen die einzelnen Intervallgrenzen auch oen\ bzw. 1 sein.
"
DWT
c Susanne Albers
252/460
Analog zum eindimensionalen Fall ordnen wir der Dichte fX;Y eine (gemeinsame)
Verteilung FX;Y : R2 ! [0; 1] zu:
FX;Y (x; y) = Pr[X x; Y
DWT
c Susanne Albers
y] =
Z y Z x
1
3.1 Mehrdimensionale Dichten
1
fX;Y (u; v) d u d v:
253/460
3.2 Randverteilungen und Unabhangigkeit
Denition 100
Sei fX;Y die gemeinsame Dichte der Zufallsvariablen X und Y . Die Randverteilung der
Variablen X ist gegeben durch
FX (x) = Pr[X x] =
Analog nennen wir
fX (x) =
Z x Z
1
1
1
Z
1
fX;Y (u; v) d v d u:
fX;Y (x; v) d v
1
die Randdichte von X . Entsprechende Denitionen gelten symmetrisch fur Y .
DWT
c Susanne Albers
254/460
Denition 101
Zwei kontinuierliche Zufallsvariablen X und Y heien unabhangig, wenn
Pr[X x; Y y] = Pr[X x] Pr[Y y]
fur alle x; y 2 R gilt.
Dies ist gleichbedeutend mit
FX;Y (x; y) = FX (x) FY (y) :
Dierentiation ergibt
DWT
c Susanne Albers
fX;Y (x; y) = fX (x) fY (y) :
255/460
Fur mehrere Zufallsvariablen X1 ; : : : ; Xn gilt analog: X1 ; : : : ; Xn sind genau dann
unabhangig, wenn
FX1 ;:::;Xn (x1 ; : : : ; xn ) = FX1 (x1 ) : : : FXn (xn )
bzw.
fX1 ;:::;Xn (x1 ; : : : ; xn ) = fX1 (x1 ) : : : fXn (xn )
fur alle x1 ; : : : ; xn 2 R.
DWT
c Susanne Albers
3.2 Randverteilungen und Unabhangigkeit
256/460
3.3 Warteprobleme mit der Exponentialverteilung
Warten auf mehrere Ereignisse
Satz 102
Die Zufallsvariablen X1 ; : : : ; Xn seien unabhangig und exponentialverteilt mit den
Parametern 1 ; : : : ; n . Dann ist auch X := minfX1 ; : : : ; Xn g exponentialverteilt mit
dem Parameter 1 + : : : + n .
Beweis:
Der allgemeine Fall folgt mittels Induktion aus dem fur n = 2. Fur die
Verteilungsfunktion FX gilt:
1 FX (t) = Pr[X > t] = Pr[minfX1 ; X2 g > t]
= Pr[X1 > t; X2 > t]
= Pr[X1 > t] Pr[X2 > t]
= e 1 t e 2 t = e (1 +2 )t :
DWT
c Susanne Albers
257/460
Anschaulich besagt Satz 102, dass sich die Raten addieren, wenn man auf das erste
Eintreten eines Ereignisses aus mehreren unabhangigen Ereignissen wartet. Wenn
beispielsweise ein Atom die Zerfallsrate besitzt, so erhalten wir bei n Atomen die
Zerfallsrate n (wie uns auch die Intuition sagt).
DWT
c Susanne Albers
3.3 Warteprobleme mit der Exponentialverteilung
258/460
Poisson-Prozess
Wir hatten bei der Diskussion der geometrischen und der Poisson-Verteilung
festgestellt:
Wenn der zeitliche Abstand der Treer geometrisch verteilt ist, so ist ihre Anzahl in
einer festen Zeitspanne binomialverteilt.
Im Grenzwert n ! 1, wobei wir die Treerwahrscheinlichkeit mit pn = =n ansetzen,
konvergiert die geometrische Verteilung gegen die Exponentialverteilung und die
Binomialverteilung gegen die Poisson-Verteilung. Im Grenzwert n ! 1 erwarten wir
deshalb die folgende Aussage:
Wenn man Ereignisse zahlt, deren zeitlicher Abstand exponentialverteilt ist, so ist die
Anzahl dieser Ereignisse in einer festen Zeitspanne Poisson-verteilt.
DWT
c Susanne Albers
259/460
Seien T1 ; T2 : : : unabhangige exponentialverteilte Zufallsvariablen mit Parameter . Die
Zufallsvariable Ti modelliert die Zeit, die zwischen Treer i 1 und i vergeht.
Fur den Zeitpunkt t > 0 denieren wir
X (t) := maxfn 2 N j T1 + : : : + Tn tg:
X (t) gibt also an, wie viele Treer sich bis zur Zeit t (von Zeit Null ab) ereignet
haben. Es gilt:
DWT
c Susanne Albers
260/460
Fakt 103
Seien T1 ; T2 ; : : : unabhangige Zufallsvariablen und sei X (t) fur t > 0 wie oben
deniert. Dann gilt: X (t) ist genau dann Poisson-verteilt mit Parameter t, wenn es
sich bei T1 ; T2 ; : : : um exponentialverteilte Zufallsvariablen mit Parameter handelt.
Zum Zufallsexperiment, das durch T1 ; T2 ; : : : deniert ist, erhalten wir fur jeden Wert
t > 0 eine Zufallsvariable X (t). Hierbei konnen wir t als Zeit interpretieren und X (t)
als Verhalten des Experiments zur Zeit t. Eine solche Familie (X (t))t>0 von
Zufallsvariablen nennt man allgemein einen stochastischen Prozess. Der hier
betrachtete Prozess, bei dem T1 ; T2 ; : : : unabhangige, exponentialverteilte
Zufallsvariablen sind, heit Poisson-Prozess und stellt ein fundamentales und zugleich
praktisch sehr bedeutsames Beispiel fur einen stochastischen Prozess dar.
DWT
c Susanne Albers
261/460
Beispiel 104
Wir betrachten eine Menge von Jobs, die auf einem Prozessor sequentiell abgearbeitet
werden. Die Laufzeiten der Jobs seien unabhangig und exponentialverteilt mit
Parameter = 1=30[1=s]. Jeder Job benotigt also im Mittel 30s.
Gema Fakt 103 ist die Anzahl von Jobs, die in einer Minute vollstandig ausgefuhrt
werden, Poisson-verteilt mit Parameter t = 60 (1=30) = 2.
Die Wahrscheinlichkeit, dass in einer Minute hochstens ein Job abgearbeitet wird,
betragt in diesem Fall (t = 2)
e
DWT
c Susanne Albers
t + te t
0;406 :
262/460
3.4 Summen von Zufallsvariablen
Satz 105
Seien X und Y unabhangige kontinuierliche Zufallsvariablen. Fur die Dichte von
Z := X + Y gilt
Z
fZ (z ) =
1
1
fX (x) fY (z x) d x :
Beweis:
Nach Denition der Verteilungsfunktion gilt
FZ (t) = Pr[Z t] = Pr[X + Y
t] =
Z
A(t)
fX;Y (x; y) d xd y
wobei A(t) = f(x; y ) 2 R2 j x + y tg.
DWT
c Susanne Albers
3.4 Summen von Zufallsvariablen
263/460
Beweis (Forts.):
Aus der Unabhangigkeit von X und Y folgt
FZ (t) =
=
Z
A(t)
Z
1
1
fX (x) fY (y) d xd y
fX (x) Z t x
1
fY (y) d y d x:
Mittels der Substitution z := x + y , d z = d y ergibt sich
Z t x
1
und somit
FZ (t) =
DWT
c Susanne Albers
fY (y) d y =
Z t Z
1
1
1
Z t
1
fY (z x) d z
fX (x)fY (z x) d x d z :
264/460
Satz 106 (Additivitat der Normalverteilung)
Die Zufallsvariablen X1 ; : : : ; Xn seien unabhangig und normalverteilt mit den
Parametern i ; i (1 i n). Es gilt: Die Zufallsvariable
Z := a1 X1 + : : : + an Xn
ist normalverteilt mit Erwartungswert = a1 1 + : : : + an n und Varianz
2 = a21 12 + : : : + a2n n2 .
Beweis:
Wir beweisen zunachst den Fall n = 2 und a1 = a2 = 1. Nach Satz 105 gilt fur
Z := X1 + X2 , dass
Z1
fZ (z ) =
=
DWT
c Susanne Albers
1
fX1 (z
1
1 2
2
Z1
1
y ) fX2 (y ) d y
exp
1
2
|
z
(
y 1 )2 (y 2 )2
+
d y:
12
22
{z
}
=:v
3.4 Summen von Zufallsvariablen
265/460
Beweis (Forts.):
Wir setzen
:= 1 + 2
2 := 12 + 22
v1 := (z )=
v22 := v v12
Damit ergibt sich unmittelbar
v22 =
woraus wir
ermitteln.
DWT
c Susanne Albers
(z y 1 )2 + (y 2 )2
12
v2 =
22
y12 2 12 + y22
1 2 (z 1 2 )2 ;
12 + 22
z22 + 1 22
3.4 Summen von Zufallsvariablen
266/460
Beweis (Forts.):
Damit folgt fur die gesuchte Dichte
fZ (z ) =
Wir substituieren noch
und erhalten
1
2 1 2 exp
v12
Z
2 1 exp
t := v2 und d t =
1
2 d y:
dy
1 2
Z 1
(
z )2
1
fZ (z ) =
2 exp
22 1 exp
Mit Lemma 92 folgt, dass fZ (z ) = '(z ; ; ) ist.
DWT
c Susanne Albers
v22
t2
2 d t:
267/460
Beweis (Forts.):
Daraus erhalten wir die Behauptung fur n = 2, denn den Fall Z := a1 X1 + a2 X2 fur
beliebige Werte a1 ; a2 2 R konnen wir leicht mit Hilfe von Satz 93 auf den soeben
bewiesenen Fall reduzieren. Durch Induktion kann die Aussage auf beliebige Werte
n 2 N verallgemeinert werden.
DWT
c Susanne Albers
268/460
3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen
Fur diskrete Zufallsvariablen X haben wir die momenterzeugende Funktion
MX (s) = E[eXs ]
eingefuhrt. Diese Denition kann man unmittelbar auf kontinuierliche Zufallsvariablen
ubertragen. Die fur MX (s) gezeigten Eigenschaften bleiben dabei erhalten.
DWT
c Susanne Albers
3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen
269/460
Beispiel 107
Fur eine auf [a; b] gleichverteilte Zufallsvariable U gilt
MU (t) = E[etX ] =
etx
= t(b a)
etb
eta
Z b
a
b
etx 1 dx
b a
a
= t(b a) :
DWT
c Susanne Albers
270/460
Beispiel (Forts.)
Fur eine standardnormalverteilte Zufallsvariable N
N (0; 1) gilt
Z +1
1
MN (t) = p
et e =2 d 2 1 Z
+1
e (t ) =2 d = et =2 p1
2 1
t
=
2
=e :
2
2
2
2
DWT
c Susanne Albers
3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen
271/460
Beispiel (Forts.)
Daraus ergibt sich fur Y
N (; 2) wegen Y N (0; 1)
MY (t) = E[etY ]
Y = et E[e(t) ]
= et MN (t)
= et+(t)2 =2 :
DWT
c Susanne Albers
272/460
Weiterer Beweis von Satz 106:
Beweis:
Gema dem vorhergehenden Beispiel gilt
MXi (t) = eti +(ti ) =2 :
Wegen der Unabhangigkeit der Xi folgt
2
MZ (t) = E[et(a1 X1 ++an Xn ) ] =
=
=
n
Y
i=1
n
Y
n
Y
i=1
E[e(ai t)Xi ]
MXi (ai t)
eai ti +(ai ti ) =2
2
i=1
= et+(t)2 =2 ;
mit = a1 1 + + an n und 2 = a21 12 + + a2n n2 .
DWT
c Susanne Albers
3.5 Momenterzeugende Funktionen fur kontinuierliche Zufallsvariablen
273/460
4. Zentraler Grenzwertsatz
Satz 108 (Zentraler Grenzwertsatz)
Die Zufallsvariablen X1 ; : : : ; Xn besitzen jeweils dieselbe Verteilung und seien
unabhangig. Erwartungswert und Varianz von Xi existieren fur i = 1; : : : ; n und seien
mit bzw. 2 bezeichnet ( 2 > 0).
Die Zufallsvariablen Yn seien deniert durch Yn := X1 + : : : + Xn fur n 1. Dann
folgt, dass die Zufallsvariablen
Yn n
p
n
asymptotisch standardnormalverteilt sind, also Zn N (0; 1) fur n ! 1.
Zn :=
DWT
c Susanne Albers
4 Zentraler Grenzwertsatz
274/460
Etwas formaler ausgedruckt gilt: Die Folge der zu Zn gehorenden
Verteilungsfunktionen Fn hat die Eigenschaft
lim F (x) = (x) fur alle
n!1 n
x 2 R:
Wir sagen dazu auch: Die Verteilung von Zn konvergiert gegen die
Standardnormalverteilung fur n ! 1.
DWT
c Susanne Albers
275/460
Dieser Satz ist von groer Bedeutung fur die Anwendung der Normalverteilung in der
Statistik. Der Satz besagt, dass sich die Verteilung einer Summe beliebiger
unabhangiger Zufallsvariablen (mit endlichem Erwartungswert und Varianz) der
Normalverteilung umso mehr annahert, je mehr Zufallsvariablen an der Summe
beteiligt sind.
DWT
c Susanne Albers
276/460
Beweis:
Wir betrachten Xi := (Xi )= fur i = 1; : : : ; n mit E[Xi ] = 0 und Var[Xi ] = 1.
Damit gilt (gema vorhergehendem Beispiel)
p
MZ (t) = E[etZ ] = E[et(X1 +:::+Xn )= n ]
p
p
= MX1 (t= n) : : : MXn (t= n) :
Fur beliebiges i betrachten wir die Taylorentwicklung von MXi (t) =: h(t) an der Stelle
t=0
h00 (0) 2
h(t) = h(0) + h0 (0) t +
t + O(t3):
Aus der Linearitat des Erwartungswerts folgt
2
h0 (t) = E[etXi Xi ] und h00 (t) = E[etXi (Xi )2 ]:
DWT
c Susanne Albers
4 Zentraler Grenzwertsatz
277/460
Beweis (Forts.):
Damit gilt
h0 (0) = E[Xi ] = 0 und h00 (0) = E[(Xi )2 ] = Var[X ] = 1:
Durch Einsetzen in die Taylorreihe folgt h(t) = 1 + t2 =2 + O(t3 ), und wir konnen
MZ (t) umschreiben zu
t2
t3
MZ (t) = 1 + + O 3=2
2n
n
n
! et =2 fur n ! 1:
2
Aus der Konvergenz der momenterzeugenden Funktion folgt auch die Konvergenz der
Verteilung. Damit ist Z asymptotisch normalverteilt.
DWT
c Susanne Albers
278/460
Beweis (Forts.):
Die momenterzeugende Funktion existiert leider nicht bei allen Zufallsvariablen und
unser Beweis ist deshalb unvollstandig. Man umgeht dieses Problem, indem man statt
der momenterzeugenden Funktion die so genannte charakteristische Funktion
M~ X (t) = E[eitX ] betrachtet. Fur Details verweisen wir auf die einschlagige
Literatur.
DWT
c Susanne Albers
279/460
Der Zentrale Grenzwertsatz hat die folgende intuitive Konsequenz:
Wenn eine Zufallsgroe durch lineare Kombination vieler unabhangiger,
identisch verteilter Zufallsgroen entsteht, so erhalt man naherungsweise eine
Normalverteilung.
DWT
c Susanne Albers
280/460
Ein wichtiger Spezialfall das Zentralen Grenzwertsatzes besteht darin, dass die
auftretenden Zufallsgroen Bernoulli-verteilt sind.
Korollar 109 (Grenzwertsatz von de Moivre)
X1 ; : : : ; Xn seien unabhangige Bernoulli-verteilte Zufallsvariablen mit gleicher
Erfolgswahrscheinlichkeit p. Dann gilt fur die Zufallsvariable Hn mit
Hn := X1 + : : : + Xn
fur n 1, dass die Verteilung der Zufallsvariablen
Hn :=
Hn np
np(1 p)
p
fur n ! 1 gegen die Standardnormalverteilung konvergiert.
DWT
c Susanne Albers
281/460
Beweis:
Die Behauptung folgt unmittelbar aus dem Zentralen Grenzwertsatz, da
= n1 E[Hn ] = p und 2 = n1 Var[Hn ] = p(1 p).
Bemerkung
Wenn man X1 ; : : : ; Xn als Indikatorvariablen fur das Eintreten eines Ereignisses A bei
n unabhangigen Wiederholungen eines Experimentes interpretiert, dann gibt Hn die
absolute Haugkeit von A an.
DWT
c Susanne Albers
4 Zentraler Grenzwertsatz
282/460
4.1 Normalverteilung als Grenzwert der Binomialverteilung
Korollar 109 ermoglicht, die Normalverteilung als Grenzwert der Binomialverteilung
aufzufassen. Die folgende Aussage ist eine Konsequenz von Korollar 109:
Korollar 110
Sei Hn Bin(n; p) eine binomialverteilte Zufallsvariable. Die Verteilung von Hn =n
konvergiert gegen N (p; p(1 p)=n) fur n ! 1.
DWT
c Susanne Albers
4.1 Normalverteilung als Grenzwert der Binomialverteilung
283/460
0.4
0.4
Bin(10, 0.3)
ϕ(x)
0.3
0.3
0.2
0.2
0.1
0.1
0.0
-4.0
-3.0
-2.0
-1.0
0.0
0.4
1.0
2.0
3.0
4.0
0.0
-4.0
0.3
0.2
0.2
0.1
0.1
-3.0
-2.0
-1.0
0.0
1.0
2.0
-3.0
-2.0
-1.0
0.0
0.4
Bin(50, 0.3)
ϕ(x)
0.3
0.0
-4.0
Bin(20, 0.3)
ϕ(x)
3.0
4.0
0.0
-4.0
1.0
2.0
3.0
4.0
3.0
4.0
Bin(100, 0.3)
ϕ(x)
-3.0
-2.0
-1.0
0.0
1.0
2.0
Vergleich von Binomial- und Normalverteilung
n; 0:3) bei 0:3n zentriert, mit
Bin(
DWT
c Susanne Albers
p0:3 0:7n horizontal gestaucht und vertikal gestreckt
4.1 Normalverteilung als Grenzwert der Binomialverteilung
284/460
Historisch gesehen entstand Korollar 109 vor Satz 108.
Fur den Fall p = 1=2 wurde Korollar 109 bereits von Abraham de Moivre (1667{1754)
bewiesen. De Moivre war geburtiger Franzose, musste jedoch aufgrund seines
protestantischen Glaubens nach England iehen. Dort wurde er unter anderem Mitglied
der Royal Society, erhielt jedoch niemals eine eigene Professur.
Die allgemeine Formulierung von Korollar 109 geht auf Pierre Simon Laplace
(1749{1827) zuruck. Allerdings vermutet man, dass die Losung des allgemeinen Falls
p 6= 1=2 bereits de Moivre bekannt war.
DWT
c Susanne Albers
285/460
4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2
Wir betrachten die Wahrscheinlichkeit Pr[a H2n b] fur p = 1=2 und a; b 2 R mit
a b. Wenn die Verteilung von H2n , wieRin Korollar 109 angegeben, gegen N (0; 1)
konvergiert, so sollte Pr[a H2n b] ab '(t) d t fur genugend groe n gelten.
Wir schreiben f (n) 1 g (n) fur limn!1 f (n)=g (n) = 1, wollen also zeigen:
Pr[a H 2n b] 1
Z b
a
'(t) d t:
Da fur H2n Bin(2n; 1=2) gilt, dass E[H2n ] = n und Var[H2n ] = n=2 ist, erhalten wir
H2n n
;
H2n = p
n=2
DWT
c Susanne Albers
286/460
und es folgt
p
p
Pr[a H2n b] = Pr[n + a n=2 H2n n + b n=2]
X
= Pr[H2n = n + i]
i2In
p
p
fur In := fz 2 Z j a n=2 z b n=2g. Damit ist
2n
2n 1
2n b] =
n
+ i {z 2
i2In |
Pr[a H X
=:pn;i
DWT
c Susanne Albers
:
}
4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2
287/460
Es gilt
2n
max pn;i pn := 2n
i
21
n
und mit der Stirling'schen Approximation fur n!
p
2n
n)! 1
= (2
(n!)2 2
;
(2n)2n e 2n p 2 2n 1 2n = p1 :
pn 1
2
n
(nn e n 2n)2
Ersetzen wir nun die pn;i durch pn , so entsteht dabei ein Fehler, den wir mit
qn;i := ppn;i
n bezeichnen.
DWT
c Susanne Albers
4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2
288/460
Fur i > 0 gilt
qn;i =
=
2n 1 2n
n+i 2
2n 1 2n
2
n
Qi 1
j =0 (n j )
Qi
j =1 (n + j )
= (n + i(2)!n )!(n n! i)!n! (2n)!
i i
Y
Y
2
j 1
n j+1
=
1 n+j :
=
n+j
j =1
j =1
Wegen der Symmetrie der Binomialkoezienten gilt qn; i = qn;i , womit auch der Fall
i < 0 abgehandelt ist.
DWT
c Susanne Albers
289/460
Man macht sich leicht klar, dass 1
schlieen wir, dass
0
ln @
i
Y
j =1
p
1
1 A
1 2nj + j
1=x ln x x 1 fur x > 0 gilt. Damit
=
i
X
ln 1 2nj + j1
j =1
i
X
i
X
2
j 1
2j 1
n+j
n+i
j =1
j =1
2
3
= i(i n++1)i i = in + n(ni + i)
2
= in + O p1n ;
da i = O( n) fur i 2 In .
DWT
c Susanne Albers
4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2
290/460
Ebenso erhalten wir
0
ln @
i
Y
j =1
1
1 A
1 2nj + j
=
i
X
1
j =1
i
X
1 2nj + j1
2j + 1 n j+1
j =1
i2
= n i =
Zusammen haben wir
e
i2
n i
=e
i2
n
O p1n
qn;i e
p
Wegen eO(1= n) = 1 o(1) folgt daraus qn;i
DWT
c Susanne Albers
1 e
i2
n
i
X
1!
2j 1
j =1
n i
O p1n :
i2 +O p1
n
n
i2 =n .
291/460
Damit schatzen wir nun Pr[a H2n b] weiter ab:
X
Pr[a H2n b] = pn qn;i 1
i2In
Mit :=
p1n |
X
i 2I n
e
{z
=:Sn
i2 =n :
}
p
2=n konnen wir die Summe Sn umschreiben zu
1 X e (i) :
Sn = p 2 i2In
2 1
2
R
R
2
Diese Summe entspricht einer Naherung fur ab '(t) d t = p12 ab e t =2 d t durch
Aufteilung der integrierten Flache in Balken der Breite
ur n ! 1 konvergiert die
R . F
Flache der Balken gegen das Integral, d. h. Sn 1 ab '(t) d t.
q. e. d.
DWT
c Susanne Albers
4.2 Elementarer Beweis des Grenzwertsatzes von de Moivre fur p = 1=2
292/460
4.3 Verschiedene Approximationen der Binomialverteilung
Sei Hn Bin(n; p) eine binomialverteilte Zufallsvariable mit der Verteilungsfunktion
Fn . Fur n ! 1 gilt
Fn (t) = Pr[Hn =n t=n]
!
t=n p
! p
=
p(1 p)=n
!
t np
p
:
p(1 p)n
Wir konnen Fn somit fur groe n durch approximieren. Diese Approximation ist in
der Praxis deshalb von Bedeutung, da die Auswertung der Verteilungsfunktion der
Binomialverteilung fur groe n sehr aufwandig ist, wahrend fur die Berechnung der
Normalverteilung eziente numerische Methoden vorliegen.
DWT
c Susanne Albers
4.3 Verschiedene Approximationen der Binomialverteilung
293/460
Beispiel 111
Wenn man die Wahrscheinlichkeit berechnen mochte, mit der bei 106 Wurfen mit
einem idealen Wurfel mehr als 500500-mal eine gerade Augenzahl fallt, so muss man
eigentlich folgenden Term auswerten:
T :=
10
X
106
6
i=5;00510
5
i
106
1
2
:
Dies ist numerisch kaum ezient moglich.
Die numerische Integration der Dichte ' der Normalverteilung ist hingegen relativ
einfach. Auch andere Approximationen der Verteilung , beispielsweise durch
Polynome, sind bekannt. Entsprechende Funktionen werden in zahlreichen
Softwarebibliotheken als black box\ angeboten.
"
DWT
c Susanne Albers
294/460
Beispiel
Mit der Approximation durch die Normalverteilung erhalten wir
5;005p 105 5 105
T 1 2;5 105
102
= 1 55 10
2
= 1 (1) 0;1573 :
DWT
c Susanne Albers
!
4.3 Verschiedene Approximationen der Binomialverteilung
295/460
Bei der Approximation der Binomialverteilung mit Hilfe von Korollar 109 fuhrt man oft
noch eine so genannte Stetigkeitskorrektur durch. Zur Berechnung von Pr[X x] fur
X Bin(n; p) setzt man
Pr[X x] xp+ 0;5 np
np(1 p)
statt
an.
DWT
c Susanne Albers
Pr[X x] p x np
np(1 p)
!
!
296/460
Der Korrekturterm lat sich in der Histogramm-Darstellung der Binomialverteilung
veranschaulichen. Die Binomialverteilung wird dort durch Balken angegeben, deren
Flache in etwa der Flache unterhalb der Dichte ' von N (0; 1) entspricht. Wenn man
die Flache der Balken mit X x\ durch das Integral von ' approximieren mochte, so
"
sollte man bis zum Ende des Balkens fur X = x\ integrieren und nicht nur bis zur
"
Mitte. Dafur sorgt der Korrekturterm 0;5.
DWT
c Susanne Albers
4.3 Verschiedene Approximationen der Binomialverteilung
297/460
Approximationen fur die Binomialverteilung
Approximation durch die Poisson-Verteilung: Bin(n; p) wird approximiert durch
Po(np). Diese Approximation funktioniert sehr gut fur seltene Ereignisse, d. h.
wenn np sehr klein gegenuber n ist. Als Faustregel fordert man n 30 und
p 0;05.
Approximation durch die Cherno-Schranken: Bei der Berechnung der tails der
Binomialverteilung liefern diese Ungleichungen meist sehr gute Ergebnisse. Ihre
Starke liegt darin, dass es sich bei den Schranken nicht um Approximationen,
sondern um echte Abschatzungen handelt. Dies ist vor allem dann wichtig, wenn
man nicht nur numerische Naherungen erhalten mochte, sondern allgemeine
Aussagen uber die Wahrscheinlichkeit von Ereignissen beweisen mochte.
DWT
c Susanne Albers
298/460
Approximation durch die Normalverteilung: Als Faustregel sagt man, dass die
Verteilungsfunktion Fn (t) von Bin(n; p) durch
p
Fn (t) ((t np)= p(1 p)n)
approximiert werden kann, wenn np 5 und n(1
DWT
c Susanne Albers
p) 5 gilt.
299/460
Kapitel III Induktive Statistik
1. Einfuhrung
Das Ziel der induktiven Statistik besteht darin, aus gemessenen Zufallsgroen auf die
zugrunde liegenden Gesetzmaigkeiten zu schlieen. Im Gegensatz dazu spricht man
von deskriptiver Statistik, wenn man sich damit beschaftigt, groe Datenmengen
verstandlich aufzubereiten, beispielsweise durch Berechnung des Mittelwertes oder
anderer abgeleiteter Groen.
DWT
c Susanne Albers
1 Einfuhrung
300/460
2. Schatzvariablen
Wir betrachten die Anzahl X von Lesezugrien auf eine Festplatte bis zum ersten
Lesefehler und nehmen an, dass Pr[X = i] = (1 p)i 1 p, setzen also fur X eine
geometrische Verteilung an. Dahinter verbirgt sich die Annahme, dass bei jedem
Zugri unabhangig und mit jeweils derselben Wahrscheinlichkeit p ein Lesefehler
auftreten kann.
Unter diesen Annahmen ist die Verteilung der Zufallsvariablen X eindeutig festgelegt.
Allerdings entzieht sich der numerische Wert des Parameters p noch unserer Kenntnis.
Dieser soll daher nun empirisch geschatzt werden. Statt p konnen wir ebensogut E[X ]
bestimmen, da wir daraus nach den Eigenschaften der geometrischen Verteilung p
mittels p = E[1X ] berechnen konnen.
DWT
c Susanne Albers
2 Schatzvariablen
301/460
Dazu betrachten wir n baugleiche Platten und die zugehorigen Zufallsvariablen Xi (fur
1 i n), d. h. wir zahlen fur jede Platte die Anzahl von Zugrien bis zum ersten
Lesefehler. Die Zufallsvariablen Xi sind dann unabhangig und besitzen jeweils dieselbe
Verteilung wie X . Wir fuhren also viele Kopien eines bestimmten Zufallsexperiments
aus, um Schlusse auf die Gesetzmaigkeiten des einzelnen Experiments ziehen zu
konnen. Dies ist das Grundprinzip der induktiven Statistik. Die n Messungen heien
Stichproben, und die Variablen Xi nennt man Stichprobenvariablen.
DWT
c Susanne Albers
302/460
Grundprinzip statistischer Verfahren
Wir erinnern an das Gesetz der groen Zahlen (Satz 63) bzw. den Zentralen
Grenzwertsatz (Satz 108). Wenn man ein Experiment genugend oft wiederholt, so
nahert sich der Durchschnitt der Versuchsergebnisse immer mehr dem Verhalten an,
das man im Mittel\ erwarten wurde. Je mehr Experimente wir also durchfuhren, umso
"
genauere und zuverlassigere Aussagen konnen wir uber den zugrunde liegenden
Wahrscheinlichkeitsraum ableiten. Auf diesem Grundprinzip beruhen alle statistischen
Verfahren.
DWT
c Susanne Albers
303/460
Um E[X ] empirisch zu ermitteln, bietet es sich an, aus den Zufallsvariablen Xi das
arithmetische Mittel X zu bilden, das deniert ist durch
n
X
1
Xi :
X :=
n
i=1
Es gilt
E[X ] =
n
n
1X
1X
E[X ] =
E[X ] = E[X ]:
n i=1
i
n i=1
X liefert uns also im Mittel den gesuchten Wert E[X ]. Da wir X zur Bestimmung von
E[X ] verwenden, nennen wir X einen Schatzer fur den Erwartungswert E[X ]. Wegen
der obigen Eigenschaft ist X sogar ein so genannter erwartungstreuer Schatzer.
DWT
c Susanne Albers
2 Schatzvariablen
304/460
Denition 112
Gegeben sei eine Zufallsvariable X mit der Dichte f (x; ). Eine Schatzvariable oder
kurz Schatzer fur den Parameter der Dichte von X ist eine Zufallsvariable, die aus
mehreren (meist unabhangigen und identisch verteilten) Stichprobenvariablen
zusammengesetzt ist. Ein Schatzer U heit erwartungstreu, wenn gilt
E[U ] = :
Bemerkung:
Die Groe E[U
] nennt man Bias der Schatzvariablen U . Bei erwartungstreuen
Schatzvariablen ist der Bias gleich Null.
DWT
c Susanne Albers
305/460
Der Schatzer X ist also ein erwartungstreuer Schatzer fur den Erwartungswert von X .
Ein wichtiges Ma fur die Gute eines Schatzers ist die mittlere quadratische
Abweichung, kurz MSE fur mean squared error genannt. Diese berechnet sich durch
MSE := E[(U )2 ]. Wenn U erwartungstreu ist, so folgt
MSE = E[(U E[U ])2 ] = Var[U ].
Denition 113
Wenn die Schatzvariable A eine kleinere mittlere quadratische Abweichung besitzt als
die Schatzvariable B , so sagt man, dass A ezienter ist als B .
Eine Schatzvariable heit konsistent im quadratischen Mittel, wenn MSE ! 0 fur
n ! 1 gilt. Hierbei bezeichne n den Umfang der Stichprobe.
DWT
c Susanne Albers
306/460
Fur X erhalten wir wegen der Unabhangigkeit von X1 ; : : : ; Xn
"
n
1X
MSE = Var[X ] = Var
Xi
n
= n12
DWT
c Susanne Albers
n
X
i=1
#
i=1
Var[Xi ] = n1 Var[X ]:
307/460
Bei jeder Verteilung mit endlicher Varianz folgt MSE = O(1=n) und somit MSE ! 0
fur n ! 1. Der Schatzer X ist also konsistent.
Aus der Konsistenz von X im quadratischen Mittel konnen wir mit Hilfe des Satzes
von Chebyshev (siehe Satz 61) folgende Konsequenz ableiten. Sei " > 0 beliebig, aber
fest. Dann gilt
X]
!0
Pr[jX j "] = Pr[jX E[X ]j "] Var[
2
"
fur n ! 1. Fur genugend groe n liegen also die Werte von X beliebig nahe am
gesuchten Wert = E[X ]. Diese Eigenschaft nennt man auch schwache Konsistenz, da
sie aus der Konsistenz im quadratischen Mittel folgt.
DWT
c Susanne Albers
2 Schatzvariablen
308/460
Als nachstes betrachten wir eine weitere von X abgeleitete Schatzvariable:
S :=
v
u
u
t
1
n
X
n 1 i=1
(Xi X )2 :
Wir zeigen, dass S 2 ein erwartungstreuer Schatzer fur die Varianz von X ist. Sei
:= E[X ] = E[Xi ] = E[X ].
(
Xi
X )2 = (Xi
= (Xi
+ X )2
)2 + ( X )2 + 2(Xi
)2 + (
Xi
= (
=
DWT
c Susanne Albers
n
2
n
Xi
(
X )2
)2 + (
2
n
X
n j =1
X )2
2 Schatzvariablen
)(
(
Xi
2
)(Xj
X
n j 6=i
X)
(
Xi
)
)(Xj
):
309/460
Fur je zwei unabhangige Zufallsvariablen Xi , Xj mit i 6= j gilt
E[(Xi )(Xj )] = E[Xi ] E[Xj ]
= (E[Xi ] ) (E[Xj ] ) = 0 0 = 0:
Daraus folgt
n 2
E[(Xi )2] + E[( X )2]
n
= n n 2 Var[Xi ] + Var[X ]:
E[(Xi X )2 ] =
DWT
c Susanne Albers
310/460
Wegen Var[Xi ] = Var[X ] und Var[X ] = n1 Var[X ] folgt nun
E[(Xi X )2 ] =
n 1
Var[X ];
n
und somit gilt fur S 2
E[S 2 ] =
1
n
X
E[(Xi X )2 ]
n 1 i=1
= n 1 1 n n n 1 Var[X ] = Var[X ]:
S 2 ist also eine erwartungstreue Schatzvariable fur die Varianz von X .
DWT
c Susanne Albers
311/460
Die vorangegangene Rechnung erklart, warum man als Schatzer nicht
n
1X
(X
n i=1
i
!
X )2 6= S 2
verwendet, wie man vielleicht intuitiv erwarten wurde.
DWT
c Susanne Albers
2 Schatzvariablen
312/460
Denition 114
Die Zufallsvariablen
X :=
n
n
1X
1 X
Xi und S 2 :=
(Xi X )2
n
n 1
i=1
i=1
heien Stichprobenmittel bzw. Stichprobenvarianz der Stichprobe X1 ; : : : ; Xn . X und
S 2 sind erwartungstreue Schatzer fur den Erwartungswert bzw. die Varianz.
DWT
c Susanne Albers
313/460
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
Wir betrachten nun ein Verfahren zur Konstruktion von Schatzvariablen fur Parameter
von Verteilungen. Sei
X~ = (X1 ; : : : ; Xn ):
Bei X1 ; : : : ; Xn handelt es sich um unabhangige Kopien der Zufallsvariablen X mit der
Dichte f (x; ). Hierbei sei der gesuchte Parameter der Verteilung. Wir setzen
f (x; ) = Pr[X = x];
wobei ein Parameter der Verteilung ist.
Wenn wir den Parameter explizit angeben wollen, so schreiben wir dafur auch
f (x; ) = Pr [X = x]. Eine Stichprobe liefert fur jede Variable Xi einen Wert xi .
Diese Werte fassen wir ebenfalls zu einem Vektor ~x = (x1 ; : : : ; xn ) zusammen.
DWT
c Susanne Albers
314/460
Der Ausdruck
L(~x; ) :=
n
Y
i=1
f (xi ; ) =
n
Y
i=1
Pr [Xi = xi ]
= Pr [X1 = x1 ; : : : ; Xn = xn ]
unabh.
entspricht der Wahrscheinlichkeit, dass wir die Stichprobe ~x erhalten, wenn wir den
Parameter mit dem Wert belegen.
Wir betrachten nun eine feste Stichprobe ~x und fassen L(~x; ) somit als Funktion von
auf. In diesem Fall nennen wir L die Likelihood-Funktion der Stichprobe.
DWT
c Susanne Albers
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
315/460
Es erscheint sinnvoll, zu einer gegebenen Stichprobe ~x den Parameter so zu wahlen,
dass L(x; ) maximal wird.
Denition 115
Ein Schatzwert b fur den Parameter einer Verteilung f (x; ) heit
Maximum-Likelihood-Schatzwert (ML-Schatzwert) fur eine Stichprobe ~x, wenn gilt
L(~x; ) L(~x; b) fur alle :
DWT
c Susanne Albers
316/460
Beispiel 116
Wir konstruieren mit der ML-Methode einen Schatzer fur den Parameter p der
Bernoulli-Verteilung. Es gilt Prp [Xi = 1] = p und Prp [Xi = 0] = 1 p. Daraus
schlieen wir, dass Prp [Xi = xi ] = pxi (1 p)1 xi , und stellen die Likelihood-Funktion
n
Y
L(~x; p) = pxi (1 p)1 xi
i=1
auf.
Wir suchen als Schatzer fur p den Wert, an dem die Funktion L maximal wird. Wir
erhalten
n
ln L(~x; p) =
X
i=1
(xi ln p + (1 xi ) ln(1 p))
= nx ln p + (n nx) ln(1 p):
P
Hierbei bezeichnet x das arithmetische Mittel n1 ni=1 xi .
DWT
c Susanne Albers
317/460
Beispiel (Forts.)
Wir nden das Maximum durch Nullsetzen der Ableitung:
d ln L(~x; p)
dp
= npx n1 npx = 0:
Diese Gleichung hat die Losung p = x.
DWT
c Susanne Albers
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
318/460
Beispiel 117
Die Zufallsvariable X sei N (; 2 )-verteilt, und wir suchen Schatzvariablen fur die
Parameter und . Nach Denition der Likelihood-Funktion gilt
L(~x; ; 2 ) =
p1
2
n
n
Y
i=1
exp
(xi )2 :
2 2
Durch Logarithmieren erhalten wir
X
p
ln L(~x; ; 2 ) = n(ln 2 + ln ) +
i=1
n DWT
c Susanne Albers
(xi )2 :
2 2
319/460
Beispiel 117
Fur die Nullstellen der Ableitungen ergibt sich
also
n
@ ln L X
= xi2 =! 0;
@
i=1
n
(xi )2 =! 0;
@ ln L
n X
=
+
@
i=1 3
= x und 2 =
n
1X
(x
n i=1
i
)2 :
Wir haben also durch die ML-Methode fast\ das Stichprobenmittel und die
"
Stichprobenvarianz erhalten. Allerdings besitzt der Schatzer fur die Varianz hier den
Vorfaktor n1 statt n 1 1 . Die ML-Schatzvariable fur die Varianz ist somit nicht
erwartungstreu.
DWT
c Susanne Albers
319/460
3. Kondenzintervalle
Bei der Verwendung von Schatzvariablen geht man davon aus, dass der erhaltene
Schatzwert nahe\ beim gesuchten Parameter liegt. Die Schatzungen werden
"
besser\, je groer die betrachtete Stichprobe ist. Diese Angaben sind aus
"
quantitativer Sicht naturlich unbefriedigend, da nicht erkennbar ist, wie gut man sich
auf den Schatzwert verlassen kann.
Die Losung dieses Problems besteht darin, statt einer Schatzvariablen U zwei Schatzer
U1 und U2 zu betrachten. U1 und U2 werden so gewahlt, dass
Pr[U1 U2 ] 1 :
Die Wahrscheinlichkeit 1 heit Kondenzniveau und kann dem
Sicherheitsbedurfnis\ angepasst werden.
"
DWT
c Susanne Albers
320/460
Wenn wir fur eine konkrete Stichprobe die Schatzer U1 und U2 berechnen und davon
ausgehen, dass 2 [U1 ; U2 ] ist, so ziehen wir hochstens mit Wahrscheinlichkeit einen
falschen Schluss. [U1 ; U2 ] heit Kondenzintervall.
In vielen Fallen verwendet man nur eine Schatzvariable U und konstruiert mittels
U1 := U und U2 := U + ein symmetrisches Kondenzintervall [U ; U + ].
DWT
c Susanne Albers
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
321/460
Sei X eine N (; 2 )-verteilte Zufallsvariable, und seien X1 ; : : : ; Xn n zugehorige
Stichprobenvariablen. Gema der Additivitat der Normalverteilung (siehe Satz 106) ist
2
das Stichprobenmittel X ebenfalls normalverteilt mit X N (; n ). Wir suchen fur X
ein symmetrisches Kondenzintervall.
Nach Satz 93 ist
standardnormalverteilt.
DWT
c Susanne Albers
p X Z := n 322/460
Fur Z betrachten wir das Kondenzintervall [ c; c] fur ein geeignetes c > 0 und setzen
Pr[ c Z c] =! 1 :
Auosen nach ergibt
Pr X
pcn
X + pcn =! 1 :
Das gesuchte Kondenzintervall lautet also
K = [X
DWT
c Susanne Albers
pcn ; X + pcn ] :
323/460
Den Parameter c wahlen wir wie folgt:
Pr[ c Z c] = (c) ( c) =! 1 :
Wegen der Symmetrie von gilt ( x) = 1
(x) und wir erhalten
(c) ( c) = 2 (c) 1 =! 1 () (c) = 1 2 ;
also
DWT
c Susanne Albers
c= 1 1
2 :
3.0 Maximum-Likelihood-Prinzip zur Konstruktion von Schatzvariablen
324/460
Denition 118
X sei eine stetige Zufallsvariable mit Verteilung FX . Eine Zahl x mit
FX (x ) = heit -Quantil von X bzw. der Verteilung FX .
Denition 119
Fur die Standardnormalverteilung bezeichnet z das -Quantil.
DWT
c Susanne Albers
325/460
Damit konnen wir das gesuchte Kondenzintervall angeben durch
K= X
DWT
c Susanne Albers
z(1 2 ) z(1 2 ) pn ; X + pn :
326/460
4. Testen von Hypothesen
4.1 Einfuhrung
Bislang haben wir versucht, Parameter von Verteilungen zu schatzen. In der Praxis ist
man jedoch oft an der eigentlichen Kenntnis dieser Parameter gar nicht interessiert,
sondern man mochte gewisse, damit zusammenhangende Behauptungen uberprufen.
Im Folgenden stellen wir die Bestandteile eines statistischen Tests anhand eines
abstrakten Beispiels vor. Wir betrachten dazu eine Zufallsvariable X mit
Pr[X = 1] = p und Pr[X = 0] = 1 p. Durch einen Test soll uberpruft werden, ob
p < 1=3 oder p 1=3 gilt.
DWT
c Susanne Albers
327/460
Denition eines Tests
Wir betrachten eine Stichprobe von n unabhangigen Stichprobenvariablen X1 ; : : : ; Xn ,
die dieselbe Verteilung wie die Zufallsvariable X besitzen. Zu einem zugehorigen
Stichprobenvektor ~x mussen wir nun die Frage beantworten, ob wir fur diesen
Versuchsausgang die Hypothese p 1=3\ annehmen oder ablehnen.
"
Sei
K := f~x 2 Rn ; ~x fuhrt zur Ablehnung der Hypotheseg:
K nennen wir den Ablehnungsbereich oder den kritischen Bereich des Tests.
DWT
c Susanne Albers
4.1 Einfuhrung
328/460
Gewohnlich wird K konstruiert, indem man die Zufallsvariablen X1 ; : : : ; Xn zu einer
neuen Variablen T , der so genannten Testgroe, zusammenfasst. Dann unterteilt man
den Wertebereich R von T in mehrere Bereiche, die entweder zur Ablehnung der
Hypothese fuhren sollen oder nicht. Dabei betrachtet man meist ein einzelnes
halboenes oder abgeschlossenes Intervall und spricht dann von einem einseitigen bzw.
von einem zweiseitigen Test.
e R enthalte die Werte von T , die zur Ablehnung der Hypothese f
Die Menge K
uhren
sollen. Da wir Tests immer uber eine Testgroe denieren, werden wir der Einfachheit
e als Ablehnungsbereich bezeichnen. K
e R entspricht direkt dem
halber auch K
1
n
e
Ablehnungbereich K = T (K ) R , wie wir ihn oben festgelegt haben.
DWT
c Susanne Albers
329/460
Die zu uberprufende Hypothese bezeichnen wir mit H0 und sprechen deshalb auch von
der Nullhypothese. Bei manchen Tests formuliert man noch eine zweite Hypothese H1 ,
die so genannte Alternative. Im Beispiel konnen wir
H0 : p 1=3 und H1 : p < 1=3
setzen.
Manchmal verzichtet man darauf, H1 anzugeben. Dann besteht die Alternative wie
oben einfach darin, dass H0 nicht gilt. In diesem Fall nennen wir H1 triviale Alternative.
DWT
c Susanne Albers
330/460
Ein echter, also nicht-trivialer Alternativtest lage beispielsweise vor, wenn wir ansetzen
H00 : p 1=3 und H10 : p 1=6:
Beispiel 120
Wir untersuchen eine Festplatte, von der bekannt ist, dass sie zu einer von zwei
Baureihen gehort. Die mittleren Zugriszeiten dieser Baureihen betragen 9ms
bzw. 12ms. Wir mochten nun herausnden, zu welchem Typ die betrachtete Festplatte
gehort, indem wir die Zugriszeit bei n Zugrien bestimmen. Hier wurde man dann
ansetzen: H0 : 9 und H1 := 12, wobei die mittlere Zugriszeit bezeichnet.
DWT
c Susanne Albers
331/460
Fehler bei statistischen Tests
Bei jedem statistischen Test konnen mit einer gewissen Wahrscheinlichkeit falsche
Schlusse gezogen werden. Dieser Fall tritt beispielsweise ein, wenn H0 gilt, aber das
Ergebnis ~x der Stichprobe im Ablehnungsbereich K liegt.
Dann spricht man von einem Fehler 1. Art.
Analog erhalten wir einen Fehler 2. Art, wenn H0 nicht gilt und ~x nicht im
Ablehnungsbereich liegt.
Fehler 1. Art : H0 gilt, wird aber abgelehnt.
Fehler 2. Art : H0 gilt nicht, wird aber angenommen.
DWT
c Susanne Albers
332/460
Fur die Beurteilung eines Tests ist es wesentlich, mit welcher Wahrscheinlichkeit diese
beiden Fehler eintreten konnen. Ziel ist es naturlich, diese Wahrscheinlichkeiten
moglichst klein zu halten. Allerdings sind die Minimierung des Fehlers 1. Art und des
Fehlers 2. Art gegenlauge Ziele, so dass ein vernunftiger Ausgleich zwischen beiden
Fehlern gefunden werden muss. Wenn man beispielsweise K = ; setzt, so erhalt man
Wahrscheinlichkeit Null fur den Fehler 1. Art, da H0 immer angenommen wird.
Allerdings tritt der Fehler 2. Art dann mit Wahrscheinlichkeit Eins ein, wenn H0 nicht
gilt.
DWT
c Susanne Albers
4.1 Einfuhrung
333/460
Die Wahrscheinlichkeit fur den Fehler 1. Art wird mit bezeichnet, und man spricht
deshalb gelegentlich vom -Fehler. heit auch Signikanzniveau des Tests.
In der Praxis ist es ublich, sich ein Signikanzniveau vorzugeben (ubliche Werte
hierfur sind 0;05, 0;01 oder 0;001) und dann den Test so auszulegen (also den
Ablehnungsbereich K so zu bestimmen), dass die Wahrscheinlichkeit fur den Fehler
1. Art den Wert besitzt.
DWT
c Susanne Albers
334/460
Konstruktion eines einfachen Tests
Wir konstruieren einen Test fur den Parameter p einer Bernoulli-verteilten
Zufallsvariablen X . Wir setzen
H0 : p p0 ;
H1 : p < p0 :
Als Testgroe verwenden wir
T := X1 + : : : + Xn :
Fur groere Wahrscheinlichkeiten p erwarten wir auch groere Werte fur T . Deshalb ist
es sinnvoll, einen Ablehnungsbereich der Art K := [0; k] fur T zu wahlen, wobei k 2 R
geeignet festzulegen ist. Wir konstruieren hier also einen einseitigen Test, wahrend fur
eine Nullhypothese H0 : p = p0 sowohl zu kleine als auch zu groe Werte von T zur
Ablehnung von H0 fuhren sollten und somit ein zweiseitiger Test vorzuziehen ware.
DWT
c Susanne Albers
4.1 Einfuhrung
335/460
T ist binomialverteilt. Da wir von einem groen Stichprobenumfang n ausgehen, bietet
es sich an, die Verteilung von T nach dem Grenzwertsatz von de Moivre (siehe
Korollar 109) durch die Normalverteilung zu approximieren.
Sei
T~ :=
T~ ist annahernd standardnormalverteilt.
DWT
c Susanne Albers
T np
:
np(1 p)
p
4.1 Einfuhrung
336/460
Wir berechnen fur jeden Wert von k das zugehorige Signikanzniveau des Tests.
2 K]
Pr [T k]
= pmax
2H p
Fehlerwahrscheinlichkeit 2. Art = sup Prp [T 62 K ]
Fehlerwahrscheinlichkeit 1. Art = max Prp [T
p2H0
0
p2H1
= sup Prp [T > k]
p2H1
DWT
c Susanne Albers
337/460
Fur den Fehler 1. Art erhalten wir
= max Prp [T
pp0
"
k] = Prp=p [T k]
0
#
= Prp=p0 T~ p k np
np(1 p)
"
#
k
np
0
= Pr T~ p
np0 (1 p0 )
DWT
c Susanne Albers
!
k np0
p
:
np0 (1 p0 )
338/460
Unter Verwendung der Quantile der Standardnormalverteilung ergibt sich damit:
p
Ist k so gewahlt, dass (k np0 )= np0 (1 p0 ) = z , so ist das Signikanzniveau
gleich .
Ist das gewunschte Signikanzniveau des Tests vorgegeben, so erhalt man den
Wert k = k(n) in Abhangigkeit vom Umfang n der Stichprobe durch
p
k = z np0 (1 p0 ) + np0 :
(8)
Kleinere Werte fur k verkleinern zwar den Fehler 1. Art, vergroern jedoch den
Annahmebereich und damit die Wahrscheinlichkeit fur einen Fehler 2. Art.
DWT
c Susanne Albers
4.1 Einfuhrung
339/460
Verhalten der Testfehler
Wie verhalten sich die moglichen Testfehler des konstruierten Verfahrens? Was
geschieht beispielsweise, wenn p nur geringfugig kleiner als p0 ist?
In diesem Fall betrachten wir beim Fehler 2. Art die Wahrscheinlichkeit
Prp=p " [T k] Prp=p [T k] 1 :
0
0
Wenn sich also die wahren\ Verhaltnisse nur minimal von unserer Nullhypothese
"
unterscheiden, so werden wir diese im Zweifelsfall\ annehmen.
"
DWT
c Susanne Albers
340/460
Bei echten Alternativtests werden fur hinreichend groe Stichproben und einen
geeignet eingestellten Ablehnungsbereich beide Testfehler klein.
Beispiel 121
Die Abbruchrate p der Transaktionen in einem Online-Datenbanksystem wurde bereits
fruher einmal ermittelt. Allerdings sind die entsprechenden Daten verloren gegangen
und die Entwickler erinnern sich nur noch, dass das Ergebnis entweder p = 1=3 oder
p = 1=6 lautete. Unter dieser Annahme wurde man den Test wie folgt ansetzen:
H0 : p 1=3;
DWT
c Susanne Albers
H10 : p 1=6:
341/460
Beispiel (Forts.)
Fur den Fehler 2. Art erhalt man nun:
Fehlerwahrsch. 2. Art =
max Prp [T > k]
p1=6
!
1 pk (1=6) n :
(1=6) (5=6)n
Mit den obigen Werten k = 25 und n = 100 ergibt sich mit
p
p 100 = ( 5) 0;9871
150
5 10
ein Fehler 2. Art der Groe 0;0129, wahrend sich fur die triviale Alternative
H1 : p < 1=3 ein Wert von etwa 0;95 ergibt.
DWT
c Susanne Albers
342/460
Die so genannte Gutefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein
Test die Nullhypothese verwirft. Fur unser hier entworfenes Testverfahren gilt
!
k np
:
g(n; p) = Prp [T 2 K ] = Prp [T k] p
np(1 p)
DWT
c Susanne Albers
4.1 Einfuhrung
343/460
n = 50
n = 100
n = 200
1,0
0,8
0,6
0,4
0,2
0,0
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
Gutefunktion g (n; p) fur verschiedene Werte von n
DWT
c Susanne Albers
4.1 Einfuhrung
344/460
Man erkennt deutlich, dass fur alle n der Wert von k = k(n) genau so gewahlt wurde,
dass g (n; 1=3) = 0;05 gilt. Dies wird durch den in Gleichung 8 angegebenen Ausdruck
erreicht.
Fur Werte von p groer als 1=3 wird H0 : p 1=3 mit hoher Wahrscheinlichkeit
angenommen, wahrend fur Werte deutlich unter 1=3 die Hypothese H0 ziemlich sicher
abgelehnt wird.
Ferner ist auallig, dass g fur groere Werte von n schneller von Eins auf Null fallt.
Daran erkennt man, dass durch den Test die Falle H0 gilt\ und H0 gilt nicht\ umso
"
"
besser unterschieden werden konnen, je mehr Stichproben durchgefuhrt werden. Fur
Werte von p, bei denen g (n; p) weder nahe bei Eins noch nahe bei Null liegt, kann der
Test nicht sicher entscheiden, ob die Nullhypothese abzulehnen ist.
DWT
c Susanne Albers
4.1 Einfuhrung
345/460
4.2 Praktische Anwendung statistischer Tests
Das im vorhergehenden Abschnitt konstruierte Testverfahren taucht in der Literatur
unter dem Namen approximativer Binomialtest auf.
 berblick uber die Eckdaten dieses Tests.
Die folgende Tabelle 1 gibt einen U
DWT
c Susanne Albers
346/460
Tabelle : Approximativer Binomialtest
Annahmen:
X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit Pr[Xi = 1] = p und Pr[Xi = 0] = 1 p, wobei p unbekannt
sei. n sei hinreichend gro, so dass die Approximation aus Korollar 109 brauchbare Ergebnisse liefert.
Hypothesen:
a) H0 : p = p0 gegen H1 : p 6= p0 ,
b) H0 : p p0 gegen H1 : p < p0 ,
c) H0 : p p0 gegen H1 : p > p0 .
Testgroe:
Z :=
h np0
;
np0 (1 p0 )
p
wobei h := X1 + : : : + Xn die Haugkeit bezeichnet, mit der die Ereignisse Xi = 1 aufgetreten sind.
Ablehnungskriterium fur H0 bei Signikanzniveau :
a) jZ j > z1 =2 ,
b) Z < z ,
c) Z > z1 .
DWT
c Susanne Albers
4.2 Praktische Anwendung statistischer Tests
347/460
4.3 Allgemeines Vorgehen bei statistischen Tests
1. Schritt: Formulierung von Annahmen. Ganz ohne Annahmen kommt man meist nicht
 bliche Annahmen betreen meist die Verteilung der Stichprobenvariablen
aus. U
und deren Unabhangigkeit.
2. Schritt: Formulierung der Nullhypothese.
3. Schritt: Auswahl des Testverfahrens.
4. Schritt: Durchfuhrung des Tests und Entscheidung.
DWT
c Susanne Albers
348/460
4.4 Ausgewahlte statistische Tests
4.4.1 Wie ndet man das richtige Testverfahren?
Statistische Tests kann man nach mehreren Kriterien in Klassen einteilen.
Anzahl der beteiligten Zufallsgroen
Sollen zwei Zufallsgroen mit potentiell unterschiedlichen Verteilungen verglichen
werden, fur die jeweils eine Stichprobe erzeugt wird (Zwei-Stichproben-Test), oder
wird nur eine einzelne Zufallsgroe untersucht (Ein-Stichproben-Test)?
DWT
c Susanne Albers
349/460
Bei der Fragestellung
Betragt die mittlere Zugriszeit auf einen Datenbankserver im Mittel
hochstens 10ms?
hat man es mit einem Ein-Stichproben-Test zu tun, wahrend die Untersuchung der
Frage
Hat Datenbankserver A eine kurzere mittlere Zugriszeit als
Datenbankserver B?
auf einen Zwei-Stichproben-Test fuhrt.
DWT
c Susanne Albers
350/460
Bei mehreren beteiligten Zufallsgroen wird zusatzlich unterschieden, ob aus
voneinander unabhangigen Grundmengen Stichproben erhoben werden oder nicht.
Beim vorigen Beispiel werden unabhangige Messungen vorgenommen, sofern die
Server A und B getrennt voneinander arbeiten. Wenn man jedoch die Frage
Lauft ein Datenbankserver auf einer Menge festgelegter Testanfragen mit
Query-Optimierung schneller als ohne?
untersucht, so spricht man von verbundenen Messungen.
DWT
c Susanne Albers
351/460
Gelegentlich betrachtet man auch den Zusammenhang zwischen mehreren
Zufallsgroen. Beispielsweise konnte man sich fur die Frage interessieren:
Wie stark wachst der Zeitbedarf fur eine Datenbankanfrage im Mittel mit der
(syntaktischen) Lange der Anfrage, d. h. fuhren kompliziertere
Formulierungen zu proportional langeren Laufzeiten?
Mit solchen Fragenstellungen, bei denen ein funktionaler Zusammenhang zwischen
Zufallsgroen ermittelt werden soll, beschaftigt sich die Regressionsanalyse. Wenn
uberhaupt erst zu klaren ist, ob ein solcher Zusammenhang besteht oder ob die
Zufallsgroen vielmehr unabhangig voneinander sind, so spricht man von
Zusammenhangsanalyse.
DWT
c Susanne Albers
4.4 Ausgewahlte statistische Tests
352/460
Formulierung der Nullhypothese
Welche Groe dient zur Denition der Nullhypothese? Hierbei werden in erster
Linie Tests unterschieden, die Aussagen uber verschiedene so genannte
Lageparameter treen, wie z.B. den Erwartungswert oder die Varianz der
zugrunde liegenden Verteilungen.
Im Zwei-Stichproben-Fall konnte man beispielsweise untersuchen, ob der
Erwartungswert der Zufallsgroe A groer oder kleiner als bei Zufallsgroe B ist.
Gelegentlich wird zur Formulierung der Nullhypothese auch der so genannte
Median betrachtet: Der Median einer Verteilung entspricht dem (kleinsten)
Wert x mit F (x) = 1=2.
Neben solchen Tests auf Lageparameter gibt es z.B. auch Tests, die auf eine
vorgegebene Verteilung oder auf ein Ma fur die Abhangigkeit verschiedener
Zufallsgroen testen.
DWT
c Susanne Albers
353/460
Annahmen uber die Zufallsgroen
Was ist uber die Verteilung der untersuchten Groe(n) bekannt? Bei
entsprechenden Annahmen konnte es sich z.B. um die Art der Verteilung, den
Erwartungswert oder die Varianz handeln.
DWT
c Susanne Albers
354/460
4.4.2 Ein-Stichproben-Tests fur Lageparameter
Beim approximativen Binomialtest wird ausgenutzt, dass die Binomialverteilung fur
groe n nach dem Grenzwertsatz von de Moivre (Korollar 109) gegen die
Normalverteilung konvergiert. Aus diesem Grund kann man diesen Test auch als
Spezialfall eines allgemeineren Testverfahrens ansehen, namlich des Gautest, der nun
dargestellt wird.
DWT
c Susanne Albers
355/460
Tabelle : Gautest
Annahmen:
X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit Xi N (; 2 ), wobei 2 bekannt ist.
Alternativ gelte E[Xi ] = und Var[Xi ] = 2 , und n sei gro genug.
Hypothesen:
a) H0 : = 0 gegen H1 : 6= 0 ,
b) H0 : 0 gegen H1 : < 0 ,
c) H0 : 0 gegen H1 : > 0 .
Testgroe:
Z :=
X
0 p
n:
Ablehnungskriterium fur H0 bei Signikanzniveau :
a) jZ j > z1 =2 ,
b) Z < z ,
c) Z > z1 .
DWT
c Susanne Albers
4.4 Ausgewahlte statistische Tests
356/460
Der Gautest hat den Nachteil, dass man die Varianz 2 der beteiligten Zufallsgroen
kennen muss.
Wenn diese unbekannt ist, so liegt es nahe, die Varianz durch die
Stichprobenvarianz S 2 (siehe Denition 114) anzunahern. Dies fuhrt auf den so
 bersicht dargestellt ist.
genannten t-Test, der in der folgenden U
DWT
c Susanne Albers
4.4 Ausgewahlte statistische Tests
357/460
Tabelle : t-Test
Annahmen:
X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit Xi N (; 2 ).
Alternativ gelte E[Xi ] = und Var[Xi ] = 2 , und n sei gro genug.
Hypothesen:
a) H0 : = 0 gegen H1 : 6= 0 ,
b) H0 : 0 gegen H1 : < 0 ,
c) H0 : 0 gegen H1 : > 0 .
Testgroe:
T :=
X
S
0 p
n:
Ablehnungskriterium fur H0 bei Signikanzniveau :
a) jT j > tn 1;1 =2 ,
b) T < tn 1; ,
c) T > tn 1;1 .
DWT
c Susanne Albers
358/460
Hierbei gibt tn 1;1 das (1 )-Quantil der t-Verteilung mit n 1 Freiheitsgraden
an. Die t-Verteilung taucht manchmal auch unter dem Namen Student-Verteilung auf,
da sie ursprunglich unter dem Pseudonym Student\ publiziert wurde.
"
Wir gehen an dieser Stelle nicht darauf ein, wieso die Testgroe die t-Verteilung besitzt,
sondern weisen nur darauf hin, dass die Dichte dieser Verteilung (eigentlich handelt es
sich um eine ganze Familie von Verteilungen, da die Anzahl der Freiheitsgrade jeweils
noch gewahlt werden kann) der Dichte der Normalverteilung ahnelt. Fur groe n
(Faustregel: n 30) liegen die beiden Dichten so genau ubereinander, dass man in der
Praxis die t-Verteilung durch die Normalverteilung annahert.
DWT
c Susanne Albers
359/460
0,4
n=1
n=5
n = 20
n
!1
0,3
0,2
0,1
0,0
-4,0
-2,0
0,0
2,0
4,0
Dichte der t-Verteilung mit n Freiheitsgraden
DWT
c Susanne Albers
360/460
Als weitere Beispiele fur gangige Ein-Stichproben-Tests zu Lageparametern seien der
Wilcoxon-Test und der 2 -Varianztest genannt. Ersterer dient zum Testen von
Hypothesen zum Median, wahrend der zweite Test Hypothesen zur Varianz beinhaltet.
DWT
c Susanne Albers
361/460
4.4.3 Zwei-Stichproben-Tests fur Lageparameter
Bei Zwei-Stichproben-Tests wollen wir das Verhaltnis von Lageparametern
untersuchen. Besonders wichtig sind hierbei Tests zum Erwartungswert. Fur zwei
Zufallsgroen X und Y konnten wir beispielsweise die Frage untersuchen, ob fur die
Erwartungswerte X und Y gilt, dass X = Y ist.
DWT
c Susanne Albers
4.4 Ausgewahlte statistische Tests
362/460
Tabelle : Zwei-Stichproben-t-Test
Annahmen:
X1 ; : : : ; Xm und Y1 ; : : : ; Yn seien unabhangig und jeweils identisch verteilt, wobei Xi
Yi N (Y ; Y2 ) gelte. Die Varianzen seien identisch, also X2 = Y2 .
Hypothesen:
a) H0 : X
b) H0 : X
c) H0 : X
Testgroe:
T :=
s
= Y gegen H1 : X 6= Y ,
gegen H1 : X < Y ,
gegen H1 : X > Y .
Y
Y
n+m 2
1
m
+ n1
N (X ; X2 ) und
q
X
Y
(m 1) SX2 + (n 1) SY2
:
Ablehnungskriterium fur H0 bei Signikanzniveau :
a) jT j > tm+n 2;1 =2 ,
b) T < tm+n 2; ,
c) T > tm+n 2;1 .
DWT
c Susanne Albers
4.4 Ausgewahlte statistische Tests
363/460
Vom Zwei-Stichproben-t-Test ndet man in der Literatur noch zusatzliche Varianten,
die auch dann einsetzbar sind, wenn die beteiligten Zufallsgroen nicht dieselbe Varianz
besitzen. Der beim Ein-Stichproben-Fall erwahnte Wilcoxon-Test kann ebenfalls auf
den Zwei-Stichproben-Fall ubertragen werden.
DWT
c Susanne Albers
364/460
4.4.4 Nicht an Lageparametern orientierte Tests
Wir betrachten in diesem Abschnitt exemplarisch den 2 -Anpassungstest. Bei einem
Anpassungstest wird nicht nur der Lageparameter einer Verteilung getestet, sondern es
wird die Verteilung als Ganzes untersucht.
Beim approximativen Binomialtest (siehe Tabelle 1) haben wir streng genommen
bereits einen Anpassungstest durchgefuhrt. Bei der Nullhypothese H0 : p = p0 wird
untersucht, ob es sich bei der betrachteten Zufallsgroe um eine Bernoulli-verteilte
Zufallsvariable mit Parameter p0 handelt. Beim 2 -Test gehen wir nun einen Schritt
weiter: Wir nehmen an, dass die Zufallsgroe X genau k verschiedene Werte annimmt.
Ohne Beschrankung der Allgemeinheit sei WX = f1; : : : ; kg. Die Nullhypothese lautet
nun
H0 : Pr[X = i] = pi fur i = 1; : : : ; k:
DWT
c Susanne Albers
4.4 Ausgewahlte statistische Tests
365/460
Tabelle : 2 -Anpassungstest
Annahmen:
X1 ; : : : ; Xn seien unabhangig und identisch verteilt mit WXi
Hypothesen:
= f1; : : : ; kg.
H0 : Pr[X = i] = pi fur i = 1; : : : ; k;
H1 : Pr[X = i] 6= pi fur mindestens ein i 2 f1; : : : ; kg;
Testgroe:
T=
k
X
i=1
(hi npi )2 ;
np
i
wobei hi die Haugkeit angibt, mit der X1 ; : : : ; Xn den Wert i angenommen haben.
Ablehnungskriterium fur H0 bei Signikanzniveau :
T > 2k 1;1 ;
dabei sollte gelten, dass npi 1 fur alle i und npi 5 fur mindestens 80% der Werte i = 1; : : : ; k.
DWT
c Susanne Albers
366/460
Fur die Testgroe T wird naherungsweise eine 2 -Verteilung mit k 1 Freiheitsgraden
angenommen. Die Werte dieser Verteilung nden sich in entsprechenden Tabellen in
der Literatur. Damit diese Approximation gerechtfertigt ist, sollte gelten, dass npi 1
fur alle i und npi 5 fur mindestens 80% der Werte i = 1; : : : ; k. Das -Quantil einer
2 -Verteilung mit k Freiheitsgraden bezeichnen wir mit 2k; .
DWT
c Susanne Albers
367/460
1,0
n=1
n=2
n=3
n=5
0,8
0,6
0,4
0,2
0,0
0,0
1,0
2,0
3,0
4,0
5,0
Dichte der 2 -Verteilung mit n Freiheitsgraden
DWT
c Susanne Albers
368/460
Beispiel 122
Als Anwendung fur den 2 -Test wollen wir uberprufen, ob der Zufallszahlengenerator
von Maple eine gute Approximation der Gleichverteilung liefert. Dazu lassen wir Maple
n = 100000 Zufallszahlen aus der Menge f1; : : : ; 10g generieren. Wir erwarten, dass
jede dieser Zahlen mit gleicher Wahrscheinlichkeit p1 = : : : = p10 = 1=10 auftritt. Dies
sei unsere Nullhypothese, die wir mit einem Signikanzniveau von = 0;05 testen
wollen.
Beispiel:
i
hi
1
2
3
4
5
6
7
8
9
10
10102 10070 9972 9803 10002 10065 10133 9943 10009 9901
Fur den Wert der Testgroe gilt T = 8;9946. Ferner erhalten wir 29;0;95 16;919. Der
Test liefert also keinen Grund, die Nullhypothese abzulehnen.
DWT
c Susanne Albers
4.4 Ausgewahlte statistische Tests
369/460
Das Prinzip des 2 -Anpassungstests kann in leicht abgewandelter Form auch noch zum
Testen einiger anderer Hypothesen verwendet werden: Beim 2 -Homogenitatstest wird
uberpruft, ob zwei oder mehrere Verteilungen identisch sind, wahrend beim
2 -Unabhangigkeitstest zwei Zufallsgroen auf Unabhangigkeit untersucht werden.
Beschreibungen dieser Tests ndet man in der Literatur.
DWT
c Susanne Albers
4.4 Ausgewahlte statistische Tests
370/460
Kapitel IV Stochastische Prozesse
1. Einfuhrung
Wir betrachten zeitliche Folgen von Zufallsexperimenten. Mathematisch beschreibt
man diese durch einen so genannten stochastischen Prozess. Darunter versteht man
eine Folge von Zufallsvariablen (Xt )t2T , die das Verhalten des Systems zu
verschiedenen Zeitpunkten t angeben.
DWT
c Susanne Albers
1 Einfuhrung
371/460
Wenn wir T = N0 annehmen, sprechen wir von einem stochastischen Prozess mit
diskreter Zeit. Lasst man andererseits T = R+
0 zu, so spricht man von stochastischen
Prozessen mit kontinuierlicher Zeit.
Eine besonders einfache Art von stochastischen Prozessen sind so genannte
Markov-Ketten. Diese haben die Eigenschaft, dass der nachste Zustand des Prozesses
zwar vom aktuellen Zustand abhangen darf, nicht aber von der Historie, d.h. davon,
wie der aktuelle Zustand erreicht wurde.
DWT
c Susanne Albers
372/460
2. Prozesse mit diskreter Zeit
2.1 Einfuhrung
Denition 123
Eine (endliche) Markov-Kette (mit diskreter Zeit) uber der Zustandsmenge
S = f0; : : : ; n 1g besteht aus einer unendlichen Folge von Zufallsvariablen (Xt )t2N0
mit Wertemenge S sowie einer Startverteilung q0 mit q0T 2 Rn . Die Komponenten von
q0 sind hierbei 0 und addieren sich zu 1. Fur jede Indexmenge I f0; : : : ; t 1g
und beliebige Zustande i; j; sk (k 2 I ) gilt
Pr[Xt+1 = j j Xt = i; 8k 2 I : Xk = sk ] =
Pr[Xt+1 = j j Xt = i] :
DWT
c Susanne Albers
2.1 Einfuhrung
(9)
373/460
Sind die Werte
pij := Pr[Xt+1 = j j Xt = i]
von t unabhangig, so nennt man die Markov-Kette (zeit)homogen. In diesem Fall
 bergangsmatrix durch P = (pij )0i;j<n . Wenn man S = N0 zulasst,
deniert man die U
so spricht man von einer unendlichen Markov-Kette.
Markov-Ketten sind nach Andrey Andreyevich Markov (1856{1922) benannt.
DWT
c Susanne Albers
374/460
Bedingung (9) heit Markov-Bedingung und besagt:
Wenn wir den Zustand i zum Zeitpunkt t kennen, so hangt die
 bergangswahrscheinlichkeit zum Folgezustand j nur von i und j ab. Die
U
Vergangenheit (Zustande zu Zeitpunkten < t) der Markov-Kette spielt keine Rolle. Das
Gedachtnis\ der Markov-Kette besteht also nur aus ihrem aktuellen Zustand und sie
"
wei\ nicht, wie sie dorthin gekommen ist.
"
Bei einer zeithomogenen Markov-Kette hat die (absolute) Zeit t keinen Einuss auf die
 bergangswahrscheinlichkeiten pij , d.h. das Systemverhalten wird nur durch den
U
aktuellen Zustand bestimmt und nicht durch eine absolute Uhr.
DWT
c Susanne Albers
375/460
Wahrscheinlichkeitsraum einer Markov-Kette
Nehmen wir an, dass wir die Kette von der Zeit 0 bis zur Zeit t0 beobachten wollen.
Wir bezeichnen die Folge von Zustanden, die von der Kette in dieser Zeit durchlaufen
wurde, mit ~x = (x0 ; x1 ; : : : ; xt0 ). S t0 +1 sei die Menge moglicher Zustandsfolgen.
Einer beliebigen Folge ! := (x0 ; x1 ; : : : ; xt0 ) 2 ordnen wir die Wahrscheinlichkeit
Pr[!] = (q0 )x 0
t0
Y
i=1
Pr[Xi = xi j Xi 1 = xi 1 ]
zu. Dadurch erhalten wir einen diskreten Wahrscheinlichkeitsraum im Sinne der
Denition.
DWT
c Susanne Albers
2.1 Einfuhrung
376/460
Beispiel 124
Pr[Xt+1 = 1 j Xt = 1] = 0;9; Pr[Xt+1 = 1 j Xt = 0] = 0;2
Pr[Xt+1 = 0 j Xt = 1] = 0;1; Pr[Xt+1 = 0 j Xt = 0] = 0;8
0;2
0;8
0
1
0;9
0;1
DWT
c Susanne Albers
377/460
Einen bestimmten Ablauf des Systems kann man sich als so genannten Random Walk
vorstellen.
Wenn wir uns beispielsweise zum Zeitpunkt t = 0 im Knoten 1 (also X0 = 1) benden,
dann fuhren von dort zwei Kanten weiter, namlich zu den Knoten 0 und 1. Diese
Kanten sind mit Wahrscheinlichkeiten beschriftet, die sich zu Eins addieren. Gema
dieser Wahrscheinlichkeiten entscheiden wir zufallig, wohin wir uns im nachsten Schritt
begeben.
DWT
c Susanne Albers
378/460
Wir konnen auch die Frage beantworten, mit welcher Wahrscheinlichkeit wir uns zum
Zeitpunkt t = 2 im Knoten 1 benden. Da wir vereinbarungsgema beim Knoten 1
starten, gibt es zwei mogliche Wege der Lange zwei durch den Graphen mit
Endknoten 1, namlich 111\ und 101\. Die Wahrscheinlichkeiten fur diese Wege
"
"
lauten 0;9 0;9 = 0;92 bzw. 0;1 0;2. Insgesamt erhalten wir also eine
Wahrscheinlichkeit von 0;81 + 0;02 = 0;83.
Auch eine Aussage uber die erwartete Anzahl Schritte, die wir im Knoten 1 bis zum
 bergang zu Knoten 0 verbleiben, ist schnell getroen. Die Wahrscheinlichkeit,
ersten U
dass man genau k Schritte verbleibt, ist (0;9)k 0;1. Die Anzahl Schritte ist also
geometrisch verteilt mit Erfolgswahrscheinlichkeit 0;1. Der Erwartungswert ist daher
1=0;1 = 10.
DWT
c Susanne Albers
379/460
 bergangswahrscheinlichkeiten
2.2 Berechnung von U
Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor qt (den wir
als Zeilenvektor schreiben). Die i-te Komponente (qt )i bezeichnet dabei die
Wahrscheinlichkeit, mit der sich die Kette nach t Schritten im Zustand i aufhalt.
Es gilt
Pr[Xt+1 = k] =
also
bzw. in Matrixschreibweise
DWT
c Susanne Albers
nX1
i=0
Pr[Xt+1 = k j Xt = i] Pr[Xt = i];
(qt+1 )k =
nX1
i=0
pik (qt )i ;
qt+1 = qt P:
380/460
Mit der Matrixschreibweise konnen wir qt einfach durch die Startverteilung q0
ausdrucken:
qt = q0 P t :
Ebenso gilt wegen der Zeithomogenitat allgemein fur alle t; k 2 N:
qt+k = qt P k :
 bergang vom
Die Eintrage von P k geben an, mit welcher Wahrscheinlichkeit ein U
Zustand i zum Zustand j in genau k Schritten erfolgt.
p(ijk) := Pr[Xt+k = j j Xt = i] = (P k )ij :
DWT
c Susanne Albers
381/460
Exponentiation von Matrizen
Wenn P diagonalisierbar ist, so existiert eine Diagonalmatrix D und eine invertierbare
Matrix B , so dass P = B D B 1 gilt. Diese erhalten wir durch Berechnung der
Eigenwerte und Eigenvektoren von P und durch Transformation von P in den Raum
der Eigenvektoren.
Dann gilt
DWT
c Susanne Albers
P k = B Dk B 1 :
 bergangswahrscheinlichkeiten
2.2 Berechnung von U
382/460
Beispiel 125
P = 00;;81 00;;29
Durch Bestimmung der Nullstellen des charakteristischen Polynoms der Matrix
(P I ) erhalten wir die Eigenwerte 0;7 und 1, sowie die zugehorigen (rechten)
Eigenvektoren
1 =
DWT
c Susanne Albers
2 und = 1 :
2
1
1
383/460
Beispiel 125
Damit
und
B 1=
Damit ergibt sich beispielsweise
P3 =
DWT
c Susanne Albers
D = 00;7 01 und B = 12 11
2 1
1 1
0;73 0
0 13
1
3
1 3 :
2
3
1
3
1
3
1
3
1 3 0;562
2
0;219
3
 bergangswahrscheinlichkeiten
2.2 Berechnung von U
0;438
0;781
383/460
 bergangszeiten
2.3 Ankunftswahrscheinlichkeiten und U
Bei der Analyse von Markov-Ketten treten oftmals Fragestellungen auf, die sich auf
zwei bestimmte Zustande i und j beziehen:
Wie wahrscheinlich ist es, von i irgendwann nach j zu kommen?
Wie viele Schritte benotigt die Kette im Mittel, um von i nach j zu gelangen?
DWT
c Susanne Albers
384/460
Denition 126
Die Zufallsvariable
Tij := minfn 0 j Xn = j , wenn X0 = ig
zahlt die Anzahl der Schritte, die von der Markov-Kette fur den Weg von i nach j
 bergangszeit (engl. hitting time) vom Zustand i
benotigt werden. Tij nennen wir die U
zum Zustand j . Wenn j nie erreicht wird, setzen wir Tij = 1.
Ferner denieren wir hij
:= E[Tij ].
Die Wahrscheinlichkeit, vom Zustand i nach beliebig vielen Schritten in den Zustand j
zu gelangen, nennen wir Ankunftswahrscheinlichkeit fij . Formal denieren wir
fij := Pr[Tij < 1]:
DWT
c Susanne Albers
385/460
Im Fall i = j gilt Tii = 0 und somit auch hii = 0, sowie fii = 1. Anschaulich ist dies
 bergangszeit gleich
klar: Wenn Anfangs- und Zielzustand identisch sind, so ist die U
Null. Fur viele Zwecke ist es andererseits auch interessant zu messen, wie lange es
dauert, bis Zustand i zu einem spateren Zeitpunkt wieder besucht wird. Wir erganzen
Denition 126 fur diesen Fall.
Denition 127
Die Zufallsvariable
Ti := minfn 1 j Xn = i, wenn X0 = ig
zahlt die Anzahl Schritte, die von der Markov-Kette benotigt werden, um von i nach i
zuruckzukehren (Ruckkehrzeit, engl. recurrence time). Der Erwartungswert sei
hi := E[Ti ]. Die Wahrscheinlichkeit, mit der Ti einen endlichen Wert annimmt, nennt
man Ruckkehrwahrscheinlichkeit:
fi := Pr[Ti < 1]:
DWT
c Susanne Albers
 bergangszeiten
2.3 Ankunftswahrscheinlichkeiten und U
386/460
1,0
Beispiel 128
1,0
0,5
0
0,5
1
2
3
0,5
0,5
Beispiel zur Berechnung von fij und hij
Wir betrachten die obige Markov-Kette. Einige Besonderheiten fallen sofort auf:
Beginnt man im Zustand 0, so kann man niemals einen der ubrigen Zustande
 bergangszeiten T01 , T02 und T03 sind daher 1.
erreichen. Die U
DWT
c Susanne Albers
387/460
1,0
Beispiel 128
1,0
0,5
0
0,5
2
1
3
0,5
0,5
Beginnt man im Zustand 1, so entscheidet sich im ersten Schritt, ob die Kette
sich zukunftig im linken Teil\ (Zustand 0) oder im rechten Teil\ (Zustand 2
"
 bergangszeit T10 gilt daher "
und 3) aufhalt. Fur die U
(
T10 =
1
1
falls X1 = 0;
falls X1 = 2:
Wegen Pr[X1 = 0 j X0 = 1] = 0;5 folgt f10 = 0;5 und E[T10 ] existiert nicht.
DWT
c Susanne Albers
387/460
1,0
Beispiel 128
1,0
0,5
0
0,5
1
2
3
0,5
0,5
Beginnt man im Zustand 2 oder 3, so wird die Kette auch weiterhin zwischen den
Zustanden 2 und 3 hin und her pendeln\. Genauer:
"
Die Anzahl der Schritte, in denen die Kette im Zustand 3 bleibt, ist geometrisch
verteilt mit Parameter 0;5. Der Zustand 3 wird daher im Mittel nach 1=0;5 = 2
Schritten verlassen. Da Zustand 2 der einzige Nachbar von 3 ist, folgt h32 = 2
und somit insbesondere auch f32 = 1.
DWT
c Susanne Albers
387/460
Lemma 129

Fur die erwarteten Ubergangs-/R
uckkehrzeiten gilt
hij = 1 +
X
hj = 1 +
X
k6=j
k6=j
pik hkj fur alle i; j 2 S; i 6= j;
pjk hkj ;
sofern die Erwartungswerte hij und hkj existieren.
Fur die Ankunfts-/Ruckkehrwahrscheinlichkeiten gilt analog
DWT
c Susanne Albers
fij = pij +
X
fj = pjj +
X
k6=j
k6=j
pik fkj fur alle i; j 2 S; i 6= j ;
pjk fkj :
 bergangszeiten
2.3 Ankunftswahrscheinlichkeiten und U
388/460
Beweis:
Sei i 6= j . Wir bedingen auf das Ergebnis des ersten Schritts der Markov-Kette und
erhalten aufgrund der Gedachtnislosigkeit Pr[Tij < 1 j X1 = k] = Pr[Tkj < 1] fur
k 6= j sowie Pr[Tij < 1 j X1 = j ] = 1.
fij = Pr[Tij < 1] =
= pij +
X
k6=j
X
k 2S
Pr[Tkj < 1 j X1 = k] pik
Pr[Tkj < 1] pik = pij +
X
k6=j
pik fkj :
Die Ableitung fur fj (also i = j ) ist analog.
DWT
c Susanne Albers
389/460
Beweis:
Sei wiederum i 6= j . Wegen der Gedachtnislosigkeit folgt E[Tij j X1 = k] = 1 + E[Tkj ]
fur k 6= j . Ferner gilt E[Tij j X1 = j ] = 1.
Bedingen wir wieder auf das Ergebnis des ersten Schritts, so folgt (siehe Satz 36):
hij= E[Tij ] =
= pij +
X
k6=j
X
k 2S
E[Tij j X1 = k] pik
(1 + E[Tkj ]) pik = 1 +
X
k6=j
hkj pik :
Wiederum ist die Herleitung fur hj analog.
DWT
c Susanne Albers
 bergangszeiten
2.3 Ankunftswahrscheinlichkeiten und U
389/460
1,0
Beispiel 130
1,0
0,5
0
0,5
1
2
3
0,5
0,5
 bergangszeiten fur die Zustande 2 und 3 erhalten wir die
Fur die Berechnung der U
Gleichungen
h2 = 1 + h32 ;
h3 = 1 + 21 h23
und
h23 = 1;
h32 = 1 + 12 h32 = 2 :
Durch Losen dieses Gleichungssystems erhalten wir die Werte h2 = 3, h3 = 1;5,
h23 = 1 und h32 = 2, die man leicht veriziert. Die Ankunftswahrscheinlichkeiten
lassen sich analog herleiten. Man erhalt f2 = f3 = f23 = f32 = 1.
DWT
c Susanne Albers
390/460
2.4 Das Gambler's Ruin Problem
Anna und Bodo spielen Poker, bis einer von ihnen bankrott ist. A verfugt uber
Kapital a, und B setzt eine Geldmenge in Hohe von m a aufs Spiel. Insgesamt sind
also m Geldeinheiten am Spiel beteiligt. In jeder Pokerrunde setzen A und B jeweils
eine Geldeinheit. A gewinnt jedes Spiel mit Wahrscheinlichkeit p. B tragt folglich mit
Wahrscheinlichkeit q := 1 p den Sieg davon. Wir nehmen an, dass diese
Wahrscheinlichkeiten vom bisherigen Spielverlauf und insbesondere vom Kapitalstand
der Spieler unabhangig sind.
DWT
c Susanne Albers
2.4 Das Gambler's Ruin Problem
391/460
Wir modellieren das Spiel durch die Markov-Kette
p
1
0
q
1
q
p
2
q
p
q
m
p
1
1
m
A interessiert sich fur die Wahrscheinlichkeit, mit der sie B in den Ruin treibt, also fur
die Wahrscheinlichkeit fa;m (wir schreiben hier der Deutlichkeit halber fi;j statt fij ).
Wir erhalten:
fi;m = p fi+1;m + q fi 1;m fur 1 i < m 1;
fm 1;m = p + q fm 2;m ;
f0;m = 0:
DWT
c Susanne Albers
(10)
392/460
Wir wollen nun fi;m allgemein als Funktion von m berechnen. Dazu beobachten wir
zunachst, dass wir (10) wegen fm;m = 1 umschreiben konnen zu
fi+1;m = (1=p) fi;m (q=p) fi 1;m fur 1 i < m:
(11)
Wir erganzen (11) um die Anfangswerte
f0;m = 0 und f1;m = :
(Fur den Moment fassen wir als Variable auf. Nach Losung der Rekursion werden wir
so wahlen, dass die Bedingung fm;m = 1 erfullt ist.)
DWT
c Susanne Albers
393/460
Als Losung dieser linearen homogenen Rekursionsgleichung 2. Ordnung (11) ergibt sich
fur p 6= 1=2:
!
p
fi;m =
2p 1 1
1 p
p
i
:
Setzen wir nun i = m, so folgt aus fm;m = 1, dass
=
p 1
2p 1
1 p m
p
gelten muss.
DWT
c Susanne Albers
394/460
Insgesamt erhalten wir somit das Ergebnis:
1
fj;m =
1
1 p j
p
:
1 p m
p
Fur p = 1=2 verlauft die Rechnung ahnlich.
DWT
c Susanne Albers
395/460
Beispiel 131
Wir wollen berechnen, wie lange A und B im Mittel spielen konnen, bis einer von
ihnen bankrott geht.
ha;m eignet sich dazu i.a. nicht (warum?).
Wir betrachten stattdessen:
Ti0 := "Anzahl der Schritte von Zustand i nach
Zustand 0 oder m\
und setzen
di := E[Ti0 ]:
Oensichtlich gilt d0 = dm = 0 und fur 1 i < m
di = qdi 1 + pdi+1 + 1 :
DWT
c Susanne Albers
396/460
Beispiel (Forts.)
Wir betrachten nun nur den Fall p = q = 1=2 und erhalten
di = i (m i) fur alle i = 0; : : : ; m:
Wegen di mi m2 folgt also, dass das Spiel unabhangig vom Startzustand im
Mittel nach hochstens m2 Schritten beendet ist.
DWT
c Susanne Albers
397/460
2.5 Stationare Verteilung
Reale dynamische Systeme laufen oft uber eine lange Zeit. Fur solche Systeme ist es
sinnvoll, das Verhalten fur t ! 1 zu berechnen.
Wir betrachten wieder die Markov-Kette aus unserem Beispiel. Wir hatten gezeigt,
 bergangsmatrix P gilt:
dass fur die U
P =BDB 1 =
DWT
c Susanne Albers
2 1 107 0 1 1
0 1
2.5 Stationare Verteilung
1
3
1
3
1 3
2 :
3
398/460
Daraus folgt
Pt
= B Dt B 1
und fur t ! 1 erhalten wir
lim
t!1
DWT
c Susanne Albers
Pt
= 12 11 7 t
10
0
= 12 11 00 01 1
3
1
3
0
1t 1 3 =
2
3
1
3
1
3
1
3
1
3
1 3 ;
2
3
2 3 :
2
3
399/460
Fur eine beliebige Startverteilung q0 = (a; 1
lim q
t!1 t
DWT
c Susanne Albers
= tlim
q
!1 0
Pt
a) folgt
= (a; 1 a) 1
3
1
3
2 3
2
3
= 13 a + 13 (1 a); 23 a + 32 (1 a) = ( 13 ; 23 ):
400/460
Das System konvergiert also unabhangig vom Startzustand in eine feste Verteilung.
Der zugehorige Zustandsvektor = ( 13 ; 23 ) hat eine interessante Eigenschaft:
1 2
1 2
P = ( ; ) 00;;81 00;;29 = ( ; ) = :
3 3
3 3
ist also ein Eigenvektor der Matrix P zum Eigenwert 1 bezuglich Multiplikation von
links. Dies bedeutet: Wenn die Kette einmal den Zustandsvektor angenommen hat,
 bergangen erhalten.
so bleibt dieser bei allen weiteren U
DWT
c Susanne Albers
2.5 Stationare Verteilung
401/460
Denition 132
P sei die U bergangsmatrix einer Markov-Kette. Einen Zustandsvektor mit = P
nennen wir stationare Verteilung der Markov-Kette.
Besitzen alle Markov-Ketten die Eigenschaft, dass sie unabhangig vom Startzustand in
eine bestimmte stationare Verteilung konvergieren?
Nein!
DWT
c Susanne Albers
402/460
1
p
0
1
1
2
q
Eine Markov-Kette mit absorbierenden Zustanden
Die Abbildung zeigt die Kette aus dem gamblers ruin problem\ fur m = 2. Man sieht
"
sofort, dass hier sowohl 1 = (1; 0; 0) als auch 2 = (0; 0; 1) stationare Verteilungen
sind. Die beiden Zustande 0 und 2 haben jeweils keine ausgehenden Kanten. Solche
Zustande heien absorbierend.
DWT
c Susanne Albers
403/460
Denition 133
 bergange
Wir bezeichnen einen Zustand i als absorbierend, wenn aus ihm keine U
herausfuhren, d.h. pij = 0 fur alle j 6= i und folglich pii = 1.
Ein Zustand i heit transient, wenn fi < 1, d.h. mit positiver Wahrscheinlichkeit
1 fi > 0 kehrt der Prozess nach einem Besuch von i nie mehr dorthin zuruck.
Ein Zustand i mit fi = 1 heit rekurrent.
DWT
c Susanne Albers
2.5 Stationare Verteilung
404/460
Denition 134
Eine Markov-Kette heit irreduzibel, wenn es fur alle Zustandspaare i; j 2 S eine Zahl
n 2 N gibt, so dass p(ijn) > 0.
Die Denition besagt anschaulich, dass jeder Zustand von jedem anderen Zustand aus
mit positiver Wahrscheinlichkeit erreicht werden kann, wenn man nur genugend viele
Schritte durchfuhrt. Dies ist bei endlichen Markov-Ketten genau dann der Fall, wenn
 bergangsdiagramms stark zusammenhangend ist.
der gerichtete Graph des U
DWT
c Susanne Albers
405/460
Lemma 135
Fur irreduzible endliche Markov-Ketten gilt: fij = Pr[Tij < 1] = 1 fur alle Zustande
i; j 2 S . Zusatzlich gilt auch, dass die Erwartungswerte hij = E[Tij ] alle existieren.
DWT
c Susanne Albers
406/460
Beweis:
Wir betrachten zunachst den Beweis fur die Existenz von hij .
Fur jeden Zustand k gibt es nach Denition der Irreduzibilitat ein nk , so dass
p(kjnk ) > 0. Wir halten nk fest und setzen n := maxk nk und p := mink p(kjnk ) .
Von einem beliebigen Zustand aus gelangen wir nach hochstens n Schritten mit
Wahrscheinlichkeit mindestens p nach j . Wir unterteilen die Zeit in Phasen zu
n Schritten und nennen eine Phase erfolgreich, wenn wahrend dieser Phase ein Besuch
bei j stattgefunden hat. Die Anzahl von Phasen bis zur ersten erfolgreichen Phase
konnen wir durch eine geometrische Verteilung mit Parameter p abschatzen. Die
erwartete Anzahl von Phasen ist somit hochstens 1=p, und wir schlieen hij (1=p)n.
Daraus folgt sofort, dass auch fij = Pr[Tij < 1] = 1.
DWT
c Susanne Albers
407/460
Satz 136
Eine irreduzible endliche Markov-Kette besitzt eine eindeutige stationare Verteilung ,
und es gilt j = 1=hjj fur alle j 2 S .
Beweis:
Wir zeigen zunachst, dass es einen Vektor 6= 0 mit = P gibt. Sei e := (1; : : : ; 1)T
 bergangsmatrix P gilt P e = e,
der All-1-Vektor und I die Einheitsmatrix. Fur jede U
da sich die Eintrage der Zeilen von P zu Eins addieren. Daraus folgt
0 = P e e = (P I )e, und die Matrix P I ist somit singular. Damit ist auch die
transponierte Matrix (P I )T = P T I singular. Es gibt also einen (Spalten-)Vektor
P6= 0 mit (P T I ) = 0 bzw. T P = T . Wir betrachten zunachst den Fall, dass
6= 0. Dann konnen wir o.B.d.A. annehmen, dass normiert ist, also dass
Pi i
i i = 1 gilt.
DWT
c Susanne Albers
408/460
Beweis (Forts.):
Wegen Lemma 135 existieren die Erwartungswerte hij . Fur jeden Zustand j 2 S gelten
somit nach Lemma 129 die Gleichungen
i hij = i 1 +
X
k6=j
pik hkj
fur i 2 S , i 6= j:
j hj +
X
i6=j
i hij = 1 +
= 1+
XX
i2S k6=j
X
k6=j
hkj
P
i i
i pik hkj
Wir addieren diese Gleichungen und erhalten wegen
X
i2S
=1
i pik = 1 +
X
k6=j
k hkj :
Wegen hj > 0 ist auch j = 1=hj positiv, und stellt somit einen zulassigen
Zustandsvektor
dar.
P
Fur den Fall i i = 0 zeigt die entsprechende Rechnung wie zuvor, dass j = 0 fur
alle j 2 S gilt. Dies steht im Widerspruch zu 6= 0.
DWT
c Susanne Albers
2.5 Stationare Verteilung
409/460
Auch wenn eine Markov-Kette irreduzibel ist und somit eine eindeutige stationare
Verteilung besitzt, so muss sie nicht zwangslaug in diese Verteilung konvergieren.
1
0
1
1
Eine Markov-Kette mit periodischen Zustanden
Als Startverteilung nehmen wir q0 (
= (1; 0) an. Es gilt:
(1; 0) falls t gerade,
qt =
(0; 1) sonst.
Die Kette pendelt also zwischen den beiden Zustandsvektoren (1; 0) und (0; 1) hin und
her.
DWT
c Susanne Albers
410/460
Denition 137
Die Periode eines Zustands j ist deniert als die grote Zahl 2 N, so dass gilt:
fn 2 N0 j p(jjn) > 0g fi j i 2 N0g
Ein Zustand mit Periode = 1 heit aperiodisch. Wir nennen eine Markov-Kette
aperiodisch, wenn alle Zustande aperiodisch sind.
DWT
c Susanne Albers
411/460
 bergangsdiagramm einen
Fur ein n 2 N gilt p(iin) > 0 genau dann, wenn es im U
geschlossenen Weg von i nach i der Lange n gibt.
Damit folgt insbesondere:
Ein Zustand i 2 S einer endlichen Markov-Kette ist sicherlich dann aperiodisch, wenn
 bergangsdiagramm
er im U
eine Schleife besitzt (also pii > 0) oder
auf mindestens zwei geschlossenen Wegen W1 und W2 liegt, deren Langen l1 und
l2 teilerfremd sind (fur die also ggT(l1 ; l2 ) = 1 gilt).
DWT
c Susanne Albers
412/460
Lemma 138
Ein Zustand i 2 S ist genau dann aperiodisch, falls gilt: Es gibt ein n0 2 N, so dass
p(iin) > 0 fur alle n 2 N; n n0 .
Beweis:
Da je zwei aufeinanderfolgende naturliche Zahlen teilerfremd sind, folgt aus der
Existenz eines n0 mit der im Lemma angegebenen Eigenschaft sofort die Aperiodizitat
des Zustands. Nehmen wir daher umgekehrt an, dass der Zustand i aperiodisch ist. Mit
Hilfe des erweiterten euklidischen Algorithmus kann man die folgende Aussage zeigen.
Fur je zwei naturliche Zahlen a; b 2 N gibt es ein n0 2 N, so dass gilt: Bezeichnet
d := ggT(a; b) den groten gemeinsamen Teiler von a und b, so gibt es fur alle
n 2 N; n n0 nichtnegative Zahlen x; y 2 N0 mit nd = xa + yb.
DWT
c Susanne Albers
413/460
Beweis (Forts.):
Wegen pii(xa+yb) (p(iia) )x (p(iib) )y folgt daraus unmittelbar: Gilt fur a; b 2 N, dass
sowohl p(iia) als auch p(iib) positiv sind, so gilt auch p(iind) > 0 fur alle n 2 N, n n0 .
Aus der Aperiodizitat des Zustand i folgt andererseits, dass es Werte a0 ; : : : ; ak geben
muss mit p(iiai ) > 0 und der Eigenschaft, dass fur d1 = ggT(a0 ; a1 ) und
di := ggT(di 1 ; ai ) fur i = 2; : : : ; k gilt: d1 > d2 > > dk = 1.
Aus beiden Beobachtungen zusammen folgt die Behauptung.
DWT
c Susanne Albers
414/460
Korollar 139
Fur irreduzible, aperiodische endliche Markov-Ketten gilt: Es gibt ein t 2 N, so dass
unabhangig vom Startzustand (qt )i > 0 fur alle i 2 S .
Beweis:
Aus der Irreduzibilitat folgt, dass die Markov-Kette jeden Zustand i 2 S irgendwann
besuchen wird. Wegen Lemma 138 wissen wir ferner, dass die Kette hinreichend viele
Schritte nach dem ersten Besuch in i in jedem folgenden Zeitschritt mit positiver
Wahrscheinlichkeit zu i zuruckkehren wird. Da die Kette endlich ist, gibt es daher ein
n0 , so dass die Kette sich unabhangig vom Startzustand fur alle n n0 in jedem
Zustand i 2 S mit positiver Wahrscheinlichkeit aufhalt.
DWT
c Susanne Albers
2.5 Stationare Verteilung
415/460
Die Aperiodizitat einer irreduziblen Markov-Kette kann auf einfache Weise
sichergestellt werden. Man fugt an alle Zustande so genannte Schleifen an. Diese
 bergangswahrscheinlichkeit p = 1=2 und halbiert die
versieht man mit der U
Wahrscheinlichkeiten an allen ubrigen Kanten.
0;5
1;0
0
0;7
2
1
0;3
1;0
!
0;5
0;5
0
0;5
0;35
2
1
0;15
0;5
Einfuhrung von Schleifen
Bei irreduziblen Ketten genugt es, eine einzige Schleife einzufuhren, um die
Aperiodizitat der Kette sicherzustellen.
Denition 140
Irreduzible, aperiodische Markov-Ketten nennt man ergodisch.
DWT
c Susanne Albers
416/460
Satz 141 (Fundamentalsatz fur ergodische Markov-Ketten)
Fur jede ergodische endliche Markov-Kette (Xt )t2N0 gilt unabhangig vom Startzustand
lim q
n!1 n
= ;
wobei die eindeutige stationare Verteilung der Kette bezeichnet.
Beweis:
Gema Satz 136 existiert eine stationare Verteilung . Wir zeigen, dass fur beliebige
Zustande i und k gilt
p(ikn) ! k fur n ! 1:
Daraus folgt die Behauptung, da
(qn )k =
DWT
c Susanne Albers
X
i2S
(q0 )i p(ikn) ! k X
i2S
(q0 )i = k :
417/460
Beweis (Forts.):
(Yt )t2N0 sei eine unabhangige Kopie der Kette (Xt )t2N0 . Fur den Prozess
Zt := (Xt ; Yt ) (t 2 N0 ), bei dem die Ketten Xt und Yt gewissermaen "parallel\
betrieben werden, gilt also
Pr[(Xt+1 ; Yt+1 ) = (jx ; jy ) j (Xt ; Yt ) = (ix ; iy )]
= Pr[Xt+1 = jx j Xt = ix ] Pr[Yt+1 = jy j Yt = iy ]
= pix jx piy jy :
(Zt )t2N ist daher ebenfalls eine Markov-Kette. Fur die Wahrscheinlichkeit, in n
Schritten von (ix ; iy ) nach (jx ; jy ) zu gelangen, erhalt man analog pi(xnj)x p(iynj)y , was fur
genugend groes n gema Lemma 138 positiv ist. (Zt )t 2N ist daher ebenfalls
0
ergodisch.
DWT
c Susanne Albers
0
418/460
Beweis (Forts.):
Wir starten nun Zt so, dass die Ketten Xt und Yt in verschiedenen Zustanden ix bzw.
iy beginnen, und interessieren uns fur den Zeitpunkt H , bei dem sich Xt und Yt zum
ersten Mal im gleichen Zustand benden.
Die Menge der Zustande von Zt ist gegeben durch S S . Wir denieren die Menge
M := f(x; y) 2 S S j x = yg:
von Zustanden der Kette Zt , an denen sich Xt und Yt treen\. Denieren wir nun die
"
Trezeit H durch
H := maxfT(ix ;iy );(jx ;jy ) j (ix ; iy ) 2 S S; (jx ; jy ) 2 M g;
so folgt aus Lemma 135 und der Endlichkeit der Markov-Kette sofort, dass
Pr[H < 1] = 1 und E[H ] < 1.
DWT
c Susanne Albers
2.5 Stationare Verteilung
419/460
Beweis (Forts.):
Da die weitere Entwicklung der Ketten Xt und Yt ab dem Zeitpunkt H nur vom
 bergangsmatrix abhangt, wird jeder Zustand s 2 SZ zu
Zustand XH = YH und der U
den Zeiten t H von Xt und Yt mit derselben Wahrscheinlichkeit angenommen. Es
gilt also Pr[Xt = s j t H ] = Pr[Yt = s j t H ] und somit auch
Pr[Xt = s; t H ] = Pr[Yt = s; t H ]:
(12)
Als Startzustand wahlen wir fur die Kette Xt den Zustand i, wahrend Yt in der
stationaren Verteilung beginnt (und naturlich auch bleibt). Damit erhalten wir fur
einen beliebigen Zustand k 2 S und n 1
jp(n) j = jPr[X = k] Pr[Y = k]j
ik
DWT
c Susanne Albers
k
n
n
= jPr[Xn = k; n H ] + Pr[Xn = k; n < H ]
Pr[Yn = k; n H ] Pr[Yn = k; n < H ]j:
420/460
Beweis (Forts.):
Nun konnen wir (12) anwenden und schlieen, dass
jp(ikn) k j = jPr[Xn = k; n < H ] Pr[Yn = k; n < H ]j:
Zur Abschatzung dieses Ausdrucks benutzen wir die Abschatzung
jPr[A \ B ] Pr[A \ C ]j Pr[A]:
fur beliebige Ereignisse A, B und C (die oensichtlich ist).
Wir erhalten
jp(ikn) k j Pr[n < H ]:
Da Pr[H < 1] = 1, gilt Pr[n < H ] ! 0 fur n ! 1, d.h. die Wahrscheinlichkeiten
p(ikn) konvergieren fur n ! 1 gegen k .
DWT
c Susanne Albers
421/460
2.6 Doppeltstochastische Matrizen
Wie berechnet man die nach Satz 141 (eindeutig bestimmte) stationare Verteilung,
gegen die ergodische endliche Markov-Ketten fur jede Startverteilung konvergieren?
Eine Moglichkeit besteht darin, das lineare Gleichungssystem P = aufzustellen
und zu losen. Fur groere Matrizen ist dieses Verfahren allerdings im Allgemeinen sehr
aufwandig.
Wir stellen hier einen anderen Ansatz vor.
DWT
c Susanne Albers
2.6 Doppeltstochastische Matrizen
422/460
Denition 142
Eine n n Matrix P = (pij )0i;j<n heit stochastisch, falls alle Eintrage pij
nichtnegativ und alle Zeilensummen gleich Eins sind:
nX1
j =0
pij = 1 fur alle i = 0; : : : ; n 1:
Sind zusatzlich auch alle Spaltensummen gleich 1, also
nX1
i=0
pij = 1 fur alle j = 0; : : : ; n 1;
so nennt man P doppeltstochastisch.
 bergangsmatrix einer Markov-Kette ist immer stochastisch, und umgekehrt.
Die U
DWT
c Susanne Albers
2.6 Doppeltstochastische Matrizen
423/460
Lemma 143
Ist P eine doppeltstochastische n n Matrix, so ist = ( n1 ; : : : ; n1 ) ein Eigenvektor
zum Eigenwert 1 bezuglich Multiplikation von links:
= P:
Beweis:
Fur alle 0 k < n gilt:
nX1
1
( P )k = i pik = n pik = n1 = k :
i=0
i=0
nX1
| {z }
=1
DWT
c Susanne Albers
424/460
Zusammen mit Satz 141 erhalten wir damit sofort:
Satz 144
Fur jede ergodische endliche Markov-Kette (Xt )t2N0 mit doppeltstochastischer

Ubergangsmatrix
gilt unabhangig vom Startzustand
lim q
t!1 t
= ( n1 ; : : : ; n1 );
wobei n die Kardinalitat der Zustandsmenge bezeichne.
Beweis:
Klar!
DWT
c Susanne Albers
2.6 Doppeltstochastische Matrizen
425/460
Beispiel 145
Anna und Bodo verabreden sich wieder einmal zu einer Partie Poker. Misstrauisch
geworden durch ihre Verluste beim letzten Rendezvous verdachtigt Anna mittlerweile
ihren Spielpartner, beim Mischen zu mogeln. Um ganz sicher zu gehen, dass die Karten
zukunftig auch wirklich gut gemischt werden, schlagt sie folgendes Verfahren vor: Der
Stapel mit Karten wird verdeckt hingelegt; dann werden m-mal jeweils zwei Karten
daraus zufallig ausgewahlt und vertauscht. Soll Bodo dieser Prozedur zustimmen?
DWT
c Susanne Albers
2.6 Doppeltstochastische Matrizen
426/460
Beispiel 145
Wir modellieren den oben skizzierten Mischvorgang durch eine Markov-Kette. Als
Zustandsmenge S wahlen wir alle moglichen Anordnungen der Karten. Identizieren
wir die Karten mit den Zahlen [n] = f1; : : : ; ng, so besteht S aus der Menge aller
Permutationen der Menge [n].
Betrachten wir nun zwei verschiedene Permutationen ; 2 S . Nach Denition der
 bergangswahrscheinlichkeit p; genau dann positiv, wenn es
Markov-Kette ist die U
i; j 2 [n], i 6= j , gibt, so dass
8
>
< (j )
falls k = i;
(k) = (i) falls k = j;
>
:
(k) sonst.
DWT
c Susanne Albers
426/460
Beispiel 145
Da nach Voraussetzung i und j zufallig gewahlt werden (und es genau n2 solcher
Paare i; j gibt), gilt in diesem Fall p; = 1= n2 .
Da man jede Vertauschung zweier Karten durch nochmaliges Vertauschen wieder
ruckgangig machen kann, sieht man auch sofort ein, dass p; = p; gilt. Die
 bergangsmatrix P ist also symmetrisch und damit insbesondere auch
U
doppeltstochastisch. Aus Satz 144 folgt somit, dass die Markov-Kette unabhangig von
der Startverteilung zur Gleichverteilung konvergiert.
Der von Anna vorgeschlagene Mischvorgang ist also in der Tat sinnvoll: Fur m ! 1
konvergiert die Wahrscheinlichkeitsverteilung fur die sich ergebende Kartenreihenfolge
gegen die Gleichverteilung, die Karten sind also bestens gemischt!
DWT
c Susanne Albers
426/460
Beispiel 145
Anmerkung: Man kann zeigen, dass fur n Karten bereits m = O(n log n)
Vertauschungen genugen, um einen gut durchmischten Kartenstapel zu erhalten.
DWT
c Susanne Albers
426/460
Herunterladen