Elementare Stochastik - Goethe

Werbung
Elementare Stochastik
Prof. Dr. Anton Wakolbinger
August 2000∗
Mein Dank gilt Frau Jelena Ryvkina und Herrn Michael Messer für die aufmerksame Durchsicht des
Skriptums und die Korrektur von Tippfehlern.
April 2007, A. W.
∗
Inhaltsverzeichnis
1 Zufallsvariablen und Verteilungen, Ereignisse und Wahrscheinlichkeiten
1
2 Vom gerechten Aufteilen eines Spieleinsatzes
5
3 Vom Stichprobenziehen zum Münzwurf
8
4 Vom Stichprobenziehen zum Würfeln
11
5 Vom Münzwurf zur Binomialverteilung
12
6 Vom Würfeln zur Multinomialverteilung
13
7 Hilfen fürs Abzählen
15
8 Ziehen ohne Zurücklegen. Die hypergeometrische Verteilung
19
9 Der Erwartungswert: naive Definition
22
10 Die Additivität des Erwartungswertes
24
11 Zum Rechnen mit Ereignissen
25
12 Zusammengesetzte Zufallsvariablen
26
13 Unabhängigkeit
27
14 Bedingte Verteilung
30
15 Bedingte Wahrscheinlichkeit
33
16 Markoffketten: Grundbegriffe und Beispiele
37
17 Gleichgewichtsverteilungen
41
18 Der allgemeine Rahmen
44
19 Integral und Erwartungswert
47
20 Übergangswahrscheinlichkeiten
51
21 Fortgesetzter Münzwurf und Gleichverteilung
53
22 Maße mit Dichten und Verteilungsfunktionen
55
23 Varianz und Kovarianz
64
24 Gemeinsame Dichten (bzgl. λ ⊗ λ)
69
i
25 Vom Münzwurf zum Poissonprozeß
71
26 Das schwache Gesetz der großen Zahlen
78
27 Vom Münzwurf zur Glockenkurve:
Die Normalapproximation der Binomialverteilung
80
28 Der klassische Zentrale Grenzwertsatz
88
29 Die Normalverteilung
92
30 Große Abweichungen beim Münzwurf
95
31 Große Abweichungen beim Würfeln
99
32 Das Starke Gesetz der Großen Zahlen
104
33 Markoffketten: Auftreffverteilung und Dirichletproblem
106
ii
1
Zufallsvariablen und Verteilungen, Ereignisse und
Wahrscheinlichkeiten
Eine Zufallsvariable X mit Wertebereich S modelliert die zufällige Auswahl eines
Elementes aus der Menge S.
X
S
S kann höchst einfach sein - man denke ans Würfeln, aber auch beliebig kompliziert
(statistische Mechanik, Finanzmathematik . . . ). Der mathematischen Frage welche Struktur S tragen muß, werden wir uns später stellen.
Erst einmal betrachten wir den Fall
S diskret (d.h. endlich oder abzählbar)
Sei B ⊆ S. Für das Ereignis X fällt in B“ schreibt man {X ∈ B}
”
X
B
S
Ereignissen A kann man unter bestimmten Hypothesen Wahrscheinlichkeiten
W s(A) zuordnen.
1
Als Rechenregeln fordern wir
P
Ws({X ∈ B}) =
Ws({X = x}) mit Ws({X = x}) ≥ 0,
x∈B
P
Ws({X = x}) = 1
x∈S
Daraus ergibt sich sofort:
i Ws ({X ∈ B1 ∪ B2 }) = Ws ({X ∈ B1 }) + Ws({X ∈ B2 }) falls B1 ∩ B2 = ∅ X
S
P
allgemeiner Ws ({X ∈ Bi }) = Ws ({X ∈ Bi }) falls die Bi paarw. disj.
ii Ws ({X ∈ B c }) = 1 − Ws ({X ∈ B})
X.
Die Zahlen µ(x) := Ws ({X = x}), x ∈ S, nennen wir die Verteilungsgewichte von
Die Funktion B 7→ µ(B) := Ws ({X ∈ B}) heißt die Verteilung von X.
1.1 Beispiel S endlich. Rein zufällige Auswahl“
”1
Ws ({X = x}) = |S|
Ws ({X ∈ B}) = |B|
|S|
X heißt dann gleichverteilt oder Laplaceverteilt auf S.
1.2 Beispiel Die Zufallsvariable Z:= Augensumme beim 2-maligen Würfeln hat Wertebereich {2, . . . 12}
D’Alembert (1754, in seiner Encyclopédie) argumentiert, daß alle Ausgänge gleich
wahrscheinlich sein sollen. Daß das nicht so ist, hatte allerdings schon Cardano um 1550
in seinem Buch “Liber de Ludo Aleae“ richtig durchschaut.
Formal: Z = X1 + X2 , wobei Xi :=zuf. Augenzahl des Würfels i.
Aha! Mit Zufallsvariablen kann man also rechnen.
Naive Sicht: man verarbeitet die zufälligen Ausgänge gemäß einer Rechenvorschrift
(hier: Addition).
genauer: man definiert die Ereignisse {Z = i}:
{Z = 2} := {(X1 , X2 ) = (1, 1)}
{Z = 3} := {(X1 , X2 ) ∈ {(1, 2), (2, 1)}
1
2
Also ergibt sich Ws ({Z = 2}) = 36
, Ws ({Z = 3}) = 36
2
Und allgemeiner:
X2
6
5
4
Z = X1 + X2
3
2
X1
1
8
6
5
4
3
2 36
1 36
36
7
5
9
12 1 W s({Z = z})
11 2 36
10 3 36
5
6 36
36
4 36
36
4 36
36
3
2
1.3 Beispiel Wie wahrscheinlich ist es, beim viermaligen Würfeln mindestens eine 6 zu werfen?
S = {1, 2, . . . , 6}4
Wir betrachten das Gegenereignis“: keine 6 zu werfen.
”
B = {1, 2, . . . , 5}4
4
Ws ({X ∈ B}) = 654 = ( 65 )4
Damit ergibt sich die gesuchte Wahrscheinlichkeit zu
5
Ws ({X ∈ B c }) = 1 − ( )4 > 12
| {z6 }
=0,518
Wie wahrscheinlich ist es beim 24-maligen Doppelwürfeln mindestens einmal eine Doppelsechs zu werfen?
Die Ausgänge eines Doppelwürfelns kann man durch {(1, 1), (1, 2), . . . (6, 6)}
={1,
ˆ
2, 3, . . . , 36} beschreiben.
Sei S = {1, 2, . . . , 36}24
B = {1, 2, . . . , 35}24
35 24
)
Ws ({X ∈ B}) = ( 36
3
35
Ws ({X ∈ B }) = 1 −
36
{z
|
c
24
=0,4914
<
1
2
}
Nach einer gängigen Faustregel war man um 1600 geneigt zu sagen:
Weil ein Erfolg im Einzelexperiment der 2. Serie nur 16 der Wahrscheinlichkeit eines
Einzelexperimentes der 1. Serie hat, muß man in der 2. Serie 6-mal so viele Versuche
machen, bis die Wahrscheinlichkeit für mindestens einen Erfolg“ 12 übersteigt.
”
Das brachte Chevalier de Méré aus der Fassung. Die landläufige Geschichte ist die,
daß er erst einmal das zweite Spiel eingeführt hat, um neue Partner zu interessieren (weil
das erste schon fad wurde) und dann gemerkt hatte, daß er mit 24 verlor, worauf er 24
durch 25 ersetzte - und tatsächlich wurde das Spiel dann für ihn günstig:
35 25
) = 0, 5055
1 − ( 36
Der Punkt ist allerdings, daß er recht lange hätte spielen müssen, um dies aus dem beobachteten Spielergebnis einigermaßen vertrauenswürdig schließen zu können - wir werden
darauf später noch einmal zu sprechen kommen.
4
2
Vom gerechten Aufteilen eines Spieleinsatzes
Zwei Spieler vereinbaren folgendes Spiel.
Am Anfang setzt jeder eine Mark. In jeder Runde werfen sie eine faire Münze.
Kommt Kopf, gewinnt A die Runde.
Kommt Zahl, gewinnt B die Runde.
Derjenige Spieler soll den gesamten Einsatz bekommen, der als erster insgesamt 4
Runden gewonnen hat. Nach drei Runden hat A zweimal gewonnen und B einmal. Wie ist
der Einsatz gerecht aufzuteilen, wenn die beiden das Spiel zu diesem Zeitpunkt abbrechen?
(Fra Luca Paccioli im Buch Summa de Arithmetica, Geometria, Proportioni et Pro”
portionalita, 1494, Venedig“ In diesem Fall habe ich gefunden, daß die Meinungen un”
terschiedlich sind, alle scheinen mir unzureichend in ihren Argumenten, aber ich werde
die Wahrheit feststellen und den wahren Weg angeben“)
Bis zu Pascal und Fermat gab es keine korrekte Lösung dieses sogenannten Problems
”
der Punkte“.
Fermats Lösung mit gleich wahrscheinlichen Pfaden: Nach mindestens 4 weiteren
Runden ist das Spiel entschieden. Er läßt die Spieler in Gedanken weiterspielen, um gleichwahrscheinliche Ausgänge zu bekommen.
Spieler A gewinnt, wenn in den 4 Runden mindestens zwei Gewinne sind.
KKKK
KKKZ
KKZK
KKZZ
KZKK
KZKZ
KZZK
KZZZ
Ws (A gewinnt) =
ZKKK
ZKKZ
ZKZK
ZKZZ
ZZKK
ZZKZ
ZZZK
ZZZZ
11
16
5
Geometrische Deutung:
Anzahl Gewinne von B
relative Anzahl der möglichen Spielverläufe,
die hierher führen = Ws (A gewinnt)
(2, 1)
Anzahl Gewinne von A
Schritt nach rechts bedeutet Gewinn von A, Schritt nach oben bedeutet Gewinn von B.
Pascal schrieb an Fermat in Toulouse um 1654:
Werter Herr,
”
wie Sie bin ich gleichermaßen ungeduldig, und obwohl ich wieder krank im Bett liege, muß
ich Ihnen einfach mitteilen, daß ich gestern abend Ihren Brief [. . . ] mit der Lösung des
Problems der Punkte“ bekommen habe, die ich mehr bewundere als ich sagen kann.
”
Ihre Methode ist sehr sicher und ist die erste, die mir in dieser Forschung in den Sinn
kam; aber weil die Mühe der Berechnung exzessiv ist, habe ich eine Abkürzung gefunden
und in der Tat eine Methode, die viel schneller und klarer ist, als ich Ihnen hier in ein paar
Worten sagen will, denn fürderhin will ich Ihnen mein Herz öffnen, wenn ich darf, weil
ich so über die Maße froh bin über unsere Übereinstimmung. Ich sehe, daß die Wahrheit
diesselbe ist in Toulouse wie in Paris. . .“
Im Original klingt’s noch schöner:
Monsieur,
”
L’impatience me prend aussi qu’à vous et, quoique je sois encore au lit, je ne puis
m’empêcher de vous dire que je reçus hier au soir [. . . ] votre lettre sur les partis, que
j’admire si fort que je ne puis vous le dire. [. . . ]
Votre méthode est très sûre et est celle qui m’est la première venue à la pensée dans
cette recherche; mais parce que la peine des combinaisons est excessive, j’en ai trouvé un
abrégé et proprement une autre méthode bien plus courte et plus nette, que je voudrais
pouvoir vous dire ici en peu de mots: car je voudrais désormais vous ouvrir mon cœur,
6
s’il se pouvait, tant j’ai de joie de voir notre rencontre. Je vois bien que la vérité est la
même à Toulouse et à Paris. [. . . ]“
Pascals Lösung mit Rückwärtsinduktion“:
”
Schreibe die Gewinnwahrscheinlichkeiten von A zu den möglichen Spielständen, beginne am Rand“, rechne sukzessive zurück.
”
0
0
0
1
4
1
2
1
1
2
3
4
1
Startend von hier aus, führt die
Hälfte aller Pfade zu Gewinn von A
11
16
7
8
1
1
2
7
· 1 + 12 ·
1
2
=
3
4
3
Vom Stichprobenziehen zum Münzwurf
Aus einer Urne mit 5 schwarzen und 15 weißen Kugeln wird 8 mal rein zufällig mit
Zurücklegen gezogen.
Aufgabe:
Wie wahrscheinlich ist die Zugfolge (s,w,w,s,w,w,w,w) ?
Feinmodellierung“: Kugeln durchnumeriert mit 1,. . . ,20.
”
X . . . zufällige Zugfolge
X ist Laplaceverteilt auf SX := {1, . . . , 20}8 (man beachte die Analogie zum mehrfachen Würfeln)
X = (X1 , . . . , X8 )
Xi gibt an, welche Nummer beim i-ten Zug gezogen wird.
Wir geben den 5 schwarzen Kugeln die Nummern 1, . . . ,5,
den 15 weißen
die Nummern 6,. . . ,20.
An der Zugfolge x = (x1 , . . . , x8 ) beobachten wir die Farbe beim i-ten Zug:
(
1 falls xi ∈ {1, . . . , 5}
fi (x) :=
0 sonst
kurz: fi (x) := 1{1,...,5} (xi )
Wir setzen Yi := fi (X) := 1{1,...,5} (Xi ).
Y
X
f
f −1 (B ′ )
B′
Y = f (X) ist definiert durch {Y ∈ B ′ } := {X ∈ f −1 (B ′ )} Die Aufgabe läß sich
umformulieren zu Ws ({(Y1, . . . , Y8 ) = (1, 0, 0, 1, 0, 0, 0, 0)}) =?
{z
}
|
=:A
8
Damit ist die Aufgabe auf ein Problem des Abzählens reduziert.
Wieviele x gibt es insgesamt? Antwort: 208
Wieviele davon führen auf f (x) = (1, 0, 0, 1, 0, 0, 0, 0) ?
Das sind 5 · 15 · 15 · 5 · 15 · 15 · 15 · 15 = 52 · 156
Damit ergibt sich als Lösung der Aufgabe:
52 · 156
=
Ws(A) =
208
2 6
1
3
·
4
4
3.1 Definition Sei p ∈ [0, 1], n ∈ N. Eine {0, 1}n -wertige Zufallsvariable Y = (Y1 , . . . , Yn )
heißt münzwurfverteilt zum Parameter p
:⇐⇒ Ws ({Y = (y1 , . . . yn )}) = pk (1 − p)n−k
falls die Folge (y1 , . . . , yn ) k Einsen und (n − k) Nullen besitzt.
(Man nennt Y auch zufällige Münzwurffolge zum Parameter p“.)
”
(Fingerübung: Beweise, daß die Summe dieser Verteilungsgewichte in der Tat eins ist.)
Aus dem Münzwurf gewinnt man andere interessante Modelle:
1) Vi := 2(Yi − 21 )
V = (V1 , . . . , Vn ) ist {−1, 1}n -wertig,
Ws ({V = (v1 , . . . , vn )}) = pk (1 − p)n−k
falls (v1 , , . . . , vn ) k Plus-Einsen und (n − k) Minus-Einsen hat.
Wi := V1 + V2 + . . . + Vi
(W1 , W2 , . . .) heißt Irrfahrt auf Z zum Parameter p (mit Start in 0)
2) (Multiplikative Variante von 1)): Sei 0 < d < u
(
u falls Yi = 1
Fi :=
d falls Yi = 0
Si := s0
i
Q
Fj wurde von Cox, Ross und Rubinstein (1979) verwendet zur Beschrei-
j=1
bung der Preise eines Wertpapiers (und ist bis heute ein gängiges Modell).
9
Wie gewinnt man eine zufällige Münzwurfrealisierung?
p rational, p = M
N
M schwarze Kugeln, N − M weiße Kugeln
Ziehe n-mal mit Zurücklegen, beobachte die Farbfolge
In der Realität: unsere Urne ist der Computer
N = 232
M := [pN]
Generierung einer Folge von Pseudozufallszahlen“ Xi ∈ {0, 1, . . . , N − 1}
”
Übung:
Simulieren Sie (im Gedenken an Chevalier de Méré) 10 Münzwurfrealisierungen jeweils
mit n =10
a) für p =
1
2
b) für p = 0, 518
c) für p = 0, 4914
10
4
Vom Stichprobenziehen zum Würfeln
Denken wir uns einen Würfel mit r Seiten, der so gezinkt ist, daß die Seite j mit
Wahrscheinlichkeit pj kommt (p1 + . . . + pr = 1).
Als Modell für das n-malige Werfen betrachten wir die {1, . . . , r}n -wertige Zufallsvariable Y = (Y1 , . . . , Yn ) mit Verteilungsgewichten
Ws ({Y = (y1 , . . . , yn )}) := pk11 . . . pkr r
falls in y = (y1 , . . . , yr ) genau k1 mal die 1
..
.
genau kr mal die r vorkommt.
Wie können wir diese Verteilung durch Ziehen von Kugeln aus einer Urne darstellen?
M
Für rationale pj sei pj = Nj , j = 1, . . . , r
Beispiel: r =3
In einer Urne sind insgesamt N =20 Kugeln. Davon sind 5 gelb, 11 weiß und 4 blau. Wir
ziehen rein zufällig mit Zurücklegen. Wie wahrscheinlich ist die Zugfolge (g,w,b,g,b,b,g,b)?
Lösung: Wir beschriften die Kugeln mit 1,. . . ,20 und zwar so, daß die gelben Kugeln die
Nummern 1,. . . ,5 erhalten, die weißen die Nummern 6,. . . ,16 und die blauen die Nummern
17,. . . ,20.
Sei G := {1, . . . , 5}, W := {6, . . . , 16}, B := {17, . . . , 20}, X = (X1 , . . . , X8 ) sei
Laplace-verteilt auf {1, . . . , 20}8


 1
Yi :=
2


3
falls Xi ∈ G
falls Xi ∈ W
falls Xi ∈ B
5 · 11 · 4 · 5 · 4 · 4 · 5 · 4 Ausgänge der insgesamt 208 möglichen Ausgänge für X führen
auf das Ereignis A := {Y = (1, 2, 3, 1, 3, 3, 1, 3)}.
Also:
3 1 4
11
4
5
·
·
Ws (A) =
20
20
20
11
5
Vom Münzwurf zur Binomialverteilung
Y = (Y1 , . . . , Yn ) sei ein Münzwurf zum Parameter p (das Ereignis {Yi = 1} interpretieren wir als Erfolg beim i-ten Versuch“).
”
g(y) := y1 + . . . + yn , Z := Y1 + . . . + Yn . . . Gesamtzahl der Erfolge
g
Y
{0, 1, . . . , n}
Sy = {0, 1}n
Ws({Z = k}) =?
P
Wieviele y ∈ Sy mit
yi = k gibt es?
Auf wieviele Arten kann man k Einsen auf n Plätze verteilen?
n!
Antwort: Auf nk := k!(n−k)!
Arten.
Jedes derartige y hat Gewicht pk (1 − p)n−k
Also: Ws({Z = k}) = nk pk (1 − p)n−k
5.1 Definition Die Verteilung auf {0, . . . , n} mit den Gewichten
n k
p (1 − p)n−k
µ(k) :=
k
heißt Binomialverteilung zu den Parametern n und p.
12
6
Vom Würfeln zur Multinomialverteilung
Y = (Y1 , . . . , Yn ) sei ein Würfelexperiment“, wie in Abschnitt 4 beschrieben.
”
Wie wahrscheinlich ist es, dabei k1 -mal das Ergebnis 1,
..
.
kr -mal das Ergebnis r, (mit k1 + . . . + kr = n) zu erhalten?
Jeder einzelne dieser Ausgänge hat die Wahrscheinlichkeit pk11 . . . pkr r
Wieviele derartige Ausgänge gibt es?
So viele, wie es Möglichkeiten gibt auf n Plätze
k1 -mal die 1,
..
.
k -mal die r zu setzen.
k1 r k
n
n
:= Anzahl der
Also ist die gesuchte Wahrscheinlichkeit k1 ...kr p1 . . . pr r , mit k1 ...k
r
Möglichkeiten, n Plätze in r Klassen der Größe k1 , . . . kr einzuteilen.
Vom Würfeln zur Multinomialverteilung kommt man durch eine Verarbeitung der
Folge y = (y1 , . . . , yn ) zu den Häufigkeiten gj (y) := #{i | yi = j}
Bn,r := {(k1 , . . . , kr ) | kj ∈ N0 , k1 + . . . + kr = n} heißt Menge der Besetzungszahlen
von r Plätzen mit n Objekten.
Y
g
Bn,r
Sy = {1, 2, . . . , r}n
Z := g(Y ) hat die Verteilungsgewichte
Ws({Z = (k1 , . . . , kr )}) =
n
pk1 . . . pkr r
k1 . . . kr 1
6.1 Definition Die dadurch festgelegte Verteilung auf Bn,r heißt Multinomialverteilung
mit Parametern n, p1 , . . . , pr .
13
Zur Wiederholung (Vom Stichprobenziehen übers Würfeln zur Multinomialverteilung):
Z
Y
X
g
f
Sx = {1, . . . , N}n Sy = {1, . . . , r}n
|C |
Sz = Bn,r
{C1 , . . . , Cr } sei Partition von {1, . . . , N} mit pj := Nj
fi (x) := j falls xi ∈ Cj
Y := f (X)
gj (y) := #{i | yi = j}
Z = g(Y )
Ist X Laplace-verteilt, so ist Z multinomial-(n; p1 , . . . , pr )-verteilt.
14
7
Hilfen fürs Abzählen
a) Auswahl mit Reihung
Bilden eines k-köpfigen Komitees mit Reihung aus n Leuten.“
”
# Möglichkeiten = n(n − 1) . . . (n − k + 1) =: [n]k
(n Möglichkeiten für den ersten Platz, n−1 Möglichkeiten für den zweiten Platz, . . . )
n=4
k=2
[4]2 = 4 · 3
speziell: k = n
[n]n =: n! = 1 · 2 · . . . · n
(Anzahl der Permutationen von {1, . . . , n})
b) Auswahl ohne Reihung
Bilden eines k-köpfigen Komitees ohne Reihung aus n Leuten.“
”
n
k
# Möglichkeiten = [n]
=:
Binomialkoeffizient“
k!
k ”
(wie in a), mit Zusammenfassen der k! möglichen Anordnungen des Komitees zu
einem Ausgang)
Pascal’sches Dreieck
1
1
1
1
1
1
2
3
4
5
1
1
3
6
10
1
4
10
1
5
1
·
·
·
15
n
n
Rekursion: n+1
=
+
. Interpretation: Anzahl der Möglichkeiten, aus n
k+1
k+1
k
Männern und einer Frau ein k + 1 köpfiges Komitee auszuwählen.
Entweder die Frau ist nicht dabei. . . oder sie ist dabei. . .
Beispiel: Binomischer Lehrsatz: (a + b)n = (a + b)(a + b) . . . (a + b) =
n
P
k=0
Die Potenz k gibt an, wie oft der Faktor a zum Zug kommt.
n
k
ak bn−k
c) Einteilen von n Leuten in r Klassen der Größe k1 , . . . , kr
Bsp.: 40 Studenten in 4 Übungsgruppen à 10 Studenten:
30 20 10
40
· 10 · 10 · 10 = 10! 10!40!10! 10!
10
(Hier stellt man sich für S die Blätter eines Baumes vor.
40
Kanten in der ersten Generation; von jedem gehen
10
30
Kanten in die zweite Generation, . . . )
10
Allgemein:
n − k1 − . . . − kr−1
n − k1
n
=
...
·
kr
k2
k1
[n]k1 [n − k1 ]k2 . . . [n − k1 − . . . − kr−1 ]kr
k1 ! . . . kr !
n!
=
k1 ! . . . kr !
=
n!
=:
Fazit: Es gibt k1 !...k
r!
k1 , . . . , kr einzuteilen.
n
k1 ,...,kr
Möglichkeiten, n Leute in r Klassen der Größe
Dem entspricht der multinomische Lehrsatz:
n
(a1 + . . . + ar ) =
X
k1 +...+kr =n
16
n
ak1 . . . akr r
k1 , . . . , kr 1
d) Besetzen von r (durchnumerierten) Schachteln mit n nichtunterscheidbaren Kuglen,
so, daß keine Schachtel leer bleibt: wieviele Möglichkeiten gibt es?
z.B.: r = 2, n = 4
3 Möglichkeiten
Vorstellung: Lege n Kugeln hin. Trenne sie durch r − 1 Trennwände in r Blöcke“
”
| | | r = 4, n = 7
Die r − 1 Trennwände können an r − 1 von n − 1 möglichen Plätzen angebracht
werden. Also n−1
Möglichkeiten.
r−1
e) Besetzen von r (durchnumerierten) Schachteln mit n nichtunterscheidbaren Kugeln:
wieviele Möglichkeiten gibt es?
z.B.: r = 2, n = 4
5 Möglichkeiten
Vorstellung: Sehe n + (r − 1) mögliche Plätze in Reihe vor. Beliebige r − 1 davon
werden zu Trennwänden, der Rest zu Kugeln erklärt.
Z.B.: r=3, n=5:
Der Ausgang
| | 17
steht dann für k1 = 0, k2 = 0, k3 = 5“
” n+r−1
n+r−1
Es gibt r−1 =
Möglichkeiten.
n
7.1 Definition
a) Die Laplaceverteilung auf Bn,r heißt auch Bose-Einstein-Verteilung
1
).
auf Bn,r . (Jeder Ausgang z ∈ Bn,r hat dann Gewicht n+r−1
( n )
1
1
b) Die Multinomialverteilung zu den Parametern (n, , . . . , ) heißt auch Maxwell|r {z r}
r−mal
Boltzmann-Verteilung auf Bn,r .
7.2 Beispiel n = 40, r = 6
Die Besetzungszahlen der Ausgänge 1, . . . , 6 beim klassischen 40-maligen Würfeln sind
Maxwell-Boltzmann verteilt.
Wie wir zeigen werden, führt folgendes Zufallsexperiment auf die Bose-EinsteinVerteilung:
46 Studierende sind im Hörsaal, 6 sitzen in der 1. Reihe. Der 7. wählt rein zufällig
einen der 6, der 8. wählt rein zufällig einen der 7, . . .
Auf diese Art bilden sich 6 Menschentrauben. Die sich ergebenden Besetzungszahlen
der Zugänge“ sind Bose-Einstein verteilt auf B40,6 .
”
18
8
Ziehen ohne Zurücklegen. Die hypergeometrische
Verteilung
In einer Urne befinden sich N Kugeln, davon M schwarze und N −M weiße. Wir ziehen
ohne Zurücklegen n-mal.
Wie groß ist die Wahrscheinlichkeit, dabei k schwarze und n − k weiße zu ziehen?
Die Kugeln seien durchnumeriert mit 1, . . . , N, die ersten M davon sind schwarz.
•| •{z• •} ◦| ◦ ◦{z◦ ◦ ◦}
N −M
M
Die Möglichkeiten, aus N Kugeln n herauszugreifen, werden modelliert durch die Menge S der n-elementigen Teilmengen von {1, . . . , N}.
Sei G eine reinzufällige Wahl aus S. Die Anzahl der schwarzen Kugeln in der durch G
dargestellten Stichprobe ist Z := #(G ∩ {1, . . . , M}).
Wieviele g ∈ S gibt es insgesamt?
Antwort: Nn
Wieviele g ∈ S sind günstig für {Z = k}?
−M Antwort: Mk Nn−k
Also:
Ws({Z = k}) =
19
M
k
N −M
n−k
N
n
Wir können G und Z auch in einem feineren Modell darstellen:
Z
Y
X
SY = {0, 1}n
SX := Menge der
SZ = {0, . . . , n}
Permutationen
von {1, . . . , N}
X := rein zufällige Permutation von {1, . . . , N}, G := {X1 , . . . , Xn }
Yi := 1{1,...,M } (Xi ), i = 1, . . . , n
n
P
Z :=
Yi
i=1
Diese Darstellung wird uns im nächsten Abschnitt hilfreich sein.
8.1 Definition Die durch die Gewichte
µN,M,n (k) :=
M
k
N −M
n−k
N
n
, k = 0, 1, . . . , n
festgelegte Verteilung auf {0, . . . , n} heißt hypergeometrische Verteilung zu den Parametern N, M, n.
20
8.2 Bemerkung Für N → ∞, M → ∞ und
M
N
→ p ∈ [0, 1] gilt (für n, k fest):
n k
p (1 − p)n−k
µN,M,n (k) →
k
( Binomialapproximation der hypergeometrischen Verteilung“)
”
n
P
yi ).
Im feineren Modell entspricht dem ( mit tk :=
i=1
WsM,N ({(Y1 , . . . , Yn ) = (y1 , . . . , yn )}) =
=
M (M − 1) . . . (M − k + 1) (N − M) . . . (N − M − n − k + 1)
N(N − 1) . . . (N − n + 1)
−→
→p
N →∞, M
N
pk (1 − p)n−k
(die Züge kommen sich für große N und M nur mit einer kleineren Wahrscheinlichkeit in
die Quere.)
21
9
Der Erwartungswert: naive Definition
Sei Z eine Zufallsvariable mit Verteilung µ auf dem endlichen Wertebereich S ⊆ R.
Wir definieren:
X
X
E Z :=
zWs({Z = z}) =
zµ(z)
z∈S
z∈S
(Erwartungswert von Z, 1. Moment von Z)
Beachte: E Z ist eine Zahl, die sich durch die Verteilung µ ausdrücken läßt.
Sie ist das mit µ(z) gewichtete Mittel der Werte z ∈ S. Man spricht auch vom Erwartungswert der Verteilung µ.
9.1 Beispiel
1) Erwartungswert der Binomialverteilung mit Parametern n, p.
n
P
k nk pk (1 − p)n−k
=
k=1
n
P
k=1
n
n−1
k−1
p pk−1 (1 − p)(n−1)−(k−1)
n−1 X
n−1
pk (1 − p)n−1−k
=n ·p ·
k
{z
}
|k=0
=1
2) Erwartungswert der hypergeometrischen Verteilung mit Parametern N, M, n
n
−M P
k Mk Nn−k
=?
k=0
−M Nun ist k Mk Nn−k
die Anzahl der Möglichkeiten, aus M Frauen k und aus N − M
Männern n − k auszuwählen und dann eine Frau zur Vorsitzenden zu machen. Die
Summe von k = 0 bis n ist daher die Anzahl, aus M Frauen und N − M Männern
ein n-köpfiges Komitee mit einer Frau als Vorsitzenden auszuwählen.
−1
Diese Zahl ist andererseits gleich M Nn−1
(wähle erst die Vorsitzende . . . )
n
−M P
Insgesamt somit:
k Mk Nn−k
=M
k=0
N −1
n−1
Also ergibt sich
EZ = n
22
M
N
=M
N n
n N
Geht das auch ohne listige Kombinatorik oder stures Rechnen?
In der Tat!
Sowohl in Beispiel 1) wie in Beispiel 2) hat Z eine Darstellung
Z = Y1 + . . . + Yn
(in 1) mit
in 2) mit
Yi := i-ter Ausgang beim Münzwurf,
Yi := 1{1,...,M }(Xi ), X rein zufällige Permutation von {1, . . . , N}.
In 1) gilt: EYi = p · 1 + (1 − p) · 0 = p
· 1 + N −M
·0= M
In 2) gilt EYi = M
N
N
N
Wenn wir wüßten, daß der Erwartungswert additiv ist (also daß E(Y1 + . . . + Yn ) =
EY1 + . . . + EYn gilt), hätten wir’s!
23
10
Die Additivität des Erwartungswertes
10.1 Satz Sind U, V zwei reellwertige Zufallsvariable mit endlichen Wertebereichen, die in
einem gemeinsamen Zufallsexperiment auftreten, so gilt:
E(U + V ) = EU + EV
Vorbemerkung:
i) {U = u} = {(U, V ) ∈ {u} × SV }
und dementsprechend
X
Ws ({(U, V ) = (u, v)})
Ws ({U = u}) =
v∈SV
ii) {U + V = s} = {(U, V ) ∈ {(u, v)|u + v = s}}
und dementsprechend
Ws ({U + V = s}) =
X
Ws ({(U, V ) = (u, v)})
(u,v)
u+v=s
Beweis des Satzes:
X
E(U + V ) =
sWs ({U + V = s})
s
=
ii)
=
X
s
s
X
X
Ws ({(U, V ) = (u, v)})
{(u,v):u+v=s}
(u + v) Ws ({(U, V ) = (u, v)})
(u,v)
=
X
u Ws ({(U, V ) = (u, v)}) +
(u,v)
=
X
u Ws ({U = u}) +
u
= EU + EV.
X
X
v Ws ({(U, V ) = (u, v)})
(u,v)
v Ws ({V = v})
v
i)
2
24
11
Zum Rechnen mit Ereignissen
X
S endlich oder abzählbar
Wir betrachten die Familie von Ereignissen
{X ∈ B}, B ⊆ S
Mit diesen Ereignissen kann man im Sinn der Aussagenlogik rechnen:
{X ∈ B1 } ∩ {X ∈ B2 } := {X ∈ B1 ∩ B2 }
{z
}
|
lies: X fällt in B1 und X fällt in B2
{X ∈ B1 } ∪ {X ∈ B2 } := {X ∈ B1 ∪ B2 }
|
{z
}
lies: X fällt in B1 oder X fällt in B2
\
i
W
[
i
{X ∈ Bi } := {X ∈
{X ∈ Bi } := {X ∈
\
[
Bi } für B1 , B2 , . . . ⊆ S
Bi } für B1 , B2 , . . . ⊆ S
V
:= {X ∈ S} nennen wir auch das sichere Ereignis, := {X ∈ ∅} das unmögliche
Ereignis.
{X ∈ B}c := {X ∈ B c } das Komplementärereignis von {X ∈ B}.
Mit jedem Ereignis A assoziieren wir seine Indikatorvariable IA . Dies ist eine {0, 1}wertige Zufallsvariable mit {IA = 1} := A, {IA = 0} := Ac .
25
12
Zusammengesetzte Zufallsvariablen
Wird eine Reihe von Zufallsexperimenten beschriebendurch die Zufallsvariablen
X1 , . . . , Xn mit Wertebereichen S1 , . . . , Sn , so läßt sich das zusammengesetzte Experiment beschreiben durch die Zufallsvariable X = (X1 , . . . , Xn ) mit Wertebereich S :=
S1 × S2 × . . . × Sn .
Jedes zu Xi gehörige Ereignis ist auch ein zu X gehöriges Ereignis:
{Xi ∈ Bi } = {X ∈ S1 × S2 × . . . × Bi × . . . × Sn }
Durch die Verteilung µ von X sind also insbesondere die Verteilungen µi der Xi festgelegt.
µi (xi ) = Ws ({Xi = xi }) = Ws ({X ∈ S1 × . . . × Si−1 × {xi } × . . . × Sn })
X
µ((x1 , x2 , . . . , xi , . . . , xn ))
=
x1 ,...,xi−1 ,xi+1 ,...,xn
Umgekehrt legen die Verteilungen der Xi aber noch lange nicht die Verteilung von X fest.
e := rein zufällige Permutation von
12.1 Beispiel X := rein zufällige Wahl aus {1, . . . , n}n , X
ei sind Laplaceverteilt auf {1, . . . , n}.
{1, . . . , n}. Sowohl Xi als auch X
26
13
Unabhängigkeit
Zwei Zufallsvariablen X1 , X2 nennt man unabhängig, wenn der Ausgang der einen
die bedingte Verteilung der anderen nicht beeinflußt, d.h. wenn sich die Gewichte
µ((x1 , x2 )), x2 ∈ S2 , auf µ1 (x1 ) in einem Verhältnis aufteilen, das nicht von x1 abhängt.
S2
X
S1
Mit anderen Worten: ∃c : S2 → R+ mit µ((x1 , x2 )) = µ1 (x1 )c(x2 )
Summation über x1 ergibt dann sofort: µ2 (x2 ) = c(x2 )
Also: µ((x1 , x2 )) = µ1 (x1 )µ2 (x2 ), und damit auch: µ(B1 × B2 ) = µ1 (B1 ) · µ2 (B2 ).
13.1 Definition Zwei Zufallsvariablen X1 , X2 heißen unabhängig
:⇔ Ws ({X1 ∈ B1 } ∩ {X2 ∈ B2 }) = Ws ({X1 ∈ B1 }) · Ws ({X2 ∈ B2 })
(⇔ µ((x1 , x2 )) = µ1 (x1 )µ2 (x2 ) ∀x1 ∈ S1 , x2 ∈ S2 )
13.2 Definition Zwei Ereignisse A1 , A2 heißen unabhängig
:⇔ ihre Indikatorvariablen IA1 , IA2 sind unabhängig.
Hier ist also S1 = S2 = {0, 1}
1
0
1
p11
p10
0
p01
p00
S1
27
S2
Ws (A1 ∩ A2 ) = Ws (A1 ) · Ws (A2 )
⇔ p11 = (p11 + p10 )(p11 + p01 )
= p211 + p11 p01 + p11 p10 + p10 p01
= p11 (1 − p00 ) + p10 p01
⇔ p11 p00 = p10 p01
⇔ detp = 0
⇔ IA1 und IA2 sind unabhängig.
13.3 Beispiel S := Menge der Studentinnen und Studenten am Freitag, den 8.5.98 um 11.15
Uhr im Hörsaal 14 der Johann-Wolfgang-Goethe-Universität.
Z := daraus rein zufällig ausgewähltes Subjekt
A1 := {Z ist männlich}
A2 := {Z ist Raucher}
MR
MN
WR
WN
In unserem Hörsaal ergab sich:
R
N
M
6
13
W
1
11
Die Ereignisse A1 und A2 sind also bei weitem nicht unabhängig.
28
13.4 Definition
a) Die Zufallsvariablen X1 , . . . , Xn heißen unabhängig
:⇔ Ws (
n
\
{Xi ∈ Bi }) =
i=1
n
Y
i=1
Ws ({Xi ∈ Bi }), Bi ⊆ Si
( ⇔ µ((x1 , . . . , xn )) = µ1 (x1 ) . . . µn (xn ), ∀ x1 ∈ S1 , . . . , xn ∈ Sn )
Übung
b) Ereignisse A1 , . . . , An heißen unabhängig
:⇔ die Indikatorvariablen IA1 , . . . , IAn sind unabhängig
⇔ für jede Teilfamilie Ai1 , . . . , Aik gilt:
Übung
Ws (Ai1 ∩ . . . ∩ Aik ) =
k
Y
j=1
Ws (Aij )
Anschaulich gesprochen sind 2 Ereignisse unabhängig, wenn das Eintreten des einen
das Eintreten des anderen weder wahrscheinlicher noch unwahrscheinlicher macht.
Aus der paarweisen Unabhängigkeit folgt nicht die Unabhängigkeit.
13.5 Beispiel X = (X1 , X2 , X3 ) fairer Münzwurf
A1 = {X1 = X2 }, A2 = {X2 = X3 }, A3 = {X3 = X1 }
Ws (Ai ∩ Aj ) = Ws (Ai ) · Ws (Aj ) = 14 für i = j,
aber: das Eintreten von A1 ∩ A2 zieht das Eintreten von A3 nach sich und patsch ist auch
Ws (A1 ∩ A2 ∩ A3 ) =
1
1
6= Ws (A1 )Ws (A2 )Ws (A3 ) =
4
8
29
14
Bedingte Verteilung
X = (X1 , X2 ) habe Verteilung µ.
Wie ist X2 verteilt, gegeben {X1 = x1 }?
Wie teilen sich die Gewichte µ((x1 , x2 )), x2 ∈ S2 , auf µ1 (x1 ) auf?
14.1 Definition
µ((x1 , x2 ))
, x2 ∈ S2
µ1 (x1 )
nennt man die Gewichte der bedingten Verteilung von X2 , gegeben {X1 = x1 }.
P (x1 , x2 ) :=
Oft geht man den umgekehrten Weg: nicht von µ zu µ1 und P , sondern von µ1 und P
zu µ. Man denkt sich eine stochastische Dynamik“ P gegeben, die besagt, wie X2 verteilt
”
ist, gegeben X1 .
Bemerkung und Definition: µ1 sei eine Verteilung auf S1 ; für alle x1 sei P (x1 , .) eine
Verteilung auf S2 . Dann wird durch
µ((x1 , x2 )) := µ1 (x1 )P (x1 , x2 )
eine Verteilung µ auf S1 × S2 definiert.
Man sagt: µ hat Startverteilung µ1 und Übergangswahrscheilichkeit P .
Hat X = (X1 , X2 ) diese Verteilung µ, so ergibt sich für die Verteilung µ2 von X2 :
X
µ1 (x1 )P (x1 , x2 )
µ2 (x2 ) =
x1 ∈S1
14.2 Beispiel Wir betrachten 2 Urnen mit weißen und schwarzen Kugeln. Urne 1 hat 100
Kugeln, davon 99 schwarz, 1 weiß. Urne 2 hat 1000 Kugeln, davon 50 schwarz, 950 weiß.
1
10
Erst wählt man mit Wahrscheinlichkeit 11
Urne 1 und mit Wahrscheinlichkeit 11
Urne
2 und zieht dann gleichverteilt aus der gewählten Urne eine Kugel.
Urne 1
s
Urne 2
w
P (1, w) = 0, 01 P (1, s) = 0, 99
P (2, w) = 0, 95 P (2, s) = 0, 05
30
X1 bezeichne die Nummer der gewählten Urne , X2 die Farbe der gezogenen Kugel.
Mit welcher Wahrscheinlichkeit zieht man eine schwarze Kugel?
µ2 (s) = Ws ({X2 = s}) = µ1 (1)P (1, s) + µ2 (2)P (2, s)
10
1
· 0, 99 +
· 0, 05
=
11
11
= 0, 090 + 0, 045
= 0, 135
Die bedingte Verteilung von X1 , gegeben X2 , ist dann von der Form
P̂ (x2 , x1 ) :=
µ((x1 , x2 ))
µ1 (x1 )P (x1 , x2 )
=
µ2 (x2 )
µ2 (x2 )
Zurück zu unserem Beispiel: Angenommen, die gezogene Kugel ist schwarz. Mit
welcher Wahrscheinlichkeit stammt sie aus der 1. Urne ?
P̂ (s, 1) =
0, 090
µ((1, s))
=
= 0, 66
µ2 (s)
0, 135
Das Beispiel hat eine einprägsame Interpretation in der Welt der Gesundenuntersu1
chung. Angenommen, in einer Bevölkerung sind 11
der Individuen krank und 10
= 90, 9%
11
gesund. Ein krankes Individuum wird mit Wahrscheinlichkeit 0, 99 als krank erkannt, ein
gesundes Individuum wird mit Wahrscheinlichkeit 0, 05 (irrtümlich) als krank eingestuft.
Dann ist die Wahrscheinlichkeit, daß ein zufällig aus der Bevölkerung herausgegriffenes
Individuum gesund ist, gegeben, daß es als krank eingestuft wurde, immer noch ca. 31 !
14.3 Beispiel X1 Laplaceverteilt auf {1, 2, 3}
a) gegeben {X1 = x1 } sei X2 Laplaceverteilt auf {2, 3}\{x1}
1
2
1
2
1
1
31

0 12 21


P := P (i, j)i,j=1,2,3 =  0 0 1 
0 1 0

P (1, 2) = P (1, 3) = 12 , P (2, 3) = P (3, 2) = 1
P̂ (2, 1) =
µ1 (1)P (1,2)
µ2 (2)
=
P̂ (2, 3) =
µ1 (3)P (3,2)
µ2 (2)
=
1 1
·
3 2
1
2
1
·1
3
1
2
=
1
3
= 32 .
b) gegeben {X1 = x1 } sei X2 = min({1, 2, 3}\{x1})
1
1
1

0 1 0


P = 1 0 0 
1 0 0

P (1, 2) = P (2, 1) = P (3, 1) = 1
P̂ (1, 2) = P̂ (1, 3) = 12 , P̂ (2, 1) = 1
c) gegeben {X1 = x1 } sei X2 Laplaceverteilt auf {1, 2, 3}

P̂ = P

P =
1
3
1
3
1
3
1
3
1
3
1
3
... ... ...
32



15
Bedingte Wahrscheinlichkeit
A1 , A2 seien zwei Ereignisse mit Ws(A1 ) > 0. Wie verteilen sich die beiden Zahlen
Ws (A2 ∩ A1 ) und Ws (Ac2 ∩ A1 )
auf Ws(A1 )?
15.1 Definition Die Zahl
Ws (A2 ∩ A1 )
Ws (A1 )
heißt bedingte Wahrscheinlichkeit des Ereignisses A2 , gegeben das (Eintreten des)
Ereignis(ses) A1 .
Ws (A2 |A1 ) :=
15.2 Bemerkung Sei Ws (A1 ) > 0. Dann gilt: A1 und A2 sind unabhängig
⇔ Ws (A2 |A1 ) = Ws (A2 ).
15.3 Beispiel Z := zufällige Anzahl der Asse in einem Blatt von 13 Karten aus 52. Sind die
Ereignisse im Blatt ist genau ein As“ und im Blatt ist mindestens ein As“ unabhängig?
”
”
Oder begünstigt ein Ereignis das andere?
Ws ({Z = 1}|{Z ≥ 1}) =
=
Ws ({Z = 1})
Ws ({Z ≥ 1})
Ws ({Z = 1} ∩ {Z ≥ 1})
Ws ({Z ≥ 1})
>
↑
W s({Z = 1})
W s({Z=1})>0 und 0<W s({Z≥1})<1
(Ganz allgemein gilt:
A2 ⊆ A1 ⇒ Ws (A2 |A1 ) > Ws (A2 ) falls 0 < Ws (A2 ) ≤ Ws (A1 ) < 1.
15.4 Beispiel Sie bekommen 13 aus 52 Karten. Sind die Ereignisse darunter ist das Herz As“
”
und darunter ist genau ein As“ unabhängig? Die beiden Ereignisse seien mit H und A1
”
bezeichnet. Macht das Eintreten von A1 das von H wahrscheinlicher?
Offenbar nicht:
Ws (H) = 41 (denn die Wahrscheinlichkeit, daß eine feste Karte unter den 13 ist, ist
13
= 41 )
52
und gegeben, daß man genau ein As hat, ist die Wahrscheinlichkeit, daß es genau das
Herz As ist, 41 .
4(48
(51
(48)
12)
12)
= 14 .
Man kann auch nachrechnen: Ws (A1 ∩H) = 12
52 , Ws (A1 ) =
52 , Ws (H) =
)
(13)
(13)
(52
13
Also: Ws (A1 ∩ H) = Ws (A1 ) · Ws (H).
33
15.5 Beispiel Was ist wahrscheinlicher in einem Spiel mit 13 aus 52 Karten: daß man genau
ein As hat, gegeben man hat das Herz As, oder daß man genau ein As hat, gegeben man
hat mindestens ein As? Letzteres, denn:
Sei H das Ereignis man hat das Herz As“
”
Ws ({Z = 1}|H) = Ws ({Z = 1})
Andererseits:
Ws ({Z = 1}|{Z ≥ 1}) > Ws ({Z = 1})
15.6 Beispiel Was ist wahrscheinlicher in einem Spiel mit 13 aus 52 Karten: daß man mehr
als ein As hat, gegeben man hat das Herz As, oder, daß man mehr als ein As hat, gegeben
man hat mindestens ein As? Ersteres, denn:
Ws ({Z > 1}|H) = 1 − Ws ({Z = 1}|H)
Ws ({Z > 1}|{Z ≥ 1}) = 1 − Ws ({Z = 1}|{Z ≥ 1})
Dabei verwendeten wir die Tatsachen
1) Ws (A1 |A2 ) + Ws (Ac1 |A2 ) = 1
und
2) Ws (A1 |A2 ) = Ws (A1 ∩ A2 |A2 )
Beweis:
1)
Ws (A2 )
Ws (A1 ∩ A2 ) + Ws (Ac1 ∩ A2 )
=
=1
Ws (A2 )
Ws (A2 )
2) klar
34
Hier sind einige einfache, nützliche Formeln rund um die bedingte Wahrscheinlichkeit:
15.7 Bemerkung Seien E1 , E2 , . . . Ek Ereignisse
V
W
mitEi ∩ Ej = (i 6= j) und E1 ∪ . . . ∪ Ek = .
Man sagt dafür auch : E1 , . . . Ek ist ein vollständiges Ereignissystem
Sei A ein weiteres Ereignis. Dann gilt:
Ws (A) =
k
X
Ws (Ej )Ws (A|Ej )
j=1
W s(Ej )>0
(Formel von der totalen Wahrscheinlichkeit)
Beweis:
Ws (A) =
k
X
j=1
Ws (A ∩ Ej ) =
k
X
Ws (Ej )
j=1
Ws (Ej )>0
Ws (A ∩ Ej )
Ws (Ej )
15.8 Bemerkung Seien E und A Ereignisse mit Ws (E) > 0, Ws (A) > 0
Dann ist
Ws (E)Ws (A|E)
Ws (E|A) =
Ws (A)
Die Kombination von Bemerkung 15.7 und 15.8 liefert die Formel von Bayes:
Ws (E1 |A) =
Ws (E1 )Ws (A|E1 )
k
P
Ws (Ej )Ws (A|Ej )
j=1
15.9 Bemerkung Seien A1 , . . . , An Ereignisse mit Ws (A1 ∩ . . . ∩ An−1 ) > 0
Dann gilt die Multiplikationsformel:
Ws (A1 ∩ . . . ∩ An ) = Ws (A1 ) · Ws (A2 |A1 ) · Ws (A3 |A1 ∩ A2 ) . . . Ws (An |A1 ∩ . . . ∩ An−1 )
(Denn die rechte Seite ist ein Teleskopprodukt, bei dem sich fast alles wegkürzt)
Die richtige Sicht auf diese Formeln ist die der mehrstufigen Zufallsexperimente: Zu
Bemerkung 15.7 und 15.8:
X1 und X2 seien zwei Zufallsvariable.
X1 habe die möglichen Ausgänge 1, . . . , k
Ej := {X1 = j}, A := {X2 = x}
35
Ws (A|Ej ) =: P (j, x), Ws (Ej |A) =: P̂ (x, j)
Dann ergeben sich die uns schon bekannten Formeln
X
µ2 (x) =
µ1 (j)P (j, x)
j
P̂ (x, j) =
µ1 (j)P (j, x)
µ2 (x)
Zu Bemerkung 15.9 gehört das Bild einer diskreten stochastischen Dynamik:
X1 , X2 , . . . , Xn seien Zufallsvariablen mit Wertebereichen S1 , . . . , Sn . Die bedingte Verteilung von Xi , gegeben X1 , . . . , Xi−1 sei gegeben durch die Gewichte P ((x1 , . . . , xi−1 ), xi ).
Dann ergibt sich für die gemeinsame Verteilung von X1 , . . . , Xn induktiv
µ((x1 , . . . , xn )) = µ1 (x1 )P (x1 , x2 )P ((x1 , x2 ), x3 ) . . . P ((x1 , . . . , xn−1 ), xn )
36
16
Markoffketten: Grundbegriffe und Beispiele
S0 sei endlich oder abzählbar
{0,...,N }
S := S0
P = P (x, y)x,y∈S0 sei Übergangsmatrix auf S0 , d.h.
X
P (x, y) = 1, ∀ x ∈ S0
P (x, y) ≥ 0,
y∈S0
Eine S-wertige Zufallsvariable X = (X0 , . . . , XN ) heißt Markoffkette mit Übergangswahrscheinlichkeit P ( mit stochastischer Dynamik P“) : ⇔
”
Ws ({X0 = x0 , . . . , Xn = xn }) = Ws ({X0 = x0 })P (x0 , x1 ) . . . P (xn−1 , xn ) (1)
16.1 Bemerkung Aus (1) folgt sofort:
Ws ({Xn = xn }|{X0 = x0 , . . . , Xn−1 = xn−1 }) = P (xn−1 , xn )
falls Ws ({X0 = x0 , . . . , Xn−1 = xn−1 }) > 0 (2)
Umgekehrt folgt (1) aus (2) über die Multiplikationsformel.
Beispiele für stochastische Dynamiken:
1) Irrfahrt auf Z
ζ sei beliebige Verteilung auf Z. Z sei gemäß ζ verteilt.
P (x, y) := Ws ({x + Z = y}) (= Ws ({Z = y − x}) = ζ(y − x))
Eine Markoffkette mit diese Übergangsdynamik heißt Irrfahrt auf Z mit
Zuwachsverteilung ζ.
(Übung: Sind Z1 , . . . , ZN unabhängige Kopien von Z und ist X0 eine von den Zi
unabängige Z-wertige Zufallsvariable, so ist
(X0 , X0 + Z1 , X0 + Z1 + Z2 , . . . , X0 + Z1 + . . . + ZN )
eine Irrfahrt auf Z mit Zuwachsverteilung ζ.
Ist umgekehrt (X1 , . . . , XN ) eine Irrfahrt auf Z mit Zuwachsverteilung ζ, dann sind
die Zi := Xi − Xi−1 , i = 1, . . . , N, unabhängig mit Verteilung ζ.)
37
Speziell: ζ(1) = p, ζ(−1) = 1 − p =: q
q
p
x
x−1
x+1
Eine Irrfahrt mit dieser Zuwachsverteilung heißt gewöhnliche Irrfahrt zum Parameter p. Ist p = 21 , so spricht man von der gewöhnlichen symmetrischen Irrfahrt.
2) Erneuerungskette
px
1 − px
1
0
x
x+1
Ein Gerät eines Alters x ∈ N0 stirbt mit Wahrscheinlichkeit px . Ein eben gestorbenes
Gerät wird sofort ersetzt.
3) Ehrenfestsches Urnenmodell
S0 = {0, . . . , L}
1
0
x
L
1−
x
x
L
1
2
1
2
L
2
1
L
In einer (durch eine Membran in zwei Hälften getrennten) Urne befinden sich L
Teilchen. In jedem Zeitschritt wird rein zufällig eines der L Teilchen ausgewählt
und in die andere Hälfte verfrachtet.
38
4) Polyasches Urnenmodell: Eine Gruppe von Menschen, die aus 2 Parteien besteht,
wächst pro Zeitschritt um einen Menschen an. Der Neuankömmling wählt zufällig
einen der schon vorhandenen Menschen und tritt dessen Partei bei.
S0 = N20
l
k+l
l
k
k+l
k
Wie wahrscheinlich ist - bei einer Anfangskonstellation k : l und n Hinzukommenden
- eine Aufteilung s : (n − s)?
Das hatten wir schon in einer Übungsaufgabe!
Insgesamt ergibt sich die Bose-Einstein-Verteilung auf den Besetzungszahlen.
#Bk,s
r+n−1
l + (n − s) − 1
k+s−1
, #Br,n =
, #Bl,(n−s)
=
n
n−s
s
mit r := k + l. Die gesuchte Wahrscheinlichkeit ist also
k+s−1 l+(n−s)−1
s
n−s
r+n−1
n
Alternative Überlegung: Man kann sich über die Formel (1) zu Beginn des Abschnitts
auch leicht überlegen, daß jeder einzelne Weg von (k, l) nach (k + s, l + (n − s)) die
Wahrscheinlichkeit
k(k + 1) . . . (k + s)l(l + 1) . . . (l + (n − s) + 1)
(k + l)(k + l + 1) . . . (k + l + n − 1)
39
hat. Es gibt davon ns Stück (denn aus den n Schritten sind s herauszugreifen, bei
denen es nach rechts geht). Das Produkt der beiden Terme gibt wieder die gesuchte
Wahrscheinlichkeit.
5) Fisher-Wright-Modell
Wir betrachten eine Population der Größe M, die Individuen seien durchnumeriert
mit 1, . . . , M. Jedes Individuum i hat einen Zustand ξ(i) ∈ T , wobei T ein beliebiger
Typenraum“ ist (man denke etwa an T = {0, 1}).
”
Der aktuelle Zustand der Population ist
ξ = (ξ(1), . . . , ξ(M)) ∈ T {1,...,M } =: S0
Der zufällige Zustand in der nächsten Generation kommt nun folgendermaßen zustande:
Jedes Individuum wählt rein zufällig eine Mutter und übernimmt deren Zustand,
alle Individuen tun das unabhängig.
dadurch ergibt sich eine stochastische Dynamik P auf S0 .
Frage: Wie sieht der Zustand nach vielen Generationen aus?
Antwort: Mit hoher Wahrscheinlichkeit ist Fixierung eines Typs“ eingetreten.
”
Es gilt sogar:
Die Wahrscheinlichkeit für Fixierung konvergiert exponentiell schnell gegen Eins.
Beweis:
Ws ({Xn nicht fixiert }) ≤
≤ Ws ({in keiner Generation i = 1, . . . , n wählen alle Individuen dieselbe Mutter})
n
T
= Ws ( {in Generation i wählen nicht alle Individuen dieselbe Mutter})
{z
}
i=1 |
=:Ai
n
Q
=
Ws (Ai ) = αn
i=1 | {z }
=:α<1
40
17
Gleichgewichtsverteilungen
17.1 Definition Sei P eine Übergangsmatrix auf S0 . Eine W-Verteilung π auf S0 heißt Gleichgewichtsverteilung zu P : ⇔
(G)
π(y) =
X
π(x)P (x, y)
x∈S0
(⇔ falls (X0 , X1 ) Startverteilung π und Übergangswahrscheinlichkeit P hat, dann hat
auch X1 Verteilung π)
17.2 Übung Zeigen Sie:
a) Die symmetrische Irrfahrt auf Z besitzt keine Gleichgewichtsverteilung.
b) Die Gleichgewichtsverteilungen im Fisher-Wright-Modell sind genau die auf
{(t, . . . , t)|t ∈ T }
(also der Diagonalen“ von T {1,...,M } ) konzentrierten Verteilungen.
”
c) Berechnen Sie die Gleichgewichtsverteilung der Erneuerungskette für px ≡ p.
17.3 Beispiel Ehrenfest-Modell:
Die Gleichgewichtsbedingung lautet:
π(0) = π(1) · L1
π(L) = π(L − 1) · L1
π(x) = π(x − 1) L−(x−1)
+ π(x + 1) x+1
, x = 1, . . . , L − 1
L
L
Wir geben zwei Ansätze zur Lösung von (G).





(G)
1) Über eine Feinmodellierung“ der Zustände und der Dynamik: Wir denken uns die
”
Kugeln durchnumeriert mit 1, . . . , L. Für jede Kugel i notieren wir, ob sie in der
linken Hälfte (zi = 0) oder in der rechten Hälfte (zi = 1) ist.
W := {(z1 , . . . , zL )|zi ∈ {0, 1}}
Wir betrachten folgende stochastische Dynamik Q auf W :
41
Wähle gleichverteilt einen Index J aus {1, . . . , L} und flippe zJ (von 0 auf 1 bzw.
von 1 auf 0).
Also:
Q(z, z ′ ) :=
(
1
L
0
falls sich z und z ′ in einer Komponente unterscheiden
sonst
Q beschreibt übrigens eine Irrfahrt auf dem Würfel W ; schon deshalb leuchtet es
ein, daß die Laplacverteilung auf W eine Gleichgewichtsverteilung für Q ist.
(In der Tat: ein festes z ′ kann in einem Schritt aus L verschiedenen z entstehen, all
die entsprechenden Q(z, z ′ ) sind gleich L1 ).
Das Ehrenfest-Modell entsteht aus dem Feinmodell über die Abbildung
f : W → {0, . . . , L}
z 7→
L
X
zi
i=1
Diese führt die Laplaceverteilung auf W in die Binomialverteilung mit Parametern
L, 21 über.
In der Tat löst
1 L
, x = 0, . . . , L
π(x) := L
2 x
das System (G).
2) Einen zweiten Ansatz zum Auffinden eines Gleichgewichts im Ehrenfest-Modell liefert die sogenannte Reversibilitätsbedingung (R). Dahinter steckt folgende einfache Beobachtung:
Zwei Zufallsvariablen X1 , X2 haben sicher dann dieselbe Verteilung, wenn (X2 , X1 )
genau so verteilt ist wie (X1 , X2 ), d.h. wenn für die gemeinsame Verteilung µ von
(X1 , X2 ) gilt:
µ(x, y) = µ(y, x) ∀ x, y
Ist µ(x, y) = π(x)P (x, y), dann schreibt sich diese Bedingung als
(R)
π(x)P (x, y) = π(y)P (y, x)
42
Durch Summieren über x sieht man auch sofort, daß (G) aus (R) folgt.)
Im Ehrenfest-Modell lautet (R):
L − (x − 1)
L
L−x+1
= π(x − 1)
x
x
Y
L−j+1
L
= π(0)
= π(0)
x
j
j=1
π(x) Lx = π(x − 1)
⇔
π(x)
⇔
π(x)
43
18
Der allgemeine Rahmen
S sei eine beliebige nichtleere Menge. Die Quintessenz des folgenden ist: Falls S
überabzählbar ist, reicht es nicht mehr, einzelne Punkte x ∈ S und deren Gewicht µ(x)
zu betrachten, sondern man muß von vorneherein eine gewisse (genügend reichhaltige)
Klasse von Teilmengen B von S ins Auge fassen und für diese die Zahlen
µ(B) ≡ Ws ({X ∈ B})
spezifizieren.
18.1 Definition
a) Ein System S von Teilmengen von S heißt σ-Algebra auf S :⇔
S ∈ S
B ∈ S ⇒ Bc ∈ S
[
B1 , B2 , . . . ∈ S ⇒
Bi ∈ S
Man nennt dann (S, S) einen meßbaren Raum.
b) Ist E ein System von Teilmengen von S, so nennt man die kleinste σ-Algebra auf S,
welche E enthält, die von E erzeugte σ-Algebra.
c) Mit einer S-wertigen (genauer (S, S)-wertigen) Zufallsvariablen“ assoziieren wir
”
das System von Ereignissen“
”
{X ∈ B}, B ∈ S
Mit diesen Ereignissen kann man in genau demselben Sinn rechnen, wie wir das im
diskreten Fall kennengelernt haben.
X
B
S
44
d) Ist S eine σ-Algebra auf S, und S′ eine auf S ′ , so heißt f : S → S ′ meßbar, falls
f −1 (B ′ ) ∈ S ∀ B ′ ∈ S′
f
X
f −1 (B ′ )
B′
S'
S
Ist X eine S-wertige Zufallsvariable, und f : S → S ′ meßbar, so können wir die
Zufallsvariable Y := f (X) definieren: zu ihr gehören die Ereignisse
{Y ∈ B ′ } := {X ∈ f −1 (B ′ )}, B ′ ∈ B′
18.2 Übung (ein Kriterium für die Meßbarkeit)
Ist S′ von E′ erzeugt, so gilt:
f : S → S ′ ist meßbar ⇔ f −1 (B ′ ) ∈ S ∀ B ′ ∈ E′
Hinweis: Betrachte das System {B ′ ⊆ S ′ |f −1 (B ′ ) ∈ S})
18.3 Definition Sei S eine σ-Algebra auf S.Eine Abbildung µ : S → R+ heißt Maß auf S
[
X
:⇔ µ( Bk ) =
µ(Bk )
k
k
falls B1 , B2 , . . . ∈ S paarweise disjunkt. (Insbesondere folgt: µ(∅) = 0.)
Ist überdies µ(S) = 1, so heißt µ Wahrscheinlichkeitsmaß (Wahrscheinlichkeitsverteilung) auf S.
45
Unser Logo können wir also ergänzen um die Verteilung der Zufallsvariablen X“:
”
X
Ws ({X ∈ B}) ≡ µ(B)
B
S
Maße lassen sich durch meßbare Abbildungen transportieren
f
S′
S
Sei µ Maß auf S, f : S → S ′ meßbar.
Das durch ν(B ′ ) := µ(f −1(B ′ )), B ′ ∈ S′ definierte Maß heißt das durch Transport
von µ mit f entstandene Maß ( Bildmaß“ von µ unter f , Symbol µ ◦ f −1 ).
”
18.4 Bemerkung Hat X die Verteilung µ, so entsteht die Verteilung von f (X) durch Transport von µ mit f .
In der Tat:
Ws ({f (X) ∈ B ′ }) = Ws ({X ∈ f −1 (B ′ )}) = µ(f −1 (B ′ ))
f
X
S'
S
46
19
Integral und Erwartungswert
Das folgende (im wesentlichen auf H. Lebesgue [um 1900] zurückgehende) Theorem
beweisen wir in der elementaren Stochastik nicht, verwenden es aber als Eckpfeiler.
19.1 Theorem
1
Ist (S, S) ein meßbarer Raum, µ ein Maß auf S, und bezeichnet
F+ := {f : S → [0, ∞], f meßbar bzgl. der von den Intervallen auf [0, ∞] erzeugten σ-Algebra},
dann existiert genau eine Abbildung
F+ ∋ f 7→
Z
f (x)µ(dx) ∈ [0, ∞]
mit den folgenden Eigenschaften:
(1)
R
1B (x) µ(dx) = µ(B)
R
R
(αf1 + βf2 )(x) µ(dx) = α f1 (x) µ(dx) + β f2 (x) µ(dx),
R
R
(3) fn (x) ↑ f (x) ∀x ⇒ fn (x) µ(dx) ↑ f (x)µ(dx)
(2)
R
19.2 Korollar 0 ≤ g ≤ f ∈ F+ ⇒
R
g(x) µ(dx) ≤
R
(α, β ≥ 0)
f (x) µ(dx)
R
19.3 Definition Ist f : S → R meßbar und |f |(x) µ(dx) < ∞, dann nennen wir f µintegrierbar und setzen
Z
Z
Z
f (x) µ(dx) := f+ (x) µ(dx) − f− (x) µ(dx)
(mit f+ := max(f, 0), f− := max(−f, 0))
f−
f+
S
S
f
f
1
Ein unterstrichenes Theorem“ oder Satz“ bedeutet, daß die Aussage in dieser Vorlesung nicht
”
”
bewiesen wird.
47
19.4 Lemma (Ungleichung von Markoff) Für f ∈ F+ und c > 0 ist
Z
1
f (x)µ(dx)
µ({x|f (x) ≥ c}) ≤
c
Beweis: Sei B := {x|f (x) ≥ c}. Wegen des obigen Korollars gilt
Z
Z
Z
f (x) µ(dx) ≥ 1B (x) f (x) µ(dx) ≥ 1B (x) · c µ(dx) = c · µ(B).
2
19.5 Satz Für f ∈ F+ gilt:
f = 0 µ-fast überall (in dem Sinn, daß µ({x|f (x) 6= 0}) = 0)
Z
⇔ f (x) µ(dx) = 0
Beweis: Sei Bn := {x|f (x) ≥ n1 }. Dann ist
Theorem (beachte 1Bn ↑ 1B ) folgt sofort
S
Bn = B := {x|f (x) > 0}. Wegen (3) im
µ(B) = lim µ(Bn )
n
Gelte nun
R
f (x)µ(dx) = 0. Dann gilt für alle n wegen der Ungleichung von Markoff
Z
µ(Bn ) ≤ n
f (x) µ(dx) = 0
also auch
µ(B) = 0
Gelte umgekehrt µ(B) = 0. Dann ist
Z
Z
min(n, f (x)) µ(dx) ≤ n 1B (x) µ(dx) = n µ(B) = 0
⇒
Thm,(3)
Z
f (x) µ(dx) = 0
2
48
19.6 Übung Man zeige:
a) Gelte 0 ≤ fn ↑ f µ-fast überall (in dem Sinn, daß µ({x|fn (x) ↑ f (x)}c ) = 0). Dann
gilt
Z
Z
fn (x) µ(dx) ↑ f (x) µ(dx)
b) Ist µ diskret (d.h. gibt es eine höchstens abzählbare Menge B mit µ(B c ) = 0 und
ist {x} ∈ S ∀ x ∈ B), so ist
Z
X
|f |(x) µ(dx) =
|f (x)| µ({x}).
x∈B
X sei eine S-wertige Zufallsvariable mit Verteilung µ. Wir sagen:
X ∈ B fast sicher :⇔ Ws ({X ∈ B}) = 1 (⇔ B hat volles µ-Maß)
Sei f : S → [0, ∞] meßbar, bzw f : S → R̄ µ-integrierbar. Wir setzen
Z
E f (X) := f (x) µ(dx)
Speziell: Sei Y eine R-wertige Zufallsvariable mit Verteilung ν. Dann ist
Z
E |Y | = |y| ν(dy)
Falls E |Y | < ∞ (in diesem Fall nennen wir Y integrierbar), ist
Z
E Y = y ν(dy).
19.7 Satz
i) Für jedes Ereignis A ist E 1A = Ws (A).
ii) Seien X1 , X2 R-wertig und integrierbar. Dann gilt:
E (αX1 + βX2 ) = αE X1 + βE X2 (α, β ∈ R)
iii) Seien X1 , X2 , . . . R-wertig mit 0 ≤ Xn ↑ X∞ fast sicher. Dann gilt:
E Xn ↑ E X∞ .
49
Beweisskizze:
Zu i) 1A hat diskrete Verteilung Ws(A)δ1 + Ws(Ac ) δ0
Zu ii) Betrachte X = (X1 , X2 ), f1 (X) := X1 , f2 (X) := X2
Zu iii) Betrachte X = (X1 , X2 , . . . , X∞ ), fn (X) := Xn , f (X) := X∞
19.8 Korollar A1 , A2 , . . . seien einander paarweise ausschließende Ereignisse. Dann gilt:
Ws (
[
Ai ) =
i
X
Ws (Ai )
Beweis: Nach Voraussetzung gilt
1 S Ai =
X
1 Ai
Die Behauptung folgt dann aus dem obigen Satz.
Die Linearität des Erwartungswertes läßt sich auch elegant einsetzen zum Beweis der
sogenannten
Ein-Ausschaltregel:
Seien A1 , . . . , An beliebige Ereignisse. Dann gilt:
Ws
n
[
Ai =
i=1
X
i
Ws (Ai ) −
X
i<j
Ws (Ai ∩ Aj ) + . . . + (−1)n+1 Ws (A1 ∩ . . . ∩ An )
Beweis: Es gilt die Identität
(∗)
1 Sn
i=1
Ai
=
X
i
1 Ai −
X
i<j
1Ai ∩Aj + . . . + (−1)n+1 1A1 ∩...∩An
(denn der Indikator des Gegenereignisses hat die Darstellung
1 − 1 Sn
i=1
Ai
=
n
Y
i=1
(1 − 1Ai ) = 1 −
X
1 Ai +
i
X
i<j
1Ai 1Aj − . . . + (−1)n 1A1 1A2 . . . 1An )
Die Behauptung folgt nun unmittelbar durch Bilden des Erwartungswertes über (∗).
2
50
20
Übergangswahrscheinlichkeiten
Wir erinnern an die Beziehung zwischen Startverteilung, Übergangswahrscheinlichkeit
und gemeinsamer Verteilung im diskreten Fall:
µ1 (x1 )P (x1 , x2 ) = µ(x1 , x2 )
20.1 Definition (S1 , S1 ) und (S2 , S2 ) seien meßbare Räume. P (x1 , B2 ), x1 ∈ S1 , B2 ∈ S2
heißt Übergangswahrscheinlichkeit von S1 nach S2
:⇔ P (x1 , ·) ist ein Wahrscheinlichkeitsmaß auf S2 ∀ x1 ∈ S1
und
x1 7→ P (x1 , B2 ) ist meßbar ∀ B2 ∈ S2
20.2 Definition
S1 ⊗ S2 := die von {B1 × B2 | B1 ∈ S1 , B2 ∈ S2 } erzeugte σ-Algebra auf S1 × S2
20.3 Satz Sei µ1 ein Wahrscheinlichkeitsmaß auf S1 und P eine Übergangswahrscheinlichkeit
von S1 nach S2 . Dann existiert genau ein Wahrscheinlichkeitsmaß µ auf (S1 ×S2 , S1 ⊗S2 )
mit
Z
µ(B1 × B2 ) = 1B1 (x1 )P (x1 , B2 )µ1 (dx1 ), B1 ∈ S1 , B2 ∈ S2
Für alle meßbaren, nichtnegativen (bzw. µ-integrierbaren) f gilt dann der Satz von Fu”
bini“:
Z
Z
Z Z
f (x1 , x2 )µ(dx1 , dx2 ) := f (x1 , x2 )µ(d(x1 , x2 )) =
f (x1 , x2 )P (x1 , dx2 ) µ1 (dx1 )
(Merkregel: µ(dx1 , dx2 ) = µ(dx1 )P (x1 , dx2 ))
Spezialfall:
P (x1 , ·) ≡ µ2 (·)
(d.h. P (x1 , ·) hängt nicht von x1 ab):
Das durch µ(B1 × B2 ) := µ1 (B1 ) · µ2 (B2 ), Bi ∈ Si festgelegte Wahrscheinlichkeitsmaß
auf S1 ⊗ S2 heißt Produktmaß von µ1 und µ2 .
Wir übertragen die Definition der Unabhängigkeit von zwei Zufallsvariablen aus dem
Diskreten: X1 , X2 heißen unabhängig :⇔
Ws ({X1 ∈ B1 } ∩ {X2 ∈ B2 }) = Ws ({X1 ∈ B1 }) · Ws ({X2 ∈ B2 })
51
Wegen
{X1 ∈ B1 } ∩ {X2 ∈ B2 } = {(X1 , X2 ) ∈ B1 × B2 }
folgt sofort:
X1 , X2 sind unabhängig ⇔
die Verteilung von (X1 , X2 ) ist das Produkt der Verteilungen von X1 und X2 .
20.4 Bemerkung Sind X1 , X2 reellwertig, integrierbar und unabhängig, dann ist auch X1 · X2
integrierbar, und
E(X1 X2 ) = EX1 · EX2
Beweis: Mit Fubini folgt die Integrierbarkeit von X1 · X2 :
Z
Z
Z
E (|X1 · X2 |) =
|x1 ||x2 |µ(dx1 , dx2 ) = |x1 |µ1 (dx1 ) |x2 |µ2 (dx2 ) < ∞
R×R
R
R
Und noch einmal mit Fubini folgt:
Z
Z
Z
E (X1 · X2 ) = x1 x2 µ(dx1 , dx2 ) = x1 µ1 (dx1 ) x2 µ2 (dx2 ) = E X1 E X2
2
Wir betrachten jetzt eine Folge von meßbaren Räumen (Si , Si ), i ≥ 1.
S := S1 × S2 × . . ., S := die von {B1 × . . . Bn × Sn+1 × Sn+2 × . . . | n ∈ N, Bi ∈ Si }
erzeugte σ-Algebra auf S
20.5 Satz von Ionesco-Tulcea Für alle n sei Pn eine Übergangswahrscheinlichkkeit von S1 ×
. . . × Sn nach Sn+1 , und sei µ1 ein Wahrscheinlichkeitsverteilung auf S1 . Dann existiert
genau ein Wahrscheinlichkeitsmaß µ auf S mit
µ(B1 × . . . × Bn × Sn+1 × Sn+2 × . . .)
Z
= 1B1 (x1 ) . . . 1Bn (xn )µ1 (dx1 )P1 (x1 , dx2 )P2 ((x1 , x2 ), dx3 ) . . . Pn−1 ((x1 , . . . xn−1 ), dxn )
Korollare:
- Existenz der Münzwurfverteilung auf {0, 1}N zum Parameter p.
- Existenz (der Verteilung) einer Markoffkette (X0 , X1 , . . .) zu einer Übergangsmatrix P .
52
21
Fortgesetzter Münzwurf und Gleichverteilung
Auf dem Raum {0, 1}N verwenden wir die von den Mengen
(∗)
B = {(x1 , . . . xn )} × {0, 1}{n+1,n+2,...} , n ∈ N, x1 , . . . , xn ∈ {0, 1}
erzeugte σ-Algebra S.
Sei p ∈ [0, 1]
Der Satz von Ionesco-Tulcea garantiert die Existenz eines Wahrscheinlichkeitsmaßes
µp auf S mit
µp (B) = pk (1 − p)n−k
falls B von der Form (∗) und genau k der xi gleich 1 sind.
Eine {0, 1}N -wertige Zufallsvariable X = (X1 , X2 , . . .) mit Verteilung µp nennen wir
(fortgesetzten) Münzwurf mit Erfolgsparameter p.
Später werden wir dafür das Gesetz der großen Zahlen“ beweisen:
”
n
1X
Xi → p fast sicher
n i=1
Mit anderen Worten: X fällt sicher in die Menge
n
1X
xi → p}
Bp := {x = (x1 , x2 , . . .)
n i=1
Für den Moment überlegen wir uns nur, daß Bp zu S gehört.
In der Tat ist
(
)
n
\ [ \
1 X
1
x Bp =
xi − p <
n
m
i=1
m∈N n ∈N n≥n
0
0
Betrachten wir folgende (auf E. Borel, um 1900, zurückgehende) Aussage:
In der dyadischen Entwicklung einer aus [0, 1] gleichverteilt herausgegriffenen Zahl
”
kommen Nullen und Einsen mit Wahrscheinlichkeit 1 gleich häufig vor.“
53
Dazu müssen wir erst einmal das folgende Logo mathematisch präzisieren.
1
X
0
21.1 Definition Sei B[0,1] die von den Intervallen auf [0, 1] erzeugte σ-Algebra.
Wie kommt es zur Gleichverteilung auf [0, 1]?
Hier hilft der
21.2 Satz Es existiert genau eine Abbildung
λ[0,1] : B[0,1] → [0, 1]
mit den Eigenschaften
(1) λ[0,1] ([a, b]) = b − a falls 0 ≤ a ≤ b ≤ 1
S
P
(2) λ[0,1] ( k Bk ) = λ[0,1] (Bk ) falls die Bk ∈ B[0,1] paarweise disjunkt.
λ[0,1] heißt Gleichverteilung auf [0, 1].
21.3 Übung Geben Sie Abbildungen f : {0, 1}N → [0, 1] und g : [0, 1] → {0, 1}N an, so daß
gilt:
X fairer Münzwurf ⇒ f (X) gleichverteilt auf [0, 1]
Z gleichverteilt auf [0, 1] ⇒ g(Z) fairer Münzwurf
Die Gleichverteilung ist engstens verwandt mit dem Lebesguemaß“:
”
21.4 Definition Sei B die von den Intervallen auf R erzeugte σ-Algebra.
Der große Bruder“ des vorigen Satzes (und leicht aus diesem herleitbar) ist der
”
21.5 Satz (H. Lebesgue, um 1900)
Es existiert genau eine Abbildung λ : B → R+ mit den Eigenschaften
(1) λ([a, b]) = b − a
S
P
(2) λ( Bk ) = λ(Bk ) falls die Bk ∈ B paarweise disjunkt.
54
22
Maße mit Dichten und Verteilungsfunktionen
Wir betrachten:
(S, S) meßbarer Raum
µ Maß auf (S, S)
g ∈ F+ =: {f : S → [0, ∞], f meßbar }
Dann definiert
Z
Z
ν(B) :=
g(x)µ(dx) = 1B (x)g(x)µ(dx)
B
ein Maß ν auf (S, S).
Wir nennen g die Dichte von ν bzgl. µ.
22.1 Bemerkung Nachzuprüfen bleibt die σ-Additivität von ν, d.h. ∀B1 , B2 , . . . ∈ S paarweise disjunkt gilt:
∞
∞
[
X
ν( Bk ) =
ν(Bk )
k=1
k=1
In der Tat gilt
ν(
∞
[
Bk )
Z X
∞
=
1Bk (x)g(x)µ(dx)
k=1
k=1
n
P
k=1
=
1Bk (x)g(x) ↑
=
∞
P
k=1
lim
1Bk (x)g(x)
n→∞
lim
n→∞
Z X
n
1Bk (x)g(x)µ(dx)
k=1
n Z
X
1Bk (x)g(x)µ(dx) =
k=1
∞
X
ν(Bk )
k=1
2
22.2 Lemma ν habe die Dichte g bzgl. µ. Dann gilt für alle f ∈ F+
Z
Z
f (x)ν(dx) = f (x)g(x)µ(dx)
Beweis: Wir zeigen, daß die Abbildung
I : F+ → [0, ∞], I(f ) :=
Z
f (x)g(x)µ(dx)
die Eigenschaften (1) - (3) aus dem Theorem über das Integral“ erfüllt.
”
(1), (2) klar
(3) mit fn (x) ↑ f (x) gilt auch fn (x)g(x) ↑ f (x)g(x) und somit I(fn ) ↑ I(f ).
55
2
22.3 Lemma g1 und g2 seien Dichten von ν bzgl. µ. Es sei ν(S) < ∞. Dann gilt g1 = g2 µ-f.ü.
(d.h. Dichten sind µ-f.ü. eindeutig bestimmt).
Beweis: ∀B ∈ S gilt:
ν(B) =
Z
1B (x)g1 (x)µ(dx) =
Z
1B (x)g2 (x)µ(dx)
also auch für B := {g1 (x) > g2 (x)}.
Z
⇒ 1B (x)(g1 (x) − g2 (x))µ(dx) = 0
Satz 19.5
⇒ 1B (g1 − g2 ) = 0 µ-f.ü.
⇒ 1B = 0 µ-f.ü.
Analog folgt:
⇒ g1 ≤ g2
g2 ≤ g1
µ-f.ü.
µ-f.ü.
2
Uns interessieren speziell Dichten von Wahrscheinlichkeitsmaßen ν (sog. Wahrscheinlichkeitsdichten) bzgl. des Lebesguemaßes λ auf (R, B).
22.4 Beispiel
i) Uniforme Verteilung auf [0, 1] (kurz: U[0,1] )
g[0,1] (x) = 1[0,1] (x)
R1
g[0,1] (x)λ(dx) = 1 klar.
0
1
1
0
56
ii) Exponentialverteilung (kurz: Exp(1))
g1 (x) = e−x 1R+ (x)
1
0
R∞
0
−x
∞
−x e λ(dx) = −e
0
= 0 − (−1) = 1
iii) Standard-Normalverteilung (kurz: N (0, 1))
ϕ0,1 (x) =
2
x
√1 e− 2
2π
0, 5
0, 4
0, 3
0, 2
0, 1
−2
−4
R∞
0
2
4
ϕ0,1 (x)λ(dx) = 1 ist nicht so einfach zu berechnen, da man die Stammfunktion
−∞
nicht hinschreiben kann.
Trick: Berechne
Z
ϕ0,1 (x)ϕ0,1 (y)λ(dx)λ(dy)
R2
durch Übergang zu Polarkoordinaten (Übung!).
57
22.5 Lemma (1. Hauptsatz der Differential- und Integralrechnung)
g : [a, b] → R+ sei stetig. Dann ist
G(x) :=
Zx
g(t)λ(dt)
a
differenzierbar mit G′ (x) = g(x) (m.a.W.: G ist Stammfunktion von g).
Offensichtlich gilt:
Zd
g(x)λ(dx) = G(d) − G(c).
c
Beweis: Es ist
x+h
Z
G(x + h) − G(x) =
g(t)λ(dt)
x
und
1
g(x) =
h
x+h
Z
g(x)λ(dt)
x
x+h
Z
1
G(x + h) − G(x)
h→0
|g(t) − g(x)| λ(dt) −→ 0
− g(x) ≤
⇒ {z
}
|
h
h
x
<ǫ
für
h<δ
2
22.6 Bemerkung Ist ν ein Wahrscheinlichkeitsmaß auf (R, B) mit stückweise stetiger Dichte
g bzgl. λ, dann ist b 7→ G(b) := ν(] − ∞, b[) eine Stammfunktion von g (G′ (x) = g(x) gilt
natürlich nur in den Stetigkeitspunkten von g).
Allgemeiner treffen wir folgende
22.7 Definition Sei µ ein Wahrscheinlichkeitsmaß auf (R, B). Die Funktion x 7→ G(x) :=
µ(] − ∞, x[) heißt Verteilungsfunktion von µ.
58
22.8 Lemma (Eigenschaften der Verteilungsfunktion):
1) lim G(x) = 0, lim G(x) = 1.
x→−∞
x→∞
2) G ist monoton wachsend.
3) G ist linksseitig stetig.
4) rechte Limiten existieren und es gilt µ({x}) = G(x+ ) − G(x).
Beweis:
1) und 2) sind klar.
3): Sei (xn ) Folge mit xn ↑ x. Setze Bn :=] − ∞, xn [ und B :=] − ∞, x[.
Es gilt 1Bn (y) ↑ 1B (y)
Z
Z
⇒ G(xn ) = 1Bn (y)µ(dy) ↑ 1B (y)µ(dy) = G(x)
4): µ({x}) = µ(] − ∞, x]) − µ(] − ∞, x[) sowie (wegen 2)) die Existenz rechter Limiten
{z
}
|
=G(x)
ist klar. Bleibt zu zeigen
µ(] − ∞, x]) = G(x+ ).
Sei dazu xn ↓ x und setze C :=] − ∞, x] und Cn :=] − ∞, xn [ (damit ist
Z
∞
T
Cn = C).
n=1
lim G(xn ) = lim
1Cn (y)µ(dy)
n→∞
Z
= 1 − lim
(1 − 1Cn (y)) µ(dy)
n→∞
|
{z
}
G(x+ ) =
n→∞
= 1−
Z
↑(1−1C (x))
(1 − 1C (y))µ(dy) =
Z
1C (y)µ(dy) = µ(] − ∞, x])
2
22.9 Bemerkung (zum letzten Beweisteil)
Wir wissen aus dem Satz übers Integral, daß wir bei aufsteigenden Folgen von Funktionen Integral und Limes vertauschen können. Allgemein gilt nur:
22.10 Satz (von der dominierten Konvergenz) (S, S) meßbarer Raum mit Maß µ. fn und
f meßbare Funktionen von S → R mit fn (x) → f (x) µ-f.ü..
59
R
Außerdem sei g eine µ-integrierbare Funktion ( g(x)µ(dx) < ∞) mit |fn (x)| ≤ g(x) µ-f.ü.
Dann gilt:
Z
Z
fn (x)µ(dx) = f (x)µ(dx).
lim
n→∞
Warnbeispiel: (R, B) mit Lebesguemaß λ. fn (x) := 1[n,∞)(x)
Offensichtlich gilt fn (x) ↓ f (x) ≡ 0 ∀x
R
R
Aber fn (x)λ(dx) = ∞ =
6 0 = f (x)λ(dx).
Sprechweise: Zu jedem Wahrscheinlichkeitsmaß µ auf (R, B) gehört eine reellwertige
Zufallsvariable X. Da wir in erster Linie an Zufallsvariablen interessiert sind, sprechen
wir auch von der Verteilung µ von X, der Verteilungsfunktion G von X, bzw.,
falls existent, der Dichte g von X. Hat X die Verteilung µ, so schreiben wir dafür kurz
X ∼ µ.
22.11 Lemma Sei G eine Funktion mit den Eigenschaften 1) - 3) aus dem vorigen Lemma.
Dann existiert genau ein Wahrscheinlichkeitsmaß µ mit Verteilungsfunktion G.
Beweis:
i) Existenz: Definiere T (y) := inf{a ∈ R|G(a) > y}, dann gilt T (y) < x ⇔ y < G(x),
denn
⇒: inf{a ∈ R|G(a) > y} < x ⇒ ∃ a < x : G(a) > y
⇒ G(x) > y, da G monoton wächst.
⇐: G(x) > y ⇒ G(x − ǫ) > y für ein kleines ε > 0,
da G linksstetig ⇒ T (y) < x.
Sei nun Y eine auf [0, 1] uniform verteilte Zufallsvariable und µ die Verteilung von
T (Y ). Dann gilt:
µ(] − ∞, x[) = Ws (T (Y ) < x)) = Ws (Y < G(x)) = G(x)
ii) Eindeutigkeit: folgt aus dem in 22.12 angegebenen Eindeutigkeitssatz und der
Feststellung, daß
E = {] − ∞, x[|x ∈ R}
ein ∩-stabiler Erzeuger von B ist.
2
60
22.12 Satz Sei (S, S) ein meßbarer Raum und E ein ∩-stabiler Erzeuger von S (d.h. mit
E1 , E2 ∈ E ist auch E1 ∩ E2 ∈ E, und E erzeugt S). Dann stimmen zwei auf E gleiche
Wahrscheinlichkeitsmaße auch auf S überein.
22.13 Beispiel
i) U[0,1]
1
1
0
ii) Exp(1):
G1 (x) =
Rx
0
x
−t e λ(dt) = −e = 1 − e−x
−t
0
2
1,5
1
0,5
0
1
2
3
61
4
5
iii) N (0, 1):
Φ(x) =
Rx
ϕ0,1 (t)λ(dt)
−∞
1
0
1
δ
2 a
+ 12 U[a,b]
1
a
0
b
22.14 Satz Sei X eine (a, b)-wertige Zufallsvariable mit Verteilungsdichte g und t : (a, b) →
(α, β) eine (stückweise) stetig differenzierbare, streng monoton wachsende Transformation
mit Umkehrfunktion s = t−1 . Die Dichte h von Y := t(X) ist dann gegeben durch
h(y) = g(s(y))s′(y)
Beweis: Für y ∈ (α, β) gilt:
Ws (Y < y) = Ws (t(X) < y) = Ws (X < s(y))
d
d
h(y) = Ws (Y < y) = Ws (X < s(y)) = g(s(y))s′(y)
dy
dy
2
62
22.15 Beispiel Wir wenden die affin-lineare Transformation t(x) = m + τ x auf unsere Beispiele
an:
1
y−m
s′ (y) =
s(y) =
τ
τ
i) Uniforme Verteilung auf [a, b] (kurz: U[a,b] ):
X ∼ U[0,1] ⇒ a + (b − a)X ∼ U[a,b]
Dichte: g[a,b] (x) = g[0,1] ( x−a
)·
b−a
1
b−a
=
1
1 (x)
b−a [a,b]
ii) Exponentialverteilung zum Parameter λ (kurz: Exp(λ)):
X ∼ Exp (1) ⇒ α1 X ∼ Exp (α)
Dichte: gα (x) = g1 (αx) · α = αe−αx 1R+ (x)
iii) Normalverteilung zu den Parametern (µ, τ 2 ) (kurz: N (µ, τ 2 )):
X ∼ N (0, 1) ⇒ µ + τ X ∼ N (µ, τ 2 )
Dichte: ϕµ,τ 2 (x) = τ1 ϕ0,1 ( x−µ
)=
τ
(x−µ)
√1 e− 2τ 2
τ 2π
63
2
23
Varianz und Kovarianz
23.1 Definition X sei eine reellwertige Zufallsvariable mit E|X| < ∞.
Dann heißt
Var (X) := E (X − E X)2
p
Varianz von X. Die Größe Var (X) nennen wir Streuung oder Standardabweichung von X.
Eigenschaften:
i) Var (X) = E X 2 − ( E X)2
ii) Var (X) = 0 ⇒ X = E X f.s.
iii) Für m, β ∈ R gilt: Var (m + βX) = β 2 Var (X)
Beweis:
i) E (X − E X)2 = E (X 2 − 2X · E X + ( E X)2 ) = E X 2 − ( E X)2
ii) Sei ν die Verteilung von X.
R
0 = E (X − E X)2 = (x − E X)2 ν(dx) ⇒ (x − E X)2 = 0 ν-f.ü. ⇒ X = E X f.s.
iii) E [(m + βX − E [m + βX])2 ] = E [β 2 (X − E X)2 ] = β 2 Var X
2
23.2 Bemerkung
i) Die Varianz ist die erwartete quadratische Abweichung einer Zufallsvariablen von ihrem Erwartungswert. Sie ist das wichtigste Maß für die Schwankung
einer Zufallsvariablen.
Wer sich fragt, wieso genau die quadratische Abweichung genommen wird (und nicht
z.B. die absolute Abweichung, d.h. E (|X − E X|), der frage sich zunächst, wieso
er die euklidische Norm so attraktiv findet.
ii) Für die Zufallsvariable X mit endlicher Varianz gilt:
!
X
Var p
=1
Var (X)
64
23.3 Beispiel
i) Münzwurf:
X=
(
1 mit Wahrscheinlichkeit p
0 mit Wahrscheinlichkeit 1 − p
E X = E X 2 = p ⇒ Var (X) = p − p2 = p(1 − p)
ii) Uniforme Verteilung U[0,1] : X ∼ U[0,1]
R1
R1
E X = xλ(dx) = 21 , E X 2 = x2 λ(dx) =
0
0
1
⇒ Var (X) = 13 − 41 = 12
Y := a + (b − a)X ∼ U[a,b] ⇒ E Y =
a+b
,
2
1
3
Var (Y ) =
(b−a)2
12
iii) Exponentialverteilung X ∼ Exp(1):
mit partieller Integration bezeichnet man :
R∞
E X = xe−x λ(dx) = 1 und
0
2
EX =
R∞
x2 e−x λ(dx) = 2.
0
⇒ Var (X) = 2 − 1 = 1
Y := α1 X ∼ Exp(α) ⇒ E Y = α1 , Var (Y ) =
iv) Normalverteilung X ∼ N (0, 1):
R∞ x2
E X = √12π
xe 2 λ(dx) = 0,
−∞
mit partieller Integration: E X 2 =
√1
2π
R∞
1
.
α2
x2
x2 e 2 λ(dx) = 1
−∞
⇒ Var (X) = 1
Für Y := µ + σX ist E Y = µ, Var (Y ) = σ 2 .
Was ist mit der Varianz der Summe mehrerer Zufallsvariablen? Dazu benötigen wir
folgende
23.4 Definition X und Y seien reellwertige Zufallsvariablenmit E |X| < ∞ und E |Y | < ∞.
i) Cov (X, Y ) := E [(X − E X)(Y − E Y )] heißt Kovarianz von X und Y .
ii) Falls Cov (X, Y ) = 0 ist, so nennen wir X und Y unkorreliert.
Rechenregeln:
i) Cov (X, Y ) = E (X · Y ) − E X · E Y
65
ii) Cov (X, Y ) = Cov (Y, X)
iii) Cov (aX + bY, Z) = aCov (X, Z) + bCov (Y, Z)
iv) Cov (X, X) = Var (X) ≥ 0
v) Var (α1 X1 + . . . + αn Xn ) =
n
P
αi αj Cov (Xi , Xj )
i,j=1
Speziell:
Var (X + Y ) = Var (X) + Var (Y ) + 2Cov (X, Y )
Beweis: Nachrechnen!
23.5 Korollar Für paarweise unkorrelierte Zufallsvariablen X1 , . . . Xn gilt:
Var (X1 + . . . + Xn ) = Var (X1 ) + . . . + Var (Xn )
23.6 Bemerkung Cov (X, Y ) > 0 ist anschaulich auch so zu interpretieren, daß X und Y
die Tendenz haben, geneinsam über bzw. unter ihrem Erwartungswert zu liegen. Im Fall
Cov (X, Y ) < 0 tendiert Y eher dazu, unter seinem Erwartungswert zu liegen, falls X
über seinem Erwartungswert liegt und umgekehrt.
23.7 Beispiel (Tanzpartner)
N Ehepaare nehmen an einem Tanzkurs teil. Die N Damen wählen nacheinander zufällig
einen der Herren aus. Sei Y die Anzahl der Damen, die dabei ihren Gatten bekommen.
Bestimme Erwartungswert und Varianz von Y .
Lösung:
Setzen wir Xi := 1{Dame i tanzt mit ihrem Gatten} , so ergibt sich Y =
N
P
i=1
Xi
Die Xi sind zwar nicht unabhängig, aber aus Symmetriegründen austauschbar, d.h.
für jede Permutation π von {1, . . . N} ist (Xπ(1) , . . . , Xπ(N ) ) genauso verteilt, wie
(X1 , . . . , XN ).
66
Damit:
E Xi =
⇒ EY
E X1 =
1
∀i
N
1
=1
N
1
∀i
E X12 =
N
1
1
N −1
− 2 =
N
N
N2
Cov (X1 , X2 ) = E X1 X2 − E X1 E X2
1
1
1
− 2 = 2
N(N − 1) N
N (N − 1)
N · Var (X1 ) + N(N − 1)Cov (X1 , X2 )
1
N −1
+ N(N − 1) · 2
N·
2
N
N (N − 1)
N −1
1
+
=1
N
N
= N·
E Xi2 =
⇒ Var (Xi ) =
Cov (Xi , Xj ) =
=
⇒ Var (Y ) =
=
=
2
23.8 Lemma (Cauchy-Schwarz-Ungleichung) Für zwei Zufallsvariablen U, V gilt:
√
√
| E U · V | ≤ E U2 E V 2
Gilt die Gleichheit, so ist U = 0 fast sicher, oder ∃ a ∈ R : V = aU fast sicher.
Beweis: Interessant ist nur E U 2 < ∞ und E V 2 < ∞.
Zunächst ist
2|U · V | ≤ U 2 + V 2
⇒ 2 E |UV | ≤ E U 2 + E V 2 < ∞
und damit auch UV integrierbar.
Die Ungleichung folgt aus:
2
E UV
0 ≤ E V −
U
E U2
2
E UV
( E UV )2
2
+
= E V −2
E U2
2
2
EU
EU
2
( E UV )
= E V2−
E U2
Im Fall der Gleichheit ist (falls E U 2 > 0)
V =
E U ·V
· U fast sicher.
E U2
2
67
23.9 Definition X, Y seien Zufallsvariablen mit positiver Varianz.
κ(X, Y ) := p
Cov (X, Y )
p
Var (X) Var (Y )
heißt Korrelationskoeffizient von X und Y .
23.10 Korollar Es gilt:
−1 ≤ κ(X, Y ) ≤ 1
Beweis: Wende Cauchy-Schwarz-Ungleichung an auf U := X− E X und V := Y − E Y
2
23.11 Lemma
|κ(X, Y )| = 1 ⇔ ∃ a, b mit Y = aX + b f.s.
Beweis:
|κ(X, Y )| = 1 ⇔ in der Cauchy-Schwarz-Ungleichung für U, V gilt die Gleichheit
⇔
⇔
∃ a ∈ R : Y − E Y = a(X − E X) f.s.
∃ a, b : Y = aX + b f.s.
2
68
24
Gemeinsame Dichten (bzgl. λ ⊗ λ)
λ ⊗ λ bezeichnet das Lebesguemaß auf (R 2 , B ⊗ B) (das ist dasjenige Maß, welches den
Intervallen [a1 , b1 ] × [a2 , b2 ] ihren natürlichen Flächeninhalt (b1 − a1 )(b2 − a2 ) zuordnet.)
24.1 Definition (X1 , X2 ) heißt (R 2 , B⊗B)-wertige Zufallsvariable mit Dichte g bzgl. λ⊗λ,
wenn ∀ B ∈ B ⊗ B :
Z
Ws ({(X1 , X2 ) ∈ B}) =
1B (x1 , x2 )g(x1 , x2 )(λ ⊗ λ)(dx1 , dx2 )
Aus dem Satz von Fubini (der auch für λ ⊗ λ gilt) folgt:


Z
Z Z
 1B (x1 , x2 )g(x1 , x2 )λ(dx1 ) λ(dx2 ).
1B (x1 , x2 )g(x1 , x2 )(λ ⊗ λ)(dx1 , dx2 ) =
R
R
24.2 Satz (X1 , X2 ) habe die Dichte g bzgl. λ ⊗ λ.
i) X1 hat dann die Dichte
g1 : x1 7→
Z
g(x1 , z)λ(dz)
bzgl. λ
R
ii) Die Übergangswahrscheinlichkeit von X2 , gegeben X1 = x1 hat die Dichte
x2 7→
g(x1 , x2 )
bzgl.
g1 (x1 )
λ
Beweis:
i)
Ws ({X1 ∈ B1 }) = Ws ({(X1 , X2 ) ∈ B1 × R })


Z
Z
= 1B1 (x1 )  g(x1 , z)λ(dz)  λ(dx1 ) ⇒ Beh.
R
|
69
R
{z
=g1 (x1 )
}
ii) Erinnerung an den Zusammenhang zwischen gemeinsamer Verteilung und
Übergangswahrscheinlichkeit:
Z
µ(B1 × B2 ) =
1B1 (x1 )P (x1 , B2 )µ1 (dx1 )
R
Jetzt:
µ(B1 × B2 ) =
=
Z Z
1B1 (x1 )1B2 (x2 )g(x1 , x2 )λ(dx2 )λ(dx1 )
R
R
Z
1B1 (x1 )
R

Z

|R
1B2 (x2 )


g(x1 , x2 )
λ(dx2 ) [g1 (x1 )] λ(dx1 )
{z
}
|
g1 (x1 )
µ1 (dx1 )
{z
}
P (x1 ,B2 )
2
24.3 Korollar (X1 , X2 ) habe Dichte g bzgl. λ ⊗ λ. Dann gilt:
X1 und X2 unabhängig ⇔ g(x1 , x2 ) = g1 (x1 ) · g2 (x2 )
λ ⊗ λ − fast überall
Beweis: Nach dem bisherigen sind äquivalent (die Existenz einer Dichte vorausgesetzt):
i) X1 und X2 unabhängig.
ii) die Verteilung von (X1 , X2 ) ist das Produkt der Verteilungen von X1 und X2 .
iii)
Z
g(x1 , x2 )(λ ⊗ λ)(dx1 , dx2 )
Z
=
B1 ×B2
g1 (x1 )λ(dx1 ) ·
B1
=
Fubini
Z
Z
g2 (x2 )λ(dx2 )
B2
g1 (x1 )g2 (x2 )(λ ⊗ λ)(dx1 , dx2 ),
B1 , B2 ∈ B
B1 ×B2
iv) g(x1 , x2 ) = g1 (x1 ) · g2 (x2 ) (λ ⊗ λ) f.ü.
2
70
25
Vom Münzwurf zum Poissonprozeß
Erinnerung an bekannte Tatsachen:
(X1 , X2 , . . .) sei Münzwurffolge zum Parameter p, d.h. die xi sind unabhängig mit
(
1 mit Wahrscheinlichkeit p
Xi =
0 mit Wahrscheinlichkeit 1 − p =: q
Sn := X1 +. . .+Xn (Anzahl der Erfolge bis zum n-ten Versuch) ist binomial (n, p)-verteilt,
also
n k
p (1 − p)n−k
Wsp (Sn = k) =
k
Ep Sn = np, Varp (Sn ) = np(1 − p)
T := min{k|Xk = 1} Zeitpunkt des ersten Erfolges ist geometrisch verteilt zum
Parameter p also
Wsp (T = k) = q k−1 · p
Nach Aufgabe 23 ist Ep (T ) = 1p . Außerdem gilt Varp (T ) =
Anschaulich klar sind die folgenden zwei Sachverhalte:
q
.
p2
(Übung)
(1) Wenn wir bei festem p die Anzahl der Würfe immer größer werden lassen, so bekommen wir auch mehr Erfolge: lim Wsp (Sn ≥ k) = 1 für alle k ∈ N.
n→∞
(2) Wenn wir bei festem n die Erfolgswahrscheinlichkeit p immer kleiner werden lassen, so bekommen wir immer weniger Erfolge: lim Wsp (Sn ≤ k) = 1 für alle
p→0
k ∈ {0, 1, . . . , n}.
Gibt es einen Mittelweg?
Sei dazu (pn ) eine Nullfolge mit n · pn → α > 0
Dann gilt:
n(n − 1) · . . . · (n − k + 1) k
pn (1 − pn )n−k
k!
n · pn n
n(n − 1) · . . . · (n − k + 1) 1
· (n · pn )k · (1 −
) (1 − pn )−k
=
k
{z
}
{z }
|
n
k!
n
{z
}
{z
} | −→
|
|
k
1
Wspn (Sn = k) =
−→ α
−→ 1
n→∞
n→∞
−→ e−α
n→∞
n→∞
25.1 Definition Die durch die Gewichte
αk
k!
festgelegte Wahrscheinlichkeitsverteilung auf N0 heißt Poissonverteilung zum Parameter α.
πα (k) := e−α
71
Wir haben bewiesen:
25.2 Satz Falls n · pn −→ α erfüllt ist, so folgt
n→∞
b(n, pn ; k) −→ πα (k)
Anschaulich: Wir werfen die Münze mit immer höherer Frequenz (n mal pro Zeiteinheit) aber immer kleinerer Erfolgswahrscheinlichkeit pn (so, daß lim n · pn = α). Im
n→∞
Grenzübergang n → ∞ ist die Anzahl der Erfolge pro Zeiteinheit Poisson(α)-verteilt.
25.3 Bemerkung Dies nennt man die Poissonapproximation der Binomialverteilung.
Wirft man eine Münze sehr oft mit sehr kleiner Erfolgswahrscheinlichkeit, so ist die Anzahl
der Erfolge approximativ Poisson(n · p)-verteilt.
Standardbeispiel: Anzahl der Personen in einer großen Population, die vom Blitz getroffen werden (es gibt viele, aber jeden trifft es nur mit verschwindend geringer Wahrscheinlichkeit).
Wie sieht es dann (beim Werfen mit immer höherer Frequenz) mit der Zeit bis zum
ersten Erfolg aus?
T
>x
= Wspn (T > nx) = (1 − pn )[nx]
Wspn
n
[nx]
n · pn n· n
= 1−
−→ e−αx
n
Sie ist also Exp(α)-verteilt.
25.4 Definition X1 , X2 , . . . seien unabhängige Exp(α)-verteilte Zufallsvariablen. Setze τk :=
X1 + . . . + Xk . Die Folge (τ1 , τ2 , . . .) heißt Poisson’scher Punktprozeß auf R+ zum
Parameter α.
25.5 Satz Sei (τ1 , τ2 , . . .) Poisson’scher Punktprozeß zum Parameter α. Dann ist die Anzahl
N[0,1) der Punkte im Intervall [0, 1), d.h. N[0,1) := max{k|τk < 1}, Poisson(α)-verteilt.
Beweis: Jedenfalls giltWsα ({N[0,1) = k}) = Wsα ({τk < 1, τk+1 ≥ 1}). Dafür, daß die
rechte Seite gleich πα (k) ist, präsentieren wir sogar zwei Argumente. Das erste ist eine
Skizze, die darauf beruht, daß nicht nur - wie schon bewiesen - für die Wartezeiten auf
den ersten Erfolg
T1
Ws αn
<x
−→ Ws({τ1 < x})
n→∞
n
72
gilt, sondern Entsprechendes auch für die Wartezeiten auf die späteren Erfolge gilt. Genauer: dass für pn −→ α auch die Verteilung von (T 1 , T 2 , . . .) unter Wspn gegen die Verteilung
n
n
von (τ1 , τ2 , . . .) unter Wsα konvergiert.
Ws ({N[0,1) = k})
= Ws ({τk < 1, τk+1 ≥ 1})
Tk
Tk+1
≥ 1})
= lim Ws αn ({ < 1,
n
n
n
= lim Ws αn ({k Erfolge in n − 1 Versuchen})
n→∞
α
= lim b(n − 1; ; k)
n→∞
n
= πα (k)
Das zweite Argument läuft über eine klassische Berechnung von Integralen:
Ws ({τk < 1, τk+1 ≥ 1})
=
Ws ({ αX1 + . . . + αXk < α, αX1 + . . . + αXk+1 ≥ α})
|{z}
∼Exp(1)
=
Z
e−(x1 +...+xk+1 ) dx1 . . . dxn+1
{(x1 ,...,xk ,xk+1 )|x1 +...+xk <α,x1 +...+xk+1 ≥α}
Z
=
Transformation
ti =x1 +...+xi
=
Fubini
{(t1 ,...,tk ,xk+1 )|0≤t1 ≤...≤tk <α,tk +xk+1 ≥α}
Zα
0
=
Z
0
=
e−(tk +xk+1 ) dt1 . . . dtk dxk+1
1
tkk−1 e−tk
(k − 1)!
α
Z∞
e−xk+1 dxk+1 dtk
α−tk
1
tk−1 e−tk e−(α−tk ) dtk
(k − 1)! k
1 k −α
α e
k!
2
25.6 Korollar
Lα (N[0,t) ) = Poisson (αt)
73
Beweis:
Wsα ({τk ≤ t, τk+1 > t})
= Wsα ({
τk
t
|{z}
≤ 1,
τk+1
> 1})
t
ist Summe
v. unabh. Exp(αt)
= Lαt (N[0,1) ) = Poisson (αt).
2
Das folgende Lemma, das man im Lichte des Münzwurfes betrachten sollte, ist auch
zentral beim Beweis des nächsten Satzes:
25.7 Lemma Sei L(X) = Exp(α). Dann ist, gegeben X > s, X − s wieder Exp(α)-verteilt.
Beweis:
Ws ({X > t + s|X > s})
Ws ({X > t + s})
Ws ({X > t + s, X > s})
=
Ws ({X > s})
Ws ({X > s})
−α(t+s)
e
=
= e−αt
−αs
e
=
2
25.8 Satz Sei {τ1 , τ2 , . . .} Poisson’scher Punktprozeß zum Parameter α, t > 0, N := N[0,t) :=
max{k|X1 + . . . + Xk < t}.
Gegeben N und τ1 , . . . , τN , ist {τN +1 − t, τN +2 − t, . . .} wieder ein Poisson’scher Punktprozeß zum Parameter α.
Beweis: Weil X1 , X2 , . . . unabhängig sind, gilt:
L(Xk+1|N = k; τ1 = t1 , . . . , τk = tk )
= L(Xk+1|X1 = t1 , . . . , X1 + . . . + Xk = t1 + . . . + tk , Xk+1 ≥ t − tk
⇒ L(Xk+1 − (t − tk )|N = k; τ1 = t1 , . . . , τk = tk )
= L(Xk+1 − (t − tk )|Xk+1 ≥ t − tk ) (= Exp (α) wegen des vorigen Lemmas)
Die darauffolgenden Pausen Xk+2 , Xk+3 , . . . sind unabhängig und Exp(α)-verteilt. 2
25.9 Korollar N[t,t+h) ist Poisson(αh)-verteilt und unabhängig von N[0,t) .
74
Xk+1
tk
t
25.10 Korollar
|
)
L(N) = Poisson (t), L(N ′ ) = Poisson (h)
N, N ′ unabhängig
{z
Xk+1 −(t−tk )
}
⇒ L(N + N ′ ) = Poisson (t + h)
Beweis: Setze α = 1
t+h
t
N[0,t) und N[t,t+h) sind unabhängig und Poisson(t)- bzw. Poisson(h)-verteilt,
N[0,t) + N[t,t+h) = N[0,t+h) ist Poisson(t + h)-verteilt.
2
Wie ist die Wartezeit bis zum k-ten Punkt verteilt?
Wir betrachten (nicht nur aus Schreibfaulheit) erst einmal den Fall α = 1.
Es gilt für t > 0:
{X1 + . . . + Xk < t} = {N[0,t) ≥ k},
−t
also Ws ({X1 + . . . + Xk < t}) = 1 − e
X2
X1
Xk
...
0
t
Verteilungsdichte von X1 + . . . + Xk :
k−1
k−1
tk−1
(k − 1)!
(t > 0)
X tj
X jtj−1
d
G(t) = e−t
− e−t
dt
j!
j!
j=0
j=1
= e−t
En passant ist herausgekommen:
75
k−1 j
X
t
j=0
j!
=: G(t)
25.11 Korollar
Z∞
tk−1 e−t dt = (k − 1)! (k ∈ N)
0
Mit Γ(k) :=
R∞
0
tk−1 e−t dt können wir sogar für alle k ∈ R+ definieren:
Y heißt Gamma(k)-verteilt : ⇔
:⇔ Y besitzt Dichte
(
gk (t) =
0
tk−1 e−t
Γ(k)
t≤0
t>0
für
für
Für k, l ∈ N haben wir schon in der Tasche:
(∗)
L(Y ) = Gamma (k), L(Y ′ ) = Gamma (l)
Y und Y ′ unabhängig
)
⇒ L(Y + Y ′ ) = Gamma (k + l)
In der Tat gilt (∗) sogar für k, l ∈ R+ , denn man prüft nach (Übung)
Z
Z
Z
′
′
gk (y)gl (y )dydy =
gk+l (z)dz
{y+y ′ ≤t}
{z≤t}
Daß auch dies noch eine wunderschöne stochastische Erklärung besitzt, bei der wiederum Poisson’sche Prozesse eine zentrale Rolle spielen, geht über den Rahmen dieser
Vorlesung hinaus. Stichworte sind Faltungshalbgruppe, unbegrenzte Teilbarkeit, LévyKhintchin-Darstellung.
Und wo ist α geblieben? Es spielt die Rolle eines Skalenparameters.
25.12 Bemerkung Y Gamma(k)-verteilt.
⇒
tk−1 e−αt
Y
hat Dichte t 7→ αgk (αt) = αk
(t > 0)
α
Γ(k)
76
0, 6
0, 5
0, 4
0, 3
Dichte der Gamma(k)-Funktion-Verteilung
mit Skalenparameter α = 12 (k = 1, 2, 3).
k=1
k=2
0, 2
k=3
0, 1
0
2
4
6
8
10
12
14
(Eine Zufallsvariable mit dieser Dichte heißt Gamma(k, α)-verteilt)
77
26
Das schwache Gesetz der großen Zahlen
Das n-fache einer reellwertigen Zufallsvariablen X streut n-mal so stark wie X:
p
Var (nX) =
√
n2 Var X = n ·
√
Var X
Aber die Summe aus n unkorrelierten Zufallsvariablen X1 , . . . , Xn mit ein und derselben
√
Varianz streut nur n-mal so stark wie X1 :
p
Var (X1 + . . . + Xn ) =
p
Var X1 + . . . + Var Xn =
p
n · Var X1
(d.h. unkorrelierte Schwankungen löschen sich gegenseitig einigermaßen aus!)
Also geht die Varianz des arithmetischen Mittels von n identisch verteilten unkorrelierten Zufallsvariablen mit n → ∞ gegen Null.
26.1 Bemerkung X1 , X2 , . . . seien unkorreliert, mit ein und derselben Varianz σ 2 < ∞. Dann
gilt:
1
σ2
1
−→ 0.
Var (X1 + . . . + Xn ) = 2 nVar X1 =
n
n
n n→∞
Das ist schon die halbe Miete! Das 2. Ingredient fürs schwache Gesetz der großen
Zahlen ist die
Ungleichung von Tschebyscheff:
Z sei reellwertige integrierbare Zufallsvariable mit Erwartungswert µ. Dann gilt für
alle ε > 0:
1
Ws ({|Z − µ| ≥ ε}) ≤ 2 Var (Z).
ε
Beweis:
Ws ({|Z − µ| ≥ ε})
=
≤
Ungl. v. Markoff
(Abschnitt 19)
Ws ({(Z − µ)2 ≥ ε2 })
1
1
E (Z − µ)2 = 2 Var (Z)
2
ε
ε
2
26.2 Korollar (Schwaches Gesetz der großen Zahlen)
X1 , X2 , . . . seien unkorreliert, alle mit demselben Erwartungswert µ und derselben Varianz
σ 2 < ∞. Dann gilt mit Sn := X1 + . . . + Xn für alle ε > 0:
1
1
1 1
1
Sn − µ ≥ ε
≤ 2 Var
Sn = 2 σ 2 −→ 0.
Ws
n
ε
n
ε n
78
Man sagt dafür auch:
Die Folge der Zufallsvariablen
scheinlichkeit) gegen µ.
1
n
n
P
Xi konvergiert stochastisch (bzw. in Wahr-
i=1
Spezialfall (schwaches Gesetz der großen Zahlen für den Münzwurf von Jakob Bernoulli) (aus der ars conjectandi, 1713)
n
P
Yi in Wahrschein(Yn ) sei Münzwurffolge zum Parameter p. Dann konvergiert n1
i=1
lichkeit gegen p.
Da wir uns die Folge der Beobachtungen des Eintretens bzw. Nichteintretens eines bestimmten Ereignisses in einem mehrmals unabhängig wiederholten Zufallsexperiment als
Münzwurffolge mit Parameter p = Ws (A) denken können, bietet Bernoullis Satz einen
prinzipiellen Zugang zum empirischen Ermitteln von Wahrscheinlichkeiten“ (vgl. dazu
”
die Diskussion in Dinges/Rost, Seite 77/78).
Definition und Beispiel: Z1 , Z2 , . . . seien unabhängige, identisch verteilte reellwertige Zufallsvariablen; G sei die Verteilungsfunktion von Z1 . Die zufällige Funktion
1
#{i|i ≤ n, Zi < x}
n
heißt empirische Verteilungsfunktion zu (Z1 , . . . , Zn ).
x 7→ Gn (x) :=
Z1
Z3
Z2
Aus dem Schwachen Gesetz der großen Zahlen für den Münzwurf folgt
∀ x ∈ R : Gn (x) −→ G(x)
n→∞
in Wahrscheinlichkeit.
79
27
Vom Münzwurf zur Glockenkurve:
Die Normalapproximation der Binomialverteilung
Wir wollen zuerst ein heuristisches Argument dafür geben, warum aus den Binomialgewichten
n k n−k
p q
w(k) :=
k
für n → ∞ (und festes p) unter einer geeigneten Skalierung die Gaußsche Glockenkurve
x2
1
ϕ(x) = √ e− 2
2π
entsteht.
Die sukzessiven Verhältnisse
R(k) :=
n−k +1p
w(k)
=
w(k − 1)
k
q
sind ≥ 1 genau für k ≤ (n + 1)p. Also wächst w(k) monoton für k ≤ (n + 1)p, und w
nimmt sein Maximum bei
l := [(n + 1)p]
an. Wir betrachten die durch w(l) auf Maximalhöhe 1 normierten Gewichte
H(k) :=
w(k)
.
w(l)
Für k > l ist
H(k) =
w(l + 1) w(l + 2)
w(k)
w(k)
=
···
w(l)
w(l) w(l + 1)
w(k − 1)
= R(l + 1) R(l + 2) . . . R(k)
Betrachten wir den Logarithmus der sukzessiven Verhältnisse:
log R(l + j)
=
=
=
=
für
≈
j≪n
(n − l − j + 1)p
(n − np − j + 1)p
≈ log
(l + j)q
(np + j)q
(nq − j + 1)p
log
(np + j)q
log(npq − p(j − 1)) − log(npq + qj)
j−1
j
log 1 −
− log 1 +
nq
np
1
1 j
−
(pj + qj) = −
npq
pq n
log
80
Zumindest für j ≪ n ist also der Logarithmus der sukzessiven Verhältnisse log R(l + j)
annähernd linear in j.
Für k − np ≪ n folgt somit
1 1
(1 + 2 + . . . + (k − l))
pq n
1 11
≈ −
(k − l)2
pq n 2
1 (k − np)2
≈ −
2 npq
log H(k) ≈ −
1 k−µ 2
)
σ
H(k) ≈ e− 2 (
mit µ := np, σ 2 = npq
1 k−µ 2
)
σ
w(k) = H(k)const ≈ const e− 2 (
1 k−µ 2
1 k−µ 2
e− 2 ( σ )
e− 2 ( σ )
≈
w(k) ≈ P
=
n
R∞ − 1 ( x−µ )2
2
)
− 12 ( i−µ
σ
e
e 2 σ dx
i=0
= √
−∞
1
2πσ 2
)2
− 12 ( k−µ
σ
e
Analoges gilt für k ≤ l.
Für binomial-(n, p) verteiltes Sn ist somit (für n groß und |k − np| ≪ n):
Ws ({Sn = k}) ≈ √
Ws
d.h.
Sn −µ
σ
2
1 (k−np)
1
e− 2 npq
2πnpq
Sn − µ
1
= Ws ({Sn ∈ [µ + σx, µ + σx + 1])
∈ x, x +
σ
σ
1 1 − x2
√ e 2,
≈
σ 2π
hat annähernd die Verteilungsdichte ϕ(x) =
81
2
x
√1 e− 2
2π
.
Für großes n und nicht allzu extremes k stehen also die Binomialgewichte b(n, p; k) in
x2
engstem Zusammenhang mit der Glockenkurve“ e− 2 .
”
Eckpfeiler bei der mathematischen Absicherung davon ist die Stirling’sche Formel
(in dieser Form bewiesen von de Moivre um 1730):
27.1 Satz
√
1
n! ∼ nn+ 2 e−n 2π
lim an
n→∞ bn
(Dabei bedeute an ∼ bn (n → ∞) :
(n → ∞)
= 1)
Beweis:
n!
Z∞
=
Z∞
t e dt =
=
Z∞
e−ns+n log s+n log n n ds
=
Z∞
e−n(s−log s) ds
=
Z∞
e−n(s−1−log s) ds
n −t
0
0
t=ns
e−t+n log t dt
0
⇒ n! n−n−1
⇒ n! n−n−1 en
0
0
Die Idee ist, das Integral zu zerlegen in einen Beitrag um s = 1
√
(dort ist s − 1 − log s ≈ 21 (s − 1)2 , und das wird mit der Substitution r = n(s − 1)
R∞ − r2
e 2 dr geben)
asymptotisch den Beitrag √1n
−∞
und in einem Beitrag weg von s = 1“
”
(dort wird der Exponent −n(s−1−log s) so stark negativ, daß der Beitrag zum Integral
asymptotisch verschwindet.)
Um eine Kontrolle darüber zu haben, wie gut sich s−1−log s in der Nähe von s = 1 an
1
(s − 1)2 anschmiegt, und wie stark positiv s − 1 − log s weg von s = 1 ist, rekapitulieren
2
wir einige einfache Eigenschaften der Funktion s − 1 − log s.
82
3
s−1
2
log s
1
0
6
4
2
8
10
−1
−2
−3
Aus der Taylorentwicklung folgt:
(1)
(d.h. lim sup
s→1
1
s − 1 − log s − (s − 1)2 = O|s − 1|3
2
|s−1−log s− 21 (s−1)2 |
|s−1|3
für s → 1
< ∞). Aus (1) folgt:
1
s − 1 − log s ≥ (s − 1)2
4
Aus der Konkavität von log folgt:
(2)
(3)
für s hinreichend nahe bei 1
log s ≤ log s0 +
1
(s − s0 )
s0
und damit:
1
s − 1 − log s ≥ s0 − 1 − log s0 +(s − s0 )(1 − )
{z
}
|
s0
(4)
≥0
≥ (s − s0 )(1 −
1+n
Z −γ
e−n
(s−1)2
+O(n−3γ )
2
1−n−γ
1
n 2 −γ
=
√↑
r= n(s−1)
Z
ds
r2 1
e− 2 √ dr
n
1
−n 2 −γ
83
∼
↑
1
für γ> 3
∼
↑
für γ< 1
2
1
)
s0
1+n
Z −γ
e−n
1−n−γ
√
1
2π √
n
(s−1)2
2
ds
Soweit also bestens! Wir müssen nur noch der Beitrag der Regionen weg von 1 kleinkriegen. Weil s − 1 − log s auf ]0, 1] monoton fällt, erhalten wir aus (2) für hinreichend
großes n:
cn :=
1−n
Z −γ
0
e−n(s−1−log s) ds ≤
1−n
Z −γ
1
e−n 4 n
−2γ
0
1
ds ≤ e− 4 n
1
1+n−γ
Mit der Wahl s0 := 1 + n−γ erhalten wir aus (4) wegen
dn :=
Z∞
−n(s−1−log s)
e
ds ≤
1+n−γ
Also :
Z∞
−n(s−s0 ) 21 n−γ
e
ds =
s
≤ 1 − 21 n−γ :
e− 2 n
1−γ
ds =
2
n1−γ
0
1+n−γ
√
Z∞
1−2γ
ncn −→ 0 und
n→∞
√
ndn −→ 0.
n→∞
2
27.2 Korollar (Lokaler Grenzwertsatz) Für die Binomialgewichte
n k n−k
p q
b(n, p; k) =
k
gilt:
1
b(n, p; kn ) ∼ q
n knn (1 −
kn
1
√
e−nh( n )
kn
) 2π
n
für n → ∞, kn → ∞, n − kn → ∞
mit h(α) := α log αp + (1 − α) log 1−α
1−p
− log p
− log(1 − p)
h(α)
0
p
1
84
α
Beweis:
n!
pk q n−k
k!(n − k)!
1
nn+ 2
∼
Stirling
k
k+ 21
q
=
q
=
q
=
(n − k)
1
1
n−k+ 2
1
√
en log n−k log k−(n−k) log(n−k)+k log p+(n−k) log q
k
k
2π
n n (1 − n )
1
np
nq
1
√
ek log k +(n−k) log n−k
n nk (1 − nk ) 2π
n−k
n−k
k
k
1
√
e−n( n log np + n log nq ) .
n nk (1 − nk ) 2π
1
2
2
27.3 Korollar Sei |kn − np| = o(n 3 )
Dann gilt:
(d.h. lim
n→∞
b(n, p; kn ) ∼ √
Beweis: Erst einmal folgt:
1
√
ek log p+(n−k) log q
2π
kn −np
2
n3
Wegen h(p) = h′ (p) = 0, h′′ (p) =
|kn −np|
2
n3
= 0).
(kn −np)2
1
1
√
e− 2npq
npq 2π
1
= n 3 ( knn − p) → 0, also
1
pq
kn
n
→ p, 1 −
kn
n
→ q.
folgt (beachte: h′′′ ist beschränkt in der Nähe von
p):
h(α) =
1
(α − p)2 + O(|α − p|3 )
2pq
⇒ nh
kn
n




 kn − np 3 
1
2

=
(kn − np) + n O 
 n 
2pqn
| {z } 
1
|
27.4 Bemerkung Mit ϕ(x) :=
2
x
√1 e− 2
2π
, zn,k :=
k−np
√
npq
|
=o(n− 3 )
{z
=o(n−1 )
{z
=o(1)
}
}
folgt aus Korollar 27.3
b(n, p; k) = (zn,k − zn,k−1 )ϕ(zn,k )er(n,k) ,
√
√
wobei für jedes c > 0 gilt: lim rn,k = 0 gleichmäßig für alle k ∈ [np − c n, np + c n].
n→∞
85
2
Daraus läßt sich in Summe “ etwas machen!
”
27.5 Satz (Globaler Grenzwertsatz, von de Moivre (1733, für p = 21 ) und Laplace (1810,
für p allgemein))
Für n = 1, 2, . . . sei Kn eine binomial(n, p)-verteilte Zufallsvariable, und Zn die durch
Standardisierung (d.h. Verschiebung um den Erwartungswert und Division durch die
−np
.
Streuung) aus Kn hervorgehende Zufallsvariable: Zn := K√nnpq
Dann gilt für alle a < b ∈ R :
lim Ws ({Zn ∈ [a, b]}) =
n→∞
Zb
1
z2
mit ϕ(z) = √ e− 2
2π
ϕ(z)dz,
a
Beweis: Wir definieren r(n, k) durch
b(n, p; k) = √
Mit zn,k :=
k−np
√
npq
2
1
+r(n,k)
− (k−np)
2npq
.
e
2πnpq
ergibt sich:
Ws ({a ≤ Zn ≤ b}) = Ws
X
=
Kn − np
a≤ √
≤b
npq
b(n, p; k)
√
a≤ k−np
≤b
npq
=
X
√
≤b
a≤ k−np
npq
(zn,k − zn,k−1 )ϕ(zn,k ) er(n,k)
√
√
Nun geht aber r(n, k) für n → ∞ gleichmäßig für k ∈ [np + a npq, np + b npq] gegen
Null.
Die behauptete Konvergenz folgt damit leicht aus den Eigenschaften des Integrals
zusammen mit der gleichmäßigen Stetigkeit von ϕ auf [a, b] :
|
X
k−np
a≤ √
≤b
npq
Zzn,k
(ϕ(z) − ϕ(zn,k ))dz| ≤ |b − a|
zn,k−1
sup
|y−x|< √ 1
npq
a≤x≤b
|ϕ(y) − ϕ(x)| −→n→∞ 0
Betrachten wir noch den Spezialfall p = 21 , und stellen wir den fairen Münzwurf und
n
P
die gewöhnliche Irrfahrt gegenüber. Es ist Kn =
Yi mit (Yi ) fairer Münzwurf, d.h.
i=1
(Yi ) unabhängig mit Ws (Yi = 1) = Ws (Yi = 0) =
86
1
2
Es ist
Kn − n2
2Kn − n
q
= √
=
n
1
n4
n
P
i=1
ist±1mitWert 12
z }| {
(2Yi − 1)
√
n
Also haben wir bewiesen:
Grenzwertsatz für die gewöhnliche Irrfahrt:
n
P
Sei Wn =
Vi eine gewöhnliche Irrfahrt auf Z (mit Vi unabhängig, Ws ({Vi = ±1}) = 12 ).
i=1
Dann gilt:
lim Ws
n→∞
Zb
1
√ Wn ∈ [a, b]
= ϕ(z)dz,
n
a
mit ϕ:= Gauß’sche Glockenkurve.
87
28
Der klassische Zentrale Grenzwertsatz
Es ist eine tolle Sache, daß das vorige Korollar sogar dann noch gilt, wenn man die speziellen Vi durch irgendwelche unabhängigen, identisch verteilten Xi mit Erwartungswert
0 und Varianz 1 ersetzt.
28.1 Satz (Tschebyscheff)
Seien X1 , X2 , . . . unabhängig, identisch verteilt, mit Erwartungswert 0 und Varianz 1.
Dann gilt:
)!
(
Zb
n
1 X
√
Xi ∈ [a, b]
−→ ϕ(z)dz
Ws
n i=1
a
Vorbereitende Bemerkungen zum Beweis: Wir folgen nicht der üblichen (schon
von Tschebyscheff verwendeten) Route über die sogenannten charakteristischen Funktionen, sondern einem intuitiveren (in gewissem Sinn sogar moderneren) Weg. Die Idee
n
n
P
P
Xi mit einer Irrfahrt √1n
ist, √1n
Vi zu vergleichen“, und zwar sozusagen entlang
”
”
i=1
i=1
des Weges“:
1
√ (X1 + . . . + Xi−1 + Xi + Vi+1 + . . . + Vn )
n
sollte nahe sein bei
1
√ (X1 + . . . + Xi−1 + Vi + Vi+1 + . . . + Vn )
n
Um diese Summen überhaupt hinschreiben zu können, muß man erst die gemeinsame Verteilung der Xi und Vi spezifizieren. Naheliegend (und wie wir sehen werden, zielführend)
ist es, diese als unabhängig anzusetzen.
88
Die zweite Idee im Beweis wird sein, die Indikatorfunktion 1[a,b] durch eine 2-mal
stetig differenzierbare Funktion f anzunähern, die auf dem Intervall [a, b] den Wert 1 und
außerhalb des Intervalls [a − ε, b + ε] den Wert 0 annimmt
1
a−ε
a
b
b+ε
28.2 Lemma Die (Xi ) seien wie im Satz, V1 , V2 , . . . seien untereinander und von Xi unabhängig
mit Ws ({Vi = ±1}) = 12 .
f : R → R sei 2-mal stetig differenzierbar und verschwinde außerhalb eines beschränkten Intervalls. Dann gilt:
1
1
E
f √ (X1 + . . . + Xn ) − f √ (V1 + . . . + Vn )
−→ 0
n→∞
n
n
Beweis: Wir schreiben den Ausdruck als Teleskopsumme. Sei dazu
1
Zi := √ (X1 + . . . + Xi−1 + Vi+1 + . . . + Vn )
n
Wir wollen
Xi
Vi
E f Zi + √
√
−
f
Z
+
i
n
n abschätzen. Wegen
Xi
Xi2
Xi ′
Xi
Xi2 ′′
′′
′′
f Zi + h √
f (Zi ) +
− f (Zi ) = √ f (Zi ) +
− f (Zi )
f Zi + √
n
n
2n
2n
n
(mit geeignetem h ∈ [0, 1]) ist (beachte E Xi = 0, E Xi2 = 1)
2 Xi
Xi
1
Xi
′′
′′
′′
f Zi + h √
E f (Zi ) = E
− E f (Zi ) −
− f (Zi ) .
E f Zi + √
2n
2n
n
n
Die analoge Formel gilt für Vi statt Xi . Bei der Differenzbildung fallen die Terme
1
E f ′′ (Zi ) weg:
E f (Zi ) und 2n
89
Xi
Vi
(∗)
E f Zi + √
− E f Zi + √
=
n
n
2 2 Xi
Vi
Vi
Xi
′′
′′
′′
′′
f Zi + h √
f Zi + h̃ √
− f (Zi ) − E
− f (Zi )
E
2n
2n
n
n
Also bleibt abzuschätzen:
2 Xi
′′
E Xi f ′′ Zi + h √
−
f
(Z
)
i
2n
n
≤
≤
≤
M :=max |f ′′ (z)|
z
E [|. . .|]
n
o
o
n
E |. . .| 1 |X |≥n 14 + E |. . .| 1 |X |<n 41
i
i
2
Xi n
1o
1
+
2M E
2n |Xi |≥n 4


 2
 Xi
E 
 2n



sup |f (z ) − f (z)|

1

|z ′ −z|≤n− 4
|
{z
}
=:δn
1
1
2 n
o
M E Xi 1 |X |≥n 41 + δn
i
n
2
+
=
′′
′
′′
Analoges gilt für Vi statt Xi .
Durch Aufsummieren von (∗) über i = 1, . . . , n folgt:
Ef
n
1 X
√
Xi
n i=1
Wegen X12 1n|X
!
n
− Ef
1 X
√
Vi
n i=1

!

≤M
E
X12 1n|X
1o
1 |≥n 4


+ E V12 1n|V |≥n 14 o 
 + δn
1
|
{z
}
=0
für
n>1
↑ X12 f.s. folgt aus dem Satz über die Eigenschaften des Er”
wartungswertes“ (Satz 19.7, iii)):
1o
1 |<n 4
E X12 1n|X
1o
1 |≥n 4
−→ 0.
2
90
Beweis des Satzes
Sei f wie im obigen Bild,
E f √1 (X1 + . . . + Xn ) − E f √1 (V1 + . . . + Vn ) =: γn
n
n
Dann folgt:
)!
(
n
1 X
√
Xi ∈ [a, b]
Ws
n i=1
=
E I{ √1
n
P
=
≤
1[a,b]≤f
≤
≤
f ≤1[a−ε,b+ε]
⇒
Xi ∈[a,b]}
1 X
√
Xi
n
E 1[a,b]
1
E f √ (X1 + . . . + Xn )
n
1
E f √ (V1 + . . . + Vn ) + γn
n
)!
(
n
1 X
√
Vi ∈ [a − ε, b + ε]
+ γn
Ws
n i=1
(
)! Zb+ε
n
1 X
√
lim sup Ws
Xi ∈ [a, b]
≤
ϕ(z)dz
n→∞
n i=1
a−ε
⇒
mit
ε→0
lim sup Ws
n→∞
(
)!
n
1 X
√
Xi ∈ [a, b]
n i=1
≤
Zb
ϕ(z)dz
a
Analog folgt mit 1[a,b] ≥ f˜ ≥ 1[a+ε,b−ε]:
)!
(
n
1
1 X
˜
√
Xi ∈ [a, b]
≥ E f √ (X1 + . . . + Xn )
Ws
n i=1
n
1
˜
≥ E f √ (V1 + . . . + Vn ) − γ̃n
n
)!
(
n
1 X
√
Vi ∈ [a + ε, b − ε]
− γ̃n
≥ Ws
n i=1
(
)! Zb−ε
n
1 X
√
⇒ lim inf Ws
Xi ∈ [a, b]
≥
ϕ(z)dz
n→∞
n i=1
a+ε
⇒
lim inf Ws
n→∞
(
n
)!
1 X
√
Xi ∈ [a, b]
n i=1
≥
Zb
ϕ(z)dz
a
2
91
29
Die Normalverteilung
Z heißt standard-normalverteilt (N (0, 1)-verteilt)
z2
1
:⇔ Z hat Dichte ϕ(z) := √ e− 2
2π
Zz
Φ(z) :=
ϕ(y)dy
−∞
heißt auch Gauß’sche Fehlerfunktion.
Einige häufig benutzte Werte sind:
z
Φ(z)
0
1
1,28 1,65 1,96 2,33
0,5 0,84 0,9 0,95 0,975 0,99
Für negative z mache man den Gebrauch von Φ(z) = 1 − Φ(−z)
0, 5
0, 4
0, 3
0, 2
0, 1
−4
−2
0
2
Ws ({|Z| > 1}) ≈ 31
Ws ({|Z| > 2}) ≈ 0, 05
Sei σ > 0, µ ∈ R . Man überzeugt sich leicht (Übung!):
x2
1 x
1
X = σZ hat Dichte ϕ
= √ e− 2σ2
σ
σ
σ 2π
92
4
(x−µ)2
1
X = σZ + µ hat Dichte f (x) := √ e− 2σ2
σ 2π
(siehe 10 DM-Schein!!)
Außerdem gilt (vgl. Abschnitt 24):
Z1 , Z2 unabhängig und N (0, 1)verteilt
⇒ ZT = (Z1 , Z2 ) hat Dichte
g(z1 , z2 ) = ϕ(z1 ) · ϕ(z2 ) =
1 − ||z||2
1 − z12 +z22
e 2 =
e 2 .
2π
2π
Wie ist in diesem Fall Y1 := a1 Z1 + a2 Z2 verteilt?
Spezialfall: a21 + a22 = 1, d.h. ~a = (a1 , a2 ) ist ein Einheitsvektor.
Deute Y1 als Länge der Projektion auf ~a. Ergänze ~a zu einer ON-Basis.
~b := (−a2 , a1 )
!
a1 a2
M :=
−a2 a1
Z
~b
~a
Wie ist
Y := M · Z =
a1 Z1 + a2 Z2
−a2 Z1 + a1 Z1
!
verteilt?
Y T hat Dichte | det1 M | g(M −1 y)
Nun gilt aber ||M −1 y|| = ||y||, denn M beschreibt eine orthogonale Transformation.
93
(In der Tat:
||M −1 y T ||2 = hy T , (M −1 )T M −1 y T i = hy T , (MM T )−1 y T i = ||y||2,
denn
a1 a2
−a2 a1
!
a1 −a2
a2 a1
!
=
1 0
0 1
!
.)
Also L(Y) = L(Z), und insbesondere: L(a1 Z1 +a2 Z2 ) = N (0, 1). Für allgemeines a1 , a2
folgt:
!
q
a
a
2
1
Z1 + p 2
Z2
a21 + a22 p 2
a1 + a22
a1 + a22
ist N (0, a21 + a22 )-verteilt.
29.1 Korollar X1 sei N (µ1 , σ12 )-verteilt, X2 sei N (µ2, σ22 )-verteilt, X1 , X2 seien unabhängig
⇒ X1 + X2 ist N (µ1 + µ2 , σ12 + σ22 )-verteilt.
94
30
Große Abweichungen beim Münzwurf
Für p ∈]0, 1[ seien Y1 , Y2 , . . . unabhängig und identisch verteilt, mit Wsp ({Yi = 1}) = p,
Wsp ({Yi = 0}) = 1 − p.
Kn := Y1 + . . . + Yn sei die Anzahl der Erfolge“ bis n. Wir betrachten ein festes
”
Intervall [c, d] rechts von p (d.h. p < c < d).
p
0
c
d
1
Wir wissen aus dem schwachen Gesetz der Großen Zahlen
Kn
Wsp
∈ [c, d]
−→ 0
n→∞
n
Läßt sich etwas über die Asymptotik dieser Nullfolge sagen?
30.1 Satz (Boltzmann)
1
log Wsp
n
mit
Kn
∈ [c, d]
−→ −h(c, p)
n→∞
n
h(α, p) := α log
(Zum Merken:
(∗)
wobei wir definieren
Wsp
1−α
α
+ (1 − α) log
p
1−p
Kn
∈ [c, d]
≃ e−nh(c,p)
n
an ≃ bn :⇔ log an ∼ log bn )
Weil (∗) für alle d = c + ε (mit noch so kleinem ε > 0) gilt, formulieren wir (im Geiste
Boltzmanns) diese Aussagen salopp als:
Kn
log Wsp
≈ c ∼ −nh(c, p)
n
Kn
Wsp
≈ c ≃ e−nh(c,p)
n
95
Boltzmanns Interpretation am idealen Gas“:
”
V
1
V
n Teilchen sind rein zufällig und unabhägig voneinander im Volumen Λ verteilt; Kn
bezeichne die Zahl der Teilchen in Λ1 .
Vol V1
V
Typischerweise findet man: Knn ≈ p, mit p =
Vol
Boltzmanns Frage: Wie wahrscheinlich sind untypische Besetzungszahlen? Seine Antwort:
Kn
≈ c ≃ e−nh(c,p)
Wsp
n
Beweis des Satzes:
Untere Abschätzung:
Idee: Vergleich von Wsp Knn ∈ [c, d] mit Wsc+ε Knn ∈ [c, d] :
Wsp
Kn
∈ [c, d]
=
n
X
Wsp ({Kn = k})
k∈[nc,nd]
X
Wsp ({Kn = k})
Wsc+ε ({Kn = k})
Wsc+ε ({Kn = k})
k∈[nc,nd]
X p k 1 − p n−k
Wsc+ε ({Kn = k})
=
c+ε
1 − (c + ε)
k∈[nc,nd]
k n−k
X
1−p
p
≥
Wsc+ε ({Kn = k})
c+ε
1 − (c + ε)
k∈[nc,n(c+2ε)]
n(c+2ε) n−n(c+2ε)
X
p
1−p
≥
c+ε
1 − (c + ε)
=
k∈[nc,n(c+2ε)]
Wsc+ε ({Kn = k})
n(c+2ε)
p
Kn
∈ [c, c + 2ε]
·
= Wsc+ε
n
c+ε
n−n(c+2ε)
1−p
1 − (c + ε)
96
⇒ log Wsp
Kn
∈ [c, d]
n
1
⇒ log Wsp
n
Kn
∈ [c, d]
n
Kn
≥ log Wsc+ε
∈ [c, c + 2ε]
n
p
1−p
+n (c + 2ε) log
+ (1 − (c + 2ε)) log
c+ε
1 − (c + ε)
1
≥
log Wsc+ε
n
|
→1
+(c + 2ε) log
1
⇒ lim inf log Wsp
n
1
⇒ lim inf log Wsp
ε→0
n
Kn
∈ [c, d]
n
≥ (c + 2ε) log
Kn
∈ [c, d]
n
Kn
∈ [c, c + 2ε]
n
{z
}
1−p
p
+ (1 − (c + 2ε)) log
c+ε
1 − (c + ε)
1−p
p
+ (1 − (c + 2ε)) log
c+ε
1 − (c + ε)
≥ −h(c, p)
Obere Abschätzung:
Idee: Exponentielle Tschebyscheff-Ungleichung“
”
Wsp
Kn
∈ [c, d]
n
≤
=
für alle
Wsp ({Kn ≥ nc})
t>0
=
≤
Markoff-Ungl.
Wsp ({t(Kn − nc) ≥ 0})
Ws p et(Kn −nc) ≥ 1
n
Ep et(Kn −nc) = e−tnc Ep et·Y1
Für welches t wird diese Ungleichung am schärfsten?
Wir logarithmieren und teilen durch n:
97
1
log Wsp
n
Kn
∈ [c, d]
n
−tc + log Ep etY1
≤
−tc + log pet·1 + (1 − p)et·0
=
−tc + f (t),
=:
mit f (t) := log pet + (1 − p)
5
t 7→ f (t)
4
t 7→ ct
3
2
1
0
f ′ (t) =
pet
pet +(1−p)
1
2
4
3
5
7
6
also: f ′ (0) = p, f ′ (t) ↑ 1.
t→∞
d
pet
(−tc + f (t)) = −c + t
=0
dt
pe + (1 − p)
c(1 − p)
c(1 − p)
,
t∗ = log
⇔ et =
p(1 − c)
p(1 − c)
Einsetzen von t∗ ergibt die obere Schranke




 c(1 − p)

c(1 − p)
+ log 
+ 1 − p
−t c + f (t ) = −c log


p(1 − c)
|(1 − c){z
}
∗
∗
= 1−p
1−c
1−c
c
= − c log + (1 − c) log
p
1−p
= −h(c, p)
Also:
1
lim sup log Wsp
n→∞
n
Kn
∈ [c, d]
≤ −h(c, p).
n
98
2
31
Große Abweichungen beim Würfeln
Betrachten wir jetzt nicht wie im vorigen Abschnitt nur zwei Ausgänge ( Erfolg“ oder
”
Mißerfolg“), sondern allgemeiner r mögliche Ausgänge.
”
O.B.d.A. sei die Menge der möglichen Ausgänge (oder Zustande“) gleich
”
M = {1, 2, . . . , r}.
Wie in Abschnitt 4 betrachten wir einen festen Wahrscheinlichkeitsvektor µ :=
P
(µ1 , . . . , µr ), mit µj > 0 ∀ j, µj = 1. Die Menge aller Wahrscheinlichkeitsvektoren
auf M bezeichnen wir mit
)
(
r
X
πj = 1
∆ := π = (π1 , . . . , πr )|πj ≥ 0,
j=1
Veranschaulichung für r = 3:
π3
(0, 0, 1)
·µ
(0, 1, 0)
π2
(1, 0, 0)
π1
Y1 , Y2 , . . . seien unabhängig und identisch verteilt mit Verteilung µ
(n)
Kj
:= # {i ∈ 1, . . . , n}|Yi = j} ,
(n)
K (n) := (K1 , . . . , Kr(n) )
ist der Vektor der zufälligen Besetzungszahlen.
K (n) ist multinomial (n; µ)-verteilt (siehe Abschnitt 6).
1
· K (n) ist eine ∆-wertige Zufallsvariable.
n
Aus dem Gesetz der großen Zahlen folgt:
99
j = 1, . . . , r
Für jede ε-Umgebung Uε von µ gilt:
1
(n)
Wsµ
· K ∈ Uε
−→ 1
n→∞
n
Wieder fragen wir uns nach der Wahrscheinlichkeit großer Abweichungen.
31.1 Satz (Boltzmann, Sanov)
Sei Π ⊆ ∆ konvex, mit nichtleerem Inneren in ∆ (d.h. es existiert eine offene Menge
O ⊆ Rr mit ∅ =
6 ∆ ∩ O ⊆ Π). Dann gilt:
1
lim log Wsµ
n→∞ n
mit
1 (n)
K ∈Π
= inf h(π, µ)
π∈Π
n
h(π, µ) :=
X
πj log
j∈M
Saloppe Formulierung:
Wsµ
1 (n)
K ≈π
n
πj
µj
≃ e−nh(π,µ)
31.2 Bemerkung Die oben definierte Größe h(π, µ) heißt relative Entropie von π bzgl. µ.
Im Fall M = {1, 0}, µ = (p, 1 − p), π = (α, 1 − α) stimmt h(π, µ) mit der im vorigen
Abschnitt definierten Funktion h(α, p) überein, und wir erhalten den dortigen Satz als
Spezialfall.
µ = (p, 1 − p)
π
p
c
d
100
Wir bringen jetzt noch eine Funktion U : S → R ins Spiel. Wir nennen U(j) die EnerP
gie des Zustandes j und U(π) :=
U(j)π(j) die mittlere Energie in der Verteilung
j∈M
π.
Nach dem Gesetz der großen Zahlen gilt (beachte: U
1
K (n)
n
1 (n)
−→ 0
− U(µ) > ε
Wsµ
U n K
n→∞
=
1
n
n
P
U(Yi )):
i=1
∀ε>0
Sei nun E ∈ R , E 6= U(µ). Wir fragen mit Boltzmann: Welche Verteilung π mit mittlerer
Energie U(π) = E wird durch die zufälligen Besetzungszahlen n1 K (n) noch am ehesten
realisiert?
Satz 31.1 legt nahe, daß dies diejenige Verteilung π = π E sein wird, welche das Minimierungsproblem
(∗)
min h(π, µ) unter der Nebenbedingung U(π) = E
π∈∆
löst.
31.3 Satz π E hat die Gestalt πjE = γ · µj eβU (j) , wobei γ und β so zu bestimmen sind, daß die
Nebenbedingungen
X
X
πjE = 1,
U(j)πjE = E
j
j
erfüllt sind.
Beweis: Die Lagrangefunktion des Problems (∗) ist
X
X
h(π, µ) − λ
πj − β
U(j)πj
j
j
Nullsetzen von deren Gradienten ergibt:
∂
∂πl
X
j
πj log
πj
−λ
µj
X
j
πj − β
X
U(j)πj
j
!
= log
πl
µl 1
+ πl
−λ − βU(l) ≡ 0
µl
π µ
| {zl }l
=1
(λ−1)
⇔ πl = e
µl eβU (l) .
2
Bezeichnung: π E aus Satz 31.3 heißt Boltzmann-Gibbs-Verteilung zur mittleren
Energie E (und zur Referenzverteilung µ).
Wie reagiert die relative Entropie der Boltzmann-Gibbs-Verteilung πE bzgl. der Referenzverteilung µ auf eine Veränderung von E?
101
31.4 Satz
dh(π E , µ)
=β
dE
Beweis:
d
dE
X
j
πjE
πjE log
µj
!
=
X dπjE
j
=
dE
X dπjE
j
dE
· log
πjE X E 1 dπjE
+
πj E
µj
πj dE
j
(log γ + βU(j)) +
X dπjE
= (log γ + 1)
d X E
π
dE j j
| {z }
+β
X
|
d
1=0
= dE
= 0+β
dE
j
d
= dE
j
P
j
dπjE
dE
{z
}
U(j)
dE
U (j)πjE = dE
=1
2
Schreiben wir
W := W (E) := Wsµ
h :=
h(E) := h π E , µ
Dann gilt nach Satz 31.1:
1 (n)
K ≈ πE
n
log W ∼ −nh
⇒ d log W ∼ −ndh
=
↑
Satz 31.4
Mit
T := −
−nβdE =
ndE
− β1
1
kβ
(T . . . Temperatur des Systems“, k . . . Boltzmann-Konstante [= 1, 38 · 10−23 Joule/grad
”
Kelvin]) folgt:
dQ
ndE
=:
=: dS
kd log W ∼
T
T
Dabei ist dQ := ndE die Wärmezufuhr ohne Arbeitsleistung“ und S die von Clausius
”
(1865) eingeführte thermodynamische Entropie des Systems. Die auf Boltzmanns Grabstein eingemeißelte Formel ist k log W = S.
1
Wie paßt T := − kβ
zur Physik?
102
Erklärung am idealen Gas:
m > 0 . . . Teilchenmasse
~vi ∈ R 3 . . . Geschwindigkeitsvektor des i-ten Teilchens
yi = m~vi . . . Impuls des i-ten Teilchens
1
1
m~vi2 = 2m
||yi||2 . . . kinetischer Energie des i-ten Teilchens.
2
M := R 3 =: Raum der möglichen Impulse (ist zwar nicht endlich . . . )
µ(dy) := dy (Lebesguemaß auf R 3 , Gleichverteilung“)
”
R
dπ
dπ
h(π, µ) := π(dy) log dµ
(y) gibt immer noch Sinn, mit dµ
(y) := Dichte von π bzgl. µ.
1
2
Wir setzen U(y) := 2m ||y|| und fragen mit Boltzmann:
Welche Verteilung π auf M minimiert h(π, µ) bei vorgegebenen Mittelwert
Eπ (U) = E? In Analogie zu Satz 31.3 ergibt sich
Es ist dies die Verteilung πE mit Dichte
1
γeβU (y) = γeβ 2m ||y||
2
3
(also eine rotationssymmetrische Normalverteilung auf M = R , πE = L
Z. . . standardnormalverteilt auf R 3 )
Wie hängen β und T mit E zusammen?
Zum einen bemerken wir:
1 2
E=− ·
β 3
denn:
Z
U(y)πE (dy) =
m
−β
Z , mit
Z
1
||y||2πE (dy)
2m
R 3
"r
#
m 2
1
=
E Z 2m
−β 1 1
1 3
=
E ||Z||2 =
−β 2
−β 2
E = Eπ (U) =
q
Andererseits wird in der statistischen Physik die Temperatur T als proportional zur
mittleren Energie eines Teilchens (genauer eines Freiheitsgrades“, mit einem Proportio”
nalitätsfaktor k2 pro Freiheitsgrad) definiert: (vgl. Feynman, Lectures on Physics, I, 39 9/10) In unserem Fall ergibt sich somit:
3
E = kT.
2
1
Also insgesamt: β = − kT
.
103
32
Das Starke Gesetz der Großen Zahlen
32.1 Satz (Kolmogoroff)
X1 , X2 , . . . seien paarweise unabhängige, identisch verteilte reellwertige Zufallsvariablen mit E |X1 | < ∞. Dann gilt:
1
(X1 + . . . Xn ) −→ E X1
f.s.
n
Wir werden den Satz nur für den Spezialfall X1 , X2 , . . . unabhängig; E X14 < ∞ beweisen; für den allgemeinen Fall siehe z.B. G. Kersting, Skript zur Elementaren Stochastik,
SS 97, Satz 2.10.
Der Beweis beruht auf dem
32.2 Lemma von Borel-Cantelli
P
Seien A1 , A2 , . . . Ereignisse mit
Ws (An ) < ∞. Dann ist
n
∞
∞ [
\
Ws
An
i=1 n=i
!
=0
(d.h. die Wahrscheinlichkeit, daß unendlich viele der An eintreten, ist Null)
Beweis:
Ws
∞
∞ [
\
i=1 n=i
An
!
≤
∞
[
Ws
↑
für jedes ℓ
n=ℓ
An
!
≤
∞
X
n=l
Ws (An ) −→ 0.
l→∞
2
Beweis des Satzes (im angegebenen Spezialfall)
Sei o.B.d.A. m := E X1 = 0 (ansonsten betrachte X1 − m).
Wir setzen Sn := X1 + . . . + Xn
1)
E Sn4
=
n E X14 + n(n − 1) E X13 X2
| {z }
=0
+ n(n − 1) E
X12 X22
+ n(n − 1)(n − 2) E X12 X2 X3
{z
}
|
=0
≤
+ n(n − 1)(n − 2)(n − 3) E X1 X2 X3 X4
{z
}
|
=
n2 E X14
=0
Cauchy-Schwarz
nE
X14
+ n(n − 1)( E
104
1
X14 ) 2
1
( E X24 ) 2
2)
Sn
n
6→ 0 =
∞ n
S
|Sn |
k=1
n
≥
1
k
o
für unendlich viele n
Wegen des Lemmas von Borelli-Cantelli reicht es also zu zeigen:
X
|Sn |
1
∀k∈N :
Ws
<∞
≥
n
k
n
In der Tat ist aber
4
n4
Sn
1
1
|Sn |
4
= Ws
= Ws
Sn ≥ 4
≥
≥ 4
Ws
n
k
n4
k
k
4
k
1
≤
E Sn4 ≤ k 4 2 E X14 , und das ist summierbar über n.
4
n
n
1)
2
105
33
Markoffketten: Auftreffverteilung und Dirichletproblem
Sei S0 endlich oder abzählbar. Wie in Abschnitt 16 sei P = P (x, y)x,y∈S0 eine Übergangsmatrix auf S0 .
Für jede Verteilung µ auf S0 wird durch
Wsµ ({X0 = x0 , . . . , Xn = xn }) := µ(x0 )P (x0 , x1 ) . . . P (xn−1 , xn ),
n ∈ N; x1 , . . . , xn ∈ S0
eine Wahrscheinlichkeitsverteilung auf dem Pfadraum S = S0 × S0 × . . . definiert (siehe
Satz von Ionesco-Tulcea, Abschnitt 20)
Wsµ hat folgende Eigenschaft:
Wsµ
({X0 = x0 , . . . , Xn = xn , Xn+1 = xn+1 , . . . , Xn+m = xn+m })
= µ(x0 ) . . . P (xn−1 , xn )P (xn , xn+1 ) . . . P (xn+m−1 , xm )
= Wsµ ({X0 = x0 , . . . , Xn = xn }) Wsδxn ({X0 = x0 , . . . , Xm = xm })
⇒ Wsµ ({Xn+1 = xn+1 , . . . , Xn+m = xn+m } | {X0 = x0 , . . . , Xn = xn })
= Wsδxn ({X0 = x0 , . . . , Xm = xm })
Unter Rückgriff auf den Eindeutigkeitssatz aus Abschnitt 22 folgt daraus (mit
Wsδxn =: Wsxn )
Wsµ ({Xn+· ∈ ·} | {(X0 , . . . , Xn ) = (x0 , . . . , xn )}) = Wsxn ({X ∈ ·})
(Markoffeigenschaft)
Mit der Formel von der totalen Wahrscheinlichkeit ergibt sich daraus:
X
Wsµ ({Xn = xn }) Wsxn ({X ∈ ·})
Wsµ ({Xn+· ∈ ·}) =
xn ∈S0
Für µ := δx , n = 1 ergibt sich daraus die Zerlegung nach dem 1. Schritt“:
”
X
P (x, y)Wsy ({X ∈ ·})
Wsx ({X1+· ∈ ·}) =
y∈S0
Wenden wir dies an, um ein Gleichungssystem für die Auftreffgewichte der Kette auf
einer Menge aufzustellen.
Sei R ⊆ S0 , z ∈ R vorgegeben.
Frage: Mit welcher Wahrscheinlichkeit trifft ein in x startendes, gemäß der Dynamik
P wanderndes Teichen erstmals in z auf die Menge R?
106
R
z
x
Sei T = T (X) := min{n ≥ 0|Xn ∈ R} der Zeitpunkt, in dem der Pfad erstmals
die Menge R trifft (wenn x nie die Menge R trifft, ist T (X) = ∞). Falls T < ∞, sei
Z := Z(X) := XT der Ort des ersten Auftreffens auf R.
Sei h(x) := Wsx ({T < ∞, Z = z}). Falls X0 6∈ R, ist T (X) = 1 + T (X1+· ), und
Z(X) = Z(X1+· ).
Für x 6∈ R ist also
h(x) = Wsx ({T (X1+· ) < ∞, Z(X1+· ) = z})
Zerlegung nach dem ersten Schritt ergibt:
h(x) =
X
y
=
X
P (x, y)Wsy ({T (X) < ∞, Z(X) = z})
P (x, y)h(y)
y
Für x ∈ R ergibt sich die Randbedingung
h(x) = δxz :=
(
1
0
für x = z
für x =
6 z
hz := h löst also das Randwertproblem“
”
(
P
hz (x) = y P (x, y)hz (y)
hz (x) = δxz
x 6∈ R
x∈R
Betrachten wir noch das folgende Problem:
Sei v : R → R vorgegeben.
Unser Wanderer bekommt die Auszahlung v(z), wenn er erstmals in z auf die Menge
R trifft. Welche Auszahlung hat er bei Start in x zu erwarten?
107
Die Lösung ist
E x [v(Z); T < ∞]
X
=
v(z)Wsx ({Z = z; T < ∞})
g(x) :=
z∈R
=
X
v(z)hz (x)
z∈R
Offenbar löst g das Randwertproblem
(
P
g(x) = y P (x, y)g(y)
g(x) = v(x)
x 6∈ R
x∈R
Die erste Gleichung läßt sich auch schreiben als
(I − P )g = 0
Man sagt daher auch: g ist die Lösung des Dirichletproblems zum Operator I − P
mit Randbedingung v auf R.
(Im Fall der gewöhnlichen Irrfahrt auf Zd ist I − P ein diskretes Analogon zum
∂2
∂2
Laplaceoperator ∂x
2 + . . . + ∂x2 )
1
d
Betrachten wir noch das klassische Ruinproblem:
X sei eine gewöhnliche Irrfahrt auf Z mit Start in x, 0 ≤ x ≤ k.
Mit welcher Wahrscheinlichkeit trifft X k vor der 0?
Sei R := {0, k}. Man überlegt sich leicht, daß T < ∞ f.s.
Dann ist h(x) := Wsx ({Z = k}) Lösung des Problems
(H)
(RB)
1
(h(x − 1) + h(x + 1)) ,
2
h(k) = 1,
h(0) = 0
h(x) =
h ist also wegen (H) affin linear; aus (RB) folgt:
h(x) =
108
x
k
0 < x < k,
Herunterladen