Stochastik für Studierende der Informatik

Werbung
Stochastik für Studierende der Informatik
von Peter Pfaffelhuber
Version: 28. September 2013
Inhaltsverzeichnis
1 Grundlegendes
1.1 Häufige Modelle: Münzwurf, Würfeln, Urnen .
1.2 Kombinatorik . . . . . . . . . . . . . . . . . . .
1.3 Wahrscheinlichkeitsräume und Zufallsvariablen
1.4 Unabhängigkeit . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
4
5
10
2 Verteilungen und deren Eigenschaften
2.1 Grundlegendes . . . . . . . . . . . . .
2.2 Laplace-Experimente . . . . . . . . . .
2.3 Die Binomial-Verteilung . . . . . . . .
2.4 Kenngrößen von Zufallsvariablen . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
12
13
13
14
.
.
.
.
.
20
20
22
23
25
26
4 Approximationssätze
4.1 Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . .
4.2 Der zentrale Grenzwertsatz und die Normalverteilung . . . . . . . . . . . . .
27
28
29
5 Markov-Ketten
5.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Grundlegendes zu Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Stationäre Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
31
33
38
6 Statistik
6.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Schätzprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Testprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
42
43
48
7 Stochastische Optimierung
7.1 Simulated Annealing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Genetische Algorithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
58
62
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Weitere wichtige Verteilungen
3.1 Die hypergeometrische Verteilung . . . . . . . . . . . . . .
3.2 Die Poisson-Verteilung und das Gesetz der kleinen Zahlen
3.3 Die geometrische und die Exponentialverteilung . . . . . .
3.4 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . .
3.5 Erzeugung von Zufallszahlen . . . . . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
GRUNDLEGENDES
1
3
Grundlegendes
Die Stochastik beschäftigt sich mit zufälligen Ereignissen. Zunächst mag es erstaunen, dass
man Regeln im Zufall finden kann. Auch wenn man nicht genau weiß, welches zufällige Ereignis passiert, kann man häufig angeben, mit welcher Wahrscheinlichkeit es passiert. Zentral
ist hier der Begriff der Wahrscheinlichkeitsverteilung, die angibt, mit welchen (deterministischen) Wahrscheinlichkeiten zufällige Ereignisse passieren. Wir beschäftigen uns nicht damit,
wie man diese Wahrscheinlichkeiten festlegt, sondern werden vor allem mit ihnen rechnen.
Ein weiterer zentraler Begriff ist die Zufallsvariabe, die ein zufälliges Elemente einer Menge
beschreibt. In diesem ersten Kapitel werden wir neben der Einführung dieser Begriffe ein paar
klassische Modelle kennen lernen, etwa das Werfen von Münzen. Dies wird bei der Behandlung
von konkreten (Wahrscheinlichkeits-)Verteilungen sehr hilfreich sein.
1.1
Häufige Modelle: Münzwurf, Würfeln, Urnen
Bevor wir formal einführen, was Wahrscheinlichkeiten und Zufallsvariablen sind, behandeln
wir häufige Beispiele.
Beispiel 1.1 (Münzwurf ). Wenn man eine Münze wirft, zeigt sie bekanntlich Kopf oder
Zahl. Bei einem p-Münzwurf ist die Wahrscheinlichkeit für Kopf gerade p. Damit ist die
Wahrscheinlichkeit für Zahl gerade 1 − p. Bei üblichen Münzen denkt man oft an den Fall
p = 1/2, weil Kopf und Zahl mit derselben Wahrscheinlichkeit oben zu liegen kommen. Denkt
man jedoch, dass man eine Reißzwecke wirft, die entweder mit der spitzen Seite oben oder
unten zu liegen kommt, ist klar, dass auch p 6= 1/2 sein kann.
Wirft man zweimal mit derselben Münze, kann man nach der Wahrscheinlichkeit fragen,
zweimal Kopf zu werfen. Dies ist p2 .
Beispiel 1.2 (Würfeln). Eine bekannte Herausforderung ist es (etwa bei Mensch ärgere
Dich nicht), beim Würfeln mit einem Würfel möglichst schnell eine 6 zu werfen. Dies ist ganz
ähnlich wie beim (1/6)-Mürzwurf, schließlich gibt es nur zwei Möglichkeiten 6 oder nicht 6.
Damit ist die Wahrscheinlichkeit, k mal keine 6 zu werfen, gerade (5/6)k .
Wir berechnen noch die Wahrscheinlichkeit, mit zwei Würfeln ein Mäxchen zu werfen,
also gerade die Kombination 1,2. Diese ist
2·
1 1
· .
6 6
Denn: Entweder der erste Würfel zeigt eine 1 (Wahrscheinlichkeit 1/6) und der zweite Würfel
zeigt eine 2 (Wahrscheinlichkeit auch 1/6), oder andersherum (deswegen der Faktor 2).
Beispiel 1.3 (Urne). In einer Urne befinden sich N Kugeln, und zwar K1 Kugeln der Farbe
1, ..., Kn Kugeln der Farbe n. (Also ist K1 + · · · + Ki = N .) Zieht man (mit verschlossenen
Augen) aus der Urne, zieht man eine Kugel der Farbe i mit Wahrscheinlichkeit Ki /N . Zieht
man anschließend nochmal aus der Urne (wobei die erste Kugel nicht zurückgelegt wurde),
ist die Wahrscheinlichkeit nochmal eine Kugel der Farbe i zu ziehen (Ki − 1)/(N − 1). Damit
ist die Wahrscheinlichkeit, dass man zwei Kugeln derselben Farbe zu ziehen, gerade
n
X
Ki Ki − 1
i=1
N N −1
.
1.2
Kombinatorik
4
Beispiel 1.4 (Geburtstagsproblem). In einem Raum befinden sich 23 Personen. Wie groß
ist die Wahrscheinlichkeit, dass es zwei Personen gibt die am selben Tag Geburtstag haben?
Um diese Wahrscheinlichkeit zu berechnen, ist es hilfreich, das Gegenteil Alle Personen
haben an unterschiedlichen Tagen Geburtstag zu betrachten. Wir stellen die Personen (in
Gedanken) in einer Reihe auf. Die Wahrscheinlichkeit dass die zweite Person an einem anderen
Tag als die erste Person Geburtstag hat ist 364/365. (Von Schaltjahren und dem 29.2. sehen
wir einmal ab.) Weiter ist die Wahrscheinlichkeit, dass die dritte Person an einem anderen Tag
als die Personen eins und zwei Geburtstag hat, dann 363/365. Überlegen wir das weiter, so
ist die Wahrscheinlichkeit, dass alle Personen an unterschiedlichen Tagen Geburtstag haben,
gerade
364 363
365 − 22
·
···
≈ 0.493.
365 365
365
Damit ist die Wahrscheinlichkeit, dass es zwei Personen gibt, die am gleichen Tag Geburtstag
haben, etwa 1 − 0.493 = 0.507.
Beispiel 1.5 (Wartezeit bis zum nächsten Tor). Bei einem Fußballspiel nehmen wir
an, dass in jeder Sekunde mit derselben Wahrscheinlichkeit λ/3600 ein Tor fällt (und zwar
unabhängig von jeder anderen Sekunde). Hier ist λ die erwartete Zahl von Toren pro Stunde.
Dann ist die Wahrscheinlichkeit, dass in t Stunden kein Tor fällt, gerade
1−
λ 3600t
.
3600
Zerteilt man eine Stunde in noch kleinere Zeiteinheiten, behält jedoch die mittlere Anzahl
von Toren pro Stunde bei, so beträgt die Wahrscheinlichkeit, dass in t Stunden noch kein Tor
gefallen ist, gerade
λ nt n→∞ −λt
1−
−−−→ e .
n
1.2
Kombinatorik
Bereits in den Beispielen 1.2 und 1.3 wird klar, dass man oftmals etwas abzählen muss, um
Wahrscheinlichkeiten zu berechnen. Diese Kunst wird auch als Kombinatorik bezeichnet. Wir
behandeln nun ein paar ausgewählte Fälle, eine Zusammenfassung findet man in Tabelle 6.1.
Lemma 1.6 (Kombinatorik ohne Wiederholungen). Sei x = (x1 , ..., xn ) ein Vektor der
Länge n, deren Einträge alle verschieden sind.
1. Es gibt n! := n · (n − 1) · · · 1 verschiedene Vektoren der Länge n die dieselben Einträge
wie x haben.
2. Es gibt n·(n−1) · · · (n−k+1) verschiedene Vektoren der Länge k, die aus den Einträgen
von x gewonnen werden können.
n!
3. Es gibt nk := k!(n−k)!
verschiedene, k-elementige Teilmengen von {x1 , ..., xn }.
Beweis. 1. Stellt man einen Vektor zusammen, so hat der erste Eintrag genau n Möglichkeiten.
Für jede dieser Möglichkeiten hat der zweite Eintrag dann n − 1 Möglichkeiten usw. Daraus
ergibt sich die Formel.
2. folgt genau wie 1. nur dass man nach dem k-ten Eintrag abbrechen muss.
1.3
Wahrscheinlichkeitsräume und Zufallsvariablen
5
n!
verschiedene Möglichkeiten, Vektoren der Länge k
3. Geht man von 2. aus, so gibt es (n−k)!
aus den Einträgen von x zu bekommen. Von diesen Vektoren enthalten jeweils k! dieselben
Elemente. Will man also die Menge der k-elementigen Teilmengen zählen, so liefert jede dieser
Teilmengen genau k! Vektoren, also folgt das Ergebnis.
Lemma 1.7 (Kombinatorik mit Wiederholungen). Gegeben seien n verschiedene Objekte, x1 , ..., xn .
1. Sind von den n Objekten genau r verschieden, und kommt das i-te Objekt genau k1 mal
n!
vor, i = 1, ..., r, so gibt es genau k1 !···k
verschiedene Möglichkeiten, die Objekte in eine
r!
Reihenfolge zu bringen.
2. Zieht man aus den n Objekten genau k-mal mit Zurücklegen, so gibt es genau nk mögliche Ausgänge, wenn man die Reihenfolge der gezogenen Objekte beachtet.
3. Zieht man aus den n Objekten genau k-mal mit Zurücklegen, so gibt es genau n+k−1
k
mögliche Ausgänge, wenn man die Reihenfolge der gezogenen Objekte nicht beachtet.
Beweis. 1. Könnte man alle Objekte unterscheiden, so gäbe es n! Möglichkeiten. Da man
jedoch von dieser Anzahl jeweils k1 !, ..., kr ! für die möglichen Reihenfolgen der identischen
Objekte zusammenfassen kann, folgt das Ergebnis.
2. ist klar.
3. Hier muss man etwas genauer nachdenken, wobei folgende Überlegung entscheidend ist: ist
etwa n = 5, k = 3, so lässt sich jede gesuchte Möglichkeit durch einen Code der Art • • ∗ ∗ • ∗ ∗
darstellen. Dies bedeutet, dass vom ersten Objekt zwei Kopien gewählt wurden (deshalb ••),
vom zweiten Objekt allerdings gar keines (deshalb ist zwischen den ∗’s kein •), vom dritten
eines, und vom vierten und fünften wiederum keines. Dieser Code ist also eine eindeutige
Zuordnung der gesuchten Anordnungen auf die Menge der Vektoren der Länge n + k − 1 mit
n Einträgen • und k − 1 Einträgen ∗. (Man beachten, dass ∗ ja hier ein Trennzeichen ist,
und man n − 1 Trennzeichen benötigt um n Felder zu trennen.) Die Anzahl dieser Vektoren
ist gerade die gesuchte Anzahl, weil man nun die n-elementigen Teilmengen aller n + k − 1
Einträge sucht.
Bemerkung 1.8 (Permutation). Wir bezeichnen jede bijektive Abbildung einer Menge S
als Permutation von S. Lemma 1.6.1 besagt, dass die Menge der Bijektionen von {1, ..., n}
gerade n! ist.
1.3
Wahrscheinlichkeitsräume und Zufallsvariablen
Definition 1.9 (Zufallsvariable). Sei E eine Menge. Ein zufälliges Element von E heißt
(E-wertige) Zufallsvariable.
Bemerkung 1.10 (Zufälligkeit).
in Abbildung 1.1.
1. Eine Illustration einer Zufallsvariablen findet sich
2. In obiger Definition ist zunächst unklar, was genau zufällig bedeuten soll. Dies wird nun
durch den Begriff der Verteilung der Zufallsvariable behoben. Wir unterscheiden hierbei
zwei Fälle: Entweder ist E höchstens abzählbar, oder Teilmenge der reellen Zahlen.
1.3
Wahrscheinlichkeitsräume und Zufallsvariablen
ohne
Wiederholung
Beispiel
mit
Wiederholung
Beispiel
6
Permutation
Variation
Kombination
n!
n!
(n − k)!
n
k
Ziehung von k Zahlen
aus n Möglichen, wobei jede Zahl nur einmal vorkommen darf,
mit Beachtung der Reihenfolge der Ziehung
Ziehung von k Zahlen
aus n Möglichen, wobei jede Zahl nur einmal
vorkommen darf, ohne
Beachtung der Reihenfolge der Ziehung
n+k−1
k
Anordnung von n Zahlen, wobei jede Zahl nur
einmal vorkommen darf
n!
k1 ! · . . . · kr !
Anordnung von n Zahlen, die nicht alle verschieden sind
nk
Ziehung von k Zahlen aus n Möglichen,
wobei jede Zahl beliebig oft vorkommen darf,
mit Beachtung der Reihenfolge der Ziehung
Ziehung von k Zahlen
aus n Möglichen, wobei jede Zahl beliebig oft
vorkommen darf, ohne
Beachtung der Reihenfolge der Ziehung
Tabelle 1.1: Kombinatorik beschäftigt sich mit dem Abzählen von Möglichkeiten. Generell unterscheidet man solche mit und ohne Wiederholungen, und mit (Permutationen und
Variationen) und ohne (Kombinationen) Beachtung der Reihenfolge.
1.3
Wahrscheinlichkeitsräume und Zufallsvariablen
7
..........................................................................................................
........................
................
.............
............
..........
..........
.........
........
........
...... .......................
..............
...........................
........
.........
......
.
.
......
.
.
.
.
......
.....
.....
.
......
.
....
.
...... ..
...
...
.
.
..
................
.....
...
...
..
.
....
.
.
.....
...
.
.
.
.......
.
.....
.........
.........
.................
....................................
X
E
Abbildung 1.1: Eine Zufallsvariable ist ein zufälliges Element einer Menge.
Definition 1.11 (Verteilung einer Zufallsvariablen). Sei X eine E-wertige Zufallsvariable.
1. Angenommen, E ist höchstens abzählbar. Dann heißt X diskrete Zufallsvariable und die
Funktion x 7→ P[X = x] die Verteilung von X. Hier ist P[X = x] die Wahrscheinlichkeit, dass X den Wert x annimmt. Diese Abbildung heißt auch Zähldichte.
2. Angenommen, E ⊆ R. Gilt für jedes Intervall A ⊆ R, dass
Z
P[X ∈ A] =
f (x)dx,
A
so heißt f Dichte der Verteilung von X und X eine stetige Zufallsvariable. Wir schreiben
dann auch
P[X ∈ dx] = f (x)dx.
3. Wir bezeichnen mit P(E) die Potenzmenge
von E.PSei P : A ⊆ P(E) → [0, 1]. Gilt
S
c
P[E] = 1, P[A ] = 1 − P[A] und P[ n∈N An ] = ∞
n=1 P[An ] für paarweise disjunkte A1 , A2 , ... (falls alle Werte definiert sind), so heißt P eine WahrscheinlichkeitsVerteilung auf E. Sind P und Q Wahrscheinlichkeits-Verteilungen und ist X eine Zufallsvariable mit P[X ∈ A] = Q[A], so schreiben wir auch X ∼ Q oder X ∼P Q.
Bemerkung 1.12. Offenbar definieren sowohl Zähldichten von diskreten Zufallsvariablen als
auch Dichten von stetigen Zufallsvariablen Wahrscheinlichkeitsverteilungen.
Beispiel 1.13 (Münzwurf ). Bei einem zweimaligen p-Münzwurf sei X = (X1 , X2 ) der
zufällige, {Kopf, Zahl}-wertige Vektor, der den Ausgang des Wurfes beschreibt. Dann gilt
etwa
P[X = (Kopf, Kopf)] = P[X1 = Kopf, X2 = Kopf)] = p2 .
Beispiel 1.14 (Wartezeit bis zum nächsten Tor). Sei X die Wartezeit bis zum nächsten
Tor in Stunden wie in Beispiel 1.5. Ist A = [a, b], so gilt also nach den Rechenregeln für
Wahrscheinlichkeiten
Z b
−λa
−λb
P[X ∈ A] = P[X ≥ a] − P[X ≥ b] = e
−e
=
λe−λx dx.
a
1.3
Wahrscheinlichkeitsräume und Zufallsvariablen
8
....................................
........................
............
...........
.........
.........
.......
..............................................
.......
.
......
.
.
........
.............
.
.....
...
.
......
........
.
.
.
....
.
.....
......
...
...
....
.....
.
...
...
...
.
....
.......
.
..
.
.
.
.
.
....
............................................................................................................................................... .
...
.
.
.
...
.
...
..
.
...
..
.
.
.
.
.....
..
.
.
....
.
.
.
.
.
.
.
.
.
.
.......
.
.....
.......
..........
.....
......
..........................................................
.....
.......
.......
.........
.........
............
.......................................................................
X
Ω
E
Abbildung 1.2: In der klassischen Modellierung ist eine Zufallsvariable eine Abbildung
X : Ω 7→ E.
Also ist
f (x) := λe−λx
die Dichte der Verteilung von X. Diese werden wir Exponentialverteilung zum Parameter λ
nennen.
Bemerkung 1.15. In der Mathematik definiert man Zufallsvariablen und Verteilungen etwas
anders. Während oben der Begriff der Zufallsvariable im Vordergrund steht, führt man in
mathematischen Vorlesungen zur Stochastik zunächst Wahrscheinlichkeitsverteilungen ein.
Für eine Menge Ω sind dies Abbildungen P : A → [0, 1], wobei A ⊆ S
P[Ω] eine σ-Algebra, also
ist. Für die
ein Mengensystem mit ∅ ∈ A, A ∈ A ⇒ Ac ∈ A, A1 , A2 , ... ∈ A ⇒ S∞
n=1 An ∈ AP
c
Abbildung P fordert man nun P[∅] = 0, P[A ] = 1 − P[A] und P[ n∈N An ] = ∞
n=1 P[An ]
für paarweise disjunkte A1 , A2 , .... Hier sind nun automatisch alle Werte definiert, da A eine
σ-Algebra ist.
In dieser Form der Modellierung ist eine E-wertige Zufallsvariable eine Abbildung X :
Ω → E; siehe auch Abbildung 1.2. Die Verteilung von X ist dann gegeben durch
P[X ∈ A] = P[X −1 (A)],
wobei im letzten Ausdruck X −1 (A) ∈ A gelten muss.
Wir werden jedoch (wie oben) den intuitiveren Begriff der Zufallsvariable in den Vordergrund stellen. Ganz egal wie man modelliert, wichtig ist, dass auf jeden Fall die Rechenregeln
aus Definition 1.11.3 gelten.
Wir lernen nun noch eine wichtige Formel zum Rechnen mit Wahrscheinlichkeiten kennen.
Proposition 1.16 (Einschluss- Ausschluss-Formel). Sei X eine E-wertige Zufallsvariable und A1 , ..., An ⊆ E. Dann gilt
P[X ∈ A1 ∪ · · · ∪ An ]
n
X
=
P[X ∈ Ai ] −
i=1
X
1≤i<j≤n
P[X ∈ Ai ∩ Aj ] + · · · ± P[X ∈ A1 ∩ · · · ∩ An ].
1.3
Wahrscheinlichkeitsräume und Zufallsvariablen
9
Beweis. Zunächst sei n = 2. Klar ist, dass P[X ∈ A2 \ (A1 ∩ A2 )] = P[X ∈ A2 ] − P[X ∈
A1 ∩ A2 ], da A1 ∩ A2 und A2 \ (A1 ∩ A2 ) disjunkt sind. Daraus folgt nun
P[X ∈ A1 ∪ A2 ] = P[X ∈ A1 ] + P[X ∈ A2 \ (A1 ∩ A2 )]
= P[X ∈ A1 ] + P[X ∈ A2 ] − P[X ∈ A1 ∩ A2 ].
Wir beweisen die Aussage mit Hilfe von vollständiger Induktion. Es gilt wie im Fall n = 2
P[X ∈ A1 ∪ · · · ∪ An+1 ] = P[X ∈ A1 ∪ · · · ∪ An ] + P[X ∈ An+1 ]
− P[X ∈ (A1 ∩ An+1 ) ∪ · · · ∪ (An ∩ An+1 )]
=
n+1
X
i=1
X
P[X ∈ Ai ] −
P[X ∈ Ai ∩ Aj ] −
n
X
P[X ∈ Ai ∩ An+1 ]
i=1
1≤i<j≤n
· · · ± P[X ∈ A1 ∩ · · · ∩ An ] ±
n
X
P[X ∈ A1 ∩ · · · ∩ Ai−1 ∩ Ai+1 ∩ · · · ∩ An+1 ]
i=1
∓ P[X ∈ A1 ∩ · · · ∩ An+1 ].
Damit ist die Aussage gezeigt.
Beispiel 1.17 (Fixpunkte in Permutationen). Als Anwendung von Proposition 1.16 berechnen wir die Wahrscheinlichkeit, dass es in einer Permutation der Zahlen 1, ..., n keine
Fixpunkte gibt. (Ein Fixpunkt einer Permutation σ ist ein i mit σ(i) = i.) Sei hierzu X ein
rein zufälliges Element von Sn ,
Ai := {σ ∈ Sn : σ(i) = i}
und
Y :=
n
X
1X∈Ai
i=1
die Anzahl der Fixpunkte von X. Klar ist, dass
P[X ∈ Ai ] =
1
(n − 1)!
= ,
n!
n
weil es gerade (n − 1)! Permutationen gibt, die i als Fixpunkt haben. Analog gilt für 1 ≤ i1 <
· · · < ik ≤ n
(n − k)!
1
P[X ∈ Ai1 ∩ · · · ∩ Aik ] =
=
.
n!
n · · · (n − k + 1)
Weiter gilt
P[Y > 0] = P[X ∈ A1 ∪ · · · ∪ An ]
n
n
= nP[X ∈ A1 ] −
P[A1 ∩ A2 ] +
P[X ∈ A1 ∩ A2 ∩ A3 ] − · · ·
2
3
n
±
P[X ∈ A1 ∩ · · · ∩ An ]
n
1
1
1
= 1 − + − ··· ± .
2! 3!
n!
1.4
Unabhängigkeit
10
Damit ist die Wahrscheinlichkeit, dass X keine Fixpunkte besitzt, gerade
P[Y = 0] = 1 − P[Y > 0] =
1
1
1
− + ··· ∓ .
2! 3!
n!
Wir bemerken, dass für große n
P[Y = 0] =
n
X
(−1)k
k=2
1.4
k!
=
n
X
(−1)k
k=0
k!
n→∞
−−−→ e−1 .
Unabhängigkeit
Bereits in den Beispielen 1.1, 1.2, 1.4, 1.5 haben wir Wahrscheinlichkeiten miteinander multipliziert. Etwa hatten wir gesagt, dass die Wahrscheinlichkeit beim p-Münzwurf für das zweimalige Auftreten von Kopf gerade p2 ist. Begründet haben wir dies mit der Unabhängigkeit
der Münzwürfe. Um dieses Konzept einzuführen, benötigen wir zunächst die gemeinsame
Verteilung von Zufallsvariablen.
Definition 1.18 (Gemeinsame Verteilung). Ist X = (X1 , ..., Xn ) mit Zielbereich E1 ×
. . . × En , so heißt die Verteilung von X auch gemeinsame Verteilung von X1 , ..., Xn . Die
Abbildung
Ai 7→ P[Xi ∈ Ai ]
ist die i-te Rand- oder Marginalverteilung der gemeinsamen Verteilung von X1 , ..., Xn .
Gilt für alle Intervalle A1 , ..., An ⊆ R, dass
Z
P[X ∈ A1 × · · · × An ] =
f (x1 , ..., xn )dx1 · · · dxn ,
A
so heißt f Dichte der gemeinsamen Verteilung von X1 , ..., Xn . Wir schreiben dann auch
P[X ∈ dx1 · · · dxn ] = f (x1 , ..., xn )dx1 · · · dxn .
Definition 1.19 (Bildverteilung). Ist X eine E-wertige Zufallsvariable und
h : E → E0,
so ist Y := h(X) eine E 0 -wertige Zufallsvariable und
{Y = y} = {X ∈ h−1 (y)},
also ist die Verteilung von Y gegeben durch
P[Y ∈ B] = P[X ∈ h−1 (B)].
Bemerkung 1.20 (Interpretation). Auch wenn die Definition abstrakt erscheint, sind Bilder von Zufallsvariablen häufig anzutreffen. Sei etwa (X1 , ..., Xn ) das Ergebnis eines n-fachen
Würfelwurfs. Dann beschreibt die Zufallsvariable Zi := h(Xi ) mit h(x) := 1x=6 , ob im iten Wurf eine 6 gefallen ist oder nicht. Weiter zählt die Zufallsvariable `(Z1 , ..., Zn ) mit
`(z1 , ..., zn ) := z1 + · · · + zn die Anzahl der 6er.
Eine Illustration von Bildern von Zufallsvariablen findet sich in Abbildung 6.2.
1.4
Unabhängigkeit
11
..........................................................................................................
..............................
........................
................
.........
.............
............
........
..........
.......
..........
......
.........
...... ....................................................
........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........
.
.
.........
...... ........
.
.
.
...... .......................
.
.
.
.
.
.
.
.
.
.......
.....
..............
......
.
...........................
.
.
.
.
.
.
........
.
.....
.....
.........
...
......
.
.
.
......
.
.
.
.
.
.
.
.
.
.
.
.
....
.....
......
.
.....
....
.
.
......
...
..... ..................................
.
.
....
.
.
.
...... ..
.............................................................
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
....
...........................................................
....
........
...
.. ..
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
.
.
.
..............
....
.
...............................
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
......
.
.
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
..
.................................................................................................
.
...
.
.
.
.....
..
.
.
....
.
.
.
.
.
.
.
.
.
.
.......
.....
....
.........
...........
.......
..........
......
.....
.............
.............................................................................
.......
................ .............
.........
................
........................
............
.....................................................................................
.......................................................................
Y = h(X)
X
h−1 (B)
B
E
E0
h
Abbildung 1.3: Das Bild einer Zufallsvariablen X unter einer Abbildung h ist wieder eine
Zufallsvariable, nämlich h(X).
Beispiel 1.21 (p-Münzwurf ). Wir betrachten einen p-Münzwurf mit q := 1 − p. Also sei
X = (X1 , ..., Xn ) eine {0, 1}n -wertige Zufallsvariable mit
Pn
Pn
(1 − p)n− i=1 xi .
Sei h(x1 , ..., xn ) = x1 + · · · + xn . Dann gilt |h−1 (k)| = nk , also
P h(X) = k = P X ∈ h−1 (k)
X
n k n−k
k n−k
=
p q
=
p q
.
k
−1
P[X = (x1 , ..., xn )] = p
(x1 ,...,xn )∈h
i=1
xi
(k)
Definition 1.22 (Unabhängigkeit). Seien X1 , ..., Xn Zufallsvaribale. Gilt
P[X1 ∈ A1 , ..., Xn ∈ An ] = P[X1 ∈ A1 ] · · · P[Xn ∈ An ]
(1.1)
für beliebige A1 , ..., An , so heißt (X1 , ..., Xn ) unabhängig. Gilt (1.1) nur für Paare i 6= j, d.h.
P[Xi ∈ Ai , Xj ∈ Aj ] = P[Xi ∈ Ai ] · P[Xj ∈ Aj ]
für beliebige Ai , Aj und i 6= j, so heißt (X1 , ..., Xn ) paarweise unabhängig.
Bemerkung 1.23 (Unabhängigkeit von diskreten und stetigen Zufallsvariablen).
Man überlegt sich einfach:
Sind X1 , ..., Xn diskrete Zufallsvariable. Dann ist (X1 , ..., Xn ) genau dann unabhängig, wenn
P[X1 = x1 , ..., Xn = xn ] = P[X1 = x1 ] · · · P[Xn = xn ]
für beliebige Wahl von x1 , ..., xn .
Weiter gilt:
Sind X1 , ..., Xn stetige Zufallsvariablen, so dass die gemeinsame Verteilung eine Dichte f
besitzt. Dann ist (X1 , ..., Xn ) genau dann unabhängig, wenn es Funktionen f1 , ..., fn gibt mit
f (x1 , ..., xn ) = f1 (x1 ) · · · fn (xn ). Dabei gilt
Z
fi (xi ) = f (x1 , ..., xn )dx1 · · · dxi−1 dxi+1 · · · dxn .
2
VERTEILUNGEN UND DEREN EIGENSCHAFTEN
12
Beispiel 1.24.
1. Beispiele für unabhängige Zufallsvariable haben wir bereits kennen gelernt. Beispielsweise ist ein p-Münzwurf (X1 , ..., Xn ) unabhängig.
2. Wir geben nun ein Beispiel für paarweise unabhängige, aber nicht unabhängige Zufallsvariablen an. Sei hierzu (X1 , X2 ) ein 1/2-Münzwurf. Wir betrachten dann Z =
(Z1 , Z2 , Z3 ) mit Z1 = X1 , Z2 = X2 , Z3 = 1X1 =X2 . Die Zufallsgröße Z3 gibt also gerade an, ob die beiden Ergebnisse der Münzwürfe identisch sind oder nicht. Es gilt
P[Z3 = 1] = P[X1 = X2 = 0 oder X1 = X2 = 1] = 21 · 12 + 12 · 12 = 12 . Weiter ist
P[Z1 = 1, Z3 = 1] = P[X1 = X2 = 1] =
1
4
= P[Z1 = 1] · P[Z3 = 1]
und analog für das Paar (Z2 , Z3 ). Damit ist Z paarweise unabhängig. Jedoch gilt
P[Z1 = 0, Z2 = 1, Z3 = 1] = 0 6=
1
8
= P[Z1 = 0] · P[Z2 = 1] · P[Z3 = 1],
also ist Z nicht unabhängig.
2
2.1
Verteilungen und deren Eigenschaften
Grundlegendes
Einen besonderen Stellenwert haben reellwertige Zufallsvariablen und deren Verteilungen. Für
diese lässt sich die Verteilungsfunktion definieren.
Definition 2.1 (Verteilungsfunktion und Quantile). Sei E ⊆ R und X eine E-wertige
Zufallsvariable. Dann heißt die Funktion
x 7→ FX (x) := P[X ≤ x]
Verteilungsfunktion von X. Sei weiter α ∈ (0, 1). Jedes qα ∈ R mit
P[X < qα ] ≤ α ≤ P[X ≤ qα ]
heißt α-Quantil von (der Verteilung von) X. Jedes 0.5-Quantil heißt Median von (der Verteilung von) X.
Lemma 2.2 (Eigenschaften von Verteilungsfunktionen). Sei X eine (diskrete oder
stetige) reellwertige Zufallsvariable. Dann gilt
lim FX (x) = 1,
x→∞
lim FX (x) = 0.
x→−∞
Ist X eine stetige Zufallsvariable mit Dichte f (x)dx, so gilt
Z x
FX (x) =
f (z)dz.
−∞
Insbesondere ist also F 0 = f und die Verteilungsfunktion damit differenzierbar.
2.2
Laplace-Experimente
13
Beweis. Wir zeigen die ersten beiden Aussagen für P
diskrete Zufallsvariable. Sei E ⊆ R der
diskrete Wertebereich von X. Dann gilt schließlich z∈E P[X = z] = 1 und damit P[X ≤
P
x→∞
x] =
z∈E,z≤x P[X = z] −−−→ 1, da andernfalls die Gesamtsumme von P[X = z] nicht
konvergiert. Die zweite Gleichung folgt analog.
Die Aussage für stetige Zufallsvariable ist klar, da (−∞, x] ein Intervall ist und damit
Z x
P[X ≤ x] = P[X ∈ (−∞, x]] =
f (z)dz
−∞
gilt.
2.2
Laplace-Experimente
Man stelle sich einen Würfelwurf mit einem fairen Würfel vor. Hier sind alle möglichen
Ausgänge gleichwahrscheinlich. In einem solchen Fall spricht man auch von einem LaplaceExperiment. Solche Experimente führen zu uniformen Verteilungen, die wir nun kennen lernen.
Definition 2.3 (Diskrete uniforme Verteilung). Sei E eine endliche Menge. Ist x 7→
P[X = x] konstant, so heißt die Verteilung von X diskrete uniforme Verteilung. In diesem
Fall gilt
|A|
.
P[X ∈ A] =
|E|
Definition 2.4 (Stetige uniforme Verteilung). Sei E = [a, b] ein Intervall und X eine
E-wertige Zufallsvariable. Gilt für a ≤ c ≤ d ≤ b
P[X ∈ (c, d)] =
d−c
,
b−a
so heißt die Verteilung von X stetige uniforme Verteilung. In diesem Fall hat X die Dichte
1
1 (x)dx
b − a [a,b]
und wir schreiben auch X ∼ U ([a, b]). Weiter können wir auch die Verteilungsfunktion von
X berechnen. Es gilt


x < a,
0, R
x
x−a
1
P[X ≤ x] = b−a a dz = b−a , a ≤ x < b, .


1,
x ≥ b.
2.3
Die Binomial-Verteilung
Denkt man an ein n-mal unabhängig wiederholt durchgeführtes Spiel, so ist es möglich, zwischen 0 und n-mal zu gewinnen. Die Anzahl der Gewinne ist eine Zufallsvariable, deren Verteilung wir nun als Binomialverteilung kennen lernen. Diese haben wir schon in Beispiel 1.21
kennen gelernt. Die Verteilungsgewichte und die Verteilungsfunktion der Binomialverteilung
sind in Abbildung 2.1 dargestellt.
2.4
Kenngrößen von Zufallsvariablen
14
Definition 2.5 (Binomialverteilung). Sei E = {0, ..., n} und 0 ≤ p ≤ 1. Ist X eine
E-wertige Zufallsvariable mit
n k
P[X = k] =
p (1 − p)n−k ,
(2.1)
k
so heißt die Verteilung von X Binomialverteilung mit Parametern n und p und wir schreiben
X ∼ B(n, p).
P[X=k]
P[X ≤ k]
Bemerkung 2.6. Die B(n, p) Verteilung gibt die Anzahl der Erfolge in einem n-mal unabhängig wiederholt ausgeführten Spiel dar, wobei in jedem Spiel die Gewinnwahrscheinlichkeit gerade p beträgt.
Denn: Jeder Spielausgang des wiederholten Spiels kann man mit einem {0, 1}-wertigem Vektor
der Länge n beschreiben. Ist etwa n = 5, so ist (1, 1, 0, 0, 1) ein Gewinn in den ersten beiden
und im letzten Spiel. Ein solcher Spielausgang
hat gerade die Wahrscheinlichkeit p · p · (1 −
n
3
2
p) · (1 − p) · p = p (1 − p) . Da es genau k Vektoren gibt, die aus genau k Ziffern 1 und n − k
Ziffern 0 bestehen, folgt (2.1).
0 1 2 3 4 5 6 7 8 9 10 k
0 1 2 3 4 5 6 7 8 9 10 k
Abbildung 2.1: Verteilungsgewichte und Verteilungsfunktion von B(10, 0.2).
2.4
Kenngrößen von Zufallsvariablen
Definition 2.7 (Erwartungswert). Sei X eine E-wertige Zufallsvariable und h : E → R.
1. Ist E diskret, so heißt
E[h(X)] :=
X
h(x)P[X = x]
x∈E
Erwartungswert von h(X), falls die Summe konvergiert.
2. Ist X stetig mit Dichte f , so ist
Z
E[h(X)] :=
h(x)f (x)dx
Erwartungswert von h(X), falls das Integral existiert.
2.4
Kenngrößen von Zufallsvariablen
15
Ist speziell E ⊆ R und h = id, so heißt
X
E[X] :=
xP[X = x],
x∈E
Z
E[X] :=
xf (x)dx
Erwartungswert von X, falls Summe und Integral existieren.
Beispiel 2.8 (Uniforme und Binomialverteilung).
1. Sei X ∼ B(n, p). Dann ist mit
q := 1 − p
n
n X
X
n k n−k
n − 1 k−1 n−k
E[X] =
k
p q
= np
p q
k
k−1
k=0
k=1
(2.2)
n−1
X n − 1
k n−k
= np
p q
= np.
k
k=0
2. Sei X ∼ U ([a, b]). Dann ist
1
E[X] =
b−a
b
Z
xdx =
a
1 b2 − a2
1
= (a + b).
2 b−a
2
Lemma 2.9 (Transformationssatz). Sei X eine E-wertige diskrete Zufallsvariable und
h : E → R. Dann gilt. Dann gilt
X
E[h(X)] =
yP[h(X) = y]
y∈h(E)
falls die Summe existiert.
Beweis. Es gilt nach Definition des Erwartungswertes
X
X
E[h(X)] =
h(x)P[X = x] =
x∈E
=
X
y∈h(E)
y∈h(E)
y
X
X
P[X = x] =
x∈h−1 (y)
h(x)P[X = x]
x∈h−1 (y)
X
yP[h(X) = y].
y∈h(E)
Lemma 2.10. Sei X eine Z+ -wertige Zufallsvariable. Dann gilt
E[X] =
∞
X
P[X > x],
x=0
E[X(X − 1)] = 2 ·
∞
X
x=0
falls jeweils die Summe existiert.
x · P[X > x]
2.4
Kenngrößen von Zufallsvariablen
16
Beweis. Für die erste Behauptung schreiben wir
E[X] =
∞
X
xP[X = x] =
x=0
=
∞
X
∞ X
x
X
P[X = x] =
P[X ≥ y] =
y=1
P[X = x]
y=1 x=y
x=1 y=1
∞
X
∞ X
∞
X
P[X > y]
y=0
wobei die Umordnung der Doppelsumme wegen der absoluten Konvergenz der Reihe möglich
ist. Für die zweite Behauptung ist analog
E[X(X − 1)] = 2
∞
X
x(x − 1)
2
x=1
=2
∞ X
∞
X
· P[X = x] = 2
∞ X
x−1
X
y · P[X = x]
x=1 y=0
y · P[X = x] = 2
y=0 x=y+1
∞
X
y · P[X > y].
y=0
Beispiel 2.11 (Diskrete uniforme Verteilung). Sei X uniform auf {k, ..., `} verteilt. Dann
ist
`
`
k−1 `+1
X
X
X
− k2
1
1
2
E[X] =
x
=
x−
x =
`−k+1
`−k+1
`−k+1
x=0
x=k
=
x=0
(` − k + 1)(` + k)
`+k
=
.
2(` − k + 1)
2
Genauso können wir schreiben
E[X] =
`
X
P[X > x] =
x=0
k−1
X
1+
x=0
`−k+1
2
=k+
`−k+1
=k+
`
X
x=k
`−k
X
`−x
1
=k+
x
`−k+1
`−k+1
x=0
`−k
`+k
=
.
2
2
Proposition 2.12 (Eigenschaften des Erwartungswertes). Seien X, Y (diskrete oder
stetige) Zufallsvariablen.
1. Sei a, b ∈ R. Dann gilt
E[aX + bY ] = aE[X] + bE[Y ],
falls alle Erwartungswerte existieren.
2. Gilt X ≤ Y , so ist E[X] ≤ E[Y ].
Beweis. Wir zeigen beide Aussagen nur im Fall von diskreten Zufallsvariablen. Es gilt
X
E[aX + bY ] =
(ax + by)P[X = x, Y = y]
x,y∈E
=a
X
xP[X = x, Y = y] + b
x,y∈E
=a
X
x∈E
P[X = x] + b
X
yP[X = x, Y = y]
x,y∈E
X
y∈E
yP[Y = y] = aE[X] + bE[Y ].
2.4
Kenngrößen von Zufallsvariablen
17
Für 2. genügt es zu zeigen, dass E[X] ≥ 0 für X ≥ 0. (Dann ist nämlich E[Y ] − E[X] =
E[Y − X] ≥ 0.) Wir schreiben, falls X ≥ 0
X
X
X
E[X] =
xP[X = x] =
xP[X = x] ≥
0 · P[X = x] = 0.
x∈E
x∈E,x≥0
x∈E,x≥0
Beispiel 2.13 (p-Münzwurf ). Ist X = (X1 , ..., Xn ) ein p-Münzwurf, so wissen wir bereits,
dass Y := X1 + · · · + Xn ∼ B(n, p). Also muss auch
E[Y ] = E[X1 + · · · + Xn ] = E[X1 ] + · · · + E[Xn ] = nE[X1 ] = nP[X1 = 1] = np
in Übereinstimmung mit (2.2).
Definition 2.14 (Varianz). Sei X entweder eine diskrete, E ⊆ R-wertige Zufallsvariable,
oder eine stetige Zufallsvariable und es existiere µ := E[X]. Dann ist
σ 2 := Var[X] = E[(X − µ)2 ]
die Varianz von X. In beiden Fällen heißt
σ :=
p
Var[X]
die Standardabweichung von X.
Bemerkung 2.15. Für diskrete Zufallsvariablen ist also
X
Var[X] =
(x − µ)2 P[X = x],
x∈E
für stetige mit Dichte f (x)dx gerade
Z
Var[X] =
(x − µ)2 f (x)dx
falls Summe und Integral existieren.
Proposition 2.16 (Rechenregeln für die Varianz). Sei X entweder eine diskrete, E ⊆ Rwertige Zufallsvariable oder eine stetige Zufallsvariable. Dann gilt
Var[X] = E[X 2 ] − E[X]2 = E[X(X − 1)] + E[X] − E[X]2
falls alle Erwartungswerte existieren.
Beweis. Die zweite Gleichheit ist klar wegen der Linearität des Erwartungswertes. Sei µ :=
E[X]. Dann schreiben wir
Var[X] = E[(X − µ)2 ] = E[X 2 − 2µX + µ2 ] = E[X 2 ] − 2µE[X] + µ2 = E[X 2 ] − µ2 .
Damit ist alles gezeigt.
2.4
Kenngrößen von Zufallsvariablen
18
Beispiel 2.17 (Uniforme und Binomialverteilung).
1. Sei X ∼ B(n, p). Dann ist
mit q := 1 − p
n
X
n k n−k
E[X(X − 1)] =
k(k − 1)
p q
k
k=0
n X
n − 2 k−2 n−k
= n(n − 1)p2
p q
= n(n − 1)p2 ,
k−2
k=2
also
Var[X] = n(n − 1)p2 + np − (np)2 = npq.
2. Sei X ∼ U ([a, b]). Dann ist
Z b
1
(a + b)2
1 b3 − a3 (a + b)2
Var[X] =
x2 dx −
=
−
b−a a
4
3 b−a
4
2
2
2
2
4b + 4ab + 4a − 3b − 6ab − 3b
(b − a)2
=
=
.
12
12
Definition 2.18 (Covarianz und Korrelationskoeffizient). Seien X, Y diskrete oder
stetige Zufallsvariablen, deren Erwartungswerte µX := E[X], µY := E[Y ] sowie Varianzen
2 := Var[X], σ 2 := Var[Y ] existieren. Dann existiert auch
σX
Y
Cov[X, Y ] := E[(X − µX )(Y − µY )]
und heißt Covarianz von X und Y . Gilt Cov[X, Y ] = 0, so heißen X, Y unkorreliert.
Außerdem nennen wir
Cov[X, Y ]
Kor[X, Y ] :=
σX · σY
Korrelationskoeffizient von X und Y .
Lemma 2.19 (Rechenregeln für Covarianzen). Seien X, Y, Z (diskrete oder stetige) reellwertige Zufallsvariable mit endlicher Varianz. Dann gilt
Cov[X, Y ] = Cov[Y, X],
Var[X] = Cov[X, X],
Cov[X, Y ] = E[XY ] − E[X]E[Y ],
Cov[X, aY + bZ] = aCov[X, Y ] + bCov[X, Z].
Beweis. Wir setzen µX := E[X], µY := E[Y ]. Die ersten beiden Gleichungen sind klar. Für
die dritte Gleichung schreiben wir
E[(X − µX )(Y − µY )] = E[XY ] − µX E[Y ] − µY E[X] + µX µY = E[XY ] − µX µY .
Die vierte folgt aus der Definition der Covarianz und der Linearität des Erwartungswertes.
Lemma 2.20 (Cauchy–Schwartz Ungleichung). Es gilt
E[XY ]2 ≤ E[|XY |]2 ≤ Var[X]Var[Y ].
Insbesondere ist
−1 ≤ Kor[X, Y ] ≤ 1.
2.4
Kenngrößen von Zufallsvariablen
19
Beweis. Die erste Ungleichung ist klar, da XY ≤ |XY |. Für die zweite genügt es den Fall
E[X 2 ] > 0 zu betrachten. Andernfalls muss nämlich P[X = 0] = 1 gelten und dann ist nichts
zu zeigen. Für jedes c ∈ R gilt 0 ≤ (−c|X| + |Y |)2 = c2 X 2 − 2c|XY | + Y 2 . Insbesondere gilt
für c := E[|XY |]/E[X 2 ]
0 ≤ c2 E[X 2 ] − 2cE[|XY |] + E[Y 2 ] = E[|XY |]2 /E[X 2 ] − 2E[|XY |]2 /E[X 2 ] + E[Y 2 ]
= E[Y 2 ] − E[|XY |]2 /E[X 2 ]
woraus die erste Behauptung direkt folgt. Die zweite folgt dann aus der Definition des Korrelationskoeffizienten.
Proposition 2.21 (Unabhängigkeit und Unkorreliertheit). Sind X, Y (diskrete oder
stetige) reellwertige, unabhängige Zufallsvariable, deren Varianz existiert. Dann sind X, Y
auch unkorreliert, d.h. Cov[X, Y ] = 0.
Beweis. Wir zeigen die Behauptung nur für diskrete Zufallsvariable. Es gilt
X
X
X
E[XY ] =
xyP[X = x, Y = y] =
xP[X = x]
yP[Y = y]
x,y
x
y
= E[X]E[Y ].
Proposition 2.22 (Varianz einer Summe). Seien X1 , ..., Xn (diskrete oder stetige) reellwertige Zufallsvariable mit endlichen Varianzen. Dann gilt
Var
n
hX
n
i X
Xi =
Var[Xi ] + 2
i=1
i=1
X
Cov[Xi , Xj ].
1≤i<j≤n
Ist insbesondere (X1 , ..., Xn ) paarweise unkorreliert, so gilt
Var
n
hX
i
Xi =
i=1
n
X
Var[Xi ].
i=1
Beweis. Wir verwenden Lemma 2.19 und schreiben
Var
n
hX
i
Xi = Cov
i=1
n
hX
i=1
=
=
n
X
i=1
n
X
i=1
Xi ,
n
X
i
Xj =
i=j
Cov[Xi , Xi ] +
n X
n
X
Cov[Xi , Xj ]
i=1 j=1
n X
i−1
X
Cov[Xi , Xj ] +
i=1 j=1
Var[Xi ] + 2
X
1≤i<j≤n
Cov[Xi , Xj ].
n X
n
X
i=1 j=i+1
Cov[Xi , Xj ]
3
WEITERE WICHTIGE VERTEILUNGEN
20
Beispiel 2.23 (Runs in einem p-Münzwurf ). Sei X = (X1 , ..., Xn ) ein p-Münzwurf. Ein
Run ist ein maximaler Block aus 0ern oder 1ern, also enthält 1100010 genau vier Runs. Sei
Y die Anzahl der Runs in X. Dann gilt
Y =1+
n
X
1Ei mit Ei = {Xi 6= Xi−1 }.
i=2
Nun gilt
E[1Ei ] = P[Xi 6= Xi−1 ] = 2pq,
Var[1Ei ] = E[1Ei ] − E[1Ei ]2 = 2pq − (2pq)2 = 2pq(1 − 2pq).
Für 2 ≤ i ≤ n − 1 ist außerdem
E[1Ei · 1Ei+1 ] = P[Xi+1 6= Xi 6= Xi−1 ] = pqp + qpq = pq.
Offenbar sind 1Ei , 1Ej für |i − j| > 1 unabhängig. Damit gilt
E[Y ] = 1 + 2pq(n − 1),
Var[Y ] =
n
X
Var[1Ei ] + 2
i=2
n−1
X
Cov[1Ei , 1Ei+1 ]
i=2
= 2pq(1 − 2pq)(n − 1) + pq(1 − 4pq)(n − 2).
3
3.1
Weitere wichtige Verteilungen
Die hypergeometrische Verteilung
Gegeben sei folgende Situation: In einer Urne befinden sich insgesamt g Kugeln, wovon w
weiß sind. Wir ziehen n Kugeln blind und ohne Zurücklegen heraus. Sei nun
X := Anzahl der weißen Kugeln in der Stichprobe.
Wir fragen nun nach der Verteilung von X. Um die Wahrscheinlichkeit P[X = k] zu berechnen,
stellen wir uns vor, dass die weißen Kugeln von 1 bis w und die anderen Kugeln von w + 1
bis g nummeriert sind. Insgesamt ist jede mögliche Ziehung (wenn man die Kugeln nur nach
Nummern unterscheidet) gleichwahrscheinlich und es gibt genau ng mögliche Ziehungen. (Wir
unterscheiden ja die Reihenfolge nicht.) Wie viele dieser Möglichkeiten führen nun gerade
dazu, dass man n weiße Kugeln zieht? Hierzu muss man gerade k der wweißen und n − k der
g − w andersfarbigen Kugeln ziehen. Deshalb gibt es hierfür wk g−w
n−k Möglichkeiten. Weil
alle Möglichkeiten gleich wahrscheinlich sind, gilt also
w g−w
k
P[X = k] =
n−k
g
n
.
Definition 3.1 (Hypergeometrische Verteilung). Sei n, g ∈ N und w ∈ Z+ mit n, w ≤ g.
Eine {0, ..., n}-wertige Zufallsvariable X heißt hypergeometrisch verteilt mit n, g, w, wenn
w g−w
P[X = k] =
k
n−k
g
n
Wir schreiben dann auch X ∼Hyp(n, g, w).
,
k = 0, 1, ..., n.
(3.1)
3.1
Die hypergeometrische Verteilung
21
Proposition 3.2 (Erwartungswert und Varianz der hypergeometrischen Verteilung). Sei X ∼Hyp(n, g, w). Dann gilt
n − 1
E[X] = np,
Var[X] = npq 1 −
g−1
mit p :=
w
g ,q
:= 1 − p.
Beweis. Wir stellen uns die oben beschriebene Urne mit den g Kugeln vor. Sei
Zi := 1{i-te gezogene Kugel ist weiß} ,
also
X=
n
X
Zi .
i=1
Klar ist, dass P[Zi = 1] = p, i = 1, ..., n und damit
E[X] =
n
X
E[Zi ] = np.
i=1
Weiter gilt für i 6= j
w − 1 w
g−w
1
−
= −p
= −pq
,
Cov[Zi , Zj ] = P[Zi = Zj = 1] − p2 = p
g−1
g
g(g − 1)
g−1
also nach Proposition 2.22
Var[X] =
n
X
X
Var[Zi ] + 2
i=1
Cov[Zi , Zj ]
1≤i<j≤n
= npq − n(n − 1)pq
n − 1
1
= npq 1 −
.
g−1
g−1
Bemerkung 3.3 (Alternative Berechnung). Wir können Erwartungswert und Varianz
von X alternativ auch direkt berechnen. Hierzu bemerken wir zunächst, dass
n X
w g−w
g
=
,
k
n−k
w
k=1
andernfalls würden die Wahrscheinlichkeiten in (3.1) nicht zu 1 addieren. Nun schreiben wir
w g−w
w−1 g−w
g−1
n
n
X
X
w
k n−k
k−1 n−k
n−1
E[X] =
k
=w
= w g = n = np,
g
g
g
n
n
n
k=0
k=1
w g−w
n
X
E[X(X − 1)] =
k(k − 1) k gn−k
k=0
= w(w − 1)
n
X
k=2
n
w−2 g−w
k−2 n−k
g
n
g−2
n−2
g
n
= w(w − 1)
= np (n−1)(w−1)
,
g−1
3.2
Die Poisson-Verteilung und das Gesetz der kleinen Zahlen
22
also
Var[X] = E[X(X − 1)] + E[X] − E[X]2 = np (n−1)(w−1)
+ np − (np)2
g−1
g(g − 1) + nw − (n + w − 1)g
g−n
nw (n − 1)(w − 1) +
= np
= npq
.
= np 1 −
g
g−1
g(g − 1)
g−1
Bemerkung 3.4 (Ziehen mit und ohne Zurücklegen). Eine Alternative zum Ziehen
ohne Zurücklegen ist natürlich das Ziehen mit Zurücklegen. Führt man dies n-mal durch,
und fragt sich bei g Kugeln in der Urne, von denen genau w weiß sind, nach der Anzahl Y
der weißen Kugeln in der Stichprobe, so erhält man Y ∼ B(n, p) mit p = wg . Damit ist also
E[X] = E[Y ] = np,
sowie
n − 1
,
Var[Y ] = npq.
Var[X] = npq 1 −
g−1
Dies kann man etwa so interpretieren: Ist g groß, enthält die Urne also viele Kugeln, von
denen etwa ein Anteil p weiß ist, und zieht man n g Kugeln ohne oder mit Zurücklegen
heraus, so sind die Varianzen (und auch die Verteilungen) recht ähnlich.
Beispiel 3.5 (Lotto). Die Gewinnwahrscheinlichkeiten im Lotto kann man durch die hypergeometrische Verteilung beschreiben. Hier gibt es g = 49 Kugeln, von denen w = 6 die
Gewinnzahlen sind. Füllt man einen Spielzetten aus, so kreuzt man n = 6 Zahlen an. Deshalb
ist z.B. die Wahrscheinlichkeit, dass gerade k = 4 Zahlen richtig sind gerade
6 43
4
2
49
6
3.2
≈ 9.69 · 10−4 .
Die Poisson-Verteilung und das Gesetz der kleinen Zahlen
Wir stellen uns (wie bei der Einführung der Binomialverteilung) vor, dass ein Zufallsexperiment unabhängig n-mal hintereinander ausgeführt wird, wobei in jedem Versuch mit Wahrscheinlichkeit p ein Erfolg zu verzeichnen ist. Wir betrachten nun den Fall großer n und kleiner
p. Man denke hierbei etwa daran, dass viele Leute ein Glücksspiel (z.B. Lotto) spielen, das für
jede Person nur eine sehr kleine Gewinnwahrscheinlichkeit hat. Nachwievor ist natürlich die
Anzahl der Gewinner X ∼ B(n, p), also in Erwartung E[X] = np. Es stellt sich nun heraus,
dass man die Verteilung von X approximieren kann.
Proposition 3.6 (Gesetz der kleinen Zahlen). Sei Xn verteilt nach B(n, pn ) für n =
1, 2, ..., so dass
n→∞
E[Xn ] = n · pn −−−→ λ > 0.
Dann gilt
lim P[Xn = k] = e−λ
n→∞
λk
.
k!
Beweis. Wir schreiben direkt
n k
P[Xn = k] =
p (1 − pn )n−k
k n
n(n − 1) · · · (n − k + 1) 1
npn n
k
=
·
(np
)
1
−
(1 − pn )−k .
n
k!
n
nk
3.3
Die geometrische und die Exponentialverteilung
n→∞
23
n→∞
n→∞
−−−→ 1, (1 − npn /n)n −−−→ e−λ und (1 − pn )−k −−−→ 1.
Für jedes k gilt nun n(n−1)···(n−k+1)
nk
Insgesamt ergibt sich damit die Behauptung.
Definition 3.7 (Poisson-Verteilung). Sei λ ≥ 0 und X eine Z+ -wertige Zufallsvariable
mit
λk
P[X = k] = e−λ ,
k!
so heißt die Verteilung von X Poisson-Verteilung zum Parameter λ und wir schreiben
X ∼Poi(λ).
Proposition 3.8 (Erwartungswert und Varianz der Poisson-Verteilung). Sei λ ≥ 0
und X ∼Poi(λ). Dann gilt
E[X] = Var[X] = λ.
P
λk
λ
Beweis. Wir schreiben, wegen ∞
k=0 k! = e
E[X] =
∞
X
ke−λ
k=0
∞
∞
k=1
k=0
X λk−1
X λk
λk
= λe−λ
= λe−λ
=λ
k!
(k − 1)!
k!
und mit Proposition 2.22 folgt ebenso
Var[X] = E[X(X − 1)] + E[X] − E[X]2
∞
X
λk + λ − λ2
=
k(k − 1)e−λ
k!
k=0
= λ2 e−λ
∞
X
λk−2 + λ − λ2 = λ.
(k − 2)!
k=2
Bemerkung 3.9 (Der Checkpot im Lotto). Um nun das Gesetz der kleinen Zahlen aus
Proposition 3.6 anwenden zu können, betrachten wir das Lotto-Spiel 6 aus 49. Die Gewinnchancen für sechs Richtige sind hierbei wie in Beispiel 3.5
p :=
1
=
49
6
1
≈ 7.15 · 10−8 .
13 983 816
Geht man davon aus, dass an einer Ausspielung 107 Spiele abgegeben werden, gibt es (in
Erwartung) etwa λ := 0.715 Sechser. Genauer können wir sagen, dass etwa die Anzahl X der
gespielten Sechser Poisson-verteilt ist zum Parameter λ. Deshalb gilt z.B. für die Wahrscheinlichkeit, dass der Checkpot nicht geknackt wird
P[X = 0] ≈ e−λ ≈ 0.49.
3.3
Die geometrische und die Exponentialverteilung
Man betrachte einen (unendlichen) p-Münzwurf X1 , X2 , ... Wir wissen zwar schon, dass die
Anzahl der Köpfe in den ersten n Würfen gerade B(n, p) verteilt ist, jedoch noch nicht,
wie lange man auf das erste Mal Kopf warten muss. Die Verteilung dieser Wartezeit ist die
geometrische Verteilung.
3.3
Die geometrische und die Exponentialverteilung
24
Definition 3.10 (Geometrische Verteilung). Sei p ∈ (0, 1) und X eine N-wertige Zufallsvariable mit
P[X = k] = (1 − p)k−1 p,
k = 1, 2, ...,
so heißt die Verteilung von X geometrische Verteilung zum Parameter p und wir schreiben
X ∼geo(p).
Proposition 3.11 (Eigenschaften der geometrischen Verteilung). Sei X ∼geo(p).
Dann ist
P[X > k] = (1 − p)k ,
1
E[X] = ,
p
1−p
V[X] =
.
p2
k = 1, 2, ...
Beweis. Zunächst ist
P[X > k] =
∞
X
x−1
(1 − p)
p=p
∞
X
x
(1 − p) = p(1 − p)
∞
X
(1 − p)x = (1 − p)k .
x=0
x=k
x=k+1
k
Für den Erwartungswert und die Varianz verwenden wir Lemma 2.10 und schreiben
E[X] =
∞
X
1
(1 − p)x = ,
p
x=0
∞
X
E[X(X − 1)] = 2
∞
x(1 − p)x = 2
x=0
1−pX
1−p
1−p
x(1 − p)x−1 p = 2
E[X] = 2 2 ,
p
p
p
x=0
Var[X] = E[X(X − 1)] + E[X] − E[X]2 = 2
1−p 1
1
1−p
+ − 2 =
.
2
p
p p
p2
Ist der Erfolgsparameter p einer geometrisch verteilten Zufallsvariable klein, so muss man recht
lange auf den ersten Erfolg warten. Dies lässt sich – übrigens ganz ähnlich wie in Beispiel 1.5
– zu einer Grenzwertaussage formalisieren.
Lemma 3.12 (Exponentialapproximation). Sei Xn ∼geo(pn ) für n = 1, 2, .... Dann gilt
für x ≥ 0
lim P[pn Xn > x] = e−x .
n→∞
Beweis. Wir schreiben einfach
n→∞
P[pn Xn > x] = P[Xn > x/pn ] = (1 − pn )x/pn −−−→ e−x .
Definition 3.13 (Exponentialverteilung). Sei λ ≥ 0 und X eine R+ -wertige Zufallsvariable mit Dichte
P[X ∈ dx] = λe−λx dx,
so heißt die Verteilung von X Exponentialverteilung zum Parameter λ und wir schreiben
X ∼Exp(λ).
3.4
Die Normalverteilung
25
Proposition 3.14 (Erwartungswert und Varianz der Exponentialverteilung). Für
λ > 0 sei X nach Exp(λ) verteilt. Dann gilt
1
,
λ
1
Var[X] = 2 .
λ
E[X] =
Beweis. Mittels partieller Integration gilt
Z ∞
Z ∞
∞
1
e−λx dx = ,
xe−λx dx = −xe−λx 0 +
E[X] = λ
λ
0
Z ∞
Z0 ∞
2
∞
2xe−λx dx = 2 ,
E[X 2 ] = λ
x2 e−λx dx = −x2 e−λx 0 +
λ
0
0
1
2
2
Var[X] = E[X ] − E[X] = 2 .
λ
3.4
Die Normalverteilung
Die Normalverteilung – besonders bekannt durch die Gauss’sche Glockenkurve – spielt in
statistischen Anwendungen eine große Rolle. Grund hierfür ist der zentrale Grenzwertsatz,
den wir in Proposition 4.3 und Bemerkung 4.5 kennen lernen werden. Es folgt zunächst nur
eine Definition.
Definition 3.15. Sei µ ∈ R, σ 2 > 0 und X eine reellwertige Zufallsvariable Z mit Dichte
P[X ∈ dx] = √
(x − µ)2 exp −
dx,
2σ 2
2πσ 2
1
(3.2)
so heißt die Verteilung von X Normalverteilung mit Parametern µ und σ 2 und wir schreiben
X ∼ N (µ, σ 2 ).
Bemerkung 3.16. Aus der Analysis bekannt ist
Z
x2 √
dx = 2π.
exp −
2
√
Damit zeigt man durch Substitution z = (x − µ)/ σ 2 leicht, dass es sich bei (3.2) um eine
Dichte handelt.
Proposition 3.17. Sei X ∼ N (µ, σ 2 ). Dann ist
X −µ
√
∼ N (0, 1)
σ2
und
E[X] = µ,
Var[X] = σ 2 .
3.5
Erzeugung von Zufallszahlen
26
Beweis. Für die erste Aussage schreiben wir mit Z ∼ N (0, 1)
Z x√σ2 +µ
(y − µ)2 X − µ
√
1
exp −
P √
≤ x = P X ≤ x σ2 + µ = √
dy
2σ 2
σ2
2πσ 2 0
Z x
z2
1
=√
e− 2 dz = P(Z ≤ x).
2π 0
Zunächst ist mit partieler Integration
Z ∞
x2 x2 ∞
= 0,
x exp −
dx = exp −
2
2 −∞
−∞
Z ∞
x2 x2 exp −
dx
2
−∞
Z ∞
x2 x2 ∞
√
exp −
= −x exp −
+
dx = 2π,
2 −∞
2
−∞
also E[Z] = 0, Var[Z] = 1. Daraus und aus der ersten Aussage folgt
hX − µi
√
√
+ µ = σ 2 E[Z] + µ = µ,
E[X] = σ 2 E √
σ2
hX − µi
Var[X] = σ 2 Var √
= σ 2 Var[Z] = σ 2 .
σ2
3.5
Erzeugung von Zufallszahlen
Will man ein stochastischen System numerisch untersuchen bieten sich mehrere Ansätze an.
Als Beispiel stelle man sich die (zufällige) Tiefe eines Baumes im Quicksort Algorithmus vor.
Die Verteilung dieser Tiefe ist schwer explizit zu bestimmen, jedoch kann man den QuicksortAlgorithmus (mit zufälliger Eingabesequenz) einfach simulieren, und damit auch die Verteilung der Tiefe des Baumes.
Um stochastische Systeme simulieren zu können, ist es notwendig Zufallsvariablen mit
bestimmten Verteilungen mittels Zufallsgeneratoren zu ziehen. Während wir hier nicht über
die Güte von Zufallsgeneratoren diskutieren wollen, stellen wir fest, dass diese meist uniform
auf [0, 1] verteilte Zufallszahlen liefern. Ausgehen von diesen kann man mittels des nächsten
Satzes nach beliebigen Verteilungen verteilte Zufallszahlen generieren. Eine Illustration hierzu
findet sich in Abbildung 3.1.
Theorem 3.18 (Simulationslemma). Sei X eine (diskrete oder stetige) reellwertige Zufallsvariable mit Verteilungsfunktion F . Wir definieren die Pseudoinverse von F für x ∈ [0, 1]
durch
F −1 (x) := inf{q : F (q) ≥ x}.
Dann ist F −1 (U ) genauso verteilt wie X.
Beweis. Wir verwenden, dass die Verteilungsfunktion F die Verteilung der Zufallsvariable X
eindeutig bestimmt. Da F nicht notwendigerweise injektiv ist, muss F −1 nicht die Umkehrfunktion von F sein. Es gilt jedoch wegen der Konstruktion F −1 (q) ≤ x genau dann, wenn
q ≤ F (x). Daraus folgt
P[F −1 (U ) ≤ q] = P[U ≤ F (q)] = F (q).
4
APPROXIMATIONSSÄTZE
27
1
P[X<x]
U
0
0
F−1(U)
1
x
Abbildung 3.1: Illustration zum Simulationslemma, Theorem 3.18.
Das bedeutet, dass F −1 (U ) die Verteilungsfunktion F hat, woraus die Aussage folgt.
Bemerkung 3.19 (Anwendung). Angenommen, von einer Verteilung ist die Verteilungsfunktion F (und damit die Pseudoinverse F −1 ) bekannt. Wir wollen unabhängige Zufallsvariablen X1 , X2 , ... nach dieser Verteilung erzeugen. Verwenden dürfen wir hierzu jedoch nur
die vom Computer bereit gestellten uniform verteilten Zufallsvariablen U1 , U2 , ... Das Simulationslemma besagt, dass in diesem Fall F −1 (U1 ), F −1 (U2 ), ... genau die gewünschte Verteilung
besitzen.
Bemerkung 3.20 (Alternativen). Während das Verfahren aus Theorem 3.18 allgemeingültig
ist, gibt es für spezielle Verteilungen schnellere Verfahren, Zufallszahlen zu erzeugen. Wir
erwähnen hier (ohne Beweis) nur eine, nämlich die Erzeugung normalverteilter Zufallszahlen.
Hierzu seien U1 , U2 zwei unabhängige Zufallszahlen. Setzt man nun
p
X := cos(2πU1 ) −2 log(U2 ),
so ist X ∼ N (0, 1).
4
Approximationssätze
Wir beschäftigen uns nun mit der Verteilung der Summe unabhängiger und identisch verteilter
Zufallsvariablen. Dies ist eine Situation, die in der Praxis häufig vorkommt, etwa wenn man die
Anzahl der Gewinne in einem Spiel zählt. Für unabhängige, identisch verteilte Zufallsvariable
X1 , X2 , ... sei nun Yn := X1 + ... + Xn . Selbst bei bekannter Verteilung der Xi ist meistens
die Verteilung von Y nicht bekannt. Allerdings gilt (falls Erwartungswert bzw. Varianz von
X1 existieren)
n
n
hX
i X
E[Yn ] = E
Xi =
E[Xi ] = nE[X1 ],
i=1
Var[Yn ] = Var
n
hX
i=1
i=1
i
Xi =
n
X
(4.1)
Var[Xi ] = nVar[X1 ].
i=1
Geht man also davon aus, dass die typische Schwankung der Zufallsvariable Yn in etwa ihrer
√
Standardabweichung entspricht, sieht man das n-Gesetz: Yn streut ihre Werte typischerweise
√
in einem Bereich der Größenordnung n.
4.1
4.1
Das schwache Gesetz der großen Zahlen
28
Das schwache Gesetz der großen Zahlen
Das schwache Gesetz der großen Zahlen ist eine Konvergenzaussage für den Mittelwert von unabhängigen,
identisch verteilten Zufallsgrößen. Als Beispiel betrachte man die relative HäufigP
keit n1 ni=1 Xi der Köpfe in einem p-Münzwurf X1 , X2 , ... Intuitiv klar ist, dass
n
1X
Xi ≈ p
n
i=1
gelten sollte. (Die relative Häufigkeit der Köpfe entspricht also in etwa der Wahrscheinlichkeit
Kopf zu werfen.) In welchem Sinne diese Konvergenz zu verstehen ist, werden wir hier zwar
nicht beleuchten können, das schwache Gesetz der großen Zahlen formalisiert diese Aussage
jedoch. Eine Illustration findet sich in Abbildung 4.1. Zunächst benötigen wir zwei wichtige
Ungleichungen.
Proposition 4.1 (Markov- und Tschebychev-Ungleichung). Sei X eine R+ -wertige
Zufallsvariable. Dann gilt für alle ε > 0 die Markov-Ungleichung
1
P[X ≥ ε] ≤ E[X].
ε
Existiert µ := E[X], so gilt außerdem für ε > 0 die Tschebychev-Ungleichung
P[|X − µ| ≥ ε] ≤
Var[X]
.
ε2
Beweis. Zum Beweis der Markov-Ungleichung bemerken wir X ≥ ε · 1X≥ε . Damit ist wegen
der Monotonie des Erwartungswertes
ε · P[X ≥ ε] = E[ε · 1X≥ε ] ≤ E[X].
Die Tschebychev-Ungleichung folgt nun aus der Markov-Ungleichung, wenn man die Zufallsvariable (X − µ)2 betrachtet.
Theorem 4.2 (Schwaches Gesetz großer Zahlen). Seien X1 , X2 , ... reellwertige, unabhängige, identisch verteilte Zufallsvariable mit endlichem Erwartungswert E[X1 ] = µ und
endlicher Varianz. Dann gilt für alle ε > 0
h X + · · · + X
i
1
n
lim P − µ ≥ ε = 0.
n→∞
n
Beweis. Der Beweis erfolgt mittels der Chebyshev-Ungleichung und (4.1), denn
h
h X + · · · + X
i Var n1 (X1 + · · · + Xn )]
Var[X1 ] n→∞
1
n
P − µ ≥ ε ≤
=
−−−→ 0.
n
ε2
nε
4.2
Der zentrale Grenzwertsatz und die Normalverteilung
29
Sn/n
1
p
0
1000
10000
Abbildung 4.1: Illustration zum Gesetz der großen Zahlen, Theorem 4.2.
4.2
Der zentrale Grenzwertsatz und die Normalverteilung
Während das Gesetz der großen Zahlen eine Aussage über die Konvergenz des Mittelwertes
von unabhängigen, identisch verteilten Zufallsvariablen X1 , X2 , ... gegen deren Erwartungswert trifft, beschäftigt sich der zentrale Grenzwertsatz mit den Schwankungen in dieser Konvergenz. Da Var[ n1 (X1 + · · · + Xn )] = VarX1 /n, eine typische Schwankung also von der
√
Größenordnung 1/ n ist, werden wir hier
1 Pn
i=1 Xi − E[Xi ]
n p
nVar[X1 ]
betrachten. Obwohl es möglich ist, ein allgemeines Resultat zu beweisen, beschränken wir uns
auf den Fall von B(1, p)-verteilten Zufallsgrößen X1 , X2 , ... und bemerken, dass X1 + · · · +
Xn ∼ B(n, p). Ohne Beweis werden wir außerdem die Stirling Formel zur Approximation von
Fakultäten,
n n √
n! ≈
2πn
e
verwenden. Hierbei bedeutet ≈, dass
n!
√
n n
2πn
e
n→∞
−−−→ 1.
Eine Illustration des Satzes findet sich in Abbildung 4.2.
Proposition 4.3 (Satz von deMoivre-Laplace). Sei Z eine N (0, 1) verteilte Zufallsvarian→∞
ble und X1 , X2 , ... eine Folge binomialverteilter Zufallsvariable mit Var[Xn ] −−−→ ∞. Dann
ist für −∞ ≤ c < d ≤ ∞
h
i
Xn − E[Xn ]
n→∞
P c≤ p
≤ d −−−→ P[c ≤ Z ≤ d].
Var[Xn ]
Der zentrale Grenzwertsatz und die Normalverteilung
30
P[
Xn−E[Xn
1
≤ x+ ], P[Z ≤ x]
2
Var[Xn]
4.2
x
Abbildung 4.2: Illustration zum Satz von deMoivre-Laplace, Proposition 4.3. Gezeigt sind
jeweils die Verteilungsfunktionen von N (0, 1) (die glatte Kurve) und eine Transformation
von B(100, 0.5).
Beweisskizze. Mit der Stirling-Formel und η(t) = t ln pt + (1 − t) ln 1−t
q ist
r
np k nq n−k
n k n−k
n
P[X = k] =
p q
≈
k
2πk(n − k) k
n−k
k 1
=q
exp − nη
n
2πn k n−k
n
n
1 k − np 2 1
≈q
exp −
,
√
2
npq
2πn nk n−k
n
1
da η(p) = η 0 (p) = 0, η 00 (p) = pq
mit einer Taylor-Entwicklung von η um p. Damit gilt für
2
√ 2n
µn = npn , σn = npn qn und zx,n = x−µ
σn
X
Xn − E[Xn ]
≤d =
P[Xn = k]
P c≤ p
Var[Xn ]
k:c≤zk,n ≤d
Z d
z2 X
z2
1
1
k,n
p
≈
exp −
≈√
e− 2 dz,
2
2π c
2πσn2
k:c≤z ≤d
k,n
wobei wir die letzte Summe als Riemannsumme interpretiert haben.
Bemerkung 4.4 (Anwendung). Sei X eine B(n, p) verteilte Zufallsgröße mit n groß, npq
groß, sowie c, d ∈ Z. Dann gilt
d
z2 X
1
k,n
√ exp −
(z 1 − z 1 )
k− 2 ,n
k+ 2 ,n
2
2π
k=c
Z zd+1/2,n
z2 d + 1 − np c − 1 − np 1
≈√
exp −
dz = Φ
−Φ
.
√2
√2
2
npq
npq
2π zc−1/2,n
P(c ≤ X ≤ d) ≈
Man beachte hierbei jeweils die Verschiebung um 12 in der Binomualverteilung. Mit ihr erreicht
man eine bessere Approximationsgüte. Diese Korrektur wurde etwa auch in Abbildung 4.2
angewandt.
5
MARKOV-KETTEN
31
Bemerkung 4.5 (Zentraler Grenzwertsatz). Allgemeiner als der Satz von deMoivreLaplace gilt auch der Zentraler Grenzwertsatz:
Seien X1 , X2 , ... reellwertige, unabhängige, identisch verteilte Zufallsvariablen mit endlichem
Erwartungswert E[X1 ] = µ und Varianz Var[X1 ] = σ 2 . Dann gilt für
Yn∗ :=
X1 + · · · + Xn − nµ
√
σ n
und alle −∞ ≤ c < d ≤ ∞
lim P[c ≤ Yn∗ ≤ d] = P[c ≤ Z ≤ d],
n→∞
wobei Z eine nach N (0, 1) verteilte Zufallsvariable ist.
5
Markov-Ketten
Wir betreten nun den Bereich der stochastischen Prozesse. Ein stochastischer Prozess ist hierbei eine Familie (Xt )t∈I von Zufallsvariablen mit Indexmenge I ⊆ R. Wir werden im Folgenden
die Index-Menge I = Z+ betrachten. Markov-Ketten zeichnen sich dadurch aus, dass Xt+1
nur von Xt abhängt (und nicht von den Zufallsvariablen X0 , ..., Xt−1 ). Diese Abhängigkeit
wird durch bedingte Wahrscheinlichkeiten beschrieben.
5.1
Bedingte Wahrscheinlichkeiten
Definition 5.1 (Bedingte Wahrscheinlichkeit). Seien X1 und X2 reellwertige Zufallsvariable mit Zielbereichen E1 und E2 .
1. Die bedingte Wahrscheinlichkeit von {X2 ∈ A2 }, gegeben {X1 ∈ A1 }, ist durch
P[X2 ∈ A2 |X1 ∈ A1 ] :=
P[X1 ∈ A1 , X2 ∈ A2 ]
P[X1 ∈ A1 ]
gegeben. Ist P[X1 ∈ A1 ] = 0, so definieren wir die rechte Seite als 0.
2. Die Abbildung A2 7→ P[X2 ∈ A2 |X1 ∈ A1 ] heißt die bedingte Verteilung von X2 ,
gegeben {X1 ∈ A1 }.
3. Ist X1 diskret, so ist die bedingte Verteilung von X2 gegeben X1 die Abbildung
(
E1 → [0; 1]
P[X2 ∈ A2 |X1 ] :
a1 7→ P[X2 ∈ A2 |X1 = a1 ].
Lemma 5.2 (Einfache Eigenschaften bedingter Wahrscheinlichkeiten). Seien X1 und
X2 Zufallsvariable mit Zielbereichen E1 und E2 und A1 ⊆ E1 , A2 ⊆ E2 .
1. Es gilt
P[X2 ∈ A2 |X1 ∈ A1 ] =
X
a2 ∈A2
P[X2 = a2 |X1 ∈ A1 ].
5.1
Bedingte Wahrscheinlichkeiten
32
2. Die Zufallsvariablen X1 und X2 sind genau dann unabhängig, wenn
P[X2 ∈ A2 |X1 ∈ A1 ] = P[X2 ∈ A2 ]
für alle A1 , A2 gilt. Ist X1 diskret, so ist dies genau dann der Fall, wenn
P[X2 ∈ A2 |X1 ] = P[X2 ∈ A2 ]
für alle A2 gilt.
Beweis. Beide Eigenschaften folgen aus der Definition der bedingten Wahrscheinlichkeit.
Beispiel 5.3 (Gedächtnislosigkeit der geometrischen Verteilung). Sei X ∼ geo(p).
Dann gilt
P[X > i + j|X > i] = P[X > j].
Dies interpretiert man so: Man führt unabhängige Experimente mit Erfolgswahrscheinlichkeit
p hintereinander durch. Wenn i Versuche erfolglos verliefen, ist die Wahrscheinlichkeit für
mindestend weitere j erfolglose Versuche genauso groß wie am Anfang.
Denn: Mit q = 1 − p schreiben wir
P[X > i + j, X > i]
q i+j
= i = qj
P[X > i]
q
= P[X > j].
P[X > i + j|X > i] =
Eine analoge Aussage gilt übrigens auch für Exponentialverteilungen.
Theorem 5.4 (Formel für die totalen Wahrscheinlichkeit und Bayes’sche Formel).
Seien X1 , X2 diskrete Zufallsvariable mit Zielbereichen E1 und E2 . Dann gilt die Formel von
der totalen Wahrscheinlichkeit
X
P[X2 ∈ A2 ] =
P[X2 ∈ A2 |X1 = a1 ] · P[X1 = a1 ].
a1
für A2 ⊆ E2 . Weiter gilt die Bayes’sche Formel für A1 ⊆ E1 mit P[X1 ∈ A1 ] > 0
P[X2 ∈ A2 |X1 ∈ A1 ] · P[X1 ∈ A1 ]
P[X1 ∈ A1 |X2 ∈ A2 ] = P
.
a1 P[X2 ∈ A2 |X1 = a1 ] · P[X1 = a1 ]
Beweis. Die Formel von der totalen Wahrscheinlichkeit ergibt sich durch Einsetzen der Definition von P[X2 ∈ A2 |X1 = a1 ] in
X
P[X2 ∈ A2 ] =
P[X2 ∈ A2 , X1 = a1 ].
a1
In der Bayes’schen Formel ist der Zähler der rechten Seite gleich P[X1 ∈ A1 , X2 ∈ A2 ] nach
der Definition der bedingten Wahrscheinlichkeit, und der Nenner ist
X
X
P[X2 ∈ A2 |X1 = a1 ] · P[X1 = a1 ] =
P[X2 ∈ A2 , X1 = a1 ] = P[X2 ∈ A2 ].
a1
a1
5.2
Grundlegendes zu Markov-Ketten
33
...
...... ...........
......
......
......
......
......
......
.
.
.
.
.
......
.
......
......
......
......
.
.
.
.
.
......
....
.
.
......
.
.
.
......
....
.
.
.
.
.
......
....
.
.
......
.
.
.
......
....
.
.
.
.
.
......
....
.
.
......
.
.
.
......
....
.
.
.
.
.
......
....
.
.
......
.
.
.
......
....
.
.
.
.
.
......
....
.
.
......
.
.
.
......
....
.
.
.
.
.
......
....
.
.
......
.
.
.
......
....
.
.
.
.
.
......
......
.
.
.
.
.
......
.
.... .........
.
.
...... ............
.
.
.
......
......
......
....
.
.
.
.
.
.
.
.
.
.
.
.
.
.
......
......
....
....
.
.
.
.
......
.
.
.
.
.
.
.
.
.
......
.
.
......
......
......
......
......
......
......
......
.
.
.
.
......
.
.
.
.
.
.
......
......
....
....
.
.
.
.
.
.
.
.
.
.
.
.
.
......
......
....
....
.
.
.
.
......
.
.
.
.
.
.
.
.
.
......
......
....
....
.
.
.
.
.
.
.
.
.
.
.
.
.
......
.....
.....
.....
krank
nicht krank
0.008
0.9
0.992
0.1
positiv
0.07
negativ
krank
positiv
krank
negativ
positiv
nicht krank
positiv
0.93
negativ
nicht krank
negativ
0.008 · 0.9
0.008 · 0.1
0.992 · 0.07
0.992 · 0.93
Abbildung 5.1: Ein Wahrscheinlichkeitsbaum für das Beispiel 5.5.
Beispiel 5.5 (Reihenuntersuchungen). In einer Reihenuntersuchung werden Personen auf
eine bestimmte Krankheit getestet. Dabei kann es fälschlicherweise vorkommen, dass gesunde
Personen durch den Test als krank eingestuft werden, oder dass kranke Personen nicht als
solche erkannt werden.
In einer Population sind insgesamt 0.8% der Personen erkrankt. Eine kranke Person wird in
90% der Fälle positiv getestet (der Test fällt also positiv aus), eine gesunde Person mit 7%.
Wie groß ist die Wahrscheinlichkeit, dass eine positiv getestete Person wirklich krank ist?
Um dies zu beantworten, setzen wir X = 1 wenn die Person erkrankt ist (sonst X = 0)
und Y = 1 wenn die Person positiv getestet wird (sonst Y = 0). Die genannten Angaben
übersetzen wir zu
P[X = 1] = 0.008,
P[Y = 1|X = 1] = 0.9,
P[Y = 1|X = 0] = 0.07.
Mit der Formel von Bayes ergibt sich für die Wahrscheinlichkeit, dass eine positiv getestete
Person wirklich erkrankt ist
P[Y = 1|X = 1] · P[X = 1]
P[Y = 1|X = 1] · P[X = 1] + P[Y = 1|X = 0] · P[X = 0]
0.9 · 0.008
=
≈ 0.0939
0.9 · 0.008 + 0.07 · 0.992
P[X = 1|Y = 1] =
Ein positiver Test ist also nicht unbedingt ein sicheres Zeichen dafür, ob eine Person erkrankt
ist.
Bemerkung 5.6 (Wahrscheinlichkeitsbäume). Bedingte Wahrscheinlichkeiten kann man
durch Wahrscheinlichkeitsbäume darstellen. Siehe Abbildung 5.1.
5.2
Grundlegendes zu Markov-Ketten
Eine besondere Form der Abhängigkeit von Zufallsvariablen tritt in Markov-Ketten zu Tage.
Hier werden der Reihe nach Zufallsvariablen X0 , X1 , . . . realisiert, und zwar so, dass Xt+1 nur
von Xt abhängt. Man sagt auch, Xt+1 ist unabhängig von X1 , . . . , Xt−1 , wenn Xt bekannt
ist. Diese Form der Abhängigkeit wird häufig zur stochastischen Modellierung verwendet.
5.2
Grundlegendes zu Markov-Ketten
34
Beispielsweise könnte X0 , X1 , . . . der Preis einer Aktie an Tagen 0, 1, . . . sein. Die MarkovEigenschaft besagt in diesem Fall, dass die Verteilung der Kursänderungen am Tag t + 1 nur
davon abhängt, wie der Kurs Xt am Tag t war.
Wir beginnen mit der Definition von Markov-Ketten. Wir werden vor allem den Fall von
homogenen Markov-Ketten behandeln. Bei solchen gibt es eine sich zeitlich nicht ändernde stochastische Übergangsvorschrift, wie die Verteilung des Zustandes Xt+1 ist, wenn der
Zustand Xt der Kette zur Zeit t bekannt ist. Diese Vorschrift wird mit Hilfe einer Matrix
zusammengefasst, der Übergangsmatrix.
Definition 5.7 (Stochastischer Prozess und Markov-Ketten).
1. Seien I und E
Mengen. Ein (E-wertiger) stochastischer Prozess (mit Indexmenge I) ist eine Familie von Zufallsvariablen X = (Xt )t∈I mit Wertebereich E. Die Menge E heißt auch
Zustandsraum von X und I seine Indexmenge.
2. Sei I = {0, 1, 2, . . . }, E abzählbar und X = (Xt )t∈I ein E-wertiger stochastischer Prozess. Falls
P[Xt+1 = i | X0 , . . . , Xt ] = P[Xt+1 = i | Xt ]
(5.1)
für alle i ∈ E, so heißt X eine Markov-Kette. Sie heißt endlich, falls E endlich ist.
3. Sei X = (Xt )t∈I eine E-wertige Markov-Kette. Existiert eine Matrix P = (Pij )i,j∈E mit
Pij := P[Xt+1 = j | Xt = i]
(unabhängig von t), so heißt X zeitlich homogen und P heißt Übergangsmatrix von X .
Bemerkung 5.8 (Interpretation).
1. Die Eigenschaft (5.1) bedeutet in Worten: die
zukünftige Entwicklung von X nach t hängt von X1 , . . . , Xt nur durch den aktuellen
Zustand Xt ab.
2. Sei P die Übergangsmatrix einer homogenen Markov-Kette X mit Zustandsraum E.
Dann gilt
0 ≤ Pij ≤ 1,
i, j ∈ E,
X
(5.2)
Pij = 1,
i ∈ E.
j∈E
Die erste Eigenschaft ist klar, da die Einträge in P Wahrscheinlichkeiten sind. Außerdem
ist
X
X
1 = P[Xt+1 ∈ E | Xt = i] =
P[Xt+1 = j | Xt = i] =
Pij .
j∈E
j∈E
Matrizen P mit den Eigenschaften (5.2) heißen stochastische Matrizen.
3. Sei X eine homogene Markov-Kette mit Übergangsmatrix P . Definiere einen gewichteten, gerichteten Graphen (E, K, W ) wie folgt: die Menge der Knoten ist E, die Menge
der (gerichteten) Kanten ist K := {(i, j) : Pij > 0}. Das Gewicht der Kante (ij) ist
w(ij) := Pij und W = (w(ij) )(ij)∈K . Der Graph (E, K, W ) heißt Übergangsgraph von X .
5.2
Grundlegendes zu Markov-Ketten
35
Beispiel 5.9 (Irrfahrt im Dreieck). Betrachte eine homogene Markov-Kette X mit Zustandsraum {1, 2, 3} und Übergangsmatrix


0 p q


P = q 0 p
(5.3)
p q 0
für p ∈ (0, 1) und q := 1 − p. Die Kette X veranschaulicht man sich am besten anhand des
Übergangsgraphen; siehe Abbildung 5.2. In jedem Zustand 1, 2, 3 ist die Wahrscheinlichkeit,
im Uhrzeigersinn zu wandern p, und die Wahrscheinlichkeit gegen den Uhrzeigersinn zu gehen
ist q.
2
p
p
q
q
1
q
3
p
Abbildung 5.2: Übergangsgraph der Markov-Kette aus Beispiel 5.9.
Beispiel 5.10 (Ruinproblem). Betrachte folgendes Ruinproblem: zwei Spieler spielen gegeneinander. Spieler 1 startet mit n Euro, Spieler 2 mit N − n Euro. Bei jedem Spiel gewinnt
Spieler 1 mit Wahrscheinlichkeit p einen Euro, mit Wahrscheinlichkeit q = 1 − p verliert er
einen Euro. Das Spiel endet, wenn einer der beiden pleite ist.
Sei Xt das Vermögen von Spieler 1 nach dem t-ten Spiel. In dieser Situation ist X =
(Xt )t=0,1,2,... eine endliche, homogene Markov-Kette mit Zustandsraum {0, . . . , N } und Übergangsmatrix


1 0
q 0 p




 q 0
p


P =
.
.
.
.
.
.
.

.
.
. 



q
0 p
0 1
Der Übergangsgraph ist in Abbildung 5.3 dargestellt. Klar ist, dass nach langer Zeit entweder
t→∞
t→∞
Spieler 1 oder Spieler 2 gewonnen hat, dass also Xt −−−→ 0 oder Xt −−−→ N . Die Frage ist
nur:
Mit welcher Wahrscheinlichkeit gewinnt Spieler 1?
5.2
Grundlegendes zu Markov-Ketten
1
36
p
p
q
N−1
2
1
0
1
N
q
Abbildung 5.3: Übergangsgraph der Markov-Kette aus Beispiel 5.10.
Wir bezeichnen mit
t→∞
pn := P[Xt −−−→ N | X0 = n]
die Wahrscheinlichkeit, dass Spieler 1 gewinnt. Wir werden zeigen, dass
n

,
p = q = 12 ,

N
pn =

1 − (q/p)n


, sonst.
1 − (q/p)N
(5.4)
Zunächst gilt für n = 1, . . . , N − 1
t→∞
t→∞
pn = q · P[Xt −−−→ N | X0 = n, X1 = n − 1] + p · P[Xt −−−→ N | X0 = n, X1 = n + 1]
t→∞
t→∞
= q · P[Xt −−−→ N | X0 = n − 1] + p · P[Xt −−−→ N | X0 = n + 1]
= q · pn−1 + p · pn+1 ,
also mit ∆pn := pn − pn−1
q∆pn = p∆pn+1 .
Im Fall p = q =
1
2
folgt mit
PN
m=1 ∆pm
= pN − p0 = 1 daraus bereits
Pn
pn = Pm=1
N
∆pm
m=1 ∆pm
Im Fall p 6= q setzen wir u :=
q
p
=
n∆p1
n
= .
N ∆p1
N
und berechnen iterativ
∆pn = u∆pn−1 = u2 ∆pn−2 · · · = un−1 ∆p1 = un−1 p1 .
Weiter ist
1=
N
X
∆pm = p1
m=1
N
−1
X
m=0
um = p1
1 − uN
.
1−u
Also
pn =
n
X
∆pm = p1
m=1
und die Behauptung ist gezeigt.
n
X
m=1
um−1 =
1 − u 1 − un
1 − un
=
1 − uN 1 − u
1 − uN
5.2
Grundlegendes zu Markov-Ketten
37
Beispiel 5.11 (Ehrenfest’sche Urne). Betrachte folgendes Urnenmodell: In einer Urne
gibt es zwei durch eine Trennwand getrennte Kammern. Insgesamt liegen n Kugeln in den
beiden Kammern. Wir ziehen eine Kugel rein zufällig aus der Urne und legen sie anschließend
in die andere Kammer zurück. In Abbildung 5.4 findet sich eine Illustration.
Wir betrachten den {0, . . . , n}-wertigen stochastischen Prozess X = (Xt )t=0,1,2,... , wobei
Xt die Anzahl der Kugeln in der linken Kammer nach dem t-Schritt darstellt. Dann ist X
eine homogene Markov-Kette, denn der Ausgang des Schrittes t + 1 hängt nur von Xt ab. Die
Übergansmatrix von X ist gegeben durch

i

j = i − 1,
n,
n−i
Pij =
(5.5)
n , j = i + 1,


0,
sonst.
●
●
●
●
●
●
●
●
●
●
Abbildung 5.4: Die Ehrenfest’sche Urne mit n = 10 Kugeln aus Beispiel 5.11. Im nächsten
4
Schritt wird mit Wahrscheinlichkeit 10
eine Kugel von der linken Kammer in die rechte und
6
mit Wahrscheinlichkeit 10 von der rechten in die linke Kammer gelegt.
Wir kommen nun zu einem wichtigen Zusammenhang zwischen der Verteilung einer MarkovKetten zum Zeitpunkt t und Potenzen der Übergangsmatrix.
Theorem 5.12. Sei X = (Xt )t=0,1,2,... eine homogene Markov-Kette mit Übergangsmatrix P
und µ(t) = (µ(t) (i))i∈E ,
µ(t) (i) = P[Xt = i]
für t = 0, 1, 2, . . . Dann gilt
µ(t) = µ(0) P t ,
(5.6)
für t = 0, 1, 2, . . . , wobei die rechte Seite als Multiplikation des Zeilenvektors µ(0) und der
Matrix P t = |P ·{z
· · P} zu verstehen ist.
t mal
Beweis. Der Beweis geht mittels Induktion über t. Für t = 0 ist die Aussage klar. Ist (5.6)
für t gezeigt, so gilt
X
µ(t+1) (j) = P[Xt+1 = j] =
P[Xt+1 = j | Xt = i] · P[Xt = i]
i∈E
=
X
i∈E
(t)
µ (i) · Pij =
X
i∈E
(µ(0) P t )i · Pij = (µ(0) P t+1 )j .
5.3
Stationäre Verteilungen
38
Beispiel 5.13 (Irrfahrt im Dreieck). Betrachte die Markov-Kette X aus Beispiel 5.9 und
Übergangsmatrix P aus (5.3). Sei X0 = 1, die Markov-Kette startet also in 1, d.h. µ(0) =
(1, 0, 0). Weiter berechnen wir

0 p q
2pq
q2
p2

P 2 =  p2
2pq

q2 
q2
p2
2pq



P = q 0 p,

p q 0

und damit
µ(2) = (2pq, q 2 , p2 ).
Also ist etwa P[X2 = 1] = 2pq. Dies ist klar, weil X2 = 1 genau dann, wenn die ersten
beiden Schritte im Übergangsgraphen aus Abbildung 5.2 einmal mit und einmal entgegen
dem Uhrzeigersinn gingen. Es ist X2 = 3 genau dann, wenn zwei Schritte im Uhrzeigersinn
realisiert wurden, was Wahrscheinlichkeit p2 hat.
5.3
Stationäre Verteilungen
Wir beginnen nun, uns für Markov-Ketten zu interessieren, die schon lange gelaufen sind,
also für Xt mit großem t. Solche Markov-Ketten können (mehr dazu im nächsten Abschnitt)
so beschaffen sein, dass sich die Verteilung nicht mehr viel ändert. Verteilungen auf dem
Zustandsraum E, die invariant sind gegenüber Schritten der Markov-Kette heißen stationär.
Definition 5.14 (Stationäre Verteilung). Sei X eine homogene Markov-Kette mit Übergangsmatrix P und π eine Verteilung auf E, gegeben durch einen Vektor π = (πi )i∈E .
1. Gilt
πP = π,
so heißt π stationäre Verteilung von X .
2. Gilt
πi Pij = πj Pji
für alle i, j, so heißt π reversible Verteilung.
Bemerkung 5.15 (Interpretation von reversiblen Verteilungen). Sei π reversibel,
P[Xt = i] = πi und it , . . . , it+s ∈ E. Dann gilt
P[Xt = it , . . . , Xt+s = it+s ] = πit Pit ,it+1 · · · Pit+s−1 ,it+s
= πit+1 Pit+1 ,it+2 · · · Pit+s−1 ,it+s · Pit+1 ,it = · · ·
= πit+s Pit+s ,it+s−1 · · · Pit+1 ,it
= P[Xt = it+s , . . . , Xt+s = it ].
Das bedeutet, dass die Wahrscheinlichkeit, die Zustände it , . . . , it+s zu durchlaufen, dieselbe
ist wie die, die Zustände in umgekehrter Reihenfolge (reversibel) zu durchlaufen.
Lemma 5.16 (Einfache Eigenschaften stationärer Verteilungen). Sei X = (Xt )t∈I
eine E-wertige Markov-Kette mit Übergangsmatrix P und π eine Verteilung auf E.
5.3
Stationäre Verteilungen
39
1. Sei π stationär und P[Xt = i] = πi . Dann gilt, dass
P[Xt+1 = j] = P[Xt = j].
Das bedeutet, dass Xt und Xt+1 (und damit auch Xt+2 , Xt+3 , . . . ) identisch verteilt sind.
2. Ist π reversibel, dann ist π auch stationär.
Beweis. 1. Wir verwenden Theorem 6.9 und schreiben
X
X
P[Xt+1 = j] =
P[Xt = i] · P[Xt+1 = j | Xt = i] =
πi Pij = (πP )j = πj
i∈E
i∈E
= P[Xt = j].
2. Ist π reversibel, so gilt
(πP )j =
X
πi Pij =
i∈E
X
πj Pji = πj ,
i∈E
da P Zeilensumme 1 hat.
Beispiel 5.17 (Irrfahrt im Dreieck). Betrachte die Irrfahrt
auf dem Dreieck X aus Beispiel
5.9 mit Übergangsmatrix P aus (5.3). Für π = 13 , 13 , 13 ist

πP =
1 1 1
3, 3, 3
0 p q



 q 0 p  = π.
p q 0
Damit ist die Gleichverteilung auf {1, 2, 3} stationäre Verteilung von X . Allerdings ist π nicht
reversibel (außer für p = 12 ), denn es gilt etwa
π1 P12 = 13 p 6= 13 q = π2 P21 .
Letztere Beobachtung ist nicht erstaunlich: Sei etwa p > 12 . Dann erwarten wir, dass X das
Dreieck öfter im Uhrzeigersinn durchläuft als umgekehrt. Wäre nun π reversibel, würde daraus
folgen (siehe Bemerkung 5.15) , dass die Wahrscheinlichkeit für einen Durchlauf des Dreiecks
gegen und im Uhrzeigersinn dieselbe ist.
Beispiel 5.18 (Ruinproblem). Im Ruinproblem aus Beispiel 5.10 gibt es zwar stationäre Verteilungen, diese sind jedoch nicht sonderlich interessant. Jede Verteilung π =
(p0 , 0, . . . , 0, q 0 ) mit p0 ∈ (0, 1) und q 0 = 1 − p0 ist stationäre (aber nicht reversible) Verteilung, wie man leicht nachrechnet. Insbesondere sind (1, 0, . . . , 0) und (0, . . . , 0, 1) stationär.
Das bedeutet, dass die Zustände Xt = 0 und Xt = n von der Markov-Kette nicht mehr
verlassen werden. Man sagt auch, 0 und n sind Fallen für X .
Beispiel 5.19 (Ehrenfest’sche Urne). Sei X = (Xt )t=0,1,2,... die Anzahl der Kugeln in der
linken Kammer einer Ehrenfest’schen Urne, wie in Beispiel 5.11. Hier ist die Binomialverteilung π = B(n, 12 ) reversible Verteilung für X . Es gilt nämlich mit (5.5) für i = 1, . . . , n
n 1 i
n
1 n−i+1
πi Pi,i−1 =
=
= πi−1 Pi−1,i .
n
i 2 n
i − 1 2n
n
5.3
Stationäre Verteilungen
40
Die Tatsache, dass B(n, p) stationär ist, interpretiert man am besten so: nach langer Zeit
ist jede der Kugeln oft von der linken in die rechte Kammer und umgelegt worden, so dass
jede Kugel mit Wahrscheinlichkeit 21 jeweils in der linken und rechten Kammer liegt. Diese
Verteilung ändert sich nicht mehr, weil in jedem Schritt nur eine der n Kugeln nochmals in
die andere Kammer gelegt wird.
Wir geben nun noch – ohne Beweis – den wichtigen Markov-Ketten-Konvergenzsatz an. Dieser
stellt Bedingungen auf, wann eine Markov-Kette eine eindeutige stationäre Vertreilung besitzt.
t→∞
Konvergenz der Markov-Kette X = (Xt )t∈I bedeutet dabei, dass P[Xt = i] −−−→ π(i) für
diese stationäre Verteilung π gilt, unabhängig von der Verteilung von X0 . Um den Satz zu
formulieren, benötigen wir noch eine Definition.
Definition 5.20 (Irreduzibilität, Aperiodizität). Sei X eine E-wertige homogene MarkovKette.
1. Der Zustand i ∈ E kommuniziert mit j ∈ E, falls es ein t gibt mit
P[Xt = j | X0 = i] > 0.
In diesem Fall schreiben wir i → j. Falls i → j und j → i, schreiben wir i ↔ j.
2. Falls i ↔ j für alle i, j ∈ E, so heißt X irreduzibel. Andernfalls heißt X reduzibel.
3. Ein Zustand i ∈ E heißt aperiodisch, falls
d(i) := ggT{t : P[Xt = i | X0 = i] > 0} = 1.
Andernfalls heißt i periodisch mit Periode d(i).
4. Falls alle i ∈ E aperiodisch sind, so heißt X aperiodisch.
Bemerkung 5.21 (Irreduzibilität, Aperiodizität und die Übergangsmatrix).
1. Die Begriffe der Irreduzibilität und Aperiodizität lassen sich auch mittels der Übergangsmatrix P der Markov-Kette X erklären. Es gilt etwa i → j genau dann, wenn es
ein t gibt mit (P t )ij > 0. Außerdem ist d(i) = ggT{t : Piit > 0}.
2. Es gibt einen einfachen Zusammenhang zwischen dem Begriff der kommunizierenden
Zustände und dem Übergangsgraphen: ein Zustand i kommuniziert mit einem Zustand
j, wenn man einen Pfad i → j im Übergangsgraphen der Markov-Kette findet. Das
bedeutet, dass es eine endliche Folge (i, i1 ), (i1 , i2 ), . . . , (in−1 , in ), (in , j) im Übergangsgraphen gibt, also der Zustand j von i aus durch eine endliche Folge von Kanten erreicht
werden kann.
3. Sei X eine reduzible Markov-Kette. Der Begriff der Reduzibilität erklärt sich so, dass
sich die Markov-Kette X auf einen Zustandsraum E 0 ⊆ E reduzieren lässt. Das bedeutet,
dass aus X0 ∈ E 0 folgt, dass Xt ∈ E 0 für alle t = 1, 2, . . .
Beispiel 5.22 (Irrfahrt auf dem Dreieck). Sei X die Irrfahrt auf dem Dreieck aus Beispiel
5.9. In Beispiel 5.13 haben wir ausgerechnet, dass P 2 > 0 ist. Weiter ist auch P 3 > 0, was
bereits zeigt, dass X sowohl irreduzibel als auch aperiodisch ist.
5.3
Stationäre Verteilungen
41
Beispiel 5.23 (Ruinproblem). Für die Markov-Kette X aus dem Ruinproblem, Beispiel
5.10, gilt sicher, dass 0 6→ i für i = 1, . . . , N , und N 6→ i für i = 0, . . . , N − 1. Mit anderen
Worten: Ist Spieler 1 pleite (d.h. Xt = 0 für ein t), so wird er nach den Spielregeln nie wieder
Geld bekommen, d.h. alle Zustände 1, . . . , n sind für ihn unerreichbar. Das bedeutet also, X
ist reduzibel.
Beispiel 5.24 (Ehrenfest’sche Urne). Die Markov-Kette X , die die Anzahl der Kugeln
in der linken Kammer einer Ehrenfest’schen Urne beschreibt, ist irreduzibel. Betrachtet man
nämlich Zustände i, j, etwa mit i > j, so genügt es ja, genau i − j Kugeln nacheinander von
der linken in die rechte Kammer zu legen. Allerdings ist die Markov-Kette periodisch. Sei etwa
X0 = 2i gerade, dann folgt, dass X1 ungerade (entweder 2i − 1 oder 2i + 1) ist. Damit kann
nur zu geraden Zeiten t der Zustand Xt = 2i eintreten und es ist ggT{t : P(Xt = 2i|X0 =
2i)} = 2.
Nun kommen wir also zum Markov-Ketten-Konvergenzsatz.
Theorem 5.25 (Markov-Ketten-Konvergenzsatz). Sei X = (Xt )t=0,1,2,... eine endliche,
homogene, irreduzible und aperiodische Markov-Kette. Dann hat X genau eine stationäre
Verteilung π und es gilt für alle i ∈ E
t→∞
P[Xt = i] −−−→ π(i).
(5.7)
Beweis. Der Beweis findet sich in allen gängigen Lehrbüchern, in denen Markov-Ketten behandelt werden.
Bemerkung 5.26. Vor allem ist an dem Resultat bemerkenswert, dass (5.7) nicht von der
Verteilung von X0 abhängt. Das bedeutet, dass die Markov-Kette nach langer Zeit vergisst,
in welchem Zustand X0 sie zur Zeit 0 gestartet ist.
Beispiel 5.27 (Irrfahrt auf dem Dreieck). Von unseren drei Beispielen erfüllt (nur) die
Irrfahrt auf dem Dreieck X aus Beispiel 5.9 die Voraussetzungen des Satzes. Nach Beispiel 5.22
ist X irreduzibel und aperiodisch. Nach Beispiel 5.17 und obigem Satz ist die Gleichverteilung
auf {1, 2, 3} die einzige stationäre Verteilung für X . Außerdem gilt
t→∞
P[Xt = i] −−−→ 31 .
Beispiel 5.28 (Ruinproblem). Für die Markov-Kette X aus dem Ruinproblem, Beispiel
5.10, gibt es stationäre Verteilungen π, nämlich solche mit π(0) + π(N ) = 1. (Bei solchen ist
einer der beiden Spielern pleite.) Offenbar gilt auch
lim P[Xt = N |X0 = n] = pn
t→∞
mit pn aus (5.4). Das bedeutet, dass die (Verteilung der) Markov-Kette konvergiert, die Grenzverteilung aber vom Startwert (hier X0 = n) abhängt. Dies ist im Einklang mit Theorem 5.25,
da X nicht irreduzibel ist.
Beispiel 5.29 (Ehrenfest’sche Urne). Die Markov-Kette X , die die Anzahl der Kugeln
in der linken Kammer einer Ehrenfest’schen Urne beschreibt, ist periodisch, und damit ist
Theorem 5.25 nicht anwendbar. Ist etwa X0 = 2n gerade, so ist X2t auch gerade, also
P[X2t gerade|X0 = 2n] = 1, aber P[X2t gerade|X0 = 2n + 1] = 0. Insbesondere existiert
der Grenzwert von P[Xt = k||X0 = n] nicht.
6
STATISTIK
6
42
Statistik
Es ist nicht übertrieben zu behaupten, dass in der heutigen Welt immer mehr Daten jeglicher
Art erhoben werden. Diese zu ordnen und aus Daten Schlussfolgerungen zu ziehen ist Aufgabe
der Statistik.
Man teilt dabei diese Aufgaben in zwei Gebiete auf. Die deskriptive Statistik dient rein der
Beschreibung der Daten, etwa durch geeignete Wahl von Statistiken, die die Daten zusammenfassen. Anders ist dies bei der hier behandelten schließenden oder induktiven Statistik.
Die Aufgabe ist hier, mit Hilfe von stochastischen Modellen Aussagen darüber zu treffen,
welchen Annahmen den Daten zugrunde liegen könnten.
6.1
Grundlagen
Wir beginnen mit einem Beispiel.
Beispiel 6.1 (Erfolgswahrscheinlichkeit beim Münzwurf ).
Bevor wir statistische Konzepte einführen, betrachten wir folgendes Beispiel: eine Münze wird
100 mal geworfen. Dabei ist die Wahrscheinlichkeit für Kopf (was wir im Folgenden als Erfolg
werten wollen) noch unbekannt. Von den 100 Würfen sind 59 ein Erfolg.
Unsere statistischen Überlegungen gehen nun von der Vorstellung aus, dass die 100
Münzwürfe die Realisierung einer Zufallsvariable X = (X1 , . . . , X100 ) sind, wobei X1 , . . . , X100
unabhängig und identisch verteilt sind mit
(
1, falls der i-te Wurf Kopf zeigt,
Xi =
0, sonst.
und es gilt
P[Xi = 1] = p.
Jetzt ist X1 +· · ·+Xn die Gesamtzahl der Erfolge. Als Summe von n unabhängigen Bernoulliverteilten Zufallsvariablen ist diese Summe B(n = 100, p)-verteilt. Wichtig ist, dass zwar
n = 100 bereits fest steht (schließlich wissen wir ja, dass wir 100 mal die Münze geworfen
haben), nicht jedoch p. In dieser Situation gibt es zwei statistische Probleme.
• Schätzproblem: Wir können versuchen, den Erfolgsparameter p zu schätzen. Wir werden hierzu aus den Daten (59 Erfolge aus 100 Versuchen) einen Wert pb ableiten
(Punktschätzer ). Alternativ kann man auch ein Intervall [a, b] angeben, in dem der wahre Parameter p mit hoher Wahrscheinlichkeit liegt (Intervallschätzer ). Hierauf werden
wir allerdings nicht näher eingehen.
• Testproblem: Stellen wir uns vor, der Werfer der Münze behauptet, dass die Münze fair
ist, also p = 21 gilt. Dieser Meinung können wir skeptisch gegenüber stehen, da ja sogar
59 aus 100 Würfen ein Erfolg waren. Wir können versuchen, die Hypothese p = 21 zu
testen. Das bedeutet, dass wir untersuchen, wie gut die Hypothese mit den Daten in
Einklang steht.
Wie im Beispiel gesehen besteht ein statistisches Experiment aus einer (oder mehreren) Zufallsvariablen (etwa die Anzahl der Erfolge) und verschiedenen (möglichen) Verteilungen der
Zufallsvariable; hier B(n = 100, p) für variierendes p. Dies führt zur Definition des statistischen Modells. Siehe auch Abbildung 6.1.
6.2
Schätzprobleme
43
X
.................................................................
..........
.........
........
.......
.................................................
...........
.............. ............
........
.........
......
.
.
.
.
.......
.
.
......
....
.
.....
.
.
......
.
.....
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........
........
...
.....
.
.....
.
.
.
.......
.
.
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
........
....
....
.
.
.......
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.....
.
.
.
.
.
..............................................................................
.......................................................................................................................................................................................
..
...
.
.
.
.
....
...
..
..
..
......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...........
.............
.
...
..
...........................
.
.......................
.....
.
.
...
......
.
.
.
.
.......
..
.........
.......
.............
.........
...........................................................
Θ
m
Θ0
h
E
Abbildung 6.1: Veranschaulichung von statistischen Modellen
Definition 6.2 (Statistisches Modell). Seien E, Θ, Θ0 Mengen. Ein statistisches Modell
ist ein Paar (X, (Pϑ )ϑ∈Θ ), wobei X eine Zufallsvariable mit Zielbereich E ist, bei deren Verteilung noch ein Parameter ϑ ∈ Θ frei, also unbestimmt, ist. Das bedeutet, dass es eine Funktion
ϑ 7→ ρϑ gibt mit1
Pϑ [X ∈ da] = ρϑ (a)da.
Die Menge Θ heißt Parameterraum, die Menge E Beobachtungsraum. Jedes Zufallsvariable
h(X) mit h : E → Θ0 heißt Statistik.
Beispiel 6.3 (Erfolgswahrscheinlichkeit beim Münzwurf ). In Beispiel 6.4 ist einfach
X die Anzahl der Erolge und Pp := B(n = 100, p) (wobei wir ϑ durch p ersetzt haben).
6.2
Schätzprobleme
Ein Schätzproblem ist das Folgende: Gegeben sei eine Funktion m : Θ → Θ0 (was meist die
Identität und Θ = Θ0 ist). Bestimme eine Funktion h : E → Θ0 , so dass h(X) den Wert von
m(ϑ) (möglichst gut) schätzt. Interessant hierbei ist, was es denn überhaupt bedeutet, guter
Schätzer zu sein.
Beispiel 6.4 (Erfolgswahrscheinlichkeit beim Münzwurf ). In der Situation aus Beispiel
6.1 heißt der freie Parameter p anstatt ϑ. Es ist E = {0, . . . , 100} und X die Anzahl der Erfolge
in n = 100 Versuche. Damit ist Pp = B(n = 100, p) mit dem freien Parameter p ∈ Θ = [0, 1].
Es ist mit Θ0 = Θ
(
E → Θ,
h:
1
x 7→ 100
x.
und pb = h(X) ist ein Schätzer für p. (Im Folgenden werden wir einen Schätzer für einen
Parameter • meistens mit b
• bezeichnen.) Für unser Datenbeispiel ist also
pb =
1
59
(X1 + · · · + Xn ) =
= 0.59.
n
100
1
Wir wollen im Folgenden die dauernde Unterscheidung zwischen diskreten Zufallsvariablen und Zufallsvariablen mit Dichten durch die Notation P[X ∈ da] vermeiden. Ist der Wertebereich E von X diskret und
a ∈ E, ist damit
P[X ∈ da] := P[X = a]
gemeint. Hat X die Dichte f (a)da, ist
P[X ∈ da] := f (a)da.
6.2
Schätzprobleme
44
Da pb von den Daten abhängt, die wir uns als Realisierung von einer Zufallsvariable gedacht
haben, ist pb also auch eine Zufallsvariable. Warum ist der Schätzer pb gut? Nehmen wir an,
wir wüssten den wahren Parameter p. Dann leistet pb zumindest im Mittel das gewünschte:
(Wir schreiben hier und im Folgenden Pp [·] und Ep [·], wenn wir Wahrscheinlichkeiten und
Erwartungswerte unter der Hypothese ausrechnen wollen, dass p der wahre Parameter ist.)
Ep [b
p] =
1
Ep [X1 + · · · + Xn ] = p.
n
Wir sagen auch, der Schätzer pb ist erwartungstreu (oder unverzerrt oder unbiased).
Eine weitere wünschenwerte Eigenschaft eines Schätzers ist, dass er immer besser wird,
je größer die zu Grunde liegende Datenmenge ist. Eine große Datengrundlage bedeutet in
unserem Fall, dass die Münze oft geworfen wurde, also n groß ist. Aus dem schwachen Gesetz
großer Zahlen wissen wir, dass
i
h X + · · · + X
n→∞
1
n
− Ep [X1 ] ≥ ε −−−→ 0
Pp [|b
p − p| ≥ ε] = Pp n
für alle ε > 0. Die Eigenschaft, dass pb mit hoher Wahrscheinlichkeit immer näher am wahren
Wert p liegt, wenn mehr Daten zur Verfügung stehen, nennen wir Konsistenz.
Definition 6.5 (Punktschätzer, unverzerrte und konsistente Schätzer).
1. Sei (X, (Pϑ )ϑ∈Θ ) ein statistisches Modell und m : Θ → Θ0 . Jede Statistik m
b := m(X)
b
0
mit m
b : E → Θ heißt (Punkt-)Schätzer für m(ϑ).
Der Schätzer m
b heißt unverzerrt (erwartungstreu, unbiased), falls
Eϑ [m]
b = m(ϑ)
für alle ϑ ∈ Θ.
2. Sei (X n , (Pnϑ )ϑ∈Θ )n=1,2,... eine Folge statistischer Modelle mit derselben Parametermenge Θ und m
b 1 (X 1 ), m
b 2 (X 2 ), . . . eine Folge von Schätzern für m(ϑ). Die Folge
1
2
m
b 1 (X ), m
b 2 (X ), . . . heißt konsistent, falls
n→∞
Pnϑ [|m
b n (X n ) − m(ϑ)| ≥ ε] −−−→ 0
für alle ε > 0, ϑ ∈ Θ.
3. Sei (X, (Pϑ )ϑ∈Θ ) ein statistisches Modell. Die Abbildung
(
E × Θ → [0, 1]
L:
(a, ϑ) 7→ Pϑ [X ∈ da]
heißt Likelihood-Funktion. Für eine Abbildung h : E 7→ Θ mit
L(a, h(a)) = max L(a, ϑ)
ϑ∈Θ
heißt ϑbM L = h(X) Maximum-Likelihood-Schätzer von ϑ.
Schätzprobleme
45
0.00
0.05
L(a,p)
0.10
0.15
6.2
0.0
0.2
23
53
0.6
0.8
1.0
p
Abbildung 6.2: Die Likelihood-Funktion beim Münzwurf für X = 23 aus Beispiel 6.7.
Bemerkung 6.6 (Interpretation von Maximum-Likelihood-Schätzern). Sei X diskret
und X = a. Da die Vorstellung die ist, dass die erhobenen Daten Ergebnis eines Zufallsexperiments (d.h. die Realisierung einer Zufallsvariable X) sind, sagt man auch, dass die Daten
X = a sind. Ein Maximum-Likelihood-Schätzer ist also ein Parameter ϑ, unter dem die
Wahrscheinlichkeit, die Daten X = a zu beobachten – das ist Pϑ [X = a] – maximal ist.
Beispiel 6.7 (Erfolgswahrscheinlichkeit beim Münzwurf ). Betrachten wir also wieder
das Beispiel der Schätzung der Erfolgswahrscheinlichkeit beim Münzwurf. Wir hatten X = 59
Erfolge bei n = 100 Erfolgen verzeichnet. Unter Pp ist X nach B(n = 100, p) verteilt, also ist
n X
L(X, p) =
p (1 − p)n−X .
X
die Likelihood-Funktion; siehe auch Abbildung 6.2. Um diese für gegebenes X zu maximieren,
berechnen wir den Wert p, für den log L(X, p) maximal ist. Die Bestimmung des Maximums
der log-Likelihood-Funktion log L(a, p) genügt, da log eine streng monotone Funktion ist. Wir
berechnen
∂ log L(X, p)
∂
n−X
n
X
=
log
+ X log p + (n − X) log(1 − p) =
−
.
∂p
∂p
X
p
1−p
Am Maximum pbM L muss
∂ log L(X,p)
∂p
= 0 sein, also ist
X
n
ein Maximum-Likelihood-Schätzer für p. Da es nur ein einziges Maximum der Likelihood gibt,
ist dies auch der einzige Maximum-Likelihood-Schätzer.
(1 − pbM L )X = pbM L (n − X),
pbM L =
Soeben haben wir gesehen, dass der Maximum-Likelihood-Schätzer für eine Summe von Zufallsvariablen (was der Anzahl an Erfolgen im Münzwurf entspricht) gerade durch den Mittelwert gegeben ist. Die Verwendung des Mittelwertes für eine solche Schätzung ist generell
eine gute Idee, wie wir nun zeigen werden.
6.2
Schätzprobleme
46
Definition 6.8 (Mittelwert und empirische Varianz). Sei X = (X1 , . . . , Xn ) ein Vektor
von Zufallsvariablen. Dann heißt
X := n1 (X1 + · · · + Xn )
Mittelwert von X und
s2 (X) :=
1
n−1
n
X
(Xi − X)2
i=1
empirische Varianz von X.
Theorem 6.9 (Mittelwert und empirische Varianz als Schätzer).
Sei (X = (X1 , · · · , Xn ), (Pϑ )ϑ∈Θ ) ein statistisches Modell, so dass X1 , . . . , Xn unter allen Pϑ
identisch verteilt sind und µϑ := Eϑ [X1 ] existiert.
1. Es ist X ein unverzerrter Schätzer für µϑ . Sind außerdem X1 , . . . , Xn unter allen Pϑ
unabhängig mit endlichem Vϑ [X1 ], so ist X auch konsistent.
2. Sei n ≥ 2 und X = (X1 , · · · , Xn ) so, dass X1 , . . . , Xn unter allen Pϑ paarweise unkorreliert und identisch verteilt sind mit σϑ2 := Vϑ [X1 ] < ∞. Dann ist die empirische
Varianz s2 (X) ein unverzerrter Schätzer für σϑ2 .
Beweis. 1. Zunächst ist
Eϑ [X] = n1 (Eϑ [X1 ] + · · · + Eϑ [Xn ]) = Eϑ [X1 ] = µϑ ,
was bereits die Unverzerrtheit von X als Schätzer von µϑ zeigt. Für die Konsistenz berechnen
wir für ε > 0
n→∞
X1 + · · · + Xn
Pϑ [|X − µϑ | ≥ ε] = Pϑ − Eϑ [X1 ] ≥ ε −−−→ 0
n
nach dem schwachen Gesetz der großen Zahlen.
2. Wir schreiben zunächst
Eϑ [s2 (X)] =
1
n−1
n
X
2
Eϑ [Xi2 − 2Xi X + X ] =
2
n
n−1 Eϑ [X1
i=1
Nun ist
Eϑ [X12 ] = µ2ϑ + σϑ2 ,
Eϑ [X1 X] = µ2ϑ + n1 σϑ2 ,
2
Eϑ [X ] = Eϑ [X1 X],
also
Eϑ [s2 (X)] =
was die Unverzerrtheit bereits zeigt.
2
n
n−1 Eϑ [X1
− X1 X] = σϑ2 ,
2
− 2X1 X + X ].
6.2
Schätzprobleme
47
Beispiel 6.10 (Erfolgswahrscheinlichkeit beim Münzwurf ). Betrachten wir noch einmal das einführende Beispiel der Schätzung des Erfolgsparameters in einem Münzwurf in
n Versuchen. Wir wählen dazu die Notation aus den Beispielen 6.1 und 6.4. Der Schätzer
pb = h(X) ist unverzerrt und konsistent, wie wir soeben gezeigt haben.
Ein weiterer Schätzer für p wäre pb0 = X1 . Das bedeutet, dass pb0 nur die beiden Werte, 0
und 1 annehmen kann, und genau dann 1 ist, wenn der erste Wurf einen Erfolg zeigt. Der
Schätzer pb0 ist ebenfalls erwartungstreu, denn
Ep [b
p0 ] = Ep [X1 ] = p.
Allerdings ist pb0 nicht konsistent, da
Pp (|b
p0 − p| > ε) = 1,
falls ε < min(p, 1 − p), unabhängig von n.
Beispiel
6.11
(Maximum-Likelihood-Schätzer
bei
Normalverteilungen).
Wir betrachten den Fall einer unabhängigen, normalverteilten Stichprobe. Sei also
(X, (P(µ,σ2 ) )µ∈R,σ2 ∈R+ ) so, dass X = (X1 , . . . , Xn ) und X1 , . . . , Xn unter P(µ,σ2 ) unabhängig
und identisch nach N (µ, σ 2 ) verteilt sind.
Wir berechnen nun die Maximum-Likelihood-Schätzer für µ und σ 2 . Genau wir im letzten
Beispiel berechnen wir zunächst die log-Likelihood-Funktion
n
X
1
(Xi − µ)2 2
log L((X1 , . . . , Xn ), (µ, σ )) = log
exp −
2σ 2
(2πσ 2 )n/2
= −n log σ −
n
X
i=1
i=1
2
µ)
(Xi −
2σ 2
+ C,
wobei C weder von µ noch von σ abhängt. Ableiten nach µ und σ ergibt
n
∂ log L((X1 , . . . , Xn ), (µ, σ 2 )) X Xi − µ
=
,
∂µ
σ2
i=1
∂ log L((X1 , . . . , Xn
∂σ
), (µ, σ 2 ))
n
=−
n X (Xi − µ)2
.
+
σ
σ3
i=1
2
Für die Maximum-Likelihood-Schätzer µ
bM L und σ
bM
L gilt notwendigerweise
n
X
n
σ
bM L
−
(Xi − µ
bM L ) = 0,
i=1
n
X
i=1
(Xi − µ
bM L )2
= 0.
3
σ
bM
L
Die Maximum-Likelihood-Schätzer sind also gegeben durch
n
µ
bM L
1X
Xi = X,
=
n
2
σ
bM
L
n
1X
n−1 2
=
(Xi − X)2 =
s (X).
n
n
i=1
i=1
6.3
Testprobleme
48
Insbesondere sehen wir, dass X nicht nur erwartungstreu und konsistent (siehe Theorem
6.9) ist, sondern auch ein Maximum-Likelihood-Schätzer für µ. Allerdings ist der MaximumLikelihood-Schätzer für σ 2 nicht erwartungstreu, wie man aus Theorem 6.9 abliest. Immerhin
n→∞
2
2
2
ist σ
bM
bM
L für große n annähernd erwartungstreu, da σ
L − s (X) −−−→ 0.
6.3
Testprobleme
Ein Testproblem ist das Folgende: Sei Θ0 ⊂ Θ. Kann die Hypothese ϑ ∈ Θ0 auf Grundlage
der Daten verworfen werden?
Beispiel 6.12 (Erfolgswahrscheinlichkeit beim Münzwurf ). Nehmen wir an, der Werfer der Münze behauptet, sie sei fair, also p = 12 . Es ist also Θ0 = { 12 }. Können wir diese
Hypothese aufgrund der Daten verwerfen? Zunächst stellen wir fest, dass wir prinzipiell zwei
Arten von Fehlern mit unserer Entscheidung machen können. Wenn wir die Hypothese verwerfen, könnte sie doch wahr sein, und wenn wir die Hypothese nicht verwerfen, könnte sie
doch richtig sein.
Da wir nicht grundlos dem Werfer der Münze widersprechen wollen, wollen wir die Wahrscheinlichkeit, dass wir die Hypothese ablehnen (wir dem Werfer der Münze widersprechen),
obwohl sie wahr ist (die Hypothese des Werfers richtig ist), kontrollieren. Das bedeutet, dass
Pp=1/2 (Hypothese verwerfen) ≤ α
für ein anfangs gewähltes α ∈ (0, 1) sein soll. Klar ist, dass damit die Hypothese umso
seltener abgelehnt werden kann, je kleiner α ist. Nun kommen wir zu der Regel, mit der wir
die Hypothese ablehnen wollen. In unserem Beispiel haben wir für die Hypothese p = 12 zu
viele (59 von 100) Erfolge. Wir würden die Hypothese ablehnen wollen, wenn
Pp=1/2 (Daten mindestens so extrem wie tatsächliche Daten) ≤ α.
(6.1)
Wir wählen α = 5 %. Für X ∼ B(n = 100, p = 21 ) verteilt, erwarten wir 50 Erfolge. Um die
Wahrscheinlichkeit einer Abweichung, die größer ist als die der Daten zu berechnen, betrachten
wir eine nach N (0, 1) verteilte Zufallsvariable Z und berechnen
Pp=1/2 |X1 + · · · + Xn − 50| ≥ 9
9
Yn − np
9
= 1 − Pp=1/2 − p
<p
<p
np(1 − p)
np(1 − p)
np(1 − p)
≈ 1 − Pp=1/2 (−1.8 ≤ Z ≤ 0.1.8 ≈ 7.19 %
Da dieser Wert größer als α = 5 % ist, kann die Hypothese nicht verworfen werden, siehe
(6.1).
Wir beginnen mit der Einführung wichtiger Begriffe wie Teststatistik, Nullhypothese, Alternative, Ablehnungsbereich, Signifikanzniveau und p-Wert.
Definition 6.13 (Statistischer Test). Sei (X, (Pϑ )ϑ∈Θ ) ein statistisches Modell, E der
Zielbereich von X, und Θ0 , ΘA ⊆ Θ disjunkt mit Θ0 ∪ ΘA = Θ.
1. Ein Paar (Y, C) mit Y = t(X) für t : E → E 0 und C ⊆ E 0 heißt statistischer Test von
H0 : ϑ ∈ Θ0 gegen HA : ϑ ∈ ΘA .
6.3
Testprobleme
49
Hier heißt Y Teststatistik, C kritischer oder Ablehnungsbereich des Tests, H0 heißt
Nullhypothese und HA heißt Alternativhypothese. Man sagt, der Test (Y, C) hat (Signifikanz)Niveau α ∈ [0, 1], falls
sup Pϑ (Y ∈ C) ≤ α.
ϑ∈Θ0
Falls Y ∈ C, sagt man, dass H0 abgelehnt (und damit HA angenommen) ist. Falls
Y ∈
/ C, sagt man, dass H0 nicht abgelehnt ist (und HA abgelehnt ist).
Sei nun (Y, C) ein Test der Nullhypothese H0 gegen HA .
2. Die Hypothese H : ϑ ∈ ΘH (die entweder H0 oder HA sein kann) heißt einfach wenn
ΘH = {ϑ∗ } für ein ϑ∗ ∈ Θ. Andernfalls heißt H zusammengesetzt.
3. Ist Θ = (ϑ, ϑ) ein Intervall (wobei ϑ = −∞ und ϑ = ∞ zugelassen sind und die
Intervalle auch abgeschlossen sein können), so heißt der Test (Y, C) einseitig, falls ΘH =
(ϑ, ϑ∗ ) oder ΘH = (ϑ∗ , ϑ). Falls ΘH = (ϑ+ , ϑ∗ ) mit ϑ < ϑ+ ≤ ϑ∗ < ϑ, so heißt der Test
(Y, C) zweiseitig.
4. Der Test (Y, C) heißt unverfälscht, falls
Pϑ0 (Y ∈ C) ≤ PϑA (Y ∈ C)
für alle ϑ0 ∈ Θ0 , ϑA ∈ ΘA gilt.
Bemerkung 6.14 (Interpretation und Fehler eines Tests).
1. Einen statistischen Test hat man sich am besten so vorzustellen (siehe auch das nächste
Beispiel): die Daten sind gegeben durch die Zufallsvariable X. Diese Daten fasst man
durch die meist reellwertige Funktion t zusammen zur Teststatistik Y = t(X). Die Daten können entweder nach Pϑ mit ϑ ∈ Θ0 (d.h. die Nullhypothese ist richtig) oder mit
ϑ ∈ ΘA (d.h. die Alternativhypothese ist richtig) verteilt sein. Ziel ist es, die Nullhypothese genau dann (anhand der Daten X) abzulehnen, wenn HA richtig ist. Der
Ablehnungsbereich C ist so gewählt, dass H0 genau dann abgelehnt wird, wenn Y ∈ C.
Dabei können zwei verschiedene Arten von Fehler auftreten; siehe auch Tabelle 6.1.
H0 abgelehnt
H0 nicht abgelehnt
H0 richtig
Fehler erster Art
richtige Entscheidung
H0 falsch
richtige Entscheidung
Fehler zweiter Art
Tabelle 6.1: Die möglichen Fehler eines statistischen Tests.
Gehen wir zunächst davon aus, dass ϑ ∈ Θ0 . Hat der Test ein Niveau α, so wissen wir,
dass Pϑ (Y ∈ C) ≤ α. Da H0 genau dann abgelehnt wird, wenn Y ∈ C, wissen wir
also, dass die Nullhypothese höchstens mit Wahrscheinlichkeit α abgelehnt wird, wenn
sie zutrifft. Damit hat man also die Wahrscheinlichkeit, die Nullhypothese abzulehnen,
falls sie zutrifft, durch α beschränkt. Falls Y ∈ C, aber ϑ ∈ Θ0 , die Nullyhpothese also
irrtümlicherweise verworfen wird, sprechen wir über einen Fehler erster Art (dessen
Wahrscheinlichkeit durch α kontrolliert wird).
6.3
Testprobleme
50
Geht man davon aus, dass ϑ ∈ ΘA , liegt eine Fehlentscheidung genau dann vor, wenn
Y ∈
/ C, die Nullhypothese also nicht abgelehnt wird. In diesem Fall sprechen wir von
einem Fehler zweiter Art. Das Niveau des Tests liefert keinen Anhaltspunkt dafür, mit
welcher Wahrscheinlichkeit ein solcher Fehler auftritt.
2. Auf den ersten Blick besteht eine scheinbare Symmetrie zwischen H0 und HA . Schließlich
lehnen wir H0 genau dann ab (und nehmen HA an), wenn Y ∈ C und wir lehnen H0 nicht
ab (und lehnen damit HA ab) wenn Y ∈
/ C. Allerdings wird diese Symmetrie durch das
Niveau des Tests gebrochen. Weiß man, dass (Y, C) ein Test zum Niveau α ist, bedeutet
das, dass die Wahrscheinlichkeit, die Nullhypothese H0 abzulehnen, obwohl sie wahr ist,
höchstens α ist. Mit anderen Worten ist die Wahrscheinlichkeit für einen Fehler erster
Art höchstens α. Allerdings hat man keine Kontrolle über den Fehler zweiter Art.
Wegen dieser Asymmetrie ist in der Praxis die Nullhypothese genau so zu wählen, dass
eine Ablehnung der Nullhypothese möglichst sicher auf die Richtigkeit der Alternativhypothese zurückzuführen ist. Wir betrachten das Beispiel der Münzwürfe aus Beispiel 6.1.
Bevor wir die Daten des Experimentes erhoben haben, haben wir die Vorstellung, dass
der Würfel gezinkt sein könnte. Außerdem legen wir ein Signifikanzniveau α fest (was
in der Praxis oft α = 5 % ist). Um unsere Vorstellung über die Münze zu überprüfen,
testen wir
H0 : die Münze ist nicht gezinkt, p =
1
2
gegen
HA : die Münze ist gezinkt, p 6= 12 .
Kommt es nämlich jetzt zu einer Ablehnung von H0 , so wissen wir, dass dies mit Wahrscheinlichkeit höchstens α dann passiert, wenn H0 wahr ist, die Münze also nicht gezinkt
ist. Damit können wir uns relativ sicher sein, dass die Ablehnung der Nullhypothese darauf zurückzuführen ist, dass HA zutrifft. Damit ist unsere Vorstellung, dass die Münze
gezinkt ist, bei Ablehnung der Nullhypothese höchstwahrscheinlich bestätigt.
3. Die Forderung von unverfälschten Tests ist klar zu verstehen: Da wir H0 dann ablehnen,
wenn Y ∈ C, soll zumindest die Wahrscheinlichkeit, dass H0 abgelehnt wird, unter PϑA ,
ϑA ∈ ΘA größer sein als für Pϑ0 , ϑ0 ∈ Θ0 .
Bemerkung 6.15 (p-Werte und alternative Definition eines Tests).
1. Sei Y = y, d.h. dass die Teststatistik Y , angewendet auf die echten Daten, ergibt y.
Dann heißt der Wert
py := sup Pϑ (Y mindestens so extrem wie y)
ϑ∈Θ0
p-Wert des Tests für Y = y. Dabei hängt die Bedeutung davon, was ’extrem’ heißt davon
ab, was genau die Alternative ist. (Dies ist oftmals in konkreten Beispielen einfach zu
verstehen, siehe etwa den Binomialtest, Abbildung 6.3.) Immer gilt jedoch py ≤ py0 ,
falls y mindestens so extrem wie y 0 ist. Es ist wichtig zu beachten, dass es dadurch
einen engen Zusammenhang zwischen dem Niveau α des Tests und dem p-Wert gibt.
Ist nämlich (Y, C) ein Test zum Niveau α und
C = {y : y mindestens so extrem wie y0 }
6.3
Testprobleme
51
für ein y0 , so wird H0 genau dann abgelehnt, wenn
α ≥ sup Pϑ (Y mindestens so extrem wie y0 ) = py0 .
ϑ∈Θ0
Ist Y = y und gilt py ≤ py0 , so wird H0 also abgelehnt. Es genügt also, für einen
Test zum Niveau α und Y = y den Wert py zu bestimmen. Ist py ≤ α, so wird H0
abgelehnt. Dieses Vorgehen wird bei vielen Statistik-Programmen angewendet, bei denen
ausschließlich p-Werte ausgegeben werden. Dabei muss man meist angeben, was genau
die Alternative ist (einseitig oder zweiseitig), damit das Programm weiß, in welche
Richtungen Abweichungen als extrem zu betrachten sind.
Wir formalisieren nun noch das Eingangsbeispiel 6.1, was uns zum Binomialtest führt.
Proposition 6.16 (Binomialtest). Sei α ∈ [0, 1], n ∈ N und (X, (Pp )p∈[0,1] ) ein statistisches
Modell, so dass X unter Pp nach B(n, p) verteilt ist.
(a) Ist Θ0 = p∗ , ΘA = Θ \ Θ0 , so ist (X, {0, . . . , k} ∪ {l, . . . , n}) ein unverfälschter Test zum
Niveau α, falls
Pp∗ (X ≤ k) ≤ α/2,
Pp∗ (X ≥ l) ≤ α/2.
(b) Ist Θ0 = [0, p∗ ], ΘA = Θ \ Θ0 , so ist (X, {k, . . . , n}) ein unverfälschter Test zum Niveau
α, falls
Pp∗ (X ≥ k) ≤ α.
(c) Ist Θ0 = [p∗ , 1], ΘA = Θ \ Θ0 , so ist (X, {0, . . . , k}) ein unverfälschter Test zum Niveau
α, falls
Pp∗ (X ≤ k) ≤ α.
Beweis. Wir beweisen nur (c), die anderen beiden Aussagen folgen analog. Klar ist, dass der
Test unverfälscht ist. Es ist außerdem
sup Pp (X ∈ {0, . . . , k}) = Pp∗ (X ≤ k) ≤ α
p∈Θ0
nach Voraussetzung. Also folgt bereits die Aussage.
Beispiel 6.17 (Binomialtest). Sei α = 5 %, n = 100 und (X, (Pp )p∈[0,1] ) wie in der Proposition. Wir wollen nun
H0 : p = 1/2 gegen HA : p 6= 1/2
testen, wenn wir in 100 Versuchen 59 Erfolge erzielt haben. Nach Proposition 6.16 ist der
kritische Bereich von der Form {0, . . . , k} ∪ {l, . . . , 100}. Es ist
Pp=1/2 (X ≤ 40) + Pp=1/2 (X ≥ 60) ≈ 5.69 %.
Da 40 < 59 < 60, liegt 59 nicht im Ablehnungsbereich von H0 . Damit kann die Nullhypothese
aufgrund der Daten (X = 59) nicht abgelehnt werden. Auf dasselbe Ergebnis kommt man
mit Hilfe des p-Wertes. Es ist
Pp=1/2 (X mindestens so extrem wie 59) = Pp=1/2 (X ≤ 41) + Pp=1/2 (X ≥ 59) ≈ 8.86 %.
Da dieser Wert größer als α = 5 % ist, kann man die Nullhypothese nicht ablehnen.
6.3
Testprobleme
52
Der Binomialtest
überprüft, ob bestimmte Erfolgswahrscheinlichkeiten einer Binomialverteilung angenommen
werden.
Statistisches Modell
X unter Pp nach B(n, p) verteilt
Hypothesen
(a) H0 : p ∈ {p∗ }
gegen HA : p ∈
/ {p∗ }
(b) H0 : p ∈ [0, p∗ ]
gegen
HA : p ∈ (p∗ , 1]
(c) H0 : p ∈ [p∗ , 1]
gegen
HA : p ∈ [0, p∗ )
Teststatistik
X unter Pp verteilt nach B(n, p)
Ablehnungsbereich
(a) {0, . . . , k, l, . . . , n} mit Pp∗ (X ≤ k), Pp∗ (X ≥ l) ≤ α/2,
(b) {l, . . . , n} mit Pp∗ (X ≥ l) ≤ α
(c) {0, . . . , k} mit Pp∗ (X ≤ k) ≤ α,
p-Wert, falls X = x
(a) Pp∗ (X ≤ x ∧ (2p∗ n − x)) + Pp∗ (X ≥ x ∨ (2p∗ n − x))
(b) Pp∗ (X ≥ x)
(c) Pp∗ (X ≤ x)
Abbildung 6.3: Schematische Darstellung des Binomialtests aus Proposition 6.16
Wie behandeln nun noch einen Test der auf normalverteilten Daten beruht. Um die Verteilung
der Teststatistik anzugeben, benötigen wir hierfür eine Definition.
Definition 6.18 (Student-t-Verteilung). Sei n > 1 und X = (X1 , ..., Xn ) unabhängig und
nach N (0, 1) verteilt, sowie X̄ der Mittelwert und s2 (X) die empirische Varianz. Dann heißt
die Verteilung von
X
T := p
2
s (X)/n
(Student-)t-Verteilung mit n − 1 Freiheitsgraden. Diese bezeichnen wir auch mit t(n).
Bemerkung 6.19 (Transformation von N (µ, σ 2 )-verteilten Zufallsvariablen). Sei n >
1 und X = (X1 , ..., Xn ) unabhängig und nach N (µ, σ 2 ) verteilt. Man überlegt sich leicht, dass
dann Y1 , ..., Yn mit Yi := X√i −µ
∼ N (0, 1). Deswegen gilt in dieser Situation, dass
2
σ
Y
X −µ
p
=p
∼ t(n − 1).
2
s (Y )
s2 (X)
Proposition 6.20 (Einfacher t-Test).
Sei α ∈ [0, 1], µ∗ ∈ R und (X = (X1 , . . . , Xn ), (Pµ,σ2 )µ∈R,σ2 ∈R+ ) ein statistisches Modell, so
6.3
Testprobleme
53
dass X1 , . . . , Xn unter Pµ,σ2 unabhängig und nach N (µ, σ 2 ) verteilt sind. Weiter sei
X − µ∗
T := p
.
s2 (X)/n
und tn,p für p ∈ [0, 1] das p-Quantil von t(n).
(a) Ist Θ0 = {µ∗ } × R+ , ΘA = Θ \ Θ0 , so ist (T, (−∞, tn−1,α/2 ) ∪ (tn−1,1−α/2 , ∞)) ein
unverfälschter Test zum Niveau α.
(b) Ist Θ0 = (−∞, µ∗ ] × R+ , ΘA = Θ \ Θ0 , so ist (T, [tn−1,1−α , ∞)) ein unverfälschter Test
zum Niveau α.
(c) Ist Θ0 = [µ∗ , ∞) × R+ , ΘA = Θ \ Θ0 , so ist (T, (−∞, tn−1,α ]) ein unverfälschter Test
zum Niveau α.
Beweis. Wieder beweisen wir nur (c), da die anderen beiden Aussagen analog folgen. Klar
ist, dass der Test unverfälscht ist. Nach Definition der t-Verteilung folgt, dass T unter Pµ∗ ,σ2
nach t(n − 1) verteilt ist. Damit gilt
sup Pµ,σ2 (T ≤ tn−1,α ) = Pµ∗ ,σ2 (T ≤ tn−1,α ) = α,
µ≥µ∗
woraus die Behauptung sofort folgt.
Beispiel 6.21 (Normalverteilte Schlafdauern). Wir untersuchen ein Beispiel aus der Medizin. Ein Medikament wir daraufhin untersucht, ob es den Schlaf von Probanden verlängert.
Dazu wird jeweils die Schlafdauerdifferenz bei zehn Patienten notiert. Man erhält
1.9, 0.8, 1.1, 0.1, −0.1, 4.4, 5.5, 1.6, 4.6, 3.4.
Diese Beobachtungen betrachten wir als Realisierungen von Zufallsvariablen X1 , . . . , X10 , die
nach N (µ, σ 2 ) verteilt sind, wobei weder µ noch σ 2 bekannt sind. Wir berechnen
X = 2.33,
s2 (X) = 4.01.
T = 2.33/
p
4.01/10 ≈ 3.68.
Damit ist
Testet man also
H0 : Eµ,σ2 [Y − X] = 0 gegen Eµ,σ2 [Y − X] 6= 0,
auf dem Niveau 5 %, so ist dessen Ablehnungsbereich C = (−∞, −2.262) ∪ (2.262, ∞). Da
3.68 ∈ C, kann man H0 auf dem Niveau 5 % verwerfen. Das bedeutet, dass vermutlich eine
Veränderung der Schlafdauer durch Einnahme des Medikamentes stattfand.
Bemerkung 6.22 (Kontingenztabellen und Unabhängigkeitstests). Wir kommen nun
zum letzten hier behandelten Test, Fisher’s exaktem Test. Gegeben seien Items mit zwei
Merkmalen. (Beispielsweise Pflanzenblätter, die sowohl eine Farbe als auch eine bestimmte
Form haben.) Solche Daten lassen sich in einer Kontingenztafel zusammenfassen; siehe unten.
Falls beide Merkmale genau zwei verschiedene Möglichkeiten haben, lässt sich mit Hilfe des
exakten Tests von Fisher bestimmen, ob beide Ausprägungen unabhängig sind.
6.3
Testprobleme
54
Der einfache t-Test
überprüft, ob der Erwartungswert einer Normalverteilung (oder irgendeiner Verteilung bei
approximativ unendlich großer Samplegröße) gleich einer vorgegebenen Größe µ∗ ist, wenn
die Varianz unbekannt ist.
Statistisches Modell
X = (X1 , . . . , Xn ) und X1 , . . . , Xn unter Pµ,σ2 unabhängig und
nach N (µ, σ 2 ) verteilt
Hypothesen
(a) H0 : µ ∈ {µ∗ }
gegen
(b) H0 : µ ∈ (−∞, µ∗ ]
(c) H0 : µ ∈ [µ∗ , ∞)
HA : µ ∈
/ {µ∗ }
gegen
gegen
HA : µ ∈ (µ∗ , ∞)
HA : µ ∈ (−∞, µ∗ )
Teststatistik
X − µ∗
T =p
unter Pµ∗ ,σ2 verteilt nach t(n − 1)
s2 (X)/n
Ablehnungsbereich
(a) (−∞, tn−1,α/2 ) ∪ (tn−1,1−α/2 , ∞),
(b) (tn−1,1−α , ∞)
(c) (−∞, tn−1,α )
p-Wert, falls T = t
(a) 2(1 − P[T ≤ |t|]), wenn T nach t(n − 1) verteilt ist
(b) P[T ≥ t]
(c) P[T ≤ t]
Abbildung 6.4: Schematische Darstellung des einfachen t-Tests aus Proposition 6.20
6.3
Testprobleme
55
Merkmal 2,
Möglichkeit 1
Merkmal 2
Möglichkeit 2
P
Merkmal 1, Möglichkeit 1
S11
S12
S1•
Merkmal 1, Möglichkeit 2
P
S21
S22
S2•
S•1
S•2
S
Proposition 6.23 (Fisher’s exakter Test). Sei α ∈ [0, 1], I, J endliche Mengen mit
|I| = |J | = 2 und
Θ = {p = (pij )i∈I,j∈J Verteilungsgewichte einer Verteilung auf I × J }.
Weiter sei ((X, Y ) = ((X1 , Y1 ), . . . , (Xn , Yn )), (Pp )p∈Θ ) ein statistisches Modell, so dass
(X1 , Y1 ), . . . , (Xn , Yn ) unter Pp unabhängig und nach p verteilt sind (d.h. P(Xk = i, Yk =
j) = pij ). Setze für i ∈ I, j ∈ J
Sij := |{k : Xk = i, Yk = j}|,
X
Si• := |{k : Xk = i}| =
Sij ,
j∈J
S•j := |{k : Yk = j}| =
X
Sij
i∈I
und pi• :=
P
j∈J
pij , p•j :=
P
i∈I
pij für p ∈ Θ. Sei
Θ0 = {p ∈ Θ : pij = pi• · p•j für i ∈ I, j ∈ J },
ΘA = Θ \ Θ0 . Dann ist (S11 , C) ein unverfälschter Test zum Niveau α, falls
H(S1• , S, S•1 )(C) ≤ α.
(6.2)
Beweis. Gegeben sind Daten von S Objekten. Wir gehen davon aus, dass S1• , S2• , S•1 und S•2
bekannt sind. In diesem Fall gilt es, die S Objekte so auf die Kontingenztafel zu verteilen, dass
die Randeinträge stimmen. Wir stellen uns vor, die S•1 Elemente mit Merkmal 2, Möglichkeit
1 seien weiß, die anderen S•2 schwarz. Aus diesen wählen wir S1• aus. Sind die Merkmale
wirklich unabhängig, so erhalten wir eine H(S1• , S, S•1 ) verteilte Zufallsgröße als Eintrag von
S11 . Ist diese entweder zu groß oder zu klein, können wir die Unabhängigkeit verwerfen.
Bemerkung 6.24. In (6.2) besteht eine vermeintliche Unsymmetrie zwischen dem ersten und
zweiten Merkmal, da die Parameter der hypergeometrischen Verteilung S1• die Anzahl der
gezogenen und S•1 die Anzahl der weißen Kugeln bedeutet. Allerdings gilt
S•2 S•1
S•1 !S•2 !S1• !S2• !
−k
=
H(S1• , S, S•1 )(k) = k SS1•
S!k!(S•1 − k)!(S1• − k)!(S − S•1 − S1• + k)!
S
1•
= H(S•1 , S, S1• )(k),
was diese vermeintliche Unsymmetrie erklärt.
6.3
Testprobleme
56
Fisher’s exakter Test
überprüft, ob zwei Merkmale, die in jeweils zwei möglichen Ausprägungen vorliegen, stochastisch unabhängig sind.
Statistisches Modell
(X1 , Y1 ), . . . , (Xn , Yn ) unabhängig, identisch verteilt,
Sij := |{k : Xk = i, Yk = j}|,
X
Si• := |{k : Xk = i}| =
Sij ,
j∈J
S•j := |{k : Yk = j}| =
X
Sij .
i∈I
Hypothesen
H0 : P(Xk = i, Yk = j) = P(Xk = i) · P(Yk = j) für alle i, j
HA : P(Xk = i, Yk = j) 6= P(Xk = i)P(Yk = j) für
mindestens ein Paar i, j
Teststatistik
S11 ist – gegeben S1• , S2• , S•1 und S•2 – nach
H(S1• , S, S•1 ) verteilt.
Ablehnungsbereich
S11 ∈ C := {0, ..., k, `, ..., S1• ∧ S•1 } falls H(S1• , S, S•1 )(C) ≤ α.
Abbildung 6.5: Schematische Darstellung von Fisher’s exaktem Test
Beispiel 6.25 (Mendel’s Experimente). Wir betrachten nochmal die beiden Merkmale der
Blütenfarbe und Blattmuster einer Pflanze. Beispielsweise könnte ein Züchter von Pflanzen
zählen, wieviele seiner Pflanzen rot und weiß blühen, und wieviele glatte und gesprenkelte
Blätter haben. Wir gehen davon aus, dass (Xi , Yi ) die Farbe und die Blättermusterung der
i-ten Pflanze ist. Ziel ist es herauszufinden, ob Xi und Yi stochastisch unabhängig sind, d.h.
ob etwa
P(Xi = rot, Yi = glatt) = P(Xi = rot) · P(Yi = glatt)
(und ähnliche Gleichungen für die anderen Farben/Blattmusterungen) gilt. Bei einem Versuch,
in dem man 400 Blumen als Stichprobe untersucht hat, erhält man folgende Daten, die wir
in einer Kontingenztabelle zusammen fassen:
glatt
gesprenkelt
P
weiß
41
74
115
rot
P
96
189
285
137
263
400
Wir bezeichnen diese Anzahlen mit Sweiß, glatt , . . . , Srot, gesprenkelt . Die Marginalien bezeichnen
wir mit Sweiß• , . . . , Srot• und S•glatt , S•gesprenkelt . Kann aufgrund dieser Daten die Hypothese
der Unabhängigkeit auf einem Signifikanzniveau von 5% verworfen werden? Wären die beiden
7
STOCHASTISCHE OPTIMIERUNG
57
Merkmale unabhängig, so wäre E[S11 ] = 400 ·
S11 = 41.
Zunächst stellen wir fest, dass
137
400
·
115
400
≈ 39.39. Beobachtet wurden aber
H(115, 400, 137){0, ..., 30} ≈ 0.018 < 0.032 = H(115, 400, 137){0, ..., 31}
und
H(115, 400, 137){49, ..., 115} ≈ 0.018 < 0.030 = H(115, 400, 137){48, ..., 115}.
Damit ist
C = {0, ..., 30, 49, ..., 115}
der Ablehnungsbereich für Fisher’s exakten Test. Damit kann die Nullhypothese einer unabhängigen Ausprägung der Blütenfarbe und Blattmusterung nicht abgelehnt werden.
7
Stochastische Optimierung
Stochastische Optimierung meint das Optimieren mit stochastischen Methoden.2 Das abstrakte Problem ist dabei wiefolgt: Gegeben sei eine endliche Menge E und eine Funktion
f : E → R. Finde s∗ (oder s∗ ) mit
f (s∗ ) = min f (s)
oder f (s∗ ) = max f (s) .
s∈E
s∈E
Minimierungs- und Maximierungsprobleme kann man dabei durch den Übergang zur Funktion
−f ineinander umwandeln.
Beispiel 7.1 (Traveling Salesman Problem (TSP)). Ein Handlugnsreisender will m
Städte besuchen und dann nach Hause zurückkehren. Der Abstand der Städte ist dabei durch
eine (symmetrische) m×m-Matrix D gegeben. Bei seiner Rundreise will er seine zurückgelegte
Wegstrecke minimieren. Hier ist
E = Sm
die Menge aller Permutationen von {1, . . . , m} und
f (ξ) =
m−1
X
Dξi ,ξi+1 + Dξm ,ξ1 .
(7.1)
i=1
Legt man einen Wert d fest und fragt, ob es eine Permutation gibt mit f (ξ) ≤ d, so handelt
es sich um das TSP-Entscheidungsproblem. Dieses ist NP-vollständig: Bis heute sind keine
deterministischen Algorithmen bekannt, die das TSP-Entscheidungsproblem in einer Zeit, die
polynomial ist in m, entscheiden können. Ein Ansatz, der hier weiterführen kann, ist es, stochastische Algorithmen zu untersuchen, die zumindest solche Wege finden, deren Länge kurz
ist. Dabei kann man nur hoffen, mit stochastischen Methoden eine möglichst gute Lösung zu
erhalten, jedoch nicht hoffen, mit stochastischen Methoden einen Beweis für die Optimalität
einer Lösung zu finden.
Zwei Methoden der stochastischen Optimierung, die man auf obige Probleme anwenden
kann, ist Simulated Annealing und genetische Algorithmen.
2
Oft wird unter stochastischer Optimierung auch das Optimieren unter unsicheren (stochastischen) Daten
verstanden. Das wollen wir hier nicht behandeln.
7.1
7.1
Simulated Annealing
58
Simulated Annealing
Der Begriff des Annealing kommt aus der Metallverarbeitung und beschreibt das Auskühlen
von Metallen. Dort sieht man sich dem Problem gegenüber, ein Metall so auszukühlen, dass
lokal keine Spannungen entstehen, die das Material instabil werden lassen. Mit anderen Worte
will man die Energie des Metalls durch das Ausglühen minimieren.
Die Idee des Simulated Annealing ist die folgende: Starte eine Markoff-Kette mit Zustandsraum E und Übergangsmatrix P1 und einer stationären Verteilung, die großes Gewicht auf
Zustände s ∈ E mit kleinem f (s) legt. Warte eine Zeit N1 , bis diese annähernd im Gleichgewicht ist. Starte nun in diesem Zustand eine neue Markoff-Kette mit Übergangsmatrix P2 , die
noch größeres Gewicht auf s ∈ E mit kleinem f (s) legt. Warte wieder eine Zeit N2 bis diese
Markoff-Kette im Gleichgewicht ist. Setzt man dieses Vorgehen fort, so besteht die Hoffnung,
dass sich die Markoff-Kette am Ende in einem Zustand mit minimalem f (s) befindet. Formal
wird dies durch eine zeitinhomogene Markoff-Kette mit Übergangsmatrix


P1 , 0 < n ≤ N1
(n)
P
= P2 , N1 < n ≤ N1 + N2


...
beschrieben.
Zunächst wollen wir die Boltzmann-Verteilung für eine Funktion f : E → R definieren,
die obige Forderung, hohes Gewicht auf Zustände s mit kleinem f (s) zu legen, erfüllt. Im
Anschluss definieren wir eine Markov-Kette, die die Boltzmann-Verteilung als stationäre Verteilung hat.
Definition 7.2 (Boltzmann-Verteilung). Sei f : E → R nach unten beschränkt und T >
0. Dann ist die Boltzmann-Verteilung πf,T gegeben durch
1
f (s) exp −
,
Zf,T
T
f (s) X
=
exp −
.
T
πf,T (s) =
Zf,T
s∈E
Der Parameter T heißt Temperatur.
Je kleiner T als Parameter in der Boltzmann-Verteilung, desto größer sind die relativen Unterschiede für Zustände s, t ∈ E mit f (s) 6= f (t). Je größer f (t), desto kleiner ist das Gewicht
πf,T (t). Noch genauer gilt das folgende Resultat.
Lemma 7.3. Sei T > 0, E eine endliche Menge und f : E → R beliebig. Weiter sei
E∗ := {s ∈ E : f (s) = min f (t)}.
t∈E
Dann gilt
lim πf,T (E∗ ) = 1.
T →0
Beweis. Sei E∗ = {s1 , . . . , sn }, a = f (s) und b = mint∈E\E∗ f (t). Es gilt
lim exp
T →0
a − b
T
=0
7.1
Simulated Annealing
59
und damit
a
T
f (t) T
|E∗ | exp − Ta
=
P
|E∗ | exp − Ta + t∈E\E∗ exp − fT(t)
|E∗ | exp − Ta
1
=
≥
b
a
|E|
|E∗ | exp − T + (|E| − |E∗ |) exp − T
1 + ( |E | − 1) exp
|E∗ | exp −
πf,T (E∗ ) = P
t∈E exp −
∗
T →0
a−b
T
−−−→ 1.
Bemerkung 7.4 (Herleitung der Metropolis-Kette). Für eine Verteilung π auf E benötigen wir nun noch eine Markov-Kette (Xt )t=0,1,... mit stationärer Verteilung π. Diese wird durch
die Metropolis-Kette geliefert, für die π sogar reversibel ist (siehe Definition 5.14). Diese erhält
man wiefolgt:
• Wähle eine Übergangsmatrix Q einer irreduziblen Markov-Kette.
• Wähle die Übergangsmatrix P der gesuchten Markov-Kette so, dass
πi Pij = min(πi Qij , πj , Qji )
für i 6= j. Dann ist wegen der Symmetrie der rechten Seite π reversible Verteilung für
die Markov-Kette mit Übergangsmatrix P .
• Auflösen der letzten Gleichung liefert
π Q j ji
Pij = min 1,
Qij .
πi Qij
Dies ist die gesuchte Übergangsmatrix für
Pii = 1 −
X
Pij .
j6=i
Da nämlich
P
j6=i Qij
≤ 1, muss auch
P
j6=i Pij
≤ 1 gelten.
Definition 7.5 (Metropolis-Kette). Sei Q die Übergangsmatrix einer irreduziblen MarkovKette mit Zustandsraum E und π eine Verteilung auf E. Dann ist die Metropolis-Kette X =
(Xt )t=0,1,... die Markov-Kette mit Übergangsmatrix P mit
π Q j ji
Qij
Pij = min 1,
πi Qij
und
Pii = 1 −
X
Pij .
j6=i
Beispiel 7.6 (Traveling Salesman Problem). Wir wollen nun für das TSP eine MetropolisKette konstruieren, die die Boltzmann-Verteilung πf,T zur Funktion f aus Beispiel 7.1 als
stationäre Verteilung hat. Zur Definition der Metropolis-Kette benötigen wir zunächst einen
7.1
Simulated Annealing
60
Graphen mit der Punktmenge E. Wir müssen also angeben, welche Permutationen ξ und η
benachbart sein sollen. Dazu definieren wir für i < j
σi,j (ξ) = (ξ1 , . . . , ξi−1 , ξj , ξj−1 , . . . , ξi+1 , ξi , ξj+1 , . . . , ξm ).
Also ist σi,j (ξ) die Permutation, die entsteht, indem man in ξ den Abschnitt ξi , . . . , ξj in
umgekehrter Reihenfolge durchläuft. Damit definieren wir
ξ ∼ η : ⇐⇒ ∃i < j : η = σi,j (ξ).
Damit hat jede Permutation genau m
2 Nachbarn. Wir betrachten die Übergangsmatrix Q
mittels

 m1 , ξ ∼ η
(7.2)
Qξ,η = ( 2 )
0,
ξ 6∼ η.
Die Markov-Kette mit dieser Übergangsmatrix ist irreduzibel, weil jede Permutation als Komposition von Transpositionen dargestellt werden kann. Für die dazugehörigen BoltzmannVerteilung entsteht die Metropolis-Kette nun durch Definition 7.5 aus

f (ξ)−f (η)
1

min
exp
,1 ,
ξ∼η

m
T

(2)
Pξ,η = 0,
ξ 6∼ η, ξ 6= η

P

f (ξ)−f (ξ 0 )

1
1 − ξ0 ∼ξ m min exp
, 1 , ξ = η.
T
(2)
Ist die Markoff-Kette im Zustand Xt = ξ, so verfährt sie also folgendermaßen:
• Wähle zuerst nach der Gleichverteilung zwei Positionen 1 ≤ i < j ≤ m.
• Ist f (σi,j (ξ)) ≤ f (ξ), so ist Xt+1 = σi,j (ξ). Ist jedoch f (σi,j (ξ)) > f (ξ), so ist

σi,j (ξ) mit Wahrscheinlichkeit exp f (ξ)−f (η) ,
T
Xt+1 =
(η)
ξ
mit Wahrscheinlichkeit 1 − exp f (ξ)−f
.
T
Es ist wichtig zu betonen, dass wir zur Berechnung der Übergangswahrscheinlichkeiten der
Metropolis-Kette die Normalisierungskonstanten Zf,T nicht berechnen mussten. Das liegt an
der allgemeinen Eigenschaft der Metropolis-Ketten, dass zu deren Berechnung nur Quotienten
der Werte der stationären Verteilung bekannt sein müssen.
Die Markov-Kette X ist irreduzibel und aperiodisch, da Pξ,ξ > 0 für manche ξ (falls f
nicht konstant ist). Durch Theorem 5.25 und da πf,T reversibel für P ist, wissen wir, dass
t→∞
P[Xt = i] −−−→ πf,T (i) gelten muss. Schön wäre es nun auszunutzen, dass für E∗ wir in
Lemma 7.3
t→∞
T →0
P[Xt ∈ E∗ ] −−−→ πf,T (E∗ ) −−−→ 1.
Allerdings sind hier zwei Grenzübergänge zu betrachten. Dies wird durch eine Wahl von
T1 , T2 , . . . und N1 , N2 , . . . durchgeführt: Ziel ist es immer, die Temperatur zu erniedrigen, um
dem Minimum näher zu kommen. Passiert dies jedoch zu schnell, so läuft man Gefahr, nur
7.1
Simulated Annealing
61
ein lokales Minimum von f zu finden. Ein Theorem von Geman und Geman besagt: Gilt für
die Temperatur T (t) im t-ten Schritt
T (t) ≥
|E|(maxs∈E f (s) − mins∈E f (s))
,
log t
so ist
t→∞
P[Xt ∈ E∗ ] −−−→ 1.
Leider ist das Annealing-Schema, das durch dieses Theorem gegeben wird, sehr langsam.
(Beispielsweise ist schon |E| sehr groß.) In der Praxis wird man mehrere Annealing-Schemas
ausprobieren, um sagen zu können, welches in akzeptabler Zeit gute Resultate liefert.
Beispiel 7.7 (Zu schnelles Abkühlen). Um ein einfaches Beispiel anzugeben, in dem ein
zu schnelles Abkühlen der Markoff-Kette zu einem falschen Ergebnis führt, betrachten wir
E = {s1 , s2 , s3 , s4 }. Weiter haben wir
f (s1 ) = 1,
f (s2 ) = 2,
f (s3 ) = 0,
f (s4 ) = 2.
Um eine Metropolis-Kette zu definieren, müssen wir angeben, welche Punkte benachbart sind.
Dies ist durch nachfolgende Grafik veranschaulicht (jeweils mit Überganswahrscheinlichkeiten 21 :
s..1.................................................................s.....2
•......
•.....
...
..
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
.............................................................................
s•4
s•3
Damit ergibt sich die Übergangsmatrix der Metropolis-Kette

1 −1/T 
1 − e−1/T 12 e−1/T
0
2e
1
1

0
0 
2
2

P =
1 −2/T
1 −2/T  .
−2/T

0
e
1
−
e
e
2
2
1
1
0
0
2
2
Wir starten die Markoff-Kette in X0 = s1 und verwenden ein Annealing- Schema T (1) , T (2) , . . ..
Sie wird sicher dann nicht in das globale Minimum s3 konvergieren, wenn sie immer im Zustand s1 bleibt. Es gilt
P[X0 = X1 = · · · = s1 ] = lim
t→∞
t
Y
(i)
(1 − e−1/T ) =
i=1
∞
Y
(i)
(1 − e−1/T ).
i=1
Damit gilt nach einem Satz der Analysis
P[X0 = X1 = · · · = s1 ] > 0
genau dann wenn
∞
X
i=1
e−1/T
(i)
< ∞.
7.2
Genetische Algorithmen
62
Damit besteht beispielsweise für T (i) = 1i die Möglichkeit, dass die Markoff-Kette immer im
Zustand s1 bleibt und somit nicht in das globale Minimum s3 konvergiert.
Allgemein kann man sagen, dass ein solches Verhalten auf zwei Dinge zurückzuführen ist:
ein zu schnelles Annealing-Schema und ein Punkt s, der zwar ein lokales, aber kein globales
Minimum von f ist.
7.2
Genetische Algorithmen
Bei genetischen Algorithmen handelt es sich um Algorithmen, die durch eine ähnliche Dynamik wie sie bei der Fortpflanzung von Individuen beobachtet wird, versuchen, eine Zielfunktion
zu maximieren. Diese Zielfunktion heist meist Fitnessfunktion.
Bemerkung 7.8 (Vererbung). In der Biologie geht man davon aus, dass alle Individuen
durch ihr genetisches Material, also ihre Chromosomen, bestimmt werden. Chromosomen
bestehen aus DNA, also aus der aneinandergerehten Aminosäuren. Mathematisch können
Chromosomen als endliche Folge von Buchstaben aus einem Alphabet modelliert werden.
Jeder solchen Folge wird der Wert einer Fitness-Funktion zugeordnet. Genetische Algorithmen
modellieren nun die Fortpflanzung dieses genetischen materials. Pflanzen sich Organismen
fort, so liegt von beiden Eltern je ein Chromosom vor. Beispielsweise liegen zwei Chromosomen
mit der Codierung
1 0
und
0 1
0
1
0
1
1
0
0
0
1
1
1
1
vor; jedes Chromosom besteht also aus acht Aminosäuren, die wir auch Bits nennen wollen. (Dabei haben wir angenommen, dass es nur genau zwei verschiedene Aminosäuren gibt,
was eine Vereinfachung darstellt.) Nun findet Mutation, Rekombination und Vererbung mit
Selektion statt.
• Mutation: Es besteht die Möglichkeit, dass sich einzelne Bits zufällig ändern. Passiert
die beispielsweise an der vierten Stelle des Chromosoms, so ergibt sich
1
0
0
1
1
1
10
• Rekombination (oder engl. Crossover ): Das Chromosom des Nachkommens besteht aus
Stücken beider Elternteile. Beispielsweise werden die ersten drei und die letzten beiden
Bits des ersten und die restlichen Bits des zweiten Elternteils genommen. Dies ergibt
das Chromosom
1 0 0 1 0 1 1 0
−→ 1 0 0 0 1 1 1 0
0 1 0 0 1 1 1 1
Die Punkte des Chromosoms, an denen die Rekombination stattfindet, heißen CrossoverPunkte.
• Reproduktion mit Selektion: Es werden zwei Individuen i und j der Population gezogen,
das Individuum i bekommt einen Nachkommen, und j stirbt. Die Wahrscheinlichkeit,
dass sich i fortpflanzen darf ist gegeben durch proportional zur Fitness von Individuum
i.
7.2
Genetische Algorithmen
63
Die Evolutionstheorie sagt voraus, dass sich Organismen, die besser an ihre Umwelt angepasst
sind oder auf andere Art und Weise fitter als andere, sich öfter fortpflanzen werden, was durch
den letzten Schritt realisiert ist.
Bemerkung 7.9 (In silico Evolution). Ziel ist es, das Maximum einer Funktion f : E →
R zu finden. Hierzu sein eine Population der Größe N gegeben. Individuum i hat einen
Typ α(i) ∈ E im Typenraum E. Die Fitness von Typ α ist nun gegeben durch f (α). Da
sich gute Typen eher durchsetzen als schlechte, betrachtet man eine Markov-Kette X =
(Xt )t=0,1,... mit Xt = (αt (1), ..., αt (N )), wobei αt (i) der Typ von Individuum i zur Zeit t ist.
Man geht nun folgendermaßen vor, um das gesuchte Maximum zu finden: Mit bestimmten
Wahrscheinlichkeiten findet in jedem Schritt eine der folgenden drei Mechanismen statt.
• Mutation: Wähle ein Individuum i und setze αt+1 (i) = β mit Wahrscheinlichkeit Qαt (i),β
für eine stochastische Matrix Q.
• Rekombination: Wähle zwei Individuen i, j aus und setze αt+1 (i) = β mit Wahrscheinlichkeit Q0αt (i),αt (j);β für eine stochastische Matrix Q0 .
• Reproduktion und Selektion: Wähle ein Individuum j rein zufällig aus. Weiter wähle
Individuum i mit Wahrscheinlichkeit P f (i)f (j) aus. Setze nun αt+1 (j) = αt (i). (Das
j∈N
bedeutet, dass Individuum i stirbt und durch einen Nachkommen von i ersetzt wird.)
Dieses Schema führt hoffentlich dazu, dass sich die Population aus immer fitteren Individuen
zusammensetzt.
Beispiel 7.10 (Traveling Salesman Problem (TSP)). Wir wollen nun einen genetischen
Algorithmus angeben, mit dem man eventuell das TSP lösen kann. Wir müssen hierzu definieren, was genau ein Individuum ist und welche Mutations- Rekombinationsmechanismen
zugelassen sind und welche Fitness-Funktion wir verwenden.
Der Typenraum ist hier der Raum E = Sm aller Permutationen der Länge m. Die Fitness
von ξ ∈ E (die es ja zu maximieren gilt) ist z.B. gegeben durch
g(ξ) =
1
f (ξ)
mit f aus (7.1).
• Mutation: Eine Mutation besteht aus der zufälligen Vertauschung zweier besuchter Orte,
d.h. Q ist gegeben durch (7.2).
• Rekombination: Sei i ∈ {1, ..., m} rein zufällig gewählt. Um ξ, η an der Stelle i zu
rekombinieren, gehen wir folgendermaßen vor: Bis Ort i werden die Orte in der Reihenfolge von i besucht. Im Anschluss werden die Orte, die noch nicht besucht worden, in der Reihenfolge besucht, wie sie durch η vorgegeben sind. Sei etwa m = 5,
ξ = (3, 5, 2, 1, 4), η = (5, 3, 1, 4, 2), so rekombinieren die beiden an Ort 5 zu (3, 5, 1, 4, 2).
• Reproduktion mit Selektion: Dies folgt wieder dem allgemeinen Schema aus Bemerkung 7.9.
Herunterladen