Abteilung für Mathematische Stochastik

Werbung
Stochastik
Vorlesung
an der
Albert–Ludwigs–Universität Freiburg i. Br.
Wintersemester 2013/14
Sommersemester 2014
Prof. Dr. H. R. Lerche
5. Oktober 2015
Inhaltsverzeichnis
1 Einleitende und historische Bemerkungen
1
1.1
Was ist Stochastik? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Stochastische Tätigkeiten im Alltag . . . . . . . . . . . . . . . . . . . . . .
1
1.3
Historisches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2 Ereignisse und Wahrscheinlichkeiten
4
2.1
Der Würfel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.2
Chancen-/Gewinnverhältnisse und Auszahlungsquoten
. . . . . . . . . . .
6
2.3
Mengentheoretische Beschreibung von Ereignissen . . . . . . . . . . . . . .
8
2.4
Wahrscheinlichkeitsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3 Gleichverteilungen
14
3.1
Gleichverteilung und Kombinatorik . . . . . . . . . . . . . . . . . . . . . . 14
3.2
Verteilungen, die aus Gleichverteilungen entstehen . . . . . . . . . . . . . . 22
3.3
Verteilungen mit mehr als zwei Kategorien, die aus Gleichverteilungen entstehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4
Die probabilistische Methode in der Kombinatorik . . . . . . . . . . . . . . 28
4 Bedingte Wahrscheinlichkeiten und Unabhängigkeit
30
4.1
Bedingte Wahrscheinlichkeit: Definition und Folgerungen . . . . . . . . . . 30
4.2
Satz von der vollständigen Wahrscheinlichkeit und Bayesschen Formel . . . 34
4.3
Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . 38
4.4
Anwendung der Unabhängigkeit in der Zahlentheorie . . . . . . . . . . . . 43
5 Zufallsvariable und ihre Verteilung
46
5.1
Zufallsvariable, Verteilung einer Zufallsvariable . . . . . . . . . . . . . . . . 46
5.2
Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 49
I
6 Erwartungswert und Varianz von Verteilungen
55
6.1
Der Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.2
Beispiele von Erwartungswerten . . . . . . . . . . . . . . . . . . . . . . . . 58
6.3
Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.4
Varianzen einiger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.5
Das Gesetz der Großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.6
Die Approximation stetiger Funktionen durch Polynome. . . . . . . . . . . 67
6.7
Poisson-Verteilung und das Gesetz der kleinen Zahlen . . . . . . . . . . . . 68
6.8
Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.9
Der Beweis des Satzes von de Moivre-Laplace . . . . . . . . . . . . . . . . 75
7 Zufallsvariable und Wahrscheinlichkeitsdichten
81
7.1
Dichten und Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . 81
7.2
Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.3
Exponential- und Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . 85
7.4
Lebensdauern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.5
Gemeinsame Verteilung mehrerer Zufallsvariablen . . . . . . . . . . . . . . 90
7.6
Bedingte Verteilungen und Bedingte Erwartungen . . . . . . . . . . . . . . 97
7.7
Empirische Verteilungsfunktion und Quantile . . . . . . . . . . . . . . . . . 101
8 Kombinatorische Resultate zur Symmetrischen Irrfahrt
105
9 Erzeugende Funktionen und Momentenerzeugende Funktionen
113
9.1
Definition und Eigenschaften erzeugender
Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
9.2
Poisson-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
9.3
Ausgedünnte Poisson-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . 116
9.4
Poisson-Prozess über dem Einheitsquadrat . . . . . . . . . . . . . . . . . . 118
9.5
Momentenerzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . 119
9.6
χ2k -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
9.7
tn -Verteilung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
10 Die mehrdimensionale Normalverteilung
II
124
11 Schätzen
129
11.1 Maximum-Likelihood Methode . . . . . . . . . . . . . . . . . . . . . . . . . 129
11.2 Methode der Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
11.3 Die Bayessche Formel im stetigen Fall . . . . . . . . . . . . . . . . . . . . . 133
11.4 Eigenschaften von Schätzern . . . . . . . . . . . . . . . . . . . . . . . . . . 134
11.5 Bewertung von Schätzern: Die Risikofunktion bei Bernoulli-Beobachtungen 135
11.6 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
12 Hypothesentests
149
12.1 Grundtatsachen der Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . 149
12.2 Die Gütefunktion von Tests . . . . . . . . . . . . . . . . . . . . . . . . . . 154
12.3 Der χ2 -Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
12.4 Lineare Regression und Methode der kleinsten Quadrate . . . . . . . . . . 160
13 Markov-Ketten
163
13.1 Die Kain und Abel-Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . 163
13.2 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
13.3 Absorbierende Zustände . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
13.4 Rekurrente und transiente Zustände . . . . . . . . . . . . . . . . . . . . . . 170
13.5 Stationäre Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
13.6 Konvergenz gegen die stationäre Verteilung . . . . . . . . . . . . . . . . . . 175
Literaturverzeichnis
177
Kapitel 1
Einleitende und historische Bemerkungen
1.1
Was ist Stochastik?
Stochastik ist der Oberbegriff von Wahrscheinlichkeitsrechnung und mathematischer Statistik. In der Stochastik werden mathematische Modelle von Zufallserscheinungen konstruiert, deren Gesetzmäßigkeiten studiert und ihre Anwendbarkeit auf reale Daten untersucht. Die Modelle basieren auf Zufallsbegriffen, wie z.B. dem der „Wahrscheinlichkeit“.
Diese werden durch mathematische Axiome beschrieben. Die Axiome erklären jedoch nicht
das Wesen des Zufalls. Dieses ist bis heute, trotz diverser mathematischer Ansätze durch
von Mises und Kolmogorov, noch weitgehend ungeklärt.
1.2
1.
2.
3.
4.
5.
6.
7.
8.
Stochastische Tätigkeiten im Alltag
Raten
Entscheiden
Schätzen
Vergleichen / Testen
Vorhersagen
Versichern
Kontrollieren
Messen
1.–3. kennt man schon aus dem Kindesalter. Alle acht Typen von Tätigkeiten haben zum
Ziel dem Zufall geschickt zu begegnen.
1
1.2.1
Beispiele
Raten
a) In welcher Hand ist der Gegenstand?
b) Welche Antwort ist richtig bei Unwissenheit, z. B. bei “Wer wird Millionär”?
c) Wieviele Prozent erhält die AfD bei der Europwahl?
Entscheiden
a) Das Spiel: Stein–Schere–Papier
b) Wann und wo lege ich mein Geld an?
c) Zu welchem Arzt gehe ich?
Schätzen
a) Wieviel Sprit ist noch im Tank meines Autos?
b) Wie hoch ist das Steueraufkommen in der BRD in Jahr 2014?
c) Wie häufig ist eine Krankheit in der Bevölkerung (Inzidenzrate)?
Vergleichen / Testen
a) ärztliche Untersuchung auf Krankheit
b) Vergleich von ärztlichen Behandlungen
c) Entwicklung von Medikamenten
Vorhersagen
a) Tippen: Toto, Lotto
b) Dollarkurs an Weihnachten
c) Das Wetter morgen in Freiburg
Versichern
Auto, Haus, Leben
Kontrollieren
a) Kontrollieren des Blutdrucks
b) Fehlerkontrolle in der Produktion eines industriellen Teils
c) Flugsicherung
2
Messen von physikalischen Größen in Experimenten wie Masse, Länge, Temperatur,
Geschwindigkeit, Energie, Impuls:
a) Die Kombination der Ergebnisse geschieht in der Regel mit der mit der sogenannten
Fehlerausgleichsrechnung.
b) Will man sehr genau messen, kann man in Konflikt mit der Unschärferelation von
Heisenberg geraten. Diese gibt eine untere Schranke für die Maßgenauigkeit zweier zueinander konjugierter physikalischer Größen, wie z.B. Ort und Impuls eines Teilchens.
Die von Heisenberg, Schrödiger u.a. entwickelte Theorie ist stochastischer Natur. Aus
heutiger Sicht funktioniert sie in der Praxis sehr gut, ist aber von ihren Grundlagen
her noch immer unvollständig. Es scheint heute aber ziemlich klar, dass Einstein mit
seinem Spruch: “Gott würfelt nicht” nur dann recht hat, wenn es Gott tatsächlich nicht
gibt.
1.3
Historisches
Die Wahrscheinlichkeitsrechnung geht in ihren Anfängen auf das Bestimmen von Chancen
und Auszahlungen bei Spielen zurück; etwa um 1480 gibt es dazu erste Zeugnisse. Das
Spielen aber ist so alt wie die Menschheit und der Zufall war wohl schon immer beim
Spielen mit dabei. Im Altertum hat man sehr oft mit würfelähnlichen Gebilden gespielt,
meist hergestellt aus Knochen von Tieren. Bei den Griechen und Römern hieß ein solcher
“Würfel” Astragalus; er wurde aus Ziegenknochen gefertigt. Im Mittelalter kannte man
schon die uns heute geläufigen Würfel und natürlich die dazugehörigen Spiele. Eines der
frühesten Werke, das sich mit Chancen und Quoten beim Würfelspielen beschäftigt, geht
zurück auf Cardano, ca. 1550. Es heißt “Liber de Ludo Alea”. Darin finden sich Überlegungen von der Art, dass, wenn ein Würfel nicht “gezinkt” ist, die Wette auf 1, 3, 5 als
genauso günstig anzusehen ist, wie die auf 2, 4, 6. Cardano war auch einer der ersten,
der Additions- und Multiplikationsgesetze für Wahrscheinlichkeiten formulierte. Später
um 1650 berechneten Pascal und auch Huygens die Wahrscheinlichkeiten von Spielergebnissen. Um 1800 gab es bereits statistische Überlegungen in der Astronomie, z. B. bei
der Bestimmung von Planetenorten durch Gauss. Im 19. Jahrhundert wurde die Wahrscheinlichkeitsrechnung noch zur Physik gezählt. Aber Hilberts Bemühungen die Gebiete
der Mathematik solide zu begründen, führten dazu, dass Kolmogorov 1933 einen axiomatischen Zugang zur Wahrscheinlichkeitstheorie fand, der diese zu einem Teilgebiet der
Mathematik machte. Wahrscheinlichkeiten und Statistiken begegnen uns heute an vielen
Stellen des Alltags, sei es im Sport, in der Technik und Wissenschaft, in der Medizin, im
Banken- und Versicherungswesen.
Ich will diese einleitenden Bemerkungen schließen mit einem Beispiel, das die Brücke
schlägt von Cardano zu den Ereignissen unserer Tage. Am 08.04.2005 sollte ursprünglich
die Hochzeit zwischen Prinz Charles und Camilla Parker-Bowles stattfinden. Ende März
2005 stellten die Buchmacher in London die Wette auf eine Verschiebung der Hochzeit
mit einer Quote 19:1, d.h. 19 Pfund Gewinn bei 1 Pfund Einsatz. Tatsächlich trat durch
den Tod des Papstes das Ereignis ein und die Londoner Wettbüros durften kräftig zahlen.
3
Kapitel 2
Ereignisse und Wahrscheinlichkeiten
2.1
Der Würfel
Ein Würfel werde einmal geworfen:
Die Menge der möglichen Ergebnisse ist Ω1 = {1, 2, . . . , 6}. Ist der Würfel fair, so hat
man P ({i}) = 61 , 1 ≤ i ≤ 6. Folglich ergibt sich weiter
P ({2, 4, 6}) = P ({2}) + P ({4}) + P ({6}) = 3 ·
und ebenso P ({1, 3, 5}) =
1
2
1
1
=
6
2
sowie P (Ω1 ) = 1. Ist A ⊂ Ω1 , so definiert man
P (A) :=
|A|
.
|Ω1 |
Dabei ist |A| die Anzahl der Elemente der Menge A.
Nun einige Beispiele zu möglichen Ereignissen.
Beispiele:
1. Ergebnis ist ungerade ⇒ {1, 3, 5}.
2. Ergebnis ist gerade und kleiner als 4 ⇒ {2, 4, 6} ∩ {1, 2, 3} = {2}.
Ein Würfel werde zweimal geworfen:
Ein Ergebnis ist z.B. (1, 3). Beim 1. Wurf kommt eine 1, beim 2. Wurf kommt eine 3. Hier
ist die Menge der möglichen Ergebnisse
Ω2 = {(1, 1), (1, 2), . . . , (6, 6)} = {(i, j)|1 ≤ i ≤ 6, 1 ≤ j ≤ 6},
Für A ⊂ Ω2 definiert man P (A) :=
|A|
|A|
=
.
|Ω2 |
36
4
|Ω2 | = 36.
Beispiel:
Was ist die Wahrscheinlichkeit, dass die Summe zweier Würfe ≤ 10 ist?
P (Summe ≤ 10) = 1 − P (Summe > 10)
= 1 − P (Summe ≥ 11)
|B c |
3
11
c
= 1 − P (B10
) = 1 − 10 = 1 −
= .
|Ω2 |
36
12
c
Dabei sind B10 = {(1, 1), . . . , (4, 6)} und B10
= {(5, 6), (6, 5), (6, 6)}.
Beispiel:
Was ist die Wahrscheinlichkeit, dass das Ergebnis des 2. Wurfs größer ist als das des 1.?
Sei C = {(i, j)|i < j, 1 ≤ i ≤ 6, 1 ≤ j ≤ 6}. Dann ist
P (2. Wurf > 1. Wurf) = P (C) =
6(6−1)
2
62
=
5
.
12
Ein Würfel wird n-mal geworfen:
Zunächst sollen Produktmengen erklärt werden.
Seien Ω1 , . . . , Ωn Mengen und Ai ⊂ Ωi , i = 1, . . . , n Teilmengen. Dann heißt
A1 × A2 × · · · × An := {(a1 , . . . , an ) | ai ∈ Ai , i = 1, . . . , n}
Produktmenge der Ai . Gilt |Ai | < ∞ für alle 1 ≤ i ≤ n, so ist
|A1 × A2 × · · · × An | =
n
∏
|Ai |.
i=1
Die Ergebnismenge beim n-maligen Würfelwurf ist
Ωn = Ω1 × · · · × Ω1 = {(a1 , . . . , an ) | ai ∈ {1, . . . , 6}, 1 ≤ i ≤ n}.
{z
}
|
n×
Es gilt |Ωn | = 6n .
Beispiel:
Was ist die Wahrscheinlichkeit, dass alle Ergebnisse größer als “1” sind? Sei
A = {(a1 , . . . , an ) | ai > 1, i = 1, . . . , n} = {(a1 , . . . , an ) | ai ∈ {2, . . . , 6}, i = 1, . . . , n}
( )n
|A|
5n
5
Damit ist
P (A) =
= n =
.
|Ωn |
6
6
Es sei noch bemerkt, dass nicht alle Ergebnismengen Ω Produktform haben, wie das folgende Beispiel zeigt.
5
Beispiel:
In der ersten Stufe wird ein Würfel einmal geworfen, sagen wir mit Ergebnis “i”. In der
zweiten Stufe wird i mal gewürfelt und das Ergebnis jedes Wurfes festgehalten. Wie groß
ist die Wahrscheinlichkeit, dass die Summe der Ergebnisse der zweiten Stufe kleiner gleich
“6” sind?
6
∪
Seien Ωi = {(a1 , . . . , ai ) | 1 ≤ aj ≤ 6 für 1 ≤ j ≤ i}, Ω = {i} × Ωi ,
i=1
{
}
∑
6
i
∪
aj ≤ 6 . Sei A = {i} × Ai , dann ist
Ai = (a1 , . . . , ai ) ∈ Ωi j=1
i=1
)
(6
6
6
6
∑
∑
∪
1
1 ∑ |Ai |
P ({i} × Ai ) =
P (A) = P
{i} × Ai =
P (Ai ) =
.
6
6 i=1 |Ωi |
i=1
i=1
i=1
Bestimme die Ai und ihre Anzahl.
A1 = {(1), (2), . . . , (6)}, |A1 | = 6
A2 = {(1, 1), (1, 2), . . . , (5, 1)},
|A2 | = 15
A3 = {(1, 1, 1), (1, 1, 2), . . . , (4, 1, 1)},
|A3 | = 20
|A4 | = 15, |A5 | = 6, |A6 | = 1 .
Es folgt
1
P (Summe ≤ 6) =
6
2.2
(
6 15 20 15
6
1
+ 2 + 3 + 4 + 5+ 6
6 6
6
6
6
6
)
= 0, 253604 .
Chancen-/Gewinnverhältnisse und Auszahlungsquoten
Das Chancenverhältnis
(englisch: odds)
Sei A ein Ereignis und Ac das Gegenereignis.
R(A) :=
P (A)
P (A)
=
c
P (A )
1 − P (A)
heißt das Chancenverhältnis von A.
Beispiel: “Sechs” beim Würfeln
Für einen fairen Würfel gilt:
1
5
und P ({6}c ) =
6
6
1
1/6
= .
R(A) =
5/6
5
P ({6}) =
In Worten: R(A) ist 1 zu 5.
6
Das Gewinnverhältnis
Bleiben wir bei obigem Beispiel und spielen folgendes Spiel. Der Spieler gewinnt, wenn die
“6” kommt, ansonsten verliert er. Der Einsatz sei 1A
C. Die Auszahlung ist 6A
C, wenn “6”
kommt und 0A
C, wenn keine “6” kommt. Die Auszahlung setzt sich aus 5A
CGewinn + 1A
C
Einsatz zusammen. Der mittlere Gewinn (MG) ist
MG = P ({6}) · Gewinn − P ({6}c ) · Einsatz =
1
5
· 5 − · 1 = 0.
6
6
Da der mittlere Gewinn gleich 0 ist, spricht man von einem fairen Spiel. Das Gewinnverhältnis beträgt hier 5 zu 1 (5:1).
Grundprinzip des fairen Wettens
Bei einer fairen Wette, verhalten sich die Gewinnverhältnisse umgekehrt proportional wie
die Chancenverhältnisse.
Man kann dieses Prinzip aber auch über den Einsatz ausdrücken: Die Einsätze sind proportional zu den Wahrscheinlichkeiten.
Man denke nur an das Würfelspiel, bei dem der Spieler 1A
C Einsatz und der Wettanbieter
5A
C zahlen.
Auszahlungsverhältnisse
Bei Sportwetten wie z.B. b-win werden nicht die Gewinnverhältnisse angegeben, sondern
die Auszahlungsverhältnisse, auch einfach Quoten genannt. Das Auszahlungsverhältnis
gibt die Auszahlung im Verhältnis zum Einsatz an. Die Auszahlung setzt sich aus Einsatz und Gewinn zusammen. So gab es für das Bundesligaspiel “Karlsruher SC - TSG
Hoffenheim” am 18.04.2009 die Quoten:
1) 2,85 : 1
2) 3,20 : 1
3) 2,30 : 1
bei Karlsruher SC-Sieg
bei Unentschieden
bei Karlsruher SC-Niederlage.
Das Angebot ist nicht ganz fair, was natürlich daran liegt, dass b-win etwas Gewinn
machen will.
Betrachten wir nochmals die Situation beim Würfel, wenn wir die drei Ereignisse {1, 2, 3},
{4, 5} und {6} wählen. Faire Quoten sind dann:
1) 2 : 1 bei {1, 2, 3}
2) 3 : 1 bei {4, 5}
3) 6 : 1 bei {6}.
Die jeweiligen Wahrscheinlichkeiten ergeben sich gerade als die Kehrwerte der Quoten.
Dies gilt allgemein.
Hat die faire Wette auf ein Ereignis E die Wahrscheinlichkeit p und den Gewinn G, so
gilt bei einem Einsatz von 1
p(G + 1) = 1.
7
Denn sei E c das Gegenereignis von E, so ist der mittlere Gewinn
M G = G · p − 1 · (1 − p) = 0.
Diese Gleichung ist aber äquivalent zur vorangegangenen. Also gilt bei einer fairen Wette
der Zusammenhang
p=
1
, wobei (G + 1) : 1 die Wettquote ist.
G+1
Bezogen auf das Spiel “Karlsruher SC” gegen “TSG Hoffenheim” findet man
Karlsruher SC-Sieg
p1 = 0, 35
Unentschieden
p2 = 0, 36
Karlsruher SC-Niederlage p3 = 0, 43
Da p1 + p2 + p3 = 1, 14 ist, ist die Wette nicht ganz fair. Bekanntlich ist das Spiel 2:2
ausgegangen.
2.3
Mengentheoretische Beschreibung von Ereignissen
Sei Ω die Menge aller möglichen Ergebnisse ω eines Zufallsexperiments. Ein Ereignis wird
durch eine logische Aussage festgelegt. Dazu gehört genau eine Menge A ⊂ Ω. Wir identifizieren von nun an Ereignisse mit Teilmengen von Ω, nämlich genau mit den Mengen,
deren Elemente die logische Aussage erfüllen. Das heißt, was eintritt bzw. nicht eintritt,
beschreiben wir durch Mengen.
Bezeichnungsweisen
Grundraum Ω:
sicheres Ereignis
Leere Menge Ø : unmögliches Ereignis
A ⊂ B:
A liegt in B; aus A folgt B
B \ A:
B ohne A; ω ∈ B \ A genau dann wenn ω ∈ B und ω ̸∈ A
c
A:
Komplement von A, Gegenereignis; ω ∈ Ac genau dann wenn ω ̸∈ A
A ∩ B:
A und B; ω ∈ A ∩ B genau dann wenn ω ∈ A und ω ∈ B
A ∪ B:
A oder B; ω ∈ A ∪ B genau dann wenn ω ∈ A oder ω ∈ B
(lässt ω ∈ A ∩ B zu!)
P(Ω) :
Potenzmenge von Ω; das System aller Teilmengen von Ω.
Wichtige Rechenregeln:
Kommutativgesetze:
Assoziativgesetze:
Distributivgesetze:
Gesetze von de Morgan:
A ∩ B = B ∩ A, A ∪ B = B ∪ A
A ∩ (B ∩ C) = (A ∩ B) ∩ C,
A ∪ (B ∪ C) = (A ∪ B) ∪ C
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C),
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
(A ∪ B)c = Ac ∩ B c , (A ∩ B)c = Ac ∪ B c
8
Endliche Vereinigungen und Schnitte. Seien A1 , . . . , An Ereignisse
∪ni=1 Ai = A1 ∪ . . . ∪ An und ∩ni=1 Ai = A1 ∩ . . . ∩ An
Abzählbare Vereinigungen und Schnitte. Seien A1 , A2 , . . . Ereignisse
∞
∪∞
i=1 Ai = A1 ∪ A2 ∪ . . . und ∩i=1 Ai = A1 ∩ A2 ∩ . . .
Gesetze von de Morgan gelten auch hier:
c
c
∞
c
∞
∞
c
(∩∞
i=1 Ai ) = ∪i=1 Ai und (∪i=1 Ai ) = ∩n=1 Ai
Man definiert auch zu einer Folge von Ereignissen (An ; n ≥ 1)
lim inf An :=
n
∞ ∩
∪
Am
n=1 m≥n
und
lim sup An :=
n
∞ ∪
∩
Am
n=1 m≥n
Es gilt stets lim inf An ⊂ lim sup An . Man sagt lim An existiert, wenn lim inf An = lim sup An
n
n
n
n
∪n
An = A. Dann ist
gilt. Dies gilt zum Beispiel, wenn An ⊂ An+1 für alle n ≥ 1 ist und
n≥1
A = lim An .
n
2.4
Wahrscheinlichkeitsmaße
Sprechweise: Zwei Ereignisse A und B mit A ∩ B = Ø heißen disjunkt. Ist A1 , A2 , . . .
eine endliche oder abzählbare Folge von Ereignissen mit Ai ∩ Aj = Ø für i ̸= j, so heißen
diese Ereignisse paarweise disjunkt.
Definition 2.4.1 Sei Ω eine endliche oder abzählbar unendliche Menge. Eine Abbildung
P von P(Ω) nach IR heißt Wahrscheinlichkeitsmaß auf P(Ω), falls gilt
1. P (A) ≥ 0 für A ∈ P(Ω)
2. P (Ω) = 1
3. für paarweise disjunkte Ereignisse A1 , A2 , . . . aus P(Ω) ist
P
(∞
∪
i=1
)
Ai
=
∞
∑
P (Ai ) (σ-Additivität).
i=1
9
Rechenregeln:
i) P (Ø) = 0.
Begründung: Ai = Ø für i ≥ 1 ist paarweise disjunkte Folge. Damit P (Ø) = P (Ø) +
P (Ø) + . . ..
ii) P (A ∪ B) = P (A) + P (B) falls A und B disjunkt sind.
Begründung: A ∪ B = A ∪ B ∪ Ø ∪ Ø ∪ . . .. Damit ist P (A ∪ B) = P (A) + P (B) +
0 + 0 + . . . = P (A) + P (B).
iii) P (Ac ) = 1 − P (A).
Begründung: folgt aus ii) mit Ω = A ∪ Ac .
iv) Ist A ⊂ B, so gilt P (B \ A) = P (B) − P (A).
Begründung: folgt aus ii) mit B = A ∪ (B \ A) und A ∩ (B \ A) = Ø.
v) Ist A ⊂ B, so gilt P (A) ≤ P (B).
vi) P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Begründung: A ∪ B = A ∪ (B \ (A ∩ B)).
Für die weiteren Überlegungen ist die folgende Gleichung nützlich:
∑
P (A) =
P ({ω})
ω∈A
Sie ist eine direkte Folge der Definition eines Wahrscheinlichkeitsmaßes.
Weitergehend hat man
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C)
Dies sieht man durch Fallunterscheidung, wenn man alle Terme als Summen gemäß der
vorangegangenen Gleichung liest und zählt wie oft die einzelnen Terme jeweils auftauchen.
Entsprechend argumentierend erhält man die Ungleichungen
(n
)
n
∪
∑
P
Ai ≤
P (Ai )
i=1
(
P
n
∪
i=1
)
Ai
i=1
≥
n
∑
P (Ai ) −
i=1
∑
P (Ai ∩ Aj )
i<j
Schließlich gilt allgemein die Ein- und Ausschlussformel von Poincaré:
(
vii) P
n
∪
i=1
)
Ai
=
n
∑
i=1
+
P (Ai ) −
∑
∑
P (Ai ∩ Aj )
i<j
P (Ai ∩ Aj ∩ Ak ) + · · · + (−1)n+1 P (A1 ∩ A2 ∩ . . . ∩ An ).
i<j<k
10
Sie beweist man folgendermaßen:
Wir schreiben die Aussage wie folgt um:
(n
)
( )
∪
∑
P
Ai =
(−1)|I|−1 P AI
i=1
Dabei ist AI :=
∩
i∈I
I⊂{1,...,n}
Ai und I bezeichnet eine nicht leere Teilmenge von {1, . . . , n}.
Zeige, die rechte Seite ist gleich der linken. Sei Jω = {i | ω ∈ Ai }. Dann gilt ω ∈ AI genau
dann, wenn I ⊂ Jω . Die rechts Seite ist folglich gleich
)
(∑
)
(∑
∑
∑
P ({ω}) =
P ({ω})
(−1)|I|−1 .
(−1)|I|−1
ω∈AI
I⊂{1,...,n}
ω∈
∪n
i=1
I⊂Jω
Ai
Sei nun |Jw | = j ≥ 1.
Dann gilt
∑
(−1)
|I|−1
=
j
∑
i−1
(−1)
i=1
I⊂Jω
= 1−
j−1
∑
i=0
( )
j
i
( )
j
(−1)
i
i
=1
Der 2. Term in der 2. Zeile ist gleich Null wegen der binomischen Formel für (1 − 1)n
(siehe unten!).
2
Wir wollen zunächst noch drei weitere Eigenschaften von Wahrscheinlichkeitsmaßen angeben, die auf unendlichen Folgen und Reihen beruhen:
viii) Seien An ⊂ Ω mit An ⊂ An+1 für alle n ≥ 1 und sei A =
∞
∪
An . Dann gilt
n=1
P (A) = lim P (An ).
n→∞
ix) Seien An ⊂ Ω mit An+1 ⊂ An für alle n ≥ 1 und sei A =
∞
∩
An . Dann gilt
n=1
P (A) = lim P (An ).
x) P
(∞
∪
i=1
n→∞
)
Ai
≤
∞
∑
P (Ai ) für beliebige Ai ⊂ Ω.
i=1
Beweis von viii)und ix):
Seien B1 = A1 , Bi = Ai \ Ai−1 für i ≥ 1. Dann sind die Bi paarweise disjunkt und es gilt
n
∞
∪
∪
An =
Bi und A =
Bi . Es folgt mit der σ-Additivität
i=1
i=1
P (A) = P
(∞
∪
i=1
)
Bi
=
∞
∑
P (Bi ) = lim
n→∞
i=1
11
n
∑
i=1
P (Bi ) = lim P (An ).
n→∞
Eigenschaft ix) sieht man so: An ⊃ An+1 ⊃ . . . ,
A=
∞
∩
An .
n=1
Seien A′n = Acn und A′ = Ac . Dann ist A′n ⊂ A′n+1 ⊂ . . . ,
A′ =
∞
∪
A′n .
n=1
Wegen viii) gilt
lim P (A′n ) = P (A′ ), d.h. lim (1 − P (An )) = 1 − P (A),
n→∞
n→∞
2
woraus lim P (An ) = P (A) folgt.
n→∞
Beispiel für die Stetigkeitseigenschaft
Wir betrachten beim beliebig langen Würfelwurf das Ergebnis
A = {irgendwann kommt eine “6”}
Im Grundraum
Ω = {(ω1 , ω2 , ω3 , . . . ) | ωi ∈ {1, . . . , 6}}
lässt sich Ac leicht darstellen als
Ac = {(ω1 , ω2 , ω3 , . . . ) | ωi ̸= 6 für alle i ≥ 1}.
Sei
An = {unter den ersten n Würfen kommt “6”}.
Dann ist
Da Acn ⊃ Acn+1
Acn = {(ω1 , ω2 , ω3 , . . . ) | ωi ̸= 6 für i = 1, . . . , n}.
∞
∩
für alle n und Ac =
Acn , können wir, Formel ix) anwenden:
i=1
c
P (A ) = lim
n→∞
P (Acn )
( )n
5
= 0.
= lim
n→∞
6
Damit ist P (A) = 1 − P (Ac ) = 1.
2. Möglichkeit: Man kann dies auch so erhalten:
∞
∑
P (irgendwann kommt “6“) =
P (“6” kommt erstmals im i-ten Wurf)
=
i=1
∞ (
∑
i=1
)
5 i−1 1
6
6
=
1
6
∞ ( )
∑
5 i
i=0
6
=
1 1
6 1− 56
= 1.
Eine einfache Festlegung eines Wahrscheinlichkeitsmaßes geschieht durch eine Wahrscheinlichkeitsfunktion.
Definition 2.4.2 Sei Ω eine höchstens abzählbar unendliche Menge. Eine Abbildung
p : Ω → [0, 1]
∑
p(ω) = 1 ist.
heißt Wahrscheinlichkeitsfunktion, falls
ω∈Ω
12
Satz 2.4.3 (Zusammenhang zwischen WS-Maße und WS-Funktion)
1.) Sei p eine Wahrscheinlichkeitsfunktion auf Ω. Für A ⊂ Ω wird durch
∑
P (A) :=
p(ω)
ω∈A
ein Wahrscheinlichkeitsmaß definiert.
2.) Sei P ein Wahrscheinlichkeitsmaß. Durch
p(ω) := P ({ω})
wird eine Wahrscheinlichkeitsfunktion erklärt.
Beweis:
Zu 1.): Weise die Eigenschaften eines Wahrscheinlichkeitsmaßes nach.
a) P (Ω) =
∑
p(ω) = 1 nach Definition 2.4.2.
ω∈Ω
b) Seien Ai ⊂ Ω i ≥ 1 disjunkt. Dann folgt mit dem Reihenumordungssatz
(∞ )
∞ ∑
∞
∪
∑
∑
∑
P
Ai =
p(ω) =
p(ω) =
P (Ai ).
i=1
ω∈
∪
i=1 ω∈Ai
Ai
i=1
i
Zu 2.) Weise die Eigenschaft einer Wahrscheinlichkeitsfunktion nach.
(
)
∑
∑
∪
p(ω) =
P ({ω}) = P
{ω} = P (Ω) = 1.
ω∈Ω
ω∈Ω
ω∈Ω
2
Die Wahrscheinlichkeitsfunktion heißt oft auch Zähldichte oder Wahrscheinlichkeitsgewichtsfunktion.
Beispiele für Wahrscheinlichkeitsfunktionen:
1. Würfel: Ω = {1, 2, . . . , 6}, p(ω) = 16 .
2. Fairer Münzenwurf: Ωn = {ω = (ω1 , . . . , ωn ) | ωi ∈ {0, 1}, i = 1, . . . , n}, p(ω) =
für ω ∈ Ωn .
3. Gleichverteilung: Ω endlich, p(ω) =
1
.
|Ω|
13
1
2n
Kapitel 3
Gleichverteilungen
3.1
Gleichverteilung und Kombinatorik
Man nimmt an, es gibt endlich viele Ausgänge, die alle gleich wahrscheinlich sind.
Sei Ω = {ω1 , ω2 , . . . , ωn } mit n = |Ω|
P ({ω1 }) = P ({ω2 }) = . . . = P ({ωn }) = 1/n
Für beliebiges A ⊂ Ω gilt dann:
P (A) =
Anzahl der für A günstigen Ergebnisse
|A|
=
.
Anzahl aller möglichen Ergebnisse
|Ω|
Dies ist die sogenannte Abzählregel.
Beispiel:
Dreimaliges Werfen einer fairen Münze. Wappen kodieren wir mit 0 und Zahl mit 1. Dann
ist
Ω = {0, 1} × {0, 1} × {0, 1}
= {(0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 1, 1)}
Offensichtlich ist |Ω| = 23 = 8. Sei A das Ereignis mindestens einmal Wappen und mindestens einmal Zahl. Dann ist
A = {(1, 0, 0), (0, 1, 0), (0, 0, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1)}.
Wir haben |A| = 6 und somit P (A) = 6/8 = 3/4. Man kann natürlich auch über das
Gegenereignis kein mal Wappen oder kein mal Zahl argumentieren und erhält
Ac = {(0, 0, 0), (1, 1, 1)}
14
mit P (Ac ) = 2/8 = 1/4.
Auch bei Ereignissen mit unendlich vielen Elementen lässt sich mit Gleichverteilung rechnen: Man werfe eine faire Münze beliebig lange. Was ist die Wahrscheinlichkeit irgendwann
eine “1” zu werfen? Das entsprechende Ereignis lautet: A = {(1), (0, 1), (0, 0, 1), . . .}.
Mit Hilfe der σ Additivität des Wahrscheinlichkeitsmaßes ergibt sich
P (A) = P ((1)) + P ((0, 1)) + P ((0, 0, 1)) + . . .
∑
1 1 1
+ + + ... =
2−i = 1.
2 4 8
i=1
∞
=
Kombinatorische Hilfsmittel
Zunächst führen wir die Binomialkoeffizienten ein. Wie betrachten ein quadratisches Gitter und zählen die Wege von( (0,
) 0) zu dem Punkt (k, n − k). Dies geht rekursiv. Wir
n
bezeichnen diese Anzahl mit k .
1
1
1
1
1
1
1
1
7
6 21
5 15
4 10
3 6
2 3
1 1
35
20 35
10 15 21
4 5 6 7
1 1 1 1
1
Drehen wir nun dieses Schema, so erhalten wir das Pascalsche Dreieck.
1
1
1
1
1
1
1
1
7
2
5
3
6
1
4
10
15
21
1
3
4
6
1
10
20
35
1
5
15
35
1
6
21
1
7
1
Nach Konstruktion gehorcht es dem folgenden Bildungsgesetz
( ) (
) (
)
n
n−1
n−1
=
+
k
k−1
k
für 1 ≤ k ≤ n − 1 und n ≥ 1.
Zusätzlich gilt
15
( ) ( )
n
n
=
=1
0
n
für n ≥ 0
und
( )
n
=0
k
für k > n.
Aus dem Bildungsgesetz folgt mit vollständiger Induktion
( )
n
n!
=
.
k
k!(n − k)!
Dabei ist n! = n · (n − 1) · · · 2 · 1, gesprochen “n Fakultät”.
Hier sind einige Formeln für für Binomialkoeffizienten.
( )
n
n!
=
(1)
für 0 ≤ k ≤ n
k
k!(n − k)!
( ) (
)
n
n
(2)
=
n−k
k
( )
(
)
n
n−1
(3) k
=n
k
k−1
m ( )
∑
n k n−k
n
(4) (x + y) =
x y , x, y ∈ IR
k
k=0
(5)
n ( )
∑
n
k=0
k
= 2n
( )
n
(−1)
=0
(6)
k
k=0
n
∑
k
( )
n
∑
n
k
= n · 2n−1
(7)
k
k=0
(8)
n ( )
∑
k
k=0
m
(
=
n+1
m+1
)
für n ≥ m
Wir geben nun zwei Mengen an, deren Mächtigkeiten jeweils
1.) Sei A = {(ω1 , . . . , ωn ) | ωi ∈ {0, 1},
n
∑
(n )
k
ist.
ωi = k} Dann ist |A| =
i=1
(n )
k
.
Diese Menge entspricht genau den Wegen im Gitter mit Länge n und k Anstiegen in
Richtung y-Achse.
( )
2.) Sei Ω = {1, . . . , n} und Pk = {A ⊂ Ω | |A| = k}. Dann ist |Pk | = nk .
Dies folgt so: Jede Teilmenge mit k Elementen einer n-elementigen Menge entspricht
eine 0-1 Folge der Länge n. An der i-ten Stelle der 0-1 Folge steht eine 1, wenn das
i-te Element in der Menge A liegt.
16
Eine wichtige Methode zum Abzählen stellen wir nun vor.
Das Kombinationsprinzip: Sei Ω eine Menge von k-Tupeln ω = (ω1 , . . . , ωk ), die man
als Ergebnisse eines aus k Teilexperimenten bestehenden Zufallsexperimentes auffassen
kann, wobei ωi das Ergebnis des i-ten Teilexperimentes ist. Für das erste Teilexperiment
gebe es n1 mögliche Ausgänge. Für jedes i sei ni die Zahl der möglichen Ausgänge des
i-ten Teilexperimentes, unabhängig davon wie die früheren Teilexperimente ausgegangen
sind. Dann ist: |Ω| = n1 n2 . . . nk
Ein Beispiel:
In einer Urne sind 5 weiße und 4 schwarze nummerierte Kugeln. Es werden 3 Kugeln
gezogen. Was ist die Wahrscheinlichkeit
2 weiße und eine schwarze Kugel
(9)
(5)(4)zu ziehen? Die
Anzahl der möglichen Fälle ist 3 . Die Anzahl der günstigen Fälle ist 2 1 . Die gesuchte
(5)(4)
Wahrscheinlichkeit beträgt also 2 9 1 = 10
.
21
(3)
Was heißt Ziehen? Sei eine Urne mit n nummerierten Kugeln gegeben. Aus der Urne
wird eine Stichprobe vom Umfang k gezogen. Wir interessieren uns für die Anzahl der
verschieden Stichproben. Dies ist für die Berechnung von Wahrscheinlichkeiten nach der
Abzählregel von Nutzen. Dabei gilt es zu beachten, dass unter Ziehen unterschiedliches
gemeint sein kann.
• Berücksichtigung der Reihenfolge:
– Reihenfolge der Ziehung wird berücksichtigt: geordnete Probe.
– Reihenfolge der Ziehung wird nicht berücksichtigt: ungeordnete Probe.
• Zurücklegen:
– mit Zurücklegen: Mehrfachziehung möglich.
– ohne Zurücklegen: Mehrfachziehung nicht möglich.
Damit ergeben sich vier Kombinationsmöglichkeiten.
Geordnete Probe mit Zurücklegen: Die Anzahl der Proben ist gleich der Anzahl der
k-Tupel (x1 , . . . , xk ) mit xi ∈ N für i = 1, . . . , k. Diese Anzahl ist nk .
Geordnete Probe ohne Zurücklegen: Die Anzahl der Proben ist gleich der Anzahl
der k-Tupel (x1 , . . . , xk ) mit xi ∈ N für i = 1, . . . , k, bei denen xi ̸= xj für i ̸= j gilt. Mit
dem Kombinationsprinzip ergibt sich diese Anzahl (die Zahl der Möglichkeiten wird bei
jeder Ziehung um eins kleiner!) als:
n(n − 1) . . . (n − (k − 1)) =
k−1
∏
i=0
17
(n − i).
Offensichtlich muss hier k ≤ n gelten. Für den Spezialfall k = n entspricht jede Stichprobe einer Anordnung der Elemente der Menge N = {1, . . . , n}. Man erhält also die
Permutationen von N . Deren Anzahl n(n − 1) . . . 1 ist gleich n!. Damit ist
n(n − 1) . . . (n − k + 1) =
n!
.
(n − k)!
Ungeordnete Probe ohne Zurücklegen: Die Anzahl solcher Proben ist gleich der
Anzahl der verschiedenen Teilmengen von N mit genau k Elementen. Diese Anzahl ist
( )
n(n − 1) . . . (n − (k − 1))
n!
n
=
=
.
k(k − 1) . . . 1
k!(n − k)!
k
Dies ist der Binomialkoeffizient n über k.
Ungeordnete Probe mit Zurücklegen: Bei der vorangegangenen Situation lässt sich
die Menge aller möglichen Ergebnisse schreiben als
Ωnk := {(ω1 , . . . , ωk ) | 1 ≤ ω1 < ω2 < · · · < ωk ≤ n}
Hier nun beim Ziehen mit Zurücklegen ist die Menge aller Ergebnisse
Ω := {(ω1 , . . . , ωk ) | 1 ≤ ω1 ≤ ω2 ≤ · · · ≤ ωk ≤ n}
Um nun Ω abzuzählen, bilden wir Ω auf eine neue Menge mit derselben Mächtigkeit ab
und bestimmen deren Größe. Die Abbildung geht so: Sei ω ∈ Ω und dargestellt als
1 ≤ ω1 ≤ ω2 ≤ ω3 ≤ · · · ≤ ωk ≤ n.
Für das Bildelement wählen wir (ω1 , ω2 + 1, ω3 + 2, . . . , ωk + k − 1), so dass gilt:
1 ≤ ω1 < ω2 + 1 < ω3 + 2 < · · · < ωk + k − 1 ≤ n + k − 1.
Diese Zuordnung liefert eine Bijektion von Ω auf Ωkn+k−1 . Letztere Menge hat aber
Elemente.
(n+k−1)
k
Anwendung: (Lotto 6 aus 49)
Es werden 6 Kugeln aus 49 Kugeln gezogen, die von 1 bis 49 nummeriert sind. Die Reihenfolge der Ziehung spielt dabei keine Rolle. Der Ziehungsmechanismus stellt sicher, dass
jede Kombination (= ungeordnete Stichprobe ohne Zurücklegen!) gleichwahrscheinlich ist.
Damit liegt Gleichverteilung vor.
Der Grundraum lässt sich folgendermaßen beschreiben:
Ω = {(ω1 , . . . , ω6 )|1 ≤ ω1 < ω2 < ω3 < ω4 < ω5 < ω6 ≤ 49}.
Die Wahrscheinlichkeit für Sechs Richtige ist
1
(49) =
6
6×5×4×3×2×1
1
=
≈ 7, 510−8 .
49 × 48 × 47 × 46 × 45 × 44
13.983.816
Um die Wahrscheinlichkeit für Drei Richtige zu bestimmen, benötigen wir die Anzahl
der Kombinationen, die genau drei der von uns getippten Zahlen enthalten. Unser Tipp
18
zerlegt die 49 Zahlen in zwei Mengen: die 6 von uns getippten und die 43 von uns nicht
getippten. Eine Kombination mit drei richtigen enthält drei Zahlen aus den 6 getippten
und drei Zahlen aus den 43 nicht getippten. Die Wahrscheinlichkeit für Drei Richtige ist
damit
( )( )
6
3
43
(49)3
≈ 0, 0176.
6
Die Wahrscheinlichkeit für 5 Richtige mit Zusatzzahl ist
(1)(6)(42)
1
5
(49
)0
≈ 4, 2 · 10−7 .
6
Richtige günstige Fälle
6R
1
5R+Z
6
5R
258
4R+Z
630
4R
13545
3R
246820
Chance
1/13983816
1/2330636
1/54200
1/22196
1/1032
1/57
Tabelle 3.1: Lotto ’6 aus 49’
Fixpunktfreie Permutationen
Nun wollen wir noch eine Aufgabe behandeln, die sowohl die kombinatorischen Hilfsmittel
als auch die Ein- und Ausschlussformel benutzt.
n Personen kommen mit je einem Geschenk zu einer Party. Die Geschenke werden zufällig
verteilt. Jede Person erhält genau ein Geschenk. Wie groß ist die Wahrscheinlichkeit, dass
wenigstens eine Person ihr Geschenk zurückerhält?
Wir denken uns die n Personen durchnummeriert von 1, . . . , n. Sei ωi die Nummer der
Person, die ihr Geschenk von i erhält. Sei Ω = {ω = (ω1 , . . . , ωn ) | 1 ≤ ωi ≤ n, ωi ̸=
ωj für i ̸= j}. Ω stellt die Menge der Permutationen von 1, . . . , n dar. Ω hat nach dem
Kombinationsprinzip n! Elemente und man nimmt Gleichverteilung an:
P ({ω}) =
1
.
n!
Sei Ai das Ereignis, dass Person i ihr Geschenk zurückerhält. Das genau k Personen ihr
Geschenk zurückerhalten, hat Wahrscheinlichkeit
P (Ai1 ∩ . . . ∩ Aik ) = P (A1 ∩ . . . ∩ Ak ) =
(n − k)!
.
n!
Denn die Anzahl der Permutationen, die die ersten k Elementen fest lassen, ist gleich
der Anzahl der Permutationen von n − k Elementen, also (n − k)!. Dann ist die Wahrscheinlichkeit, dass mindestens eine Person ihr Geschenk zurückerhält, nach der Ein- und
19
Ausschlussformel gleich
P (A1 ∪ . . . ∪ An ) =
n
∑
∑
(−1)k−1 P (Ai1 ∩ . . . ∩ Aik )
k=1 {i1 ,...,ik }∈Pk
=
n
∑
k−1
(−1)
k=1
=
( )
n (n − k)!
k
n!
n
∑
(−1)k−1
k=1
= 1−
k!
n
∑
(−1)k
k=0
k!
Für sehr viele Gäste (n → ∞) konvergiert diese Wahrscheinlichkeit gegen 1 − e−1 .
Das Komplementärereignis hierzu ist, dass kein Gast sein mitgebrachtes Geschenk zurückerhält. Die Wahrscheinlichkeit dafür konvergiert gegen e−1 ∼
= 0, 37. Folglich sind für
große n etwa 37 % aller Permutationen fixpunktfrei.
Eine kombinatorische Aufgabe
In einer Urne seien n weiße und n schwarze nummerierte Kugeln. Die weißen Kugeln tragen
die Nummern 1, . . . , n, die schwarzen Kugeln die Nummern n + 1, . . . , 2n. n Personen
ziehen ohne Zurücklegen je zwei Kugeln. Was ist die Wahrscheinlichkeit, dass jede Person
eine schwarze und eine weiße Kugel zieht?
Sei A = {1, 2, . . . , n, n + 1, . . . , 2n} die Menge der Kugeln in der Urne. Der Grundraum
| {z } |
{z
}
weiß
schwarz
ist dann: Ωn = {({a1 , b1 }, . . . , {an , bn })|ai , bi ∈ A,
n
∪
{ai , bi } = A}.
i=1
( )
es 2n
2
Die erste Person zieht zwei Kugeln. Dafür gibt
Möglichkeiten.
In der( Urne) befinden sich jetzt nur noch 2n − 2 Kugeln. Für die zweite Person gibt es also
noch 2n−2
Möglichkeiten.
2
(2n+2−2k)
Führt man diesen Gedanken fort, so
gibt
es
für
die
k-te
Person
Möglichkeiten
2
(2n+2−2n) (2)
und für die letzte Person nur noch
= 2 = 1 Möglichkeit.
2
Nach dem Kombinationsprinzip ist somit die Mächtigkeit des Grundraumes:
( )(
)(
) ( )
2n 2n − 2 2n − 4
2
(2n)(2n − 1) (2n − 2)(2n − 3)
(2n)!
|Ωn | =
...
=
...1 = n .
2
2
2
2
2
2
2
Sei
Bn := {({a1 , b1 }, . . . , {an , bn }) | ai ∈ {1, . . . , n}, bi ∈ {n + 1, . . . , 2n},
n
∪
{ai , bi } = A} ⊂ Ωn
i=1
das Ereignis, dass alle n Person zwei Kugeln mit unterschiedlichen Farben ziehen.
Dann ist die Mächtigkeit von Bn : |Bn | = n · n · (n − 1) · (n − 1) · . . . · 1 = (n!)2 .
20
(n!)2
Damit ist P (Bn ) =
.
(2n)!/2n
Für große n lässt sich die Wahrscheinlichkeit näherungsweise mit der Stirling-Formel berechnen:
P (Bn ) =
(n!)2 2n
(2πn)n2n e−2n · 2n √ 1 · 2n √
∼ √
= πn 2n = πn/2n .
2n
−2n
(2n)!
2
4πn(2n) e
Dabei haben wir die Stirling-Formel verwendet. Diese lautet:
√
n! ∼ 2πnnn e−n für n → ∞,
das heißt
√
n!/ 2πnnn e−n → 1
für n → ∞.
Das Schachtelmodell
Dies ist eine duale Betrachtungsweise zum Urnenmodell. Verteilt man k nummerierte
Kugeln auf n nummerierte Schachteln, so gibt (a1 , . . . , ak ) die Schachtelnummern an, in
denen die Kugeln liegen. ai ist die Schachtel, die die i-te Kugel enthält. Da es n Möglichkeiten für jede Kugel gibt, hat man nk Möglichkeiten. Erlaubt man nur je eine Kugel pro
Schachtel, hat die erste Kugel n mögliche Schachteln zur Auswahl, die zweite Kugel nur
n!
(n − 1) u.s.w.; insgesamt (n−k)!
Möglichkeiten. Sind die Kugeln nicht nummeriert, so gelten sie als ununterscheidbar. Einfachbesetzung
bedeutet eine k-elementige Teilmenge von
(n )
Schachteln auszuwählen. Dies geht auf k Weisen. Wie ist es mit Mehrfachbesetzungen
bei ununterscheidbaren Kugeln?
Beispiel: n = 5, k = 5.
1
2
3
4
5
Abbildung 3.1: Schachtelmodell
Sehe die äußeren Wände als fest, die inneren Wände als verschiebbar an. Dies liefert die
Darstellung:
Abbildung 3.2: Schachtelmodell
Umgekehrt liefert eine solche Darstellung eine Urnenbelegung. Wieviele Möglichkeiten
gibt es? Was
(9) ist die Anzahl der Möglichkeiten 4 Wände zwischen und neben 5 Kugeln zu
stecken? 4 !!
21
Zwischen dem Urnenmodell und dem Schachtelmodell besteht ein enger Zusammenhang.
Die Fragestellungen: „Wie viele Möglichkeiten gibt es k Kugeln aus einer Urne mit n
Kugeln zu ziehen?“ und „Wie viele Möglichkeiten gibt es k Kugeln auf n Schachteln zu
verteilen?“ sind äquivalent. Dabei ist das Zurücklegen in die Urne äquivalent zur Mehrfachbesetzung der Schachteln und das Beachten der Reihenfolge ist äquivalent zur Angabe
der Schachtelnummern, in die die nummerierten Kugeln fallen. “Ohne Reihenfolge” bedeutet, dass die Kugeln nicht nummeriert sind. Dann wird lediglich die Anzahl der Kugeln
pro Schachteln angegeben.
So gibt es zum Beispiel genau so viele Möglichkeiten 3 Kugeln aus einer Urne mit 8 Kugeln
ohne Zurücklegen und mit Beachtung der Reihenfolge zu ziehen wie es Möglichkeiten gibt
3 nummerierte Kugeln auf 8 Schachteln zu verteilen.
Die folgende Tabelle gibt die Größen der verschiedenen Grundräume im Urnen und
Schachtelmodell an.
Urnenmodell
mit Zurücklegen
ohne Zurücklegen
mit Reihenfolge
nk
n!
(n−k)!
(n)
k
ohne Reihenfolge
(n+k−1)
k
mit Mehrfachbesetzung ohne Mehrfachbesetzung
nummeriert
nicht nummeriert
Schachtelmodell
Tabelle 3.2: Urnenmodell und Schachtelmodell
3.2
Verteilungen, die aus Gleichverteilungen entstehen
Die Binomialverteilung
Wir leiten diese Verteilung für rationale Erfolgswahrscheinlichkeiten mit Hilfe des Urnenmodells her. In einer Urne seinen W weiße und S schwarze Kugeln. Es werden n Kugeln
mit Zurücklegen gezogen. Die Kugeln seien nummeriert, die Kugeln mit den Nummern
1, . . . W seien weiß und die Kugeln mit den Nummern W +1 bis N = W +S seien schwarz.
Da hier Ziehen mit Zurücklegen und mit Reihenfolge vorliegt enthält der Grundraum N n
Elemente. Fragen wir nun nach der Wahrscheinlichkeit eine gewisse Stichprobe zu ziehen
mit genau k weißen Kugeln. Diese Stichprobe können wir darstellen als eine 0-1 Folge
n
∑
der Länge n (c1 , . . . , cn ) mit
ci = k. Dabei bedeutet ci = 1, die i-te gezogene Kugel
i=1
ist weiß. Nun gibt es nach dem Kombinationsprinzip genau W k S n−k Möglichkeiten eine
solche Folge zu ziehen und die Wahrscheinlichkeit für eine Stichprobe mit genau k weißen
(n )
W k S n−k
.
Da
es
aber
mögliche Folgen gibt mit k weißen Kugeln, ist die
Kugeln ist
k
(W + S)n
Wahrscheinlichkeit “k weiße Kugeln zu ziehen”:
22
( )(
)k (
)n−k
n
W
S
P (“k weiße Kugeln”) =
k
W +S
W +S
( ) ( )k (
)n−r
n
W
W
=
1−
k
N
N
( )
n k
=
p (1 − p)n−k
k
mit p =
W
N
und 0 ≤ k ≤ n.
Wegen der Binomialformel summiert sich die rechte Seite über k zu Eins auf und definiert
damit eine Wahrscheinlichkeitsfunktion. Sie gehört zur Binomialverteilung mit Parametern n und p.
Die Hypergeometrische Verteilung
In vielen Anwendungen, etwa bei der Qualitätskontrolle mittels Stichproben, wird ohne
Zurücklegen gezogen. Wir betrachten deshalb nun die folgende Situation. In einer Urne
seien W weiße Kugeln und S schwarze Kugeln. Aus dieser Urne werde n mal jeweils eine
Kugel gezogen und danach nicht zurückgelegt. Offensichtlich muss dann n ≤ W + S = N
gelten. Sei X die Anzahl der weißen Kugeln in der gesamten Stichprobe. Wir bestimmen
nun die P (X = k) auf zwei Weisen.
Für die erste Herleitung denken wir uns die Kugeln von 1 bis N nummeriert und nehmen
an, die Kugeln seien prinzipiell unterscheidbar. Die Kugeln mit den Nummern 1 bis( W)
seien weiß und die Kugeln mit den Nummern W + 1 bis N seien schwarz. Es gibt Nn
verschiedene Möglichkeiten, aus den N Kugeln eine n-elementige Teilmenge auszuwählen.
Um eine Stichprobe mit k weiße Kugeln zu erhalten, muss man k Elemente aus der Menge
{1, . . . , W } auswählen und n − k Elemente aus der Menge {W + 1, . . . , N } auswählen.
Dies ergibt nach dem Kombinationsprinzip
)
( )(
W
S
k
n−k
viele Möglichkeiten. Damit erhalten wir
(W )(
P (X = k) =
S
k
n−k
(W +S )
n
)
für alle k mit 0 ≤ k ≤ W und 0 ≤ n − k ≤ S. (Offensichtlich können wir nicht mehr
als W weiße oder mehr als S schwarze Kugeln ziehen!) Die obige Verteilung von X heißt
Hypergeometrische Verteilung.
Beispiel:
Ein Kunde weiß, dass im Mittel 10% der Lieferungen von Bauteilen einer Firma defekt
sind. Dieser Anteil ist vertraglich akzeptiert. Um sich gegen einen höheren Anteil an defekten Bauteilen abzusichern, entnimmt der Kunde jeder Einheit zu 50 Bauteilen eine
23
Stichprobe vom Umfang 5 (selbstverständlich ohne Zurücklegen!) und testet diese 5 Bauteile. Der Kunde lehnt die Einheit ab, falls sich unter den fünf gezogenen mehr als ein
defektes Bauteil befindet. Mit welcher Wahrscheinlichkeit lehnt er eine Einheit ab, die 8
defekte Bauteile enthält?
Hier ist N = 50, n = 5, W = 8, S = 42. Damit ist
P (X > 1) = 1 − (P (X = 0) + P (X = 1))
(8)(42) (8)(42)
= 1 − 0(50)5 − 1(50)4
5
5
= 1 − 0.4015 − 0.4226
= 0.1759.
Wir wollen nun noch eine weitere Herleitung der Hypergeometrischen Verteilung betrachten. Dabei gehen wir ähnlich wie bei der Binomialverteilung vor. Es zeigt sich nämlich,
dass – trotz der Abhängigkeit zwischen den Ziehungen – die Reihenfolge, in der weiße und
schwarze Kugeln gezogen werden, keine Rolle spielt. Man sieht dies am besten an einem
Beispiel: sei W = 3, S = 5 und n = 3. Die Wahrscheinlichkeit erst zwei weiße und dann
eine schwarze Kugel zu ziehen ist
3 2 5
3×2×5
× × =
.
8 7 6
8×7×6
Die Wahrscheinlichkeit erst eine weiße, dann eine schwarze und dann noch eine weiße
Kugel zu ziehen ist
3 5 2
3×5×2
× × =
.
8 7 6
8×7×6
Die zwei Ausdrücke ergeben denselben Wert. Offensichtlich hat sich nur die Reihenfolge
der Zahlen im Zähler geändert. Eine Möglichkeit k weiße Kugeln zu erhalten besteht darin,
erst k weiße Kugeln in Folge zu ziehen und anschließend n − k schwarze Kugeln in Folge
zu ziehen. Die Wahrscheinlichkeit für dieses Elementarereignis ist
W
W +S
×
W −1
W +S−1
× ··· ×
W −k+1
W +S−k+1
×
S
W +S−k
×
S−1
W +S−k−1
× ··· ×
S−(n−k)+1
.
W +S−n+1
Die k weißen Kugeln und n − k schwarzen Kugeln können natürlich auch in einer anderen
Reihenfolge auftreten; dies ändert jedoch nichts
( )an der Wahrscheinlichkeit des betreffenden Elementarereignisses. Insgesamt gibt es nk viele verschiedene Elementarereignisse
mit k gezogenen weißen Kugeln. Damit erhalten wir
∏n−k+1
( ) ∏k−1
(S − j)
n
j=0
j=0 (W − j)
P (X = k) =
∏n−1
k
j=0 (W + S − j)
( )
n
W!
S!
(W + S − n)!
=
k (W − k)! (S − n + k)! (W + S)!
(W )( S )
=
n−k
(k W +S
) .
n
24
Man rechnet die letzte Gleichung leicht direkt nach.
Ist N = W +S groß im Verhältnis zu n, so sollte der Unterschied zwischen Ziehen mit und
Ziehen ohne Zurücklegen kaum bemerkbar sein. Wir betrachten nun den Grenzübergang
S, W → ∞ mit
W
→ p ∈ (0, 1).
W +S
Dann gilt auch S/(W + S) → q und N → ∞. Gleichzeitig lassen wir k und n fest. Terme
der Form
W −j
W +S−j
streben dann für 0 ≤ j ≤ k − 1 gegen p und Terme der Form
S−j
W +S−k−j
streben für 0 ≤ j ≤ n − k − 1 gegen 1 − p. Damit strebt P (X = k) gegen
( )
n k
p (1 − p)n−k .
k
Die Wahrscheinlichkeiten der Hypergeometrischen Verteilung streben also gegen die Wahrscheinlichkeiten der Binomialverteilung. Die folgende Tabelle veranschaulicht diese Approximation. Dabei ist n = 5.
k
0
1
2
3
4
5
W =20, S=10 W =100, S=50
0.002
0.004
0.029
0.0039
0.160
0.164
0.360
0.335
0.340
0.331
0.109
0.127
W =200, S=100
0.004
0.040
0.164
0.332
0.330
0.129
W =1000, S=500
0.004
0.041
0.165
0.330
0.329
0.131
p = 2/3
0.004
0.041
0.165
0.329
0.329
0.132
Die genaue Formulierung der Grenzwertaussage lautet:
Satz 3.2.1 Sei N = WN + SN und gelte lim WNN = p mit 0 < p < 1. Sei n ∈ IN fest.
N →∞
Dann gilt für N → ∞
(
)(
)
WN
SN
( )
n k
k
n−k
( )
→
p (1 − p)n−k
N
k
k
für 0 ≤ k ≤ n.
Ein typisches Anwendungsbeispiel ist bei Wahlumfragen. Hier ist typischerweise N =
4 · 107 aber n = 1200.
25
Anwendung in der Qualitätskontrolle
Sowohl Binomial- als auch Hypergeomoetrische Verteilung treten in der Qualitätskontrolle
auf. In einer Warenlieferung oder Produktionseinheit sei W die Anzahl der defekten Stücke
und S die Anzahl der intakten Stücke. Wird eine Produktionseinheit verkauft, so einigen
sich Produzent und Abnehmer darauf, dass der Verkauf nur dann stattfindet, wenn die
Lieferung gewisse Qualitätsstandards erfüllt. Der Qualitätsstandard gelte als erfüllt, wenn
der Anteil der defekten Stücke in der Lieferung maximal c sei.
Es wäre ideal, wenn es eine Möglichkeit gäbe, den Anteil der defekten Stücke exakt zu
bestimmen. Das ist jedoch nur möglich, wenn man jedes einzelne Stück prüft. Dafür ist
aber der Aufwand an Zeit und Geld in der Regel zu hoch. Also bleibt nur die Möglichkeit
aufgrund von Stichproben etwas über die Größen W und S herauszufinden.
Wenn A(p) die Abnahmewahrscheinlichkeit einer Lieferung bezeichnet, in der ein Anteil
von p Stücken defekt ist, wäre ein Prüfverfahren ideal, für das gilt:
{
1 falls p ≤ p0
A(p) =
.
0 falls p > p0
Das geht jedoch nur mit einer Volluntersuchung aller Stücke. Man muss sich also für
einen Mittelweg zwischen Umfang der Stichprobe und Genauigkeit des Testverfahrens
entscheiden.
Bei einer Qualitätskontrolle werden n Teile aus einer Einheit gezogen und überprüft. Die
Wahrscheinlichkeit bei dieser Stichprobe vom Umfang n genau k defekte Stücke zu finden
beträgt
)
) /(
( )(
W +S
S
W
.
p(k) =
n
n−k
k
Man legt eine Grenze c fest, bei der die Einheit gerade noch akzeptiert wird, d.h. sind
höchstens c Teile in dieser Stichprobe defekt, wird die Produktionseinheit abgenommen.
Wir definieren zwei Größen:
Das Produzentenrisiko α ist die Wahrscheinlichkeit, dass eine Prokuktionseinheit, in
der maximal ein Anteil von p1 Stücken defekt ist, nicht abgenommen wird.
Das Abnehmerrisiko β ist die Wahrscheinlichkeit, dass eine Produktionseinheit, in der
der Anteil der defekten Stücke größer oder gleich p2 ist, abgenommen wird. Man beachte,
im Idealfall ist p0 = p1 = p2 .
Um den Rechenaufwand zu verringern verwendet man oft die Binomialverteilung als Näherung der hypergeometrischen Verteilung. p ist dabei der Anteil der defekten Teile in der
untersuchten Einheit. Damit ist
c ( )
∑
n i
A(p) := Pp (höchstens c defekte Teile in Stichprobe vom Umfang n) =
p (1−p)n−i
i
i=0
die Wahrscheinlichkeit, dass die Produktionseinheit abgenommen wird.
Trägt man für einen festen Stichprobenumfang die Abnahmewahrscheinlichkeit A(p) gegen den Anteil p der defekten Stücke auf, so ergibt sich folgendes Schaubild, das man
„operation characteristic“ (OC) nennt:
26
Abblidung3.3: OC-Kurve
Wenn p1 , p2 , α und β festgelegt sind, stellt sich die Frage nach n und c. Im Allgemeinen
wird die OC-Funktion steiler, wenn n größer wird. Für n = 100 und c = 5 gilt:
a) A(0, 05) = 0, 9601,
b) A(0, 10) = 0, 005.
3.3
Verteilungen mit mehr als zwei Kategorien, die
aus Gleichverteilungen entstehen
In einer Urne seien N Kugeln. Davon seien Ni vom Typ i (i = 1, . . . , k und k ≥ 2), wobei
der Typ z.B. die „Farbe“ oder den „physikalischen Energiezustand“ bezeichnen soll. Es
k
∑
soll wieder
Ni = N gelten. Es werden n Kugeln gezogen.
i=1
Frage: Was ist die Wahrscheinlichkeit jeweils ni Kugeln vom Typ i zu ziehen (i = 1, .., k)?
Dabei ist
k
∑
ni = n.
i=1
Der Multinomialkoeffizient
(
n
n1 ...nk
)
bezeichnet die Anzahl der Möglichkeiten eine nk
∑
elementige Menge in k Teilmengen vom Umfang ni , i = 1, . . . , k, zu zerlegen, wobei
ni =
i=1
n.
(
)
( )
Für k = 2 gilt: n1nn2 = n1n!
= nn1 .
!n2 !
Für
)(n−n1 )(n−n1 −n2 ) (nk )
( n k )≥ 2 (gilt:
n
=
. . . nk =
n1
n1 ...nk
n2
n3
(n−n1 )!
(n−n1 −n2 )!
n!
n1 !(n−n1 )! n2 !(n−n1 −n2 )! n3 !(n−n1 −n2 −n3 )!
...1 =
Ziehen mit Zurücklegen und mit Reihenfolge
Die Wahrscheinlichkeit jeweils ni Kugeln vom Typ i zu ziehen (mit
P ({(n1 , . . . , nk )}) =
n
(n1 ...n
)N1n1 ...Nknk
k
Nn
=
(
n
n1 ...nk
)
27
k
∑
i=1
pn1 1 . . . pnk k mit pi =
Ni
.
N
ni = n) ist:
n!
.
n1 !n2 !...nk !
Es gilt:
∑
n1 +...+nk =n
(
∑
P ({(n1 , . . . , nk )}) =
n1 +...+nk =n
n
n1 ...nk
)
pn1 1 . . . pnk k = (p1 + . . . + pk )n = 1.
Dabei haben wir die Multinomialformel
( n ) n1
∑
(a1 + a2 + . . . + ak )n =
a1 . . . ank k verwendet.
n1 ...nk
n1 +...+nk =n
Damit wird durch P eine Wahrscheinlichkeitsfunktion erklärt. Sie heißt Multinomialverteilung.
In der Physik wird diese Verteilung auch Maxwell-Bolzmann-Verteilung genannt. Sie gibt
an, wieviele Teilchen sich im Energieniveau „i“ befinden. Dabei wird angenommen, dass
die Teilchen unterscheidbar (nummerierbar) sind; eine typische Annahme der klassischen
Physik! In den folgenden Beispielen sind die Teilchen nicht unterscheidbar, was typisch
für die Quantenmechanik ist.
Ziehen ohne Zurücklegen und ohne Reihenfolge
(N 1 )
P ({(n1 , . . . , nk )}) =
n1
( )
. . . Nnkk
(N )
0 ≤ ni ≤ Ni , i = 1, . . . , k
n
Diese Verteilung ist eine Verallgemeinerung der hypergeometrischen Verteilung. In der
Physik wird sie auch Fermi-Dirac-Verteilung genannt. Im Schachtelbild: ein Teilchen pro
Schachtel gemäß Pauli-Verbot. Typische Teilchen sind Elektronen.
Ziehen mit Zurücklegen und ohne Reihenfolge
(N1 +n1 −1)
P ({(n1 , . . . , nk )}) =
n1
...
(Nk +nk −1)
(N +n−1)
nk
0 ≤ ni ≤ Ni , i = 1, . . . , k
n
In der Physik wird diese Verteilung Bose-Einstein-Verteilung genannt. Im Schachtelbild:
mehrere Teilchen pro Schachtel, kein Pauli-Verbot. Typische Teilchen sind Photonen.
3.4
Die probabilistische Methode in der Kombinatorik
Wir wollen nun an einem Beispiel zeigen, wie wahrscheinlichkeitstheoretische Überlegungen zu nichttrivialen Resultaten der Kombinatorik führen. Wir wählen als Beispiel
Ramsey-Zahlen. Diese sind Objekte der Kombinatorik, die sehr unzugänglich sind. Zunächst führen wir Ramsey-Zahlen ein. Dazu betrachten wir den vollständigen Graphen
KN mit N Ecken. Dieser Graph verbindet alle N Ecken miteinander.
Beispiel:
Wir sagen KN hat die Eigenschaft (m, n), wenn, egal wie wir die Kanten von KN rot oder
blau färben, es immer einen vollständigen Untergraphen Km gibt, dessen Kanten alle rot
sind, oder es einen vollständigen Untergraphen Kn gibt, dessen Kanten alle blau sind. Ist
s ≥ N , so hat Ks auch diese Eigenschaft. Die kleinste Zahl N mit der Eigenschaft (m, n)
heißt Ramsey-Zahl R(m, n).
28
usw.
K2
K4
K3
K5
Abbildung 3.1: vollständige Graphen mit N Ecken
Bemerkung: Es gilt R(m, 2) = m ebenso R(2, m) = m. Denn, entweder sind alle Kanten
von Km rot oder es gibt eine blaue Kante, also ein blaues K2 .
Man kann zeigen: Für m, n ≥ 2 ist
(
)
m+n−2
R(m, n) ≤
,
m−1
und insbesondere R(k, k) ≤ 22k−3 für k ≥ 2. Wir leiten nun eine untere Schranke für
R(k, k) her. Dazu müssen wir zeigen, dass für ein möglichst großes N < R(k, k) es keine
Färbung von KN gibt, für die ein roter oder blauer Kk auftritt.
Satz 3.4.1 (Erdös, P.)
R(k, k) ≥ 2k/2
für k ≥ 2
Beweis: Wir wissen R(2, 2) = 2. Außerdem ist R(3, 3) ≥ 6, wegen der folgenden Fünfeckfärbung: den Rand außen blau und alle Diagonalen rot.
Sei k ≥ 4 und angenommen, dass N < 2k/2 . Wir betrachten alle rot-blau Färbungen von
KN , wobei jede Kante unabhängig
mit Wahrscheinlichkeit 21 rot oder blau gefärbt wird.
( )
Alle Färbungen, es gibt 2
N
2
, sind gleichwahrscheinlich. Sei A eine Eckenmenge der Größe
( )
k. Die Wahrscheinlichkeit des Ereignisses AR , alle Kanten in A sind rot gefärbt, ist 2−
Dann ist die Wahrscheinlichkeit, dass irgendeine k-Menge rot gefärbt ist,


( )
( )
∪
∑
k
N
AR  ≤
P (AR ) =
· 2− 2 .
PR = P 
k
|A|=k
k
2
.
|A|=k
( )
k
k
N
Mit N < 2 2 und k ≥ 4 und wegen
≤ 2Nk−1 für k ≥ 2 folgt
k
( ) ( )
( )
( )
k2
k
k
Nk − k
1
1
N − k
−
PR ≤
2 2 ≤ k−1 2 2 < 2 2 2 −k+1 = 2− 2 +1 ≤ ⇒ PR < .
k
2
2
2
Ganz entsprechend folgt, dass die Wahrscheinlichkeit PB , dass irgendeine k-Menge blau
gefärbt ist, PB < 12 ist. Es folgt weiter
⇒ PR + PB < 1 für N < 2k/2 .
Das heißt es muss eine Färbung ohne rote oder blaue Kk geben, das heißt KN hat nicht
die Eigenschaft (k, k).
29
Kapitel 4
Bedingte Wahrscheinlichkeiten und
Unabhängigkeit
4.1
Bedingte Wahrscheinlichkeit: Definition und Folgerungen
Einführendes Beispiel:
Eine faire Münze wird dreimal hintereinander geworfen. Dabei entspreche 1 dem Ausgang
Zahl und 0 dem Ausgang Wappen in einem einzelnen Wurf. Also Ω = {0, 1} × {0, 1} ×
{0, 1}. Sei A das Ereignis mindestens zweimal Zahl:
A = {(0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)}.
Für die faire Münze sind alle Ergebnisse gleichwahrscheinlich. Damit ist
P (A) =
|A|
4
1
= = .
|Ω|
8
2
Angenommen wir wissen bereits, dass der erste Wurf Zahl ergeben hat. Wie ändert sich
unsere Einschätzung der Wahrscheinlichkeit für das Eintreten von A? Wir wissen also,
dass das Ereignis
B = {(1, 0, 0), (1, 1, 0), (1, 0, 1), (1, 1, 1)}
auf alle Fälle eintritt. Was ist die bedingte Wahrscheinlichkeit von A gegeben dieses Wissen? Die Intuition legt es nahe, alle Elemente aus B als gleichwahrscheinlich anzusehen
und diese Menge als neuen Grundraum heranzuziehen. Damit erhalten wir als bedingte
Wahrscheinlichkeit
|A∩B|
3
P (A ∩ B)
|A ∩ B|
|Ω|
= = |B| =
.
|B|
4
P (B)
|Ω|
Definition 4.1.1 Seien A und B Ereignisse und sei P (B) > 0. Dann ist
P (A|B) =
P (A ∩ B)
P (B)
die bedingte Wahrscheinlichkeit von A gegeben B.
30
Aus der Definition folgt sofort (für P (B) > 0) die Multiplikationsregel
P (A ∩ B) = P (A|B)P (B).
Aus der Definition folgt weiter
(1) P (·|A) ist Wahrscheinlichkeitsmaß auf P(Ω) mit P (B|A) = 1 für B ⊃ A und P (C|A) =
0 für C ⊂ Ac .
(2) Seien A1 , A2 , . . . , Ak ⊂ Ω mit P (A1 ∩ A2 ∩ . . . ∩ Ak ) > 0. Dann gilt:
P (A1 ∩ A2 ∩ . . . ∩ Ak ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) . . . P (Ak |A1 ∩ . . . ∩ Ak−1 ).
Beweis:
Zu (1):
a) P (Ω|A) =
P (A∩Ω)
P (A)
=
P (A)
P (A)
= 1.
b) Seien Bi ⊂ Ω disjunkt. Dann gilt:
P(
∞
∪
Bi |A) =
i=1
P ([
∞
∪
Bi ]∩A)
i=1
=
P (A)
∞
∪
P(
∞
∑
[Bi ∩A])
i=1
=
P (A)
P (Bi ∩A)
i=1
P (A)
=
∞
∑
P (Bi |A).
i=1
Damit ist P (·|A) ein Wahrscheinlichkeitsmaß auf P(Ω).
Sei B ⊃ A und C ⊂ Ac .
Dann gilt: P (B|A) =
P (A∩B)
P (A)
=
P (A)
P (A)
= 1 und P (C|A) =
P (A∩C)
P (A)
=
P (Ø)
P (A)
= 0.
Zu (2): Beweis mit Induktion. Richtig für k = 2 per Definition. Gelte die Formel für
k − 1, d.h.
P (A1 ∩ . . . ∩ Ak−1 ) = P (A1 )P (A2 |A1 ) . . . P (Ak−1 |A1 ∩ . . . ∩ Ak−2 )
so schreibe
P (A1 ∩ . . . ∩ Ak ) = P (Ak |A1 ∩ . . . Ak−1 ) · P (A1 ∩ . . . Ak−1 )
und setze die Formel für k − 1 ein.
Beispiel: Das Geburtstagsproblem
k Personen befinden sich in einem Raum. Mit welcher Wahrscheinlichkeit haben mindestens zwei von ihnen am selben Tag Geburtstag?
Wir setzen voraus
• das Jahr hat 365 Tage,
• jeder Tag kommt mit gleicher Wahrscheinlichkeit als Geburtstag in Frage,
• es besteht keine Abhängigkeit zwischen den Geburtstagen verschiedener Personen
(also keine Zwillinge!).
31
Der Einfachheit halber denken wir uns die Personen von 1 bis k nummeriert und stellen
uns vor, dass wir sie der Reihe nach befragen. Sei
Ω = {1, . . . , 365}k = {ω|ω = (ω1 , . . . , ωk ); ωi ∈ {1, . . . , 365}}.
Dabei ist ωi der Geburtstag der i-ten Person.
Sei
Dj = {(j + 1)-te Person hat an einem anderen Tag Geburtstag als die Personen
1 bis j}
= {ω ∈ Ω|ωj+1 ̸= ωi für 1 ≤ i ≤ j}.
Dann gilt
365 · 364
364
=
.
365 · 365
365
Sei nun j ≥ 2. Auf dem Ereignis D1 ∩ . . . ∩ Dj−1 haben die Personen 1, . . . , j an j
verschiedenen Tagen Geburtstag. Damit ergibt sich die bedingte Wahrscheinlichkeit des
Ereignisses Dj gegeben D1 ∩ . . . ∩ Dj−1 zu
P (D1 ) = P (ω1 ̸= ω2 ) =
P (Dj |D1 ∩ . . . ∩ Dj−1 ) =
365 − j
j
=1−
.
365
365
(Man beachte, dass dies bedingte Wahrscheinlichkeiten sind. So ist etwa P (D3 |D2c ) =
364/365.) Wir erhalten nun wegen Folgerung (2)
P (D1 ∩ D2 ∩ . . . ∩ Dk−1 )
= P (D1 )P (D2 |D1 )P (D3 |D1 ∩ D2 ) . . . P (Dk−1 |D1 ∩ D2 ∩ . . . ∩ Dk−2 )
)(
) (
)
(
2
k−1
1
1−
... 1 −
= 1−
365
365
365
(
)
k−1
∏
j
=
1−
.
365
j=1
Für größere Werte von k bietet sich folgende Näherung an. Es gilt log(1 − h) ≈ −h und
somit
log(P (D1 ∩ D2 ∩ . . . ∩ Dk−1 )) =
k−1
∑
log(1 − j/365) ≈ −(1/365)
j=1
=−
k−1
∑
j
j=1
k(k − 1)
.
2 · 365
Die Wahrscheinlichkeit, dass mindestens zwei Personen am selben Tag Geburtstag haben,
ist daher näherungsweise
k(k−1)
1 − e− 2·365 .
Die Näherung ist sehr gut. Für k = 23 liefert sie 0.500 im Vergleich zu dem exakten Wert
0.506.
32
Beispiel: Sterbetafeln
Wir betrachten eine Bevölkerungsgruppe, z.B. die Einwohner einer Stadt oder eines Landes und wollen die Lebensdauern ihrer Einwohner erfassen. Dazu ordnen wir jedem Individuum sein ganzzahliges Sterbealter zu. Wir nennen diese Größe T . T ist eine ganzzahlige
Größe, die vom Zufall abhängt. Sei p(k) die Wahrscheinlichkeit im Alter k zu sterben.
Diese ist dann p(k) = P (T = k). Im Versicherungswesen, insbesondere bei Lebensversicherungen interessiert die Sterberate. Diese wird wie folgt erklärt.
Sei S(l) := P (T ≥ l) die Wahrscheinlichkeit mindestens l Jahre alt zu werden (Überlebenswahrscheinlichkeit) und sei h(l) = P (T = l|T ≥ l) die Wahrscheinlichkeit im Alter von l
Jahren zu sterben, wenn man bereits dieses Lebensjahr erreicht hat (Sterberate). Es gilt:
h(l) = P (T = l|T ≥ l) =
P (T = l, T ≥ l)
P (T = l)
p(l)
S(l) − S(l + 1)
=
=
=
.
P (T ≥ l)
P (T ≥ l)
S(l)
S(l)
Darstellung von S(l) durch h(l):
Es gilt: S(l) =
l−1
∏
(1 − h(i)). Das ergibt sich aus der Anwendung der Folgerung (2):
i=1
S(l) = P (T ≥ l) =
l−1
∏
P (T ≥ i + 1|T ≥ i) =
i=1
l−1
∏
i=1
S(i+1)
S(i)
=
l−1
∏
(1 − h(i)).
i=1
Beispiel:
Wir nehmen folgendes an: Die Wahrscheinlichkeit im Alter i zu sterben, gegeben man hat
das Alter i bereits erreicht, sei für alle i gleich p. In Formeln: h(i) = p für alle i.
Dann ist S(l) = (1 − p)l−1 und
p(k) = P (T = k) =
P (T =k)
P (T ≥k)
· P (T ≥ k) = h(k)S(k) = p(1 − p)k−1
für k ∈ N.
Dies ist die Wahrscheinlichkeitsfunktion der geometrischen Verteilung.
Beispiel: Sterbetafel von Breslau nach Halley (1693)
Sterberaten berechnet nach der Halleyschen Tafel:
S(1)
S(2)
S(3)
S(4)
=
=
=
=
..
.
P (T
P (T
P (T
P (T
≥ 1) = 1
≥ 2) = 855/1000
≥ 3) = 798/1000
≥ 4) = 760/1000
S(82) = 28/1000
S(83) = 23/1000
S(84) = 19/1000
S(85) = 0
p(1)
p(2)
p(3)
p(4)
= 145/1000
= 57/1000
= 38/1000
= 28/1000
..
.
p(82) = 5/1000
p(83) = 4/1000
p(84) = 19/1000
p(85) = 0
33
h(1)
h(2)
h(3)
h(4)
= 145/1000
= 57/855
= 38/798
= 28/760
..
.
h(82)
h(83)
h(84)
h(85)
= 5/28
= 4/23
= 1
= 0
Abblidung 4.1: Die Sterberate h für die Sterbetafel von Halley
4.2
Satz von der vollständigen Wahrscheinlichkeit und
Bayesschen Formel
Beispiel:
Von einem gut gemischten Skat-Blatt (bestehend aus 32 Karten) werden vom Stapel
nacheinander zwei Karten gezogen. Was ist die Wahrscheinlichkeit, dass die zweite Karte
“Kreuz oder Pik”, d.h. “schwarz” ist? Vermutung: Sie ist gleich 12 .
P (2. Karte “schwarz”)
= P (2. Karte “schwarz” | 1. Karte “schwarz”) · P (1. Karte “schwarz”)
+ P (2. Karte “schwarz” | 1. Karte “rot”) · P (1. Karte “rot”)
1 15 1 16
1 15 + 16
1
= ·
+ ·
= ·
= .
2 31 2 31
2
31
2
Satz 4.2.1 (Satz von der vollständigen Wahrscheinlichkeit) Es seien A1 , A2 , ...
∞
∪
paarweise disjunkte Mengen mit
Ai = Ω. Weiter sei B ⊂ Ω. Dann gilt:
P (B) =
∞
∑
i=1
P (B|Ai )P (Ai ). Dabei setzt man P (B|Ak )P (Ak ) = 0, falls P (Ak ) = 0.
i=1
Beweis:
∞
∪
A1 ∩ B, A2 ∩ B, ... sind paarweise disjunkt und (Ai ∩ B) = B.
Damit gilt: P (B) = P (
∞
∪
(Ai ∩ B)) =
i=1
∞
∑
i=1
P (Ai ∩ B) =
i=1
∞
∑
i=1
34
P (B|Ai )P (Ai ).
2
Eine direkte Folgerung aus dem Satz von der vollständigen Wahrscheinlichkeit ist die
Bayessche Formel. Sie ist von grundlegender Bedeutung und beschreibt, wie neues Wissen
zu verwerten ist. Sie wird deswegen auch oft als Lernformel bezeichnet.
Satz 4.2.2 (Bayesche Formel) {A1 , . . . An } sei eine disjunkte Zerlegung von Ω. Sei B
ein weiteres Ereignis. Dann gilt:
P (B|Ai )P (Ai )
P (Ai |B) = ∑
.
n
P (B|Aj )P (Aj )
j=1
Beweis:
P (Ai | B) =
P (B | Ai )P (Ai )
P (B | Ai )P (Ai )
= ∑
m
P (B)
P (B | Aj )P (Aj )
j=1
Dabei wurde in der letzten Gleichung der Satz von der vollständigen Wahrscheinlichkeit
verwendet.
2
Beispiel: Farbenblindheit
Farbenblindheit ist eine typische Männerkrankheit. M stehe für männlich, W für weiblich
und f b für farbenblind. Die Zahlenverhältnisse seien wie folgt:
1
1
1
P (M ) = P (W ) = , P (f b|M ) = , P (f b|W ) =
.
2
12
288
Wie groß ist die Wahrscheinlichkeit, dass eine Person männlich ist, wenn sie farbenblind
ist?
1
·1
P (f b|M )P (M )
24
P (M |f b) =
= 1 112 21 1 = .
P (f b|M )P (M ) + P (f b|W )P (W )
25
· + 288 · 2
12 2
Beispiel: Zuverlässigkeit von Prüfverfahren
Ein bestimmter Chip wird in Massenproduktion hergestellt. Dabei wird jeder Chip vor
Auslieferung getestet. Die Produktion hat eine Ausschussrate von 0.01; dass heißt ein
einzelner Chip ist mit Wahrscheinlichkeit 0.01 defekt. Das Prüfverfahren besitzt folgende
Eigenschaften:
• bei einem fehlerfreien Chip zeigt das Prüfverfahren mit Wahrscheinlichkeit 0.1 fälschlich einen Fehler an.
• bei einem fehlerbehafteten Chip zeigt das Prüfverfahren mit Wahrscheinlichkeit 0.05
fälschlich keinen Fehler an.
35
Chips bei denen das Prüfverfahren einen Fehler anzeigt werden aussortiert und die verbleibenden Chips werden ausgeliefert. Mit welcher Wahrscheinlichkeit ist ein ausgelieferte
Chip auch wirklich fehlerfrei? Sei
A = {Chip ist fehlerfrei} und B = {Prüfverfahren zeigt Fehler an}.
Wir wissen P (A) = 0.99, P (B|A) = 0.1 und P (B|Ac ) = 0.95. Mit A1 = A und A2 = Ac
liefert die Formel von Bayes
P (B c |A)P (A)
P (B c |A)P (A) + P (B c |Ac )P (Ac )
0.9 × 0.99
=
0.9 × 0.99 + 0.05 × 0.01
= 0.999.
P (A|B c ) =
Die Wahrscheinlichkeit, dass ein aussortierter Chip auch wirklich defekt ist ergibt sich
mit analoger Rechnung als
P (Ac |B) =
0.95 × 0.01
= 0.0876.
0.95 × 0.01 + 0.1 × 0.99
Beispiel: Welche Urne (Box)?
3 Urnen mit weißen und schwarzen Kugeln seien gegeben:
Box 1
Box 2
Box 3
Abbildung 4.2: Urnen 1-3
Es wird eine Urne zufällig ausgewählt und dann eine Kugel daraus gezogen; die Kugel
wird gezeigt, nicht aber die Urne. Man rate, aus welcher Urne gezogen wurde.
Pick Box
Pick Ball
1/2
1/3
1/2
2/3
1/3
1/3
3/4
1/3
1/4
Abbildung 4.3: Wahrscheinlichkeiten
Bayes-Formel: P (Urne i | weiß) = ?
P (Urne i und weiß) = P (weiß | Urne i)P (Urne i) =
36
1
i
·
3 i+1
P (weiß) =
1 1 1 2 1 3
23
· + · + · =
3 2 3 3 3 4
36
Dann folgt
P (Urne 3 | weiß) =
1
3
·
23
36
3
4
=
3
12
23
36
=
9
23
Weiter sind:
8
23
6
P (Urne 1 | weiß) =
.
23
P (Urne 2 | weiß) =
Beispiel: Diagnostischer Test
Wir betrachten einen Test auf Vorhandensein einer Krankheit, z.B. den PSA-Test auf ein
Prostata-Karzinom. Der Test hat die Ausgänge “positiv” und “negativ”. Aus “positiv”
schließt man auf das Vorhandensein der Krankheit, aus “negativ” auf das Nichtvorhandensein. Doch der Test kann ein falsches Ergebnis liefern. Man unterscheidet zwischen
zwei Fehlern:
Fehler 1. Art: falsch positiv (Es liegt keine Krankheit vor; falscher Alarm)
Fehler 2. Art: falsch negativ (Die Krankheit wurde nicht entdeckt; kein Alarm trotz
Gefahr)
Wir betrachen das folgende Diagnose-Beispiel: Die Krankheitsrate sei 1% und der Testfehler 10%. Die Anwendung der Bayesschen Formel ergibt dann das Folgende
P (k|+) =
P (+|k)P (k)
=
P (+|k)P (k) + P (+|g)P (g)
9
10
·
9
10
1
100
1
· 100
1
+ 10
·
99
100
=
1
.
12
Dabei steht k für krank, + steht für “der Test war positiv” und − steht für “der Test war
negativ”.
Ein Weg ohne die Bayessche Formel und ohne Wahrscheinlichkeitsrechung das Resultat
zu erhalten, geht so: Man stellt sich die Größen in einer Vierfelder-Tafel bezogen auf 1000
Probanden dar und liest das Ergebnis daraus ab.
gesamt Test positiv
krank
10
9
gesund
990
99
gesamt
1000
108
Test negativ
1
891
892
Wie groß ist die Wahrscheinlichkeit krank zu sein, wenn der Test positiv ist? Auch hier
1
9
= 12
. Schließlich lässt sich die Tafel auch noch durch einen binären
lautet die Antwort: 108
Graphen darstellen, was wir jedoch dem Leser überlassen hinzuschreiben.
Für alle die später mal etwas mit Medizinischer Statistik zu tun haben werden, seien noch
ein paar fundamentale Begriffe erklärt. P (+|k) heißt Sensitivität und P (−|g) heißt Spezifität des diagnostischen Tests. Diese beiden Größen beschreiben die statistische Qualität
der Tests. P (k) heißt Prävalenz. P (k|+) heißt positiver prädiktiver Wert und P (g|−)
37
heißt negativer prädiktiver Wert. Bei unserem Beispiel ist P (g|−) = 891
. Dieser Wert
892
besagt, dass es sehr unwahrscheinlich ist, dass man krank ist, wenn der Test negativ ist.
Andererseits, wenn der Test positiv ist, ist die Chance, dass man gesund ist trotzdem
P (g|+) = 1 − P (k|+) = 11
. Der Test produziert also häufig falschen Alarm.
12
4.3
Unabhängigkeit von Ereignissen
Beim wiederholten Würfelwerfen sind wir schon davon ausgegangen, dass sich die Wahrscheinlichkeiten für die Ergebnisse verschiedener Würfe miteinander multiplizieren. Hier
nun kommen wir zur allgemeinen Situation.
Definition 4.3.1 Zwei Ereignisse A, B ⊂ Ω heißen (stochastisch) unabhängig, falls
P (A ∩ B) = P (A) · P (B)
gilt.
Sind A und B unabhängig und gilt P (B) > 0, so ist
P (A|B) =
P (A ∩ B)
P (A)P (B)
=
= P (A).
P (B)
P (B)
Sind A und B unabhängig und gilt P (A) > 0, so ist
P (B|A) = P (B).
Stochastische Unabhängigkeit zweier Ereignisse bedeutet, dass Kenntnis über das Eintreten des einen Ereignisses keine Information hinsichtlich des Eintretens des anderen
Ereignisses liefert.
Sind A und B unabhängig, so sind auch A und B c , Ac und B sowie Ac und B c unabhängig.
Dann ist nämlich
P (A ∩ B c ) = P (A) − P (A ∩ B) = P (A) − P (A)P (B) = P (A)(1 − P (B))
= P (A)P (B c ).
Betrachtet man mehr als zwei Ereignisse gleichzeitig, so muß man mit der Definition
vorsichtiger sein.
Definition 4.3.2 Drei Ereignisse A, B und C heißen unabhängig, falls die folgenden vier
Gleichungen gelten:
P (A ∩ B)
P (A ∩ C)
P (B ∩ C)
P (A ∩ B ∩ C)
=
=
=
=
P (A)P (B)
P (A)P (C)
P (B)P (C)
P (A)P (B)P (C).
38
Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit von drei Ereignissen. (Dies
soll heißen, die ersten drei Gleichungen implizieren nicht die dritte.) Wir zeigen das in
folgendem Beispiel.
Beispiel:
Sei Ω = {0, 1} × {0, 1} und
P ({(0, 0)}) = P ({(1, 0)}) = P ({(0, 1)}) = P ({(1, 1)}) = 1/4.
Dies entspricht also dem zweimaligen Werfen einer fairen Münze. Sei
A = {(0, 1), (0, 0)} (Erster Wurf liefert Wappen)
B = {(0, 1), (1, 1)} (Zweiter Wurf liefert Zahl)
C = {(0, 0), (1, 1)} (Beide Würfe liefern dasselbe Ergebnis)
Dann gilt |A| = |B| = |C| = 2 und |A ∩ B| = |A ∩ C| = |B ∩ C| = 1. Daraus folgt
P (A) = P (B) = P (C) = 1/2 und P (A ∩ B) = P (A ∩ C) = P (B ∩ C) = 1/4. Außerdem
ist A ∩ B ∩ C = Ø und somit
P (A ∩ B ∩ C) = 0 ̸= 1/8 = P (A)P (B)P (C).
Definition 4.3.3 (Unabhängigkeit von Ereignissen) Die Ereignisse A1 , ..., An heißen unabhängig, falls für jede Teilmenge I ⊂ {1, ..., n} gilt
(
)
∩
∏
P
Aj =
P (Aj ) .
j∈I
j∈I
Bemerkung: Dies sind 2n − n − 1 nichttriviale Gleichungen bei n Ereignissen. Für n = 4
also 11 Gleichungen.
Satz 4.3.4 Seien A1 , ..., An unabhängig und Ci ∈ {Ø, Ai , AC
i , Ω} für i = 1, ..., n.
Dann sind C1 , ..., Cn unabhängig. In Formeln:
)
(
∏
∩
P (Ci ) für alle I ⊂ {1, . . . , n}.
P
Ci =
i∈I
i∈I
Insbesondere sind Ac1 , ..., Acn unabhängig.
Beweis:
Es genügt den Fall I = {1, . . . , n} zu betrachten.
Ist eines der Ci = Ø, so steht auf der linken Seite P (Ø) und auf der rechten Seite steht
ein Produkt, in dem ein Faktor 0 ist.
Ist eines der Ci = Ω, so können(wir o.B.d.A.
annehmen,
Cn ist. )In diesem
)
([
] dass
) das (
n
n−1
n−1
∩
∩
∩
Fall steht auf der linken Seite: P
Ci = P
Ci ∩ Ω = P
Ci . Auf der
i=1
i=1
39
i=1
rechten Seite steht:
n
∏
[n−1
∏
P (Ci ) =
i=1
]
n−1
∏
P (Ci ) P (Ω) =
P (Ci ). Somit können wir die
i=1
i=1
Ci = Ω ignorieren.
O.B.d.A. nehmen wir an, dass Ci ∈ {Ai , Aci } und nach eventueller Umnummerierung
Ci = Aci für i = 1, ..., m und Ci = Ai für i = m + 1, ..., n ist.
1. Fall: m + 1 ≤ n
n
∩
Mit Am =
Aj gilt dann:
j=m+1
(
P
n
∩
)
Ci
(
=P
i=1
m
∩
n
∩
Acj ∩
j=1
(
=P
m
∩
=P
)
Acj ∩ Am
m
∪
∩ Am
Aj
(
)
= P Am − P
(
)
)c
j=1
(
Aj
j=m+1
j=1
((
)
(
Am ∩
(
)
= P Am − P
m
∪
))
Aj
j=1
m
∪
(
Am ∩ Aj
)
)
j=1
(
)
= P Am −
( )
= P Am +

m
∑
∑
(
)
(−1)k−1 P Am ∩ Ai1 ∩ . . . ∩ Aik
k=1 {i1 ,...,ik }⊂{1,...,n}
m
∑
∑
k
( )
(−1) P Am P (Ai1 ) . . . P (Aik )
k=1 {i1 ,...,ik }
( )
= P Am 1 +
m
∑
∑

(−1)k P (Ai1 ) . . . P (Aik )
k=1 {i1 ,...,ik }
( )
= P Am
( )
= P Am
m
∏
j=1
m
∏
(1 − P (Aj ))
( )
P Acj
j=1
=
=
n
∏
j=m+1
n
∏
P (Aj )
m
∏
( )
P Acj .
j=1
P (Ci ) .
i=1
40
2. Fall: m = n
Hier ist Ci = Aci für i = 1, ..., n. Nun setzt man für Am = Ω und argumentiert bis zur
drittletzten Zeile genauso!
2
Korollar 4.3.5 Seien A1 , ..., An unabhängig. Dann gilt:
(
P
n
∪
)
=1−
Ai
i=1
(
n
∏
(1 − P (Ai )) ≥ 1 − exp −
i=1
n
∑
)
P (Ai ) .
i=1
Beweis: Es gilt
(
P
n
∪
)
Ai
((
= 1−P
i=1
n
∪
)c )
Ai
(
= 1−P
i=1
n
∩
i=1
)
Aci
= 1−
n
∏
P (Aci ) = 1−
i=1
n
∏
(1 − P (Ai )) .
i=1
Wegen exp(−x) ≥ 1 − x gilt weiter
(
P
n
∪
)
Ai
≥1−
i=1
n
∏
[
exp (−P (Ai )) = 1 − exp −
i=1
n
∑
]
P (Ai ) .
i=1
2
Definition 4.3.6 Eine Folge von Ereignissen (An ; n ≥ 1) heißt unabhängig, falls A1 , . . . , Ak
unabhängig sind für alle k ≥ 1.
Korollar 4.3.7 (Borel-Cantelli Lemma) Sei (An )n≥1 eine Folge von Ereignissen und
∞ ∪
∞
∩
A = lim sup An :=
Am .
n=1 m=n
Dann gilt:
(1)
∞
∑
P (An ) < ∞ ⇒ P (A) = 0.
n=1
(2) Sind A1 , A2 , ... unabhängig und gilt
∞
∑
P (Ak ) = ∞ ⇒ P (A) = 1.
n=1
Beweis:
∞
∞
∑
∪
Zu (1): Sei ε > 0. Dann gilt wegen
P (An ) < ∞ und A ⊂
Am für n ≥ 1:
n=1
m=n
( ∞
)
∞
∪
∑
P (A) ≤ P
Am ≤
P (Am ) < ε für ein hinreichend großes n.
m=n
m=n
P (A) ist also kleiner als jede positive Zahl. Damit folgt P (A) = 0.
41
Zu (2): Es gilt
(
P (A) = lim P
n→∞
∞
∪
)
Am
m=n
= lim lim P
n→∞ p→∞

( n+p
∪
)
Am

m=n
( n+p
)

∑



1
−
exp
−
P
(A
)
≥ lim lim 
m

n→∞ p→∞ 


m=n
|
{z
}
→0 für p→∞
=1
2
Folglich ist P (A) = 1.
Gamblers Rules
Angenommen man spielt ein Spiel sehr oft hintereinander und dessen Gewinnchance ist
1/N . Wie oft muß man spielen, damit man mit mindestens 50% Wahrscheinlichkeit wenigstens einmal gewinnt?
(
)n
1
P (kein Gewinn in n Spielen) = 1 −
N
(
)n
1
1
P (Gewinn in n Spielen) = 1 − 1 −
≥
N
2
(
)n
1
1
⇔ 1−
≤
N
2
(
)
1
1
⇔ n log 1 −
≤ log .
N
2
Sei n∗ = [log( 12 ) / log(1 − N1 )]; dabei ist [x] die kleinste ganze Zahl größer als x für x ∈ IR.
Da log(1 + z) ∼ z für z → 0 gilt, ist die rechte Seite von n∗ asymptotisch gleich
( ) /( )
1
−1
log
= N log 2, wobei log(2) ≈ 0, 69 ≈ 2/3.
2
N
Im Fall des Würfels benötigt man also
[ ( ) /( )]
1
5
∗
n = log
= [3, 8] = 4
2
6
Würfe um mit mindestens 50% Wahrscheinlichkeit eine ”6“ zu werfen.
Beispiel: Fluß in einem Leiter
Angenommen für jeden von den Schaltern in dem folgenden Schaltkreis ist die Wahrscheinlichkeit, dass der Schalter geschlossen ist pi und dass er offen ist qi = 1 − pi , i = 1, . . . , 5.
Man berechne die Wahrscheinlichkeit, dass ein Strom durch den Schaltkreis fließt unter
der Annahme, dass die Zustände der Schalter unabhängig sind.
42
S1
S2
S3
S4
S5
Abblidung 4.4: Schaltkreis
P (Strom fließt) = P (Strom fließt oben entlang) + P (Strom fließt unten entlang)
−P (Strom fließt sowohl oben als auch unten entlang )
Dabei ist wegen der Unabhängigkeit P (Strom fließt oben) = p1 ·p2 , P (Strom fließt unten) =
p3 · p4 · p5 und P (Strom fließt oben und unten) = p1 · p2 · p3 · p4 · p5 und damit
P (Strom fließt ) = p1 · p2 + p3 · p4 · p5 − p1 · p2 · p3 · p4 · p5 .
4.4
4.4.1
Anwendung der Unabhängigkeit in der Zahlentheorie
Primzahlen und Unabhängigkeit
Sei N ∈ N. Dann gilt N = pα1 1 · · · pαk k für geeignete Primzahlen pi und αi ∈ N.
Sei φ(N ) = #{i ∈ N|i < N mit GGT(i, N ) = 1} die Anzahl der natürlichen Zahlen, die
kleiner N und zu N teilerfremd sind.
Beispiel:
N
φ(N )
2 3
1 2
4
2
5
4
6
2
7 8
6 4
9
6
10 11 12 13
4 10 4 12
14 15 16 17 18 19 20
6 8 8 16 6 18 8
Die „1“ zählt stets mit als teilerfremd.
k
∏
Behauptung: φ(N ) = N · (1 − p1j ) (Eulersche Funktion).
j=1
Wir übersetzen die Aufgabenstellung in die Sprache der Wahrscheinlichkeitsrechnung:
Definiere ΩN := {i ∈ N|1 ≤ i ≤ N } = {1, . . . , N }. Für A ⊂ ΩN sei P (A) := |Ω|A|N | .
Sei Ai = {m ∈ ΩN |pi teilt m} die Teilmenge der Zahlen aus ΩN , die durch pi teilbar sind.
Dann ist |Ai | =
N
pi
(Bemerkung:
N
pi
ist eine natürliche Zahl, da pi ein Faktor in der
i
= p1i .
Primzahlzerlegung von N ist.) und P (Ai ) = N/p
N
l
l
∏
∏
1
1
Weiter gilt: P (Ai1 ∩...∩Ail ) = pi ...p
=
P (Aij ), denn |Ai1 ∩. . .∩Ail | =
=
pi
i
1
l
j=1
j
43
j=1
N
.
pi1 ...pil
Die Ereignisse A1 , . . . , Ak sind also unabhängig. Folglich gilt
k
k
∏
∏
P (Zahl ≤ N ist teilerfremd zu N ) = P (Ac1 ∩ . . . ∩ Ack ) =
P (Acj ) =
(1 −
Und damit folgt die Behauptung φ(N ) = N ·
k
∏
j=1
(1 −
j=1
4.4.2
j=1
1
).
pj
1
).
pj
2-dimensionaler Fall
Wähle zufällig 2 Zahlen ≤ N . Dabei soll „zufällig“ heißen, dass jedes Paar (i, j) mit
derselben Wahrscheinlichkeit N12 gewählt wird. Wie groß ist die Wahrscheinlichkeit, dass
diese beiden Zahlen teilerfremd sind?
Der Grundraum ist Ω2N = {(i, j)|i, j ∈ N, max(i, j) ≤ N }.Für A ⊂ Ω2N sei
P (A) =
|A|
|A|
= 2.
2
|ΩN |
N
Da N ∈ N ist, gibt es eindeutig bestimmte Primzahlen pi und αi ∈ N mit N = pα1 1 . . . pαk k .
Sei Am := {(i, j)|pm teilt i und pm teilt j} ∩ Ω2N . Dann ist |Am | = ( pNm )2 und P (Am ) = p12 .
m
Ebenso wie im 1-dimensionalen Fall folgt: Die A1 , . . . , Ak sind unabhängig und
P (Zahlenpaar ≤ N ist teilerfremd) =
P (Ac1
∩ ... ∩
Ack )
k
∏
=
P (Acj )
=
j=1
k
∏
(1 −
j=1
Betrachten wir nun den Grenzübergang N → ∞. Dann hat man
)
k (
∏
1
6
lim P (Zahlenpaar ≤ N ist teilerfremd) = lim
1 − 2 = 2.
N →∞
k→∞
pj
π
j=1
Dabei folgt das Ergebnis aus dem folgenden Lemma:
∑ −s
Lemma 4.4.1 Für s > 1 sei ζ(s) =
n . Dann gilt
n≥1
)−1
∏ (
1
ζ(s) = lim
1− s
.
N →∞
p
p≤N
p prim
Insbesondere ist ζ(2) = lim
∏
(1 −
N →∞ p≤N
p prim
1 −1
)
p2
=
∑
n≥1
n−2 =
π2
.
6
Beweis:
Das folgende Produkt ist ein Produkt geometrischer Reihen.
)−1
)
∏ (
∏ (
1
1
1
=
1 + s + 2s + . . . =
1− s
p
p
p
p≤N
p≤N
p prim
p prim
44
∑
psα1
(α1 ,...,αl ) 1
1
l
· · · psα
l
1
).
p2j
Dabei sind pi die Primzahlen mit p1 < p2 < . . . < pl ≤ N < pl+1 . Nun gilt aber weiter,
da sich jedes n∑≤ N als Produkt von Potenzen von pi angeben lässt, dass obige Summe
1
größer gleich
ist. Andererseits ist diese Summe kleiner gleich ζ(s). Folglich gilt
ns
n≤N
) ∑
∏ (
1
1
0 ≤ ζ(s) −
1− s ≤
.
s
p
n
p≤N
n>N
p prim
Da für s > 1 die rechte Seite für N → ∞ gegen 0 konvergiert, folgt die Behauptung.
2
Bemerkung: Lässt sich das oben definierte P im Fall N → ∞ als Wahrscheinlichkeitsmaß
auf N × N interpretieren?
Antwort: Nein! Denn sei für A ⊂ N × N
Q(A) = lim P (A ∩ Ω2N ), so ist Q kein Wahrscheinlichkeitsmaß, da für jedes Paar
N →∞
∑
(i, j) ∈ N2 gilt: Q({(i, j)}) = lim N12 = 0 und damit
Q({(i, j)}) = 0 im Widerspruch
N →∞
(i,j)
zu Q(N × N) = 1.
45
Kapitel 5
Zufallsvariable und ihre Verteilung
5.1
Zufallsvariable, Verteilung einer Zufallsvariable
Sei Ω eine diskrete, höchstens abzählbare Menge.
Definition 5.1.1 Sei (Ω, P ) ein Wahrscheinlichkeitsraum.Eine Zufallsvariable ist eine
Abbildung
X : Ω → R.
Durch q(x) := P ({ω|X(ω) = x}) wird eine Wahrscheinlichkeitsfunktion auf X(Ω) ⊂ R
definiert. Das Wahrscheinlichkeitsmaß
∑
Q : P(X(Ω)) → [0, 1] mit Q(A) :=
q(x)
x∈A
heißt Verteilung von X. Man schreibt auch P X für Q.
Abbildung 5.1
Sei p(ω) = P ({ω}) die Wahrscheinlichkeitsfunktion von P . Für x ∈ X(Ω) ist im obigen
Bild q(x) = p(ω1 ) + p(ω2 ) + p(ω3 ).
Bemerkungen:
1) X(Ω) ist als Bild von Ω höchstens abzählbar.
46
2) q ist Wahrscheinlichkeitsfunktion, da
∑
∑
q(x) =
P ({ω|X(ω) = x})
x∈X(Ω)
x∈X(Ω)
=
=
∑
∑
x∈X(Ω)
ω|X(ω)=x
∑
p(ω)
p(ω) = 1.
ω∈Ω
3) Für A ⊂ X(Ω) ist
Q(A) =
∑
q(x)
x∈A
=
∑
P ({ω|X(ω) = x})
x∈A
= P ({ω|X(ω) ∈ A})
(
)
= P X −1 (A) .
Beispiel: (Summe zweier Würfelwürfe)
Wir betrachten die Summe der Augenzahlen zweier Würfelwürfe. Bei zweimaligen Werfen
ist der Grundraum Ω2 = {ω = (ω1 , ω2 )|ωi ∈ {1, . . . , 6}, i = 1, 2}. Wir können nun jedem
ω = (ω1 , ω2 ) ∈ Ω2 eine reelle Zahl X(ω) = ω1 + ω2 zuordnen. Dann ist X eine Abbildung
von Ω2 → R und damit eine Zufallsvariable.
Für die Wahrscheinlichkeitsfunktion und das Wahrscheinlichkeitsmaß auf Ω2 gilt:
|A|
p(ω) = |Ω12 | und P (A) = |Ω
.
2|
Die zu X gehörende Wahrscheinlichkeitsfunktion q : R → [0, 1] hat folgende Gestalt:
q(k) = P ({ω ∈ Ω2 |X(ω) = k}) = P ({ω = (ω1 , ω2 ) ∈ Ω2 |ω1 + ω2 = k}) =
|{ω|ω1 + ω2 = 2}|
|{(1, 1)}|
1
=
=
|Ω2 |
36
36
|{ω|ω1 + ω2 = 3}|
|{(1, 2), (2, 1)}|
2
=
=
=
|Ω2 |
36
36
..
.
6
= ... =
36
..
.
|{ω|ω1 + ω2 = 11}|
|{(5, 6), (6, 5)}|
2
=
=
=
|Ω2 |
36
36
|{(6, 6)}|
1
|{ω|ω1 + ω2 = 12}|
=
=
=
|Ω2 |
36
36
∑
für die Verteilung von X: Q(A) =
q(k). Sei beispielsweise
q(2) =
q(3)
q(7)
q(11)
q(12)
Sei A ⊂ R. Dann gilt
|{ω|ω1 +ω2 =k}|
.
|Ω2 |
A = {k ∈ R|k ≤ 3}. So ist Q(A) =
∑
q(k) =
k≤3
3
∑
k=2
47
k∈A
q(k) =
1
.
12
Bemerkungen:
1. Die Verteilung von X definiert ein Maß auf R. Man setzt
(
)
P X (A) := P X (A ∩ X(Ω)) = P X −1 (A)
für A ⊂ R.
P X ist aber ein Wahrscheinlichkeitsmaß auf R. Denn
P X (R) = P X (X(Ω)) = P (Ω) = 1
und
P
X
(∞
∪
)
Ai
=
i=1
∞
∑
P X (Ai )
i=1
für Ai ⊂ R, paarweise disjunkt. Denn:
(∞ )
(
( ∞ ))
∪
∪
Ai
PX
Ai = P X −1
i=1
=P
(∞
∪
i=1
)
X −1 (Ai )
i=1
=
=
∞
∑
i=1
∞
∑
P (X −1 (Ai ))
P X (Ai ).
i=1
2
2. Sei eine Wahrscheinlichkeitsfunktion p auf einer diskreten Teilmenge W =
{x1 , x2 , . . .} ⊂ R gegeben. Durch X : W → R mit X(xi ) := xi wird eine Zufallsvariable auf W erklärt, deren Verteilung P X die Wahrscheinlichkeitsfunktion p
hat. Denn:
P X ({xi }) = P ({z ∈ W |X(z) = xi }) = p(xi ).
3. Wegen 2) spricht man von einer Verteilung, wenn eine Wahrscheinlichkeitsfunktion
p auf einer diskreten Teilmenge von R gegeben wird.
Beispiel von Verteilungen:
1) Binomial-Verteilung b(n, p)
( )
b(n, p; k) = nk pk (1−p)n−k definiert eine Wahrscheinlichkeitsfunktion auf {0, 1, . . . , n}.
2) Bernoulliverteilung b(1, p)
b(1, p; k) = pk (1 − p)1−k für k ∈ {0, 1}.
Die Bernoulliverteilung ist ein Spezialfall der Binomialverteilung mit n = 1.
3) Poisson-Verteilung pois(λ)
pois(λ; k) =
λk −λ
e
k!
ist eine Wahrscheinlichkeitsfunktion auf N ∪ {0}.
48
4) Pascal-Verteilung pasc(r, p)
( ) r
p (1 − p)n−r für n ∈ {r, r + 1, r + 2, . . . }, r ∈ N.
pasc(r, p; n) = n−1
r−1
5) Geometrische Verteilung
Speziell: Für r = 1 ergibt sich pasc(1, p; n) = p(1 − p)n−1 für n ≥ 1.
5.2
Unabhängigkeit von Zufallsvariablen
Definition 5.2.1 (Unabhängigkeit von Zufallsvariablen) X1 , X2 , . . . , Xn seien Zufallsvariablen auf (Ω, P ) und Xi (Ω) sei der Wertebereich von Xi für i = 1, . . . , n. X1 , . . . , Xn
heißen unabhängig, falls für alle zi ∈ Xi (Ω) für i = 1, . . . , n gilt:
(
P
n
∩
)
{Xi = zi }
=
i=1
n
∏
P ({Xi = zi }) .
i=1
Dabei haben wir die Kurzschreibweise: {Xi = zi } = {ω ∈ Ω|Xi (ω) = zi } verwendet.
Satz 5.2.2 X1 , . . . , Xn seien Zufallsvariablen auf (Ω, P ). Dann sind folgende Aussagen
äquivalent:
1) X1 , . . . , Xn sind unabhängig.
(
2) Für alle A1 , . . . , An ⊂ R gilt: P
n
∩
)
n
∏
{Xi ∈ Ai } =
P ({Xi ∈ Ai }).
i=1
i=1
Dabei bedeutet {Xi ∈ Ai } := {ω ∈ Ω|Xi (ω) ∈ Ai }.
Beweis:
Nur 1) ⇒ 2) ist zu zeigen.
Seien A1 , . . . , An gegeben.
Da nur die Elemente aus Xi (Ω) ∩ Ai eine Wahrscheinlichkeit ≥ 0 haben und Xi (Ω) höchstens abzählbar ist, können wir o.B.d.A. annehmen, dass die Ai abzählbar sind und die
Form Ai = {yi1 , yi2 , . . .}∪haben. Damit können wir die Mengen {Xi ∈ Ai } folgendermaßen
zerlegen: {Xi ∈ Ai } = {Xi = yij }.
j
Somit gilt
n
∩
{Xi ∈ Ai } =
i=1
n ∪
∩
∪
{Xi = yiji } =
{X1 = y1j1 , X2 = y2j2 , . . . , Xn = ynjn }
i=1 ji
j1 ,...,jn
49
und damit
P
(
∩
)
{Xi ∈ Ai }
=
i
∑
P ({X1 = y1j1 , X2 = y2j2 , . . . , Xn = ynjn })
j1 ,...,jn
=
n
∑ ∏
P (Xi = yiji )
j1 ,...,jn i=1
=
=
(
n
∏
∑
i=1
n
∏
)
P ({Xi = yiji })
ji
P ({Xi ∈ Ai }) .
i=1
2
Beispiel: (n-facher Münzenwurf einer p-Münze)
Beim n-fachen Münzwurf ist der natürliche Grundraum Ω = {ω = (ω1 , . . . , ωn )|ωi ∈
{0, 1}} und das dazugehörige Wahrscheinlichkeitsmaß wird gegeben durch
P ({(ω1 , . . . , ωn )}) = p
∑
ωi
(1 − p)n−
∑
ωi
.
Wir definieren die Zufallsvariablen Xi : Ω → {0, 1}, Xi (ω) = ωi für i = 1, . . . , n. Dann
sind X1 , . . . , Xn unabhängig und Bernoulli-verteilt nach b(1, p).
Beweis: Sei (ω1′ , . . . , ωn′ ) ∈ Ω beliebig. Dann gilt:
(n
)
n
∩
∏
∑ ′
∑ ′
P
{Xi = ωi′ } = P ({(ω1′ , . . . , ωn′ )}) = p ωi (1 − p)n− ωi =
P ({Xi = ωi′ })
i=1
i=1
und damit sind X1 , . . . , Xn unabhängig. Die Verteilungseigenschaft der Xi folgt wie im
Beweis von Satz 5.2.3 (siehe unten).
n
∑
Sei nun Sn =
Xi . Dann gilt:
i=1
n
({ ∑
})
P (Sn = k) = P ω
Xi (ω) = k
∑
=
ω|
=
ω|
∑
P ({(ω1 , . . . , ωn )})
ωi =k
∑
∑
i=1
pk (1 − p)n−k
ωi =k
( )
n k
=
p (1 − p)n−k .
k
Man sieht, Sn ist binomialverteilt nach b(n, p).
2
Wir geben nun eine Konstruktion eines Wahrscheinlichkeitsraumes aus n unabhängigen
Zufallsvariablen zu vorgegebenen Verteilungen.
50
Satz 5.2.3 Seien (Ωi , Pi ) diskrete Wahrscheinlichkeitsräume mit Ωi ⊂ R für i = 1, . . . , n
und pi , die zu den Wahrscheinlichkeitsmaßen Pi gehörigen Wahrscheinlichkeitsfunktionen.
Weiter sei Ω = Ω1 × . . . × Ωn = {ω = (ω1 , . . . , ωn )|ωi ∈ Ωi , i = 1, . . . , n} und p(ω) =
n
∏
pi (ωi ). Seien Xi (ω) = ωi für i = 1, . . . , n Zufallsvariablen und sei P das zu p gehörige
i=1
Wahrscheinlichkeitsmaß. Dann gilt:
1) p(ω) ist eine Wahrscheinlichkeitsfunktion auf Ω.
2) Die Zufallsvariable Xi ist nach Pi verteilt.
3) X1 , . . . , Xn sind unabhängig.
Beweis:
∑
p(ω) =
Zu 1):
∑
n
∏
=
∑
...
n
∑∏
pi (ωi )
∑
ωn i=1
( ∑ω1
)
p1 (ω1 ) . . .
pn (ωn ) = 1
ω1
ωn
(ω
( 1 ,...,ωn ) i=1
ω∈Ω
pi (ωi ) =
)
{Xi ∈ Ai } = {ω|Xi (ω) ∈ Ai }
Zu 2):
= {ω|ωi ∈ Ai }
= Ω1 × · · · × Ωi−1 × Ai × Ωi+1 × · · · × Ωn
P ({Xi ∈ Ai }) = P (Ω1 × · · · × Ωi−1 × Ai × Ωi+1 × · · · × Ωn )
= P1 (Ω1 ) · · · Pi−1 (Ωi−1 ) · Pi (Ai ) · Pi+1 (Ωi+1 ) · · · Pn (Ωn )
= Pi (Ai )
n
∩
Zu 3):
{Xi ∈ Ai } = {ω|Xi (ω) ∈ Ai , i = 1, . . . , n}
i=1
P
n
(∩
= {ω|ωi ∈ Ai , i = 1, . . . , n}
)
= A1 × A2 × · · · × An
{Xi ∈ Ai } = P (A1 × · · · × An )
∑
=
p(ω)
i=1
ω∈A1 ×···×An
=
∑
n
∏
pi (ωi )
( ∑
)
∑
p1 (ω1 ) . . .
pn (ωn )
ω∈A1 ×···×An i=1)
(
=
ω1 ∈A1
ωn ∈An
= P1 (A1 ) . . . Pn (An )
n
∏
=
P ({Xi ∈ Ai })
2
i=1
Man sieht nun auch: Startet man mit n Bernoulli-Experimenten, so liefert der Satz gerade
den im Beispiel zuvor behandelten n-fachen Münzwurf.
51
Im nächsten Resultat behandeln wir Stabilitätseigenschaften von Verteilungen bei Summenbildung unabhängiger Zufallsvariablen.
Satz 5.2.4 Seien X1 und X2 unabhängige Zufallsvariablen.
1) Sind die Xi binomialverteilt mit Parametern ni und p für i = 1, 2, dann ist X1 + X2
binomialverteilt nach b(n1 + n2 , p).
2) Sind die Xi Poisson-verteilt mit Parameter λi für i = 1, 2, dann ist X1 + X2 Poissonverteilt mit Parameter λ1 + λ2 .
3) Sind die Xi Pascal-verteilt mit Parametern ri und p für i = 1, 2. Dann sind X1 + X2
Pascal-verteilt mit Parameter r1 + r2 und p.
Beweis:
Zu 1): P ({X1 + X2 = l}) = P (
l
∪
{X1 = i, X2 = l − i})
i=0
=
l
∑
P ({X1 = i, X2 = l − i})
i=0
=
l
∑
P ({X1 = i})P ({X2 = l − i})
i=0
=
=
=
=
(
)
l ( )
∑
n1 i
n2
n1 −i
p (1 − p)
pl−i (1 − p)n2 −l+i
i
l−i
i=0
(
)(
)
l
∑
n2
l
n1 +n2 −l n1
p (1 − p)
i
l−i
i=0
(
)(
)
l
∑ n1
n2
l
n1 +n2 −l
p (1 − p)
i
l−i
(i=0
)
n1 + n2
pl (1 − p)n1 +n2 −l
l
Zu 2): P ({X1 + X2 = l}) = P (
l
∪
{X1 = i, X2 = l − i})
i=0
=
l
∑
P ({X1 = i})P ({X2 = l − i})
i=0
=
l
∑
λi
λl−i
2
e
e−λ2
i!
(l − i)!
l
∑ λi λl−i
1 −λ1
i=0
= e−(λ1 +λ2 )
1
2
i! (l − i)!
i=0
()
l
∑ (l )
l!
l
−(λ1 +λ2 ) 1
i l−i
=e
=
λ1 λ2 , da
i
l! i=0 i
i!(l − i)!
l
(λ1 + λ2 )
= e−(λ1 +λ2 )
l!
Die letzte Gleichung folgt mit der binomischen Formel.
52
Zu 3): P (X1 + X2 = l) =
=
l−r2
∑
i=r1
l−r2
∑
P (X1 = i, X2 = l − i)
P (X1 = i)P (X2 = l − i)
i=r1
l−r2 (
∑
)
(
)
i − 1 r1
i−r1 l − i − 1
=
p (1 − p)
pr2 (1 − p)l−i−r2
r1 − 1
r2 − 1
i=r1
[
]
(
)(
)
l−r
∑2 i − 1
l−i−1
=
pr1 +r2 (1 − p)l−(r1 +r2 )
r
−
1
r
−
1
1
2
i=r
1
Wir berechnen den Klammerausdruck weiter und setzten dazu j = i − r1 . Dann gilt
)(
)
l−r2 (
∑
i−1
l−i−1
i=r1
r1 − 1
r2 − 1
l−(r1 +r2 ) (
)(
)
r1 + j − 1 l − r1 − j − 1
=
r1 − 1
r2 − 1
j=0
)(
)
l−(r1 +r2 ) (
∑
r1 + j − 1
l − r1 − j − 1
=
j
l − (r1 + r2 ) − j
( j=0
)
l−1
=
.
l − (r1 + r2 )
∑
Letzteres folgt aus der Normierung der Bose-Einstein-Verteilung (siehe S. 28). Setzt
man dort Ni = ri für i = 1, 2 und n1 = j sowie n2 = l − (r1 + r2 ) − j, so ergibt
N + n = N1 + N2 + n1 + n2 = l und n = n1 + n2 = l − (r1 + r2 ). Man beachte, j zählt
die Mißerfolge bis zum r1 -ten Erfolg und l − (r1 + r2 ) − j die Mißerfolge zwischen r1 -ten
Erfolg und (r1 + r2 )-ten Erfolg.
2
Bemerkungen: Ähnlich wie die Binomial-Verteilung b(n, p) die n-fache “Faltung” von
b(1, p) ist, ergibt sich die Pascal-Verteilung pasc(r, p) als r-fache “Faltung” der geometrischen Verteilung pasc(1, p). Gelegentlich wird sie auch als negative Binomial-Verteilung
bezeichnet.
Satz 5.2.5 Sei X1 und X2 unabhängige Zufallsvariable.
1) Sind Xi binomialverteilt mit Parametern ni und p für i = 1, 2, so ist X1 gegeben
X1 + X2 = l hypergeometrisch verteilt mit Parametern l und n1 , n2 .
2) Sind Xi Poisson-verteilt mit Parametern λi für i = 1, 2, so ist X1 gegeben X1 + X2 = l
binomialverteilt mit Parameter l und λ1 /(λ1 + λ2 ).
Beweis:
Zu 1): Wegen Satz 5.2.4 gilt
53
P (X1 = i, X2 = l − i)
P (X1 + X2 = l)
(n1 ) i
( ) l−i
n1 −i n2
p
p (1 − p)n2 −l+i
(1
−
p)
(n1 +n2 ) l−i
= i
pl (1 − p)n1 +n2 −l
l
(n1 )( n2 )
P (X1 = i | X1 + X2 = l) =
).
= (in1 +nl−i
2
l
2
2) wird in den Übungen behandelt.
54
Kapitel 6
Erwartungswert und Varianz von
Verteilungen
6.1
Der Erwartungswert
Vorbereitende Beispiele
1) Einmaliges Werfen eines Würfels. Der Gewinn sei „i“, falls der Würfel „i“ zeigt. Was
ist ein fairer Einsatz? Antwort: 61 · 1 + 16 · 2 + ... + 16 · 6 = 3, 5.
2) Sei ni die Anzahl der Familien mit „i“ Kindern. Dann ist n = n0 + n1 + ... + n18 die
Anzahl der Familien, und m = n1 +2n2 +...+18n18 die Anzahl der Kinder. Die mittlere
Anzahl der Kinder pro Familie ist m
.
n
Definition 6.1.1 (Erwartungswert) Sei (Ω, P ) ein Wahrscheinlichkeitsraum, p die zu
P gehörige Wahrscheinlichkeitsfunktion und X eine Zufallsvariable auf Ω.
E(X) :=
∑
X(ω)p(ω)
ω∈Ω
heißt Erwartungswert von X, falls X ≥ 0 ist oder
∑
|X(ω)|p(ω) < ∞ gilt.
ω∈Ω
Bemerkungen:
1) Der Erwartungswert ist der “mittlere Wert” einer Zufallsvariablen bzw. ihrer Verteilung.
2) Sei f : R → R eine Funktion. Dann ist f ◦ X eine
∑ Zufallsvariable und wenn ihr
Erwartungswert existiert, so ist dieser E(f ◦ X) :=
f (X(ω))p(ω).
ω∈Ω
3) EX = ∞ ist möglich, falls X ≥ 0 ist! Siehe dazu ein Beispiel unten.
55
∑
∑
|X(ω)|p(ω). Dies sieht man so: Da auf der
∑
rechten Seite eine absolut konvergente Reihe steht, kann man die Reihe
X(ω)p(ω)
4) Falls
|X(ω)|p(ω) < ∞, so gilt E|X| =
ω∈Ω
ω∈Ω
ω∈Ω
umordnen. Es gilt
E(X) =
∑
X + (ω)p(ω) −
ω
∑
X − (ω)p(ω) = E(X + ) − E(X − ),
ω
wobei X + (ω) := X(ω) ∨ 0 und X − (ω) := (−X(ω) ∨ 0) sind. Es gilt außerdem
X ± (ω) ≥ 0. Da |X(ω)| = X + (ω) + X − (ω) ist, gilt auch E|X| = E(X + ) + E(X − ).
Eigenschaften des Erwartungswertes
1) E(α · X) = α · E(X).
{
2) Für A ⊆ Ω gilt: E(1A ) = P (A), wobei 1A (ω) =
1 falls ω ∈ A
ist.
0 falls ω ∈
/A
3) |EX| ≤ E|X|
4) Sind E|X| und E|Y | kleiner unendlich, so gilt E(X + Y ) = E(X) + E(Y ).
5) Sind X, Y Zufallsvariablen mit P ({ω|X(ω) ≤ Y (ω)}) = 1, so gilt: E(X) ≤ E(Y ).
Beweis:
Zu 1): E(αX) =
∑
αX(ω)p(ω) = α
ω∈Ω
Zu 2): E(1A ) =
∑
∑
X(ω)p(ω) = αE(X).
ω∈Ω
1A (ω)p(ω) =
∑
p(ω) = P (A).
ω∈A
ω∈Ω
Zu 3): |EX| = |E(X + ) − E(X − )| ≤ |EX + | + |EX − | = E(X + + X − ) = E|X|.
∑
Zu 4): E(X + Y ) =
(X(ω) + Y (ω))p(ω)
ω∈Ω
∑
∑
Y (ω)p(ω)
X(ω)p(ω) +
=
ω∈Ω
ω∈Ω
= E(X) + E(Y ).
Zu 5): Da P (X ≤ Y ) = 1 folgt
∑
E(X) =
X(ω)p(ω)
ω∈Ω
∑
∑
X(ω)p(ω)
X(ω)p(ω) +
=
ω∈{ω|X(ω)>Y (ω)}
ω∈{ω|X(ω)≤Y (ω)}
∑
Y (ω)p(ω) + 0
≤
ω∈{ω|X(ω)≤Y (ω)}
∑
∑
Y (ω)p(ω)
Y (ω)p(ω) +
=
ω∈{ω|X(ω)>Y (ω)}
ω∈{ω|X(ω)≤Y (ω)}
∑
Y (ω)p(ω)
=
ω∈Ω
= E(Y ).
56
2
Wir folgern nun ohne Kombinatorik Poincarés Ein- und Ausschlußformel:
(
n
∪
P
k=1
)
Ak
=
n
∑
∑
(−1)k−1
P (Ai1 ∩ ... ∩ Aik ).
i1 ,...,ik
k=1
Beweis:
1 − P(
n
∪
Ak ) = P ((
k=1
n
∪
Ak )c )
k=1
= P(
n
∩
Ack )
k=1
= E(1 ∩n
k=1
= E(
= E(
n
∏
Ack
)
1Ack )
k=1
n
∏
(1 − 1Ak ))
k=1
= E(1 +
n
∑
∑
k=1 i1 ,...,ik
= 1+
= 1+
= 1−
n
∑
∑
k=1 i1 ,...,ik
n
∑
∑
k=1 i1 ,...,ik
n
∑
∑
(−1)
k
k
∏
1Aij )
j=1
(−1)k E(1Ai1 ∩...∩Aik )
(−1)k P (Ai1 ∩ ... ∩ Aik )
(−1)k−1 P (Ai1 ∩ ... ∩ Aik )
k=1 i1 ,...,ik
2
Die folgende Transformationsformel ist besonders wichtig. Anstatt auf dem Grundraum
Ω, kann man den Erwartungswert auch über den Bildraum X(Ω) berechnen.
Satz 6.1.2 Sei (Ω, P ) ein Wahrscheinlichkeitsraum und X eine Zufallsvariable mit der
Bildmenge X(Ω) = {x1 , x2 , ...}. Für x ∈ X(Ω) sei q(x) = P ({ω|X(ω) = x}). Weiter sei
f : R → R und es gelte f ≥ 0 oder E|f (X)| < ∞. Dann gilt:
∞
∑
1) E(f (X)) =
f (xi )q(xi ).
i=1
2) Ist Y eine weitere Zufallsvariable auf (Ω, P ) mit Y (Ω) = {y1 , y2 , . . .}. Sei g : R2 → R
und gelte g ≥ 0 oder E|g(X, Y )| < ∞. Dann gilt
∑
Eg(X, Y ) =
g(xi , yj )q(xi , yj )
mit q(xi , yj ) = P (X = xi , Y = yj ).
i,j
57
Beweis:
Zu 1)
E(f (X)) =
=
=
∑
f (X(ω))p(ω)
ω∈Ω
∞
∑
∑
f (xi )
=
∞
∑
i=1
∞
∑
p(ω)
{ω|X(ω)=xi }
i=1
=
f (X(ω))p(ω)
i=1 {ω|X(ω)=xi }
∞
∑
∑
f (xi )P ({ω|X(ω) = xi })
f (xi )q(xi ).
i=1
Zu 2)
Der Beweis geht entsprechend wie 1).
2
6.2
Beispiele von Erwartungswerten
Binomialverteilung
Seien X1 , ..., Xn Bernoulli-Zufallsvariablen mit P (Xi = 1) = pi = 1 − P (Xi = 0) für
i = 1, ..., n.
Dann gilt E(Xi ) = 1 · P (Xi = 1) + 0 · P (Xi = 0) = pi .
Außerdem gilt: E(X1 + X2 + ... + Xn ) = E(X1 ) + ... + E(Xn ) =
n
∑
pi .
i=1
Gilt pi = p für i = 1, ..., n, so liegt die Binomialverteilung vor. Für den Erwartungswert
der Binomial-Verteilung gilt: E(X1 + ... + Xn ) = np.
Auf dasselbe Ergebnis kommt man auch mit Hilfe
Satz 6.1.2, jedoch mit viel mehr
(n) von
k
Rechnung. Ausgehend von P (X = k) = q(k) = k p (1 − p)n−k , hat man
E(X) =
=
=
=
=
=
( )
n
∑
n k
p (1 − p)n−k
k
k
k=0
(
)
n
∑
n k
k
p (1 − p)n−k
k
k=1
(
)
n
∑
n−1 k
n
p (1 − p)n−k
k
−
1
k=1
)
n (
∑
n − 1 k−1
np
p (1 − p)n−k
k
−
1
k=1
n−1
∑ (n − 1)
np
pl (1 − p)(n−1)−l
l
l=0
np.
58
In der dritten Gleichung wird dabei
sche Formel.
(n )
k
)
(
n n−1
k k−1
=
benutzt und in der letzten die Binomi-
Poisson-Verteilung
Man hat P (X = k) =
λk −λ
e .
k!
Es folgt dann
E(X) =
=
∞
∑
k=0
∞
∑
k · P (X = k)
k
k=1
∞
∑
=λ
k=1
=λ
λk −λ
e
k!
λk−1 −λ
e
(k − 1)!
∞
∑
λl
l=0
l!
e−λ
= λ,
wegen der Normierungsbedingung.
Geometrische Verteilung
Hier ist P (X = k) = p(1 − p)k−1 für k = 1, 2, . . . Der Erwartungswert ergib sich als
E(X) =
∞
∑
kp(1 − p)
k−1
=p
∞
∑
k(1 − p)k−1 = p ·
k=1
k=1
Dabei verwenden wir folgende Identität:
∞
∑
für |x| ≤ 1.
1
(x−1)2
kxk−1 =
k=1
1
1
= .
2
p
p
Ein etwas anderer Weg ist: Für X eine Zufallsvariable mit Werten in Z+ gilt
∞
∑
P (X ≥ n). (Beweis später). Man erhält dann
E(X) =
n=1
E(X) =
∞
∑
n=1
P (X ≥ n) =
∞
∑
(1 − p)
n−1
n=1
=
∞
∑
(1 − p)m =
m=0
1
1
= .
1 − (1 − p)
p
Ein Beispiel für E(T ) = ∞
Seien Xi für i = 1, 2, ... unabhängige Zufallsvariablen mit P (Xi = 1) = 12 = P (Xi = −1).
n
∑
Sei Sn =
Xi . Wir denken uns diese Variable als Gewinn nach n Münzwurfspielen.
i=1
Für den Erwartungswert der Xi gilt: EXi = 1 · 21 + (−1) ·
1
2
= 0.
Der Erwartungswert der Gewinnsumme nach n Spielen ist: ESn =
n
∑
i=1
59
EXi = 0.
Sei T = min{n ≥ 1|Sn = 1} die Anzahl der Spiele bis die Gewinnsumme zum ersten Mal
den Wert 1 annimmt.
Man hat dann: 1) P (T < ∞) = 1 und 2) E(T ) = ∞.
Dazu zeigt man (dies folgt später):
( )
1
2k −(2k+1)
2
P (T = 2k + 1) =
k+1 k
Mit Hilfe der Stirling-Formel folgt dann (mit etwas Rechnung)
P (T = 2k + 1) ∼
1
√ .
2(k + 1) πk
Wählt man nun zu vorgegebenem ε > 0, K0 (ε) so, dass für alle k ≥ K0 (ε) gilt:
a) P (T = 2k + 1) ≥ (1 − ε)
b)
1
1
√
2(k + 1) πk
2k + 1
≥1−ε
2k + 2
Dann folgt
ET =
∞
∑
(2k + 1)P (T = 2k + 1)
k=0
∑
2k + 1
√
2(k
+
1)
πk
k≥K(ε)
∑
1
√
≥ (1 − ε)2
= ∞.
πk
k≥K(ε)
≥ (1 − ε)
Die Divergenz
der Reihe folgt nun zum Beispiel durch Vergleich mit der harmonischen
∑ 1
.
Reihe
k
k≥1
6.3
Varianz und Kovarianz
Definition 6.3.1 (Varianz, Standardabweichung) X sei eine Zufallsvariable auf (Ω, P )
2
2
mit
√ E(X ) < ∞. Dann heißt Var(X) = E(X − E(X)) Varianz von X und σ(X) =
Var(X) Standardabweichung von X.
Bemerkungen:
1) Beide Größen sind Maßzahlen für die Streubreite der Verteilung von X um E(X)
herum. Die Standardabweichung hat lineare Skala, die Varianz quadratische.
60
2) Durch die Forderung E(X 2 ) < ∞ ist die Varianz wohldefiniert, denn es gilt:
|X| ≤ 1 + X 2 ⇒ E|X| ≤ 1 + E(X 2 ) < ∞. Folglich ist |E(X)| < ∞ und weiter
−∞ < E(X) < ∞. E(X − E(X))2 ≤ EX 2 + 3(E|X|)2
3) Var(X) = E(X 2 ) − (E(X))2 . Dies sieht man folgendermaßen. Setze µ = E(X). Dann
ist
Var(X) =
=
=
=
E(X − µ)2 = E(X 2 − 2Xµ + µ2 )
E(X 2 ) − 2µE(X) + µ2
E(X 2 ) − 2µ2 + µ2
E(X 2 ) − µ2 .
4) Var(aX + b) = a2 Var(X), denn:
Var(aX + b) =
=
=
=
=
E(aX + b − E(aX + b))2
E(aX − E(aX))2
E(a(X − E(X)))2
a2 E(X − E(X))2
a2 Var(X).
Definition 6.3.2 (Kovarianz, Korrelationskoeffizient) X und Y seien Zufallsvariable mit Var(X) < ∞ und Var(Y ) < ∞. Dann heißt
Kov(X, Y ) := E(XY − E(X)E(Y ))
Kovarianz von X und Y . Die Größe
Kor(X, Y ) :=
Kov(X, Y )
σ(X)σ(Y )
heißt Korrelationskoeffizient von X und Y .
Bemerkungen:
1) Es gilt −∞ < Kov(X, Y ) < ∞. Dies sieht man wie folgt:
Für a, b ∈ R gilt 2|a · b| ≤ a2 + b2 . Setze a = |X − EX| und b = |Y − EY |, so folgt
|(X − EX)(Y − EY )| ≤ 12 [(X − EX)2 + (Y − EY )2 ] und damit
|Kov(X, Y )| ≤ | 12 [(X − EX)2 + (Y − EY )2 ]| ≤ 12 (Var(X) + Var(Y )) < ∞.
2) Es gilt Kov(X, Y ) = E(X · Y ) − EX · EY. Dies ist eine ähnliche Rechung wie in
Bermerkung 3) zur Varianz.
Kov(X, Y ) = E ((X − EX)(Y − EY ))
= E (X · Y − XEY − Y EX + EX · EY )
= E(X · Y ) − EX · EY.
61
3) Sind X und Y unabhängig, so gilt E(XY ) = E(X)E(Y ) und damit Kov(X, Y ) = 0
und Kor(X, Y ) = 0. Die Umkehrung gilt im Allgemeinen nicht (siehe Übungen).
Beweis von 3): Wegen Satz 6.1.2 gilt:
E(X · Y ) =
=
∑
i,j
∑
xi yj P ({ω | X(ω) = xi , Y (ω) = yj })
xi yj P ({ω | X(ω) = xi })P ({ω | Y (ω) = yj })
∑
yj P ({ω | Y (ω) = yj }))
xi P ({ω | X(ω) = xi }))(
i,j
∑
=(
j
i
= E(X)E(Y ).
2
Satz 6.3.3 Seien Xi , i = 1, . . . , n Zufallsvariablen für i = 1, . . . , n mit E(Xi2 ) < ∞
n
∑
Xi . Dann gilt:
und Sn =
i=1
1) Var(Sn ) =
n
∑
Var(Xi ) +
i=1
∑
Kov(Xi , Xj ).
i̸=j
2) Falls X1 , X2 , . . . , Xn unabhängig sind, ist
n
∑
Var(Xi ).
Var(Sn ) =
i=1
Diese Gleichung heißt Gleichung von Bienaymé.
Beweis:
Zu 1): Sei µk = E(Xk ).
n
n
n
∑
∑
∑
(Sn − E(Sn ))2 = ( (Xi − µi ))2 = ( (Xi − µi ))( (Xj − µj ))
i=1
=
n
∑
(Xi − µi ) +
2
i=1
∑
j=1
i=1
(Xi − µi )(Xj − µj )
i̸=j
Bildet man auf beiden Seiten den Erwartungswert, so folgt 1).
Zu 2): Sind die Xi unabhängig, so gilt Kov(Xi , Xj ) = 0 für i ̸= j. Daraus folgt die
Behauptung.
2
6.4
6.4.1
Varianzen einiger Verteilungen
Gleichverteilung auf einer endlichen Menge
Sei Ω = {1, ..., n} und p(i) =
1
n
Abbildung. Dann gilt: E(X) =
für alle i ∈ Ω. Weiter sei X : Ω → R die identische
1
n
n
∑
xi =: xn ,
i=1
62
Var(X) =
1
n
n
∑
(xi − xn )2 .
i=1
Da Var(X) = E(X 2 ) − [E(X)]2 ist, gilt:
n
∑
x2i =
i=1
n
∑
1
n
n
∑
(xi − xn )2 =
i=1
1
n
n
∑
x2i − x2n
und damit
i=1
(xi − xn )2 + nx2n . Man nennt in diesen Fall E(X) arithmetisches Mittel und
i=1
Var(X) empirische Varianz.
6.4.2
Bernoulli-Variablen und ihre Summen
Seien X1 , . . . , Xn unabhängige Zufallsvariablen mit P (Xi = 1) = pi und P (Xi = 0) =
1 − pi . Dann gilt: E(Xi ) = pi und Var(Xi ) = pi − p2i = pi (1 − pi ).
n
n
n
n
n
∑
∑
∑
∑
∑
Sei Sn =
Xi . Dann ist E(Sn ) =
E(Xi ) =
pi und Var(Sn ) =
pi −
p2i .
i=1
i=1
i=1
i=1
i=1
Im Fall, dass pi = p ist für alle i, gilt Var(Sn ) = np(1 − p).
n
∑
Sei p := n1
pi . Dann gilt: Var(Sn ) wird maximal, wenn pi = p für alle i.
i=1
In diesem Fall ist dann Var(Sn ) = np(1 − p).
Beweis:
Var(Sn ) = np −
n
∑
n
∑
p2i = np − (np2 +
i=1
(pi − p)2 ) (siehe Beispiel oben).
i=1
n
∑
Die rechte Seite wird minimal, falls
(pi − p)2 = 0. Dies gilt genau dann, wenn pi = p
i=1
2
für alle i ist.
Wir betonen, dass für pi = p Sn binomialverteilt ist mit Parametern n und p, so dass
Var(Sn ) = np(1 − p) die Varianz von Sn ist.
6.4.3
Poisson-Verteilung
Sei X Poisson-verteilt mit Parameter λ. Dann gilt:
E(X) = λ und Var(X) = E(X 2 ) − [E(X)]2 = λ, denn man kann schreiben:
2
E(X ) =
∞
∑
k
2λ
k=1
∞
∑
=λ
=λ
=λ
k!
k
k=1
∞
∑
2
2
k
k=2
∞
∑
l=0
e−λ
λk−1 −λ
e
(k − 1)!
∞
∑
λk−2 −λ
λk−1 −λ
e +λ
e
(k − 2)!
(k − 1)!
k=1
∞
∑
λl −λ
λm −λ
e +λ
e
l!
m!
m=0
63
= λ2 + λ.
Und damit ist Var(X) = λ2 + λ − λ2 = λ.
6.4.4
Hypergeometrische Verteilung
In einer Urne seien r rote und s schwarze Kugeln. Davon werden n Kugeln ohne Zurücklegen gezogen (n ≤ r + s). Um die Varianz der Anzahl der schwarzen Kugeln in der Ziehung
zu bestimmen, definieren wir für i = 1, . . . , n die Zufallsvariablen Xi = 1 falls die i-te
gezogene Kugel schwarz ist, Xi = 0, falls die i-te gezogene Kugel rot ist.
n
∑
Xi die Anzahl der schwarzen Kugeln in der Ziehung.
Sei Sn =
i=1
Mit p :=
s
r+s
gilt E(X1 ) = E(X12 ) = p und damit
Var(X1 ) = E(X12 ) − (E(X1 ))2 = p − p2 = p(1 − p).
Es lässt sich weiter zeigen, dass P (Xi = 1) = P (X1 = 1) = p für alle i ist und dass
P (Xj = 1, Xk = 1) =
s
s−1
r+s r+s−1
für alle j ̸= k ist. Der Beweis folgt später.
Damit ist: Var(Xi ) = E(Xi2 ) − (E(Xi ))2 = p − p2 = p(1 − p) = Var(X1 ) und
Kov(Xj , Xk ) = E(Xj Xk ) − E(Xj )E(Xk )
= P (Xj = 1, Xk = 1) − p2
=
s−1
s
− p2
r+s r+s−1
= −p(1 − p)
1
r+s−1
für j ̸= k.
Unter Verwendung von Satz 6.3.3 folgt daraus:
)
( n
n
∑
∑
∑
Var(Xi ) +
Kov(Xj , Xk )
Var(Sn ) = Var
Xi =
i=1
i=1
j̸=k
1
r+s−1
1
= np(1 − p) − np(1 − p)(n − 1)
[
] r+s−1
n−1
= np(1 − p) 1 −
.
r+s−1
= nVar(X1 ) − n(n − 1)p(1 − p)
Wenn wir alle r + s Kugeln aus der Urne ziehen, haben wir auch alle schwarzen Kugeln
gezogen und somit ist Sn = s. Für n = r + s ist Var(Sn ) = 0, was auch die Formel
bestätigt.
64
6.5
Das Gesetz der Großen Zahlen
Wir wollen nun das Verhalten des arithmetischen Mittels X n =
groß wird. Seien X1 , X2 , ..., Xn unabhängig und X n =
(
)
(
Var X n = Var
n
1∑
Xi
n i=1
)
1
n
n
∑
1
n
n
∑
Xi studieren, wenn n
i=1
Xi . Dann gilt nach Satz 6.3.3
i=1
n
(∑ )
1
1 ∑
= 2 Var
Xi = 2
Var(Xi ).
n
n i=1
Haben die X1 , ..., Xn alle dieselbe Verteilung, so gilt:
n
∑
Var(X n ) = n12 Var(X1 ) und E(X n ) = n1
E(Xi ) = E(X1 ).
i=1
Da die Varianz von X n gegen 0 geht für n → ∞, vermutet man, dass X n → E(X1 ). Es
ist aber nicht unmittelbar klar, wie das zu formulieren ist.
Vorbereitend zeigen wir eine grundlegende Ungleichung.
Satz 6.5.1 (Tschebychev-Ungleichung) Sei X eine Zufallsvariable mit E(X 2 ) < ∞.
Dann gilt für jedes ε > 0:
P ({ω : |X(ω) − E(X)| > ε}) ≤
Var(X)
.
ε2
Beweis: Sei X ′ (ω) := X(ω) − E(X). Dann gilt: E(X ′ ) = 0 und
Var(X) = Var(X ′ ) = E(X ′2 ). Damit folgt:
P (|X − E(X)| ≥ ε) = P (|X ′ | ≥ ε)
∑
P (X ′ = x)
=
{x∈X ′ (Ω): |x|≥ε}
∑
≤
{x∈X ′ (Ω): |x|≥ε}
≤
x2
P (X ′ = x)
ε2
1 ∑ 2
x P (X ′ = x)
ε2
′
x∈X (Ω)
1
E(X ′2 )
ε2
1
= 2 Var(X ′ )
ε
1
= 2 Var(X).
ε
=
2
Satz 6.5.2 (Gesetz der Großen Zahlen) Für jedes n seien Xi , i = 1, . . . , n unabhänn
∑
Xi . Dann
gige und identisch verteilte Zufallsvariablen mit E(X12 ) < ∞. Sei X n = n1
i=1
gilt für jedes ε > 0:
lim P ({ω : |X n (ω) − E(X1 )| > ε}) = 0.
n→∞
65
P
Bemerkung: Wir schreiben dafür auch X n → E(X1 ) und sagen X n → E(X1 ) stochastisch.
Beweis: Setze in die Tschebychev-Ungleichung (Satz 6.5.1) X := X n ein. Dann gilt:
( n
)
( )
n
(
) Var X n
1
1∑
1 ∑
1
P |X n − E(X n )| > ε ≤
=
Var
X
Var(X
)
=
Var(X1 ).
=
i
1
ε2
ε2
n i=1
ε2 n2 i=1
nε2
Damit folgt, wenn man E(X n ) = E(X1 ) einsetzt
(
)
(
)
lim P |X n − E(X1 )| > ε = lim P |X n − E(X n )| > ε = 0.
n→∞
n→∞
2
Beispiel p-Münze: Wir betrachten eine p-Münze, d. h. P (Xi = 1) = p,
P (Xi = 0) = 1 − p. Damit ist E(Xi ) = p. Die Xi seien unabhängig und X n =
1
n
n
∑
Xi .
i=1
P
Die relative Häufigkeit der „1“ bei n Würfen konvergiert gegen p, X n → E(X1 ) = p.
Das ist aber genau der Spezialfall des Gesetzes der großen Zahlen, den Bernoulli 1713
entdeckte.
Speziell beim Würfeln setzt man Xi = 1, falls das Ergebnis “6” ist und 0 sonst.
n
∑
Dann gilt X n = n1
Xi → 16 . In Worten:
i=1
0.16
0.14
0.10
0.12
relative Haeufigkeit der "6"
0.18
0.20
Die relative Häufigkeit der Sechsen in n Würfen konvergiert für n → ∞ gegen 1/6.
0
1000
2000
3000
4000
5000
Wuerfe
Abbildung 6.1: relative Häufigkeit
Eine Anwendung (Wahlumfrage):
Vor einer Wahl werden n Personen befragt, ob sie die Partei A wählen werden oder nicht.
Nur Ja-Nein-Antworten sind zugelassen. Dabei setze man Xi = 1 falls Person i die Partei
A wählt und 0 sonst. Es sei P (Xi = 1) = p die “Popularität” der Partei A. Mit Hilfe von
X n lässt sich nun p schätzen. Es gilt: E(X n ) = p, Var(X n ) = p(1−p)
und X n → p.
n
66
Die Empirische Verteilung
Seien X1 , X2 , . . . , Xn unabhängig Zufallsvariablen mit gleicher Verteilung Q und Werten
∑
bereich X(Ω) = {z1 , z2 , . . . , zk }. Sei Fn (z) = n1
1{Xi =z} für z ∈ X(Ω). Dann gilt für
i=1
n → ∞: Fn (z) → Q(z) für alle z ∈ X(Ω).
Fn (·) heißt empirische Verteilung, in Englisch: sample distribution.
∑
Beachte:
Fn (z) = 1.
z
Beweis:
Da die Xi unabhängig sind, sind auch 1{Xi =z} , i = 1, . . . , n unabhängig. Das Gesetz der
Großen Zahlen liefert: Fn (z) → E1{X1 =z} = P (X1 = z) = Q(z).
2
0.166
0.162
0.164
relative Haeufigkeiten
0.12
0.08
0
0.16
0.04
relative Haeufigkeiten
0.16
0.168
0.2
0.17
Beispiel: Würfeln!
1
2
3
4
5
6
1
2
Ergebnis
3
4
5
6
Ergebnis
Abbildung 6.2: Empirische Verteilung bei n = 5000
6.6
Die Approximation stetiger Funktionen auf dem
Intervall [0,1] durch Polynome.
Mit Stochastik lassen sich auch Resultate der Analysis beweisen. Wir zeigen nun, wie sich
jede stetige Funktionen durch “Bernstein-Polynome” approximieren lässt.
Satz 6.6.1 Sei f : [0, 1] → R, f stetig. Sei Bn (p) :=
n
∑
k=0
( )
f ( nk ) nk pk (1 − p)n−k . Dann gilt:
Die Folge von Funktionen (Bn )n∈N konvergiert gleichmäßig gegen f für n → ∞.
In Formeln: lim max |Bn (p) − f (p)| = 0.
n→∞ 0≤p≤1
Beweis: Seien X1 , ..., Xn unabhängige, identisch verteilte Bernoulli-Variablen mit
n
∑
Xi .
P (Xi = 1) = p = 1 − P (Xi = 0) und Sn = n1
Dann ist
Ef ( Snn )
=
n
∑
k=0
i=1
f ( nk )b(n, p; k),
wobei b(n, p; k) =
67
(n )
k
pk (1 − p)n−k .
Da f auf dem kompakten Intervall [0, 1] stetig ist, ist f gleichmäßig stetig auf [0, 1].
Damit gilt: ∀ε > 0 ∃δ > 0 mit |f (x) − f (y)| ≤ ε falls, |x − y| ≤ δ.
Außerdem ist f beschränkt, also max |f (x)| ≤ M für ein geeignetes M ∈ R.
0≤x≤1
Sei ε ≥ 0. Dann gibt es ein δ ≥ 0 mit |f (x) − f (y)| ≤ ε falls |x − y| ≤ δ.
Es gilt dann mit Hilfe der Abschätzung beim Beweis des Gesetzes der Großen Zahlen:
|f (p) − Bn (p)| = |
n
∑
f (p)b(n, p; k) −
k=0
n
∑
n
∑
k
f ( )b(n, p; k)|
n
k=0
k
(f (p) − f ( ))b(n, p; k)|
n
k=0
∑
∑
k
k
≤
|f (p) − f ( )|b(n, p; k) +
|f (p) − f ( )|b(n, p; k)
n
n
k
k
−p|≤δ}
−p|>δ}
{k:| n
{k:| n
∑
∑
≤ε
b(n, p; k) + 2M
b(n, p; k)
=|
k
{k:| n
−p|≤δ}
k
{k:| n
−p|>δ}
Sn
− p| > δ})
n
p(1 − p)
ε + 2M
nδ 2
1
ε + 2M
da max p(1 − p) = 1/4 ist,
0≤p≤1
4nδ 2
M
ε+
2nδ 2
2ε,
falls n hinreichend groß ist unabhängig von p.
≤ ε + 2M · P ({|
≤
≤
=
≤
Damit ist die Konvergenz gleichmäßig über [0, 1].
2
6.7
Poisson-Verteilung und das Gesetz der kleinen
Zahlen
Wir werden nun einen Grenzwertsatz speziell für die Binomialverteilung kennenlernen.
Sei X binomialverteilt, das heißt
( )
n k
P (X = k) =
p (1 − p)n−k für 0 ≤ k ≤ n.
k
Wir betrachten in diesem Abschnitt den Fall pn → 0 und n → ∞, so dass npn → λ. Wir
haben also eine große Anzahl von Versuchen vorliegen mit jeweils sehr kleiner Erfolgswahrscheinlichkeit. Dies erklärt den Namen “Gesetz der kleinen Zahlen”. Es gilt
(
)n
(
λ
npn )n
n
≈ 1−
≈ e−λ .
P (X = 0) = (1 − pn ) = 1 −
n
n
68
Letzteres folgt aus
(
)n
λ
lim 1 −
= e−λ .
n→∞
n
Damit haben wir schon eine Näherungsformel für P (X = 0). Um auch für die weiteren Wahrscheinlichkeiten eine Approximation zu erhalten, betrachten wir zunächst das
Verhältnis
P (X = k)
.
R(k) =
P (X = k − 1)
Es gilt
(n ) k
p (1 − p)n−k
k
R(k) = ( n ) k−1
=
p (1 − p)n−k+1
k−1
n!
k!(n−k)!
n!
(k−1)!(n−k+1)!
p
n−k+1 p
=
.
1−p
k
1−p
Damit folgt bei n → ∞ und pn → 0 mit npn → λ (bei festem k)
(
)
npn
k−1 1
λ
R(k) =
1−
→ .
k
n
qn
k
Also R(k) ≈ λ/k. Damit gilt weiter
P (X = k) = P (X = 0)R(1)R(2) . . . R(k)
λ
λλ
...
≈ e−λ
12
k
k
λ
= e−λ .
k!
Diese Näherung heißt Poisson-Näherung.
Man kann nun zusammenfassen als das Gesetz der kleinen Zahlen:
( )
n k
λk
pn (1 − pn )n−k → e−λ falls npn → λ gilt.
k
k!
Beispiel: Defekte in einem Produktionsprozess
Ein Produktionsprozess führt zu 1% defekten Einheiten. Wie groß ist die Wahrscheinlichkeit 2 oder mehr defekte unter 100 produzierten Teilen zu finden? Die Verteilung der
1
:
Defekten ist binomialverteilt mit n = 100 und p = 100
P (0 oder 1 Defektes) =
=
=
=
(
)100
(
)99
1
1
1
1−
+ 100 ·
1−
100
100
100
(
)100 (
)99
99
99
+
100
100
0,36603234 + 0,36972964
0,735762
Näherungsweise ist die Verteilung der Defekten poissonisch mit Parameter 1. Dann ist
69
P (0 oder 1 Defektes) = 2 · e−1 = 0,735758
Damit erhält man in beiden Rechnungen
P (2 oder mehr Defekte ) = 0,26424.
Der Unterschied in der Approximation erscheint erst in der 6. Stelle hinter dem Komma.
Ein Datenbeispiel, für das die Poisson-Verteilung sehr gut paßt, ist die Statistik der Hufschlagtoten in der Preußischen Armee von 1875 bis 1894. Dabei ergeben sich 196 Tote
in 280 Regimentsjahren. Dies ergibt als beste Anpassung eine Poisson-Verteilung mit
λ = 196
= 0,7.
280
Number of Deaths by Horsekicks
in the Prussian Army
from 1875-1894 for 14 Corps
Year G∗ I∗ II III IV V VI∗ VII VIII IX X XI∗ XIV XV Total
1875
1
1
1
3
1876 2
1
1
1
5
1877 2
1
1
1
2
7
1878 1 2 2 1 1
1
1
9
1879
1 1 2
2
1
2
1
10
1880
3 2 1 1 1
2 1
4
3
18
1881 1
2 1
1
1
6
1882 1 2
1
1
1 2
1
4
1
14
1883
1 2
1
2
1
1
3
11
1884 3
1
1
2
1
1
9
1885
1
2
1
1
5
1886 2 1
1 1
1
1
1
3
11
1887 1 1 2 1
3
2
1
1
1
2
15
1888
1 1
1
1
1
1
6
1889
1 1
1
1
1 2
2
2
11
1890 1 2
2
1
1
2
2 1
1
2
2
17
1891
1 1 1
1
1
3
3
1
12
1892 1 3 2
1 1
3
1
1
1
1
15
1893
1
1
2
1
3
8
1894 1
1
1
1
4
Total 16 16 12 12 8 11 17 12
7
13 15 25
24
8
196
∗
G indicates Guard Corps
G, I, VI and XI Corps’ organization differ from the others
70
6.8
Der zentrale Grenzwertsatz
Seien X1 , X2 , . . . , Xn unabhängige Zufallsvariablen, alle mit derselben Verteilung und mit
endlichem Erwartungswert E(X1 ) = µ und endlicher Varianz Var(X1 ) = σ 2 . Sei Sn =
n
∑
Xi . Wir interessieren uns für das Verhalten von
i=1
Sn∗ =
Sn − nµ
√
nσ
für wachsendes n.
Es gilt E(Sn∗ ) = 0 und Var(Sn∗ ) = 1. Man sagt Sn∗ ist standardisiert. Nun gilt:
∫ b
1
2
∗
√ e−x /2 dx
lim P (a ≤ Sn ≤ b) = Φ(b) − Φ(a) =
n→∞
2π
a
0.0
0.0
0.1
0.1
0.2
0.2
0.3
0.3
0.4
0.4
Diese Aussage wird “zentraler Grenzwertsatz” genannt. Sie besagt, dass für große n Sn∗
näherungsweise normalverteilt ist.
−4
−2
0
2
4
−4
−2
0
2
4
Abbildung 6.3: Approximation der Binomialverteilung durch die Normalverteilung
(n=100, n=1000)
Anschaulich heißt dies, die Fläche unter dem Histogramm der Verteilung von Sn∗ zwischen
2
a und b konvergiert für n → ∞ gegen die Fläche unter der Kurve von φ(x) = √12π e−x /2
zwischen a und b. φ heißt Gaußsche Glockenkurve (Sie findet sich auch auf der Vorderseite
des 10 DM Scheins).
Abbildung 6.4: 10 DM Schein
71
∫z
Die Funktion Φ(z) = −∞ φ(x) dx ist gut tabelliert und in vielen hochwertigen Taschenrechnern abrufbar. Sie lässt sich nicht elementar berechnen. Es gilt Φ(−z) = 1 − Φ(z) für
z > 0. Dies folgt direkt aus der Symmetrie von φ(x) um 1/2.
Abbildung 6.5: Symmetrie der Normalverteilung
Es gilt Φ(z) − Φ(−z) = 2Φ(z) − 1.
Hier sind drei Werte dieser Funktion, die man sich für Rechenzwecke merken kann.
z
1
2
3
Φ(z) − Φ(−z)
0,683
0,954
0,997
Der Wert Φ(4) − Φ(−4) = 0,999937.
Ein altbekannter Spezialfall des zentralen Grenzwertsatzes ist die Approximation der
Binomialverteilung für den Fall nicht seltener Ereignisse:
Satz 6.8.1 (de Moivre-Laplace) Seien X1 , X2 , . . . , Xn unabhängige Bernoulli-verteilte
n
∑
Zufallsvariablen mit Parameter p. Sei Sn =
Xi . Dann gilt für −∞ ≤ a < b ≤ ∞
i=1
(
lim P
n→∞
Sn − np
a≤ √
≤b
np(1 − p)
)
= Φ(b) − Φ(a).
Der Beweis folgt in Abschnitt 6.9.
Bemerkung:
Beachte Sn ist binomialverteilt. Der Satz wird oft so verwendet:
(
)
(
)
b ( )
∑
n k
b
−
np
a
−
np
(+)
P (a ≤ Sn ≤ b) =
p (1 − p)n−k ≈ Φ √
−Φ √
.
k
np(1
−
p)
np(1
−
p)
k=a
Dazu beachte man: Sn ≤ b ⇔ √Sn −np ≤ √ b−np .
np(1−p)
np(1−p)
Für kleine n ist die Approximation (+) nicht sehr gut und es empfiehlt sich eine Stetigkeitskorrektur, die darin besteht die approximierende Normalverteilung der Kästchenbreite anzupassen.
72
(
P (a ≤ Sn ≤ b) ≈ Φ
b + 12 − µ
σ
)
(
−Φ
a − 12 − µ
σ
)
mit µ = np und σ 2 = np(1 − p).
Abbildung 6.6
Den Vorteil zeigt das folgende extreme Beispiel:
n = 100, p = 21
P (Sn = 50) ≈ Φ((50 + 12 − 50)/5) − Φ((50 − 12 − 50)/5) = Φ(0, 1) − Φ(.0, 1) = 0,0796
Der exakte Wert ist 0,07959, während die Approximation mit (+) einfach 0 ergibt.
Es folgt nun ein Beispiel, bei dem n so groß ist, dass man die Stetigkeitskorrektur außer
acht lassen kann.
Beispiel 1:
1) Wie groß ist die Wahrscheinlichkeit, dass in 6000 Würfen eines Würfels die “6”
a) mehr als 1100 mal auftritt,
b) mindestens 950 mal und höchstens 1050 mal auftritt?
Zu a)
Zu b)
P (S6000 > 1100) = P (S6000 − 1000 > 100)
(
)
S
100
6000 −1000
√
√
=P
>
6000· 16 · 56
6000· 16 · 56
√ )
( ∗
= P S6000 > 12
√
≈ 1 − Φ( 12) = 0,00028
)
(
50
∗
P (|S6000 − 1000| ≤ 50) = P |S6000 | ≤ √ 5000
√6 ]
[ √
≈ Φ( 3) − Φ(− 3) = 0,917 .
Beispiel 2: (Wahlumfrage (Fortsetzung))
1) Wir verwenden das Binomialmodell.∑Seien p die Popularität einer Partei A, n die
Anzahl der befragten Wähler, Sn = ni=1 Xi die Anzahl der Stimmen in der Umfrage
für A. pbn = X n = Snn ist Popularität der Partei A in der Wahlumfrage, ein Schätzer
für p. Sei p = 12 . Wie groß ist die Wahrscheinlichkeit ein Ergebnis zu erhalten, das um
73
mehr als 2,5% von der Schätzung pbn abweicht, wenn 1200 bzw. 2000 Wähler befragt
werden. In Formeln:
(
)
Sn
P0,5 − 0, 5 ≥ 0, 025 =?
n
Hier wendet man den Satz von de-Moivre-Laplace näherungsweise an. Obiger Ausdruck
ist gleich
)
(
)
(
S − n · 0, 5 S − n · 0, 5 √
n
·
0,
025
n
n
P0,5 √
= P0,5 √
≥ √
≥ 0, 05 n
2
2
n · (0, 5)2 n · (0, 5)
n · (0, 5) √
√
∼
= Φ(−0, 05 n) + 1 − Φ(0, 05 n)
√
= 2Φ(−0, 05 n)
{
0, 033 für n = 1200
=
0, 025 für n = 2000 .
2) Eine verwandte Frage ist: Wie wahrscheinlich ist es, dass bei einer Befragung von 1200
bzw. 2000 Wählern und bei einer Schätzung von pbn = 0, 525 doch nicht die absolute
Mehrheit vorliegt. Gefragt ist nach
sup Pp (b
pn ≥ 0, 525) = P0,5 (b
pn ≥ 0, 525)
p≤ 12
= P0,5 (b
pn − 0, 5 ≥ 0, 025)
)
(
√
√ Sn − n · 0, 5
n · 0, 025
= P0,5
n
≥
0, 5
0, 5
( ∗
)
√
∼
= P0,5 Sn ≥ 0, 05 n
√
= 1 − Φ(0, 05 n)
{
0, 0416 für n = 1200
=
0, 0126 für n = 2000 .
Beispiel 3:
Wie viele Wähler muss man befragen, um mit einer Abweichung von höchstens 1% das
Wahlergebnis einer Partei A mit 90% Sicherheit vorherzusagen?
Hier ist das Binomialmodell angebracht. Sei pbn = Snn der Anteil der Befürworter der Partei
A unter den Befragten. Sn ist binomialverteilt mit Parameter n und p0 . p0 ist unbekannt
und soll bis auf 1% bestimmt werden, d.h.
(∗)
Pp0 (|b
pn − p0 | ≤ 0,01) ≥ 0,90 .
Wie groß muss n sein, damit Aussage (∗) für alle p0 gilt?
Sei p1 = p0 − 0,01, p2 = p0 + 0,01, dann gilt
74
Pp0 (p1 ≤ pbn ≤ p2 ) =
≈
=
=
Dies ist äquivalent zu :
Nun folgt
(√
)
√
n(p1 − p0 )
n(p
−
p
)
2
0
Pp0 √
≤ Sn∗ ≤ √
p0 (1 − p0 )
p0 (1 − p0 )
(√
)
(√
)
n(p2 − p0 )
n(p1 − p0 )
Φ √
−Φ √
p0 (1 − p0 )
p0 (1 − p0 )
( √
)
n(p2 − p0 )
1 − 2 Φ −√
p0 (1 − p0 )
)
(
√
n · 0,01
!
= 0,9 .
1 − 2 Φ −√
p0 (1 − p0 )
(
)
√
n · 0,01
.
0,1 = 2 Φ − √
p0 (1 − p0 )
√
n · 0,01
−Φ (0,05) = √
p0 (1 − p0 )
−1
und
n · 0,012
[Φ (0,05)] =
.
p0 (1 − p0 )
−1
Damit muss gelten:
2
(
)
n0 ≥ Φ−1 (0,05)2 /0,012 p0 (1 − p0 ) .
Beachte p(1 − p) ≤ 14 mit Gleichheit für p = 12 , Φ(0,05) = −1,645.
Für p0 = 21 ist n0 = 6764, für p0 = 0,1 ist n0 = 2435.
6.9
Der Beweis des Satzes von de Moivre-Laplace
Die Landauschen Symbole und die Stirling Formel
Definition 6.9.1 (Landausche Symbole)) Seien (an )n∈N und (bn )n∈N Folgen mit Werten in R. Sei bn ̸= 0 für alle n.
1. Man schreibt an = o(bn ) für n → ∞, wenn
an
bn
→ 0 für n → ∞.
2. Seien an > 0 und bn > 0 für alle n. Man schreibt an = O(bn ) für n → ∞, falls eine
Konstante K > 0 und ein n0 ∈ N existieren, so dass an ≤ K · bn für n ≥ n0 gibt.
3. Sind an , bn ̸= 0 für alle n, so schreibt man:
an ∼ bn für n → ∞ falls
an
→ 1 für n → ∞.
bn
Mann sagt an is asymptotisch äquivalent zu bn .
75
Beispiel:
1. Die folgenden zwei Aussagen sind äquivalent:
an = o(1) und an → 0 für n → ∞.
2. n = o(n2 ) für n → ∞.
3. ln n = o(n) für n → ∞. Denn setze y = ln n, dann ist:
y
ln n
= eyy =
≤ y 1y2
→ 0 für y → ∞
y2
y3
n
1+y+
und y → ∞.
2!
+ 3! +...
1+ 2! +
3!
+...
4. Es gilt: an ∼ bn für n → ∞ ⇔ abnn = 1 + o(1) für n → ∞.
Dabei bedeutet an = bn + o(cn ) für n → ∞: Es existiert eine Folge (dn )n∈N mit
an = bn + dn und dn = o(cn ) für n → ∞.
Stirling Formel: n! ∼
√
2πnnn e−n .
√
Sei an = 2πnnn e−n . Dann wird n! für große n gut durch an approximiert. Es gibt jedoch
zwei Folgen a′n und a′′n , die n! noch etwas besser approximieren und besonders für kleinere
1
1
n sehr nützlich sind: a′n = an · e 12n und a′′n = an · e 12n+1 .
Hier ist ein Vergleich der Folgen:
n n!
1
1
2
2
3
6
4 24
5 120
n
an /n!
a′n /n!
a′′n /n!
an
a′n
0,922
1,002
1,919
2,006
5,836
6,003
23,506 24,001
118,019 120,002
1
0,922
1,002
0,996
a′′n
0,996
1,997
5,995
23,990
119,969
2
3
0,9595 0,9771
1,0003 1,00005
0,9985 0,99917
4
0,9794
1,00004
0,99958
Man sieht, dass insbesondere für kleine n die Folgen a′n und a′′n besser sind. Da aber für alle
drei Folgen asymptotische Äquivalenz zu n! gilt, ist es für mathematische Beweise nicht
wesentlich, welche man nimmt. Deshalb werden wir stets die Formel für an verwenden.
Approximation der Binomialverteilung
Die Wahrscheinlichkeit
bei n Würfen mit einer p-Münze kn Einsen zu werfen beträgt
(n) k
n
P (X = kn ) = kn p (1 − p)n−kn . Für n → ∞ und kn → ∞ so, dass auch n − kn → ∞,
gilt näherungsweise unter Verwendung der Stirling-Formel (Dabei schreiben wir k für kn ):
√
n!
2πnnn e−n pk (1 − p)n−k
k
n−k
√
p (1 − p)
∼ √
k!(n − k)!
2πkk k e−k 2π(n − k)(n − k)n−k e−(n−k)
76
= √
p k 1 − p n−k
) (
)
2π nk (1 − nk )n k/n 1 − k/n
1
(
p k 1 − p n−k
k
) (
)
mit pn =
n
2πpn (1 − pn )n pn 1 − pn
[
]n
1
p
1 − p 1−pn
= √
( )pn (
)
1 − pn
2πpn (1 − pn )n pn
1
= √
e−nI(pn ,p)
2πpn (1 − pn )n
= √
1
(
1−q
mit I(q, p) = q ln( pq ) + (1 − q) ln( 1−p
), wobei 0 < p < 1 und 0 < q < 1. I(q, p) heißt
relative Entropie von q bezüglich p. Zusammenfassend haben wir folgendes bewiesen.
Satz 6.9.2 Sei 0 < p < 1 und sei δ < min(p, 1 − p). Dann gilt
1
e−nI(pn ,p) (1 + o(1))
Pp (Sn = npn ) = √
2πnpn (1 − pn )
gleichmäßig für alle Folgen (pn ; n ≥ 1) mit npn ∈ {0, 1, . . . , n} und min(pn , 1 − pn ) > δ/2
für n → ∞.
Bemerkung: Gleichmäßig bedeutet hier, dass der o(1)-Term lediglich von δ und n abhängt.
Nun wollen wir den Exponenten nI(pn , p) entwickeln und einen lokalen Grenzwertsatz
herleiten. Dazu brauchen wir einige Eigenschaften der relativen Entropie.
Eigenschaften von I(q, p)
Es gilt:
1) I(p, p) = 0,
2) I(q, p) > 0 für q ̸= p,
3) I(q, p) ist strikt konvex und zweimal stetig differenzierbar in beiden Argumenten.
Folglich ist eine quadratische Approximation nahe p möglich.
Lemma 6.9.3 Sei 0 < p < 1. Dann gilt I(pn , p) =
1 (pn −p)2
2 pn (1−pn )
+ o((pn − p)2 ) für pn → p.
Beweis: Mit Hilfe der Taylor-Entwicklung von ln(1 − x) erhält man:
p
1−p
) − (1 − pn ) ln(
)
pn
1 − pn
p − pn
pn − p
) − (1 − pn ) ln(1 −
)
= −pn ln(1 −
pn
1 − pn
I(pn , p) = −pn ln(
77
pn − p
1 pn − p 2
pn − p 2
)− (
) + o((
) )]
pn
2 pn
pn
p − pn
1 p − pn 2
p − pn 2
−(1 − pn )[−(
)− (
) + o((
) )]
1 − pn
2 1 − pn
1 − pn
1 (pn − p)2
(pn − p)2
= [(pn − p) +
+ o(
)]
2
pn
pn
1 (pn − p)2
(pn − p)2
+[(p − pn ) +
+ o(
)]
2 1 − pn
1 − pn
1 (pn − p)2
=
+ o((pn − p)2 ) + o((pn − p)2 ),
2 pn (1 − pn )
1 (pn − p)2
+ o((pn − p)2 )
für pn → p,
=
2 pn (1 − pn )
= −pn [−(
da ln(1 − x) = −x − 12 x2 + o(x2 ) für x → 1.
2
Damit ergibt sich folgender Satz:
Satz 6.9.4 (Lokaler zentraler Grenzwertsatz) Sei 0 < p < 1. Dann gilt für jedes
K > 0 und alle Folgen (pn )n∈N mit npn ∈ {0, 1, 2, ..., n} und |pn − p| ≤ √Kn für n → ∞ :
n(p −p)2
n
1
e− 2pn (1−pn ) (1
2πpn (1−pn )n
(1) Pp (Sn = npn ) = √
1
e−
2πp(1−p)n
(2) Pp (Sn = npn ) = √
n(pn −p)2
2p(1−p)
+ o(1)),
(1 + o(1)).
Diese Konvergenz ist gleichmäßig für alle Folgen (pn )n∈N mit den oben genannten Bedingungen.
Beweis:
Zu (1): Sei |pn − p| ≤
K
√
.
n
Dann existiert eine Folge (an )n∈N mit pn = p +
−p)2
|an | ≤ K für alle n. Nach Lemma 6.9.3 ist nI(pn , p) = n[ 2p(pnn(1−p
+
n)
2
2
n(p
−p)
n·a
n
n(pn −p)2 = n n ≤ K 2 ist, folgt sofort nI(pn , p) = 2pn (1−p
+o(K 2 ) und
n)
2
n(pn −p)
ist, ergibt sich nI(pn , p) = 2p
+ o(1). Damit ist
n (1−pn )
−nI(pn ,p)
e
n(pn −p)2
+o(1)
n (1−pn )
− 2p
=e
=e
n(pn −p)2
n (1−pn )
− 2p
e
o(1)
=e
n(pn −p)2
n (1−pn )
− 2p
an
√
n
2
und
o((pn − p) )]. Da
weil o(K 2 ) = o(1)
(1 + o(1)).
Also gilt mit Satz 6.9.2
n(pn −p)2
1
1
e−nI(pn ,p) (1+o(1)) = √
e− 2pn (1−pn ) (1+o(1))2 ,
P (Sn = npn ) = √
2πpn (1 − pn )n
2πpn (1 − pn )n
woraus Behauptung (1) folgt.
Zu (2): Führe diesen Fall auf (1) zurück: Zeige
n(pn − p)2
1
1
[
−
] = o(1)
2
p(1 − p) pn (1 − pn )
Es gilt:
Weiter
gleichmäßig für |an | ≤ K.
n(pn −p)2
n(pn −p)2 1
1
1
1
1
[ p(1−p)
− pn (1−p
]
=
[ p − p1n + 1−p
− 1−p
].
2
)
2√
n
√ n
√
an / n
an / n
n/ n
√
gilt: p1 − p1 = p(p+a
= p2 a(1+
≤ √|K|
= o(1).
a√
n ) ∼
p2
np2
n / n)
n
p n
78
Entsprechend zeigt man:
1
1−p
2
−
1
1−pn
2
= o(1).
1
1
Zusammen mit n(pn − p) ≤ K folgt daraus: n(pn2−p) [ p(1−p)
− pn (1−p
] = o(1).
n)
1
1
Außerdem ist √
= √
(1 + o(1)) gleichmäßig für |pn − p| ≤ √Kn für n → ∞.
pn (1−pn )
2
p(1−p)
Damit ist der Satz bewiesen.
2
Jetzt können wir den Satz von de Moivre-Laplace beweisen:
Beweis von Satz 6.8.1:
√
1. Fall: Sei√
−∞ < a < b < ∞. Setze nun an = np + a p(1 − p)n und
bn = np + b p(1 − p)n. Dann gilt aufgrund des lokalen Grenzwertsatzes
Sn − np
P (a ≤ √
≤ b) = P (an ≤ Sn ≤ bn )
np(1 − p)
∑ (n)
=
pk (1 − p)n−k
k
an ≤k≤bn
2
∑
1 (k−np)
1
√
=
e− 2 np(1−p) (1 + o(1))
2πnp(1 − p)
an ≤k≤bn
∑
1
l2
1
√
Mit l = k − np
=
e− 2 np(1−p) (1 + o(1))
√
√
2πnp(1 − p)
a np(1−p)≤l≤b np(1−p)
2
∑
1 (lh)
h
1
√
=
Setze nun h = √
e− 2 p(1−p) (1 + o(1))
n
√
√
2πp(1 − p)
a
p(1−p)≤l·h≤b
p(1−p)
Dies sind aber Riemann-Summen einer stetigen Funktion auf einem kompakten Intervall.
Folglich hat mal Konvergenz für h → 0
√
∫p(1−p)
b
−→
√
a
Setze y = √
z
.
p(1−p)
√
1
z2
2πp(1 − p)
e− 2p(1−p) dz .
p(1−p)
Dann folgt:
√
∫p(1−p)
∫b
b
a
√
1
z2
− 2p(1−p)
√
e
2πp(1 − p)
dz =
y2
1
√ e− 2 dy
2π
a
p(1−p)
und damit die Behauptung.
2. Fall: Sei a = −∞, b ∈ R. Sei ε > 0 vorgegeben. Wegen
ein aε > 0 mit Φ(−aε ) + 1 − Φ(aε ) =
ε
2
∫∞
−∞
2
y
√1 e− 2
2π
dy = 1 existiert
und −aε < b < aε . Nach Teil 1 gilt
lim P (−aε ≤ Sn∗ ≤ aε ) = Φ(aε ) − Φ(−aε ) und damit
n→∞
P (Sn∗ < −aε ) ≤ 1 − P (−aε ≤ Sn∗ ≤ aε ) → 1 − Φ(aε ) + Φ(−aε ) +
für n hinreichend groß.
79
ε
≤ε
2
Nun gilt für −aε < b < aε
b
∫
y2
1
∗
−
√ e 2 dx − P (Sn ≤ b)
2π
−∞
−a
b
∫ ε
∫
y2
y2
1
1
−
∗
−
∗
√ e 2 dy − P (Sn ≤ −aε ) +
√ e 2 dy − P (−aε ≤ Sn ≤ b)
≤ 2π
2π
−∞
−aε
b
−a
∫
∫ ε
2
2
1 −y
1 −y
∗
∗
2
2
√ e dy + |P (Sn ≤ −aε )| + √ e dy − P (−aε ≤ Sn ≤ b)
≤
2π
2π
−aε
−∞
ε
ε
≤ + ε + = 2ε
2
2
für n hinreichend groß!
2
80
Kapitel 7
Zufallsvariable und
Wahrscheinlichkeitsdichten
7.1
Dichten und Verteilungsfunktionen
Bis jetzt haben wir nur diskrete Verteilungen mit Punktmassen kennengelernt. Viele Vorgänge – etwa die (verrauschte) Messung eines Signals – lassen sich besser durch kontinuierliche Verteilungen beschreiben. Um solche Verteilungen einzuführen, sind die folgenden
Begriffe hilfreich.
Definition 7.1.1 Eine Zufallsvariable X ist eine meßbare Abbildung X : Ω → IR. Die
Funktion F : IR → [0, 1] mit
F (x) = P (X ≤ x) = P ({ω|X(ω) ≤ x})
heißt die Verteilungsfunktion von X. Meßbar heißt dabei, dass die rechte Seite der Gleichung für alle x erklärt ist.
Eigenschaften einer Verteilungsfunktion F :
i) F ist wachsend.
ii) F ist rechtsseitig stetig.
iii) lim F (x) = 0 und lim F (x) = 1.
x→−∞
x→∞
Es gilt
P (a < X ≤ b) = F (b) − F (a)
und
P (X > a) = 1 − F (a).
Definition 7.1.2 Sei X eine Zufallsvariable. Dann heißt X stetig verteilt mit Dichte f ,
falls für die Verteilungsfunktion F von X
∫ x
F (x) =
f (u)du
−∞
gilt. Die Funktion f heißt Wahrscheinlichkeitsdichte (Dichtefunktion) von X.
81
Eigenschaften einer Dichtefunktion f :
∫∞
i) −∞ f (u)du = 1.
ii) f (u) ≥ 0 für alle u ∈ R.
Es gilt
∫
P (a < X ≤ b) =
b
f (u)du
a
und damit
∫
b
P (X = b) = lim P (b − h < X ≤ b) = lim
h↓0
h↓0
f (u)du = 0.
b−h
Es gibt also keine Punktmassen. Die Dichte f lässt sich (falls f stetig ist) folgendermaßen
verstehen:
∫
x+h
P (x < X ≤ x + h) =
f (u)du ≈ hf (x).
x
Man schreibt dafür gerne mit Differentialen P (X ∈ dx) = f (x)dx. Ist die Dichte f in
einer Umgebung von x = x0 stetig, so gilt
f (x0 ) = F ′ (x0 ).
Für stetige Dichten f ist die zugehörige Verteilungsfunktion F folglich eine Stammfunktion.
Definition 7.1.3 Sei X eine stetig verteilte Zufallsvariable mit Dichte f . Dann heißt
∫ ∞
E(X) =
xf (x)dx
−∞
der Erwartungswert von X, falls
∫
∞
−∞
|x|f (x)dx < ∞.
Definition 7.1.4 Sei X eine stetig verteilte Zufallsvariable mit Dichte f und Erwartungswert E(X) = µ. Dann heißt
∫ ∞
Var(X) =
(x − µ)2 f (x)dx
−∞
die Varianz von X. Ist Var(X) < ∞, so heißt σ(X) =
von X.
√
Var(X) die Standardabweichung
Auch hier gilt die Verschiebungsformel
Var(X) = E(X 2 ) − (E(X))2 .
Ist g eine Funktion von R nach R und X eine stetig verteilte Zufallsvariable mit Dichte
f , so ist g(X) Zufallsvariable und der Erwartungswert E(g(X)) von g(X) durch
∫ ∞
g(x)f (x)dx
−∞
82
gegeben, falls
∫
∞
−∞
|g(x)|f (x)dx < ∞
gilt.
Beispiel: Gleichverteilung auf [a, b]
Hier ist f (x) =
1
1 (x),
b−a [a,b]
falls a < b ist. Es gilt:
x−a
für a ≤ x ≤ b
b−a
F (x) = 0 für x < a
F (x) = 1 für x > b.
F (x) =
1
E(X) =
b−a
∫
1 1 2 b
x
b−a 2
a
2
2
b −a
=
2(b − a)
a+b
=
2
b
x dx =
a
(
)2
∫ b
a+b
1
2
Var(X) =
x dx −
b−a a
2
(
)2
1 3
3
(b − a )
a+b
= 3
−
(b − a)
2
1
=
(b − a)2 .
12
7.2
Die Normalverteilung
Eine stetige Zufallsvariable X heißt normalverteilt mit Mittelwert µ und Varianz σ 2 (kurz
N(µ, σ 2 )-verteilt), falls für die zugehörige Dichte f
f (x) = √
1
2πσ 2
e−
(x−µ)2
2σ 2
gilt. Dabei ist π = 3.141592 . . . die Kreiszahl und e die Eulersche Konstante e = 2.718281 . . .
Ist X N(µ, σ 2 )-verteilt, so ist aX + b gemäß N(aµ + b, a2 σ 2 )-verteilt. Insbesondere ist Z
mit
X −µ
Z=
σ
83
N(0, 1)-verteilt. Diese Verteilung heißt Standard Normalverteilung. Die Dichte der Standard Normalverteilung wird üblicherweise mit ϕ bezeichnet.
x2
1
ϕ(x) = √ e− 2 .
2π
Abbildung 7.1: Die Standard Normal Dichte
Die zugehörige Verteilungsfunktion wird mit Φ bezeichnet. Also
∫ x
∫ x
u2
1
Φ(x) =
ϕ(u)du = √
e− 2 du.
2π −∞
−∞
Es gilt
Φ(−x) = 1 − Φ(x)
und
P (−z ≤ Z ≤ z) = 2Φ(z) − 1.
Die Funktion Φ lässt sich nicht explizit darstellen, sondern muß numerisch berechnet
werden. Es gilt
P (−1 ≤ Z ≤ 1) ≈ 0.68,
P (−2 ≤ Z ≤ 2) ≈ 0.95
und
P (−3 ≤ Z ≤ 3) ≈ 0.997.
Wie schon oben erwähnt, ist sie überall tabelliert und in jedem guten Taschenrechner
verfügbar. Ist X N(µ, σ 2 )-verteilt, so gilt für die zugehörige Verteilungsfunktion F
(
)
(
)
x−µ
X −µ
x−µ
≤
F (x) = P (X ≤ x) = P
=Φ
.
σ
σ
σ
Damit erhalten wir insbesondere die sogenannten 1-σ, 2-σ und 3-σ Regeln:
P (µ − σ ≤ X ≤ µ + σ) ≈ 0.68,
P (µ − 2σ ≤ X ≤ µ + 2σ) ≈ 0.95
und
P (µ − 3σ ≤ X ≤ µ + 3σ) ≈ 0.997.
Es gilt E(X) = µ und Var(X) = σ 2 , denn
84
∫∞
a)
E(X) =
−∞
∫∞
1
2
2
x√
e−(x−µ) /2σ dx
2
2πσ
(x − µ) √
=
−∞
∫∞
=
−∞
1
2πσ 2
e−(x−µ)
2 /2σ 2
dx + µ
1
2
2
y√
e−y /2σ dy + µ,
2πσ 2
wenn y = x − µ gesetzt wird,
= µ.
Das Integral ist Null, da über eine antisymmetrische Funktion integriert wird.
∫∞
b)
Var(X) =
−∞
1
2
2
(x − µ)2 √
e−(x−µ) /2σ dx
2πσ 2
∫∞
1
x−µ
2
z 2 √ e−z /2 dz, wenn z =
gesetzt wird,
σ
2π
−∞


∞
∫∞
dz
−z
2
2
e−z /2 √ 
+
= σ 2  √ e−z /2 2π
2π
=σ
2
−∞
−∞
2
=σ .
Hier wurde partielle Integration verwendet.
7.3
Exponential- und Gamma-Verteilung
Wir wollen nun ein weiteres wichtiges Beispiel für eine stetige Verteilung mit Dichte näher
kennenlernen. Eine Zufallsvariable T heißt exponentialverteilt mit Parameter λ > 0, falls
sie die Dichte
{
0 für t ≤ 0
f (t) =
λe−λt für t > 0
besitzt. Für die Verteilungsfunktion F von T gilt dann
∫
{
t
F (t) =
f (u)du =
−∞
Damit erhalten wir
{
F (t) =
λ
∫t
0
0
für t ≤ 0
−λu
e du für t > 0 .
0
für t ≤ 0
−λt
1−e
für t > 0 .
Für den Erwartungswert von T gilt
E(T ) =
85
1
.
λ
Die Varianz ist gleich
1
λ2
.
Abbildung 7.2: Die Exponentialdichten für λ = 0.5, 1, 2
Wir wollen nun die Bedeutung von λ überlegen. Sei T die Lebensdauer einer technischen
Komponente und sei T exponentialverteilt mit Paramerter λ. Dann ist
P (T ≤ t + ∆ | T > t) = 1 − P (T > t + ∆ | T > t)
= 1 − e[−λ∆
]
1 2 2
= 1 − 1 − λ∆ + λ ∆ + . . .
2
∼
= λ∆ für ∆ klein.
Dies besagt, dass die Ausfallrate für kleines ∆ näherungsweise proportional ist zu λ.
Beispiel 1:
Die mittlere Lebensdauer eines Transistors ist 100 Stunden. Was ist die Wahrscheinlichkeit, dass der Transistor länger als 50 Stunden hält?
1
= 100, λ = 0, 01
λ
P (T > 50) = e−λ·50 = e−0,5 = 0, 606.
Beispiel 2: “Radioaktiver Zerfall”
Jedes Atom hat unabhängig von den anderen eine exponentialverteilte Lebensdauer T .
P (T > t) = e−λt
Die Halbwertszeit einer radioaktiven Substanz ist diejenige Zeit h, für die
e−λh =
log(2)
1
oder h =
2
λ
gilt.
Beispiel: Strontium 90, h=28 Jahre
λ = log(2)/h = 0, 0248/Jahr
86
1
= 40, 4 Jahre.
λ
Die Wahrscheinlichkeit bei Strontium 90, dass ein Atom mehr als 50 Jahre nicht zerfällt,
ist
P (T > t) = e−λ·50 = 0, 29.
Dies ist auch der Anteil von Strontium 90, der nach 50 Jahren noch vorhanden ist. Dies
folgt aus dem Gesetz der Großen Zahlen. Bis 99 % von Strontium 90 zerfallen ist, vergehen
186 Jahre.
Die Exponentialverteilung ist durch die Eigenschaft der sogenannten „Gedächtnislosigkeit“ ausgezeichnet. Damit ist folgendes gemeint: Für 0 < s < t gilt
P (T > t)
1 − F (t)
=
P (T > s)
1 − F (s)
−λt
e
= −λs = e−λ(t−s)
e
= P (T > t − s).
P (T > t | T > s) =
Nehmen wir etwa an, dass die Brenndauer von Glühbirnen einer bestimmten Sorte einer
Exponentialverteilung folgt, so ist P (T > t | T > s) die bedingte Wahrscheinlichkeit,
dass eine Glühbirne, die seit dem Zeitpunkt 0 in Betrieb ist, zum Zeitpunkt t noch nicht
durchgebrannt ist, gegeben die Kenntnis, dass sie zum Zeitpunkt s noch intakt war. Die
Wahrscheinlichkeit P (T > t − s) gibt die Wahrscheinlichkeit an, dass eine Glühbirne, die
zum Zeitpunkt s in Betrieb genommen wurde, zum Zeitpunkt t = s + (t − s) noch intakt
ist. Damit bedeutet die obige Gleichung, dass sich eine zum Zeitpunkt s noch intakte
Birne in der Zukunft wie eine zum Zeitpunkt s neue Birne verhält. Das heißt, es findet
keine Abnutzung oder Alterung statt. Im folgenden Abschnitt wird die Möglichkeit der
Alterung genauer diskutiert.
Eng verwandt mit der Exponentialverteilung ist die Klasse der Gamma-Verteilungen.
Dies ist eine sehr flexible Klasse von Wahrscheinlichkeitsverteilungen, auch in Hinblick
auf Lebensdauern.
Definition 7.3.1 Die Γ-Funktion ist gegeben durch
∫ ∞
Γ(α) :=
y α−1 e−y dy
für α > 0
0
Bemerkung:
Für α ∈ IN gilt Γ(α + 1) = α!. Dies lässt sich mit partieller Integration beweisen.
Definition 7.3.2 Die Gamma-Verteilung zu den Parametern α und β, genannt G(α, β)
hat die Wahrscheinlichkeitsdichte
fα,β (x) =
β α α−1 −βx
x e 1[0,∞) (x).
Γ(α)
Beispiele:
1) Für α = 1 und β = λ ergibt sich die Exponentialverteilung mit Parameter λ.
87
2) Sind T1 , T2 , . . . , Tr unabhängig (zur Definition siehe den nächsten Abschnitt) und exr
∑
ponentialverteilt mit Parameter λ, so ist
Ti Gamma-verteilt mit den Parametern
i=1
α = r und β = λ. Der Beweis folgt weiter unten.
Abbildung 7.3: Die Dichte der Gamma-Verteilung für r = 1, . . . , 10
7.4
Lebensdauern
Wir wollen uns nun mit einem etwas anderen Zugang zur Beschreibung von zufälligen
Ausfallzeiten befassen. Dabei beschränken wir uns auf den Fall, dass diese stetig verteilt
sind. Das diskrete Analogon (Sterberate) haben wir bereits am Ende von Abschnitt 4.1
behandelt.
Definition 7.4.1 Sei T eine positive und stetige Zufallsvariable mit Dichte f . Dann heißt
∫ ∞
G(t) = 1 − F (t) =
f (u)du
t
die Zuverlässigkeitsfunktion von T . Die Funktion
λ(t) =
heißt Ausfallrate.
88
f (t)
G(t)
Es besteht folgender Zusammenhang zwischen der Zuverlässigkeitsfunktion G und der
Ausfallrate λ:
{ ∫ t
}
G(t) = exp −
λ(u)du .
0
∫t
Die Größe 0 λ(u)du heißt kumulierte Ausfallrate. Man sieht die obige Identität folgendermaßen ein:
d
G(t)
d
f (t)
log(G(t)) = dt
=−
= −λ(t).
dt
G(t)
G(t)
Bei der Exponentialverteilung ergibt sich
G(t) = e−λt und λ(t) =
λe−λt
= λ.
e−λt
Bisweilen ist die folgende Formel für E(T ) von Nutzen:
∫ ∞
E(T ) =
G(t)dt.
0
Man kann diese Gleichung mit Hilfe partieller Integration aus E(T ) =
ten.
∫∞
0
tf (t)dt herlei-
Eigenschaften von Ausfallraten:
i) λ(t) ≥ 0 für alle t ≥ 0.
∫∞
ii) 0 λ(u)du = +∞.
Durch Vorgabe einer Ausfallrate lässt sich eine Verteilung spezifizieren.
Beispiel: (Weibull-Verteilung) Sei α > 0 und λ > 0. Sei
λ(t) = λαtα−1 .
Dann gilt
{ ∫ t
}
G(t) = exp −
λ(u)du = exp {−λtα } .
0
Für die zugehörige Dichte f ergibt sich
f (t) = −G′ (t) = λαtα−1 e−λt .
α
Für 0 < α < 1 fällt die Ausfallrate mit wachsender Zeit (Verjüngungseffekt) und für α > 1
wächst die Ausfallrate mit wachsender Zeit (Alterungseffekt).
Sei 0 < s < t. Für die bedingte Wahrscheinlichkeit von s < T ≤ t gegeben T > s erhält
man
F (t) − F (s)
P (s < T ≤ t)
=
P (s < T ≤ t | T > s) =
P (T > s)
1 − F (s)
∫ t
∫ t
1
f (u)
=
f (u)du =
du.
1 − F (s) s
s 1 − F (s)
Darüberhinaus gilt
1 − F (t)
P (T > t | T > s) =
.
1 − F (s)
89
7.5
Gemeinsame Verteilung mehrerer Zufallsvariablen
Wir betrachten nun n Zufallsvariablen X1 , . . . , Xn simultan und interessieren uns für die
gemeinsame Verteilung. Dabei werden wir den Fall n = 2 besonders behandeln und uns
im wesentlichen auf stetige Verteilungen mit Dichten konzentrieren. Mit der gemeinsamen
Verteilung meinen wir
P (X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In ),
wobei I1 , . . . , In beliebige Intervalle aus R sind. Wir fassen gewissermaßen X1 , . . . , Xn als
Zufallselement aus Rn auf.
Definition 7.5.1 Die Zufallsvariablen X1 , . . . , Xn heißen gemeinsam stetig verteilt mit
Dichte f , falls für alle Intervalle I1 , . . . , In aus R gilt
∫
∫
P (X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In ) =
...
f (x1 , . . . , xn )dx1 . . . dxn .
In
I1
Die Funktion f heißt gemeinsame Dichte von X1 , . . . , Xn .
Ist g eine (stetige) Funktion von Rn nach R und sind X1 , . . . , Xn Zufallsvariablen, dann
ist g(X1 , . . . , Xn ) ebenfalls eine Zufallsvariable. Sind die Zufallsvariablen X1 , . . . , Xn gemeinsam stetig verteilt mit Dichte f , so erhält man den zugehörigen Erwartungswert
E(g(X1 , . . . , Xn )) durch
∫ ∞
∫ ∞
E(g(X1 , . . . , Xn )) =
...
g(x1 , . . . , xn )f (x1 , . . . , xn )dx1 . . . dxn ,
−∞
falls
∫
∫
∞
∞
...
−∞
−∞
−∞
|g(x1 , . . . , xn )|f (x1 , . . . , xn )dx1 . . . dxn < ∞.
Wir betrachten nun den Fall n = 2 ausführlicher. Sei X = X1 und Y = X2 . Sind X und
Y gemeinsam stetig verteilt mit Dichte f , so gilt
)
)
∫ (∫
∫ (∫
P (X ∈ I1 , Y ∈ I2 ) =
f (x, y)dy dx =
f (x, y)dx dy.
I1
I2
I2
Insbesondere gilt für beliebige a und b
)
∫ a (∫ b
∫
P (X ≤ a, Y ≤ b) =
f (x, y)dy dx =
−∞
−∞
b
I1
(∫
)
a
f (x, y)dx dy.
−∞
−∞
Damit folgt
∫
P (X ≤ a) = P (X ≤ a, Y < ∞) =
∫ a
=
fX (x)dx
a
(∫
∫
fX (x) =
∞
f (x, y)dy.
−∞
90
)
f (x, y)dy dx
−∞
−∞
mit
∞
−∞
Die Dichte von X ist also durch die sogenannte Randdichte fX gegeben. Analog erhält
man
∫ b
∫ ∞
fY (y)dy mit fY (y) =
f (x, y)dx.
P (Y ≤ b) =
−∞
−∞
Die folgende Definition ist die gleiche wie für diskrete Zufallsvariable.
Definition 7.5.2 X und Y seien Zufallsvariablen mit
E(X 2 ) < ∞ und E(Y 2 ) < ∞.
Dann heißt
Kov(X, Y ) = E [(X − E(X))(Y − E(Y ))]
die Kovarianz von X und Y . Die Größe
ρ(X, Y ) =
Kov(X, Y )
σ(X)σ(Y )
heißt Korrelationskoeffizient von X und Y .
Für die Kovarianz gilt folgende Verschiebungsformel
Kov(X, Y ) = E(XY ) − E(X)E(Y ).
Es gilt stets −1 ≤ ρ(X, Y ) ≤ 1. Ist X = Y , so gilt
Kov(X, Y ) = Kov(X, X) = Var(X).
Damit ist ρ(X, X) = 1.
Als Beispiel wollen wir die 2-dimensionale Normalverteilung betrachen. Bei ihr ist die
Dichte der gemeinsamen Verteilung der Zufallsvariablen X und Y gegeben durch
(+) f (x, y) =
1
2π(det Σ)1/2
(
· exp −
1
2(1 − ρ2 )
(
(x − µX )2
(x − µX )(y − µY ) (y − µY )2
−
2ρ
−
2
σX
σX σY
σY2
))
die Dichten der Randverteilungen sind
fX (x) = √
1
e−(x−µX )
2 /2σ 2
X
2
2πσX
1
e−(y−µY )
fY (y) = √
2
2πσY
2 /2σ 2
Y
.
Außerdem ist ρ = Kor(X, Y ) und σXY := Kov(X, Y ) = ρ σX σY . Die Matrix Σ ist gegeben
durch
∑ ( σ 2 σXY )
X
.
=
σXY σY2
91
Es gilt natürlich
∫ ∫
σXY =
R
R
(x − µX )(y − µY )f (x, y)dxdy
Man erkennt, dass gilt
f (x, y) = fX (x)fY (y),
d.h. dass X und Y unabhängig sind, falls ρ = 0 bzw. σXY = 0 sind. Siehe auch die
Überlegungen nach der folgenden Definition 7.5.3.
Abbildung 7.4: 2-dimentionale Normalverteilung
Das folgende Beispiel gilt allgemein und liefert eine Interpretation von Kovarianz und
Korrelation.
Beispiel: (Lineares Filtern)
Seien X ein gesendetes und Y das zugehörige empfangene Signal. Gesucht wird eine lineare
Rekonstruktion aY + b mit minimaler mittlerer quadratischer Abweichung
(
)
E [X − (aY + b)]2 .
Das Minimum wird für
a = ρ(X, Y )
σ(X)
und b = E(X) − aE(Y )
σ(Y )
erreicht. Es gilt nämlich
(
)
E [X − (aY + b)]2 = E(X 2 ) − 2E[(aY + b)X] + E[(aY + b)2 ]
= E(X 2 ) − 2aE(XY ) − 2bE(X) + a2 E(Y 2 )
+2abE(Y ) + b2 .
Ableiten nach a und b und 0 setzen ergibt die Gleichungen
aE(Y 2 ) − E(XY ) + bE(Y ) = 0
b − E(X) + aE(Y ) = 0.
Hieraus folgt zunächst
b = E(X) − aE(Y )
92
und
a [E(Y 2 ) − (E(Y ))2 ] − [E(XY ) − E(X)E(Y )] = 0.
{z
} |
{z
}
|
=Var(Y )
=Kov(X,Y )
Damit ist
a=
Kov(X, Y )
σ(X)
=
ρ(X, Y ).
Var(Y )
σ(Y )
Wir kommen nun zurück auf die Unabhängigkeit von Zufallsvariablen, aber im stetigen
Fall.
Definition 7.5.3 Die Zufallsvariabelen X1 , . . . , Xn heißen unabhängig, falls für αi ∈ IR,
i = 1, . . . , n gilt:
n
∏
P (X1 ≤ α1 , . . . , Xn ≤ αn ) =
P (Xi ≤ αi )
i=1
Zunächst eine wichtige Tatsache. Sind die Zufallsvariablen X1 , X2 , . . . , Xn unabhängig
und jeweils stetig verteilt mit Dichten f1 , f2 , . . . , fn , so gilt für die gemeinsame Dichte
f (x1 , x2 , . . . , xn ) =
n
∏
fi (xi ).
i=1
Denn:
P (X1 ≤ α1 , . . . , Xn ≤ αn ) =
=
n
∏
P (Xi ≤ αi )
i=1
n ∫ αi
∏
∫i=1α1
=
−∞
−∞
···
fi (xi ) dxi
∫
αn
n
∏
−∞ i=1
fi (xi ) dx1 . . . dxn
Sind nun X und Y unabhängig mit Dichten f und g verteilt. Dann hat Z = X + Y eine
+∞
∫
Verteilung mit Dichte (f ∗g)(t) =
f (t−s)g(s) ds. (Man nennt f ∗g das Faltungsprodukt
−∞
von f und g.) Dies sieht man so:
P (Z ≤ α) = P (X + Y ≤ α)
∫
=
f (x)g(y)dxdy
{(x,y)|x+y≤α}
∫
=
f (t − s)g(s)dsdt
mit t = x + y und s = y
{(s,t)|t≤α}
)
∫ α (∫ +∞
=
f (t − s)g(s)ds dt
−∞
−∞
Beispiel 1:
Seien X und Y normalverteilt, X nach N (0, v1 ) und Y nach N (0, v2 ). Sind X und Y
93
unabhängig, so ist X + Y normalverteilt nach N (0, v1 + v2 ). Die Dichte der Verteilung
X + Y ergibt sich nach etwas Rechnung aus der Faltungsformel als
∫ ∞
1
1
2
2
√
e−(z−x) /2v2 √
e−x /2v1 dx
f (z) =
2πv2
2πv1
∫−∞
(
)2
∞
v1
v1 v2
1
1
−z 2 /2(v1 +v2 ) − 2 x− v1 +v2 z / v1 +v2
√
=
e
e
dx
(2π)2 v1 v2
−∞
√
∫ ∞
(
)2
2
v v
1
v1 + v2 − 21 x− v v+v
1
1
z / v 1+v2
− 2(v z+v )
1
2
1
2 dx
1
2
√
e
= √
e
v1 v2
2π
2π(v1 + v2 )
−∞
Das Integral auf der rechten Seite ist gleich 1, so dass weiter gilt
1
2
e−z /2(v1 +v2 ) .
=√
2π(v1 + v2 )
Dies ist aber die Behauptung.
Eine Folgerung aus dieser Tatsache ist, dass für unabhängige Zufallsvariable X1 , X2 , . . . , Xn ,
n
∑
Xi normalverteilt ist nach
die normalverteilt sind nach N (µ, σ 2 ), gilt, dass Sn =
i=1
N (nµ, nσ 2 ). Damit ist die Standardisierte
Sn − nµ
√
nσ 2
nach N (0, 1)
verteilt. Dies heißt, der zentrale Grenzwertsatz gilt in diesem Fall exakt.
Beispiel 2:
f (x) = g(x) = λe−λx 1[0,∞) (x)
∫ ∞
(f ∗ g)(z) =
λe−λ(z−x) 1{x<z} λe−x dx
0
∫ z
2 −λz
=λe
dx
0
= λ2 e−λz · z,
falls z > 0
Allgemein gilt:
(f ∗ )n (z) = λn
z n−1 −λz
e ,
(n − 1)!
falls z > 0 gilt.
Dies beweist man mit Induktion: (f ∗ )n (z) ist die Dichte einer Gamma-Verteilung mit
Parameter n und λ. Der Fall n = 2 wurde schon gezeigt. Sei die Aussage nun richtig für
beliebiges n. Wir zeigen, dass sie für n + 1 gilt.
(f ∗ )n+1 (z) = f ∗ (f ∗ )n (z)
∫ ∞
=
f (z − x)(f ∗ )n (x)dx
∫0 ∞
λn xn−1 −λx
e 1[0,∞] (x)dx
=
λe−λ(z−x) 1{x<z}
(n − 1)!
0
94
=λ
n+1 −λz
∫
∞
e
= λn+1 e−λz
∫0 z
0
xn−1
1[0,z) (x)dx
(n − 1)!
xn−1
dx für z ≥ 0 und = 0 für z < 0
(n − 1)!
n
= λn+1
z −λz
e 1[0,∞] (z).
n!
Eine Anwendung für diese Formel ist die Herleitung des Poisson-Prozesses.
Der Poisson-Prozess
Wir interessieren uns nun für die Anzahl der Atome einer radioaktiven Substanz, die
in einem gewissen Zeitintervall [0, t] zerfallen. Wir nennen diese Größe Qt . Sei T1 die
Zeitspanne bis das erste Atom zerfallen ist, T2 die Zeitspanne, die nach T1 vergeht bis das
zweite Atom zerfallen ist, T3 die Zeitspanne bis das dritte Atom nach T1 + T2 zerfallen ist,
n
∑
u.s.w. Wir nehmen an, dass alle T1 , T2 , T3 u.s.w. unabhängig sind. Sei Sn =
Ti . Dann
ist Qt = max{k ≥ 1 | Sk ≤ t}. Was ist die Verteilung von Qt ?
i=1
Unter Verwendung des vorangegangenen Resultats erhalten wir:
P (Qt = k) = P (Sk ≤ t, Sk+1 > t)
= P (Sk+1 > t) − P (Sk > t)
∫ ∞
∫ ∞
k
sk−1 −λs
k+1 s −λs
=
λ
e ds −
e ds
λk
k!
(k − 1)!
t
t
∞
k
k s −λs e = −λ
k!
t
k
(λt) λt
e
=
k!
Folglich gilt, dass Qt Poisson-verteilt ist mit Parameter λ · t. Man nennt (Qt ; t ≥ 0)
Poisson-Prozess zur Intensität λ . Es gilt E(Qt ) = λ · t und Var(Qt ) = λ · t.
Das Wartezeiten-Paradoxon
Stadtbusse treffen zufällig an einer Haltestelle ein. Sie fahren nicht nach einem festen
Fahrplan, sondern die Wartezeit von einem Bus bis zum nächsten sei exponentialverteilt
mit Parameter λ und alle Wartezeiten sind untereinander unabhängig. Ein Busbenutzer
treffe jeden Tag pünktlich um 12 Uhr ein. Wie lange muß er im Mittel auf einen Bus
warten?
Denkbare Antworten sind:
1. Im Mittel 1/λ.
2. Im Mittel 1/2λ.
95
Was ist richtig?
Man hat
ET1 =
∫∞
∫∞
tλe−λt dt =
0
0
e−λt dt = λ1 .
Wir benutzen die Bezeichnungsweise wie beim Poisson-Prozess. T1 , T2 , . . . sind unabhänn
∑
Ti . Seien
gige exponentialverteilte Zufallsvariablen mit Parameter λ. S0 = 0, Sn =
Na := min{n ≥ 1 | Sn ≥ a} und SN a :=
Na
∑
i=1
Ti .
i=1
Behauptung :
a) P (SNa − a ≤ x) = 1 − e−λx
b) E(SNa − a) =
1
λ
Man erkennt sofort, dass b) eine direkte Folge von a) ist. Zeige nun Ausssage a).
P (SNa − a ≤ x) = P (a ≤ S1 ≤ a + x) + P (Na > 1, SNa − a ≤ x)
∫ a+x
=
λe−λt dt + P (Na > 1, SNa − a ≤ x)
a
λa
=e
− e−λ(a+x) + P (Na > 1, SNa − a ≤ x)
Berechne nun den zweiten Term auf der rechten Seite.
∞
∑
P (Na > 1, SNa − a ≤ x) =
P (Na = n, Sn − a ≤ x)
n=2
=
∞ ∫
∑
n=2
=
=
λn
(n−1)!
P (Sn−1 ∈ dt)1{a−t≤Tn <x+(a−t)}
0
∞ ∫
∑
a
n=2 0
∫ a∑
∞
0
mit gn (t) =
a
gn−1 (t)P (a − t ≤ Tn ≤ x + (a − t)) dt
(
)
gn−1 (t) e−λ(a−t) − e−λ(x+a−t) dt
n=2
tn−1 e−λt . Siehe dazu Beispiel 2. Aber
Folglich hat man
∞
∑
n=2
∫
P (Na > 1, SNa − a ≤ x) = λ
a
(
∞
∑
gn−1 (t) = λ
n=2
(λt)n−2
(n−2)!
e−λt = λ.
)
)
(
e−λ(a−t) − e−λ(x+a−t) dt = 1 − e−λa − e−λx − e−λ(x+a) .
0
Beide Formelreihen zusammengenommen ergeben die Behauptung a).
Aus Behauptung b) folgt, dass Antwort 1) richtig ist.
Die Überraschung darüber löst sicher etwas auf,
schaut. Ohne Beweis stellen wir fest XNa hat die
{
λ2 xe−λx
fa (x) =
λ(1 + λx)e−λx
∫∞
und es gilt lim EXNa = 0 xfa (x) dx = λ2 .
a→∞
96
wenn man die Verteilung von XNa anDichte
für 0 < x < a
für x ≥ a.
7.6
Bedingte Verteilungen und Bedingte Erwartungen
Wir wenden uns nun der bedingten Verteilung von X gegeben Y = y zu. Diese lässt sich
über ihre Dichte festlegen. Zur Motivation betrachten wir zunächst kurz den Fall, dass X
und Y beide diskret sind. Wir nehmen an, dass X und Y jeweils Werte in {1, 2, . . . , n}
annehmen. Dann ist die gemeinsame Verteilung von X und Y durch die Wahrscheinlichkeiten
pij = P (X = i, Y = j)
festgelegt. Die Randverteilung von X ergibt sich zu
P (X = i) =
n
∑
P (X = i, Y = j) =
j=1
n
∑
pij .
j=1
Die Randverteilung von Y ergibt sich zu
P (Y = j) =
n
∑
P (X = i, Y = j) =
i=1
n
∑
pij .
i=1
Die bedingte Wahrscheinlichkeit von X = i gegeben Y = j ergibt sich damit zu
P (X = i|Y = j) =
P (X = i, Y = j)
pij
= ∑
.
n
P (Y = j)
pij
i=1
Dies motiviert die folgenden Überlegungen für den Fall, dass X und Y gemeinsam stetig
verteilt mit Dichte f sind. Sei
fX (x|Y = y) =
f (x, y)
f (x, y)
= ∫∞
.
fY (y)
f
(x,
y)dx
−∞
Dabei lassen wir nur y Werte mit fY (y) > 0 zu. Offensichtlich ist fX (x|Y = y) ≥ 0 und
∫∞
∫ ∞
∫ ∞
f (x, y)dx
f (x, y)
∫∞
fX (x|Y = y)dx =
dx = ∫−∞
= 1.
∞
f (x, y)dx
−∞
−∞ −∞ f (x, y)dx
−∞
Damit ist fX (.|Y = y) eine Dichte; die sogenannte bedingte Dichte von X gegeben Y = y.
Analog erhält man die bedingte Dichte fY (.|X = x) von Y gegeben X = x zu
fY (y|X = x) =
f (x, y)
f (x, y)
= ∫∞
.
fX (x)
f
(x,
y)dy
−∞
Es gilt also stets: bedingte Dichte = gemeinsame Dichte geteilt durch Randdichte. Damit
lässt sich die gemeinsame Dichte auch folgendermaßen darstellen
f (x, y) = fX (x)fY (y|X = x) = fY (y)fX (x|Y = y).
97
Der Erwartungswert der bedingten Verteilung von X gegeben Y = y wird mit E(X|Y = y)
bezeichnet und ist gleich
∫∞
∫ ∞
xf (x, y)dx
E(X|Y = y) =
xfX (x|Y = y)dx = ∫−∞
.
∞
f (x, y)dx
−∞
−∞
Analog gilt für den bedingten Erwartungswert E(Y |X = x) von Y gegeben X = x
∫∞
yf (x, y)dy
E(Y |X = x) = ∫−∞
.
∞
f
(x,
y)dy
−∞
Allgemeiner gilt
∫
∞
E(g(X)|Y = y) =
−∞
∫
und
g(x)fX (x|Y = y)dx
∞
E(g(Y )|X = x) =
−∞
g(y)fY (y|X = x)dy.
Beispiel: Sind X und Y unabhängig, so gilt
f (x, y) = fX (x)fY (y).
Damit erhält man
fX (x|Y = y) =
f (x, y)
= fX (x).
fY (y)
Die bedingte Verteilung stimmt also bei Unabhängigkeit mit der (unbedingten) Randverteilung überein. Deshalb ist für alle y
E(X|Y = y) = E(X).
Der Erwartungswert E(X|Y = y) von X gegeben Y = y ist eine Funktion von y. Setzt
man für y die Zufallsvariable Y ein (oder anders gesagt: wendet man die Funktion auf Y
an), so erhält man wieder eine Zufallsvariable, die mit E(X|Y ) bezeichnet wird. Es gilt
die Glättungsregel
∫ ∞
E(X) = E(E(X|Y )) =
E(X|Y = y)fY (y)dy.
−∞
Darüberhinaus gilt die sogenannte Einsetzungsregel
E(Xh(Y )|Y = y) = h(y)E(X|Y = y)
beziehungsweise
E(Xh(Y )|Y ) = h(Y )E(X|Y ).
Beispiel: Sind X und Y unabhängig, so erhält man
E(XY |Y ) = Y E(X|Y ) = Y E(X)
und weiter
E(XY ) = E(E(XY |Y )) = E(Y )E(X).
98
Beispiel (Filtern): Seien X ein gesendetes und Y das zugehörige empfangene Signal.
Gesucht wird eine Rekonstruktion g(Y ) mit minimaler mittlerer quadratischer Abweichung
(
)
E [X − g(Y )]2 .
Das Minimum wird mit
g(y) = E(X|Y = y)
erreicht. Es gilt nämlich
(
)
E [X − g(Y )]2 = E(X 2 ) − 2E[Xg(Y )] + E(g(Y )2 )
= E(X 2 ) − E {E(2Xg(Y )|Y )} + E(g(Y )2 )
{
}
= E(X 2 ) + E −2E(X|Y )g(Y ) + g(Y )2 .
Bei festem Y = y wird −2E(X|Y = y)g + g 2 durch g = E(X|Y = y) minimiert. Dieses
Resultat ist Grundlage der Filtertheorie.
Nun kehren wir zurück zu normalverteilten Zufallsvariablen. Seien X und Z unabhängige
Zufallsvariablen, die beide N(0, 1)-verteilt sind. Dann ist
E(X) = 0 = E(Z)
und
1 = Var(X) = E(X 2 ) − (E(X))2 = E(X 2 )
sowie
1 = Var(Z) = E(Z 2 ) − (E(Z))2 = E(Z 2 ).
Aus der Unabhängigkeit folgt E(XZ) = E(X)E(Z) = 0. Sei −1 < ρ < 1 und
√
Y = ρX + 1 − ρ2 Z.
Wir untersuchen nun die gemeinsame Verteilung von X und Y . Offensichtlich gilt
√
E(Y ) = ρE(X) + 1 − ρ2 E(Z) = 0.
Weiterhin ist
(
)
√
E(Y 2 ) = E ρ2 X 2 + 2ρ 1 − ρ2 XZ + (1 − ρ2 )Z 2
√
= ρ2 E(X 2 ) + 2ρ 1 − ρ2 E(XZ) + (1 − ρ2 )E(Z 2 )
= ρ2 + (1 − ρ2 )
= 1.
Also gilt Var(Y ) = 1. Für die Kovarianz von X und Y erhalten wir
√
Kov(X, Y ) = E(XY ) − E(X)E(Y ) = E[X(ρX + 1 − ρ2 Z)]
√
= ρE(X 2 ) + 1 − ρ2 E(XZ) = ρ.
√
Die bedingte Verteilung von Y gegeben X = x ist gleich der Verteilung von ρx+ 1 − ρ2 Z
und somit eine Normalverteilung mit Mittelwert ρx und Varianz 1 − ρ2 . Damit gilt für
die bedingte Dichte fY ( · |X = x)
(
)
(y − ρx)2
1
exp −
(∗)
fY (y|X = x) = √
.
2(1 − ρ2 )
2π(1 − ρ2 )
99
Der bedingte Erwartungswert E(Y |X = x) von Y gegeben X = x ist deshalb gleich ρx.
Damit ist E(Y |X) = ρX. Für die gemeinsame Dichte f von X und Y erhalten wir gemäß
der Formel für die bedingte Dichte
f (x, y) = fX (x)fY (y|X = x)
( 2)
(
)
1
x
1
(y − ρx)2
√
= √ exp −
exp −
2
2(1 − ρ2 )
2π
2π(1 − ρ2 )
(
)
1
(x2 − 2ρxy + y 2 )
√
=
exp −
.
2(1 − ρ2 )
2π 1 − ρ2
Diese Formel stimmt mit der der Formel (+) auf Seite 53 überein, wenn man µX = µY = 0
und σX = σY = 1 setzt. Dieser Ausdruck ist symmetrisch in x und y. Wir können also
die Rollen von X und Y vertauschen. Damit gilt auch:
a) die bedingte Verteilung von X gegeben Y = y ist N(ρy, 1 − ρ2 ).
b) E(X|Y = y) = ρy.
Setzt man nun X =
1
2π
√
σU2 σV2 (1 − ρ2 )
U −µU
σU
und Y =
(
exp −
V −µV
σV
, so erhält man für U und V die Dichte
[
])
(u − µU )2
1
(u − µU )(v − µV ) (v − µV )2
− 2ρ
+
.
2(1 − ρ2 )
σU2
σU σV
σV2
Wegen V = σV Y + µV erhält man mit (∗) die bedingte Dichte

(
(
))2 
u−µU
1
 1 v − ρ σU σV + µV

fV (v|U = u) = √
exp
−
.
2
2
2
2
2
σV (1 − ρ )
2πσV (1 − ρ )
D.h., die bedingte Verteilung von V gegeben U = u ist eine Normalverteilung mit MittelU
wert ρ u−µ
σV + µV und Varianz σV2 (1 − ρ2 ). Insbesondere ist
σU
E(V |U = u) = ρ
u − µU
σV + µV .
σU
Aus der Gleichung
fU (u) =
f (u, v)
fV (v|U = u)
ergibt sich, dass U N (µU , σU2 )-verteilt ist. Analog folgt, dass V N (µV , σV2 )-verteilt ist. Für
unkorrelierte U und V gilt speziell fV (v|U = u) = fV (v). Dies bedeutet, dass unkorrelierte
normalverteilte Zufallsvariablen unabhängig sind.
Beispiel: Der Statistiker Karl Pearson hat die Körpergrößen bei 1078 Vater-Sohn Paaren
bestimmt. Er stellte fest, dass die Väter im Mittel 5 Fuß und 9 Inch und die Söhne im
Mittel 5 Fuß und 10 Inch groß sind. Die Standardabweichung beträgt jeweils 2 Inch und
die Korrelation ist 0.5. Man kann in guter Näherung annehmen, dass die Körpergrößen in
einem Vater-Sohn Paar gemeinsam normalverteilt sind. Wie groß ist dann im Mittel der
100
Sohn eines Vaters mit 6 Fuß und 2 Inch Körpergröße?
Sei U die Körpergröße des Vaters und V die Körpergröße des Sohnes. Sei
X=
V − µV
U − µU
und Y =
.
σU
σV
Für U = 6 Fuß und 2 Inch erhalten wir X = 2.5 (12 Inch sind 1 Fuß). Da X und Y
gemeinsam standard normalverteilt sind, ist E(Y |X = x) = ρx. Damit ist E(Y |X =
2.5) = 1.25. Dies ergibt
E (V |U = u) = ρ
u − µU
σV + µV = 2.5 Inch + 5 Fuß 10 Inch = 6 Fuß 0.5 Inch.
σU
Der Sohn eines außergewöhnlich großen Vaters ist also im Mittel kleiner als sein Vater.
Dieses Phänomen wurde von Galton als Regression zum Mittelwert bezeichnet.
7.7
Empirische Verteilungsfunktion und Quantile
Wir wollen uns in diesem Abschnitt mit der Darstellung von Daten befassen. Dabei sind
Quantile wichtig.
Definition 7.7.1 Sei X eine Zufallsvariable und 0 < p < 1. Dann heißt qp Quantil der
Ordnung p oder p-Quantil, falls
P (X < qp ) ≤ p ≤ P (X ≤ qp )
gilt. q1/2 heißt Median, q1/4 heißt erstes Quartil, q3/4 heißt drittes Quartil.
Man beachte, dass p-Quantile im allgemeinen nicht eindeutig bestimmt sind.
Ist F die Verteilungsfunktion von X, so gilt
P (X < q) = lim P (X ≤ q − h) = lim F (q − h) = F (q−).
h↓0
h↓0
Dabei bezeichnet F (q−) den linksseitigen Grenzwert von F an der Stelle q. Dieser existiert
stets, da F wachsend ist. Die definierende Gleichung für ein p-Quantil ist äquivalent zu
F (q−) ≤ p ≤ F (q).
Ist X stetig verteilt mit Dichte f , so ist F stetig und damit gilt für ein p-Quantil
F (q) = p.
Ist die Dichte f strikt positiv, so ist die Verteilungsfunktion F strikt monoton wachsend
und die Gleichung F (q) = p besitzt eine eindeutige Lösung.
Beispiel:
Sei X exponentialverteilt mit Parameter λ. Dann gilt E(X) = 1/λ und
∫ 1/λ
P (X ≤ 1/λ) = λ
e−λx dx = 1 − e−1 ≈ 0.632 > 0.5.
0
101
Der Median der Exponentialverteilung ergibt sich durch Lösen der Gleichung
1 − e−λq = 0.5.
Damit erhalten wir, dass der Median gleich
1
1
≈ 0.69 < E(X)
λ
λ
ist. Die linke Seite wird auch oft als Halbwertszeit bezeichnet, wenn man an den radioaktiven Zerfall von Materie denkt.
log(2)
Ein grundlegender Begriff zur Datenerfassung ist die empirische Verteilungsfunktion.
Definition 7.7.2 Seien X1 , X2 , . . . ,∑
Xn , . . . unabhängig identisch verteilt mit Verteilungs1
b
funktion F . Dann heißt Fn (z) = n ni=1 1{Xi ≤z} empirische Verteilungsfunktion nach n
Beobachtungen.
Satz 7.7.3 Die empirische Verteilungsfunktion konvergiert gegen die wahre Verteilungsfunktion, d.h. es gilt:
Fbn (z) −→ F (z)
für alle z.
Beweis:
n
1∑
b
E1{Xi ≤z}
E Fn (z) =
n i=1
1∑
=
P (Xi ≤ z)
n i=1
n
= P (X1 ≤ z)
= F (z).
Aber Fbn (z) ist arithmetisches Mittel der unabhängig identisch verteilten Zufallsvariablen
1{Xi ≤z} . Aus dem Gesetz der großen Zahlen folgt die Konvergenz für jedes z.
2
Sei nun qbp,n das p-Quantil der empirischen Verteilungsfunktion Fbn . Dann folgt aus der
Konvergenz der empirischen Verteilungsfunktion qbp,n → qp für alle 0 < p < 1.
Schließlich lassen sich arithmetisches Mittel und empirische Varianz auch als Funktionale
der empirischen Verteilungsfunktion auffassen:
∫
n
1∑
a)
Xn =
Xi = xFbn (dx)
n i=1
∫
n
1∑
2
2
b)
σ
bn =
(Xi −Xn ) = (x −Xn )2 Fbn (dx).
n i=1
Die Konvergenz von Xn → E(X1 ) und σ
bn2 → σ 2 folgt unter passenden Zusatzvoraussetzungen.
Wie lassen sich nun Datensätze mit unbekannter zugrundeliegender Verteilung darstellen?
Gängig sind die folgenden drei Möglichkeiten:
102
1. als empirische Verteilungsfunktion,
2. als Histogramm, d.h. als Balkendiagramm,
3. als Box-Plot.
Der Box-Plot besteht aus einer Box um den Median mit 1. und 3. Quartil als Begrenzung
[ = qb3/4 − qb1/4 das interquantile range. Weiterhin gehen
nach unten oder oben. Sei IQR
Linien von den oberen und unteren Enden der Box zu den adjacent Werten, die wie folgt
[ ist der obere adjacent
definiert sind. Der größte Wert, der kleiner ist als qb3/4 + 1.5 IQR,
[ ergibt den unteren adjacent
Wert. Der kleinste Wert, der größer ist als qb1/4 − 1.5 IQR,
Wert. Liegt ein Beobachtungswert außerhalb von den adjacent Werten, gilt er als Ausreißer
und wird einzeln dargestellt.
∗
∗
q3/4
q1/2
q1/4
Abbildung 7.5: Box-Plot
Box-Plots sind sehr gut geeignet für einfache und mehrfache Vergleiche mehrerer Datensätze.
Beispiel:
Studiendauern in Semester im Diplom-Studiengang Mathematik vor 10 Jahren.
Fachsemester 6
1
10 11 12
1 1 3
13
4
14
4
15
2
103
16
3
18
1
20
3
22
1
29
1
0
2
4
6
8
Der Median ist med25 = 14 und das arithmetische Mittel ist X 25 = 15, 12. Die Standardabweichung beträgt σ
b25 = 4, 57. Histogramm und Boxplot für obigen Datensatz zeigen
die beiden folgenden Graphiken.
10
15
20
x
10
15
20
25
Abbildung 7.6: Histogramm
Abbildung 7.7: Box-Plot
104
25
Kapitel 8
Kombinatorische Resultate zur
Symmetrischen Irrfahrt
Seien X1 , X2 , . . . unabhängig und identisch verteilt mit
P (Xi = 1) =
Sei Sk =
k
∑
1
= P (Xi = −1).
2
Xi für k ∈ IN und sei S0 = 0. Eine Folge (S0 (ω), S1 (ω), S2 (ω), . . .) heißt Pfad
i=1
oder Realisierung der Irrfahrt.
3
2
1
−1
1
2
3
4
5
6
7
8
9
10
−2
−3
Abbildung 8.1
Wir interessieren uns für Pfade der Länge n. Alle diese Pfade sind gleichwahrscheinlich
mit Wahrscheinlichkeit 2−n . Es gilt
(
)
n
P (Sn = k) = n+k 2−n .
2
105
Satz 8.1.1 (Ballot-Theorem) Sei k ∈ IN. Dann gilt
P (S1 > 0, S2 > 0, . . . Sn−1 > 0 | Sn = k) =
k
n
Bemerkung: Der Name des Satzes rührt von der Auszählung einer Wahl her. Wenn eine
Wahl mit k Stimmen Vorsprung gewonnen wird, bei der insgesamt n Stimmen abgegeben
wurden, so ist nk die Wahrscheinlichkeit dafür, dass der Sieger auch stets geführt hat.
Beweis: Sei n′ < n. Sei N(n′ ,k′ ),(n,k) die Anzahl der Pfade mit Sn′ = k ′ und Sn = k.
Dann gilt
P (S1 > 0, S2 > 0, , . . . , Sn−1 > 0, Sn = k)
= P (S1 = 1, Sn = k) − P (S1 = 1, Sn = k, Si ≤ 0 für 1 < i < n)
= 2−n (N(1,1),(n,k) − #{Pfade von (1,1) nach (n,k), die die x-Achse berühren oder kreuzen })
Wir berechnen nun die Anzahl der Pfade in der geschweiften Klammer mit Hilfe des Spiegelungsprinzips.
Spiegelungsprinzip:
Seien A, B ∈ Z. Sei A′ der an der x-Achse gespiegelte Punkt . Dann existiert eine Bijektion
von der Menge { Pfade von A nach B, die die x-Achse berühren oder kreuzen } auf die
Menge { Pfade von A′ nach B }. Die Abbildung erhält man durch Spiegelung des ersten
Teilpfades am ersten Kreuzungspunkt der x-Achse.
3
2
B
A
1
−1
−2
1
2
3
4
5
6
7
8
9
10
A′
−3
Abbildung 8.2
Die Anzahl der Pfade in der geschweiften Klammer ergeben sich nun als N(1,−1),(n,k) . Man
erhält folglich:
106
P (S1 > 0, S2 > 0, , . . . , Sn−1 > 0, Sn = k) = {N(1,1),(n,k) − N(1,−1),(n,k) }2−n
[(
) (
)]
n−1
n−1
n+k
=
−
2−n mit a =
a−1
a
2
[
]( )
a n−a
n −n
−
=
2
n
n
a
(
)
k n
=
2−n
n n+k
2
=
k
P (Sn = k).
n
2
Eine direkte Folgerung ist das Ergebnis für das erstmalige Erreichen einer bestimmten
“Höhe”.
Satz 8.1.2 Sei l ∈ IN. Es gilt
P (Sn = l, Si < l für i = 1, . . . , n − 1) =
l
P (Sn = l)
n
Beweis: Dieses Resultat folgt aus dem Ballot-Theorem, wenn man Raum und Zeit umkehrt. Seien S0∗ = 0,
S1∗ = Sn − Sn−1 ,
S2∗ = Sn − Sn−2
..
.
Sn∗ = Sn − S0 = Sn
l
l
Abbildung 8.3
107
Dann gilt wegen Satz 8.1.1
P (Si < l, i = 1, . . . , n − 1, Sn = l) = P (Si∗ > 0, i = 1, . . . , n − 1, Sn∗ = l)
l
P (Sn∗ = l)
n
l
= P (Sn = l).
n
=
2
Als Korollar 8.1.3 erhalten wir ein Resultat, das wir in Kapitel 6.2, S. 58 benutzt haben
um zu zeigen, dass es Zufallsvariable gibt mit unendlichem Erwartungswert.
Korollar 8.1.3
P (S2k+1
1
= 1, Si < 1 für i = 1, . . . , 2k) =
2(k + 1)
( )
2k −2k
2 .
k
Beweis:
Wegen Satz 8.1.2 gilt
P (S2k+1
(
)
1
2k + 1 −(2k+1)
= 1, Si < 1 für i = 1, . . . , 2k) =
2
2k + 1 k + 1
=
1 1 (2k + 1)! −2k
2
2 2k + 1 (k + 1)!k!
1
(2k)! −2k
2
2(k + 1) k!k!
( )
2k −2k
1
=
2
2(k + 1) k
=
2
Wir wollen uns nun mit Aussagen über Folgen Si der Länge 2n beschäftigen, um schließlich
ein Arcus-Sinus-Gesetz über den letzten Nulldurchgang der Irrfahrt zu beweisen.
Satz 8.1.4
a) P (S1 > 0, S2 > 0, . . . , S2n−1 > 0, S2n
b) P (S1 ≥ 0, S2 ≥ 0, . . . , S2n−1 ≥ 0, S2n
)
(
2n − 2 −n
2
n−1
( )
1
2n −n
= 0) =
2
n+1 n
1
= 0) =
n
Beweis:
Zu a): P (S1 > 0, . . . , S2n−2 > 0, S2n = 0)
1
P (S1 > 0, . . . , S2n−2 > 0 | S2n−1 = 1) P (S2n−1 = 1)
2
(
)
1
2n − 1 −2n+1 1
Satz 8.1.1
=
2
·
n
2n − 1
2
=
=
=
(2n − 2)! −2n
2
n!(n − 1)!
(
)
1 2n − 2
2−2n .
n
−
1
n
108
Zu b): Sei M1 = {Pfade von (0, 0) nach (2n, 0),(die)immer positiv sind} .
2n
1
Nach a) ist #M1 = Cn−1 mit Cn = n+1
, der n-ten Catalan-Zahl.
n
Sei M2 = {Pfade von (1, 1) nach (2n − 1, 1), die höchstens y = 1 berühren} .
Dann sind #M1 = #M2 ; denn es existiert eine Bijektion von M1 → M2 .
Abbildung 8.4
Um diese einzusehen, wähle einen neuen Ursprung in (1, 1) und Endpunkt in
(2n−1, 1). Dann entsteht M3 = {Pfade von (0, 0) nach (2n − 2, 0), die y = 0 berühren} .
⇒ #M2 = #M3 = #M1 = Cn−1 .
2
Sei u2n :=
(2n)
n
2−2n . Dann gilt P (S2n = 0) = u2n .
Satz 8.1.5
a) P (S1 > 0, . . . , S2n > 0) = 21 u2n
b) P (S1 ̸= 0, . . . , S2n ̸= 0) = u2n
Beweis: Um( a) )zu zeigen benutzen wir die Bezeichnung von Satz 8.1.1 und pn,r :=
n
P (Sn = r) = n+r
2−n . Dann gilt nach dem Beweis von Satz 8.1.1
2
P (S1 > 0, . . . , S2n > 0) =
=
n
∑
r=1
n
∑
P (S1 > 0, . . . , S2n−1 > 0, S2n = 2r)
(
)
N(1,1),(2n,2r) − N(1,−1),(2n,2r) 2−2n
r=1
=
)
n [(
∑
2n − 1
r=1
2n−1+2r−1
2
(
−
2n − 1
2n−1+2r+1
2
n
1 ∑
=
(p2n−1,2r−1 − p2n−1,2r+1 )
2 r=1
=
1
p2n−1,1
2
109
)]
2−2n
(
)
1 2n − 1 −(2n−1)
=
2
2
n
1
= u2n .
2
Zeige nun b). Mit Aussage a) und der Symmetrie der Irrfahrt folgt
P (S1 ̸= 0, . . . , S2n ̸= 0) = P (S1 > 0, . . . , S2n > 0) + P (S1 < 0, . . . , S2n < 0)
1
= 2 u2n = u2n .
2
2
Korollar 8.1.6
P (S1 ≥ 0, . . . , S2n ≥ 0) = u2n
Beweis: Ein Pfad der Länge 2n, der strikt positiv ist, geht durch (1, 1). Nimmt man (1, 1)
als neuen Ursprung, so erhält man einen Pfad, dessen Ordinaten ≥ 0 sind.
Es folgt
1
P (S1 ≥ 0, . . . , S2n−1 ≥ 0)
2
≥ 0 und hat einen ungeraden Wert, so dass auch S2n ≥ 0 ist und damit
P (S1 > 0, . . . , S2n > 0) =
Aber S2n−1
=
1
P (S1 ≥ 0, . . . , S2n ≥ 0) .
2
2
Korollar 8.1.7
P (S1 ̸= 0, . . . , S2n−1 ̸= 0, S2n = 0) =
1
u2n
2n − 1
Beweis:
P (S1 ̸= 0, . . . , S2n−1 ̸= 0, S2n = 0) = P (S1 ̸= 0, . . . , S2n−2 ̸= 0) − P (S1 ̸= 0, . . . , S2n ̸= 0)
1
u2n
= u2n−2 − u2n =
2n − 1
2
Wir nähern uns nun langsam dem Arcus-Sinus Gesetz.
Satz 8.1.8 Sei k < n. Dann gilt
P (S2k = 0, S2k+2 ̸= 0, . . . , S2n ̸= 0) = u2k u2n−2k .
110
Beweis: Beachtet man die Unabhängigkeit der Zuwächse, so erhält man mit Satz 8.1.5
P (S2k+1 ̸= 0, . . . , S2n ̸= 0 | S2k = 0) = P (S1 ̸= 0, . . . , S2n−2k−1 ̸= 0, S2n−2k ̸= 0) = u2n−2k .
Wegen P (S2k = 0) = u2k folgt dann mit Multiplikation die Behauptung.
2
Setzen wir nun α2k,2n := u2k u2n−2k ; dann gilt für n → ∞
( )
1
k
1
.
α2k,2n ∼ f
mit f (x) = √
n
n
π x(1 − x)
Da
∫z
0
f (x) dx =
2
π
arcsin
√
z gilt, hat man
∑
α2k,2n →
k
<x
n
√
2
arcsin x .
π
Wir formulieren unser neues Wissen als folgendes zusammenfassendes Resultat.
Korollar 8.1.9 Sei Tn = max{k ≤ n | S2k = 0}. Dann gilt für n → ∞
P (Tn /n ≤ x) →
√
2
arcsin x .
π
Dieses Resultat besagt, dass der letzte Nulldurchgang entweder sehr früh oder sehr spät
mit großer Wahrscheinlichkeit erfolgt. Siehe dazu den Graphen von f (x) = √ 1
.
π
x(1−x)
3.0
2.5
2.0
1.5
f(x)
1.0
0.5
0.0
0.2
0.4
0.6
0.8
1.0
Abbildung 8.5
Wir wollen uns nun dem Arcus-Sinus Gesetz für Aufenthaltszeiten im Positiven zuwenden.
Wir verstehen darunter die Anzahl der Schenkel des (Polygonzugs des) Pfades, die bis zur
Zeit 2n in der positiven Halbebene liegen. In Abbildung (8.1) sind dies 10 Schenkel bis
zur Zeit 10. Die Aufenthaltsdauer ist 10. Sei also An die Aufenthaltszeit der Irrfahrt bis
zur Zeit 2n, so gilt
111
Satz 8.1.10
P (An /n ≤ x) →
√
2
arcsin x
π
für x → ∞.
Beweis: Wir nennen die Wahrscheinlichkeit aus Korollar 8.1.7
f2n := P (S1 ̸= 0, . . . , S2n ̸= 0) .
Dann gilt
u2n = P (S2n = 0) = f2 u2n−2 + f4 u2n−4 + · · · + f2n u0 =
n
∑
f2m u2n−2m .
m=1
Sei b2k,2n die Wahrscheinlichkeit, dass ein Pfad der Länge 2n im Positiven 2k Zeiteinheiten
verbringt. Dann ist
(∗)
b2n,2n = u2n = u2n u2n−2n = α2n,2n .
Wir wollen nun weiterzeigen, dass
(∗∗)
b2k,2n = α2k,2n = u2n−2k u2k
ist für 1 ≤ k ≤ n − 1, d.h. dass 2k Zeiteinheiten positiv sind. Die Fälle “k = 0” und
“k = 2n liefert bereits (∗).
Sei 2r der Zeitpunkt der ersten Rückkehr zur x-Achse. Dann ist entweder
S1 > 0, . . . , S2r−1 > 0 oder S1 < 0, . . . , S2r−1 < 0. Die Wahrscheinlichkeit b2k,2n kann nun
zerlegt werden nach dem Zeitpunkt 2r der ersten Rückkehr zur x-Achse unter Beachtung,
wo der Pfad vor 2r war. Es gilt
( k
)
n−k
∑
1 ∑
(∗ ∗ ∗)
b2k,2n =
f2r b2k−2r,2n−2r +
f2r b2k,2n−2r .
2 r=1
r=1
Nun machen wir Induktion nach n. Als Induktionsverankerung haben wir für n = 2
( ) ( )
2 −2 2 −2
4
=
2
2 = u2 u4−2 = α2,4 .
b2,4 =
16
1
1
Nehmen wir nun an, dass für 1 ≤ k ≤ n − 1 bereits (∗∗) gilt. Dann ist nach Einsetzen
in (∗ ∗ ∗)
( k
)
n−k
∑
1 ∑
b2k,2n =
f2r α2k−2r,2n−2r +
f2r α2k,2n−2r
2 r=1
r=1
∑
∑
1
1
= u2n−2k
f2r u2k−2r + u2k
f2r u2n−2k−2r
2
2
r=1
r=1
k
=
n−k
1
1
u2n−2k u2k + u2k u2n−2k
2
2
= u2n−2k u2k = α2k,2n .
Dabei benutzt man die anfangs erwähnte Zerlegung von u2n .
112
2
Kapitel 9
Erzeugende Funktionen und
Momentenerzeugende Funktionen
9.1
Definition und Eigenschaften erzeugender
Funktionen
Definition 9.1.1 (erzeugende Funktion) Sei X Zufallsvariable mit Werten in N ∪
{0}. Dann heißt
∞
∑
P (X = n)z n , −1 ≤ z ≤ 1,
fX (z) =
n=0
die erzeugende Funktion der Verteilung von X.
Bemerkung:
1) fX (z) ist für |z| ≤ 1 wohldefiniert, da
P (X = n)|z n | ≤ P (X = n) für |z| ≤ 1 und
∞
∑
P (X = n) = 1 gilt.
n=0
2) Es gilt: Ez X =
∑
p(ω)z X(ω) =
ω
∞
∑
P (X = n)z n = fX (z).
n=0
3) fX legt die Verteilung von X eindeutig fest (siehe Satz 9.1.2).
Satz 9.1.2 Es gilt:
1) a) fX (0) = P (X = 0),
b) fX (1) = 1,
(n)
c) P (X = n) =
fX (0)
.
n!
2) fX (z) ist für 0 ≤ z ≤ 1 monoton wachsend (f ′ (z) ≥ 0) und konvex (f ′′ (z) ≥ 0).
3) Falls E(X) < ∞ ist, gilt fX′ (1) = lim fX′ (z) = E(X).
z↗1
4) Falls E(X 2 ) < ∞ ist, gilt fX′′ (1) = lim fX′′ (z) = E(X 2 ) − E(X).
z↗1
113
Beweis:
Zu 1): Nachrechnen.
Zu 2): Gliedweises Differenzieren liefert für 0 ≤ z < 1 f ′ (z) ≥ 0,
f ′′ (z) ≥ 0.
Zu 3):
Lemma
von Abela
∞
∞
∑
∑
Sei
cn konvergente Reihe mit cn ∈ R dann konvergiert f (x) =
cn xn
n=0
n=0
für x ∈ [0, 1] und f ist im Intervall [0, 1] stetig.
∞
∑
cn .
Insbesondere: lim f (x) = f (1) =
x↗1
a
n=0
s. Forster Band 1, S. 180
Da EX =
fX′ (z) =
∞
∑
kP (X = k) < ∞, liefert das Lemma von Abel, angewandt auf
k=1
∞
∑
kP (X = k)z k−1 , die Behauptung:
k=1
fX′ (1)
= lim fX′ (z) = lim (
z↗1
∞
∑
z↗1 k=1
kP (X = k)z k−1 ) =
∞
∑
kP (X = k) = E(X).
k=1
Zu 4): EX 2 < ∞ ⇒ E(X) < ∞. Wende das Lemma von Abel auf fX′′ an:
∞
∞
∑
∑
d
( P (X = k)kz k−1 ) =
P (X = k)k(k − 1)z k−2
fX′′ (z) = dz
k=1
k=2
(Terme mit k = 0 und k = 1 verschwinden).
∞
∑
fX′′ (1) = lim fX′′ (z) = lim
P (X = k)k(k − 1)z k−2
=
∞
∑
z↗1
z↗1 k=2
P (X = k)(k 2 − k) = E(X 2 ) − E(X).
k=2
2
Die vorletzte Gleichung benutzt das Lemma von Abel.
Satz 9.1.3 Seien X und Y unabhängige Zufallsvariablen mit Werten in N ∪ {0}.
Dann gilt:
fX+Y (z) = fX (z)fY (z).
Beweis:
fX+Y (z) = E(z (X+Y ) ) = E(z X z Y )
∑
=
z X(ω) z Y (ω) p(ω)
ω∈Ω
=
∑
z k z l P (X = k, Y = l)
k,l
=
∑
z k z l P (X = k)P (Y = l)
k,l
=(
∑
z k P (X = k))(
k
= fX (z)fY (z)
114
∑
l
z l P (Y = l))
2
Folgerung
n
Seien X1 , X2 , ..., Xn unabhängige Zufallsvariablen. Dann gilt: f ∑
Xi
(z) =
n
∏
fXi (z).
i=1
i=1
Beispiele:
1) Seien X1 , ..., Xn unabhängig und Bernoulli-verteilt mit P (Xi = 1) = p, P (Xi = 0) = q.
n
∑
Xi , so gilt für deren erzeugende
Dann gilt: fXi (z) = q + pz. Setzt man Sn =
n
Funktion: fSn (z) = (q + pz) =
n ( )
∑
n
k=0
k
i=1
k n−k k
p q
z .
Das ist die erzeugende Funktion der Binomialverteilung.
2) Seien X1 , X2 , ..., Xn unabhängig und Poisson-verteilt mit
λk
P (Xi = k) = k!i e−λi , (k = 0, 1, 2, ...), so ist die erzeugende Funktion:
∞ k k
∑
λi z −λi
fXi (z) =
e
= eλi z−λi = eλi (z−1) .
k!
k=0
Für die erzeugende Funktion von Sn =
n
∑
n
∑
Xi gilt dann: fSn (z) = e
i=1
Wegen Satz 9.1.2 gilt: Sn ist Poisson-verteilt mit Parameter
λi (z−1)
i=1
n
∑
.
λi .
i=1
9.2
Poisson-Prozesse
Herleitung des Poisson-Prozesses durch erzeugende Funktionen
Sei Xt die Anzahl der „Anrufe“ im Zeitintervall [0, t] und X0 = 0, 0 ≤ t ≤ K.
Annahmen:
1) Sei 0 < t1 < t2 < ... < tk < K. Dann sind Xt1 , Xt2 − Xt1 , ..., Xtk − Xtk−1 unabhängig.
2) Xt+a − Xs+a ist für alle a > 0 genau so verteilt wie Xt − Xs .
3) a) P (Xt+δ − Xt = 1) = λδ + o(δ) für δ → 0,
b) P (Xt+δ − Xt = 0) = 1 − λδ + o(δ) für δ → 0,
Bemerkung: Aus 3) folgt P (Xt+δ − Xt > 1) = o(δ) für δ → 0, denn
P (Xt+δ − Xt > 1) = 1 − P (Xt+δ − Xt = 0) − P (Xt+δ − Xt = 1)
= 1 − [1 − λδ + o(δ)] − [λδ + o(δ)]
= 2o(δ)
= o(δ)
für δ → 0.
Aufgabe: Berechne unter den Annahmen (1)-(3) die erzeugende Funktion von Xt .
115
Behauptung: fXt (z) = eλt(z−1) . Xt ist Poisson-verteilt mit Parameter λt.
Beweisidee:
Zerlege das Intervall [0, t] in N Stücke der Länge
von Xt/N . Berechne anschließend Xt .
t
N
und berechne die erzeugende Funktion
Aus 3a), 3b) und 3c) folgt: fX t (z) = 1 − λ Nt + λz Nt + o( Nt ) für N → ∞.
N
Wegen 2) ist dies auch die erzeugende Funktion von X 2t −X Nt , X 3t −X 2t , ..., Xt −X (N −1)t .
N
N
N
N
)
N (
∑
Da Xt =
X jt − X (j−1)t ist, folgt mit 1) und Satz 9.1.3
j=1
N
N
fXt (z) = (fX t (z))N
N
(
( ))N
λt λzt
t
= 1−
+
+o
N
N
N
(
( ))N
λt(z − 1)
1
= 1+
+o
für N → ∞
N
N
→ eλt(z−1) für N → ∞.
Dabei haben wir verwendet: (1 +
xn n
)
n
→ ex , falls xn → x und n → ∞.
2
Definition 9.2.1 (Poisson-Prozess)
Die Menge der Zufallsvariablen {Xt , 0 ≤ t ≤ K} mit den Eigenschaften (1)–(3) heißt
Poisson-Prozess zum Parameter λ.
Xt
t
zufällige Zeiten
Abbildung 9.1: Poisson-Prozess
Bemerkung: Eigenschaft (3) lässt sich ersetzen durch (3’): Für 0 ≤ s ≤ t gilt: Xt − Xs
ist Poisson-verteilt mit Parameter λ(t − s).
9.3
Ausgedünnte Poisson-Prozesse
Satz 9.3.1 Sei {Xt , t ∈ [0, K]} Poisson-Prozess mit Parameter λ. Seien Z1 , Z2 , ... BernoulliVariable mit P (Zi = 1) = p. Weiter seien Xt , Z1 , Z2 , ... unabhängig (d.h. für jedes n ≥ 1
sind Xt , Z1 , Z2 , ..., Zn unabhängig).
116
Dann ist Yt =
Xt
∑
Zi Poisson-verteilt mit Parameter λpt.
i=1
Weitergehend ist {Yt , t ∈ [0, K]} Poisson-Prozess mit Parameter λp, wenn die geforderte
Unabhängigkeitseigenschaft für alle t > 0 gilt.
Beweis:
n
∑
Zeige, dass fYt (z) = eλpt(z−1) gilt. Sei Sn =
Zi . Dann ist:
i=1
P (Yt = k) = P (SXt = k) =
∞
∑
P (Xt = n, Sn = k) =
n=0
fYt (z) =
∞
∑
∞
∑
P (Xt = n)P (Sn = k)
n=0
P (Yt = k)z k
k=0
=
∞ ∑
∞
∑
P (Xt = n)P (Sn = k)z k
k=0 n=0
=
=
=
∞
∑
n=0
∞
∑
n=0
∞
∑
∞
∑
P (Sn = k)z k )
P (Xt = n)(
k=0
P (Xt = n)fSn (z)
P (Xt = n)(fZ1 (z))n
wegen Satz 9.1.3
n=0
= fXt (fZ1 (z))
= fXt (1 + p(z − 1))
= eλtp(z−1) .
2
Korollar 9.3.2 Seien Yt :=
gig.
Xt
∑
Zi und Wt :=
i=1
Xt
∑
(1 − Zi ). Dann sind Yt und Wt unabhän-
i=1
Beweis:
Aus Satz 9.3.1 folgt, dass auch Wt Poisson-verteilt ist mit Parameter λ(1 − p). Die Aussage über die Unabhängigkeit folgt aus dem folgenden Lemma, wenn man N = Xt setzt. 2
Lemma 9.3.3 Sei N Poisson-verteilte Zufallsvariable mit Parameter λ. Seien Z1 , Z2 , . . .
Bernoulli-Variable mit P (Zi = 1) = p. Für jedes n ≥ 1 seien N, Z1 , Z2 , . . . , Zn unabhängig. Dann sind die Zufallsvariablen
Y =
N
∑
Zi ,
W =
i=1
N
∑
i=1
unabhängig.
117
(1 − Zi )
Beweis:
Es gilt wegen der Unabhängigkeitsvoraussetzung und wegen N = Y + W
P (Y = k, W = n − k) = P (Y = k, W = n − k, N = n)
= P (Y = k, W = n − k | N = n) P (N = n)
( n
)
n
∑
∑
=P
Zi = k,
(1 − Zi ) = n − k P (N = n)
(
=P
i=1
n
∑
i=1
)
Zi = k P (N = n)
i=1
=
n!
λn −λ
pk (1 − p)n−k
e
k!(n − k)!
n!
=
(pλ)k −pλ [(1 − p)λ]n−k −(1−p)λ
e
e
k!
(n − k)!
= P (Y = k) P (W = n − k).
Die letzte Gleichung benutzt von Satz 9.3.1 die erste Aussage.
2
Die Kükenaufgabe:
Auf einer Farm legen Hühner innerhalb eines Jahres N Eier, N sei Poisson-verteilt mit Parameter λ. Aus jedem Ei schlüpft unabhängig von den anderen Eier ein Küken mit Wahrscheinlichkeit p. Wenn Y die Anzahl der geschlüpften Küken ist, was ist
E(N |Y = k)?
9.4
Poisson-Prozess über dem Einheitsquadrat
Sei E = [0, 1]2 und B ⊂ E. XB sei die Anzahl der „Treffer“ auf B (z.B. Regentropfen).
Annahmen:
1) Gilt A, B ⊂ E und A ∩ B = Ø, dann sind XA , XB unabhängig.
2) Sei s ∈ E, A ⊂ E sowie A + s ⊂ E. Dann ist XA+s genauso verteilt wie XA .
3) F (A) sei die Fläche von A. Dann gilt für F (A) → 0:
a) P (XA = 1) = λF (A) + o(F (A)),
b) P (XA = 0) = 1 − λF (A) + o(F (A)).
118
Abbildung 9.2: Poisson-Prozess über dem Einheitsquadrat
Aufgabe: Leite unter den Annahmen 1)–3) die erzeugende Funktion für die Anzahl der
„Treffer“ her.
Zerlege E in n × n kleine Quadrate Qi,n , (i ∈ {1, . . . n2 }) und nummeriere diese durch.
Kn bzw. Gn seien die Indexmengen der
∪ einbeschriebenen
∪ bzw. der umbeschriebenden
Quadrate der Menge A. Es gilt dann:
Qi,n ⊂ A ⊂
Qi,n .
i∈Kn
Definiere: X̃Kn := X ∪ Qi,n und X̃Gn := X ∪ Qi,n .
Kn
i∈Gn
Gn
Dann gilt für alle n: X̃Kn ≤ XA ≤ X̃Gn und damit folgt: lim ↑ X̃Kn = XA = lim ↓ X̃Gn .
n→∞
n→∞
Für die erzeugenden Funktionen folgt mit den Voraussetzungen 1) – 3):
∏
fXQi,n (z)
fX̃Kn (z) =
i∈Kn
=
∏
(1 − λF (Qi,n ) + λF (Qi,n )z + o(F (Qi,n )))
i∈Kn
( ))F (A)(1+o(1))
(
1
λ
λ
= 1 − 2 + 2z + o
n
n
n2
für n → ∞
→ eλF (A)(z−1) für n → ∞.
Ebenso gilt: fX̃Gn (z) → eλF (A)(z−1) und damit folgt: fXA (z) = eλF (A)(z−1) d.h. XA ist
Poisson-verteilt mit Parameter λF (A).
Bemerkung:
Diese Konstruktion funktioniert auch für [0, 1]k . Entsprechende Resultate zu Satz 9.3.1
und dem Korollar gelten.
9.5
Momentenerzeugende Funktionen
In Analogie zu Kapitel 9.1 definiert man für Verteilungen mit Dichten die sogenannte momenterzeugenden
Funktionen (MEF). Ist X Zufallsvariable mit Dichte f , so ist
∫
MX (t) = EetX = etx f (x)dx die MEF der Verteilung von X.
Für die MEFs gelten entsprechende Ausssagen wie für die erzeugende Funktionen von
Kapitel 9.1:
a) Eindeutigkeit,
119
b) Faltungseigenschaft (MX+Y (t) = MX (t)MY (t)) bei Unabhängigkeit,
c) Berechnung von Momenten.
Beispiel: Die MEF von N (µ, σ 2 )
Es gilt
∫∞
1
M (t) = √
2πσ 2
−(x−µ)2 /2σ 2
etx e
dx = e
tµ+ 21 σ 2 t2
−∞
∫∞
1
·√
2πσ 2
e−(x−(µ+σ
2 t))2 /2σ 2
1
dx = etµ+ 2 σ
2 t2
−∞
Beispiel zur Faltung:
Sei X nach N (µ1 , σ12 ) und Y nach N (µ2 , σ22 ) verteilt. Außerdem seien X und Y unabhängig. Dann gilt für die MEF von X + Y :
1
2 2
1
2 2
1
2
2
2
MX+Y (t) = EetX EetY = etµ1 + 2 σ1 t etµ2 + 2 σ2 t = et(µ1 +µ2 )+ 2 (σ1 +σ2 )t .
Dies ist die MEF von N (µ1 + µ2 , σ12 + σ22 ), d.h. X + Y ist nach N (µ1 + µ2 , σ12 + σ22 ) verteilt.
Die MEF der Gammaverteilung
∫∞
Es gilt Γ(α) = xα−1 e−x dx und damit
0
βα
M (t) =
Γ(α)
∫∞
etx xα−1 e−βx dx
0
=
βα
Γ(α)
∫∞
e−(β−t)x xα−1 dx
0
α
β
(β − t)α
t
= (1 − )−α .
β
=
Weiterhin gilt E(X) = M ′ (0) = αβ , Var(X) = M ′′ (0) − [M ′ (0)]2 =
9.6
α
.
β2
χ2k -Verteilung
Definition 9.6.1
Seien Y1 , ..., Yk unabhängige Zufallsvariablen und alle nach N (0, 1)-verteilt. Dann ist
V := Y12 + Y22 + ... + Yk2 nach χ2k -verteilt, d.h. Chiquadrat-verteilt mit k Freiheitsgraden.
Wir wollen nun die Dichte einer χ2k -verteilten Zufallsvariable berechnen.
120
.
∫α
Es gilt: P (Yi ≤ α) =
−∞
√1 e−
2π
x2
i
2
dxi .
Wir definieren K(β) := {(y1 , ..., yk )|
k
∑
yi2 ≤ β}. Damit ist:
i=1
)
∫ ∏
k (
y2
1
− 2i
√ ·e
dy1 ...dyk
2π
i=1
(∗)
P ((Y1 , ..., Yk ) ∈ K(β)) =
K(β)
∫
1
=
(2π)
e
k
2
K(β)
∫
(∗∗)
= B1 ·
S k−1
∫β
(∗∗∗)
− 12
k
∑
i=1
yi2
dy1 ...dyk
√
∫β 2
r
dσ e− 2 rk−1 dr
0
e− 2 z 2 −1 dz.
= B2
z
k
0
(*) wegen Unabhängigkeit,
k
∑
yi2 ,
(**) setze r2 =
i=1
(***) z = r2 ⇒ dz = 2rdr. Dabei ist B2 =
∫β
2− 2
Zusammenfassend: P (V ≤ β) = k
Γ( 2 )
k
k
2− 2
Γ( k2 )
und S k−1 die k-dimensionale Sphäre.
e− 2 z 2 −1 dz.
z
k
0
Dies ist die Verteilungsfunktion einer χ2k -Verteilung. Insbesondere ist diese eine G( k2 , 12 )Gammaverteilung. Ihre MEF ist daher M (t) = (1 − 2t)−k/2 .
Empirischer Mittelwert und empirische Varianzen bei der Normalverteilung
n
∑
Seien X1 , ..., Xn unabhängig nach N (µ, σ 2 ) verteilt und Tn := n1 (Xi − µ)2 . Dann ist
n
T
σ2 n
ETn = σ 2 und
(
1
n
Denn: ETn = E
und
n
T
σ2 n
=
1
σ2
n
∑
i=1
ist χ2n -verteilt.
n
∑
)
(Xi − µ)
2
i=1
(Xi − µ)2 =
i=1
n
∑
=
1
n
n
∑
i=1
E((Xi − µ)2 ) = n1 nVar(X1 ) = σ 2
( Xiσ−µ )2 .
i=1
Letztere ist aber eine Summe von n Quadraten von u.i.v. N (0, 1)-Variablen.
Seien X n =
1
n
n
∑
Xi und σ
bn2 =
i=1
b n2 =
Wie ist aber σ
1
n−1
n
∑
1
n−1
n
∑
(Xi − X n )2 . Dann gilt: EX n = µ und Eb
σn2 = σ 2 .
i=1
(Xi − X n )2 verteilt?
i=1
Da σn2 Tn χ2n -verteilt ist, und Eσn2 = σ 2 ist, kann man vermuten, dass n−1
σ
b2 χ2n−1 σ2 n
verteilt ist. Wie man etwas lax in Statistiker-Sprache sagt, geht ein Freiheitsgrad durch
121
das Schätzen von µ durch X n verloren. Tatsächlich lässt sich diese Vorstellung exakt mit
Linearer Algebra begründen. Wir werden im nächsten Kapitel darauf zurückkommen.
Wir machen nun das Resultat mit momentenerzeugen Funktion plausibel.
Satz 9.6.2
σ
bn2 =
n−1
σ2
1
σ2
n
∑
(Xi − X n )2 ist χ2n−1 -verteilt.
i=1
Beweisskizze: Es gilt, dass X n unabhängig ist von (X1 − X n , . . . , Xn − X n ) (siehe
Übungsaufgabe Nr. 37) und damit X n unabhängig ist von σ
bn2 , da σ
bn2 eine Funktion von
n
∑
(X1 − X n , . . . , Xn − X n ) ist. Wie wir bereits wissen ist W := σ12 (Xi − µ)2 = σn2 Tn
i=1
χ2n -verteilt. Weiter gilt
n
]2
1 ∑[
W = 2
(Xi − X n ) + (X n − µ)
σ i=1
[ n
]
n
∑
1 ∑
= 2
(Xi − X n )2 + 2
(Xi − X n )(X n − µ) + n(X n − µ)2
σ i=1
i=1
=
n
1 ∑
n
2
(X
−
X
)
+
(X n − µ)2 ,
i
n
2
2
σ
σ
| i=1 {z
} |
{z
}
U
denn
n
∑
V
(Xi − X n ) = 0 und damit der gemeinsame Term gleich Null.
i=1
Nun gilt wegen der Unabhängigkeit von X n und σ
bn2 die Unabhängigkeit von U und V und
damit
EetW = Eet(U +V )
= EetU EetV .
Da
n
(X n
σ2
− µ)2
χ12 -verteilt und W
χn2 -verteilt ist, folgt für die MEF von U
EetU = EetW /EetV
n−1
1 − 2t)−n/2
= (1 − 2t)− 2 .
=
−1/2
(1 − 2t)
Damit ist U
9.7
χ2n−1 -verteilt.
tn-Verteilung
Definition 9.7.1 (tn -Verteilung) Ist X nach N (0, 1)-verteilt und V nach χ2n -verteilt
und sind X und V unabhängig, so heißt die Verteilung von √X t-Verteilung mit n
V /n
Freiheitsgraden (kurz: tn -Verteilung).
122
Satz 9.7.2 Sind X n und σ
bn2 wie oben, so ist
Beweis:
Es ist
X n −µ
√
σ
bn / n
√ X n −µ
n
Xn − µ
√ = √ σ =√
σ
bn / n
σ
bn2 /σ 2
tn−1 -verteilt.
√
1
n−1
n
∑
n X nσ−µ
.
(Xi − X n )2 /σ 2
i=1
√
X = n X nσ−µ ist N (0, 1)-verteilt, der Term unter der Wurzel ist bis auf den Faktor
χ2n−1 -verteilt.
1
n−1
2
Satz 9.7.3 Die t-Verteilung mit n Freiheitsgraden hat die Dichte
)
Γ( n+1
fn (z) = √ 2 n
πnΓ( 2 )
(
)− n+1
2
z2
1+
.
n
Beweis: √
Sei U = X n. Dann ist U nach N (0, n) verteilt und V χ2n -verteilt. Weiter gilt wegen der
Unabhängigkeit von U und V
∫α (∫
∫
√
P (U/ V ≤ α) =
f (u)g(v)dudv =
√
{(u,v)|u/ v≤α}
mit z :=
√u
v
−∞
|
)
√
√
f (z v)g(v) vdv dz
{z
}
h(z)
und folglich
1
1
h(z) = √
n/2
2πn 2 Γ( n2 )
1
= √
2πn2n/2 Γ( n2 )
∫∞
√
vz 2
n
e− 2n v 2 −1 e−v/2 v dv
0
∫∞
v
n+1
−1
2
z2
e− 2 (1+ n ) dv
v
0
(
)− n+1
2
z2
1+
=
n
( n+1 ) (
)
− n+1
2
Γ 2
z2
(n) 1 +
= √
.
n
πnΓ 2
n+1
2
2 Γ( n+1
)
2
√
2πn2n/2 Γ( n2 )
2
Bemerkung: Sei Fn die Verteilungsfunktion der t-Verteilung. Dann gilt: Fn (z) → Φ(z)
n+1
2
2
2
für n → ∞ und fn (z) → φ(z) = √12π e−z /2 für n → ∞, denn (1 + zn )− 2 → e−z /2 , da
(1 + nx )n → ex , falls n → ∞.
123
Kapitel 10
Die mehrdimensionale
Normalverteilung
Wir wollen nun die mehrdimensionale Normalverteilung einführen. Sie ist grundlegend für
die Statistik. Den Fall “Dimension gleich zwei” haben wir schon in Stochastik I behandelt.
(Kapitel 7.5; S. 91)
Einige wichtige Eigenschaften der momenterzeugenden Funktion seien zunächst wiederholt.
1) Sind X,Y Zufallsvariablen mit X = aY + b, dann folgt MX (t) = etb MY (at).
∑
∏
2) Sind X1 , . . . , Xn unabhängig und ist Sn = ni=1 Xi , so gilt MSn (t) = ni=1 MXi (t).
3) Sei X nach N (µ, σ 2 )-verteilt, d.h. P (X ≤ α) =
gilt MX (t) = exp(tµ + 21 σ 2 t2 ).
∫α
√ 1 e−
−∞ 2πσ 2
(x−µ)2
2σ 2
dx, α ∈ IR. Dann
4) MX legt die Verteilung eindeutig fest.
Wichtige Notation:
Ein Zufallsvektor ist ein Vektor X = (X1 , . . . , Xn )T von Zufallsvariablen Xi , (1 ≤ i ≤ n).
Der Erwartungswert von X wird komponentenweise definiert: EX := (EX1 , . . . , EXn )T .
Die Kovarianzmatrix von X wird durch Kov(X) := (Kov(Xi , Xj ))1≤i,j≤n definiert, falls
EXi2 < ∞ ist für i = 1, . . . , n. Dann gilt
Kov(X)ij = Kov(Xi , Xj ) = E((Xi − EXi )(Xj − EXj ))
= E(Xi Xj − EXi EXj )
= E((X − EX)(X − EX)T )ij .
Kov(X) ist offensichtlich eine symmetrische n×n-Matrix. Außerdem ist Kov(X) nichtnegativdefinit (d.h. für alle a ∈ Rn gilt aT Kov(X)a ≥ 0), denn
aT Kov(X)a = aT E((X − EX)(X − EX)T )a
124
(
]
= E aT (X − EX)(X − EX)T a
= E((aT (X − EX))2 )
( n
)2
∑
=E
ai (Xi − EXi )
≥ 0.
i=1
Im Folgenden sehen wir, dass umgekehrt jede nichtnegativ-definite symmetrische Matrix
Kovarianzmatrix eines Zufallsvektors ist. Hierzu bemerken wir: Zu jeder nichtnegativdefiniten symmetrischen n × n-Matrix Σ gibt es eine nichtnegativ-definite und symmetrische “Wurzel” Q mit Σ = Q·QT : Ist Σ nichtnegativ-definit und symmetrische n×n-Matrix,
dann gibt es eine orthogonale Matrix O mit


σ̃12


..
Σ̃ = OΣO−1 und Σ̃ = 
.
.
2
σ̃n
Dabei sind σ̃i2 ≥ 0, (i = 1, . . . , n), denn für a ∈ Rn gilt aT Σ̃a = aT OΣO−1 a = (OT a)T ΣOT a ≥
0.
Definition 10.1.4 Ein Zufallsvektor X : Ω → Rn , X = (X1 , . . . , Xn∑
)T heißt n-dimensional
normalverteilt, wenn für jedes a ∈ Rn die Zufallsvariable aT X = ni=1 ai Xi eindimensional normalverteilt ist.
Bemerkung 10.1.5 Ist X n-dimensional normalverteilt und ist A eine m × n-Matrix,
so ist AX m-dimensional normalverteilt.
Satz 10.1.6 Sei Σ eine symmetrische und nichtnegativ-definite n × n-Matrix und sei
µ ∈ Rn . Dann existiert ein Zufallsvektor X mit EX = µ und Kov(X) = Σ, der nT
dimensional normalverteilt ist. Außerdem gilt Eet X = exp{tT µ + 21 tT Σ t} für t ∈ Rn .
Beweis 1. Schritt: : Wir zeigen die Behauptung für µ = 0 und Σ = E (wobei E die
Einheitsmatrix in Rn × Rn bezeichnet).
Seien Y1 , . . . , Yn u.i.v. nach N (0, 1), dann ist der Zufallsvektor Y = (Y1 , . . . , Yn )T ndimensional normalverteilt mit EY = 0 und Kov(Y ) = E. Weiter gilt für s ∈ R
{ n
}
∑
T
Eesa Y = E exp s
aj Yj
j=1
=
n
∏
Eesaj Yj
j=1
=
n
∏
1
2
e 2 (saj )
j=1
{
= exp
}
1 2 T
sa a .
2
125
Dies ist die momentenerzeugende Funktion einer N (0, aT a)-verteilten Zufallsvariablen.
Daher ist aT Y normalverteilt.
2. Schritt: Sei Q symmetrisch und nichtnegativ-definit mit Σ = QQT und sei Y wie in
Schritt 1. Dann ist X := QY + µ nach Bemerkung 10.1.5 n-dimensional normalverteilt
mit EX = µ und
Kov(X) = E((X − µ)(X − µ)T ) = E(QY (QY )T ) = QQT = Σ.
Die momentenerzeugende Funktion ist
Eet
TX
= Eet
T (QY
{
und
Ee
tT QY
= Ee
(QT t)T Y
= exp
+µ)
T
= et µ Eet
T QY
}
{
}
1 T
1 T T T
(Q t) Q t = exp
t Σt .
2
2
2
Satz 10.1.7 Seien Σ = QQT und X = µ + QY mit Y = (Y1 , . . . Yn )T und Y1 , . . . , Yn
u.i.v. nach N (0, 1). Ist det(Σ) > 0, so hat die Verteilung L(X) eine Dichte f bezüglich
des Lebesgue-Maßes λn auf IRn mit
f (x) = √
(2π)n
1
√
{
}
1
T −1
exp − (x − µ) Σ (x − µ)
2
det(Σ)
Beweis: Für eine beliebige Borelmenge A ⊂ IRn gilt
∫
−1
P (X ∈ A) = P (µ + QY ∈ A) = P (Y ∈ Q (A − µ)) =
mit
g(y) =
für x ∈ IRn .
g(y) dy
Y ∈Q−1 (A−µ)
n
∏
y2
1
√ e− i /2 ,
2π
i=1
da Y1 , . . . , Yn unabhängig verteilt sind. Mit der Transformationsformel für LebesgueIntegrale folgt
∫
1
P (X ∈ A) =
g(Q−1 (x − µ))
dx
| det(Q)|
A
∫ (
)
1
1
= √
g Σ− /2 (x − µ) dx
det(Σ) A
}
{
∫
1
1
−1
2
exp − (x − µ)Σ (x − µ) dx.
= √
n
2
(2π) det(Σ) A
Korollar 10.1.8 Sei X n-dimensional normalverteilt. Die Komponenten X1 , . . . , Xn sind
genau dann unabhängig, wenn Kov(X) Diagonalgestalt hat.
Beweis: Sei Rg(Σ) = n, so

σ12

..
Σ=
.
ist





mit σi2 > 0 und Σ−1 = 
σn2
126
σ1−2

..
.
σn−2

.
Mit dem vorangehenden Satz folgt, dass die Verteilung von X eine λn -Dichte f der Gestalt
{
}
n
1
1 ∑ (xi − µi )2
√
f (x) = √
exp −
2 i=1
2 σi2
(2π)n σ12 · · · σn2
=
n
∏
i=1
(x −µ )
− 12 i 2 i
1
2σ
i
√
e
2π σi2
hat. Da die Dichte in ein Produkt von Wahrscheinlichkeitsdichten zerfällt, ist P X ein
Produktmaß und X1 , . . . , Xn sind stochastisch unabhängig.
2
Korollar 10.1.9 Sei O Orthogonalmatrix. Sei X n-dimensional normalverteilter Zufallsvektor mit unabhängigen Komponenten. Sei Y = OX. Dann sind die Komponenten von
Y auch unabhängig.
Beweis: Man rechnet dazu nach, dass Kov(Y ) = Kov(X) ist. Die Aussage folgt dann aus
Korollar 10.1.8.
[
]
Kov(Y ) = E (OX − E(OX)) (OX − E(OX))T
[
]
T
T
= E (X − E(X)) O O (X − E(X))
[
]
= E (X − E(X)) (X − E(X))T
= Kov(X)
2
Wir zeigen nun nochmals, dass σ
bn2 , geeignet normiert, χ2n−1 -verteilt ist.
Satz 10.1.10 Seien X1 , X2 , . . . , Xn unabhängig nach N (0, σ 2 ) verteilt.
)2
∑n (
∑
1
und X n = n1 ni=1 Xi . Dann ist (n−1)b
Sei σ
bn2 = n−1
σn2 /σ 2 χ2n−1 -verteilt.
i=1 Xi − X n
Beweis:
Sei Y = A · X, wobei X = (X1 , . . . , Xn )T und A Orthogonalmartix
ist,
) bestehend aus
(
1
1
1
T
T
T
n orthogonalen Zeilenvektoren ẽ1 , . . . , ẽn , wobei ẽn = √n , √n , . . . , √n . (Siehe auch die
nächste Seite!)
Dann gilt:
1. Yi = ⟨ẽi , X⟩ = ẽTi · X
2.
n
∑
i=1
Yi2
=
n
∑
Xi2
i=1
3. Yi , i = 1, . . . , n sind unabhängig. Dies gilt, wegen Korollar 10.1.9.
Dann gilt weiter Yn = ⟨ẽi , X⟩ =
(n − 1)b
σ =
2
n
∑
(
i=1
√1
n
Xi − X n
n
∑
2
Xi und Yn2 = nX n . Nun gilt
i=1
)2
=
n
∑
Xi2
i=1
127
−
2
nX n
=
n
∑
i=1
Yi2
−
Yn2
=
n−1
∑
i=1
Yi2
Nun ist Yi eindimensional normalverteilt mit Mittelwert 0 und Varianz σ 2 . Dies sieht man
so: Da X n-dimensional normalverteilt ist, ist Yi = ẽTi · X.
(
)
∑
∑
E(Yi ) = E
ẽij Xj =
ẽij E(Xj ) = 0.
j
Dabei ist ẽTi = (ẽi1 , . . . , ẽin ) mit
∑
j
ẽ2ij = 1.
j
(
)2 
∑
∑
∑
∑
ẽ2ij · σ 2 = σ 2 .
ẽ2ij EXj2 =
ẽij Xj  =
ẽij ẽik E (Xj Xk ) =
Var(Yi ) = E 
j
j
j,k
j
Nun sind Yi /σ nach N (0, 1) verteilt für i = 1, . . . , n und sind unabhängig. Damit ist
(n −
1)b
σn2 /σ 2
=
n
∑
(Yi /σ)2
i=1
χ2 -verteilt mit (n − 1) Freiheitsgraden.
2
Bemerkung zur Matrix A:
1. Man kann A durch das
von Gram-Schmidt erhalten,
)
( Orthogonalisierungsverfahren
1
1
1
T
wenn man mit ẽn = √n , √n , . . . , √n beginnt.
2. Man kann aber auch eine passende Matrix direkt angeben, wie zum Beispiel

 1
−1
√
√
0
0
...
0
0
2
2
 √1
√1
√−2
0
···
0
0 


2·3
2·3
2·3


.
.
.
.

.
.
A=


−(n−1) 
1
1
1
1
√ 1
 (n−1)n √(n−1)n √(n−1)n √(n−1)n · · · √(n−1)n √(n−1)n 
√1
√1
√1
√1
√1
√1
···
n
n
n
n
n
n
128
Kapitel 11
Schätzen
11.1
Maximum-Likelihood Methode
Wir betrachten nun folgendes allgemeine parametrische Schätzproblem. Die Verteilung F
der Beobachtungen X1 , . . . , Xn sei bis auf einen Parameter θ ∈ Θ ⊂ Rp bekannt. Sei X
eine Zufallsvariable, die dieser Verteilung F folgt. Dann gilt
P (X ∈ I) = Pθ (X ∈ I)
für ein θ ∈ Θ und beliebige Teilintervalle I von R. Ziel ist die Bestimmung von θ. Zunächst
beschränken wir uns auf den Fall p = 1.
Beispiel 1:
X ist Poisson-verteilt zum Parameter θ. Also
Pθ (X = x) =
θx −θ
e
x!
für x = 0, 1, 2, . . ..
Beispiel 2:
X ist exponentialverteilt zum Parameter θ. Damit ist X stetig verteilt mit Dichte
{
0 für x ≤ 0
fθ (x) =
.
θe−θx für x > 0
Ein zentraler Begriff der parametrischen Statistik ist die sogenannte Likelihood-Funktion
L(x1 , . . . xn ; θ). Dies ist die Dichte bzw. die Wahrscheinlichkeitsfunktion der gemeinsamen
Verteilung der Beobachtungen als Funktion von θ. Wir betrachten zunächst den Fall, dass
die Verteilung von X diskret ist mit
Pθ (X = x) = pθ (x)
für alle x im Wertebereich von X. Dabei soll der Wertebereich nicht von θ abhängen.
Dann ergibt sich die Likelihood zu
L(x1 , . . . , xn ; θ) =
n
∏
k=1
129
pθ (xk ).
Im ersten Beispiel gilt also
∑n
θ
L(x1 , . . . , xn ; θ) = ∏n
xk
k=1
k=1 (xk !)
e−nθ .
Ist nun die Verteilung von X stetig mit Dichte fθ , so ist die Likelihood gleich
L(x1 , . . . xn ; θ) =
n
∏
fθ (xk ).
k=1
Im zweiten Beispiel gilt also
L(x1 , . . . , xn ; θ) = θn e−θ
∑n
k=1
xk
.
Bei Beobachtungen x1 , . . . , xn ist die Likelihood eine Funktion des unbekannten Parameters θ. Die Grundidee der Maximum-Likelihood Methode besteht darin, die Likelihood
über Θ zu maximieren und als Schätzwert
b 1 , . . . , xn )
θb = θ(x
eine Maximalstelle zu wählen. Also
b = max L(x1 , . . . , xn ; θ).
L(x1 , . . . , xn ; θ)
θ∈Θ
b 1 , . . . , Xn ) heißt dann Maximum-Likelihood Schätzer. Die Maximierung von L(x1 , . . . , xn ; θ)
θ(X
ist offensichtlich äquivalent zur Maximierung von
log L(x1 , . . . , xn ; θ).
In vielen Anwendungen ist log L eine konkave Funktion in θ. Dies gewährleistet dann
Existenz und Eindeutigkeit des Maximum-Likelihood Schätzers.
Im ersten Beispiel erhalten wir
log L(x1 , . . . , xn ; θ) = −nθ + log(θ)
n
∑
xk −
n
∑
k=1
Damit ist
und
log(xk !).
k=1
∂
1∑
log L = −n +
xk
∂θ
θ k=1
n
n
1 ∑
∂2
log L = − 2
xk < 0.
∂2θ
θ k=1
Der Maximum-Likelihood Schätzer θb ergibt sich zu
b 1 , . . . , Xn ) = X̄n = (X1 + . . . + Xn )/n.
θ(X
Im zweiten Beispiel erhalten wir
log L(x1 , . . . , xn ; θ) = n log θ − θ
n
∑
k=1
130
xk .
Damit ist
∂
n ∑
log L = −
xk
∂θ
θ k=1
n
und
∂2
n
log L = − 2 < 0 .
2
∂ θ
θ
Der Maximum-Likelihood Schätzer θb ergibt sich zu
b 1 , . . . , Xn ) = ∑n n
θ(X
.
k=1 Xk
Die Maximum-Likelihood Methode lässt sich ohne weiteres auf den Fall von mehreren
Parametern (p > 1) ausdehnen.
Beispiel 3:
Seien X1 , X2 , . . . , Xn unabhängig und identisch normalverteilt mit unbekannten Mittelwert µ und unbekannter Varianz σ 2 . Hier ist dann θ = (µ, σ 2 ) und
n
∏
1
2
2
√
e−(xi −µ) /2σ
2
2πσ
i=1
∑n
1
2
2
e− i=1 (xi −µ) /2σ
= √
(2π)n σ 2n
L(x1 , x2 , . . . , xn ; θ) =
Wir betrachten nun
lθ (x1 , . . . , xn ) = log L(x1 , . . . , xn ; θ)
n
√
1 ∑
= −n log σ − n log( 2π) − 2
(xi − µ)2 .
2σ i=1
Notwendig für ein Maximum ist
a)
∂
lθ | b = 0
∂µ θ
b)
∂
lθ | b = 0.
∂σ θ
Die Gleichung a)
0=
n
∂
1 ∑
lθ (x1 , . . . , xn ) = 2
(xi − µ)
∂µ
σ i=1
1∑
xi .
n i=1
n
liefert den Schätzwert
µ
b(x1 , . . . , xn ) =
Die Gleichung b)
0=
n
∂
n
1 ∑
lθ = − + 3
(xi − µ)2
∂σ
σ 2σ i=1
liefert nach Einsetzen von µ
b den Schätzwert
1∑
(xi − x̄n )2 .
n i=1
n
σ
b2 (x1 , . . . , xn ) =
131
11.2
Methode der Momente
Eine Alternative zum Maximum-Likelihood Ansatz stellt die Methode der Momente dar.
Die Verteilung F der Beobachtungen sei wieder bis auf einen Parameter θ ∈ Θ ⊂ Rp
bekannt. Dann hängt der Erwartungswert von X r von θ ab. Für r = 1, 2, . . . , p sei
mr (θ) = Eθ (X r )
und
1∑ r
m
br =
X
n k=1 k
n
das empirische r-te Moment. Die Grundidee der Methode der Momente besteht darin, θ
so zu bestimmen, dass
mr (θ) = m
br
für r = 1, 2, . . . , p gilt. Man beachte, dass man damit p Gleichungen bei p Unbekannten
erhält.
Beispiel:
X1 , . . . , Xn seien unabhängig und jeweils stetig verteilt mit Dichte
{
0
für x ≤ 0
fα,λ (x) =
.
λα α−1 −λx
x e
für x > 0
Γ(α)
Dabei sind α, λ > 0 und Γ bezeichnet die Gammafunktion
∫ ∞
Γ(u) =
xu−1 e−x dx.
0
Man kann zeigen, dass
α
=
λ
∫
∞
xfα,λ (x)dx
0
∫ ∞
α ( α )2
=
x2 fα,λ (x)dx
+
λ2
λ
0
gilt. Damit erhält man die Gleichungen
α
m
b1 =
λ
α ( α )2
m
b2 = 2 +
.
λ
λ
und
Aus der ersten Gleichung folgt λ = α/m
b 1 . Setzen wir dies in die zweite Gleichung ein, so
ergibt sich
(m
b 1 )2
m
b2 =
+ (m
b 1 )2 .
α
Also ist
(m
b 1 )2
m
b 2 − (m
b 1 )2
m
b1
b=
λ
.
m
b 2 − (m
b 1 )2
α
b=
132
11.3
Die Bayessche Formel im stetigen Fall
Es sei g Wahrscheinlichkeitsdichte auf IR und für jedes θ ∈ IR sei fθ (x) Wahrscheinlichkeitsdichte auf IR. Dann ist die gemeinsame Verteilung gegeben durch
∫ ∫
P (X ∈ A, Θ ∈ B) =
fθ (x) g(θ) dx dθ.
A
B
Die bedingte Verteilung von Θ gegeben X = x ist
∫
Gx (B) := P (Θ ∈ B | X = x) =
B
∫
fθ (x) g(θ) dθ
g(θ | x) dθ = ∫B
,
f (x) g(θ) dθ
IR θ
und man hat dann
∫
∫
P (X ∈ A, Θ ∈ B) =
Gx (B) P (dx)
Pθ (A) g(θ) dθ .
mit P (A) :=
A
IR
Beispiel:
Seien Θ verteilt nach N (µ, r2 ) und X nach N (θ, σ 2 ). Dann ist die bedingte Verteilung von
Θ gegeben X = x gleich der Normalverteilung N (µ1 , r12 )
mit µ1 =
x/σ 2 + µ/r2
1
und r12 =
.
2
2
2
1/σ + 1/r
1/σ + 1/r2
Allgemeiner gilt auch: Sind X1 , . . . , Xn unabhängig identisch verteilt nach N (θ, σ 2 ) und
ist Θ nach N (µ, r2 ) verteilt, so ist die bedingte Verteilung Gx von Θ gegeben X n = xn
gleich der Normalverteilung N (µn , rn2 )
mit µn =
1
nxn /σ 2 + µ/r2
und rn2 =
.
2
2
2
n/σ + 1/r
n/σ + 1/r2
Man nennt Gx die a posteriori Verteilung.
Zur Notation: “∝” heißt bis auf Normierung, d.h. bis auf die korrekte Normierungskonstante.
n
∏
Gx (dθ) ∝
fθ (xi )G(dθ)
i=1
=
n
∏
1
i=1
=e
−
2
n
∑
[
(xi −θ)2
1
( n2 + 12 )θ 2
σ
r
2
−
n + 1
σ2 r2
2
= e−
n + 1
σ2 r2
2
[
2
e− 2r2 (θ−µ) dθ
1
2
2 + −nθ + θ
2σ 2
σ2
−
∝e
1
]
2σ 2
i=1
∝ e− 2r2 θ
=e
2
e− 2σ2 (xi −θ) e− 2r2 (θ−µ) dθ
∑
xi +
(∑
e
θ
xi
+ µ2
σ2
r
∑ xi
µ
2+ 2
θ2 −2θ nσ 1r
+
σ2 r2
[θ−µn ]2
133
2θ
µ
2r 2
)
dθ ]
+µ2n
dθ
n
∑
mit
µn (x) =
xi
σ2
i=1
n
σ2
+
+
1
r2
µ
r2
.
Die Normierung wird gegeben durch
√
(
2π rn mit rn2 = σn2 +
)
1 −1
,
r2
d.h. Gx = N (µn (x), rn2 ).
Ein Bayes-Schätzer von θ bei bekanntem σ 2 wird gegeben durch den Erwartungswert der
a posteriori Verteilung
∫
µn (x1 , . . . , xn ) = ξN (µn , rn2 ) (dξ).
Man kann zeigen, dass µn das sogenannte Bayes-Risiko
∫
Eθ (T − θ)2 g(θ) dθ
minimiert, wenn T alle Schätzer von θ durchläuft. Siehe Satz 11.5.3 unten.
11.4
Eigenschaften von Schätzern
Wir haben bisher drei verschiedene Typen von Schätzern kennengelernt. Allgemein ist ein
Schätzer eine Abbildung der Beobachtungen in den Parameterraum. Die wohl wichtigste
Eigenschaft eines Schätzers ist, dass er alle möglichen Parameter richtig schätzt. Dies
kann aber nur eine asymptotische Aussage sein, dem für endlich viele Beobachtungen gibt
es immer Zufallsschwankungen (siehe Satz 11.5.2).
Das asymptotische richtige Schätzen bezeichnet man als Konsistenz.
Definition 11.4.1 Ein Schätzer θbn von θ heißt konsistent, wenn für alle Parameter θ0
gilt:
(
)
lim Pθ0 |θbn − θ0 | > ε = 0
n→∞
Pθ
für alle ε > 0. Wir schreiben kurz: θbn →0 θ0 für alle θ0 .
Bemerkung: Alle in Abschnitt 5.1 hergeleiteten Maximum-Likelihood-Schätzer sind konsistent und fallen unter den folgenden Satz oder eine diskrete Variante davon.
Satz 11.4.2 (Konsistenz des M-L Schätzers) Seien X1 , X2 , . . . , Xn unabhängige identisch verteilte Zufallsvariable. Habe X1 die Dichte fθ für ein θ ∈ IR. Sei θbn der MaximumLiklihood-Schätzer, d.h.
θbn (X1 , . . . , Xn ) = arg max
θ
n
∏
fθ (Xi ).
i=1
Dann gilt, unter Glattheitsannahmen an fθ , dass θbn konsistent ist.
134
Beweisskizze: Wir wollen annehmen, dass die Parametermenge endlich ist. (Die Ausdehnung auf den allgemeinen Fall geschieht mit zusätzlichen Kompaktheitsargumenten,
die wir der Einfachheit zuliebe weglassen). Zunächst gilt, da x → log(x) konkav ist, wegen
der Jensen-Ungleichung (E(ϕ(x)) ≤ ϕ(E(x)) für ϕ konkav)
)
(∫
)
[
]
[
]
(∫
fθ (X1 )
fθ (X1 )
fθ (x)
dx = log
fθ (x)dx
Eθ0 log
≤ log Eθ0
= log
fθ0 (x)
fθ0 (X1 )
fθ0 (X)
fθ0 (x)
= log(1) = 0.
Diese Ungleichung ist strikt, falls θ ̸= θ0 . Dies impliziert, dass θ 7→ Eθ0 log
für θ = θ0 maximal ist und den Wert 0 hat.
n
1∑
fθ (Xi )
fθ (X1 )
Aber
log
→ Eθ0 log
n i=1
fθ0 (Xi )
fθ0 (X1 )
nach dem Gesetz der Großen Zahlen für alle θ.
n
f b (Xi )
1∑
Folglich gilt, dass
log θn
→0
n i=1
fθ0 (Xi )
unter Pθ0
unter Pθ0 ,
2
was das Resultat impliziert.
11.5
fθ (X1 )
genau
fθ0 (X1 )
Bewertung von Schätzern: Die Risikofunktion
bei Bernoulli-Beobachtungen
Seien X1 , ..., Xn unabhängige Bernoulli-verteilte Zufallsvariablen, die alle dieselbe unbekannte Erfolgswahrscheinlichkeit θ haben. T (X1 , ..., Xn ) sei ein Schätzer von θ.
Als ein Maß für die Abweichung von T definieren wir die Risikofunktion (auch mittlerer
quadratischen Fehler genannt) durch: R(θ, T ) := Eθ ((T (X1 , ..., Xn ) − θ)2 ). Wir suchen
Schätzer mit möglichst kleiner Risikofunktion. Hier sind drei Kandidaten.
1. Für T1 (X) =
n
∑
Xi /n ist R(θ, T1 ) =
i=1
∀x ist R(θ, T2 ) = (θ − θ0 )2 .
2. Für T2 (X) = θ0
n
∑
3. Für T3 (X) =
θ(1−θ)
.
n
√
Xi + 2n
√
n+ n
i=1
ist R(θ, T3 ) =
√1
.
4( n+1)2
135
R
R2
R3
R1
θ0
1
θ
Abbildung 11.1: Risikofunktionen bei Bernoulli-Beobachtungen
Folgerung: Ein Schätzer T ∗ , der besser ist als alle Schätzer müsste eine Risikofunktion
R(θ, T ∗ ) = 0 haben. Denn er müsste alle Schätzer von Typ 2 unterbieten. Tatsächlich ist
T3 der Schätzer mit der kleinsten konstanten Risikofunktion.
Eine schwache Optimalitätseigenschaft ist Zulässigkeit.
Definition 11.5.1 Ein Schätzer T ′ heißt zulässig, falls für jeden Schätzer T mit
R(θ, T ) ≤ R(θ, T ′ ) ∀θ gilt, dass R(θ, T ) = R(θ, T ′ ) ∀θ.
Im obigen Beispiel sind sowohl T1 als auch T3 zulässig. Beide Aussagen sind nichttrivial.
Die folgend Ungleichung gibt eine Abschätzung nach unten für die Risikofunktion R(θ, T ).
Die im folgenden Satz definierte Größe I(θ) heißt Fischer-Information (nach Sir Ronald
Fischer).
Die Cramer-Rao-Ungleichung
Sei (X, Pθ ; θ ∈ Θ). Seien X1 , . . . , Xn u.i.v. mit Dichte (oder Wahrscheinlichkeitsfunktion)
fθ (x), θ ∈ Θ.
Satz 11.5.2 Sei T (X1 , . . . , Xn ) Schätzer von θ. Sei θ0 ∈ Θ. Es gelte:
1. fθ (x1 ) ist differenzierbar in θ0 und
∫
∂ n
f |
dx
∂θ θ θ=θ0
∂
2. Eθ T ist differenzierbar in θ0 und ∂θ
Eθ T |θ=θ0 =
(
)2
∂
3. I(θ) := Eθ0 ∂ξ
log fξ (x1 ) |ξ=θ0 < ∞.
Dann gilt
∫
= 0 mit fθn =
136
fθ (xi ),
i=1
∂ n
T (x) ∂θ
fθ (x) |θ=θ0 dx,
(1 + b′ (θ0 ))2
.
Eθ0 (T − θ0 ) ≥
nI(θ0 )
Dabei ist b(θ) := Eθ T − θ der sogenannte Bias.
2
n
∏
Für die Binomialverteilung hat man zum Beispiel
Eθ0 (X n − θ0 )2 = Eθ0 (X n − EX n )2
= Varθ0 (X n )
=
Varθ0 (Xn )
n
θ0 (1 − θ0 )
n
1
=
.
nI(θ0 )
=
Beweis von Satz 11.5.2: Schreibe θ anstelle von θ0 und x = (x1 , . . . , xn ).
b′ (θ) =
db(θ)
dθ
d
(Eθ (T − θ))
dθ
∫
∂
(fθn (x)(T (x) − θ))dx
=
∂θ
∫
∫
∂
n
= − fθ (x)dx + [T (x) − θ] fθn (x)dx
∂θ
∫
∂
= −1 + [T (x) − θ]
(log fθn (x)) fθn (x)dx
∂θ
(∫
)2
∂
′
2
n
n
[T (x) − θ]
⇔ (1 + b (θ)) =
(log fθ (x)) fθ (x)dx .
∂θ
=
Verwende nun die Cauchy-Schwarz-Ungleichung: [E(X · Y )]2 ≤ E(X)2 E(Y )2
Dann gilt weiter:
)
(∫
) (∫ (
)2
∂
2
[T (x) − θ] fθn (x)dx ·
(1 + b′ (θ))2 ≤
(log fθn (x)) fθn (x)dx
∂θ
|
{z
}
In (θ)
Zeige nun In (θ) = n · I(θ):
∫ [
]2
∂
n
In (θ) =
log fθ (x) fθn (x)dx
∂θ
]2
∫ [
n
∏
∂
=
log
fθ (xi ) fθn (x)dx
∂θ
i=1
]2 n
∫ [∑
n
∏
∂
=
log fθ (xi )
fθ (xi )dx1 . . . dxn
∂θ
i=1
i=1
137
]2
n ∫ [
∑
∂
=
log fθ (xi ) fθ (xi )dxi
∂θ
i=1
] n
∫ [∑
n
∏
∂
∂
+
log fθ (xi ) log fθ (xj )
fθ (xi )dx1 . . . dxn
∂θ
∂θ
i=1
i̸=j
= nI(θ).
Wegen Unabhängigkeit ist der zweite Term gleich Null, da
∫
∫
∂
∂
(log fθ (x)) fθ (x)dx =
fθ (x)dx
∂θ
∂θ
(∫
)
∂
=
fθ (x)dx
∂θ
∂
1 = 0.
=
∂θ
2
Für die folgenden Beispiele gilt, dass der ML-Schätzer die untere Schranke der Cramer–
Rao-Ungleichung annimmt. Dabei ist stets Eθ Tn = θ.
Was ist I(θ) bei den bekannten Verteilungen?
Es gilt:
1) Binomialverteilung: I(θ) =
n
θ(1−θ)
2) Poisson-Verteilung: I(θ) =
1
θ
3) Exponentialverteilung: I(θ) =
1
θ2
4) Normalverteilung (µ unbekannt): I(θ) =
1
σ2
Im Fall normalverteilter Beobachtungen wollen wir noch zeigen, dass der Erwartungswert
der a posteriori Verteilung das Bayes-Risiko minimiert.
Satz 11.5.3 Sei G ein Wahrscheinlichkeitsmaß auf Θ. Sei R(θ, S) = Eθ (S − θ)2 und sei
∫
e
R(G,
S) = R(θ, S)G(dθ). Dann ist
∫
e
e
min R(G, S) = Var (θ | x)P (dx) = R(G,
S ∗)
S
∫
∫
mit S ∗ (x) = θGx (dθ) und Var(θ | x) = θ2 Gx (dθ) − (S ∗ (x))2 = ( σn2 +
∫
P (A) = Pθ G(dθ).
Beweis:
e
R(G,
S) =
∫
Eθ (S − θ)2 G(dθ)
Θ
138
1 −1
) .
r2
Dabei ist
∫ ∫
(S(x) − θ)2 P (dx, dθ)
=
Θ Rn
∫
=


∫
 (θ − S(x))2 Gx (dθ) P (dx)
Rn
Θ
∫
Hierbei verwendet man, dass P (X ∈ A, Θ ∈ B) = A Gx (B) P (dx) ist (siehe 11.3).
Es folgt dann


∫ ∫
e
inf R(G,
S) = inf  (θ − S(x))2 Gx (dθ) P (dx)
S
S
R

n
∫
≥

Θ
inf
∫
S
(θ − S(x))2 Gx (dθ) P (dx)
Rn
 Θ

∫ ∫
 (θ − S ∗ (x))2 Gx (dθ) P (dx)
=
Rn
Θ
∫
(
Var(θ | x)P (dx) =
=
Rn
denn
11.6
n
1
+
σ 2 r2
)−1
inf E(X − a)2 = E(X − E(X))2 .
2
a
Konfidenzintervalle
An dem folgenden Beispiel können wir erkennen, dass gute Schätzer nicht immer existieren und der Begriff erweitert werden sollte.
Beispiel: Fischteichgröße
Aus einem Fischteich werden 50 Fische gefangen, markiert und wieder ausgesetzt. Bei
einem erneuten Fang von 50 Fischen ist kein markierter Fisch dabei. Was lässt sich über
die Größe des Fischteichs N sagen?
Rein logisch, dass mindestens 100 Fische im Teich sind. Aber hätte man nur einen markierten Fisch gefangen, so wäre der Maximum Likelihood-Schätzer (berechnet im Hyperb = 2500. Folglich ist N wohl viel größer.
geometrischen Modell) N
Sei
dann ist
pN = PN ( kein markierter Fisch im Fang ),
(N −50)
pN =
(50
)
N
im Hypergeometrischen Modell.
50
Sei α > 0 vorgegeben und N (α) so gewählt, dass pN (α) ≤ α aber pN (α)+1 > α ist. Dann
gilt auch max pN ≤ α. Nun kann man, falls kein markierter Fisch im Fang ist, mit einer
N ≤N (α)
Irrtumswahrscheinlichkeit α folgern, dass N ≥ N (α) ist.
139
Die folgende Tabelle liefert
in)Abhängigkeit von N , einmal exakt und einmal als Bino( Nα−50
50
. Für große N ist die Approximation recht gut.
mialapproximation pN ≈ N
N
α
αBin
−5
300 4, 33 · 10
1, 09 · 10−4
600
0,0106
0,0128
1200
0,1137
0,1191
2500
0,3605
0,3642
5000
0,6035
0,6050
Nun zu Konfidenzintervallen im Allgemeinen.
Zunächst wollen wir noch einmal ein paar Grundtatsachen des Schätzens wiederholen.
Seien Xi unabhängige Zufallsvariable, die nach F verteilt sind und sei
µ = E(Xi ) und σ 2 = Var(Xi ) für i = 1, . . . , n.
Es ist naheliegend, den Erwartungswert µ durch das empirische Mittel X̄n mit
1∑
Xk
X̄n =
n k=1
n
zu schätzen. Dieser Schätzer ist eine Zufallsvariable. Ein konkreter Schätzwert entsteht
durch Einsetzen der Messwerte, also durch Ersetzen von Xk durch xk . Die Varianz σ 2
kann man durch σ
bn2 mit
n
1 ∑
2
(Xk − X̄n )2
σ
bn =
n − 1 k=1
schätzen. Beide Schätzer haben die Eigenschaft der sogenannten Erwartungstreue, das
heißt, es gilt
E(X̄n ) = µ und E(b
σn2 ) = σ 2 .
Dies ist für beliebige Verteilungen richtig, solange Mittelwert und Varianz endlich sind.
Die Behauptung für σ
bn2 sieht man folgendermaßen. Zunächst gilt
n
∑
(Xk − X̄n )2 =
k=1
=
n
∑
}
{ 2
Xk − 2Xk X̄n + (X̄n )2
k=1
{
n
∑
}
Xk2
− n(X̄n )2 .
k=1
Damit folgt wegen Unabhängigkeit der Xi
( n
)
∑
E
(Xk − X̄n )2 = nE(X12 ) − nE[(X̄n )2 ]
k=1
(
)2 
n
∑
1
= nE(X12 ) − E 
Xk 
n
k=1
140
[ n n
]
∑∑
1
= nE(X12 ) − E
Xk Xj
n
k=1 j=1
n
n(n − 1)
E(X12 ) −
[E(X1 )]2
n
n
= (n − 1)Var(X1 ) .
= nE(X12 ) −
Für die Varianz des Schätzers X̄n gilt
Var(X̄n ) =
1
σ2
Var(X1 + . . . + Xn ) = .
n
n
Ist E(X 4 ) < ∞, so gilt für die Varianz von σ
bn2
Var(b
σn2 ) =
(
)
σ4
µ4
(n − 1) 4 − (n − 3)
n(n − 1)
σ
mit µ4 = E[(X − µ)4 ].
Die Schätzer X̄n und σ
bn2 besitzen beide die Konsistenzeigenschaft. Es gilt nämlich für
beliebiges ε > 0 bei wachsendem Stichprobenumfang n
(
)
a) lim P X̄n − µ > ε = 0
n→∞
( 2
)
b) lim P σ
bn − σ 2 > ε = 0.
n→∞
Diese Aussagen folgen mit der Tschebychev-Ungleichung, Satz 6.5.1.
Wir beschäftigen uns nun mit der Konstruktion von Schätzintervallen. Solche Intervalle
sollen den Beobachtungen zugrundeliegenden Parameter mit einer großen Wahrscheinlichkeit enthalten. Konstruiert werden sie hier mit Hilfe von Punktschätzern.
Definition 11.6.1 Ein zufälliges Intervall I(X1 , . . . , Xn ) heißt Konfidenzintervall für θ
zur Sicherheitswahrscheinlichkeit 1 − α, falls für alle θ ∈ Θ gilt
Pθ (θ ∈ I(X1 , . . . , Xn )) ≥ 1 − α.
Bei der Interpretation von Konfidenzintervallen ist Vorsicht angebracht. Der Parameter θ
wird nicht als zufällig angenommen. Die Größe 1 − α gibt die Wahrscheinlichkeit an, dass
ein vorliegendes Konfidenzintervall θ enthält. Diese Wahrscheinlichkeitsaussage bezieht
sich auf wiederholtes Anwenden in folgendem Sinne. Hat man aus 100 unabhängigen
Experimenten je ein 95 %-Konfidenzintervall gewonnen, so werden etwa 95 dieser Intervalle
den wahren Wert enthalten.
Wir wollen noch bemerken: I(X1 , . . . , Xn ) = Θ ist Konfidenzintervall mit Sicherheitswahrscheinlichkeit 1. Dies zeigt deutlich, ein Konfidenzintervall sollte möglichst klein sein.
Wir betrachten nun den Fall normalverteilter Beobachtungen. Seien also X1 , . . . , Xn unabhängig und N(µ, σ 2 )-verteilt.
141
Zunächst nehmen wir an, dass µ unbekannt ist und σ 2 bekannt. Wir schätzen µ durch
1∑
X̄n =
Xi .
n k=1
n
X̄n ist nun normalverteilt mit Mittelwert µ und Varianz
σ2
.
n
Folglich ist
)
√ (
n X̄n − µ
σ
nach N (0, 1) verteilt. Sei kα das α-Quantil der Standardnormalverteilung, das heißt Φ(kα ) =
α. Dann gilt −kα = k1−α und damit
(
)
√
n (X̄n − µ)
P −k1− α2 ≤
≤ k1− α2 = 1 − α.
σ
Nun ist die Aussage
−k1− α2
äquivalent zu
√
n (X̄n − µ)
≤
≤ k1− α2
σ
σ
σ
X̄n − √ k1− α2 ≤ µ ≤ X̄n + √ k1− α2 .
n
n
Setzt man nun
[
σ
σ
I(X1 , X2 , . . . , Xn ) = X̄n − √ k1− α2 , X̄n + √ k1− α2
n
n
]
so gilt
P (µ ∈ I(X1 , X2 , . . . , Xn )) = 1 − α ,
für alle µ ∈ IR.
Man hat also ein (1 − α)-Konfidenzintervall für µ konstruiert. Ganz ähnlich argumentiert man, wenn σ 2 unbekannt ist. Man ersetzt lediglich σ durch σ
bn und argumentiert
entsprechend. Formal geht es folgendermaßen.
Die Parameter µ und σ 2 seien beide unbekannt. Wir können sie durch
1∑
X̄n =
Xk
n k=1
n
und
1 ∑
=
(Xk − X̄n )2
n − 1 k=1
n
σ
bn2
schätzen. Der grundlegende Ansatz, um ein (exaktes) Konfidenzintervall zu erhalten, liegt
darin, eine geeignete Größe zu finden, deren Verteilung nicht von den unbekannten Parametern abhängt. Man spricht von einer sogenannten Pivot-Statistik. Die Größe
√
n(X̄n − µ)
σ
bn
142
hat diese Eigenschaft. Wir werden dies gleich nachweisen. Natürlich können wir diese
Größe nicht wirklich bestimmen, da wir ja µ nicht kennen. Trotzdem werden wir mit ihrer
Hilfe ein Konfidenzintervall für µ herleiten können. Sei für k = 1, . . . , n
Yk =
Xk − µ
.
σ
Dann sind Y1 , . . . , Yn unabhängig und jeweils standardnormalverteilt. Es gilt
√
√
n(X̄n − µ)
nȲn
=√
∑
n
σ
bn
1
(Y − Ȳ )2
n−1
k=1
k
n
∑
mit Ȳn = (1/n) nk=1 Yk . Die Verteilung der Größe auf der rechten Seite hängt offensichtlich nicht von µ und σ 2 ab. Diese Verteilung heißt Student’sche t-Verteilung mit n − 1
Freiheitsgraden. Kurz: tn−1 -Verteilung. Sie ist symmetrisch um Null und besitzt die Dichte
(
)− n2
Γ(n/2)
1
x2
√
1+
(siehe Kapitel 9).
Γ((n − 1)/2) (n − 1)π
n−1
Sei für 0 < α < 1 tn−1;α das α-Quantil dieser Verteilung. Dann ist


√
nȲn
P √
≤ tn−1;α  = α .
∑
n
1
2
k=1 (Yk − Ȳn )
n−1
Sei kα das α-Quantil der Standard Normalverteilung. Also Φ(kα ) = α. Man kann zeigen,
dass für 0 < α ≤ 1/2
tn−1;α ≤ kα ≤ 0
gilt und für 1/2 ≤ α < 1
0 ≤ kα ≤ tn−1;α .
Außerdem ist limn→∞ tn−1;α = kα für 0 < α < 1 (siehe S. 123).
Aus der Symmetrie der tn−1 -Verteilung folgt


√
nȲn
≤ tn−1;1−α/2  = 1 − α
P −tn−1;1−α/2 ≤ √
∑
n
1
2
k=1 (Yk − Ȳn )
n−1
und somit auch
(
)
√
n(X̄n − µ)
P −tn−1;1−α/2 ≤
≤ tn−1;1−α/2 = 1 − α.
σ
bn
Löst man die Ungleichungen
−tn−1;1−α/2
√
n(X̄n − µ)
≤
≤ tn−1;1−α/2
σ
bn
nach µ auf, so erhält man
[
]
σ
bn
σ
bn
µ ∈ X̄n − √ tn−1;1−α/2 , X̄n + √ tn−1;1−α/2 .
n
n
143
Damit gilt
(
[
])
σ
bn
σ
bn
P µ ∈ X̄n − √ tn−1;1−α/2 , X̄n + √ tn−1;1−α/2
= 1 − α.
n
n
Ein (1 − α)-Konfidenzintervall für µ ist also durch
[
]
σ
bn
σ
bn
I(X1 , . . . , Xn ) = X̄n − √ tn−1;1−α/2 , X̄n + √ tn−1;1−α/2
n
n
gegeben. Dieses Intervall liegt symmetrisch um den Punktschätzer X̄n .
√
Die Breite des Intervalls wird wesentlich von n bestimmt; sie schrumpft etwa wie 1/ n.
Dies bedeutet, dass für doppelte Genauigkeit (also halbe Breite) viermal so viele Beobachtungen benötigt werden.
Um ein Konfidenzintervall für σ 2 zu erhalten, betrachtet man die Pivot-Statistik
∑n
2
(n − 1)b
σn2
k=1 (Xk − X̄n )
=
.
σ2
σ2
Die Verteilung dieser Größe hängt nicht von µ oder σ 2 ab. Diese Verteilung ist eine χ2 Verteilung mit n − 1 Freiheitsgraden, kurz χ2n−1 -Verteilung.
Zur Erinnerung: Sie ist auf (0, ∞) konzentriert und besitzt die Dichte
2
1−n
2
n−1
x
1
x 2 −1 e− 2 .
Γ((n − 1)/2)
Sie ist eine Gamma-Verteilung mit Parametern α =
n−1
2
und β =
1
2
(siehe Kapitel 9).
0
Sei für 0 < α < 1 wn−1;α
das α-Quantil der χ2n−1 -Verteilung.
Ein (1 − α)- Konfidenzintervall für σ 2 ist gegeben durch
]
[
σn2
(n − 1)b
σn2 (n − 1)b
, 0
.
0
wn−1;1−α/2
wn−1;α/2
Konfidenzintervalle müssen nicht notwendigerweise an beiden Seiten beschränkt sein.
Manchmal ist man an einseitigen Konfidenzaussagen interessiert. Für den Mittelwert µ
erhält man bei der Normalverteilung das einseitige obere (1 − α)-Konfidenzintervall
)
[
σ
bn
X̄n − √ tn−1;1−α , ∞
n
und das einseitige untere (1 − α)-Konfidenzintervall
(
]
σ
bn
−∞, X̄n + √ tn−1;1−α .
n
Ein einseitiges Konfidenzintervall ist von Interesse, wenn man nur feststellen will, dass µ
nicht zu niedrig oder nicht zu hoch ist.
144
Beispiel:
Sei n = 8. Es liegen folgende Beobachtungen vor: x1 = 464, x2 = 469.7, x3 = 469.2,
x4 = 469.5, x5 = 461.8, x6 = 468.7, x7 = 469.5, x8 = 463.9. Dann gilt
1∑
x̄8 =
xk = 467.09
8 k=1
8
und
1∑
=
(xk − x̄8 )2 = 10.11.
7 k=1
8
σ
b82
Es ist weiter t7;0.975 = 2.365. Unter Normalverteilungsannahme erhält man damit als
95 %-Konfidenzintervall für den Mittelwert µ
√
√
[
]
10.11
10.11
467.09 − 2.365 × √ , 467.09 + 2.365 × √
= [464.43, 469.75] .
8
8
Mit χ27;0.975 = 16.01 und χ27;0.025 = 1.69 erhält man das folgende 95 %-Konfidenzintervall
für die Varianz σ 2
[
]
7 × 10.11 7 × 10.11
,
= [4.42, 41.88] .
16.01
1.69
Das obere 95 %-Konfidenzintervall ist
√
[
)
10.11
467.09 − 1.895 × √ , ∞ = [464.95, ∞) .
8
Dabei ist t7;0.95 = 1.895.
Oft läßt sich das Konfidenzintervall nur näherungsweise angeben. Dabei hilft dann der
folgende Satz über die asymptotische Verteilung des ML-Schätzers.
Satz 11.6.2 Sei Φ die Verteilungsfunktion von N (0,1). θbn sei ML-Schätzer. Unter Glattheitsvoraussetzungen an fθ (x) gilt für β ∈ R:
√
lim Pθ ( nI(θ)(θbn − θ) ≤ β) = Φ(β)
n→∞
mit I(θ) der Fisher-Information. Ist I(θ) stetig, so gilt auch
(√
)
b
b
lim Pθ
nI(θn )(θn − θ) ≤ β = Φ(β).
n→∞
Bemerkung: Setzt man Φ(kα ) = α, so gilt
(
k1−α/2 )
k1−α/2
≤ θ ≤ θbn + √
→ 1 − 2Φ(k1−α/2 ) = 1 − α .
Pθ θbn − √
b
b
nI(θn )
nI(θn )
145
Das heißt, wir haben ein näherungsweises Konfidenzintervall zur Sicherheitswahrscheinlichkeit (1 − α) vorliegen.
Beispiel: (Binomial-Verteilung)
X1 , . . . , Xn seien unabhängig und jeweils Bernoulli-verteilt mit Erfolgswahrscheinlichkeit
p, das heißt
P (Xk = 0) = 1 − p und P (Xk = 1) = p
für k = 1, . . . , n. Gesucht ist ein (näherungsweises) Konfidenzintervall für θ = p. Es gilt
µ(p) = p, σ 2 (p) = p(1 − p). Die Größe
√
n(X̄ − p)
√ n
p(1 − p)
ist näherungsweise N(0, 1)-verteilt. Für ein näherungsweises (1 − α)-Konfidenzintervall
muß man deshalb die quadratische Ungleichung
2
n(X̄n − p)2 ≤ k1−α/2
p(1 − p)
nach p auflösen. Dies ergibt ein Intervall mit unterer Grenze


√
(
)2
2
k
k1−α/2
n
X̄n + 1−α/2 − k1−α/2 X̄n (1 − X̄n ) +

2
n + k1−α/2
2n
n
2n
und oberer Grenze

n
X̄n +
2
n + k1−α/2
2
k1−α/2
2n
√
+ k1−α/2
X̄n (1 − X̄n )
+
n
Ersetzt man andererseits σ(p) = p(1 − p) durch σ(X̄n ) =
(
k1−α/2
2n
)2

.
√
X̄n (1 − X̄n ) (wir ersetzen also
p durch den Schätzer X̄n in σ(p)), so erhält man
√
√


X̄n (1 − X̄n )
X̄n (1 − X̄n )
X̄n −
√
√
k1−α/2 , X̄n +
k1−α/2  .
n
n
Beispiel: (Hufschlagtote)
Man hat als Datensatz die Anzahl der Hufschlagtoten in 14 Kavallerie-Corps der Preußischen Armee über 20 Jahre von 1875 bis 1894. Zusammengefaßt ergibt sich folgende
Tabelle:
Anzahl Tote in Corps p.a.
0
1
2
3
4
≥5
146
Häufigkeit in Corps p.a.
144
91
32
11
2
0
Die Daten werden sehr gut durch eine Poisson-verteilte Zufallsvariable X beschrieben.
Dies ergibt sich aus einem χ2 -Anpassungstest, den wir hier nicht weiter diskutieren wollen. Es stellt sich die Frage nach Parameterschätzung und Konfidenzintervall von θ, dem
Poisson-Parameter.
14 Corps über 20 Jahre entspricht 280 Corpsjahren. Der ML-Schätzer lautet:
θb280 =
196
280
= 0,7 Todesfälle pro Corpsjahr.
Ein asymptotisches 95 %-Konfidenzintervall ergibt sich mit
1
n = 280, θbn = 0,7 und I(θbn ) = 0,7
als
1,96
b
θn ± √
= 0,7 ± 0,098 und damit als [0,602; 0,798].
nI(θbn )
Wir wollen nun noch Bootstrap-Konfidenzintervalle angehen. Diese beruhen auf Simulationen, d.h. man benutzt mit dem Computer erzeugte Zufallszahlen.
Parametrischer Bootstrap
Wir gehen von der Schätzung θb280 = 0, 7 aus und simulieren 500 mal jeweils 280 Poissonverteilte Zufallsvariablen Xk∗ mit Parameter θb280 und berechnen dann
1 ∑ ∗
X .
θb∗ =
280 k=1 k
280
Dann bilden wir die empirischen Verteilung der 500 θb∗ . Die zugehörige Häufigkeitsverteilung zeigt der folgende Plot.
60
40
20
0
0.2
0.4
0.6
0.8
1.0
1.2
Abbildung 11.2: Häufigkeitsverteilung der 500 θb∗ -Werte
Nun bestimmen wir die 2, 5% und 97, 5% Quantile dieser empirischen Verteilung. Dies
sind die Werte 0, 60 und 0, 80. Das Intervall [0.6, 0.8] ist das parametrische Bootstrap
95%-Konfidenzintervall.
147
Nichtparametrischer Bootstrap
Wir ziehen 280 mal Daten mit Zurücklegen aus dem vollen Datensatz der Hufschlagtoten
∗∗
und berechnen den Mittelwert θb280
. Diese Prozedur wiederholen wir 500 mal. Wie bestimmen die empirische Verteilung der 500 θb∗∗ -Werte. Die zugehörige Häufigkeitsverteilung
zeigt der folgende Plot.
80
60
40
20
0
0.2
0.4
0.6
0.8
1.0
1.2
Abbildung 11.3: Häufigkeitsverteilung der 500 θb∗∗ -Werte
Das nichtparametrische Bootstrap 95%-Konfidenzintervall ist hier [0.60, 0.81].
Man erkennt, dass das asymptotische Konfidenzintervall und die beiden Bootstrap Konfidenzintervalle nahezu identisch sind. Dies ist im Allgemeinen nicht so. Bootstrap-Intervalle
sind meist etwas breiter als asymptotische Konfidenzintervalle, wenn es solche überhaupt
gibt. Weiteres dazu in “Efron-Tibshirani: An Introduction to the Bootstrap”, Chapman
& Hall Inc., 1993.
148
Kapitel 12
Hypothesentests
12.1
Grundtatsachen der Testtheorie
Wir beschäftigen uns in diesem Abschnitt mit dem Problem der Überprüfung von Hypothesen. Wir gehen wieder davon aus, dass die Verteilung der Beobachtungen X1 , . . . , Xn
bis auf einen Parameter θ ∈ Θ bekannt ist. Eine Hypothese ist durch eine Aufteilung
des Parameterbereichs Θ in zwei Teilmengen Θ0 und Θ1 gegeben. Man spricht zum einen
von der Nullhypothese H0 : θ ∈ Θ0 . Das Gegenteil – die sogenannte Alternative – ist
durch das Komplement Θ1 = Θ \ Θ0 festgelegt. Man schreibt H1 : θ ∈ Θ1 . Ein statistischer Test ist eine (datenabhängige) Entscheidungsregel, die angibt, welche der beiden
sich ausschließenden Hypothesen für wahr gehalten wird. Formal handelt es sich dabei
um eine Abbildung ϕ von den Beobachtungen (X1 , . . . , Xn ) in die Menge {0, 1}. Dabei
steht ϕ = 1 für die Entscheidung für die Alternative und ϕ = 0 für die Hypothese. Es
bestehen folgende vier Möglichkeiten:
Entscheidung für H0
H0 liegt vor richtige Entscheidung
H1 liegt vor
Fehler 2. Art
Entscheidung für H1
Fehler 1. Art
richtige Entscheidung
Die Wahrscheinlichkeit eines Fehlers 1. Art bezeichnet man als Signifikanzniveau (kurz:
Niveau) des Testes. Besteht Θ0 aus mehr als einem Element, so betrachtet man üblicherweise das Maximum des Fehlers 1. Art über Θ0 . In der Regel versucht man diese
Wahrscheinlichkeit festzulegen beziehungsweise zu beschränken. Streng genommen sind
damit die Rollen von H0 und H1 nicht symmetrisch. Wir können mit einem Test die
Nullhypothese widerlegen, sie aber nicht wirklich beweisen. Hierzu müßten wir auch die
Wahrscheinlichkeit eines Fehlers 2. Art auf Θ1 vollständig unter Kontrolle halten.
In der Regel gibt man Tests durch eine Teststatistik T = T (X1 , . . . , Xn ) und die Festlegung
eines kritischen Bereichs K an. Der Test lehnt ab, falls T ∈ K gilt. Also
{
0 falls T ∈
/K
ϕ(X1 , . . . , Xn ) =
1 falls T ∈ K.
149
Wir betrachten nun den Fall einer einfachen Nullhypothese näher: Θ0 = {θ0 }. Sei
I(X1 , . . . , Xn ) ein (1 − α)-Konfidenzintervall für θ. Sei
{
0 falls θ0 ∈ I(X1 , . . . , Xn ),
ϕ(X1 , . . . , Xn ) =
1 falls θ0 ∈
/ I(X1 , . . . , Xn ).
Dann gilt
Pθ0 (ϕ = 1) = Pθ0 (θ0 ∈
/ I(X1 , . . . , Xn )) = α.
Damit hat der Test ϕ das Niveau α. So kommt man zu folgenden Tests.
Zweiseitiger t-Test: X1 , . . . , Xn seien unabhängig und jeweils N(µ, σ 2 )-verteilt. µ und
σ 2 seien unbekannt. Sei
H0 : µ = µ0 und H1 : µ ̸= µ0 .
Ein (1 − α)-Konfidenzintervall für µ ist durch
[
]
σ
bn
σ
bn
I(X1 , . . . , Xn ) = X̄n − √ tn−1;1−α/2 , X̄n + √ tn−1;1−α/2
n
n
gegeben. Damit erhält man den Niveau-α Test
{
√
0 falls n|X̄n − µ0 | ≤ σ
bn tn−1;1−α/2 ,
√
ϕ(X1 , . . . , Xn ) =
1 falls n|X̄n − µ0 | > σ
bn tn−1;1−α/2 .
Beispiel:
Sei n = 8. Es liegen folgende Beobachtungen vor: x1 = 464, x2 = 469.7, x3 = 469.2,
x4 = 469.5, x5 = 461.8, x6 = 468.7, x7 = 469.5, x8 = 463.9. Sei
H0 : µ0 = 469 und H1 : µ0 ̸= 469.
Ein 95 %-Konfidenzintervall für den Mittelwert µ ist
[464.33, 469.74] .
Der Wert 469 liegt in diesem Intervall und damit lehnt der Test zum Niveau 5% die
Nullhypothese nicht ab.
Tests zu einseitigen Nullhypothesen, wie etwa H0 : θ ≤ θ0 , lassen sich mit Hilfe von
einseitigen Konfidenzintervallen konstruieren. Sei
I(X1 , . . . , Xn ) = [U (X1 , . . . , Xn ), ∞)
ein einseitiges oberes (1 − α)-Konfidenzintervall für θ. Sei
{
0 falls θ0 ∈ I(X1 , . . . , Xn ),
ϕ(X1 , . . . , Xn ) =
1 falls θ0 ∈
/ I(X1 , . . . , Xn ).
Dann gilt für θ ≤ θ0 :
θ0 ∈
/ [U (X1 , . . . , Xn ), ∞) ⇒ θ ∈
/ [U (X1 , . . . , Xn ), ∞).
150
Deshalb ist
Pθ (ϕ(X1 , . . . , Xn ) = 1) = Pθ (θ0 ∈
/ [U (X1 , . . . , Xn ), ∞))
≤ Pθ0 (θ0 ∈
/ [U (X1 , . . . , Xn ), ∞))
= 1 − Pθ0 (θ0 ∈ [U (X1 , . . . , Xn ), ∞)) ≤ 1 − (1 − α) = α.
Das heißt, die Wahrscheinlichkeit des Fehlers 1. Art ist kleiner gleich α für alle θ ≤ θ0 .
Einseitiger t-Test: X1 , . . . , Xn seien unabhängig und jeweils N(µ, σ 2 )-verteilt. Sei
H0 : µ ≤ µ0 und H1 : µ > µ0 .
Ein oberes (1 − α)-Konfidenzintervall für µ ist durch
[
)
σ
bn
In = X̄n − √ tn−1;1−α , ∞
n
gegeben. Ist µ0 ∈
/ In , so verwirft man H0 . Damit erhält man den Test
{
√
bn tn−1;1−α ,
0 falls n(X̄n − µ0 ) ≤ σ
√
ϕ(X1 , . . . , Xn ) =
1 falls n(X̄n − µ0 ) > σ
bn tn−1;1−α .
Einseitiger χ2 -Streuungstest: X1 , . . . , Xn seien unabhängig und jeweils N(µ, σ 2 )-verteilt.
Sei
H0 : σ 2 ≤ σ02 und H1 : σ 2 > σ02 .
Ein oberes (1 − α)-Konfidenzintervall für σ 2 ist durch
[
)
(n − 1)b
σn2
,∞
wn−1;1−α
gegeben, wobei wn;α das α-Quantil der χ2n -Verteilung ist. Damit erhält man den Test
{
0 falls σ
bn2 ≤ σ02 wn−1;1−α /(n − 1),
ϕ(X1 , . . . , Xn ) =
1 falls σ
bn2 > σ02 wn−1;1−α /(n − 1).
Beispiel:
Sei n = 8. Es liegen folgende Beobachtungen vor: x1 = 464, x2 = 469.7, x3 = 469.2,
x4 = 469.5, x5 = 461.8, x6 = 468.7, x7 = 469.5, x8 = 463.9. Sei
H0 : σ 2 ≤ 4 und H1 : σ 2 > 4.
Es gilt w7;0.95 = 14.07. Ein unteres 95 %-Konfidenzintervall für die Varianz σ 2 ist damit
)
[
7 × 10.11
, ∞ = [5.03, ∞).
14.07
Dieses Intervall enthält den Wert 4 nicht. Damit lehnt der Test die Nullhypothese zum
Niveau 5% ab.
Wir betrachten noch einmal das zweiseitige Testproblem
H0 : θ = θ0 gegen H1 : θ ̸= θ0
151
mit einfacher Nullhypothese H0 . Sei T die verwendete Teststatistik. Die Wahrscheinlichkeit eines Fehlers 1. Art (Signifikanzniveau) ist durch
α = Pθ0 (T ∈ K)
gegeben. Dabei ist K der kritische Bereich des Tests
{
0 falls T ∈
/ K,
ϕ(X1 , . . . , Xn ) =
1 falls T ∈ K.
Üblicherweise wird vor Anwendung des Tests das Signifikanzniveau α festgelegt und ein
entsprechender kritischer Bereich Kα mit Pθ0 (T ∈ Kα ) = α gewählt. Ist die Verteilung
von T unter der Nullhypothese stetig, so gibt es zu jeder möglichen Wahl von 0 < α < 1
einen entsprechenden Ablehnbereich. In der Regel wählt man die kritischen Bereiche so,
dass gilt
α̃ < α ⇒ Kα̃ ⊂ Kα .
Je kleiner das Signifikanzniveau ist, desto zögerlicher ist man damit, die Nullhypothese
abzulehnen. Liegen konkrete Beobachtungen (x1 , . . . , xn ) vor, so kann man die Menge
aller Signifikanzniveaus betrachten, für die
T (x1 , . . . , xn ) ∈
/ Kα
gilt. Die obere Grenze p∗ = max{α ∈ (0, 1) | T (x1 , . . . , xn ) ∈
/ Kα } heißt p-Wert. Für
Signifikanzniveaus, die kleiner als der p-Wert sind, wird H0 nicht verworfen. Für Signifikanzniveaus, die größer als der p-Wert sind, wird H0 verworfen. Der p-Wert gibt damit das
Signifikanzniveau an, zu dem die Nullhypothese gerade noch verworfen wird. Er beschreibt
wie stark die vorliegenden Beobachtungen im Widerspruch zur Nullhypothese stehen. Der
p-Wert ist deshalb von zentraler Bedeutung, weil viele Statistikprogramme p-Werte ausgeben. Kennt man den zu konkreten Beobachtungen x1 , . . . , xn gehörenden p-Wert, so
kann man einen Test zum Niveau α0 (etwa α0 = 0.05) folgendermaßen durchführen:
– ist der p-Wert kleiner als α0 , wird H0 abgelehnt.
– ist der p-Wert größer als α0 , wird H0 nicht abgelehnt.
Betrachten wir das letzte Beispiel so ist
7 · 10, 11
=4
w7;1−p∗
und damit
w7;1−p∗ = 17, 69.
Es folgt p∗ = 0, 013 ist der zugehörige p-Wert.
p-Werte und Signifikanzniveaus lassen sich auch für zusammengesetzte Nullhypothesen
betrachten. In diesem Fall zieht man α = supθ∈Θ0 Pθ (T ∈ K) heran.
Wir beschäftigen uns nun mit dem Problem des Vergleichs zweier Mittelwerte. Wir nehmen an, dass unabhängige Stichproben X1 , . . . , Xn und Y1 , . . . , Ym vorliegen. Weiter nehmen wir an, dass die Zufallsvariablen X1 , . . . , Xn jeweils normalverteilt mit Mittelwert µX
152
2
und Varianz σX
und die Zufallsvariablen Y1 , . . . , Ym jeweils normalverteilt mit Mittelwert
µY und Varianz σY2 sind. Darüberhinaus nehmen wir die Gleichheit der beiden Varianzen
2
σX
= σY2 = σ 2
an. Die interessierende Zielgröße ist die Differenz ∆ = µX − µY der Erwartungswerte. Ein
naheliegender Schätzer ist durch
b = X̄n − Ȳm
∆
1
1
= (X1 + . . . + Xn ) − (Y1 + . . . + Ym )
n
m
gegeben. Die gemeinsame Varianz σ 2 kann man durch
∑n
∑m
2
2
2
k=1 (Xk − X̄n ) +
l=1 (Yl − Ȳm )
σ
bpool =
n+m−2
schätzen. Man spricht auch von der gepoolten Varianz. Man sieht leicht ein, dass die
Verteilung von
(
)
b −∆
√ 11 1 ∆
n
+m
σ
bpool
nicht von ∆ und σ 2 abhängt. Man kann auch zeigen, dass diese Verteilung gleich einer
t-Verteilung mit n + m − 2 Freiheitsgraden ist. Wegen Unabhängigkeit gilt
(
)
1 2
1
n+m
1 2
1
2
Var(X̄n − Ȳm ) = σ + σ = σ
+
= σ2
.
n
m
n m
nm
√
Dies erklärt den Faktor
√
1
1
n
+
=
1
m
mn
.
m+n
Mit der obigen Pivot-Statistik erhält man folgendes (1 − α)-Konfidenzintervall für ∆
[
]
√
√
1
1
1
1
X̄n − Ȳm − σ
bpool tn+m−2;1−α/2
+ , X̄n − Ȳm + σ
bpool tn+m−2;1−α/2
+
n m
n m
Daraus ergibt sich folgender Test zum Signifikanzniveau α für
H0 : ∆ = 0 gegen H1 : ∆ ̸= 0

√
 0 falls |X̄n − Ȳm | ≤ σ
bpool tn+m−2;1−α/2 n1 +
√
ϕ=
 1 falls |X̄n − Ȳm | > σ
bpool tn+m−2;1−α/2 n1 +
Dieser Test heißt (zweiseitiger) Zwei-Stichproben t-Test.
Ein einseitiges oberes (1 − α)-Konfidenzintervall für ∆ ist durch
[
)
√
1
1
X̄n − Ȳm − σ
bpool tn+m−2;1−α
+ ,∞
n m
153
1
m
,
1
m
.
gegeben. Daraus ergibt sich folgender Test zum Signifikanzniveau α für
ϕ=

0
1
H0 : ∆ ≤ 0 gegen H1 : ∆ > 0
√
falls X̄n − Ȳm ≤ σ
bpool tn+m−2;1−α n1 +
√
falls X̄n − Ȳm > σ
bpool tn+m−2;1−α n1 +
1
m
,
1
m
.
Dieser Test heißt (einseitiger) Zwei-Stichproben t-Test.
Wir beschäftigen uns nun mit der Frage, ob die grundlegende Annahme
2
σX
= σY2
auch erfüllt ist. Wir nehmen dazu an, dass die Zufallsvariablen X1 , . . . , Xn jeweils nor2
malverteilt mit Mittelwert µX und Varianz σX
sind und die Zufallsvariablen Y1 , . . . , Ym
jeweils normalverteilt mit Mittelwert µY und Varianz σY2 sind. Wir suchen einen Test für
2
2
= σY2 gegen H1 : σX
̸= σY2 .
H0 : σX
Hierzu betrachten wir die Größe
∑n
1
n−1
1
m−1
2
2
k=1 (Xk − X̄n ) /σX
.
∑m
2
2
k=1 (Yk − Ȳn ) /σY
2
Man überzeugt sich leicht davon, dass die Verteilung dieser Größe nicht von µX , µY , σX
2
und σY abhängt. Diese Verteilung heißt F -Verteilung mit n−1 und m−1 Freiheitsgraden.
Kurz: Fn−1,m−1 -Verteilung. Sei für 0 < α < 1 Fn−1,m−1;α das α-Quantil dieser Verteilung.
Man kann zeigen, dass dann
Fn−1,m−1;α =
1
Fn−1,m−1;1−α
gilt.
2
Ein (1 − α)-Konfidenzintervall für den Quotienten σX
/σY2 ist durch
]
[
∑n
∑n
1
1
2
2
(X
−
X̄
)
(X
−
X̄
)
1
1
k
n
k
n
k=1
k=1
n−1
n−1
,
∑m
∑m
1
1
2
Fn−1,m−1;1−α/2 m−1 k=1 (Yk − Ȳn ) Fn−1,m−1;α/2 m−1 k=1 (Yk − Ȳn )2
2
2
gegeben. Da σX
= σY2 genau dann gilt, wenn σX
/σY2 = 1 ist, erhalten wir folgenden Test
zum Signifikanzniveau α für obiges Testproblem
{
1 ∑n
(Xk −X̄n )2
n−1
0 falls Fn−1,m−1;α/2 ≤ 1 ∑k=1
m
2 ≤ Fn−1,m−1;1−α/2 ,
ϕ=
k=1 (Yk −Ȳn )
m−1
1 sonst.
12.2
Die Gütefunktion von Tests
Wir betrachten folgende Testsituation. Seien X1 , . . . , Xn unabhängig identisch verteilte Beobachtungen mit Verteilung N (µ, σ 2 ), wobei σ 2 bekannt sei. Wir wollen testen
154
H0 : µ ≤ 0 gegen H1 : µ > 0. Wir wählen als Test

n
∑


Xi > k

1 falls
ψ(X1 , . . . , Xn ) =



0
i=1
falls
n
∑
Xi ≤ k
i=1
Dabei wird k so gewählt, dass max Pµ (ψ = 1) = α ist mit α ≤ 12 . Der Test hat damit
µ≤0
das Niveau α. Um zu beurteilen, was der Test auf der Alternative leistet, führen wir die
sogenannte Gütefunktion ein. Diese ist
β(µ) = Pµ (ψ = 1).
Wir wollen diese nun für den Test ψ berechnen.
( n
)
∑
Xi > k
Pµ (ψ = 1) = Pµ
i=1
(∑
k − nµ
X − nµ
√i
= Pµ
> √
nσ 2
nσ 2
(∑
)
Xi
k − nµ
= P0 √
> √
nσ 2
nσ 2
)
Wählen wir kα∗ so, dass gilt
)
(∑
Xi
∗
> kα = 1 − Φ(kα∗ ) = α,
P0 √
nσ 2
so ist kα∗ =
√k
nσ 2
und man erhält
(
)
(
√ )
nµ
nµ
∗
∗
β(µ) = Pµ (ψ = 1) = 1 − Φ kα − √
= Φ −kα +
σ
nσ 2
Dabei ist Φ die Verteilungsfunktion der Standard-Normalverteilung. Man erkennt nun,
dass β(µ) eine monotone Funktion in µ und n ist, die für µ = 0 gleich α ist und für
µ → ∞ gegen 1 konvergiert.
1.0
ΒHΜL
0.8
0.6
0.4
n ‡ 10
--- n ‡ 40
0.2
0.5
-0.5
1.0
1.5
Μ
-0.2
155
2.0
Mit Hilfe der Gütefunktion bestimmt man den passenden Stichprobenumfang. Will man
nun eine gewisse Trennschärfe des Testes erreichen (was in allen Anwendungen üblich ist),
so legt man (neben dem Niveau auf der Hypothese) auch die sogenannte Güte für einen
µ-Wert der Alternative fest, sagen wir β(µ1 ) = 1 − α mit µ1 > 0. Dann lässt sich daraus
der passende Stichprobenumfang bestimmen. Die Gütefunktion an der Stelle µ1 ist gleich
(
)
√
nα µ1
∗
β(µ1 ) = Φ −kα +
.
σ
Da kα∗ = Φ−1 (1 − α) ist, folgt schließlich
nα =
(2Φ−1 (1 − α))2 σ 2
.
µ21
Für µ = 1, σ = 1 ergeben sich für α = 0,05 und α = 0,01 die Werte n0,05 = 11 bzw.
n0,01 = 22.
Ist nun σ 2∑unbekannt,
so gehen die Überlegungen ganz ähnlich. Der Test lehnt H0 : µ < 0
n
Xi
−1
∗
i=1
ab, wenn √nbσn ≥ tα ist. Dabei ist t∗α = Fn−1
(1−α), das obere α-Quantil der t-Verteilung
mit n − 1 Freiheitsgraden. Die Gütefunktion lässt sich in diesem Fall nicht mehr allein
mit Fn−1 , der Verteilungsfunktion der t-Verteilung mit n − 1 Freiheitsgraden, ausdrücken.
Hier ist
)
(∑
n
X
i
√i=1
≥ t∗α
β(µ) = Pµ
nb
σn2
(∑
)
√
√
n
2 + (µ/σ) n
X
/
nσ
i
∗
i=1
√
= P0
≥ tα .
σ
bn2 /σ 2
Der letzte Ausdruck stellt die Gütefunktion unter dem Maß mit µ = 0 dar. Man√sagt, der
Ausdruck in der Klammer ist tn−1 -verteilt mit Nichtzentralitätsparameter δ = n σµ .
Mit dem Statistik-Paket R lassen sich die entsprechenden t-Werte leicht berechnen. Die
Gütefunktionen bei bekannter und unbekannter Varianz unterscheiden sich für kleine
Stichprobenzahlen n, nicht aber für große. (Warum?) Das folgende Bild zeigt beide Gütefunktionen für n = 10.
156
Kommen wir noch auf die möglichen statistischen Aussagen bei Tests zu sprechen. Wenn
wir einen Test wie oben beschrieben gewählt haben um H0 : µ ≤ 0 gegen H1 : µ > 0 zu
testen und dessen Gütefunktion β(µ) monoton wachsend ist und β(0) = α und β(µ1 ) =
1 − α erfüllt, dann können wir folgende Aussagen machen:
Lehnt der Test die Hypothese ab, so können wir mit einer Irrtumswahrscheinlichkeit α
sagen, dass µ > 0 ist.
Lehnt der Test die Hypothese nicht ab, so können wir mit einer Irrtumswahrscheinlichkeit
α sagen, dass µ < µ1 ist.
Damit lässt sich der Bereich [0, µ1 ] mit dem Test nicht trennen. Man nennt ihn den
Indifferenzbereich des Tests.
12.3
Der χ2-Anpassungstest
Anpassungstests beantworten die Frage, ob eine bestimmte Verteilung F die vorliegenden
Daten hinreichend gut beschreibt.
Zunächst betrachten wir den χ2 -Test bei Multinomialverteilungen.
Angenommen X1 , . . . , Xn seinen unabhängigen Wiederholungen von J möglichen Ausgängen 1, . . . , J. Angenommen wir halten
(0)
(0)
p(0) = (p1 , . . . , pJ )
für die zugrundeliegende Verteilung. Wie können wir das überprüfen?
Beispielsweise: J = 6, p(0) = ( 16 , . . . , 61 ).
Formal:
{ }
J
∑
Θ = p pi ≥ 0, i = 1, . . . , J,
pi = 1
i=1
n
b
Pp (x1 , . . . , xn ) = pn1b1 · · · pj j ,
wobei n
bj = #{i | xi = j} ist.
Wir betrachten die Log-Likelihood-Statistik
Pp (x1 , . . . , xn )
Pp(0) (x1 , . . . , xn )
ℓ(x1 , . . . , xn ) = 2 log max
p
und lehnen die Hypothese H0 : p = p0 ab, wenn diese Statistik zu groß ist.
Da diese Statistik jedoch schwer zu handhaben ist, rechnen wir lieber mit einer Approximation, die wir jetzt ableiten wollen.
l(x1 , . . . , xn ) = −2 log
J
∏
j=1
= −2
J
∑
j=1
157
(
(0)
pj
pbj
(
n
bj log
)nbj
(0)
pj
pbj
)
mit pbj =
n
bj
.
n
2
(0)
(0)
Nun setzen wir pj = pbj +(pj − pbj ) und nutzen die Taylor-Entwicklung log(1+x) ∼
= x− x2
aus, um Folgendes zu erhalten:
(
)
( (0) )
(0)
pj
pj − pbj
= log 1 +
log
pbj
pbj
( (0)
)2
(0)
pj − pbj
1 pj − pbj
−
+ Rest
=
pbj
2
pbj
( (0)
)
(0)
∑
∑ (b
pj − pbj
pj − pj )2
n
bj
=⇒
l(x1 , . . . , xn ) = −2
n
bj
+
pbj
(b
pj )2
j
j
Der erste Term ist null wegen pbj =
n
bj
n
∑
und
l(x1 , . . . , xn ) ∼
=
∼
=
(0)
pj =
∑
pbj = 1. Somit ist
(0)
∑ (b
pj − pj )2
n
pbj
j
(0)
∑ (b
pj − pj )2
n
=: X 2 .
(0)
pj
j
Dies ist die χ2 -Statistik. Der Test lehnt H0 ab, wenn diese Statistik zu groß ist. Man hat
außerdem den Sachverhalt, dass unter Pp(0)
(0)
∑ (b
pj − pj )2
X =
n
(0)
pj
j
2
=
2
∑ (Nj − np(0)
j )
(0)
npj
j
asymptotisch für n → ∞ gegen eine χ2J−1 -Verteilung konvergiert. Dabei ist
Nj = #{i | Xi = j}. Folglich nennt man den Test den χ2 -Anpassungstest.
Wie sieht man diese Konvergenz ein?
{
1 falls beim m-ten Versuch Ergebnis ”j”,
(j)
Sei Xm =
0 sonst.
Dann sind für m = 1, . . . , n
(j)
(1)
(J)
Xm = (Xm
, . . . , Xm
) unabhängig und n
bj = X1 + · · · + Xn(j) .
(j)
(0)
(j)
(0)
(0)
Man hat EXm = pj und Var(Xm ) = pj (1 − pj ). Seien nun Yj =
(0)
Nj −npj
√
(0)
nj pj
. Dann sind
(Y1 , . . . , YJ ) asymptotisch (J − 1)-dimensional normalverteilt mit Kovarianzmatrix gleich
der Identität. Das Argument dazu ist ähnlich zu dem am Ende von Kapitel 10 gegebenen
(siehe auch Breiman, Statistics, S. 192).
158
Wir betrachten nun den Fall eines beliebigen Wertebereichs und werden diese Situation
auf den obigen Fall zurückführen. Sei P die unbekannte Verteilung der Beobachtungen
X1 , . . . , Xn . Wir suchen einen Test für
H0 : P = P0 gegen H1 : P ̸= P0 .
Hierzu teilen wir den Wertebereich der Beobachtungen in J disjunkte Intervalle (Zellen)
I1 , . . . , Ij ein. Sei nun
Nj = # {i|Xi ∈ Ij }
und
(0)
pj = P0 (X1 ∈ Ij ).
Sei weiter pj = P (X1 ∈ Ij ), wobei P eine beliebige Verteilung der Zufallsvariablen
X1 , . . . , Xn bezeichnet. Wir testen nun
(0)
(0)
H0 : pj = pj für j = 1, . . . , J gegen H1 : pj ̸= pj für mindestens ein j.
Hierzu berechnen wir wieder
(0)
m
m
∑
(Nj − Ej )2 ∑ (Nj − npj )2
X =
=
(0)
Ej
npj
j=1
j=1
2
(0)
mit Ej = npj . Die Reduktion auf die Zellenhäufigkeiten ist natürlich eine Vergröberung,
die zu einem gewissen Informationsverlust führt. Bei der Wahl der Zellen und ihrer Anzahl
besteht eine gewisse Freiheit. Es gibt allerdings folgende Faustregel, die man beachten
(0)
sollte: npj ≥ 5 für alle 1 ≤ j ≤ J.
In vielen Fällen möchte man nicht eine einfache Nullhypothese überprüfen, sondern eine
zusammengesetzte Nullhypothese der Form
H0 : Pθ für ein θ ∈ Θ.
In diesem Fall bestimmt man zuerst einen Schätzer θb und bildet dann X 2 unter Verwendung von Ek = nPθb(Jk ). Dann ist die Verteilung von X 2 allerdings nicht mehr annähernd
χ2 -verteilt mit m−1 Freiheitsgraden. Wählt man für θb den Maximum-Likelihood Schätzer
bezüglich der Verteilung der Beobachtungen X1 , . . . , Xn und ist Θ eindimensional, so ist
die Verteilung von X 2 annähernd eine χ2 -Verteilung mit m − 2 Freiheitsgraden.
Beispiel: (Hufschlagtote)
Wir teilen die 280 Beobachtungen in 6 Klassen ein
Hufschlagtote/Jahr Anzahl der Regimentsjahre
0
1
2
3
4
≥5
144
91
32
11
2
0
196
. Die geschätzte
Der Maximum-Likelihood Schätzer für einen Todesfall pro Jahr ist θb = 280
2
2
2
b
Verteilung pois( θ ) wird nun mit χ getestet. Der χ -Wert ist X = 2, 346. Der p-Wert
für diesen Test-Wert, genommen bei einer χ2 -Verteilung mit 4 Freiheitsgraden, ist 0, 6723.
Die Hypothese: Pθ = pois(θ) für ein θ ∈ Θ, kann also nicht verworfen werden.
159
12.4
Lineare Regression und Methode der kleinsten
Quadrate
Wir betrachten nun Situationen, bei denen die Beobachtungen Paare (x, y) von Werten
x und y sind. Wir gehen davon aus, dass die x Werte frei wählbar sind und die y Werte
eine Antwort auf den x Wert darstellen. x könnte zum Beispiel der Strom sein, der durch
einen Widerstand fließt und y die dabei auftretende Spannung. Es besteht die Vermutung,
dass ein linearer funktionaler Zusammenhang zwischen x und y besteht. Man will deshalb
y durch a + bx mit geeigneten Koeffizienten a und b erklären. Liegen n Beobachtungspaare (x1 , y1 ), . . . (xn , yn ) vor, so werden diese im allgemeinen nicht auf einer Geraden
liegen. Man sucht deshalb eine sogenannte Ausgleichsgerade, die die vorliegenden Beobachtungen am besten beschreibt. Die im folgenden beschriebene „Methode der kleinsten
Quadrate“ geht auf C. F. Gauß zurück, der sie zuerst in der Astronomie zur Bestimmung
von Sternenorten angewandt hat. Dabei werden a und b so bestimmt, dass
n
∑
(yk − (a + bxk ))2
k=1
minimal wird. Ableiten nach a und b liefert die beiden Gleichungen
n
∑
(yk − (a + bxk )) = 0
k=1
n
∑
xk (yk − (a + bxk )) = 0.
k=1
Hieraus folgt
n
∑
y n = a + bx̄n
xk yk = anx̄n + b
k=1
n
∑
x2k
k=1
mit x̄n = (x1 + . . . xn )/n und ȳn = (y1 + . . . yn )/n. Dies ist ein lineares Gleichungssystem
in a und b. Die Lösung dieses Systems ist durch
b
a = yn −
bb = sxy
s2x
sxy
x̄n
s2x
gegeben mit
1 ∑
1 ∑
=
(xk − x̄n )2 und sxy =
(xk − x̄n )(yk − ȳn ).
n − 1 k=1
n − 1 k=1
n
s2x
Die Abweichungen
n
yk − (b
a + bbxk )
werden Residuen genannt. Für das Auftreten von Residuen gibt es zwei wesentliche Gründe
160
– die Beobachtungen sind mit Fehlern behaftet.
– die Annahme eines linearen Zusammenhangs ist nur annähernd erfüllt.
Wir werden nun folgendes Fehlermodell annehmen: bei gegebenem x Wert ist y die Realisierung einer normalverteilten Zufallsvariable Y mit Erwartungswert a + bx und Varianz
σ 2 . Damit ist
Yk = a + bxk + σεk
mit standardnormalverteiltem εk . Wir nehmen weiter an, dass die Fehler ε1 , . . . , εn unabhängig sind. Die Parameter a, b und σ 2 sind unbekannt.
Ein Beispiel findet man in der folgenden Grafik (siehe James, Witten, Hastie, Tibshirani,
An Introduction to Statistical Learning, S.62). Hier werden Verkaufszahlen in Abhängigkeit von Ausgaben für TV-Werbung dargestellt mit α
b = 7, 03 und βb = 0, 0475.
In diesem Modell sind b
a und bb, wie oben angegeben, erwartungstreuen Maximum-Likelihood
Schätzer für a und b. Ein erwartungstreuer Schätzer für σ 2 ist
1 ∑
(Yk − b
a − bbxk )2 .
s =
n − 2 k=1
n
2
Für die Varianz der Schätzer b
a und bb gilt
(
1
(x̄n )2
Var(b
a) = σ
+
n (n − 1)s2x
1
Var(bb) = σ 2
.
(n − 1)s2x
)
2
Ersetzt man σ 2 durch s2 , so erhält man die geschätzten Varianzen
(
)
1
(x̄n )2
2
2
sba = s
+
n (n − 1)s2x
1
sb2b = s2
.
(n − 1)s2x
161
Man kann zeigen, dass die Größen
bb − b
b
a−a
und
sba
sbb
jeweils einer t-Verteilung mit n−2 Freiheitsgraden folgen. Dies ergibt die folgenden (1−α)Konfidenzintervalle für a beziehungsweise b
[
]
b
a − sba tn−2;1−α/2 , b
a + sba tn−2;1−α/2
beziehungsweise
]
[
bb − sbtn−2;1−α/2 , bb + sbtn−2;1−α/2 .
b
b
Damit erhält man für
H0 : a = a0 gegen H1 : a ̸= a0
den folgenden Test zum Niveau α
ϕa0 (y1 , . . . , yn ) =
{
0 falls |b
a − a0 | ≤ sba tn−2;1−α/2 ,
1 falls |b
a − a0 | > sba tn−2;1−α/2 .
Für
H0 : b = b0 gegen H1 : b ̸= b0
erhält man den folgenden Test zum Niveau α
{
0 falls |bb − b0 | ≤ sbb tn−2;1−α/2 ,
ϕb0 (y1 , . . . , yn ) =
1 falls |bb − b0 | > sbb tn−2;1−α/2 .
Von besonderem Interesse ist der Fall b0 = 0. Mit H0 : b0 = 0 lässt sich nämlich überprüfen,
ob die x Werte überhaupt einen nennenswerten (linearen!) Einfluss auf die y Werte haben.
Betrachten wir das Beispiel aus dem Praktikum Ohmsches Gesetz. Die Daten sind
Spannung (in Volt) Stromstärke (in Ampère)
y
x
2
4
6
8
10
12
0.015
0.030
0.048
0.069
0.081
0.100
Dann ergeben sich: b
a = 0, 34, bb = 116, 47, sba = 0, 22; sbb = 3.36.
Die 95 %-Konfidenzintervalle sind
[
]
b
a ± sba t4;0.975 = [−0.27, 0.95]
[
]
bb ± sb t4;0.975 = [107.14, 125.80]
b
Der Wert „0“ liegt im 1. Intervall drin, nicht aber im zweiten.
Der erste Test H0 : a0 = 0 gegen H1 : a0 ̸= 0 hat einen p-Wert von 0.189, der zweite Test
H0 : b0 = 0 gegen H1 : b0 ̸= 0 ist hochsignifikant mit p = 4.15 · 10−6 .
162
Kapitel 13
Markov-Ketten
13.1
Die Kain und Abel-Aufgabe (nach A. Engel)
Abel schlägt seinem Bruder Kain folgendes Spiel vor. Sie werfen abwechselnd eine faire
Münze, bis erstmals eine der Ziffernfolgen
a) 1111 oder
b) 0011 auftritt.
Kain gewinnt bei (a) und Abel bei (b). Wie groß ist die Wahrscheinlichkeit, dass Kain
gewinnt? Ein möglicher Pfad im Verlauf des Spiels ist 01100101110011.
Wir stellen nun die Struktur der Aufgabe mit Hilfe eines Graphen dar, wobei die “Zustände” die möglichen Ergebnismuster sind und die Pfeile die möglichen Übergänge angeben.
Alle Übergänge geschehen mit Wahrscheinlichkeit 12 .
0
1
3
5
7
1
11
111
1111
0
00
001
0011
2
4
6
8
*
Abbildung 13.1: Der Graph der möglichen Übergänge
Hinweis: Die mit
behandelt.
∗ bezeichneten Abschnitte und Resultate wurden in der Vorlesung nicht explizit
163
Die Zustände sind mit den Ziffern 0 bis 8 bezeichnet, wobei “0” den Zustand benennt, bei
dem noch kein Ergebnis vorliegt. Der angegebene Spielverlauf 01100101110011 übersetzt
sich nun (in eineindeutiger Zuordnung) in 21324621352468. Wie lässt sich nun die Aufgabe lösen? Wir bezeichnen mit pi die Wahrscheinlichkeit bei Start im Zustand “i” den
Zustand “7” zu erreichen bevor man den Zustand “8” erreicht hat. Dann gilt natürlich
sofort p7 = 1 und p8 = 0. Außerdem sind die folgenden Gleichungen intuitiv plausibel.
p1 = 21 p2 + 21 p3
p2 = 12 p1 + 21 p4
p3 = 12 p2 + 21 p5
p4 = 12 p4 + 21 p6
p5 =
p6 =
1
+ 12 p2
2
1
p.
2 2
Das Schema ist ein lineares Gleichungssystem mit sechs Unbekannten und Gleichungen.
Durch Einsetzen erhält man sofort
p4 = p6 = 12 p2
p1 = 32 p2
p3 =
1
4
sowie
+ 34 p2
p1 =
1
8
+ 78 p2 .
3
Damit ist p1 = 10
, p2 =
scheinlichkeit 14 .
13.2
1
5
und folglich p0 = 14 . Das heißt Kain gewinnt nur mit Wahr-
Definition von Markov-Ketten und erste Folgerungen
Definition 13.2.1 (Ω, P ) sei Wahrscheinlichkeitsraum, E sei abzählbare Menge. Seien
Xi : Ω → E, i = 0, 1, 2, 3, . . . Zufallsvariablen. Die Menge der Zufallsvariablen
X = {X0 , X1 , X2 , . . . , Xn , . . . } heißt Markov-Kette (der Länge n), falls
P (Xi = xi | X0 = x0 , . . . , Xi−1 = xi−1 ) = P (Xi = xi | Xi−1 = xi−1 )
für i = 1, 2, . . . , n, . . . gilt. Eine Markov-Kette X heißt homogen, falls
P (Xi = x1 | Xi−1 = x0 ) = P (X1 = x1 | X0 = x0 )
für i = 1, 2, . . . gilt. Man nennt diese Größe im folgenden q(x0 , x1 ).
Bezeichnungsweisen
1. E heißt Zustandsraum,
2. q(x, y), x, y ∈ E heißt stochastische Matrix, falls q(x, y) ≥ 0 und
∑
y∈E
∀ x ∈ E gilt,
3. π(x0 ) = P (X0 = x0 ) mit x0 ∈ E heißt Startverteilung.
164
q(x, y) = 1,
Konstruktion von homogenen Markov-Ketten
Gegeben seien:
1. E endlich oder abzählbar,
2. q(x, y), x, y ∈ E eine stochastische Matrix,
3. π(x),∑
x ∈ E eine Wahrscheinlichkeitsfunktion auf E, d.h. π(x) ≥ 0 für alle x ∈ E
und
π(x) = 1.
x∈E
Zur Existenz:
Sei Ωn+1 := {ω = (x0 , . . . , xn ) | xi ∈ E, i = 0, . . . , n} und Xi (ω) := xi , für i = 0, 1, . . . , n.
Satz 13.2.2 Sei n ∈ N. Durch p(ω) := π(x0 )q(x0 , x1 ) . . . q(xn−1 , xn ) wird eine Wahrscheinlichkeitsfunktion auf Ωn+1 gegeben, so dass gilt:
1. P (X0 = x0 ) = π(x0 ),
2. P (X0 = x0 , X1 = x1 , . . . , Xn = xn ) = p(ω),
3. P (Xi+1 = xi+1 |X0 = x0 , . . . , Xi = xi ) = q(xi , xi+1 ) = P (Xi+1 = xi+1 |Xi = xi )
für i = 0, . . . , n − 1.
Beweis:
Zu
∑(2): Sei ω = (x0 , . . . , xn ). Mit p(ω) = π(x0 )q(x0 , x1 ) . . . q(xn−1 , xn ) gilt: p(ω) ≥ 0 und
p(ω) = 1. Da Xi (ω) = xi ist, folgt
ω∈Ωn+1
P ({ω|Xi (ω) = xi , i = 0, . . . , n}) = P ({ω}) = p(ω).
Zu (1):
(+) P ({X0 = x0 , . . . , Xi = xi }) =
∑
π(x0 )q(x0 , x1 )q(xi−1 , xi ) . . . q(xn−1 , xn )
xi+1 ,...,xn
= π(x0 )q(x0 , x1 ) . . . q(xi−1 , xi )
für i = 0, 1, 2, . . . , n − 1.
Zu (3): Es gilt
π(x0 )q(x0 , x1 ) . . . q(xi−1 , xi ), q(xi , xi+1 )
π(x0 )q(x0 , x1 ) . . . q(xi−1 , xi )
= q(xi , xi+1 )
P (Xi+1 = xi+1 | X0 = x0 , . . . , Xi = xi ) =
sowie
P (Xi+1 = xi+1 , Xi = xi )
P (Xi = xi )
∑
π(x0 )q(x0 , x1 ) . . . q(xi−1 , xi )q(xi , xi+1 )
x0 ,...,xi−1
∑
=
π(x0 )q(x0 , x1 ) . . . q(xi−1 , xi )
P (Xi+1 = xi+1 |Xi = xi ) =
x0 ,...,xi−1
= q(xi , xi+1 ).
165
Bemerkungen:
∑
π(x0 )q(x0 , x1 ) . . . q(xi−1 , xi ) = π(x0 )q i (x0 , xi ).
x0 ,...,xi−1
x0
∑ n
n+1
Dabei ist q (x, y) =
q (x, z) q(z, y) das n + 1-fache Matrixprodukt.
1. P (Xi = xi ) =
∑
z∈E
2. Mit Satz 13.2.2 ist eine homogene Markov-Kette der Länge n konstruiert!
3. Wegen (+) im Beweis von Satz 13.2.2 ist die Markov-Kette der Länge i eingebettet
in eine Markov-Kette der Länge n für i ≤ n.
4. Mit der Bedingung (+) lässt sich eine Markov-Kette beliebiger Länge konstruieren.
Beispiele für Markov-Ketten:
1) Kain und Abel-Aufgabe:
Der Zustandsraum ist E = {0, 1, 2, . . . , 8}. Für π gilt π(0) = 1. Weiter ist


0 12 12 0 0 0 0 0 0
0 0 1 1 0 0 0 0 0 



 1 2 2 1
0 2 0 0 2 0 0 0 0 


0 0 12 0 0 12 0 0 0 


1
1
.
(q(x, y))x,y∈E = 
0
0
0
0
0
0
0


2
2
0 0 1 0 0 0 0 1 0 

2
2 

1
1
0
0
0
0
0
0
0

2
2


0 0 0 0 0 0 0 1 0 
000000001
2) Sei E = {1, 2, 3},
5 3
 3 1
0 4 4
0 8
8
1
1
1 3 1
2


q(x, y) = 2 0 2 und q (x, y) = 2 8 8 .
100
0 34 14
Für jede Startverteilung π mit π(x) > 0 für x ∈ E gilt lim
mit π ∗ (1) =
8
,
19
π(2)∗ =
6
,
19
π(3)∗ =
3) Seien Y1 , Y2 , . . . unabhängig, Xi =
∑
n→∞ x∈E
π(x)q n (x, y) = π ∗ (y)
5
.
19
i
∑
Yj und X0 = x0 . Dann ist {X0 , X1 , X2 , . . .} eine
j=1
Markov-Kette.
Beweis:
Sei m ∈ N und sei yi = xi − xi−1 für i ≥ 1 und y0 = x0 . Dann ist:
P (Xm+1 = x|X0 = x0 , . . . , Xm = xm )
= P (Xm+1 = x|X0 = y0 , X1 = y0 + y1 , X2 = y0 + y1 + y2 , . . . , Xm = y0 + · · · + ym )
= P (Ym+1 = x − (y0 + y1 + · · · + ym )|Y0 = y0 , Y1 = y1 , . . . , Ym = ym )
=
P (Ym+1 = x − (y0 + y1 + · · · + ym ))P (Y0 = y0 )P (Y1 = y1 ) · · · P (Ym = ym )
P (Y0 = y0 )P (Y1 = y1 ) · · · P (Ym = ym )
166
= P (Ym+1 = x − (y0 + y1 + · · · + ym ))
= P (Xm+1 = x|Xm = xm ).
4) Ehrenfestsches Urnenmodell
N Teilchen befinden sich in den Behältern 1 und 2.
i Teilchen seien in Behälter 1, N − i Teilchen in Behälter 2.
In jeder Zeiteinheit springt ein Teilchen entweder von 1 → 2 oder von 2 → 1.
1
2
Abbildung 13.2: Ehrenfestsches Urnenmodell
Die stochastische Matrix wird gegeben durch q(i, i + 1) =
q(i, j) = 0 für j ̸= i ± 1.
13.3
N −i
, q(i, i
N
− 1) =
i
N
und
Absorbierende Zustände∗
Wir können eine Markov-Kette als Bewegung eines Teilchens durch die Zustände auffassen.
In manchen Markov-Ketten gibt es Zustände, die nicht verlassen werden können. Solche
Zustände heißen absorbierend.
Definition 13.3.1 (absorbierender Zustand, absorbierender Rand)
Sei X = {X0 , X1 , . . .} eine homogene Markov-Kette mit Zustandsraum E. Ein Zustand
x ∈ E heißt absorbierend, wenn gilt q(x, x) = 1. Die Menge A ⊂ E aller absorbierender
Zustände heißt absorbierender Rand von X .
Bei der “Kain und Abel”-Aufgabe ist {7, 8} der absorbierende Rand. Der folgende Satz
liefert eine Begründung für die Kain und Abel-Aufgabe.
Satz 13.3.2 Sei X eine homogene Markov-Kette und A ⊂ E ihr absorbierender Rand.
Wir nehmen an, dass für jedes x ∈ E die Wahrscheinlichkeit nach A zu kommen gleich 1
ist.
Sei A = A1 ∪ A2 und A1 ∩ A2 = Ø. Sei PA1 (x) die Wahrscheinlichkeit bei Start in x beim
ersten Eintritt in A nach A1 zu gelangen. Dann gilt:
(a) PA1 (x) = 1 für x ∈ A1 und PA1 (x) = 0 für x ∈ A2 ,
∑
∑
∑
(b) Für x ∈
/ A ist PA1 (x) =
q(x, z) +
q(x, x1 )q(x1 , x2 ) . . . q(xn−1 , z),
z∈A1
(c) Es gilt stets PA1 (x) =
∑
n≥2
q(x, y)PA1 (y).
y∈E
167
xi ∈A
/ für
i=1,...,n−1,
z∈A1
Beweis:
Zu (a): Dies folgt direkt aus der Definition.
Zu (b): Sei x ∈
/ A. Dann ist
PA1 (x) = P (X0 = x, X1 ∈ A1 ) + P
=
∑
q(x, z) +
=
q(x, z) +
{X0 = x, Xi ∈
/ A für i < n, Xn ∈ A1 }
)
n≥2
P ({X0 = x, Xi ∈
/ A für i < n, Xn ∈ A1 })
n≥2
z∈A1
∑
∑
(∪
∑
∑
q(x, x1 ) . . . q(xn−1 , z).
n≥2 x1 ,x2 ,...,xn−1 ∈A,
/
z∈A1
z∈A1
Zu (c): Sei x ∈
/ A. So gilt
PA1 (x) = P (X0 = x, X1 ∈ A1 ) + P (X0 = x, X1 ∈
/ A, X2 ∈ A1 )
+ P (X0 = x, ∃n ≥ 3 mit Xn ∈ A1 und Xi ∈
/ A für i < n)
∑
∑
=
q(x, y) +
q(x, y)q(y, z)
y∈A1
+
(∗)
=
y ∈A,z∈A
/
1
∑∑
∑
n≥3 y ∈A
/
xi ∈A,
/
i=2,...,n−1,
z∈A1
∑
q(x, y)PA1 (y) +
y∈A
+
∑
y ∈A
/
=
∑
q(x, y)
(∑
n≥3
=
∑
(∑
)
q(x, y)
q(y, z)
y ∈A
/
z∈A1
∑
)
q(y, x2 ) . . . q(xn−1 , z)
xi ∈A,
/
i=2,...,n−1,
z∈A1
q(x, y)PA1 (y) +
∑
q(x, y)PA1 (y)
y ∈A
/
y∈A
∑
q(x, y)q(y, x2 ) . . . q(xn−1 , z)
q(x, y)PA1 (y).
y
(*) PA1 (x) = 1 für x ∈ A1 und PA1 (x) = 0 für x ∈ A\A1 .
Bemerkung: Die Gleichung c) aus Satz 13.3.2 lautet in Vektorschreibweise PA1 = qPA1 .
Dies bedeutet PA1 ist rechter Eigenvektor von q zum Eigenwert 1. Man sagt auch, PA1 ist
harmonisch oder PA1 erfüllt die Mittelwerteigenschaft.
Berechnung von Ruin-Wahrscheinlichkeiten
Hans und Rudolf spielen ein Spiel. In jeder Runde gewinnt Hans mit der Wahrscheinlichkeit p und Rudolf gewinnt mit der Wahrscheinlichkeit q = 1 − p. Der Gewinner einer
Runde erhält von seinem Gegner einen Euro. Es wird so lange gespielt bis einer der Spieler
kein Geld mehr hat. Wie hoch ist die Ruin-Wahrscheinlichkeit P (x) von Hans, wenn Hans
zu Beginn x Euro hat und Hans und Rudolf zusammen b Euro haben?
168
Seien x, b ∈ N mit 0 < x < b. Weiter seien X1 , X2 , . . . unabhängige Zufallsvariablen mit
n
∑
P (Xi = 1) = p = 1 − P (Xi = −1) für alle i und es sei S0 = x und Sn = x +
Xi für
i=1
n ≥ 1. Damit ist S0 , S1 , S2 , . . . eine Markov-Kette und Sn ist das Kapital, das Hans nach
n Runden besitzt. Wir frage nach der Ruin-Wahrscheinlichkeit:
P (x) = P (∃n mit Sn = 0 und 0 < Si < b für i < n | S0 = x) .
Abbildung 13.3: Ruin-Wahrscheinlichkeiten
Satz 13.3.3 Sei q = 1 − p.
1
x
Für p = gilt P (x) = 1 −
für 0 ≤ x ≤ b.
2
b
Für p ̸=
( pq )b − ( pq )x
1
für 0 ≤ x ≤ b.
gilt P (x) =
2
( pq )b − 1
Beweis:
Fall 1: Sei p = 21 .
Satz 13.3.2 liefert: P (x) = 12 P (x − 1) + 12 P (x + 1) für 0 < x < b,
P (0) = 1,
P (b) = 0.
Durch Lösen dieses linearen Gleichungssystems ergibt sich: P (x) = 1 − xb .
Fall 2: Sei p ̸= 21 .
Satz 13.3.2 liefert: P (x) = pP (x + 1) + qP (x − 1) für 0 < x < b,
Dann ist
P (b) = 0,
P (x) = pP (x + 1) + qP (x − 1)
pP (x) + qP (x) = pP (x + 1) + qP (x − 1)
P (x + 1) − P (x) = pq (P (x) − P (x − 1)).
Wiederholtes Anwenden liefert
P (x + 1) − P (x) = ( pq )x (P (1) − P (0)).
Sei r := pq .
Aufaddieren liefert P (x) − P (0) =
Wegen P (0) = 1 gilt P (x) = 1 +
rx −1
(P (1)
r−1
rx −1
r−1
− P (0)).
(P (1) − 1).
Wegen P (b) = 0 gilt P (1) − 1 = − rr−1
b −1 .
Einsetzen in die vorangegangene Gleichung liefert die Behauptung.
169
P (0) = 1.
13.4
Rekurrente und transiente Zustände
13.4.1
Bezeichnungen
Sei f n (x, y) := P (Xn = y, Xi ̸= y für 1 ≤ i < n|X0 = x). Dann bezeichnet f n (x, y) die
Wahrscheinlichkeit bei Start in x nach n Schritten erstmals den Zustand y zu erreichen.
∑ n
f ∗ (x, y) := P (Xn = y für ein n ≥ 1|X0 = x) =
f (x, y) ist die Wahrscheinlichkeit bei
n≥1
Start in x irgendwann nach y zu gelangen.
∞
∑
q n (x, y) ist die erwartete Anzahl der Besuche in y bei Start in x, denn:
q ∗ (x, y) :=
n=0
q ∗ (x, y) =
∞
∑
q n (x, y) =
n=0
=
∞
∑
∞
∑
P (Xn = y|X0 = x)
(
n=0
E(1{Xn =y} |X0 = x) = E
n=0
∞
∑
n=0
)
1{Xn =y} X0 = x .
Definition 13.4.1 (rekurrenter Zustand)
x ∈ E heißt rekurrent, falls f ∗ (x, x) = 1,
x ∈ E heißt transient, falls f ∗ (x, x) < 1.
Satz 13.4.2
1. x ∈ E ist rekurrent ⇔ q ∗ (x, x) = ∞,
2. x ∈ E ist transient ⇔ q ∗ (x, x) < ∞.
Beweis: Dieser folgt aus nachfolgendem Lemma.
Lemma 13.4.3
∗
Es gilt
a) q ∗ (x, y) = f ∗ (x, y) q ∗ (y, y) + δ(x, y),
b) f ∗ (x, x) =
q ∗ (x,x)−1
,
q ∗ (x,x)
c) q ∗ (x, x) =
1
.
1−f ∗ (x,x)
Beweis:
n
∑
Für alle x, y ∈ E gilt: q n (x, y) =
f i (x, y)q n−i (y, y). Denn es gilt mit
i=1
Ty = min{m ≥ 1|Xm = y} und Px (A) := P (A | X0 = x)
q n (x, y) = Px (Xn = y)
n
∑
=
Px (Ty = i)Px (Xn = y | Ty = i)
i=1
=
n
∑
f i (x, y)Px (Xn = y | Xi = y)
i=1
170
=
n
∑
f i (x, y)Py (Xn−i = y)
i=1
=
n
∑
f i (x, y)q n−i (y, y).
i=1
Weiter gilt nach Vertauschung der Summation
q ∗ (x, y) =
∞
∑
q n (x, y) + δ(x, y)
n=1
=
=
∞ ∑
n
∑
n=1 i=1
∞ ∑
∞
∑
f i (x, y)q n−i (y, y) + δ(x, y)
f i (x, y)q n−i (y, y) + δ(x, y)
i=1 n=i
=
∞
∑
f i (x, y)
i=1
∞
∑
q m (y, y) + δ(x, y)
m=0
= f ∗ (x, y) · q ∗ (y, y) + δ(x, y).
Damit ist a) gezeigt. Für x = y folgt q ∗ (x, x) − f ∗ (x, x)q ∗ (x, x) = 1.
Auflösen nach q ∗ (x, x) liefert q ∗ (x, x)(1 − f ∗ (x, x)) = 1 und damit q ∗ (x, x) =
Auflösen nach f ∗ (x, x) liefert: f ∗ (x, x) =
1
.
1−f ∗ (x,x)
q ∗ (x,x)−1
.
q ∗ (x,x)
Beispiel auf Z (Irrfahrt auf Z):
Seien Y1 , Y2 , . . . unabhängige Zufallsvariable mit P (Yi = 1) = p, P (Yi = −1) = q für alle
i. Weiter sei X0 = 0 und Xn = Y1 + Y2 + · · · + Yn für n ≥ 1.
Behauptung: Für p = q = 12 ist 0 rekurrent, für p ̸= q ist 0 transient.
Beweis:
Wende Satz 13.4.2 an! Sei n ∈ N. Nach 2n + 1 Schritten liegt ein ungerader Zustand vor,
also kann X2n+1 nicht 0 sein und damit gilt: q 2n+1 (0, 0) = 0. Fällt in 2n Experimenten
( ) n n
insgesamt n-mal die 1 und n-mal die −1, so ist X2n = 0 und es gilt: q 2n (0, 0) = 2n
p q .
n
Für große n können wir die Stirling’schen Formel anwenden:
( )
1
1
2n
2n
n
∼ √ 22n .
q (0, 0) ∼ √ (4pq) , da
n
πn
πn
∑
∑ 1
√ (4pq)n (1 + o(1)) < ∞ ⇒ „0“ ist
Fall 1: p ̸= q ⇒ (4pq) < 1 ⇒ n≥1 q 2n (0, 0) =
πn
n≥1
transient.
1
⇒
2
√1
πn
Fall 2: p = q =
(4pq) = 1
⇒ q 2n (0, 0) ∼
∑ 2n
∑ 1
√
⇒
q (0, 0) ∼
= ∞ ⇒ „0“ ist rekurrent.
πn
n
n
Definition 13.4.4 (irreduzibel) Die stochastische Matrix q heißt irreduzibel, falls für
alle x, y ∈ E ein m ∈ N existiert mit q m (x, y) > 0.
171
Satz 13.4.5 Sei q irreduzibel. Dann gilt: Existiert ein z ∈ E, das rekurrent ist, so sind
alle x ∈ E rekurrent.
Beweis:
Sei x ∈ E beliebig. Dann existieren k, l ∈ N mit q k (x, z) > 0 und q l (z, x) > 0.
Dann ist
q n (x, x) ≥ q k (x, z)q m (z, z)q l (z, x),
falls n = k + m + l ist. Es folgt
∑
∑
q m (z, z)q l (z, x).
q ∗ (x, x) ≥
q n (x, x) ≥ q k (x, z)
m≥0
n≥k+l
Da die rechte Seite nach Voraussetzung gleich unendlich ist, ist auch q ∗ (x, x) = ∞ und
damit f ∗ (x, x) = 1.
Folgerung: Man sagt eine Markovkette ist rekurrent, falls alle Zustände rekurrent sind.
13.5
Stationäre Verteilungen
Definition 13.5.1 Eine Wahrscheinlichkeitsfunktion π auf E heißt stationär bezüglich q,
falls für alle y ∈ E gilt:
∑
π(x)q(x, y) = π(y).
x
In Vektorschreibweise: π T q = π T , d. h. π ist linker Eigenvektor von q mit Eigenwert 1.
Bemerkung:
Ist π stationär und Startverteilung von X , d.h. P (X0 = x) = π(x), so gilt:
P (Xn = y) = π(y).
Beweis: Es gilt
P (Xn = y) =
∑
P (Xn = y | X0 = x)π(x)
x
=
∑
π(x)q n (x, y)
x
=
∑
π(x)
∑
x
=
∑∑
z
=
∑
q(x, z)q n−1 (z, y)
z
π(x)q(x, z)q n−1 (z, y)
x
q
n−1
(z, y)π(z)
z
..
.
= π(y).
172
Beispiel (Ehrenfestsches Urnenmodell)
Behauptung:
( )
π(i) = Ni 2−N ist stationäre Verteilung des Ehrenfestschen Urnenmodells.
∑
Beweis: Zu zeigen:
π(i)q(i, j) = π(j).
i
∑
i
=
=
=
=
π(i)q(i, j)
∑ (N )
2−N q(i, j)
i
i
(
)
(
)
N
N
j+1
−N N − (j − 1)
2
+
2−N
j−1
N
j+1
N
[
]
N!
N − (j − 1)
N!
j + 1 −N
+
2
(j − 1)!(N − (j − 1))!
N
(j + 1)!(N − (j + 1))! N
[
]
(N − 1)!
j
N − j −N
(N − 1)!
+
2
(j − 1)!(N − j)! j j!(N − j − 1)! N − j
(N − 1)!j + (N − 1)!(N − j) −N
2
j!(N − j)!
( )
N −N
2
= π(j).
=
j
=
Es gibt noch einen einfacheren Weg die Stationarität von π zu zeigen. Man verwendet
dazu das folgende Lemma.
Lemma 13.5.2 Gilt für alle x, y ∈ E π(x)q(x, y) = π(y)q(y, x), so ist π stationär.
Beweis:
∑
x
π(x)q(x, y) =
∑
π(y)q(y, x) = π(y)
x
∑
q(y, x) = π(y).
x
Bemerkung:
Für
Ehrenfestsche
Urnenmodell lautet die in 13.5.2 vorausgesetzte Gleichung
(N ) Ndas
( N ) i+1
−i
= i+1 N . Es ist offensichtlich, dass diese gilt.
i
N
Der folgende Satz liefert die Existenz einer stationären Verteilung.
Satz 13.5.3 Sei q irreduzibel. Sei Tz = min{n ≥ 1|Xn = z}. Dann sind folgende Aussagen äquivalent:
a) Es existiert ein z ∈ E mit E(Tz |X0 = z) < ∞,
b) Für alle x, y ∈ E gilt E(Ty |X0 = x) < ∞,
c) Es existiert eine stationäre Wahrscheinlichkeitsfunktion π bezüglich q.
173
Bemerkung:
Bedingung (a) ist stärker als Rekurrenz, denn es gibt Markov-Ketten mit einem rekurrenten Zustand x für den E(Tx |X0 = x) = ∞ gilt. Siehe z.B. die Irrfahrt von oben.
Beweisskizze:
Zeige (a) ⇒ (c) Setze: Pz (·) = P (·|X0 = z). Dann ist Pz das Wahrscheinlichkeitsmaß bei
Start in z.
(T
)
∞
z
∑
∑
Sei H(x) := Ez
1{Xn =x} =
Pz (Xn = x, Tz ≥ n). Dann gilt H(z) = 1 und weiter
n=1
n=1
∑
H(x) =
x∈E
=
∞ ∑
∑
Pz (Xn = x, Tz ≥ n)
n=1 x∈E
∞
∑
Pz (Tz ≥ n) = Ez Tz .
n=1
Wir behaupten (+): H(y) =
∑
H(x)q(x, y).
x∈E
Setzt man nun π(x) =
H(x)
,
Ez Tz
so ist π(y) =
∑
π(x)q(x, y) und
x
stationäre Verteilung. Wieder sei Px (A) := P (A | X0 = x).
∑
π(y) = 1, d.h. π ist
y
Zeige Behauptung (+):
H(y) =
∞
∑
Pz (Xn = y, Tz ≥ n)
n=1
= Pz (X1 = y) +
∑
Pz (Xn = y, Xj ̸= z für 1 ≤ j ≤ n − 1)
n≥2
= q(z, y) +
∑ ∑
Pz (Xn−1 = x, Xn = y, Xj ̸= z für 1 ≤ j ≤ n − 1)
n≥2 x∈E\{z}
= q(z, y) +
∑ ∑
Pz (Xn−1 = x, Xn = y, Xj ̸= z für 1 ≤ j ≤ n − 1)
x∈E\{z} n≥2
= q(z, y) +
∑ ∑
Pz (Xn−1 = x, Xj ̸= z für 1 ≤ j ≤ n − 1) · P (Xn = y|Xn−1 = x)
x∈E\{z} n≥2
= q(z, y) +
∑ ∑
Pz (Xl = x, Xj ̸= z für 1 ≤ j ≤ l) · P (Xn = y|Xn−1 = x)
x∈E\{z} l≥1
= q(z, y) +
∑
H(x)q(x, y)
x∈E\{z}
=
∑
H(x)q(x, y).
x
174
Korollar 13.5.4 Es gilt
π(x) =
H(x)
Ez Tz
π(z) =
1
,
Ez Tz
und insbesondere
wobei
H(x) =
∞
∑
Pz (Xn = x, Tz ≥ n) ist für z ∈ E.
n=1
Korollar 13.5.5 Jede endliche irreduzible rekurrente Markovkette hat genau eine stationäre Verteilung.
Dies folgt da die erwarteten Wiederkehrzeiten endlich sind.
Bemerkung:
Beim Ehrenfestschen Urnenmodell sei σ(i) = min{n > 0 | Xn = i}. Dann ist nach
( )−1 2k
dem Korollar: E0 σ(0) = 22k und Ek σ(k) = 2k
2 , wobei k = N/2 ist. Beachte das
k
√
Ek σ(k) ∼
= πk wegen der Stirling-Formel ist, falls k groß ist. Setzt man N = 6 · 1023 und
23
ist ein Zeitschritt 1 Sekunde lang, so ist Ek σ(k) ∼
= 1012 Sekunden, aber E0 σ(0) ∼
= 101,8·10
Sekunden.
13.6
Konvergenz gegen die stationäre Verteilung
Definition 13.6.1 (Periode, aperiodisch) Sei q eine irreduzible stochastische Matrix.
Weiter sei N (x, y) := {n ∈ N|q n (x, y) > 0}. Wir definieren die Periode von x ∈ E durch
d(x) := ggT (N (x, x)), wobei ggT (B) := sup{k ∈ N|B ⊂ k · N} der größte gemeinsame
Teiler der Menge B ist. q heißt aperiodisch, falls d(x) = 1 ist für alle x ∈ E. q hat Periode
k, falls d(x) = k ist für alle x ∈ E.
Beispiel:
Für die stochastische Matrix beim Ehrenfestschen Urnenmodell gilt d = 2.
Satz 13.6.2 Sei q irreduzibel und aperiodisch mit stationärer Verteilung π. Dann gilt für
alle x ∈ E
∑
lim
|q n (x, y) − π(y)| = 0.
n→∞
y∈E
Sei q irreduzibel mit Periode k und mit stationärer Verteilung π, so gilt
lim
n→∞
∑
q nk (x, y) − π(y) = 0.
y∈E
175
Beweis:
Zum Beweis siehe Dümbgen, S. 129.
Hier ist noch ein einfaches Beispiel zu Satz 13.6.2.
1 1 
0
2 2
1
1
Sei q =  3 3 12 .
100
Dann ist die stationäre Verteilung π = ( 12 , 38 , 18 ). Für sie gilt π T q = π T .
Satz 13.6.3 Sei
∑ q irreduzibel und aperiodisch mit stationärer Verteilung π. Sei f : E →
R, so dass
|f (x)|π(x) < ∞ ist. Dann gilt für jede Startverteilung µ mit
x∈E
Pµ -Wahrscheinlichkeit 1 :
N
∑
1 ∑
f (Xk ) =
f (x)π(x).
N →∞ N
x∈E
k=1
lim
Bemerkung:
Dies ist ein grundlegender Satz für Markov-Ketten, der dem Gesetz der Großen Zahlen
für unabhängige Beobachtungen entspricht. Es ist ein Basisresultat für die Simulation bei
Markov-Ketten, der sogenannten MCMC-Methode.
Bemerkungen zum Ehrenfestschen Urnenmodell
Dieses Modell wurde entwickelt, um eine Streitfrage in der statistischen Physik zu klären. Boltzmann behauptete, ein großes Teilchensystem tendiere sehr schnell zu seinem
Gleichgewicht, Zermelo entgegnete, auch dann müßten aus physikalischen Gründen sehr
unwahrscheinliche Zustände angenommen werden können. Dies erschien paradox. Das
Ehrenfestsche Modell gestattet die Details zu berechnen.
Sei N = 2k. Sei σ(i) = inf{n > 0 | Xn = i} wie oben. Dann gilt:
a) E0 (σ(k)) = k ln k + k + O(1)
b) Ek (σ(0)) =
1 2k
2 (1
2k
+ o( k1 )) für k → ∞.
Dieses Resultat ist schwerer zu beweisen als das in der Bemerkung nach Korollar 13.5.5,
denn dieses ist kein Resultat über Wiederkehrzeiten.
176
Literaturverzeichnis
Dümbgen, L.: Stochastik für Informatiker, Springer, 2003
Engel, A.: Wahrscheinlichkeitsrechnung und Statistik I–II, Klett, 1973
Feller, W: An Introduction to Probability and its Applications, Vol I, Wiley, 1957
Georggi, H.-O.: Stochastik, Walter de Gruyter, 2002
Henze, N.: Stochastik für Einsteiger, Springer, 2013
Kersting-Wakolbinger: Elementare Stochastik, Birkhäuser, 2008
Klenke, A.: Wahrscheinlichkeitstheorie, Springer, 2006
Krengel, U.: Einführung in die Wahrscheinlichkeitstheorie und die Statistik, Vieweg,
2002, 3. Aufl.
Krickeberg-Ziezold: Stochastische Methoden, Springer, 4. Aufl., 1995
Pitman, J.: Probability, Springer, 1993, Corr. 7th printing
Shiryaev, A.: Probability, Springer, 1984
177
Herunterladen