Stochastik für Informatiker (Mathematik für Informatiker III) Prof. Dr. M

Skriptum zur Vorlesung im WS 2015/16
Stochastik für Informatiker
(Mathematik für Informatiker III)
Prof. Dr. M. v. Golitschek
Kapitel 1 : Grundlagen der Kombinatorik
§1. Binomialkoeffizienten
§2. Abbildungen auf endlichen Mengen
§3. Die Siebformel
§4. Beispiele aus der Diskreten Wahrscheinlichkeitsrechnung
Kapitel 2. Wahrscheinlichkeitsrechnung
§1. Wahrscheinlichkeit
§2. Bedingte Wahrscheinlichkeit
§3. Satz von Bayes
§4. Zufallsvariable
§5. Paare und Summen von Zufallsvariablen
§6. Diskrete Verteilungsfamilien
§7. Die Normalverteilung
§8. Der Zentrale Grenzwertsatz
§9. Zufallszahlen
Kapitel 3. Statistik
§1. Schätzungen von Erwartungswert und Varianz
§2. Statistische Tests
§3. Vertrauensintervalle
Anhang : Stochastische Prozesse
Literatur
D. Hachenberger : Mathematik für Informatiker, Pearson Studium, 2005
N. Henze, Stochastik für Einsteiger, 2008, Vieweg
Th. Ihringer : Diskrete Mathematik, Heldermann Verlag, 2002.
T. Schickinger, A. Steger, Diskrete Strukturen 1
(Kombinatorik, Graphentheorie, Algebra), Springer Verlag.
T. Schickinger, A. Steger, Diskrete Strukturen 2
(Statistik), Springer Verlag.
W. A. Stahel, Statistische Datenanalyse, 2. Aufl., 1999, Vieweg.
1
Kapitel 1 : Grundlagen der Kombinatorik
Die Kombinatorik beschäftigt sich, einfach gesagt, mit dem Abzählen endlicher Mengen.
§1. Binomialkoeffizienten
In der Analysis wurde der wichtige Binomische Lehrsatz behandelt.
Satz 1.1.
Es seien x und y reelle (oder komplexe) Zahlen. Es sei n ∈ IN. Dann gilt
n X
n k n−k
n
x y
.
(x + y) =
k
k=0
Hierbei wurden folgende Definitionen verwendet :
| ),
x0 := 1 für alle x ∈ IR (x ∈ C
n
0
:= 1 , 0! := 1,
:= 1 ,
0
0
n!
n
:=
, 1 ≤ k ≤ n,
k
k!(n − k)!
n
:= 0, k > n, k < 0.
k
Aus Satz 1.1 folgt
n X
n
k=0
k
=2
n
,
n
X
k=0
n
= 0,
(−1)
k
k
wenn man x = y = 1 bzw. x = −1,y = 1 wählt.
Aus der Definition von nk folgen leicht die Formeln
n
n
, 0 ≤ k ≤ n,
=
k
n−k
n
n
n+1
, 0 ≤ k ≤ n + 1.
+
=
k
k−1
k
Diese letzte Formel kann man auch in Form des Pascalschen Dreiecks schreiben.
Im Zahlenlotto und verwandten Anwendungen der Binomialkoeffizienten taucht die folgende Frage auf :
Problem :
Gegeben sei eine endliche Menge A, sowie k ∈ IN mit 1 ≤ k ≤ |A|. Wieviele k-elementige
Teilmengen von A gibt es ? Diese Anzahl bezeichnen wir mit zk (|A|).
Lösung des Problems:
Wir schreiben n :=
|A|. Für k = 1 ist offensichtlich z1 (n) = n =
n
ist zn (n) = 1 = n .
2
n
1
, und im Falle k = n
Satz 1.2.
Es gilt
n
,
zk (n) =
k
1 ≤ k ≤ n.
Beweis. Wir führen einen Induktionsbeweis nach n.
Im Falle n = 1 ist Satz 1.2 richtig.
Annahme : Satz 1.2 sei richtig für ein n ∈ IN.
Beweis für n + 1 :
Wie schon erwähnt, gilt zk (n + 1) = n+1
für k = 1 und k = n + 1. Sei nun also
k
2 ≤ k ≤ n. Wir nummerieren die Elemente von A durch, also A = {a1 , . . . , an+1 }. Nach
unserer Induktionsannahme gibt es
n
Teilmengen von A, deren Elemente alle in {a1 , . . . , an } liegen, sowie
k k-elementigen
n
k-elementigen
Teilmengen von A, in denen an+1 vorkommt.
k−1
Da die beiden Teilmengen disjunkt sind, ist
n+1
n
n
,
=
+
zk (n + 1) =
k
k−1
k
was wir beweisen wollten.
§2. Abbildungen auf endlichen Mengen
In diesem Paragraphen seien A und B endliche Mengen mit m := |A| und n := |B|,
m, n ≥ 1.
Satz 2.1.
Sei m ≤ n. Die Anzahl Im,n der injektiven Abbildungen von A nach B ist
Im,n =
n!
= n(n − 1) · · · (n − m + 1).
(n − m)!
Beweis.
Es seien die Elemente von A und B irgendwie nummeriert, also A = {a1 , . . . , am }, B =
{b1 , . . . , bn }. Um die verschiedenen Injektionen f : A → B zu zählen, beachten wir, dass es
für f (a1 ) genau die n verschiedenen Werte {b1 , . . . , bn } gibt. Also ist I1,n = n. Ist m ≥ 2,
so gibt es wegen der Injektivität von f für f (a2 ) nur noch die n − 1 möglichen Werte
{b1 , . . . , bn } \ {f (a1 )}. Also ist I2,n = n(n − 1). Und so weiter für m ≥ 3. Perfektionisten
können so einen induktiven Beweis führen.
Korollar 2.2.
Sei A = B, n := |A|. Die Anzahl der Bijektionen f : A → A ist n!.
Permutationen der Zahlen INn := {1, 2, . . . , n} sind die bijektiven Abbildungen von INn
auf sich. Also folgt aus Korollar 2.2
3
Korollar 2.3.
Es gibt n! Permutationen der Zahlen {1, 2, . . . , n}.
Beispiel 2.1
Es sei {a, b, . . . , z} die Menge aller n = 26 Buchstaben (ohne ä,ö,ü,ß). Dann gibt es
offenssichtlich 263 Buchstabenfolgen der Länge 3. Wieviele davon bestehen aus 3 verschiedenen Buchstaben ?
Wir wenden Satz 2.1 an für A := {1, 2, 3} und B := {a, b, . . . , z}. Dann ist m := |A| = 3
und n := |B| = 26. Die Anzahl der Injektionen von A nach B ist n(n−1)(n−2) = 26∗25∗24.
§3. Die Siebformel
Eine wichtige Formel der Kombinatorik ist die Siebformel.
Satz 3.1. (Siebformel)
Es sei Ω eine endliche Menge, sowie Ω1 , . . . , Ωn nichtleere Teilmengen von Ω, so dass
Ω :=
n
[
Ωj .
j=1
Wir schreiben I := {1, 2, . . . , n}. Dann ist
\ X
Ωj = 0.
|Ω| +
(−1)|J| j∈J
J6=∅: J⊆I
Wir wollen die Siebformel nicht beweisen, sondern uns mit Beispielen begnügen.
Beispiel 3.1. Es seien Ω1 und Ω2 nichtleere Teilmengen der endlichen Menge Ω, wobei
Ω = Ω1 ∪ Ω2 . Nach der Siebformel mit I = {1, 2} ist dann
|Ω| − |Ω1 | − |Ω2 | + |Ω1 ∩ Ω2 | = 0.
Beispiel 3.2. Es seien Ω1 , Ω2 , Ω3 nichtleere Teilmengen der endlichen Menge Ω, wobei
Ω = Ω1 ∪ Ω2 ∪ Ω3 . Nach der Siebformel mit I = {1, 2, 3} ist dann
|Ω| − |Ω1 | − |Ω2 | − |Ω3 | + |Ω1 ∩ Ω2 | + |Ω1 ∩ Ω3 | + |Ω2 ∩ Ω3 |
− |Ω1 ∩ Ω2 ∩ Ω3 | = 0.
Beispiel 3.3. An einem Tanzkurs nehmen n Ehepaare teil. Damit die Ehepaare nicht
immer nur miteinander tanzen, werden die Tanzpaare ausgelost. Beweisen Sie : Die
Wahrscheinlichkeit, dass kein einziges Ehepaar zusammentanzt, ist gegeben durch
pn :=
n
X
(−1)k
k=0
4
k!
.
Beweis. Es sei Ω∗ die Menge aller Permutationen der Zahlen 1, 2, . . . , n. Wir wählen in
Satz 3.1
Ωj = {ω = (i1 , i2 , . . . , in ) ∈ Ω∗ : ij = j}, j = 1, . . . , n.
Es bedeute ω ∈ Ωj , dass das Ehepaar Nr. j miteinander tanzt. Dann ist Ω := ∪nj=1 Ωj
die Menge aller Permutationen, in der mindestens ein Ehepaar miteinander tanzt. Für
I := {1, 2, . . . , n} und J ⊆ I ist
\ Ωj = (n − |J|)!.
j∈J
Außerdem gibt es
n
k
Teilmengen J ⊆ I mit |J| = k. Daher folgt aus Satz 3.1, dass
n
n
X
X
n!
k n
(n − k)! =
(−1)k+1 .
|Ω| = −
(−1)
k
k!
k=1
k=1
Da es n! Permutationen der Zahlen 1, 2, . . . , n gibt, ist
n
n
k=1
k=0
X
X (−1)k
n! − |Ω|
1
pn =
=1−
(−1)k+1 =
,
n!
k!
k!
q.e.d
Zum Abschluß dieses Paragraphen wollen wir nun die Anzahl der surjektiven Abbildungen
f : A → B zählen.
Satz 3.2.
Seien A und B endliche Mengen mit m := |A|, n := |B|, sowie n ≤ m. Die Anzahl Sm,n
der surjektiven Abbildungen von A nach B ist
n
X
n−k n
km .
(−1)
Sm,n =
k
k=1
Beweis. Sei B = {b1 , . . . , bn }, I = {1, . . . , n}. Wir definieren die Mengen
Ωj := {f : A → B : {bj } 6∈ f (A)},
sowie Ω :=
Sn
j=1
Ωj . Für J ⊆ I ist
\
Ωj = {f : A → B : f (A) ⊆
j∈J
T
so dass j∈J Ωj = (n − |J|)m . Zu J ⊆ I gibt es
Daher ergibt die Siebformel
|Ω| = −
X
J⊆I
(−1)
j = 1, . . . , n,
[
j∈I,j6∈J
n
k
{bj }},
Teilmengen J ⊆ I mit |J| = k.
n
\ X
k n
(n − k)m .
(−1)
Ωj = −
k
|J| j∈J
k=1
5
Es ist f : A → B surjektiv genau dann, wenn f 6∈ Ω. Also ist
Sm,n
n
X
k n
m
(n − k)m
(−1)
= {f : A → B} − |Ω| = n +
k
k=1
n−1
n−1
X
X
n
n−j n
m
m
m
k
nm
(−1)
(n − k) = n +
=n +
(−1)
j
n−k
j=1
k=1
§4. Beispiele aus der Diskreten Wahrscheinlichkeitsrechnung
In der diskreten Stochastik ist der Ereignisraum Ω eine endliche oder abzählbar unendliche Menge. In der kontinuierlichen Stochastik ist Ω überabzählbar. Die Wahrscheinlichkeit P (Ω) von Ω wird stets durch P (Ω) = 1 festgelegt ( P : probability).
In Kapitel 2 und Kapitel 3 werden wir tiefer in die Theorie der Diskreten Stochastik
einsteigen.
Definition.
Sei Ω endlich oder abzählbar unendlich. Dann heißt jede Teilmenge A von Ω ein Ereignis.
In diesem Paragraphen soll Ω = {ω1 , . . . , ωn } endlich sein, und die Elementarereignisse
ω1 , . . . , ωn sollen gleichwahrscheinlich sein, also P (ωj ) = 1/n, j = 1, . . . , n. Dann gilt
für alle Ereignisse A, dass P (A) = |A|/n (Wahrscheinlichkeit oder relative Häufigkeit des
Ereignisses A).
Beispiel 4.1 (Zahlenlotto)
Ein Spieler gibt einen Lottotip bestehend aus 6 verschiedenen Zahlen aus {1, 2, . . . , 49} ab.
Wie groß ist die Wahrscheinlichkeit, dass er einen Vierer hat ?
Wir können annehmen, dass die Zahlen {1, 2, 3, 4, 5, 6} gewinnen. Es ist
Ω = {ω : ω ⊆ {1, 2, . . . , 49}, |ω| = 6}.
Wir wissen, dass |Ω| = 49
ist. Der Spieler hat genau dann einen Vierer,
6 = 13.983.816
6
wenn vier der Zahlen {1, . . . , 6} ( = 4 Möglichkeiten) und zwei der Zahlen {7, 8, . . . , 49}
43
6
( = 43
2 Möglichkeiten) gewählt hat. Dies sind also 4 ∗ 2 mögliche Lottotips, die einen
Vierer gewinnen. Also ist die Wahrscheinlichkeit
43
6
∗ 2
4
= 0.000969.
49
6
In dieser Weise können wir auch beantworten, wie groß die Wahrscheinlichkeit ist,
q ∈ {0, 1, 2, 3, 4, 5, 6} richtige Zahlen zu haben :
6
43
∗
q
6−q
.
49
6
6
q = 0 : 0.436
q = 1 : 0.413
q = 2 : 0.132
q = 3 : 0.0177
q = 4 : 0.000969
q = 5 : 0.0000184
q = 6 : 0.0000000715 = 1/|Ω|
Beispiel 4.2
Wie groß ist die Wahrscheinlichkeit, dass beim Skat der Spieler 1 alle vier Buben erhält ?
Wir nummerieren die Karten von 1 bis 32 durch und geben den Buben die Nummern 1, 2,
3, 4. Es ist (bezogen auf den Spieler 1)
Ω = {ω : ω ⊆ {1, 2, . . . , 32}, |ω| = 10}.
Wir wissen, dass |Ω| = 32
ist. Aber in wieviel 10-er Mengen ist {1, 2, 3, 4} enthalten?
10
Dies sind alle 10-er Mengen, in denen
aus den Zahlen {5, . . . , 32} genau 6 beliebig gewählt
werden können, als insgesamt 28
.
6
Ergebnis : Die Wahrscheinlichkeit ist
28
6
32
10
=
10 · 9 · 8 · 7
= 0.00586.
32 · 31 · 30 · 29
Manchmal ist es bequemer, nicht mit Mengen, sondern mit endlichen Folgen zu rechnen : Dann interpretieren wir das Austeilen der Karten als eine Permutation der Zahlen
{1, 2, . . . , 32}, die ersten 10 Zahlen der Permutation als die Karten von Spieler 1. Es gibt
32! Permutationen. Es gibt 10 · 9 · 8 · 7 · 28! Permutationen, bei denen die Zahlen 1, 2, 3, 4
unter den ersten 10 Zahlen auftauchen. Also ist die gesuchte Wahrscheinlichkeit
10 · 9 · 8 · 7
10 · 9 · 8 · 7 · 28!
=
.
32!
32 · 31 · 30 · 29
7
Kapitel 2 : Wahrscheinlichkeitsrechnung
§1 Wahrscheinlichkeit
Der Begriff der Wahrscheinlichkeit ist grundlegend zur Erfassung und Beschreibung
”zufälliger Vorgänge”. Denken wir an einen Zahlenwürfel mit den Zahlen Ω = {1, 2, . . . , 6}
(Sechserwürfel). Wir sagen : ”Die Wahrscheinlichkeit, eine Zahl j ∈ Ω zu würfeln, ist
P ({j}) = 1/6”. Dies bedeutet zum Beispiel, dass wir bei n Würfen erwarten, dass die
Anzahl n1 von Einsern ungefähr n/6 ist. Oder genauer, dass die relative Häufigkeit
n1 /n die Bedingung
1
n1
lim
=
n→∞ n
6
erfüllt.
Ausgehend von diesem Beispiel wollen wir nun in die Theorie der Wahrscheinlichkeiten
eindringen..
Definition (W-Raum)
Es sei Ω eine nichtleere endliche oder abzählbare Menge. Es sei P : Ω → IR eine Abbildung,
so dass
P
P (ω) ≥ 0 für alle ω ∈ Ω, sowie ω∈Ω P (ω) = 1 ist.
Es wird P fortgesetzt (erweitert) zu einer Abbildung P : 2Ω → IR durch P (∅) := 0 und
P (A) :=
X
ω∈A
P (ω) für alle A ⊆ Ω.
Dann heißt das Paar (Ω, P ) diskreter Wahrscheinlichkeitsraum , kurz W-Raum.
Jedes ω ∈ Ω heißt Elementarereignis. Die Teilmengen A ⊆ Ω heißen Ereignisse der
Wahrscheinlichkeit P (A). Die Abbildung P : 2Ω → IR heißt Verteilung oder
Wahrscheinlichkeitsmaß.
Wir prüfen sofort nach, dass in einem diskreter Wahrscheinlichkeitsraum (Ω, P ) die folgenden Axiome von Kolmogorov gelten :
(a) 0 ≤ P (A) ≤ 1, A ⊆ Ω,
(b) P (Ω) = 1,
(c) Sei J ⊆ IN eine endliche oder unendliche Indexmenge. Für paarweise disjunkte
Ereignisse (Aj )j∈J gilt
[ X
P
Aj =
P (Aj ).
j∈J
j∈J
8
Beispiel 1.1
Das Kartenspiel K1 enthält 32 Karten, darunter 4 Asse, das Kartenspiel K2 nur 12 Karten,
darunter ebenfalls 4 Asse. Eine Spieler würfelt mit einem Sechser-Würfel. Würfelt er
eine 6, so zieht er eine Karte aus K2 , ansonsten eine Karte aus K1 . Wie groß ist die
Wahrscheinlichkeit, dass er ein Ass zieht ?
Lösung: Es bezeichne A1 die Menge der 4 Asse in K1 , A2 die Menge der 4 Asse in K2 .
Es sei Ω := K1 ∪ K2 . Wir zerlegen Ω in die 4 disjunkte Teilmengen,
K1 = A1 ∪ (K1 \ A1 ) ,
K2 = A2 ∪ (K2 \ A2 ).
Also gilt
5
= P (K1 ) = P (A1 ) + P (K1 \ A1 ) ,
6
1
= P (K2 ) = P (A2 ) + P (K2 \ A2 ),
6
und somit
P (A) = P (A1 ) + P (A2 ) =
1 4
5 4
·
+ · .
6 32 6 12
Siehe auch den Zusammenhamg der letzte Zeile mit der bedingten Wahrscheinlichkeit
und der stochastischen Unabhängigkeit des nächsten Paragraphen.
§2 Bedingte Wahrscheinlichkeit
Beispiel 2.1
Wir würfeln nun gleichzeitig mit zwei Sechserwürfeln und addieren die Zahlen. Das Ergebnis jedes Wurfes ist eine der natürlichen Zahlen 2 ≤ x ≤ 12.
1. Welche relative Häufigkeit der Zahl x = 8 erwarten wir bei vielen Würfen ?
2. Welche relative Häufigkeit der Zahl x = 8 erwarten wir unter der Nebenbedingung,
dass bei einem der beiden Würfel die Zahl 5 oder 6 auftaucht ?
Antwort zu 1.:
Es ist Ω = {(j, k) : 1 ≤ j, k ≤ 6}, also |Ω| = 36, sowie
A = {(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}, also |A| = 5 und P (A) = 5/36.
Antwort zu 2.
Es ist
B = {(5, 1), . . . , (5, 6), (6, 1), . . . , (6, 6), (1, 5), (2, 5), (3, 5), (4, 5), (1, 6), (2, 6), (3, 6), (4, 6)}
also |B| = 20, |A ∩ B| = 4, sowie P (A|B) = 4/20.
In Beispiel 2.1 wird nach der Wahrscheinlichkeit P (A|B) des Ereignisses A gefragt unter
der Zusatzbedingung, dass das Ereignis B eingetreten ist. Allgemein definieren wir
9
Definition (Bedingte Wahrscheinlichkeit)
Es sei (Ω, P ) ein W-Raum. Sei B ⊆ Ω ein Ereignis mit P (B) > 0. Dann heißt
P (A|B) := PB (A) :=
P (A ∩ B)
,
P (B)
A ⊆ Ω,
die bedingte Wahrscheinlichkeit des Ereignisses A unter Annahme B.
Wir prüfen schnell nach, dass (Ω, PB ) ebenfalls ein W-Raum ist.
Definition (Stochastische Unabhängigkeit)
Es sei (Ω, P ) ein W-Raum. Zwei Ereignisse A, B ⊆ Ω heißen stochastisch unabhängig,
falls
P (A ∩ B) = P (A)P (B).
Ist P (B) > 0, so sind die Ereignisse A und B stochastisch unabhängig genau dann, wenn
P (A|B) = P (A).
§3 Satz von Bayes
Satz 3.1. ( Formel von Bayes)
Es sei (Ω, P ) ein W-Raum. Sei B ⊆ Ω mit P (B) > 0. Seien A1 , . . . , Am paarweise disjunkte
Ereignisse mit P (Aj ) > 0, j = 1, . . . , m. Außerdem gelte
m
[
B⊆
Aj .
j=1
Dann gilt die Formel von Bayes
P (Ak )P (B|Ak )
P (Ak |B) = Pm
j=1 P (Aj )P (B|Aj )
für k = 1, . . . , m.
Beweis. Da die Mengen Aj , j = 1, . . . , m, paarweise disjunkt sind, sind auch die Ereignisse
B ∩ Aj , j = 1, . . . , m, paarweise disjunkt, und es ist
B=
m
[
j=1
und daher
P (B) =
m
X
j=1
(B ∩ Aj ),
P (B ∩ Aj ) =
10
m
X
j=1
P (Aj )P (B|Aj ),
(3.1)
Des weiteren ist nach Definition der bedingten Wahrscheinlichkeit
P (Ak |B) =
P (Ak ∩ B)
P (B ∩ Ak )
P (Ak )P (B|Ak )
=
=
.
P (B)
P (B)
P (B)
Setzen wir (3.1) im Nenner ein, so erhalten wir die Formel von Bayes
Ein erste Anwendung des Satzes von Bayes zeigen wir in
Beispiel 3.1 (diagnostischer Test, siehe Stahel[1999] , 86d)
Ein bekannter Test auf HIV-Infektion ist der ELISA-Test. Infizierte überschreiten einen
gewissen Grenzwert mit der Wahrscheinlichkeit 90%, Gesunde mit der Wahrscheinlichkeit
2%. In einer getesteten Personengruppe Ω betrage der Anteil der Infizierten 1%. Wie
groß ist die Wahrscheinlichkeit, dass eine Testperson tatsächlich Infizierter ist, wenn er als
Virusträger getestet wurde ?
Antwort: Es sei Ω die Menge aller getesteten Personen. Es sei A1 ⊂ Ω die Menge aller
Infizierten, A2 := Ω \ A1 die Menge aller Gesunden, sowie B die Personen mit positivem
Testresultat (Grenzwert überschritten). Gegeben sind die Werte
P (B|A1 ) = 0.9 , P (B|A2 ) = 0.02 , P (A1 ) = 0.01.
Nach der Formel von Bayes ist
P (A1 |B) =
P (A1 )P (B|A1 )
0.01 · 0.9
0.009
=
=
= 0.31.
P (A1 )P (B|A1 ) + P (A2 )P (B|A2 )
0.01 · 0.9 + 0.99 · 0.02
0.0288
Das heißt : Bei einem positiven Befund ist die Wahrscheinlichkeit nur 31%, dass die
Testperson tatsächlich infiziert ist.
Aus der letzten Formel können wir ablesen, dass die Wahrscheinlichkeit P (A1 |B) nur dann
wesentlich erhöht wird, wenn die Wahrscheinlichkeit 2% für Gesunde deutlich verkleinert
wird.
Ein zweite Anwendung des Satzes von Bayes ist
Beispiel 3.2 (diagnostischer Test, siehe Christian Hesse : Warum Mathematik glücklich
macht. Verlag C.H.Beck, 2010)
Die Wahrscheinlichkeit, dass eine 50-jährige Frau Brustkrebs hat, ist etwa 0.8%.
Die Wahrscheinlichkeit, dass das Mammogramm einer Patientin positiv ist, wenn sie
Brustkrebs hat, liegt bei etwa 90%.
Die Wahrscheinlichkeit, das das Mammogramm einer Patientin positiv ist, obwohl sie
keinen Brustkrebs hat, liegt bei etwa 7%.
Wie groß ist die Wahrscheinlichkeit, dass eine Patientin tatsächlich Brustkrebs hat, wenn
ihr Mammogramm positiv ist ?
11
Antwort: Es sei Ω die Menge aller 50-jhrigen Patientinnen, die sich dem Test unterziehen.
Es sei A1 ⊂ Ω die Menge aller Kranken, A2 := Ω \ A1 die Menge aller Gesunden, sowie B
die Patientinnen mit positivem Mammogramm. Gegeben sind die Werte
P (B|A1 ) = 0.9 , P (B|A2 ) = 0.07 , P (A1 ) = 0.008.
Nach der Formel von Bayes ist
P (A1 |B) =
P (A1 )P (B|A1 )
0.008 · 0.9
=
= 0.094
P (A1 )P (B|A1 ) + P (A2 )P (B|A2 )
0.008 · 0.9 + 0.992 · 0.07
Das heißt : Bei einem positiven Befund ist die Wahrscheinlichkeit nur etwa 9%, dass die
Patientin tatsächlich Brustkrebs hat.
Wenn alle Kranken positiv getestet würden, also wenn P (B|A1 ) = 1.0 wäre, so wäre
P (A1 |B) =
0.008 · 1.0
P (A1 )P (B|A1 )
=
= 0.103,
P (A1 )P (B|A1 ) + P (A2 )P (B|A2 )
0.008 · 1.0 + 0.992 · 0.07
also auch nur 10%.
Um das Ergebnis von Beispiel 3.2 besser zu verstehen, nehmen wir an, dass 10.000 Personen
getestet wurden. Dies führt zu (ungefähr) folgenden Zahlen :
80 Kranke, davon 72 positiv getestet,
9.920 Gesunde, davon 694 positiv getestet,
also 766 positiv getestete Personen
Also ist die Wahrscheinlichkeit positiv getestet und krank zu sein gleich
72 : 766 = 0.094, also gleich 9.4%.
12
§4 Zufallsvariable
Definition
Es sei (Ω, P ) ein W-Raum. Jede Abbildung X : Ω → IR heißt Zufallsvariable.
Vereinbarung :
Statt P ({ω : X(ω) = r}) schreiben wir kurz P [X = r],
statt P ({ω : r1 ≤ X(ω) ≤ r2 }) schreiben wir P [r1 ≤ X ≤ r2 ], u.s.w.
Insbesondere wird jeder Zahl r aus dem Bildbereich WX := {X(ω) : ω ∈ Ω} von X
durch P [X = r] eine Wahrscheinlichkeit zugeordnet. Also kann P aufgefaßt werden als
Abbildung P [X = ·] : WX → IR. Daher die Bezeichnung Zufallsvariable für X. Oder
auch als Abbildung P [X = ·] : IR → IR mit P [X = r] := 0 für r 6∈ WX .
Beispiel 4.1
(a) Beim Würfeln wollen wir die Anzahl der Sechser zählen. Daher wählen wir Ω =
{1, 2, 3, 4, 5, 6} und die Zufallsvariable X : Ω → IR, X(6) = 1, X(j) = 0 sonst. Und es
ist P [X = 0] = 5/6, P [X = 1] = 1/6.
(b) Würfeln wir zweimal, dann ist P [X = 0] = 25/36, P [X = 2] = 1/36, P [X = 1] =
10/36 .
(c) Würfeln wir n-mal, so finden Sie die Antwort im nächsten Beispiel 4.2.
Im folgenden Beispiel lernen wir die Binomialverteilung kennen. Diese und die Normalverteilung spielen in den Anwendungen eine hervorragende Rolle.
Beispiel 4.2 (Binomialverteilung)
Es sei Ω∗ = {A, B} und P (A) = p, P (B) = 1 − p.
(Im Beispiel 4.1 ist A = {6}, B = {1, 2, 3, 4, 5} und p = 1/6.)
Führen wir das Experiment mit den beiden Ausgängen A und B n-mal durch, so können
wir dies beschreiben durch Ω := (Ω∗ )n und die n Zufallsvariablen
Xj : Ω → IR, j = 1, . . . , n, die definiert sind wie folgt :
Zu ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω ist
Xj (ω) =
1, falls ωj = A,
0, falls ωj = B,
und somit P [Xj = 1] = p, P [Xj = 0] = 1 − p.
Deren Summe X := X1 + · · · + Xn : Ω → IR ist die Zufallsvariable, für die P [X = k]
die Wahrscheinlichkeit ist, dass bei n unabhängigen Experimenten das Ergebnis A k-mal
auftritt. Es ist
n k
p (1 − p)n−k , k = 0, . . . , n.
(4.1)
P [X = k] =
k
Beweis der Formel (4.1) :
Sei k ∈ {0, 1, 2, . . . , n} . Jedes n-Tupel ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω, für das genau k der ωi
13
gleich A ist, hat die Wahrscheinlichkeit pk (1 − p)n−k . Es gibt genau
Also gilt die Formel (4.1)
n
k
solche n-Tupel.
Beachten Sie, dass nach der binomischen Formel
n
X
k=0
P [X = k] =
n X
n
k=0
k
pk (1 − p)n−k = p + (1 − p)
n
= 1.
Definition
Es sei (Ω, P ) ein W-Raum. Sei X : Ω → IR eine Zufallsvariable. Man nennt die Abbildung
F : IR → [0, 1], definiert durch
F (r) := P [X ≤ r],
r ∈ IR,
die Verteilungsfunktion ( kurz Verteilung) von X.
Definition
Es sei (Ω, P ) ein W-Raum. Sei X : Ω → IR eine Zufallsvariable. Dann heißt die Zahl
X
E(X) :=
X(ω)P (ω)
ω∈Ω
der Erwartungswert (der Verteilung) von X.
Beachte, dass E : {X : Ω → IR} → IR ein lineares Funktional (= linearer Operator mit
Bildbereich in IR) ist. Das heißt, für Zufallsvariable X1 , X2 und α, β ∈ IR gilt
E(αX1 + βX2 ) = αE(X1 ) + βE(X2 ).
Definition
Es sei (Ω, P ) ein W-Raum. Sei X : Ω → IR eine Zufallsvariable mit Erwartungswert
µ := E(X). Dann heißt die Zahl
V (X) := E((X − µ)2 )
p
die Varianz (der Verteilung) von X. Deren Wurzel, V (X), nennt man Standardabweichung (der Verteilung) von X. Sie ist ein Maß für die Streuung von X.
Der Erwartungswert E(X) und die Varianz V (X) sind (theoretische) Kennzahlen der
Verteilung F von X. Später werden wir die hierzu erwartungstreuen (empirischen) Kennzahlen von Stichproben definieren.
Aus der obigen Definition des Erwartungswertes E(X) gewinnen wir im nächsten Satz eine
andere Formel für E(X), die später sehr wichtig sein wird. Denn sie benutzt nur die Werte
von X und deren Wahrscheinlichkeiten, nicht aber den W-Raum (Ω, P ).
14
Satz 4.1.
Es sei (Ω, P ) ein W-Raum. Die Zufallsvariable X : Ω → IR habe den Bildbereich WX :=
{X(ω) : ω ∈ Ω}. Dann ist
X
E(X) =
rP [X = r]
r∈WX
Die Varianz ist daher
X
V (X) =
r∈WX
(r − E(X))2 P [X = r].
Beweis. Selbst überlegen.
Zur Berechnung der Varianz V (X) ist oft folgende Formel wichtig :
Satz 4.2. ( Steinersche Formel)
Sei V (X) > 0. Dann gilt
V (X) = E(X 2 ) − (E(X))2.
Beweis. Es bezeichne µ := E(X). Dann ist
V (X) =
X
ω∈Ω
=
X
ω∈Ω
=
X
ω∈Ω
(X(ω) − µ)2 P (ω)
X(ω)2 − 2µX(ω) + µ2 P (ω)
X(ω)2 P (ω) − 2µ
2
2
X
X(ω)P (ω) + µ2
ω∈Ω
2
X
P (ω)
ω∈Ω
2
2
=E(X ) − 2µ + µ = E(X ) − µ .
Also gilt Satz 4.2.
Zu Beispiel 4.2 :
Der Erwartungswert der Xj ist
E(Xj ) = pXj (A) + (1 − p)Xj (B) = p · 1 = p.
Da der Erwartungswert E ein linearer Operator ist, ist
E(X) = E(X1 + X2 + · · · + Xn ) =
n
X
E(Xj ) = np.
j=1
Wer dieser Herleitung nicht traut, kann auch nachrechnen, dass
E(X) =
n
X
k=0
n
X
n k
p (1 − p)n−k = np.
k
kP [X = k] =
k
k=0
15
Die Varianz der Xj ist nach der Steinerschen Formel
V (Xj ) = E(Xj2 ) − E(Xj )2 = p − p2 = p(1 − p).
Folglich ist nach Satz 5.1 des nächsten Paragraphen (da die Zufallsvariablen X1 , . . . , Xn
stochastisch unabhängig sind)
V (X) = np(1 − p).
Auch hier können Mißtrauische nachrechnen, dass
V (X) =
=
n
X
k=0
n
X
k=0
(k − E(X))2P [X = k]
n k
p (1 − p)n−k = np(1 − p).
(k − np)
k
2
Beispiel 4.3 (Multinomialverteilung)
Ein Experiment habe drei mögliche Ergebnisse Ω∗ = {A, B, C}, die mit den Wahrscheinlichkeiten p1 , p2 , 1 − p1 − p2 eintreten (p1 > 0, p2 > 0, p1 + p2 < 1). Das Experiment
werde n-mal durchgeführt mit dem Ergebnis
ω = (ω1 , ω2 , . . . , ωn ),
ωi ∈ Ω ∗ ,
i = 1, . . . , n.
Dann gilt :
(a) Die Wahrscheinlichkeit P (ω) für ein ω = (ω1 , ω2 , . . . , ωn ) ist gegeben durch
P (ω) = pj1 pk2 (1 − p1 − p2 )n−j−k ,
falls in ω = (ω1 , ω2 , . . . , ωn ) das Ergebnis A j-mal, das Ergebnis B k-mal, das
Ergebnis C (n − j − k)-mal auftritt.
(b) Die Wahrscheinlichkeit, dass nach n Experimenten das Ergebnis A j-mal, das Ergebis B k-mal, das Ergebnis C (n − j − k)-mal auftritt, ist gegeben durch
n!
pj pk (1 − p1 − p2 )n−j−k ,
j!k!(n − j − k)! 1 2
0 ≤ j + k ≤ n.
§5 Paare und Summen von Zufallsvariablen
In Anlehnung an die Definition der stochastischen Unabhängigkeit zweier Ereignisse in §2
definieren wir
Definition
Es sei (Ω, P ) ein W-Raum. Die Zufallsvariablen X1 , X2 , . . . , Xn : Ω → IR heißen
16
stochastisch unabhängig, falls für alle reelle Zahlen r1 , r2 , . . . , rn
n
Y
P [X1 = r1 , X2 = r2 , . . . , Xn = rn ] =
P [Xj = rj ]
j=1
erfüllt ist.
Etwas ausführlicher sieht diese letzte Gleichung so aus :
Es sei Aj := {ω ∈ Ω : Xj (ω) = rj }, j = 1, 2, . . . , n. Dann ist
P (A1 ∩ A2 ∩ · · · ∩ An ) =
n
Y
P (Aj ).
j=1
Aus der stochastischen Unabhängigkeit der Zufallsvariablen X1 , X2 , . . . , Xn : Ω → IR
folgt die Gleichung
P [a1 ≤ X1 ≤ b1 , a2 ≤ X2 ≤ b2 , . . . , an ≤ Xn ≤ bn ] =
n
Y
j=1
P [aj ≤ Xj ≤ bj ]
für alle reellen Zahlen aj ≤ bj , j = 1, . . . , n.
Wir prüfen schnell nach, dass die Zufallsvariablen Xj : Ω → IR, j = 1, . . . , n, in Beispiel
4.2 stochastisch unabhängig sind.
Satz 5.1.
Es sei (Ω, P ) ein W-Raum. Die Zufallsvariablen X1 , X2 , . . . , Xn : Ω → IR seien stochastisch
unabhängig. Für die Erwartungswerte und die Varianzen gilt
E(X1 + X2 + · · · + Xn ) =
E(X1 · X2 · · · Xn ) =
n
X
E(Xj ),
(5.1)
j=1
n
Y
E(Xj ),
(5.2)
j=1
sowie
V (X1 + X2 + · · · + Xn ) =
n
X
V (Xj ).
(5.3)
j=1
Beweis.
Die Gleichung (5.1) haben wir bereits bewiesen. Sie gilt sogar für stochastisch abhängige
Zufallsvariable.
Beweis von (5.2) im Falle n = 2:
17
Es ist nach Satz 4.1
E(X1 X2 ) =
X
rP [X1 X2 = r] =
X
X
X
r1 r2 P [X1 = r1 , X2 = r2 ]
r1 ∈WX1 r2 ∈WX2
r∈WX1 X2
=
X
r1 r2 P [X1 = r1 ]P [X2 = r2 ]
r1 ∈WX1 r2 ∈WX2
=
X
r1 ∈WX1
r1 P [X1 = r1 ]
X
r2 P [X2 = r2 ] = E(X1 )E(X2 ).
r2 ∈WX2
Beweis von (5.3) im Falle n = 2:
Wir beweisen nun (5.3) im Falle n = 2 : Unter Verwendung der Steinerschen Formel
(angewendet auf die Zufallsvariable X1 + X2 ) ist
V (X1 + X2 ) = E((X1 + X2 )2 ) − (E(X1 + X2 ))2
= E(X12 + 2X1 X2 + X22 ) − (E(X1 ) + E(X2 ))2
= E(X12 ) + 2E(X1 X2 ) + E(X22 ) − (E(X1 ) + E(X2 ))2
= E(X12 ) + 2E(X1 )E(X2 ) + E(X22 ) − (E(X1 ) + E(X2 ))2
= E(X12 ) − (E(X1 ))2 + E(X22 ) − (E(X2 ))2 = V (X1 ) + V (X2 ),
Definition
Es sei (Ω, P ) ein W-Raum. Zu zwei Zufallsvariablen X, Y : Ω → IR mit den Erwartungswerten µ1 bzw. µ2 heißt
cov(X, Y ) := E (X − µ1 )(Y − µ2 )
die Kovarianz (der Verteilungen) von X und Y .
Offensichtlich ist wegen E(X + Y ) = E(X) + E(Y ) = µ1 + µ2
V (X + Y ) = E (X + Y − µ1 − µ2 )2 = V (X) + V (Y ) + 2cov(X, Y ).
Die Korrelation (der Verteilungen) von X und Y ist definiert durch
corr(X, Y ) := p
cov(X, Y )
.
V (X) · V (Y )
Zeigen Sie, dass immer −1 ≤ corr (X, Y ) ≤ 1 gilt. Hängen X und Y linear von einander
ab, etwa Y = aX + b mit a, b ∈ IR, dann gilt corr(X, Y ) = 1, falls a positiv ist, sowie
corr(X, Y ) = −1, falls a negativ ist.
18
Es folgt aus Satz 5.1 für unabhängige Zufallsvariable X, Y , dass cov(X, Y ) = 0 und
somit auch corr(X, Y ) = 0 sind. Im nächsten Beispiel lernen wir ein Paar stochastisch
abhängiger Zufallsvariablen X, Y kennen, für die corr(X, Y ) = 0 gilt. Also sind unkorrelierte Zufallsvariable X, Y : Ω → IR nicht notwendig stochastisch unabhängig. Denn
corr berücksichtigt nur die lineare Komponente der Abhängigkeit.
Beispiel 5.1
Es sei Ω ⊂ Z2 gegeben durch
Ω := {(j, k) : k − 4 ≤ j ≤ 4 − k, k = 0, 1, 2, 3, 4}.
Also besteht Ω aus |Ω| = 25 Punkten. Es sei P : Ω → IR die Gleichverteilung, also
P (ω) = 1/25, ω ∈ Ω. Die Zufallsvariablen X, Y : Ω → IR seien definiert durch
X(j, k) := j , Y (j, k) := k , (j, k) ∈ Ω.
Dann ist corr(X, Y ) = 0, aber X, Y sind stochastisch abhängig.
Beweis. Es ist
X k
X j
7∗1+5∗2+3∗3+1∗4
6
= 0 , E(Y ) =
=
=
E(X) =
25
25
25
5
(j,k)∈Ω
(j,k)∈Ω
und daher
6
cov(X, Y ) = E(X ∗ (Y − )) = 0
5
aus Gründen der Symmetrie bezüglich der y-Achse. Aber X und Y sind nicht stochastisch
unabhängig : z.B. gilt für r1 = r2 = 1, dass
P [X = 1] =
4
,
25
P [Y = 1] =
7
,
25
P [X = 1, Y = 1] =
1
4∗7
6=
.
25
25 ∗ 25
§6 Diskrete Verteilungsfamilien
1. Gleichverteilung, Laplacescher W-Raum
Sei Ω eine endliche Menge und P (ω) = 1/|Ω|, ω ∈ Ω. Dann heißt P : Ω → IR die
Gleichverteilung, und (Ω, P ) heißt Laplacescher W-Raum.
2. Bernoulli-Verteilung
Es sei Ω = {0, 1} und p ∈ IR, wobei 0 ≤ p ≤ 1. Sei P (0) = 1 − p, P (1) = p. Dann
heißt P Bernoulli-Verteilung zum Parameter p.
3. Binomialverteilung
Sei n ∈ IN, 0 < p < 1. Nach Beispiel 4.2 heißt eine Zufallsvariable X binomialverteilt, in Zeichen X ∼ B(n, p), falls
n k
p (1 − p)n−k , k = 0, 1, . . . , n,
P [X = k] =
k
mit E(X) = np und V (X) = np(1 − p)
19
Satz 6.1.
Es seien 0 < p < 1, m ∈ IN, n ∈ IN. Es seien X ∼ B(m, p) und Y ∼ B(n, p) binomialverteilte Zufallsvariable. Sind X und Y stochastisch unabhängig, dann gilt
X + Y = B(m + n, p).
Beweis. Es gilt
P [X + Y = k] =
k
X
j=0
P [X = j, Y = k − j],
0 ≤ k ≤ m + n,
und daher wegen der stochastischen Unabhängigkeit von X und Y
P [X + Y = k] =
k
X
j=0
P [X = j] P [Y = k − j],
0 ≤ k ≤ m + n.
(6.1)
Hieraus folgt
k X
n
m j
m−j
pk−j (1 − p)n−k+j
p (1 − p)
P [X + Y = k] =
k
−
j
j
j=0
k
= p (1 − p)
=
m+n−k
k X
n
m
k−j
j
j=0
m+n k
p (1 − p)m+n−k .
k
4. Geometrische Verteilung
Sei 0 ≤ p ≤ 1. Eine Zufallsvariable X heißt geometrisch verteilt zum Parameter p,
falls
P [X = k] = p · (1 − p)k−1 , k ∈ IN.
Dieser W-Raum beschreibt ”das Warten auf den ersten Erfolg”.
Beispiel 6.1 (W.A.Stahel, S.102)
Beim russischen Roulette wird ein Trommelrevolver mit sechs Patronenlagern mit einer
einzigen Kugel geladen. Jeder “Mitspieler” dreht mehrfach die Trommel bevor er abdrückt.
Wie groß ist die Wahrscheinlichkeit, dass erst der k-te Spieler getroffen wird ?
Antwort : Es ist für p = 1/6
P [X = k] = p · (1 − p)k−1 ,
20
k = 1, 2, . . . .
5. Poisson-Verteilung (Poisson [1781-1840])
Es sei λ > 0. Eine Zufallsvariable X heißt poissonverteilt zum Parameter λ, falls
P [X = k] =
λk −λ
e ,
k!
k ∈ IN0 ,
in Zeichen X ∼ P(λ). Es ist E(X) = λ und V (X) = λ.
Beispiel 6.2 (W.A.Stahel, S.97)
Der Regen fällt gleichmäßig auf eine Region. Wir messen die Anzahl der Regentropfen pro
Zeiteinheit auf einer kleinen Fläche F der Größe λ. Wir nehmen an, dass auf einer Fläche
der Größe n, n sehr groß, pro Zeiteinheit n Tropfen fallen. Wie groß ist die Wahrscheinlichkeit, dass auf die Fläche F in der Zeiteinheit genau k Tropfen fallen ?
Lösung:
Die zugehörige Zufallsvariable X ist offensichtlich binomialverteilt, X ∼ B(n, λ/n), also
ist für k ∈ IN0
λ n−k
n λ k
1−
,
P [X = k] =
n
n
k
und somit für großes n
λ n n(n − 1) · · · (n − k + 1) λk 1−
1−
P [X = k] =
k!
nk
n
λk λ n n(n − 1) · · · (n − k + 1) =
1−
1−
k!
n
nk
λk −λ
→
e
für n → ∞.
k!
λ −k
n
λ −k
n
Zu Beispiel 6.2 : Es sei M > 0. Es fallen pro Zeiteinheit n Tropfen auf die Fläche der
Größe M n. Wie groß ist die Wahrscheinlichkeit, dass auf die Fläche F der Größe λ in der
Zeiteinheit genau k Tropfen fallen, wenn n sehr groß ist ?
Antwort: Die Zufallsvariable X ist binomialverteilt, X ∼ B(n, λ/(M n)), also ist für
k ∈ IN0
λ k n
λ n−k
P [X = k] =
1−
,
k
Mn
Mn
und somit für großes n
lim P [X = k] =
n→∞
mit E(X) =
λ
M
und V (X) =
λ
M.
21
(λ/M )k −λ/M
e
,
k!
Satz 6.2.
Es sei 0 < λ ≤ ρ. Es seien X ∼ P(λ) und Y ∼ P(ρ) zwei poissonverteilte stochastisch
unabhängige Zufallsvariable. Dann gilt
X + Y = P(λ + ρ).
Beweis in den Übungen.
Beispiel 6.3 (Asbestfasern) (W.A.Stahel, S.159 )
In drei Messungen mit gleichem Volumen V = 0.005 m3 werden die Anzahlen x1 = 6,
x2 = 4, sowie x3 = 9 von Asbestfasern gefunden.
Wahrscheinlichkeitsmodell: Wie in Beispiel 6.2 der Regentropfen fassen wir das
Auftreten einer Asbestfaser als ”Ereignis” auf. Wenn diese ”Ereignisse” unabhängig von
einander auftreten, dann eignet sich für die Anzahlen x1 , x2 , x3 der gezählten Fasern als
Modell die poissonverteilten Zufallsvariablen Xi ∼ P(λ), i = 1, 2, 3.
Sind X1 , X2 , X3 stochastisch unabhängig, so ist nach Satz 6.2
X := X1 + X2 + X3 ∼ P(3λ).
Der ”wahrscheinlichste” Wert für den Parameter λ ist wegen E(X) = 3λ gegeben durch
das arithmetische Mittel der Messungen, also
λ≈
6+4+9
x1 + x2 + x3
=
= 6.333.
3
3
Dies entspricht einer Konzentration von
ρ=
6.333
= 1267 m−3 .
3
0.005m
Mehr hierzu werden wir in Kapitel 3 über Statistik erfahren.
6. Multinomiale Verteilung
Ein Experiment habe m mögliche Ergebnisse A1 , A2 , . . . , Am , wobei dieP
Wahrscheinm
lichkeit, dass das Ergebnis Aj eintritt gleich pj ist, j = 1, . . . , m, mit j=1 pj = 1.
Das Experiment werde n-mal durchgeführt. Dann ist die Wahrscheinlichkeit, dass das
Ergebnis A1 k1 -mal, das Ergebnis A2 k2 -mal, . . ., das Ergebnis Am km -mal auftritt,
k1 + k2 + · · · + km = n, gegeben durch
P (n, k1 , k2 , . . . , km ) =
n!
pk11 pk22 · · · pkmm .
k1 !k2 ! · · · km !
22
§7 Die Normalverteilung
Die wichtigste stetige Verteilung ist die Normalverteilung Φ. Die Dichte der StandardNormalverteilung ist gegeben durch die ”Gaußsche Glockenkurve”
1 −t2
φ(t) = √ e 2 ,
2π
t ∈ IR.
Gib hier eine Skizze des Graphen von φ.
Unter Verwendung der Formel
Z
∞
2
e−t dt =
√
π
−∞
rechnen wir nach, dass
Z
∞
φ(t)dt = 1.
−∞
Es ist φ eine gerade Funktion mit den Werten
φ(0) = 0.399,
φ(±1) = 0.242,
φ(±2) = 0.054
Die Standard-normalverteilte Zufallsvariable X : IR → IR ist definiert durch ihre
Verteilungsfunktion Φ
Z x
φ(t)dt, x ∈ IR.
Φ(x) := P [X ≤ x] =
(7.1)
−∞
Wir schreiben X ∼ N (0, 1). Es folgt aus (7.1), dass
P [a ≤ X ≤ b] =
Z
b
φ(t)dt,
a
für das Intervall [a, b], a < b.
Gib hier eine Skizze des Graphen von Φ.
Es gilt Φ(−x) = 1 − Φ(x) für alle x ∈ IR. Insbesondere ist Φ(0) = 0.5 ,
Φ(1) = 0.841,
Φ(−1) = 0.159,
Φ(2) = 0.977, Φ(−2) = 0.023,
Φ(3) = 0.99865, Φ(−3) = 0.00135,
Φ(1.645) = 0.95,
Φ(2.58) = 0.995,
Φ(−1.645) = 0.05,
Φ(−2.58) = 0.005.
23
(7.2)
Ziehen wir Satz 4.1 zurate, so ist der Erwartungswert der Standard-Normalverteilung
gegeben durch
Z ∞
tφ(t)dt = 0,
µ := E(X) =
−∞
sowie deren Varianz durch
2
V (X) := E((X − µ) ) =
Z
∞
t2 φ(t)dt = 1.
−∞
Definition
Seien µ ∈ IR und σ > 0 gegeben. Wir sagen :
Eine Zufallsvariable X ist normalverteilt mit Erwartungswert E(X) = µ und Varianz
V (X) = σ 2 und schreiben X ∼ N (µ, σ 2 ), falls die Dichtefunktion gegeben ist durch
φµ,σ (t) := √
−(t−µ)2
1
e 2σ2 ,
2πσ
t ∈ IR.
Daher ist die zu X ∼ N (µ, σ 2 ) gehörende Verteilungsfunktion Φ gegeben durch
1
Φµ,σ (x) = √
2πσ
Z
x
e
−(t−µ)2
2σ 2
dt,
−∞
x ∈ IR,
und die Wahrscheinlichkeit P [a ≤ X ≤ b] , dass X ∼ N (µ, σ 2 ) die Werte in einem Intervall
[a, b] annimmt, ist gegeben durch
P [a ≤ X ≤ b] = Φµ,σ (b) − Φµ,σ (a).
(7.3)
Den Zusammenhang zwischen Φµ,σ und der Standard-Normalverteilung Φ zeigt
Satz 7.1.
Sei µ ∈ IR und σ > 0. Dann gilt
Φµ,σ (x) = Φ
x − µ
σ
für alle x ∈ IR.
Beweis. Durch die Substitution t = µ + σs, s ∈ IR, wird
1
Φµ,σ (x) = √
2πσ
Z
x
e
−∞
−(t−µ)2
2σ 2
1
dt = √
2π
was wir zeigen wollten.
24
Z
x−µ
σ
−∞
e
−s2
2
ds = Φ
x − µ
,
σ
Aus (7.3) und den Werten in (7.2) folgt daher für X ∼ N (µ, σ 2 ), dass
P [µ − σ ≤ X ≤ µ + σ] = 0.682,
P [µ − 2σ ≤ X ≤ µ + 2σ] = 0.954,
P [µ − 3σ ≤ X ≤ µ + 3σ] = 0.9973,
P [µ − 1.645 σ ≤ X ≤ µ + 1.645 σ] = 0.9,
(7.4)
P [µ − 2.58 σ ≤ X ≤ µ + 2.58 σ] = 0.99.
In den Anwendungen werden wir die Werte in (7.4) runden und verwenden, dass
P [|X − µ| ≥ σ] ≈ 0.32 (= 32 Prozent),
P [|X − µ| ≥ 2σ] ≈ 0.05 (= 5 Prozent),
P [|X − µ| ≥ 3σ] ≈ 0.003 (= 0.3 Prozent).
Satz 7.2.
Die Zufallsvariablen Xj ∼ N (µj , σj2 ), j = 1, . . . , n, seien stochastisch unabhängig. Dann
Pn
ist auch deren Summe X := j=1 Xj normalverteilt, X ∼ N (µ∗ , ρ2 ), wobei
∗
µ :=
n
X
µj
,
2
ρ =
n
X
σj2 .
j=1
j=1
Beweis. Nicht vortragen
Als Übungsaufgabe ist der Fall n = 2 mit X1 , X2 ∼ N (0, σ 2 ) geeignet.
Bemerkung : Bei kontinuierlichen Verteilungen müssen wir den Begriff der stochastischen
Unabhängigkeit des §5 erweitern :
Es heißen die Zufallsvariablen (Xk )nk=1 stochastisch unabhängig, wenn für alle Intervalle (Ik )nk=1 gilt :
P [X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In ] =
n
Y
k=1
P [Xk ∈ Ik ].
Sind zum Beispiel X1 und X2 stochastisch unabhängige Zufallsvariable mit den Dichtefunktionen φ1 : IR → IR bzw. φ2 : IR → IR, so besitzt (vergleiche Beweis von Satz 6.1)
die Zufallsvariable X + Y die Dichtefunktion
Z ∞
w(x) =
φ1 (t)φ2 (x − t)dt, x ∈ IR.
−∞
Unter Anwendung dieser Formel beweist man Satz 7.2 für n = 2 durch geschicktes
Nachrechnen. Für n ≥ 3 folgt ein Induktionsbeweis. Hierbei muß man beachten, dass
25
für k = 2, . . . , n die Zufallsvariablen X1 + · · · + Xk−1 und Xk stochastisch unabhängig
sind.
Korollar 7.3.
Sei µ ∈ IR, sowie σ > 0. Die Zufallsvariablen Xj ∼ N (µ, σ 2 ), j = 1, . . . , n, seien
stochastisch unabhängig. Für deren arithmetisches Mittel
n
1X
Xj
Sn :=
n j=1
2
gilt Sn ∼ N (µ, σn ), sowie Zn :=
√
n
Sn
σ
∼ N (0, 1). Daher gilt
h
σx i
P Sn − µ ≤ √ = P [Zn ≤ x] = Φ(x),
n
und somit auch
h ασ
βσ i
= Φ(β) − Φ(α),
P √ ≤ Sn − µ ≤ √
n
n
für alle x ∈ IR,
−∞ < α < β < ∞.
2
Beweis. Wir beweisen, dass Sn ∼ N (µ, σn ):
Da X := X1 + X2 + · · · + Xn ∼ N (nµ, nσ 2), folgt für alle x ∈ IR
Z nx
(t−nµ)2
1
P [Sn ≤ x] = P [X ≤ nx] = √ √
e 2nσ2 dt.
2π( nσ) −∞
Wir substituieren t = ns und erhalten
1
P [Sn ≤ x] = √
√
2π(σ/ n)
Z
x
e
(s−µ)2
2σ 2 /n
ds.
−∞
2
Also ist Sn ∼ N (µ, σn ).
§8 Der Zentrale Grenzwertsatz
Es sei (Ω, P ) ein W-Raum. Wir betrachten nun Folgen X1 , X2 , X3 , . . . : Ω → IR von
Zufallsvariablen, die alle die gleiche Verteilungsfunktion haben und somit alle denselben
Erwartungswert µ := E(Xj ) und dieselbe Varianz σ 2 := V (Xj ), j = 1, 2, . . ., besitzen.
Wir nehmen an, dass für alle n = 2, 3, . . . die Zufallsvariablen X1 , X2 , . . . , Xn stochastisch
unabhängig sind. Für n ∈ IN bilden wir die Zufallsvariable
n
1X
Xj ,
Sn :=
n j=1
26
das arithmetische Mittel von X1 , . . . , Xn . Wir wissen, dass
σ2
.
E(Sn ) = µ , V (Sn ) =
n
Hierbei folgt die zweite Gleichung aus Satz 5.1 wegen
V (Sn ) =
(8.1)
n
1
σ2
1 X
V
(X
)
=
V
(X
+
X
+
·
·
·
+
X
)
=
.
j
1
2
n
n2
n2 j=1
n
Die Gleichungen in (8.1) besagen, dass die Zufallsvariablen Sn und X1 , . . . , Xn den gleichen
Erwartungswert µ haben, dass aber die Varianz von Sn um den Faktor 1/n kleiner ist.
Statt Sn betrachten wir nun die zugehörige standardisierte Zufallsvariable
√
n
Zn :=
(Sn − µ), n ∈ IN.
σ
Offensichtlich ist der Erwartungswert E(Zn ) = 0 und die Varianz
n
V (Zn ) = 2 V (Sn ) = 1.
σ
Ohne Beweis zitieren wir den folgenden berühmten Satz
Satz 8.1. (Zentraler Grenzwertsatz)
Es sei Φ die Standard-Normalverteilung (7.1). Sind die Zufallsvariablen (Xk )∞
k=1
stochastisch unabhängig und haben sie die gleiche Verteilungsfunktion, so gilt für die Folge
(Zn )∞
n=1 , dass
lim P [Zn ≤ x] = Φ(x), für alle x ∈ IR.
n→∞
Hierbei heißen die Zufallsvariablen (Xk )∞
k=1 stochastisch unabhängig, wenn für alle n ≥ 2
die Zufallsvariablen (Xk )nk=1 stochastisch unabhängig sind.
Korollar 8.2.
Seien α < β zwei reelle Zahlen. Unter den Voraussetzungen von Satz 8.1 ist
h ασ
βσ i
√
√
lim P
= Φ(β) − Φ(α).
≤ Sn − µ ≤
n→∞
n
n
Insbesondere gilt für genügend großes n näherungsweise
h
σ i
√
= 0.68
lim P |Sn − µ| ≤
n→∞
n
h
2σ i
= 0.954
lim P |Sn − µ| ≤ √
n→∞
n
3σ i
lim |Sn − µ| ≤ √
= 0.997.
n→∞
n
Der Zentrale Grenzwertsatz erklärt, warum die Normalverteilung Φ in der Statistik
eine so große Bedeutung hat. Mehr hierzu im nächsten Kapitel.
27
§9 Zufallszahlen
Zur Simulation von Experimenten sind Generatoren von Zufallszahlen unentbehrlich.
Dies sind Computer-Programme, die bei jedem Aufruf eine Zahl im Intervall [0, 1] (bei
vorgegebener Stellenzahl) erzeugen. Gute Programme simulieren die Gleichverteilung
möglichst genau. Dies bedeutet, dass bei n-maligem Aufruf die n erzeugten Zufallszahlen
möglichst gleich verteilt im Intervall [0, 1] liegen.
(a) Teilt man das Intervall [0, 1] in m Teilintervall 0 = x0 < x1 < · · · < xm−1 < xm = 1,
so sollten für großes n ungefähr (xj − xj−1 ) · n der n erzeugten Zahlen im Intervall
[xj−1 , xj ] liegen. Im Falle m = 6 und der Wahl xj = j/6, j = 0, . . . , 6, kann man so
das n-malige Würfeln mit einem Laplace-Würfel simulieren.
(b) An einen Zufallsgenerator müssen wir aber noch weitere Ansprüche stellen. Zum
Beispiel sollten je zwei (oder 3, 4, 5) aufeinanderfolgende Zufallszahlen von einander unabhängig sein. Im Idealfall, wenn der j-te Aufruf einer gleichverteilten Zufallsvariablen Xj entspricht, müßten die Zufallsvariablen X1 , . . . , Xn der Definition
der stochastischen Unabhängigkeit des §5 genügen.
Doch sind Zufallszahlen nie stochastisch unabhängig. Das Programm erzeugt nämlich
die Zufallszahlen nach einer deterministischen Formel, in der auch die vorher erzeugten
Zufallszahlen eingehen. Also Vorsicht !
Zum Beispiel erzeugt der Computer in meinem Pascal-Programm immer die gleichen
Zufallszahlen.
28
Kapitel 3.
Statistik
§1 Schätzungen von Erwartungswert und Varianz
Beispiel 1.1
Wir wollen die Fallbeschleunigung g ≈ 9.81 m s−2 am Hubland in Würzburg genau bestimmen. Im physikalischen Versuch wird g aber nicht exakt gemessen, da ”zufällige Fehler”
auftreten. Daher wird der Versuch n-mal durchgeführt und liefert die Ergebnisse (Daten,
Stichproben, zufällige Stichproben) g1 , g2 , . . . , gn . Hieraus berechnen wir den Mittelwert
n
1X
gj
n
sn :=
j=1
als Schätzung für g. Als Schätzung der Varianz der zufälligen Meßfehler nehmen wir die
Zahl
n
1 X
(gj − sn )2 .
(1.1)
qn :=
n−1
j=1
Die (empirische) Standardabweichung der Stichprobe ist dann
Warum im Nenner in (1.1) die Zahl n − 1, aber nicht n?
√
qn .
Um dies zu erklären, kehren wir zurück zu §5 : Wir nehmen an,
• der die zufälligen Fehler verursachende W-Raum sei unbekannt,
• die den n Messungen zugrunde liegenden Zufallsvariable Xj = g + Fj , Fj = zufälliger
Fehler, j = 1, . . . , n, seien stochastisch unabhängig und haben die gleiche Verteilungsfunktion und somit denselben (unbekannten) Erwartungswert µ := g und dieselbe
(unbekannte) Varianz σ 2 .
Wahrscheinlichkeitsmodell: Nach §5 oder §8 hat die Zufallsvariable
n
1X
Xj ,
Sn :=
n j=1
die Eigenschaften
E(Sn ) = µ
,
V (Sn ) =
σ2
.
n
Die (1.1) entsprechende Zufallsvariable
n
1 X
(Xj − Sn )2
Qn :=
n−1
(1.2)
j=1
ist erwartungtreu, das heißt hat den Erwartungswert
E(Qn ) = σ 2 .
29
(1.3)
Beweis von (1.3)
Nach der Steinerschen Formel (Satz 4.2, Kap.2) für Sn ist
V (Sn ) = E(Sn2 ) − (E(Sn ))2 ,
und somit
E(Sn2 ) = V (Sn ) + (E(Sn ))2 =
σ2
+ µ2 .
n
(1.4)
Für j = 1, . . . , n gilt nach der Steinerschen Formel
V (Xj ) = E(Xj2 ) − (E(Xj ))2 ,
und somit
E(Xj2 ) = V (Xj ) + (E(Xj ))2 = σ 2 + µ2 ,
Des weiteren ist
Qn =
j = 1, . . . , n.
(1.5)
n
n
X
X
1
Xj2 − 2Sn
Xj + nSn2
n − 1 j=1
j=1
n
X
1
=
Xj2 − 2nSn2 + nSn2
n − 1 j=1
n
X
1
=
Xj2 − nSn2 .
n − 1 j=1
Setzen wir nun (1.5) und (1.4) ein, so folgt wegen der Linearität von E
E(Qn ) =
1
(nσ 2 + nµ2 − σ 2 − nµ2 ) = σ 2 .
n−1
Also gilt (1.3).
Nehmen wir in Beispiel 1.1 an, dass die Zufallsvariable Sn (nahezu) Sn ∼ N (g, σ 2/n)
erfüllt (vergleiche Korollar 7.3 oder Zentraler Grenzwertsatz Satz 8.1 mit Korollar 8.2).
√
Des weiteren sei σ ungefähr gleich qn . Folglich gilt, dass
√ i
h
qn
P |sn − g| ≤ √
≈ 0.68
n
√
h
2 qn i
P |sn − g| ≤ √
≈ 0.954
n
√
h
3 qn i
P |sn − g| ≤ √
≈ 0.997.
n
Beispiel 1.2 (aus Stahel, 147i)
Wir betrachten eine Waage mit Meßfehlern X ∼ N (0, σ 2) mit σ = 0.63 mg. Wir möchten
30
erreichen, dass das Meßergebnis mit einer Wahrscheinlichkeit von 95% um nicht mehr als
0.5 mg vom wahren Wert abweicht.
Lösung. Führen wir n unabhängige Messungen durch, so gilt nach Korollar 7.3, Kap.2,
dass
h
2σ i
2σ
≈ 0.954
(1.6)
P − √ ≤ Sn − µ ≤ √
n
n
Wegen σ = 0.63 mg und der Bedingung
2σ
√
≤ 0.5mg
n
führt dies zu
√
n ≥ 4 · 0.63 = 2.52 und somit zu n ≥ 7.
§2 Statistische Tests
Beispiel 2.1
Beim Würfelspiel behauptet ein Spieler, dass die Sechs zu selten gewürfelt wird. Wir
wollen experimentell überprüfen, ob die Sechs mit der Wahrscheinlichkeit p = 1/6 auftritt.
Zu diesem Zwecke würfeln wir 60 mal. Hierbei tritt die Sechs x-mal auf. Die Frage ist
nun, für welche Zahlen x geben wir dem Mitspieler recht ?
Sei n = 60 und p = 1/6. Wie in Beispiel 5.2 zur Binomialverteilung ist
n k
p (1 − p)n−k ,
P [X = k] = Pn (k) =
k
k = 0, 1, . . . , n,
die Wahrscheinlichkeit, dass die Anzahl der Sechser bei 60 Würfen genau k ist. Daher
bezeichnet
k
X
P [X ≤ k] =
Pn (j), k = 0, 1, . . . , n,
j=0
die Wahrscheinlichkeit, dass die Anzahl der Sechser bei 60 Würfen höchstens k ist. Eine
kurze Rechnung zeigt, dass
P [X = 0] = 0.000018
P [X ≤ 1] = 0.000231
P [X ≤ 2] = 0.001487
P [X ≤ 3] = 0.006346
P [X ≤ 4] = 0.020192
P [X ≤ 5] = 0.051208
P [X ≤ 6] = 0.108071
P [X ≤ 7] = 0.195803
31
Es soll nun eine sogenannte Nullhypothese überprüft werden. In Beispiel 2.1 ist die
Nullhypothese : p = 1/6 (oder p ≥ 1/6).
In einem statistischen Test wird festgelegt, für welche der möglichen Wert x die Nullhypothese H0 ablehnt wird. Hierbei gilt meist ”im Zweifel für den Angeklagten”, das heißt,
man will möglichst vermeiden, eine richtige H0 abzulehnen. Dafür riskiert man lieber, eine
falsche H0 nicht abzulehnen. Also legt man ein sogenanntes Signifikanz-Niveau α fest,
0 < α < 1, dass klein ist, häufig α = 0.1 oder α = 0.05 oder noch kleiner. Hierbei bedeutet
Signifikanz-Niveau α, dass die Wahrscheinlichkeit höchstens gleich α ist, eine richtige
Nullhypothese abzulehnen.
Sehr häufig wählt man das Signifikanz-Niveau α = 0.05
Zurück zu Beispiel 2.1 :
bei α = 0.15 lehnen wir H0 für x ≤ 6 Sechser ab, denn P [X ≤ 6] = 0.108
bei α = 0.06 lehnen wir H0 für x ≤ 5 Sechser ab.denn P [X ≤ 5] = 0.0512
Beispiel 2.2 (Qualitätskontrolle)
Eine große Ladung Eier soll geprüft werden. Der ausgehandelte Preis soll akzeptiert werden, wenn das durchschnittliche Gewicht der Eier mindestens 76.0 g beträgt.
Es wird eine zufällige Stichprobe von n = 25 Eiern entnommen. Nach den Formeln des
√
§1 berechnen wir den Mittelwert sn = 75.6 g und die Standardabweichung qn = 1.0 g.
Wird der ausgehandelte Preis bei einem Signifikanz-Niveau α = 0.05 akzeptiert?
Lösung.
Wir nehmen an, dass der zufällige Fehler normalverteilt ist mit Erwartungswert 0 g und
√
der Standardabweichung σ ≈ qn = 1.0 g.
Nullhypothese:
µ = 76.0 g.
Unter Verwendung von §1 ist dann (in Gramm)
E(Sn ) = µ = 76.0 ,
V (Sn ) =
σ2
qn
1
≈
= .
n
n
n
Wir verwenden Korollar 7.3,
σx
P [Sn ≤ µ + √ ] = Φ(x),
n
für alle x ∈ IR.
Hierin müssen wir x bestimmen aus
σx
√ = −0.4,
n
also ist
Also ist
√
0.4 n
= −2.0.
x=−
σ
h
i
P Sn − µ ≤ −0.4 = Φ(−2) = 0.023.
32
Wegen des Signifikanz-Niveaus α = 0.05 lehnen wir die Nullhypothese ab.
Wichtige Werte von Φ :
Φ(−2) = 0.023,
Φ(−1.96) = 0.025,
Φ(−1.645) = 0.05,
Φ(1.96) − Φ(−1.96) = 0.95,
Φ(1.645) − Φ(−1.645) = 0.90.
Beispiel 2.3 (Stahel 159 b-g, 161, 162 b, 174 c, 176 h)
Der Grenzwert für lungengängige Asbestfasern ist 1000 Fasern pro m3 .
• Die Messung der Konzentration ist ist sehr aufwendig. Daher versucht man, nur ein
möglichst kleines Luftvolumen v zu untersuchen.
• Höhere Konzentrationen machen sehr teure Sanierungsmassnahmen notwendig. Daher
wird das Signifikanz-Niveau α möglichst klein gewählt.
Es seien drei Messungen mit dem Volumen v = 0.005m3 durchgeführt worden.
Die beobachteten Anzahlen der kritischen Fasern seien x1 = 6, x2 = 4 und x3 = 9. Das
ergibt eine Konzentration von 19 Fasern in 0.015m3 oder 1267 Fasern pro m3 .
Der Grenzwert ist also überschritten. Aber hat sich der überhöhte Wert rein zufällig
ergeben? Zum Beispiel wäre ohne die dritte Messung der Grenzwert nicht überschritten.
Die Frage ist daher : Können sich bei einer tatsächlichen Konzentration von µ ≤ 1000/m3
Beobachtungen der Höhe 1267 mit einer nicht zu kleinen Wahrscheinlichkeit ergeben ?
Wahrscheinlichkeitsmodell:
Wir fassen das Auftreten einer Faser als Ereignis auf. Wenn diese Ereignisse unabhängig
von einander auftreten, so eignet sich für die Anzahl X der auf einem Filter des Volumens
v gezählten Fasern als Modell die Poisson-Verteilung. Der Parameter λ gibt den Erwartungswert dieser Anzahl an : Ist µ die wahre Konzentration pro m3 , dann ist λ = µv
der Erwartungswert der Faserzahl in jeder Zählung. Also sind
Xj ∼ P(λ),
j = 1, 2, 3.
Wir wollen jetzt die beobachteten Werte x1 = 6, x2 = 4, x3 = 9 auswerten, und zwar im
Sinne von §1 - §2 :
Nach §1 berechnen wir
19
1
(6 + 4 + 9) =
= 6.33,
3
3
so dass der Wert λ = 6.33 als der plausibelste erscheint. Aber der Grenzwert 1000 Fasern
pro m3 entspricht 5 Fasern pro Volumen v = 0.005m3 , also dem Wert λ0 = 5
sn =
Nach §2 müssen wir die Frage beantworten, ob für die beobachteten Werte x1 = 6, x2 = 4,
x3 = 9 die Aussage Xj ∼ P(5), j = 1, 2, 3, noch plausibel ist. Wir wissen aus Beispiel 6.3,
Kapitel 2, , dass dann
X := X1 + X2 + X3 ∼ P(15)
33
plausibel ist. Also müssen wir die Frage beantworten, ob x = x1 + x2 + x3 = 19 mit nicht
zu geringer Wahrscheinlichkeit für X ∼ P(15) eintreten kann. Es ist
P [X ≥ 19] = 1 −
18
X
15k
k=0
k!
e−15 = 0.181.
Also würde man bei einem Signifikanz-Niveau α = 0.05 oder α = 0.1 die Nullhypothese
λ = 15 nicht ablehnen.
§3 Vertrauensintervalle
Bei den statistischen Tests des §2 gehen wir von einem Wahrscheinlichkeitsmodell
aus, in dem die Verteilungsfunktion vorgegeben ist, und berechnen den Annahmebereich
(abhängig vom Signifikanzniveau α). Fallen die Beobachtungen (Messungen) in diesen
Annahmebereich, so werden die vorgegeben Parameter akzeptiert..
Etwa in Beispiel 2.2 ist die Verteilungsfunktionm Φµ,σ/√n als gegeben vorausgesetzt mit
σ = 1, µ = 76.0g und n = 25. Der Annahmebereich besteht aus allen Messungen sn
mit der Eigenschaft
√
n(sn − µ) Φµ,σ/√n (sn ) = Φ
≤ α.
σ
Wegen α = 0.05 und Φ(−1.645) = 0.05 folgt
sn ≥ µ −
1.645 · σ
√
,
n
(3.1)
also sn ≥ 75.67. Der linksseitige Annahmebereich für sn ist also das Intervall [75.67, 76.0].
Bei der Bestimmung von Vertrauensintervallen für die Normalverteilung mit
bekannter Varianz σ 2 , gehen wir von der beobachteten Zahl sn aus und berechnen die
Parameterwerte µ, die mit der Beobachtung sn verträglich sind. Diese Werte bilden ein
Intervall.
Das rechtssseitige 95%-Vertrauensintervall für den Parameter µ berechnen wir mit Hilfe
von (3.1): Der Parameter µ, µ ≥ sn , gehört zum Vertrauensintervall, falls
µ ≤ sn +
1.645 · σ
√
.
n
Das linksseitige 95%-Vertrauensintervall für den Parameter µ besteht aus allen µ, µ ≤ sn ,
mit
1.645 · σ
.
µ ≥ sn − √
n
Das Intervall
1.645 · σ 1.645 · σ
, sn + √
sn − √
n
n
34
heißt 90%-Vertrauensintervall für µ bei gegebener Messung sn .
Das Intervall
1.96 · σ 1.96 · σ
, sn + √
sn − √
n
n
heißt 95%-Vertrauensintervall für µ bei gegebener Messung sn , denn es ist Φ(−1.96) =
0.025 und Φ(1.96) − Φ(−1.96) = 0.95.
35
Anhang :
Stochastische Prozesse
Beispiel (Epidemie)
Wir beschreiben eine ansteckende Krankheit mit folgendem sehr einfachen Modell : Am
Anfang seien x0 Personen gesund, aber ansteckbar, sowie y0 Personen krank und ansteckend. Die Wahrscheinlichkeit, dass sich genau ein Gesunder in einem Zeitintervall ansteckt,
sei proportional zur Anzahl y0 , also gleich βy0 , 0 < β < 1. Die Wahrscheinlichkeit, dass
genau ein Ansteckender in diesem Zeitintervall nicht mehr ansteckend und damit immun
wird, sei γ, 0 < γ < 1. Das Zeitintervall sei so klein gewählt, dass die Wahrscheinlichkeit,
dass darin zwei Personen krank oder immun werden, vernachlässigbar ist.
Dann erhält man für die Anzahl X (1) der Ansteckbaren und Y (1) der Ansteckenden nach
dem Zeitintervall die gemeinsame Verteilung
P [X (1) = x0 − 1, Y (1) = y0 + 1] = βx0 y0
P [X (1) = x0 , Y (1) = y0 − 1] = γy0
P [X (1) = x0 , Y (1) = y0 ] = 1 − βx0 y0 − γy0 .
Die bedingten Wahrscheinlichkeiten für X (2) und Y (2) für gegebene Anzahlen X (1) = x1 ,
Y (1) = y1 , erfüllen die gleichen Formeln. Man erhält so rekursiv die Wahrscheinlichkeit
für alle späteren Zeitpunkte. In diesem einfachen Modell haben wir angenommen, dass
die Krankheit zur Immunität führt und dass keine neue Individuen dazukommen, so dass
schließlich alle (oder fast alle) zunächst krank und später immun werden.
Ein zeitdiskreter stochastischer Prozess auf einem W-Raum (Ω, P ) ist eine Folge (Xt )t∈IN0
von Zufallsvariablen Xt : Ω → S, wobei Ω keine Rolle spielt. Beachte : Jede Komponente
von Xt ist eine Zufallsvariable.
Im obigen Beispiel der Epidemie sind Xt = (X (t) , Y (t) ), t = 0, 1, . . ., sowie S ⊂ IN0 × IN0 .
Man interpretiert Xt als Zustand eines Systems zum Zeitpunkt t. Ein solcher Prozess heißt
Markoffkette, falls die folgende Markoff-Bedingung erfüllt ist:
P [Xt+1 = rt+1 | Xj = rj , 0 ≤ j ≤ t] = P [Xt+1 = rt+1 | Xt = rt ]
für alle (r0 , r1 , . . . , rt ) ∈ IRt+1 ,
mit der Konvention, dass bedingte Wahrscheinlichkeiten 0 sind, wenn der Nenner 0 ist.
Die Markov-Bedingung wird auch als ”Gedächtnislosigkeit” bezeichnet, das heißt, die
Wahrscheinlichkeit für den Übergang vom Zustand Xt = rt zum Zustand Xt+1 = rt+1
hängt nicht von den früheren Zuständen r0 , r1 , . . . , rt−1 ab.
Zusätzlich wird verlangt :
1. Es gibt nur endlich viele Zustände, das heißt, Xt : Ω → S für t ∈ IN0 mit einer
endlichen Menge S.
2. Der Prozess ist zeithomogen, das heißt, die sog. Übergangswahrscheinlichkeit
P [Xt+1 = u | Xt = v]
hängt nicht von t ∈ IN0 ab, für alle u, v ∈ S.
finis WS 2015/16
36