Stochastik für Informatiker (Mathematik für Informatiker III) Prof. Dr. M

Werbung
Skriptum zur Vorlesung im WS 2015/16
Stochastik für Informatiker
(Mathematik für Informatiker III)
Prof. Dr. M. v. Golitschek
Kapitel 1 : Grundlagen der Kombinatorik
§1. Binomialkoeffizienten
§2. Abbildungen auf endlichen Mengen
§3. Die Siebformel
§4. Beispiele aus der Diskreten Wahrscheinlichkeitsrechnung
Kapitel 2. Wahrscheinlichkeitsrechnung
§1. Wahrscheinlichkeit
§2. Bedingte Wahrscheinlichkeit
§3. Satz von Bayes
§4. Zufallsvariable
§5. Paare und Summen von Zufallsvariablen
§6. Diskrete Verteilungsfamilien
§7. Die Normalverteilung
§8. Der Zentrale Grenzwertsatz
§9. Zufallszahlen
Kapitel 3. Statistik
§1. Schätzungen von Erwartungswert und Varianz
§2. Statistische Tests
§3. Vertrauensintervalle
Anhang : Stochastische Prozesse
Literatur
D. Hachenberger : Mathematik für Informatiker, Pearson Studium, 2005
N. Henze, Stochastik für Einsteiger, 2008, Vieweg
Th. Ihringer : Diskrete Mathematik, Heldermann Verlag, 2002.
T. Schickinger, A. Steger, Diskrete Strukturen 1
(Kombinatorik, Graphentheorie, Algebra), Springer Verlag.
T. Schickinger, A. Steger, Diskrete Strukturen 2
(Statistik), Springer Verlag.
W. A. Stahel, Statistische Datenanalyse, 2. Aufl., 1999, Vieweg.
1
Kapitel 1 : Grundlagen der Kombinatorik
Die Kombinatorik beschäftigt sich, einfach gesagt, mit dem Abzählen endlicher Mengen.
§1. Binomialkoeffizienten
In der Analysis wurde der wichtige Binomische Lehrsatz behandelt.
Satz 1.1.
Es seien x und y reelle (oder komplexe) Zahlen. Es sei n ∈ IN. Dann gilt
n X
n k n−k
n
x y
.
(x + y) =
k
k=0
Hierbei wurden folgende Definitionen verwendet :
| ),
x0 := 1 für alle x ∈ IR (x ∈ C
n
0
:= 1 , 0! := 1,
:= 1 ,
0
0
n!
n
:=
, 1 ≤ k ≤ n,
k
k!(n − k)!
n
:= 0, k > n, k < 0.
k
Aus Satz 1.1 folgt
n X
n
k=0
k
=2
n
,
n
X
k=0
n
= 0,
(−1)
k
k
wenn man x = y = 1 bzw. x = −1,y = 1 wählt.
Aus der Definition von nk folgen leicht die Formeln
n
n
, 0 ≤ k ≤ n,
=
k
n−k
n
n
n+1
, 0 ≤ k ≤ n + 1.
+
=
k
k−1
k
Diese letzte Formel kann man auch in Form des Pascalschen Dreiecks schreiben.
Im Zahlenlotto und verwandten Anwendungen der Binomialkoeffizienten taucht die folgende Frage auf :
Problem :
Gegeben sei eine endliche Menge A, sowie k ∈ IN mit 1 ≤ k ≤ |A|. Wieviele k-elementige
Teilmengen von A gibt es ? Diese Anzahl bezeichnen wir mit zk (|A|).
Lösung des Problems:
Wir schreiben n :=
|A|. Für k = 1 ist offensichtlich z1 (n) = n =
n
ist zn (n) = 1 = n .
2
n
1
, und im Falle k = n
Satz 1.2.
Es gilt
n
,
zk (n) =
k
1 ≤ k ≤ n.
Beweis. Wir führen einen Induktionsbeweis nach n.
Im Falle n = 1 ist Satz 1.2 richtig.
Annahme : Satz 1.2 sei richtig für ein n ∈ IN.
Beweis für n + 1 :
Wie schon erwähnt, gilt zk (n + 1) = n+1
für k = 1 und k = n + 1. Sei nun also
k
2 ≤ k ≤ n. Wir nummerieren die Elemente von A durch, also A = {a1 , . . . , an+1 }. Nach
unserer Induktionsannahme gibt es
n
Teilmengen von A, deren Elemente alle in {a1 , . . . , an } liegen, sowie
k k-elementigen
n
k-elementigen
Teilmengen von A, in denen an+1 vorkommt.
k−1
Da die beiden Teilmengen disjunkt sind, ist
n+1
n
n
,
=
+
zk (n + 1) =
k
k−1
k
was wir beweisen wollten.
§2. Abbildungen auf endlichen Mengen
In diesem Paragraphen seien A und B endliche Mengen mit m := |A| und n := |B|,
m, n ≥ 1.
Satz 2.1.
Sei m ≤ n. Die Anzahl Im,n der injektiven Abbildungen von A nach B ist
Im,n =
n!
= n(n − 1) · · · (n − m + 1).
(n − m)!
Beweis.
Es seien die Elemente von A und B irgendwie nummeriert, also A = {a1 , . . . , am }, B =
{b1 , . . . , bn }. Um die verschiedenen Injektionen f : A → B zu zählen, beachten wir, dass es
für f (a1 ) genau die n verschiedenen Werte {b1 , . . . , bn } gibt. Also ist I1,n = n. Ist m ≥ 2,
so gibt es wegen der Injektivität von f für f (a2 ) nur noch die n − 1 möglichen Werte
{b1 , . . . , bn } \ {f (a1 )}. Also ist I2,n = n(n − 1). Und so weiter für m ≥ 3. Perfektionisten
können so einen induktiven Beweis führen.
Korollar 2.2.
Sei A = B, n := |A|. Die Anzahl der Bijektionen f : A → A ist n!.
Permutationen der Zahlen INn := {1, 2, . . . , n} sind die bijektiven Abbildungen von INn
auf sich. Also folgt aus Korollar 2.2
3
Korollar 2.3.
Es gibt n! Permutationen der Zahlen {1, 2, . . . , n}.
Beispiel 2.1
Es sei {a, b, . . . , z} die Menge aller n = 26 Buchstaben (ohne ä,ö,ü,ß). Dann gibt es
offenssichtlich 263 Buchstabenfolgen der Länge 3. Wieviele davon bestehen aus 3 verschiedenen Buchstaben ?
Wir wenden Satz 2.1 an für A := {1, 2, 3} und B := {a, b, . . . , z}. Dann ist m := |A| = 3
und n := |B| = 26. Die Anzahl der Injektionen von A nach B ist n(n−1)(n−2) = 26∗25∗24.
§3. Die Siebformel
Eine wichtige Formel der Kombinatorik ist die Siebformel.
Satz 3.1. (Siebformel)
Es sei Ω eine endliche Menge, sowie Ω1 , . . . , Ωn nichtleere Teilmengen von Ω, so dass
Ω :=
n
[
Ωj .
j=1
Wir schreiben I := {1, 2, . . . , n}. Dann ist
\ X
Ωj = 0.
|Ω| +
(−1)|J| j∈J
J6=∅: J⊆I
Wir wollen die Siebformel nicht beweisen, sondern uns mit Beispielen begnügen.
Beispiel 3.1. Es seien Ω1 und Ω2 nichtleere Teilmengen der endlichen Menge Ω, wobei
Ω = Ω1 ∪ Ω2 . Nach der Siebformel mit I = {1, 2} ist dann
|Ω| − |Ω1 | − |Ω2 | + |Ω1 ∩ Ω2 | = 0.
Beispiel 3.2. Es seien Ω1 , Ω2 , Ω3 nichtleere Teilmengen der endlichen Menge Ω, wobei
Ω = Ω1 ∪ Ω2 ∪ Ω3 . Nach der Siebformel mit I = {1, 2, 3} ist dann
|Ω| − |Ω1 | − |Ω2 | − |Ω3 | + |Ω1 ∩ Ω2 | + |Ω1 ∩ Ω3 | + |Ω2 ∩ Ω3 |
− |Ω1 ∩ Ω2 ∩ Ω3 | = 0.
Beispiel 3.3. An einem Tanzkurs nehmen n Ehepaare teil. Damit die Ehepaare nicht
immer nur miteinander tanzen, werden die Tanzpaare ausgelost. Beweisen Sie : Die
Wahrscheinlichkeit, dass kein einziges Ehepaar zusammentanzt, ist gegeben durch
pn :=
n
X
(−1)k
k=0
4
k!
.
Beweis. Es sei Ω∗ die Menge aller Permutationen der Zahlen 1, 2, . . . , n. Wir wählen in
Satz 3.1
Ωj = {ω = (i1 , i2 , . . . , in ) ∈ Ω∗ : ij = j}, j = 1, . . . , n.
Es bedeute ω ∈ Ωj , dass das Ehepaar Nr. j miteinander tanzt. Dann ist Ω := ∪nj=1 Ωj
die Menge aller Permutationen, in der mindestens ein Ehepaar miteinander tanzt. Für
I := {1, 2, . . . , n} und J ⊆ I ist
\ Ωj = (n − |J|)!.
j∈J
Außerdem gibt es
n
k
Teilmengen J ⊆ I mit |J| = k. Daher folgt aus Satz 3.1, dass
n
n
X
X
n!
k n
(n − k)! =
(−1)k+1 .
|Ω| = −
(−1)
k
k!
k=1
k=1
Da es n! Permutationen der Zahlen 1, 2, . . . , n gibt, ist
n
n
k=1
k=0
X
X (−1)k
n! − |Ω|
1
pn =
=1−
(−1)k+1 =
,
n!
k!
k!
q.e.d
Zum Abschluß dieses Paragraphen wollen wir nun die Anzahl der surjektiven Abbildungen
f : A → B zählen.
Satz 3.2.
Seien A und B endliche Mengen mit m := |A|, n := |B|, sowie n ≤ m. Die Anzahl Sm,n
der surjektiven Abbildungen von A nach B ist
n
X
n−k n
km .
(−1)
Sm,n =
k
k=1
Beweis. Sei B = {b1 , . . . , bn }, I = {1, . . . , n}. Wir definieren die Mengen
Ωj := {f : A → B : {bj } 6∈ f (A)},
sowie Ω :=
Sn
j=1
Ωj . Für J ⊆ I ist
\
Ωj = {f : A → B : f (A) ⊆
j∈J
T
so dass j∈J Ωj = (n − |J|)m . Zu J ⊆ I gibt es
Daher ergibt die Siebformel
|Ω| = −
X
J⊆I
(−1)
j = 1, . . . , n,
[
j∈I,j6∈J
n
k
{bj }},
Teilmengen J ⊆ I mit |J| = k.
n
\ X
k n
(n − k)m .
(−1)
Ωj = −
k
|J| j∈J
k=1
5
Es ist f : A → B surjektiv genau dann, wenn f 6∈ Ω. Also ist
Sm,n
n
X
k n
m
(n − k)m
(−1)
= {f : A → B} − |Ω| = n +
k
k=1
n−1
n−1
X
X
n
n−j n
m
m
m
k
nm
(−1)
(n − k) = n +
=n +
(−1)
j
n−k
j=1
k=1
§4. Beispiele aus der Diskreten Wahrscheinlichkeitsrechnung
In der diskreten Stochastik ist der Ereignisraum Ω eine endliche oder abzählbar unendliche Menge. In der kontinuierlichen Stochastik ist Ω überabzählbar. Die Wahrscheinlichkeit P (Ω) von Ω wird stets durch P (Ω) = 1 festgelegt ( P : probability).
In Kapitel 2 und Kapitel 3 werden wir tiefer in die Theorie der Diskreten Stochastik
einsteigen.
Definition.
Sei Ω endlich oder abzählbar unendlich. Dann heißt jede Teilmenge A von Ω ein Ereignis.
In diesem Paragraphen soll Ω = {ω1 , . . . , ωn } endlich sein, und die Elementarereignisse
ω1 , . . . , ωn sollen gleichwahrscheinlich sein, also P (ωj ) = 1/n, j = 1, . . . , n. Dann gilt
für alle Ereignisse A, dass P (A) = |A|/n (Wahrscheinlichkeit oder relative Häufigkeit des
Ereignisses A).
Beispiel 4.1 (Zahlenlotto)
Ein Spieler gibt einen Lottotip bestehend aus 6 verschiedenen Zahlen aus {1, 2, . . . , 49} ab.
Wie groß ist die Wahrscheinlichkeit, dass er einen Vierer hat ?
Wir können annehmen, dass die Zahlen {1, 2, 3, 4, 5, 6} gewinnen. Es ist
Ω = {ω : ω ⊆ {1, 2, . . . , 49}, |ω| = 6}.
Wir wissen, dass |Ω| = 49
ist. Der Spieler hat genau dann einen Vierer,
6 = 13.983.816
6
wenn vier der Zahlen {1, . . . , 6} ( = 4 Möglichkeiten) und zwei der Zahlen {7, 8, . . . , 49}
43
6
( = 43
2 Möglichkeiten) gewählt hat. Dies sind also 4 ∗ 2 mögliche Lottotips, die einen
Vierer gewinnen. Also ist die Wahrscheinlichkeit
43
6
∗ 2
4
= 0.000969.
49
6
In dieser Weise können wir auch beantworten, wie groß die Wahrscheinlichkeit ist,
q ∈ {0, 1, 2, 3, 4, 5, 6} richtige Zahlen zu haben :
6
43
∗
q
6−q
.
49
6
6
q = 0 : 0.436
q = 1 : 0.413
q = 2 : 0.132
q = 3 : 0.0177
q = 4 : 0.000969
q = 5 : 0.0000184
q = 6 : 0.0000000715 = 1/|Ω|
Beispiel 4.2
Wie groß ist die Wahrscheinlichkeit, dass beim Skat der Spieler 1 alle vier Buben erhält ?
Wir nummerieren die Karten von 1 bis 32 durch und geben den Buben die Nummern 1, 2,
3, 4. Es ist (bezogen auf den Spieler 1)
Ω = {ω : ω ⊆ {1, 2, . . . , 32}, |ω| = 10}.
Wir wissen, dass |Ω| = 32
ist. Aber in wieviel 10-er Mengen ist {1, 2, 3, 4} enthalten?
10
Dies sind alle 10-er Mengen, in denen
aus den Zahlen {5, . . . , 32} genau 6 beliebig gewählt
werden können, als insgesamt 28
.
6
Ergebnis : Die Wahrscheinlichkeit ist
28
6
32
10
=
10 · 9 · 8 · 7
= 0.00586.
32 · 31 · 30 · 29
Manchmal ist es bequemer, nicht mit Mengen, sondern mit endlichen Folgen zu rechnen : Dann interpretieren wir das Austeilen der Karten als eine Permutation der Zahlen
{1, 2, . . . , 32}, die ersten 10 Zahlen der Permutation als die Karten von Spieler 1. Es gibt
32! Permutationen. Es gibt 10 · 9 · 8 · 7 · 28! Permutationen, bei denen die Zahlen 1, 2, 3, 4
unter den ersten 10 Zahlen auftauchen. Also ist die gesuchte Wahrscheinlichkeit
10 · 9 · 8 · 7
10 · 9 · 8 · 7 · 28!
=
.
32!
32 · 31 · 30 · 29
7
Kapitel 2 : Wahrscheinlichkeitsrechnung
§1 Wahrscheinlichkeit
Der Begriff der Wahrscheinlichkeit ist grundlegend zur Erfassung und Beschreibung
”zufälliger Vorgänge”. Denken wir an einen Zahlenwürfel mit den Zahlen Ω = {1, 2, . . . , 6}
(Sechserwürfel). Wir sagen : ”Die Wahrscheinlichkeit, eine Zahl j ∈ Ω zu würfeln, ist
P ({j}) = 1/6”. Dies bedeutet zum Beispiel, dass wir bei n Würfen erwarten, dass die
Anzahl n1 von Einsern ungefähr n/6 ist. Oder genauer, dass die relative Häufigkeit
n1 /n die Bedingung
1
n1
lim
=
n→∞ n
6
erfüllt.
Ausgehend von diesem Beispiel wollen wir nun in die Theorie der Wahrscheinlichkeiten
eindringen..
Definition (W-Raum)
Es sei Ω eine nichtleere endliche oder abzählbare Menge. Es sei P : Ω → IR eine Abbildung,
so dass
P
P (ω) ≥ 0 für alle ω ∈ Ω, sowie ω∈Ω P (ω) = 1 ist.
Es wird P fortgesetzt (erweitert) zu einer Abbildung P : 2Ω → IR durch P (∅) := 0 und
P (A) :=
X
ω∈A
P (ω) für alle A ⊆ Ω.
Dann heißt das Paar (Ω, P ) diskreter Wahrscheinlichkeitsraum , kurz W-Raum.
Jedes ω ∈ Ω heißt Elementarereignis. Die Teilmengen A ⊆ Ω heißen Ereignisse der
Wahrscheinlichkeit P (A). Die Abbildung P : 2Ω → IR heißt Verteilung oder
Wahrscheinlichkeitsmaß.
Wir prüfen sofort nach, dass in einem diskreter Wahrscheinlichkeitsraum (Ω, P ) die folgenden Axiome von Kolmogorov gelten :
(a) 0 ≤ P (A) ≤ 1, A ⊆ Ω,
(b) P (Ω) = 1,
(c) Sei J ⊆ IN eine endliche oder unendliche Indexmenge. Für paarweise disjunkte
Ereignisse (Aj )j∈J gilt
[ X
P
Aj =
P (Aj ).
j∈J
j∈J
8
Beispiel 1.1
Das Kartenspiel K1 enthält 32 Karten, darunter 4 Asse, das Kartenspiel K2 nur 12 Karten,
darunter ebenfalls 4 Asse. Eine Spieler würfelt mit einem Sechser-Würfel. Würfelt er
eine 6, so zieht er eine Karte aus K2 , ansonsten eine Karte aus K1 . Wie groß ist die
Wahrscheinlichkeit, dass er ein Ass zieht ?
Lösung: Es bezeichne A1 die Menge der 4 Asse in K1 , A2 die Menge der 4 Asse in K2 .
Es sei Ω := K1 ∪ K2 . Wir zerlegen Ω in die 4 disjunkte Teilmengen,
K1 = A1 ∪ (K1 \ A1 ) ,
K2 = A2 ∪ (K2 \ A2 ).
Also gilt
5
= P (K1 ) = P (A1 ) + P (K1 \ A1 ) ,
6
1
= P (K2 ) = P (A2 ) + P (K2 \ A2 ),
6
und somit
P (A) = P (A1 ) + P (A2 ) =
1 4
5 4
·
+ · .
6 32 6 12
Siehe auch den Zusammenhamg der letzte Zeile mit der bedingten Wahrscheinlichkeit
und der stochastischen Unabhängigkeit des nächsten Paragraphen.
§2 Bedingte Wahrscheinlichkeit
Beispiel 2.1
Wir würfeln nun gleichzeitig mit zwei Sechserwürfeln und addieren die Zahlen. Das Ergebnis jedes Wurfes ist eine der natürlichen Zahlen 2 ≤ x ≤ 12.
1. Welche relative Häufigkeit der Zahl x = 8 erwarten wir bei vielen Würfen ?
2. Welche relative Häufigkeit der Zahl x = 8 erwarten wir unter der Nebenbedingung,
dass bei einem der beiden Würfel die Zahl 5 oder 6 auftaucht ?
Antwort zu 1.:
Es ist Ω = {(j, k) : 1 ≤ j, k ≤ 6}, also |Ω| = 36, sowie
A = {(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}, also |A| = 5 und P (A) = 5/36.
Antwort zu 2.
Es ist
B = {(5, 1), . . . , (5, 6), (6, 1), . . . , (6, 6), (1, 5), (2, 5), (3, 5), (4, 5), (1, 6), (2, 6), (3, 6), (4, 6)}
also |B| = 20, |A ∩ B| = 4, sowie P (A|B) = 4/20.
In Beispiel 2.1 wird nach der Wahrscheinlichkeit P (A|B) des Ereignisses A gefragt unter
der Zusatzbedingung, dass das Ereignis B eingetreten ist. Allgemein definieren wir
9
Definition (Bedingte Wahrscheinlichkeit)
Es sei (Ω, P ) ein W-Raum. Sei B ⊆ Ω ein Ereignis mit P (B) > 0. Dann heißt
P (A|B) := PB (A) :=
P (A ∩ B)
,
P (B)
A ⊆ Ω,
die bedingte Wahrscheinlichkeit des Ereignisses A unter Annahme B.
Wir prüfen schnell nach, dass (Ω, PB ) ebenfalls ein W-Raum ist.
Definition (Stochastische Unabhängigkeit)
Es sei (Ω, P ) ein W-Raum. Zwei Ereignisse A, B ⊆ Ω heißen stochastisch unabhängig,
falls
P (A ∩ B) = P (A)P (B).
Ist P (B) > 0, so sind die Ereignisse A und B stochastisch unabhängig genau dann, wenn
P (A|B) = P (A).
§3 Satz von Bayes
Satz 3.1. ( Formel von Bayes)
Es sei (Ω, P ) ein W-Raum. Sei B ⊆ Ω mit P (B) > 0. Seien A1 , . . . , Am paarweise disjunkte
Ereignisse mit P (Aj ) > 0, j = 1, . . . , m. Außerdem gelte
m
[
B⊆
Aj .
j=1
Dann gilt die Formel von Bayes
P (Ak )P (B|Ak )
P (Ak |B) = Pm
j=1 P (Aj )P (B|Aj )
für k = 1, . . . , m.
Beweis. Da die Mengen Aj , j = 1, . . . , m, paarweise disjunkt sind, sind auch die Ereignisse
B ∩ Aj , j = 1, . . . , m, paarweise disjunkt, und es ist
B=
m
[
j=1
und daher
P (B) =
m
X
j=1
(B ∩ Aj ),
P (B ∩ Aj ) =
10
m
X
j=1
P (Aj )P (B|Aj ),
(3.1)
Des weiteren ist nach Definition der bedingten Wahrscheinlichkeit
P (Ak |B) =
P (Ak ∩ B)
P (B ∩ Ak )
P (Ak )P (B|Ak )
=
=
.
P (B)
P (B)
P (B)
Setzen wir (3.1) im Nenner ein, so erhalten wir die Formel von Bayes
Ein erste Anwendung des Satzes von Bayes zeigen wir in
Beispiel 3.1 (diagnostischer Test, siehe Stahel[1999] , 86d)
Ein bekannter Test auf HIV-Infektion ist der ELISA-Test. Infizierte überschreiten einen
gewissen Grenzwert mit der Wahrscheinlichkeit 90%, Gesunde mit der Wahrscheinlichkeit
2%. In einer getesteten Personengruppe Ω betrage der Anteil der Infizierten 1%. Wie
groß ist die Wahrscheinlichkeit, dass eine Testperson tatsächlich Infizierter ist, wenn er als
Virusträger getestet wurde ?
Antwort: Es sei Ω die Menge aller getesteten Personen. Es sei A1 ⊂ Ω die Menge aller
Infizierten, A2 := Ω \ A1 die Menge aller Gesunden, sowie B die Personen mit positivem
Testresultat (Grenzwert überschritten). Gegeben sind die Werte
P (B|A1 ) = 0.9 , P (B|A2 ) = 0.02 , P (A1 ) = 0.01.
Nach der Formel von Bayes ist
P (A1 |B) =
P (A1 )P (B|A1 )
0.01 · 0.9
0.009
=
=
= 0.31.
P (A1 )P (B|A1 ) + P (A2 )P (B|A2 )
0.01 · 0.9 + 0.99 · 0.02
0.0288
Das heißt : Bei einem positiven Befund ist die Wahrscheinlichkeit nur 31%, dass die
Testperson tatsächlich infiziert ist.
Aus der letzten Formel können wir ablesen, dass die Wahrscheinlichkeit P (A1 |B) nur dann
wesentlich erhöht wird, wenn die Wahrscheinlichkeit 2% für Gesunde deutlich verkleinert
wird.
Ein zweite Anwendung des Satzes von Bayes ist
Beispiel 3.2 (diagnostischer Test, siehe Christian Hesse : Warum Mathematik glücklich
macht. Verlag C.H.Beck, 2010)
Die Wahrscheinlichkeit, dass eine 50-jährige Frau Brustkrebs hat, ist etwa 0.8%.
Die Wahrscheinlichkeit, dass das Mammogramm einer Patientin positiv ist, wenn sie
Brustkrebs hat, liegt bei etwa 90%.
Die Wahrscheinlichkeit, das das Mammogramm einer Patientin positiv ist, obwohl sie
keinen Brustkrebs hat, liegt bei etwa 7%.
Wie groß ist die Wahrscheinlichkeit, dass eine Patientin tatsächlich Brustkrebs hat, wenn
ihr Mammogramm positiv ist ?
11
Antwort: Es sei Ω die Menge aller 50-jhrigen Patientinnen, die sich dem Test unterziehen.
Es sei A1 ⊂ Ω die Menge aller Kranken, A2 := Ω \ A1 die Menge aller Gesunden, sowie B
die Patientinnen mit positivem Mammogramm. Gegeben sind die Werte
P (B|A1 ) = 0.9 , P (B|A2 ) = 0.07 , P (A1 ) = 0.008.
Nach der Formel von Bayes ist
P (A1 |B) =
P (A1 )P (B|A1 )
0.008 · 0.9
=
= 0.094
P (A1 )P (B|A1 ) + P (A2 )P (B|A2 )
0.008 · 0.9 + 0.992 · 0.07
Das heißt : Bei einem positiven Befund ist die Wahrscheinlichkeit nur etwa 9%, dass die
Patientin tatsächlich Brustkrebs hat.
Wenn alle Kranken positiv getestet würden, also wenn P (B|A1 ) = 1.0 wäre, so wäre
P (A1 |B) =
0.008 · 1.0
P (A1 )P (B|A1 )
=
= 0.103,
P (A1 )P (B|A1 ) + P (A2 )P (B|A2 )
0.008 · 1.0 + 0.992 · 0.07
also auch nur 10%.
Um das Ergebnis von Beispiel 3.2 besser zu verstehen, nehmen wir an, dass 10.000 Personen
getestet wurden. Dies führt zu (ungefähr) folgenden Zahlen :
80 Kranke, davon 72 positiv getestet,
9.920 Gesunde, davon 694 positiv getestet,
also 766 positiv getestete Personen
Also ist die Wahrscheinlichkeit positiv getestet und krank zu sein gleich
72 : 766 = 0.094, also gleich 9.4%.
12
§4 Zufallsvariable
Definition
Es sei (Ω, P ) ein W-Raum. Jede Abbildung X : Ω → IR heißt Zufallsvariable.
Vereinbarung :
Statt P ({ω : X(ω) = r}) schreiben wir kurz P [X = r],
statt P ({ω : r1 ≤ X(ω) ≤ r2 }) schreiben wir P [r1 ≤ X ≤ r2 ], u.s.w.
Insbesondere wird jeder Zahl r aus dem Bildbereich WX := {X(ω) : ω ∈ Ω} von X
durch P [X = r] eine Wahrscheinlichkeit zugeordnet. Also kann P aufgefaßt werden als
Abbildung P [X = ·] : WX → IR. Daher die Bezeichnung Zufallsvariable für X. Oder
auch als Abbildung P [X = ·] : IR → IR mit P [X = r] := 0 für r 6∈ WX .
Beispiel 4.1
(a) Beim Würfeln wollen wir die Anzahl der Sechser zählen. Daher wählen wir Ω =
{1, 2, 3, 4, 5, 6} und die Zufallsvariable X : Ω → IR, X(6) = 1, X(j) = 0 sonst. Und es
ist P [X = 0] = 5/6, P [X = 1] = 1/6.
(b) Würfeln wir zweimal, dann ist P [X = 0] = 25/36, P [X = 2] = 1/36, P [X = 1] =
10/36 .
(c) Würfeln wir n-mal, so finden Sie die Antwort im nächsten Beispiel 4.2.
Im folgenden Beispiel lernen wir die Binomialverteilung kennen. Diese und die Normalverteilung spielen in den Anwendungen eine hervorragende Rolle.
Beispiel 4.2 (Binomialverteilung)
Es sei Ω∗ = {A, B} und P (A) = p, P (B) = 1 − p.
(Im Beispiel 4.1 ist A = {6}, B = {1, 2, 3, 4, 5} und p = 1/6.)
Führen wir das Experiment mit den beiden Ausgängen A und B n-mal durch, so können
wir dies beschreiben durch Ω := (Ω∗ )n und die n Zufallsvariablen
Xj : Ω → IR, j = 1, . . . , n, die definiert sind wie folgt :
Zu ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω ist
Xj (ω) =
1, falls ωj = A,
0, falls ωj = B,
und somit P [Xj = 1] = p, P [Xj = 0] = 1 − p.
Deren Summe X := X1 + · · · + Xn : Ω → IR ist die Zufallsvariable, für die P [X = k]
die Wahrscheinlichkeit ist, dass bei n unabhängigen Experimenten das Ergebnis A k-mal
auftritt. Es ist
n k
p (1 − p)n−k , k = 0, . . . , n.
(4.1)
P [X = k] =
k
Beweis der Formel (4.1) :
Sei k ∈ {0, 1, 2, . . . , n} . Jedes n-Tupel ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω, für das genau k der ωi
13
gleich A ist, hat die Wahrscheinlichkeit pk (1 − p)n−k . Es gibt genau
Also gilt die Formel (4.1)
n
k
solche n-Tupel.
Beachten Sie, dass nach der binomischen Formel
n
X
k=0
P [X = k] =
n X
n
k=0
k
pk (1 − p)n−k = p + (1 − p)
n
= 1.
Definition
Es sei (Ω, P ) ein W-Raum. Sei X : Ω → IR eine Zufallsvariable. Man nennt die Abbildung
F : IR → [0, 1], definiert durch
F (r) := P [X ≤ r],
r ∈ IR,
die Verteilungsfunktion ( kurz Verteilung) von X.
Definition
Es sei (Ω, P ) ein W-Raum. Sei X : Ω → IR eine Zufallsvariable. Dann heißt die Zahl
X
E(X) :=
X(ω)P (ω)
ω∈Ω
der Erwartungswert (der Verteilung) von X.
Beachte, dass E : {X : Ω → IR} → IR ein lineares Funktional (= linearer Operator mit
Bildbereich in IR) ist. Das heißt, für Zufallsvariable X1 , X2 und α, β ∈ IR gilt
E(αX1 + βX2 ) = αE(X1 ) + βE(X2 ).
Definition
Es sei (Ω, P ) ein W-Raum. Sei X : Ω → IR eine Zufallsvariable mit Erwartungswert
µ := E(X). Dann heißt die Zahl
V (X) := E((X − µ)2 )
p
die Varianz (der Verteilung) von X. Deren Wurzel, V (X), nennt man Standardabweichung (der Verteilung) von X. Sie ist ein Maß für die Streuung von X.
Der Erwartungswert E(X) und die Varianz V (X) sind (theoretische) Kennzahlen der
Verteilung F von X. Später werden wir die hierzu erwartungstreuen (empirischen) Kennzahlen von Stichproben definieren.
Aus der obigen Definition des Erwartungswertes E(X) gewinnen wir im nächsten Satz eine
andere Formel für E(X), die später sehr wichtig sein wird. Denn sie benutzt nur die Werte
von X und deren Wahrscheinlichkeiten, nicht aber den W-Raum (Ω, P ).
14
Satz 4.1.
Es sei (Ω, P ) ein W-Raum. Die Zufallsvariable X : Ω → IR habe den Bildbereich WX :=
{X(ω) : ω ∈ Ω}. Dann ist
X
E(X) =
rP [X = r]
r∈WX
Die Varianz ist daher
X
V (X) =
r∈WX
(r − E(X))2 P [X = r].
Beweis. Selbst überlegen.
Zur Berechnung der Varianz V (X) ist oft folgende Formel wichtig :
Satz 4.2. ( Steinersche Formel)
Sei V (X) > 0. Dann gilt
V (X) = E(X 2 ) − (E(X))2.
Beweis. Es bezeichne µ := E(X). Dann ist
V (X) =
X
ω∈Ω
=
X
ω∈Ω
=
X
ω∈Ω
(X(ω) − µ)2 P (ω)
X(ω)2 − 2µX(ω) + µ2 P (ω)
X(ω)2 P (ω) − 2µ
2
2
X
X(ω)P (ω) + µ2
ω∈Ω
2
X
P (ω)
ω∈Ω
2
2
=E(X ) − 2µ + µ = E(X ) − µ .
Also gilt Satz 4.2.
Zu Beispiel 4.2 :
Der Erwartungswert der Xj ist
E(Xj ) = pXj (A) + (1 − p)Xj (B) = p · 1 = p.
Da der Erwartungswert E ein linearer Operator ist, ist
E(X) = E(X1 + X2 + · · · + Xn ) =
n
X
E(Xj ) = np.
j=1
Wer dieser Herleitung nicht traut, kann auch nachrechnen, dass
E(X) =
n
X
k=0
n
X
n k
p (1 − p)n−k = np.
k
kP [X = k] =
k
k=0
15
Die Varianz der Xj ist nach der Steinerschen Formel
V (Xj ) = E(Xj2 ) − E(Xj )2 = p − p2 = p(1 − p).
Folglich ist nach Satz 5.1 des nächsten Paragraphen (da die Zufallsvariablen X1 , . . . , Xn
stochastisch unabhängig sind)
V (X) = np(1 − p).
Auch hier können Mißtrauische nachrechnen, dass
V (X) =
=
n
X
k=0
n
X
k=0
(k − E(X))2P [X = k]
n k
p (1 − p)n−k = np(1 − p).
(k − np)
k
2
Beispiel 4.3 (Multinomialverteilung)
Ein Experiment habe drei mögliche Ergebnisse Ω∗ = {A, B, C}, die mit den Wahrscheinlichkeiten p1 , p2 , 1 − p1 − p2 eintreten (p1 > 0, p2 > 0, p1 + p2 < 1). Das Experiment
werde n-mal durchgeführt mit dem Ergebnis
ω = (ω1 , ω2 , . . . , ωn ),
ωi ∈ Ω ∗ ,
i = 1, . . . , n.
Dann gilt :
(a) Die Wahrscheinlichkeit P (ω) für ein ω = (ω1 , ω2 , . . . , ωn ) ist gegeben durch
P (ω) = pj1 pk2 (1 − p1 − p2 )n−j−k ,
falls in ω = (ω1 , ω2 , . . . , ωn ) das Ergebnis A j-mal, das Ergebnis B k-mal, das
Ergebnis C (n − j − k)-mal auftritt.
(b) Die Wahrscheinlichkeit, dass nach n Experimenten das Ergebnis A j-mal, das Ergebis B k-mal, das Ergebnis C (n − j − k)-mal auftritt, ist gegeben durch
n!
pj pk (1 − p1 − p2 )n−j−k ,
j!k!(n − j − k)! 1 2
0 ≤ j + k ≤ n.
§5 Paare und Summen von Zufallsvariablen
In Anlehnung an die Definition der stochastischen Unabhängigkeit zweier Ereignisse in §2
definieren wir
Definition
Es sei (Ω, P ) ein W-Raum. Die Zufallsvariablen X1 , X2 , . . . , Xn : Ω → IR heißen
16
stochastisch unabhängig, falls für alle reelle Zahlen r1 , r2 , . . . , rn
n
Y
P [X1 = r1 , X2 = r2 , . . . , Xn = rn ] =
P [Xj = rj ]
j=1
erfüllt ist.
Etwas ausführlicher sieht diese letzte Gleichung so aus :
Es sei Aj := {ω ∈ Ω : Xj (ω) = rj }, j = 1, 2, . . . , n. Dann ist
P (A1 ∩ A2 ∩ · · · ∩ An ) =
n
Y
P (Aj ).
j=1
Aus der stochastischen Unabhängigkeit der Zufallsvariablen X1 , X2 , . . . , Xn : Ω → IR
folgt die Gleichung
P [a1 ≤ X1 ≤ b1 , a2 ≤ X2 ≤ b2 , . . . , an ≤ Xn ≤ bn ] =
n
Y
j=1
P [aj ≤ Xj ≤ bj ]
für alle reellen Zahlen aj ≤ bj , j = 1, . . . , n.
Wir prüfen schnell nach, dass die Zufallsvariablen Xj : Ω → IR, j = 1, . . . , n, in Beispiel
4.2 stochastisch unabhängig sind.
Satz 5.1.
Es sei (Ω, P ) ein W-Raum. Die Zufallsvariablen X1 , X2 , . . . , Xn : Ω → IR seien stochastisch
unabhängig. Für die Erwartungswerte und die Varianzen gilt
E(X1 + X2 + · · · + Xn ) =
E(X1 · X2 · · · Xn ) =
n
X
E(Xj ),
(5.1)
j=1
n
Y
E(Xj ),
(5.2)
j=1
sowie
V (X1 + X2 + · · · + Xn ) =
n
X
V (Xj ).
(5.3)
j=1
Beweis.
Die Gleichung (5.1) haben wir bereits bewiesen. Sie gilt sogar für stochastisch abhängige
Zufallsvariable.
Beweis von (5.2) im Falle n = 2:
17
Es ist nach Satz 4.1
E(X1 X2 ) =
X
rP [X1 X2 = r] =
X
X
X
r1 r2 P [X1 = r1 , X2 = r2 ]
r1 ∈WX1 r2 ∈WX2
r∈WX1 X2
=
X
r1 r2 P [X1 = r1 ]P [X2 = r2 ]
r1 ∈WX1 r2 ∈WX2
=
X
r1 ∈WX1
r1 P [X1 = r1 ]
X
r2 P [X2 = r2 ] = E(X1 )E(X2 ).
r2 ∈WX2
Beweis von (5.3) im Falle n = 2:
Wir beweisen nun (5.3) im Falle n = 2 : Unter Verwendung der Steinerschen Formel
(angewendet auf die Zufallsvariable X1 + X2 ) ist
V (X1 + X2 ) = E((X1 + X2 )2 ) − (E(X1 + X2 ))2
= E(X12 + 2X1 X2 + X22 ) − (E(X1 ) + E(X2 ))2
= E(X12 ) + 2E(X1 X2 ) + E(X22 ) − (E(X1 ) + E(X2 ))2
= E(X12 ) + 2E(X1 )E(X2 ) + E(X22 ) − (E(X1 ) + E(X2 ))2
= E(X12 ) − (E(X1 ))2 + E(X22 ) − (E(X2 ))2 = V (X1 ) + V (X2 ),
Definition
Es sei (Ω, P ) ein W-Raum. Zu zwei Zufallsvariablen X, Y : Ω → IR mit den Erwartungswerten µ1 bzw. µ2 heißt
cov(X, Y ) := E (X − µ1 )(Y − µ2 )
die Kovarianz (der Verteilungen) von X und Y .
Offensichtlich ist wegen E(X + Y ) = E(X) + E(Y ) = µ1 + µ2
V (X + Y ) = E (X + Y − µ1 − µ2 )2 = V (X) + V (Y ) + 2cov(X, Y ).
Die Korrelation (der Verteilungen) von X und Y ist definiert durch
corr(X, Y ) := p
cov(X, Y )
.
V (X) · V (Y )
Zeigen Sie, dass immer −1 ≤ corr (X, Y ) ≤ 1 gilt. Hängen X und Y linear von einander
ab, etwa Y = aX + b mit a, b ∈ IR, dann gilt corr(X, Y ) = 1, falls a positiv ist, sowie
corr(X, Y ) = −1, falls a negativ ist.
18
Es folgt aus Satz 5.1 für unabhängige Zufallsvariable X, Y , dass cov(X, Y ) = 0 und
somit auch corr(X, Y ) = 0 sind. Im nächsten Beispiel lernen wir ein Paar stochastisch
abhängiger Zufallsvariablen X, Y kennen, für die corr(X, Y ) = 0 gilt. Also sind unkorrelierte Zufallsvariable X, Y : Ω → IR nicht notwendig stochastisch unabhängig. Denn
corr berücksichtigt nur die lineare Komponente der Abhängigkeit.
Beispiel 5.1
Es sei Ω ⊂ Z2 gegeben durch
Ω := {(j, k) : k − 4 ≤ j ≤ 4 − k, k = 0, 1, 2, 3, 4}.
Also besteht Ω aus |Ω| = 25 Punkten. Es sei P : Ω → IR die Gleichverteilung, also
P (ω) = 1/25, ω ∈ Ω. Die Zufallsvariablen X, Y : Ω → IR seien definiert durch
X(j, k) := j , Y (j, k) := k , (j, k) ∈ Ω.
Dann ist corr(X, Y ) = 0, aber X, Y sind stochastisch abhängig.
Beweis. Es ist
X k
X j
7∗1+5∗2+3∗3+1∗4
6
= 0 , E(Y ) =
=
=
E(X) =
25
25
25
5
(j,k)∈Ω
(j,k)∈Ω
und daher
6
cov(X, Y ) = E(X ∗ (Y − )) = 0
5
aus Gründen der Symmetrie bezüglich der y-Achse. Aber X und Y sind nicht stochastisch
unabhängig : z.B. gilt für r1 = r2 = 1, dass
P [X = 1] =
4
,
25
P [Y = 1] =
7
,
25
P [X = 1, Y = 1] =
1
4∗7
6=
.
25
25 ∗ 25
§6 Diskrete Verteilungsfamilien
1. Gleichverteilung, Laplacescher W-Raum
Sei Ω eine endliche Menge und P (ω) = 1/|Ω|, ω ∈ Ω. Dann heißt P : Ω → IR die
Gleichverteilung, und (Ω, P ) heißt Laplacescher W-Raum.
2. Bernoulli-Verteilung
Es sei Ω = {0, 1} und p ∈ IR, wobei 0 ≤ p ≤ 1. Sei P (0) = 1 − p, P (1) = p. Dann
heißt P Bernoulli-Verteilung zum Parameter p.
3. Binomialverteilung
Sei n ∈ IN, 0 < p < 1. Nach Beispiel 4.2 heißt eine Zufallsvariable X binomialverteilt, in Zeichen X ∼ B(n, p), falls
n k
p (1 − p)n−k , k = 0, 1, . . . , n,
P [X = k] =
k
mit E(X) = np und V (X) = np(1 − p)
19
Satz 6.1.
Es seien 0 < p < 1, m ∈ IN, n ∈ IN. Es seien X ∼ B(m, p) und Y ∼ B(n, p) binomialverteilte Zufallsvariable. Sind X und Y stochastisch unabhängig, dann gilt
X + Y = B(m + n, p).
Beweis. Es gilt
P [X + Y = k] =
k
X
j=0
P [X = j, Y = k − j],
0 ≤ k ≤ m + n,
und daher wegen der stochastischen Unabhängigkeit von X und Y
P [X + Y = k] =
k
X
j=0
P [X = j] P [Y = k − j],
0 ≤ k ≤ m + n.
(6.1)
Hieraus folgt
k X
n
m j
m−j
pk−j (1 − p)n−k+j
p (1 − p)
P [X + Y = k] =
k
−
j
j
j=0
k
= p (1 − p)
=
m+n−k
k X
n
m
k−j
j
j=0
m+n k
p (1 − p)m+n−k .
k
4. Geometrische Verteilung
Sei 0 ≤ p ≤ 1. Eine Zufallsvariable X heißt geometrisch verteilt zum Parameter p,
falls
P [X = k] = p · (1 − p)k−1 , k ∈ IN.
Dieser W-Raum beschreibt ”das Warten auf den ersten Erfolg”.
Beispiel 6.1 (W.A.Stahel, S.102)
Beim russischen Roulette wird ein Trommelrevolver mit sechs Patronenlagern mit einer
einzigen Kugel geladen. Jeder “Mitspieler” dreht mehrfach die Trommel bevor er abdrückt.
Wie groß ist die Wahrscheinlichkeit, dass erst der k-te Spieler getroffen wird ?
Antwort : Es ist für p = 1/6
P [X = k] = p · (1 − p)k−1 ,
20
k = 1, 2, . . . .
5. Poisson-Verteilung (Poisson [1781-1840])
Es sei λ > 0. Eine Zufallsvariable X heißt poissonverteilt zum Parameter λ, falls
P [X = k] =
λk −λ
e ,
k!
k ∈ IN0 ,
in Zeichen X ∼ P(λ). Es ist E(X) = λ und V (X) = λ.
Beispiel 6.2 (W.A.Stahel, S.97)
Der Regen fällt gleichmäßig auf eine Region. Wir messen die Anzahl der Regentropfen pro
Zeiteinheit auf einer kleinen Fläche F der Größe λ. Wir nehmen an, dass auf einer Fläche
der Größe n, n sehr groß, pro Zeiteinheit n Tropfen fallen. Wie groß ist die Wahrscheinlichkeit, dass auf die Fläche F in der Zeiteinheit genau k Tropfen fallen ?
Lösung:
Die zugehörige Zufallsvariable X ist offensichtlich binomialverteilt, X ∼ B(n, λ/n), also
ist für k ∈ IN0
λ n−k
n λ k
1−
,
P [X = k] =
n
n
k
und somit für großes n
λ n n(n − 1) · · · (n − k + 1) λk 1−
1−
P [X = k] =
k!
nk
n
λk λ n n(n − 1) · · · (n − k + 1) =
1−
1−
k!
n
nk
λk −λ
→
e
für n → ∞.
k!
λ −k
n
λ −k
n
Zu Beispiel 6.2 : Es sei M > 0. Es fallen pro Zeiteinheit n Tropfen auf die Fläche der
Größe M n. Wie groß ist die Wahrscheinlichkeit, dass auf die Fläche F der Größe λ in der
Zeiteinheit genau k Tropfen fallen, wenn n sehr groß ist ?
Antwort: Die Zufallsvariable X ist binomialverteilt, X ∼ B(n, λ/(M n)), also ist für
k ∈ IN0
λ k n
λ n−k
P [X = k] =
1−
,
k
Mn
Mn
und somit für großes n
lim P [X = k] =
n→∞
mit E(X) =
λ
M
und V (X) =
λ
M.
21
(λ/M )k −λ/M
e
,
k!
Satz 6.2.
Es sei 0 < λ ≤ ρ. Es seien X ∼ P(λ) und Y ∼ P(ρ) zwei poissonverteilte stochastisch
unabhängige Zufallsvariable. Dann gilt
X + Y = P(λ + ρ).
Beweis in den Übungen.
Beispiel 6.3 (Asbestfasern) (W.A.Stahel, S.159 )
In drei Messungen mit gleichem Volumen V = 0.005 m3 werden die Anzahlen x1 = 6,
x2 = 4, sowie x3 = 9 von Asbestfasern gefunden.
Wahrscheinlichkeitsmodell: Wie in Beispiel 6.2 der Regentropfen fassen wir das
Auftreten einer Asbestfaser als ”Ereignis” auf. Wenn diese ”Ereignisse” unabhängig von
einander auftreten, dann eignet sich für die Anzahlen x1 , x2 , x3 der gezählten Fasern als
Modell die poissonverteilten Zufallsvariablen Xi ∼ P(λ), i = 1, 2, 3.
Sind X1 , X2 , X3 stochastisch unabhängig, so ist nach Satz 6.2
X := X1 + X2 + X3 ∼ P(3λ).
Der ”wahrscheinlichste” Wert für den Parameter λ ist wegen E(X) = 3λ gegeben durch
das arithmetische Mittel der Messungen, also
λ≈
6+4+9
x1 + x2 + x3
=
= 6.333.
3
3
Dies entspricht einer Konzentration von
ρ=
6.333
= 1267 m−3 .
3
0.005m
Mehr hierzu werden wir in Kapitel 3 über Statistik erfahren.
6. Multinomiale Verteilung
Ein Experiment habe m mögliche Ergebnisse A1 , A2 , . . . , Am , wobei dieP
Wahrscheinm
lichkeit, dass das Ergebnis Aj eintritt gleich pj ist, j = 1, . . . , m, mit j=1 pj = 1.
Das Experiment werde n-mal durchgeführt. Dann ist die Wahrscheinlichkeit, dass das
Ergebnis A1 k1 -mal, das Ergebnis A2 k2 -mal, . . ., das Ergebnis Am km -mal auftritt,
k1 + k2 + · · · + km = n, gegeben durch
P (n, k1 , k2 , . . . , km ) =
n!
pk11 pk22 · · · pkmm .
k1 !k2 ! · · · km !
22
§7 Die Normalverteilung
Die wichtigste stetige Verteilung ist die Normalverteilung Φ. Die Dichte der StandardNormalverteilung ist gegeben durch die ”Gaußsche Glockenkurve”
1 −t2
φ(t) = √ e 2 ,
2π
t ∈ IR.
Gib hier eine Skizze des Graphen von φ.
Unter Verwendung der Formel
Z
∞
2
e−t dt =
√
π
−∞
rechnen wir nach, dass
Z
∞
φ(t)dt = 1.
−∞
Es ist φ eine gerade Funktion mit den Werten
φ(0) = 0.399,
φ(±1) = 0.242,
φ(±2) = 0.054
Die Standard-normalverteilte Zufallsvariable X : IR → IR ist definiert durch ihre
Verteilungsfunktion Φ
Z x
φ(t)dt, x ∈ IR.
Φ(x) := P [X ≤ x] =
(7.1)
−∞
Wir schreiben X ∼ N (0, 1). Es folgt aus (7.1), dass
P [a ≤ X ≤ b] =
Z
b
φ(t)dt,
a
für das Intervall [a, b], a < b.
Gib hier eine Skizze des Graphen von Φ.
Es gilt Φ(−x) = 1 − Φ(x) für alle x ∈ IR. Insbesondere ist Φ(0) = 0.5 ,
Φ(1) = 0.841,
Φ(−1) = 0.159,
Φ(2) = 0.977, Φ(−2) = 0.023,
Φ(3) = 0.99865, Φ(−3) = 0.00135,
Φ(1.645) = 0.95,
Φ(2.58) = 0.995,
Φ(−1.645) = 0.05,
Φ(−2.58) = 0.005.
23
(7.2)
Ziehen wir Satz 4.1 zurate, so ist der Erwartungswert der Standard-Normalverteilung
gegeben durch
Z ∞
tφ(t)dt = 0,
µ := E(X) =
−∞
sowie deren Varianz durch
2
V (X) := E((X − µ) ) =
Z
∞
t2 φ(t)dt = 1.
−∞
Definition
Seien µ ∈ IR und σ > 0 gegeben. Wir sagen :
Eine Zufallsvariable X ist normalverteilt mit Erwartungswert E(X) = µ und Varianz
V (X) = σ 2 und schreiben X ∼ N (µ, σ 2 ), falls die Dichtefunktion gegeben ist durch
φµ,σ (t) := √
−(t−µ)2
1
e 2σ2 ,
2πσ
t ∈ IR.
Daher ist die zu X ∼ N (µ, σ 2 ) gehörende Verteilungsfunktion Φ gegeben durch
1
Φµ,σ (x) = √
2πσ
Z
x
e
−(t−µ)2
2σ 2
dt,
−∞
x ∈ IR,
und die Wahrscheinlichkeit P [a ≤ X ≤ b] , dass X ∼ N (µ, σ 2 ) die Werte in einem Intervall
[a, b] annimmt, ist gegeben durch
P [a ≤ X ≤ b] = Φµ,σ (b) − Φµ,σ (a).
(7.3)
Den Zusammenhang zwischen Φµ,σ und der Standard-Normalverteilung Φ zeigt
Satz 7.1.
Sei µ ∈ IR und σ > 0. Dann gilt
Φµ,σ (x) = Φ
x − µ
σ
für alle x ∈ IR.
Beweis. Durch die Substitution t = µ + σs, s ∈ IR, wird
1
Φµ,σ (x) = √
2πσ
Z
x
e
−∞
−(t−µ)2
2σ 2
1
dt = √
2π
was wir zeigen wollten.
24
Z
x−µ
σ
−∞
e
−s2
2
ds = Φ
x − µ
,
σ
Aus (7.3) und den Werten in (7.2) folgt daher für X ∼ N (µ, σ 2 ), dass
P [µ − σ ≤ X ≤ µ + σ] = 0.682,
P [µ − 2σ ≤ X ≤ µ + 2σ] = 0.954,
P [µ − 3σ ≤ X ≤ µ + 3σ] = 0.9973,
P [µ − 1.645 σ ≤ X ≤ µ + 1.645 σ] = 0.9,
(7.4)
P [µ − 2.58 σ ≤ X ≤ µ + 2.58 σ] = 0.99.
In den Anwendungen werden wir die Werte in (7.4) runden und verwenden, dass
P [|X − µ| ≥ σ] ≈ 0.32 (= 32 Prozent),
P [|X − µ| ≥ 2σ] ≈ 0.05 (= 5 Prozent),
P [|X − µ| ≥ 3σ] ≈ 0.003 (= 0.3 Prozent).
Satz 7.2.
Die Zufallsvariablen Xj ∼ N (µj , σj2 ), j = 1, . . . , n, seien stochastisch unabhängig. Dann
Pn
ist auch deren Summe X := j=1 Xj normalverteilt, X ∼ N (µ∗ , ρ2 ), wobei
∗
µ :=
n
X
µj
,
2
ρ =
n
X
σj2 .
j=1
j=1
Beweis. Nicht vortragen
Als Übungsaufgabe ist der Fall n = 2 mit X1 , X2 ∼ N (0, σ 2 ) geeignet.
Bemerkung : Bei kontinuierlichen Verteilungen müssen wir den Begriff der stochastischen
Unabhängigkeit des §5 erweitern :
Es heißen die Zufallsvariablen (Xk )nk=1 stochastisch unabhängig, wenn für alle Intervalle (Ik )nk=1 gilt :
P [X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In ] =
n
Y
k=1
P [Xk ∈ Ik ].
Sind zum Beispiel X1 und X2 stochastisch unabhängige Zufallsvariable mit den Dichtefunktionen φ1 : IR → IR bzw. φ2 : IR → IR, so besitzt (vergleiche Beweis von Satz 6.1)
die Zufallsvariable X + Y die Dichtefunktion
Z ∞
w(x) =
φ1 (t)φ2 (x − t)dt, x ∈ IR.
−∞
Unter Anwendung dieser Formel beweist man Satz 7.2 für n = 2 durch geschicktes
Nachrechnen. Für n ≥ 3 folgt ein Induktionsbeweis. Hierbei muß man beachten, dass
25
für k = 2, . . . , n die Zufallsvariablen X1 + · · · + Xk−1 und Xk stochastisch unabhängig
sind.
Korollar 7.3.
Sei µ ∈ IR, sowie σ > 0. Die Zufallsvariablen Xj ∼ N (µ, σ 2 ), j = 1, . . . , n, seien
stochastisch unabhängig. Für deren arithmetisches Mittel
n
1X
Xj
Sn :=
n j=1
2
gilt Sn ∼ N (µ, σn ), sowie Zn :=
√
n
Sn
σ
∼ N (0, 1). Daher gilt
h
σx i
P Sn − µ ≤ √ = P [Zn ≤ x] = Φ(x),
n
und somit auch
h ασ
βσ i
= Φ(β) − Φ(α),
P √ ≤ Sn − µ ≤ √
n
n
für alle x ∈ IR,
−∞ < α < β < ∞.
2
Beweis. Wir beweisen, dass Sn ∼ N (µ, σn ):
Da X := X1 + X2 + · · · + Xn ∼ N (nµ, nσ 2), folgt für alle x ∈ IR
Z nx
(t−nµ)2
1
P [Sn ≤ x] = P [X ≤ nx] = √ √
e 2nσ2 dt.
2π( nσ) −∞
Wir substituieren t = ns und erhalten
1
P [Sn ≤ x] = √
√
2π(σ/ n)
Z
x
e
(s−µ)2
2σ 2 /n
ds.
−∞
2
Also ist Sn ∼ N (µ, σn ).
§8 Der Zentrale Grenzwertsatz
Es sei (Ω, P ) ein W-Raum. Wir betrachten nun Folgen X1 , X2 , X3 , . . . : Ω → IR von
Zufallsvariablen, die alle die gleiche Verteilungsfunktion haben und somit alle denselben
Erwartungswert µ := E(Xj ) und dieselbe Varianz σ 2 := V (Xj ), j = 1, 2, . . ., besitzen.
Wir nehmen an, dass für alle n = 2, 3, . . . die Zufallsvariablen X1 , X2 , . . . , Xn stochastisch
unabhängig sind. Für n ∈ IN bilden wir die Zufallsvariable
n
1X
Xj ,
Sn :=
n j=1
26
das arithmetische Mittel von X1 , . . . , Xn . Wir wissen, dass
σ2
.
E(Sn ) = µ , V (Sn ) =
n
Hierbei folgt die zweite Gleichung aus Satz 5.1 wegen
V (Sn ) =
(8.1)
n
1
σ2
1 X
V
(X
)
=
V
(X
+
X
+
·
·
·
+
X
)
=
.
j
1
2
n
n2
n2 j=1
n
Die Gleichungen in (8.1) besagen, dass die Zufallsvariablen Sn und X1 , . . . , Xn den gleichen
Erwartungswert µ haben, dass aber die Varianz von Sn um den Faktor 1/n kleiner ist.
Statt Sn betrachten wir nun die zugehörige standardisierte Zufallsvariable
√
n
Zn :=
(Sn − µ), n ∈ IN.
σ
Offensichtlich ist der Erwartungswert E(Zn ) = 0 und die Varianz
n
V (Zn ) = 2 V (Sn ) = 1.
σ
Ohne Beweis zitieren wir den folgenden berühmten Satz
Satz 8.1. (Zentraler Grenzwertsatz)
Es sei Φ die Standard-Normalverteilung (7.1). Sind die Zufallsvariablen (Xk )∞
k=1
stochastisch unabhängig und haben sie die gleiche Verteilungsfunktion, so gilt für die Folge
(Zn )∞
n=1 , dass
lim P [Zn ≤ x] = Φ(x), für alle x ∈ IR.
n→∞
Hierbei heißen die Zufallsvariablen (Xk )∞
k=1 stochastisch unabhängig, wenn für alle n ≥ 2
die Zufallsvariablen (Xk )nk=1 stochastisch unabhängig sind.
Korollar 8.2.
Seien α < β zwei reelle Zahlen. Unter den Voraussetzungen von Satz 8.1 ist
h ασ
βσ i
√
√
lim P
= Φ(β) − Φ(α).
≤ Sn − µ ≤
n→∞
n
n
Insbesondere gilt für genügend großes n näherungsweise
h
σ i
√
= 0.68
lim P |Sn − µ| ≤
n→∞
n
h
2σ i
= 0.954
lim P |Sn − µ| ≤ √
n→∞
n
3σ i
lim |Sn − µ| ≤ √
= 0.997.
n→∞
n
Der Zentrale Grenzwertsatz erklärt, warum die Normalverteilung Φ in der Statistik
eine so große Bedeutung hat. Mehr hierzu im nächsten Kapitel.
27
§9 Zufallszahlen
Zur Simulation von Experimenten sind Generatoren von Zufallszahlen unentbehrlich.
Dies sind Computer-Programme, die bei jedem Aufruf eine Zahl im Intervall [0, 1] (bei
vorgegebener Stellenzahl) erzeugen. Gute Programme simulieren die Gleichverteilung
möglichst genau. Dies bedeutet, dass bei n-maligem Aufruf die n erzeugten Zufallszahlen
möglichst gleich verteilt im Intervall [0, 1] liegen.
(a) Teilt man das Intervall [0, 1] in m Teilintervall 0 = x0 < x1 < · · · < xm−1 < xm = 1,
so sollten für großes n ungefähr (xj − xj−1 ) · n der n erzeugten Zahlen im Intervall
[xj−1 , xj ] liegen. Im Falle m = 6 und der Wahl xj = j/6, j = 0, . . . , 6, kann man so
das n-malige Würfeln mit einem Laplace-Würfel simulieren.
(b) An einen Zufallsgenerator müssen wir aber noch weitere Ansprüche stellen. Zum
Beispiel sollten je zwei (oder 3, 4, 5) aufeinanderfolgende Zufallszahlen von einander unabhängig sein. Im Idealfall, wenn der j-te Aufruf einer gleichverteilten Zufallsvariablen Xj entspricht, müßten die Zufallsvariablen X1 , . . . , Xn der Definition
der stochastischen Unabhängigkeit des §5 genügen.
Doch sind Zufallszahlen nie stochastisch unabhängig. Das Programm erzeugt nämlich
die Zufallszahlen nach einer deterministischen Formel, in der auch die vorher erzeugten
Zufallszahlen eingehen. Also Vorsicht !
Zum Beispiel erzeugt der Computer in meinem Pascal-Programm immer die gleichen
Zufallszahlen.
28
Kapitel 3.
Statistik
§1 Schätzungen von Erwartungswert und Varianz
Beispiel 1.1
Wir wollen die Fallbeschleunigung g ≈ 9.81 m s−2 am Hubland in Würzburg genau bestimmen. Im physikalischen Versuch wird g aber nicht exakt gemessen, da ”zufällige Fehler”
auftreten. Daher wird der Versuch n-mal durchgeführt und liefert die Ergebnisse (Daten,
Stichproben, zufällige Stichproben) g1 , g2 , . . . , gn . Hieraus berechnen wir den Mittelwert
n
1X
gj
n
sn :=
j=1
als Schätzung für g. Als Schätzung der Varianz der zufälligen Meßfehler nehmen wir die
Zahl
n
1 X
(gj − sn )2 .
(1.1)
qn :=
n−1
j=1
Die (empirische) Standardabweichung der Stichprobe ist dann
Warum im Nenner in (1.1) die Zahl n − 1, aber nicht n?
√
qn .
Um dies zu erklären, kehren wir zurück zu §5 : Wir nehmen an,
• der die zufälligen Fehler verursachende W-Raum sei unbekannt,
• die den n Messungen zugrunde liegenden Zufallsvariable Xj = g + Fj , Fj = zufälliger
Fehler, j = 1, . . . , n, seien stochastisch unabhängig und haben die gleiche Verteilungsfunktion und somit denselben (unbekannten) Erwartungswert µ := g und dieselbe
(unbekannte) Varianz σ 2 .
Wahrscheinlichkeitsmodell: Nach §5 oder §8 hat die Zufallsvariable
n
1X
Xj ,
Sn :=
n j=1
die Eigenschaften
E(Sn ) = µ
,
V (Sn ) =
σ2
.
n
Die (1.1) entsprechende Zufallsvariable
n
1 X
(Xj − Sn )2
Qn :=
n−1
(1.2)
j=1
ist erwartungtreu, das heißt hat den Erwartungswert
E(Qn ) = σ 2 .
29
(1.3)
Beweis von (1.3)
Nach der Steinerschen Formel (Satz 4.2, Kap.2) für Sn ist
V (Sn ) = E(Sn2 ) − (E(Sn ))2 ,
und somit
E(Sn2 ) = V (Sn ) + (E(Sn ))2 =
σ2
+ µ2 .
n
(1.4)
Für j = 1, . . . , n gilt nach der Steinerschen Formel
V (Xj ) = E(Xj2 ) − (E(Xj ))2 ,
und somit
E(Xj2 ) = V (Xj ) + (E(Xj ))2 = σ 2 + µ2 ,
Des weiteren ist
Qn =
j = 1, . . . , n.
(1.5)
n
n
X
X
1
Xj2 − 2Sn
Xj + nSn2
n − 1 j=1
j=1
n
X
1
=
Xj2 − 2nSn2 + nSn2
n − 1 j=1
n
X
1
=
Xj2 − nSn2 .
n − 1 j=1
Setzen wir nun (1.5) und (1.4) ein, so folgt wegen der Linearität von E
E(Qn ) =
1
(nσ 2 + nµ2 − σ 2 − nµ2 ) = σ 2 .
n−1
Also gilt (1.3).
Nehmen wir in Beispiel 1.1 an, dass die Zufallsvariable Sn (nahezu) Sn ∼ N (g, σ 2/n)
erfüllt (vergleiche Korollar 7.3 oder Zentraler Grenzwertsatz Satz 8.1 mit Korollar 8.2).
√
Des weiteren sei σ ungefähr gleich qn . Folglich gilt, dass
√ i
h
qn
P |sn − g| ≤ √
≈ 0.68
n
√
h
2 qn i
P |sn − g| ≤ √
≈ 0.954
n
√
h
3 qn i
P |sn − g| ≤ √
≈ 0.997.
n
Beispiel 1.2 (aus Stahel, 147i)
Wir betrachten eine Waage mit Meßfehlern X ∼ N (0, σ 2) mit σ = 0.63 mg. Wir möchten
30
erreichen, dass das Meßergebnis mit einer Wahrscheinlichkeit von 95% um nicht mehr als
0.5 mg vom wahren Wert abweicht.
Lösung. Führen wir n unabhängige Messungen durch, so gilt nach Korollar 7.3, Kap.2,
dass
h
2σ i
2σ
≈ 0.954
(1.6)
P − √ ≤ Sn − µ ≤ √
n
n
Wegen σ = 0.63 mg und der Bedingung
2σ
√
≤ 0.5mg
n
führt dies zu
√
n ≥ 4 · 0.63 = 2.52 und somit zu n ≥ 7.
§2 Statistische Tests
Beispiel 2.1
Beim Würfelspiel behauptet ein Spieler, dass die Sechs zu selten gewürfelt wird. Wir
wollen experimentell überprüfen, ob die Sechs mit der Wahrscheinlichkeit p = 1/6 auftritt.
Zu diesem Zwecke würfeln wir 60 mal. Hierbei tritt die Sechs x-mal auf. Die Frage ist
nun, für welche Zahlen x geben wir dem Mitspieler recht ?
Sei n = 60 und p = 1/6. Wie in Beispiel 5.2 zur Binomialverteilung ist
n k
p (1 − p)n−k ,
P [X = k] = Pn (k) =
k
k = 0, 1, . . . , n,
die Wahrscheinlichkeit, dass die Anzahl der Sechser bei 60 Würfen genau k ist. Daher
bezeichnet
k
X
P [X ≤ k] =
Pn (j), k = 0, 1, . . . , n,
j=0
die Wahrscheinlichkeit, dass die Anzahl der Sechser bei 60 Würfen höchstens k ist. Eine
kurze Rechnung zeigt, dass
P [X = 0] = 0.000018
P [X ≤ 1] = 0.000231
P [X ≤ 2] = 0.001487
P [X ≤ 3] = 0.006346
P [X ≤ 4] = 0.020192
P [X ≤ 5] = 0.051208
P [X ≤ 6] = 0.108071
P [X ≤ 7] = 0.195803
31
Es soll nun eine sogenannte Nullhypothese überprüft werden. In Beispiel 2.1 ist die
Nullhypothese : p = 1/6 (oder p ≥ 1/6).
In einem statistischen Test wird festgelegt, für welche der möglichen Wert x die Nullhypothese H0 ablehnt wird. Hierbei gilt meist ”im Zweifel für den Angeklagten”, das heißt,
man will möglichst vermeiden, eine richtige H0 abzulehnen. Dafür riskiert man lieber, eine
falsche H0 nicht abzulehnen. Also legt man ein sogenanntes Signifikanz-Niveau α fest,
0 < α < 1, dass klein ist, häufig α = 0.1 oder α = 0.05 oder noch kleiner. Hierbei bedeutet
Signifikanz-Niveau α, dass die Wahrscheinlichkeit höchstens gleich α ist, eine richtige
Nullhypothese abzulehnen.
Sehr häufig wählt man das Signifikanz-Niveau α = 0.05
Zurück zu Beispiel 2.1 :
bei α = 0.15 lehnen wir H0 für x ≤ 6 Sechser ab, denn P [X ≤ 6] = 0.108
bei α = 0.06 lehnen wir H0 für x ≤ 5 Sechser ab.denn P [X ≤ 5] = 0.0512
Beispiel 2.2 (Qualitätskontrolle)
Eine große Ladung Eier soll geprüft werden. Der ausgehandelte Preis soll akzeptiert werden, wenn das durchschnittliche Gewicht der Eier mindestens 76.0 g beträgt.
Es wird eine zufällige Stichprobe von n = 25 Eiern entnommen. Nach den Formeln des
√
§1 berechnen wir den Mittelwert sn = 75.6 g und die Standardabweichung qn = 1.0 g.
Wird der ausgehandelte Preis bei einem Signifikanz-Niveau α = 0.05 akzeptiert?
Lösung.
Wir nehmen an, dass der zufällige Fehler normalverteilt ist mit Erwartungswert 0 g und
√
der Standardabweichung σ ≈ qn = 1.0 g.
Nullhypothese:
µ = 76.0 g.
Unter Verwendung von §1 ist dann (in Gramm)
E(Sn ) = µ = 76.0 ,
V (Sn ) =
σ2
qn
1
≈
= .
n
n
n
Wir verwenden Korollar 7.3,
σx
P [Sn ≤ µ + √ ] = Φ(x),
n
für alle x ∈ IR.
Hierin müssen wir x bestimmen aus
σx
√ = −0.4,
n
also ist
Also ist
√
0.4 n
= −2.0.
x=−
σ
h
i
P Sn − µ ≤ −0.4 = Φ(−2) = 0.023.
32
Wegen des Signifikanz-Niveaus α = 0.05 lehnen wir die Nullhypothese ab.
Wichtige Werte von Φ :
Φ(−2) = 0.023,
Φ(−1.96) = 0.025,
Φ(−1.645) = 0.05,
Φ(1.96) − Φ(−1.96) = 0.95,
Φ(1.645) − Φ(−1.645) = 0.90.
Beispiel 2.3 (Stahel 159 b-g, 161, 162 b, 174 c, 176 h)
Der Grenzwert für lungengängige Asbestfasern ist 1000 Fasern pro m3 .
• Die Messung der Konzentration ist ist sehr aufwendig. Daher versucht man, nur ein
möglichst kleines Luftvolumen v zu untersuchen.
• Höhere Konzentrationen machen sehr teure Sanierungsmassnahmen notwendig. Daher
wird das Signifikanz-Niveau α möglichst klein gewählt.
Es seien drei Messungen mit dem Volumen v = 0.005m3 durchgeführt worden.
Die beobachteten Anzahlen der kritischen Fasern seien x1 = 6, x2 = 4 und x3 = 9. Das
ergibt eine Konzentration von 19 Fasern in 0.015m3 oder 1267 Fasern pro m3 .
Der Grenzwert ist also überschritten. Aber hat sich der überhöhte Wert rein zufällig
ergeben? Zum Beispiel wäre ohne die dritte Messung der Grenzwert nicht überschritten.
Die Frage ist daher : Können sich bei einer tatsächlichen Konzentration von µ ≤ 1000/m3
Beobachtungen der Höhe 1267 mit einer nicht zu kleinen Wahrscheinlichkeit ergeben ?
Wahrscheinlichkeitsmodell:
Wir fassen das Auftreten einer Faser als Ereignis auf. Wenn diese Ereignisse unabhängig
von einander auftreten, so eignet sich für die Anzahl X der auf einem Filter des Volumens
v gezählten Fasern als Modell die Poisson-Verteilung. Der Parameter λ gibt den Erwartungswert dieser Anzahl an : Ist µ die wahre Konzentration pro m3 , dann ist λ = µv
der Erwartungswert der Faserzahl in jeder Zählung. Also sind
Xj ∼ P(λ),
j = 1, 2, 3.
Wir wollen jetzt die beobachteten Werte x1 = 6, x2 = 4, x3 = 9 auswerten, und zwar im
Sinne von §1 - §2 :
Nach §1 berechnen wir
19
1
(6 + 4 + 9) =
= 6.33,
3
3
so dass der Wert λ = 6.33 als der plausibelste erscheint. Aber der Grenzwert 1000 Fasern
pro m3 entspricht 5 Fasern pro Volumen v = 0.005m3 , also dem Wert λ0 = 5
sn =
Nach §2 müssen wir die Frage beantworten, ob für die beobachteten Werte x1 = 6, x2 = 4,
x3 = 9 die Aussage Xj ∼ P(5), j = 1, 2, 3, noch plausibel ist. Wir wissen aus Beispiel 6.3,
Kapitel 2, , dass dann
X := X1 + X2 + X3 ∼ P(15)
33
plausibel ist. Also müssen wir die Frage beantworten, ob x = x1 + x2 + x3 = 19 mit nicht
zu geringer Wahrscheinlichkeit für X ∼ P(15) eintreten kann. Es ist
P [X ≥ 19] = 1 −
18
X
15k
k=0
k!
e−15 = 0.181.
Also würde man bei einem Signifikanz-Niveau α = 0.05 oder α = 0.1 die Nullhypothese
λ = 15 nicht ablehnen.
§3 Vertrauensintervalle
Bei den statistischen Tests des §2 gehen wir von einem Wahrscheinlichkeitsmodell
aus, in dem die Verteilungsfunktion vorgegeben ist, und berechnen den Annahmebereich
(abhängig vom Signifikanzniveau α). Fallen die Beobachtungen (Messungen) in diesen
Annahmebereich, so werden die vorgegeben Parameter akzeptiert..
Etwa in Beispiel 2.2 ist die Verteilungsfunktionm Φµ,σ/√n als gegeben vorausgesetzt mit
σ = 1, µ = 76.0g und n = 25. Der Annahmebereich besteht aus allen Messungen sn
mit der Eigenschaft
√
n(sn − µ) Φµ,σ/√n (sn ) = Φ
≤ α.
σ
Wegen α = 0.05 und Φ(−1.645) = 0.05 folgt
sn ≥ µ −
1.645 · σ
√
,
n
(3.1)
also sn ≥ 75.67. Der linksseitige Annahmebereich für sn ist also das Intervall [75.67, 76.0].
Bei der Bestimmung von Vertrauensintervallen für die Normalverteilung mit
bekannter Varianz σ 2 , gehen wir von der beobachteten Zahl sn aus und berechnen die
Parameterwerte µ, die mit der Beobachtung sn verträglich sind. Diese Werte bilden ein
Intervall.
Das rechtssseitige 95%-Vertrauensintervall für den Parameter µ berechnen wir mit Hilfe
von (3.1): Der Parameter µ, µ ≥ sn , gehört zum Vertrauensintervall, falls
µ ≤ sn +
1.645 · σ
√
.
n
Das linksseitige 95%-Vertrauensintervall für den Parameter µ besteht aus allen µ, µ ≤ sn ,
mit
1.645 · σ
.
µ ≥ sn − √
n
Das Intervall
1.645 · σ 1.645 · σ
, sn + √
sn − √
n
n
34
heißt 90%-Vertrauensintervall für µ bei gegebener Messung sn .
Das Intervall
1.96 · σ 1.96 · σ
, sn + √
sn − √
n
n
heißt 95%-Vertrauensintervall für µ bei gegebener Messung sn , denn es ist Φ(−1.96) =
0.025 und Φ(1.96) − Φ(−1.96) = 0.95.
35
Anhang :
Stochastische Prozesse
Beispiel (Epidemie)
Wir beschreiben eine ansteckende Krankheit mit folgendem sehr einfachen Modell : Am
Anfang seien x0 Personen gesund, aber ansteckbar, sowie y0 Personen krank und ansteckend. Die Wahrscheinlichkeit, dass sich genau ein Gesunder in einem Zeitintervall ansteckt,
sei proportional zur Anzahl y0 , also gleich βy0 , 0 < β < 1. Die Wahrscheinlichkeit, dass
genau ein Ansteckender in diesem Zeitintervall nicht mehr ansteckend und damit immun
wird, sei γ, 0 < γ < 1. Das Zeitintervall sei so klein gewählt, dass die Wahrscheinlichkeit,
dass darin zwei Personen krank oder immun werden, vernachlässigbar ist.
Dann erhält man für die Anzahl X (1) der Ansteckbaren und Y (1) der Ansteckenden nach
dem Zeitintervall die gemeinsame Verteilung
P [X (1) = x0 − 1, Y (1) = y0 + 1] = βx0 y0
P [X (1) = x0 , Y (1) = y0 − 1] = γy0
P [X (1) = x0 , Y (1) = y0 ] = 1 − βx0 y0 − γy0 .
Die bedingten Wahrscheinlichkeiten für X (2) und Y (2) für gegebene Anzahlen X (1) = x1 ,
Y (1) = y1 , erfüllen die gleichen Formeln. Man erhält so rekursiv die Wahrscheinlichkeit
für alle späteren Zeitpunkte. In diesem einfachen Modell haben wir angenommen, dass
die Krankheit zur Immunität führt und dass keine neue Individuen dazukommen, so dass
schließlich alle (oder fast alle) zunächst krank und später immun werden.
Ein zeitdiskreter stochastischer Prozess auf einem W-Raum (Ω, P ) ist eine Folge (Xt )t∈IN0
von Zufallsvariablen Xt : Ω → S, wobei Ω keine Rolle spielt. Beachte : Jede Komponente
von Xt ist eine Zufallsvariable.
Im obigen Beispiel der Epidemie sind Xt = (X (t) , Y (t) ), t = 0, 1, . . ., sowie S ⊂ IN0 × IN0 .
Man interpretiert Xt als Zustand eines Systems zum Zeitpunkt t. Ein solcher Prozess heißt
Markoffkette, falls die folgende Markoff-Bedingung erfüllt ist:
P [Xt+1 = rt+1 | Xj = rj , 0 ≤ j ≤ t] = P [Xt+1 = rt+1 | Xt = rt ]
für alle (r0 , r1 , . . . , rt ) ∈ IRt+1 ,
mit der Konvention, dass bedingte Wahrscheinlichkeiten 0 sind, wenn der Nenner 0 ist.
Die Markov-Bedingung wird auch als ”Gedächtnislosigkeit” bezeichnet, das heißt, die
Wahrscheinlichkeit für den Übergang vom Zustand Xt = rt zum Zustand Xt+1 = rt+1
hängt nicht von den früheren Zuständen r0 , r1 , . . . , rt−1 ab.
Zusätzlich wird verlangt :
1. Es gibt nur endlich viele Zustände, das heißt, Xt : Ω → S für t ∈ IN0 mit einer
endlichen Menge S.
2. Der Prozess ist zeithomogen, das heißt, die sog. Übergangswahrscheinlichkeit
P [Xt+1 = u | Xt = v]
hängt nicht von t ∈ IN0 ab, für alle u, v ∈ S.
finis WS 2015/16
36
Herunterladen