Skriptum zur Vorlesung im WS 2015/16 Stochastik für Informatiker (Mathematik für Informatiker III) Prof. Dr. M. v. Golitschek Kapitel 1 : Grundlagen der Kombinatorik §1. Binomialkoeffizienten §2. Abbildungen auf endlichen Mengen §3. Die Siebformel §4. Beispiele aus der Diskreten Wahrscheinlichkeitsrechnung Kapitel 2. Wahrscheinlichkeitsrechnung §1. Wahrscheinlichkeit §2. Bedingte Wahrscheinlichkeit §3. Satz von Bayes §4. Zufallsvariable §5. Paare und Summen von Zufallsvariablen §6. Diskrete Verteilungsfamilien §7. Die Normalverteilung §8. Der Zentrale Grenzwertsatz §9. Zufallszahlen Kapitel 3. Statistik §1. Schätzungen von Erwartungswert und Varianz §2. Statistische Tests §3. Vertrauensintervalle Anhang : Stochastische Prozesse Literatur D. Hachenberger : Mathematik für Informatiker, Pearson Studium, 2005 N. Henze, Stochastik für Einsteiger, 2008, Vieweg Th. Ihringer : Diskrete Mathematik, Heldermann Verlag, 2002. T. Schickinger, A. Steger, Diskrete Strukturen 1 (Kombinatorik, Graphentheorie, Algebra), Springer Verlag. T. Schickinger, A. Steger, Diskrete Strukturen 2 (Statistik), Springer Verlag. W. A. Stahel, Statistische Datenanalyse, 2. Aufl., 1999, Vieweg. 1 Kapitel 1 : Grundlagen der Kombinatorik Die Kombinatorik beschäftigt sich, einfach gesagt, mit dem Abzählen endlicher Mengen. §1. Binomialkoeffizienten In der Analysis wurde der wichtige Binomische Lehrsatz behandelt. Satz 1.1. Es seien x und y reelle (oder komplexe) Zahlen. Es sei n ∈ IN. Dann gilt n X n k n−k n x y . (x + y) = k k=0 Hierbei wurden folgende Definitionen verwendet : | ), x0 := 1 für alle x ∈ IR (x ∈ C n 0 := 1 , 0! := 1, := 1 , 0 0 n! n := , 1 ≤ k ≤ n, k k!(n − k)! n := 0, k > n, k < 0. k Aus Satz 1.1 folgt n X n k=0 k =2 n , n X k=0 n = 0, (−1) k k wenn man x = y = 1 bzw. x = −1,y = 1 wählt. Aus der Definition von nk folgen leicht die Formeln n n , 0 ≤ k ≤ n, = k n−k n n n+1 , 0 ≤ k ≤ n + 1. + = k k−1 k Diese letzte Formel kann man auch in Form des Pascalschen Dreiecks schreiben. Im Zahlenlotto und verwandten Anwendungen der Binomialkoeffizienten taucht die folgende Frage auf : Problem : Gegeben sei eine endliche Menge A, sowie k ∈ IN mit 1 ≤ k ≤ |A|. Wieviele k-elementige Teilmengen von A gibt es ? Diese Anzahl bezeichnen wir mit zk (|A|). Lösung des Problems: Wir schreiben n := |A|. Für k = 1 ist offensichtlich z1 (n) = n = n ist zn (n) = 1 = n . 2 n 1 , und im Falle k = n Satz 1.2. Es gilt n , zk (n) = k 1 ≤ k ≤ n. Beweis. Wir führen einen Induktionsbeweis nach n. Im Falle n = 1 ist Satz 1.2 richtig. Annahme : Satz 1.2 sei richtig für ein n ∈ IN. Beweis für n + 1 : Wie schon erwähnt, gilt zk (n + 1) = n+1 für k = 1 und k = n + 1. Sei nun also k 2 ≤ k ≤ n. Wir nummerieren die Elemente von A durch, also A = {a1 , . . . , an+1 }. Nach unserer Induktionsannahme gibt es n Teilmengen von A, deren Elemente alle in {a1 , . . . , an } liegen, sowie k k-elementigen n k-elementigen Teilmengen von A, in denen an+1 vorkommt. k−1 Da die beiden Teilmengen disjunkt sind, ist n+1 n n , = + zk (n + 1) = k k−1 k was wir beweisen wollten. §2. Abbildungen auf endlichen Mengen In diesem Paragraphen seien A und B endliche Mengen mit m := |A| und n := |B|, m, n ≥ 1. Satz 2.1. Sei m ≤ n. Die Anzahl Im,n der injektiven Abbildungen von A nach B ist Im,n = n! = n(n − 1) · · · (n − m + 1). (n − m)! Beweis. Es seien die Elemente von A und B irgendwie nummeriert, also A = {a1 , . . . , am }, B = {b1 , . . . , bn }. Um die verschiedenen Injektionen f : A → B zu zählen, beachten wir, dass es für f (a1 ) genau die n verschiedenen Werte {b1 , . . . , bn } gibt. Also ist I1,n = n. Ist m ≥ 2, so gibt es wegen der Injektivität von f für f (a2 ) nur noch die n − 1 möglichen Werte {b1 , . . . , bn } \ {f (a1 )}. Also ist I2,n = n(n − 1). Und so weiter für m ≥ 3. Perfektionisten können so einen induktiven Beweis führen. Korollar 2.2. Sei A = B, n := |A|. Die Anzahl der Bijektionen f : A → A ist n!. Permutationen der Zahlen INn := {1, 2, . . . , n} sind die bijektiven Abbildungen von INn auf sich. Also folgt aus Korollar 2.2 3 Korollar 2.3. Es gibt n! Permutationen der Zahlen {1, 2, . . . , n}. Beispiel 2.1 Es sei {a, b, . . . , z} die Menge aller n = 26 Buchstaben (ohne ä,ö,ü,ß). Dann gibt es offenssichtlich 263 Buchstabenfolgen der Länge 3. Wieviele davon bestehen aus 3 verschiedenen Buchstaben ? Wir wenden Satz 2.1 an für A := {1, 2, 3} und B := {a, b, . . . , z}. Dann ist m := |A| = 3 und n := |B| = 26. Die Anzahl der Injektionen von A nach B ist n(n−1)(n−2) = 26∗25∗24. §3. Die Siebformel Eine wichtige Formel der Kombinatorik ist die Siebformel. Satz 3.1. (Siebformel) Es sei Ω eine endliche Menge, sowie Ω1 , . . . , Ωn nichtleere Teilmengen von Ω, so dass Ω := n [ Ωj . j=1 Wir schreiben I := {1, 2, . . . , n}. Dann ist \ X Ωj = 0. |Ω| + (−1)|J| j∈J J6=∅: J⊆I Wir wollen die Siebformel nicht beweisen, sondern uns mit Beispielen begnügen. Beispiel 3.1. Es seien Ω1 und Ω2 nichtleere Teilmengen der endlichen Menge Ω, wobei Ω = Ω1 ∪ Ω2 . Nach der Siebformel mit I = {1, 2} ist dann |Ω| − |Ω1 | − |Ω2 | + |Ω1 ∩ Ω2 | = 0. Beispiel 3.2. Es seien Ω1 , Ω2 , Ω3 nichtleere Teilmengen der endlichen Menge Ω, wobei Ω = Ω1 ∪ Ω2 ∪ Ω3 . Nach der Siebformel mit I = {1, 2, 3} ist dann |Ω| − |Ω1 | − |Ω2 | − |Ω3 | + |Ω1 ∩ Ω2 | + |Ω1 ∩ Ω3 | + |Ω2 ∩ Ω3 | − |Ω1 ∩ Ω2 ∩ Ω3 | = 0. Beispiel 3.3. An einem Tanzkurs nehmen n Ehepaare teil. Damit die Ehepaare nicht immer nur miteinander tanzen, werden die Tanzpaare ausgelost. Beweisen Sie : Die Wahrscheinlichkeit, dass kein einziges Ehepaar zusammentanzt, ist gegeben durch pn := n X (−1)k k=0 4 k! . Beweis. Es sei Ω∗ die Menge aller Permutationen der Zahlen 1, 2, . . . , n. Wir wählen in Satz 3.1 Ωj = {ω = (i1 , i2 , . . . , in ) ∈ Ω∗ : ij = j}, j = 1, . . . , n. Es bedeute ω ∈ Ωj , dass das Ehepaar Nr. j miteinander tanzt. Dann ist Ω := ∪nj=1 Ωj die Menge aller Permutationen, in der mindestens ein Ehepaar miteinander tanzt. Für I := {1, 2, . . . , n} und J ⊆ I ist \ Ωj = (n − |J|)!. j∈J Außerdem gibt es n k Teilmengen J ⊆ I mit |J| = k. Daher folgt aus Satz 3.1, dass n n X X n! k n (n − k)! = (−1)k+1 . |Ω| = − (−1) k k! k=1 k=1 Da es n! Permutationen der Zahlen 1, 2, . . . , n gibt, ist n n k=1 k=0 X X (−1)k n! − |Ω| 1 pn = =1− (−1)k+1 = , n! k! k! q.e.d Zum Abschluß dieses Paragraphen wollen wir nun die Anzahl der surjektiven Abbildungen f : A → B zählen. Satz 3.2. Seien A und B endliche Mengen mit m := |A|, n := |B|, sowie n ≤ m. Die Anzahl Sm,n der surjektiven Abbildungen von A nach B ist n X n−k n km . (−1) Sm,n = k k=1 Beweis. Sei B = {b1 , . . . , bn }, I = {1, . . . , n}. Wir definieren die Mengen Ωj := {f : A → B : {bj } 6∈ f (A)}, sowie Ω := Sn j=1 Ωj . Für J ⊆ I ist \ Ωj = {f : A → B : f (A) ⊆ j∈J T so dass j∈J Ωj = (n − |J|)m . Zu J ⊆ I gibt es Daher ergibt die Siebformel |Ω| = − X J⊆I (−1) j = 1, . . . , n, [ j∈I,j6∈J n k {bj }}, Teilmengen J ⊆ I mit |J| = k. n \ X k n (n − k)m . (−1) Ωj = − k |J| j∈J k=1 5 Es ist f : A → B surjektiv genau dann, wenn f 6∈ Ω. Also ist Sm,n n X k n m (n − k)m (−1) = {f : A → B} − |Ω| = n + k k=1 n−1 n−1 X X n n−j n m m m k nm (−1) (n − k) = n + =n + (−1) j n−k j=1 k=1 §4. Beispiele aus der Diskreten Wahrscheinlichkeitsrechnung In der diskreten Stochastik ist der Ereignisraum Ω eine endliche oder abzählbar unendliche Menge. In der kontinuierlichen Stochastik ist Ω überabzählbar. Die Wahrscheinlichkeit P (Ω) von Ω wird stets durch P (Ω) = 1 festgelegt ( P : probability). In Kapitel 2 und Kapitel 3 werden wir tiefer in die Theorie der Diskreten Stochastik einsteigen. Definition. Sei Ω endlich oder abzählbar unendlich. Dann heißt jede Teilmenge A von Ω ein Ereignis. In diesem Paragraphen soll Ω = {ω1 , . . . , ωn } endlich sein, und die Elementarereignisse ω1 , . . . , ωn sollen gleichwahrscheinlich sein, also P (ωj ) = 1/n, j = 1, . . . , n. Dann gilt für alle Ereignisse A, dass P (A) = |A|/n (Wahrscheinlichkeit oder relative Häufigkeit des Ereignisses A). Beispiel 4.1 (Zahlenlotto) Ein Spieler gibt einen Lottotip bestehend aus 6 verschiedenen Zahlen aus {1, 2, . . . , 49} ab. Wie groß ist die Wahrscheinlichkeit, dass er einen Vierer hat ? Wir können annehmen, dass die Zahlen {1, 2, 3, 4, 5, 6} gewinnen. Es ist Ω = {ω : ω ⊆ {1, 2, . . . , 49}, |ω| = 6}. Wir wissen, dass |Ω| = 49 ist. Der Spieler hat genau dann einen Vierer, 6 = 13.983.816 6 wenn vier der Zahlen {1, . . . , 6} ( = 4 Möglichkeiten) und zwei der Zahlen {7, 8, . . . , 49} 43 6 ( = 43 2 Möglichkeiten) gewählt hat. Dies sind also 4 ∗ 2 mögliche Lottotips, die einen Vierer gewinnen. Also ist die Wahrscheinlichkeit 43 6 ∗ 2 4 = 0.000969. 49 6 In dieser Weise können wir auch beantworten, wie groß die Wahrscheinlichkeit ist, q ∈ {0, 1, 2, 3, 4, 5, 6} richtige Zahlen zu haben : 6 43 ∗ q 6−q . 49 6 6 q = 0 : 0.436 q = 1 : 0.413 q = 2 : 0.132 q = 3 : 0.0177 q = 4 : 0.000969 q = 5 : 0.0000184 q = 6 : 0.0000000715 = 1/|Ω| Beispiel 4.2 Wie groß ist die Wahrscheinlichkeit, dass beim Skat der Spieler 1 alle vier Buben erhält ? Wir nummerieren die Karten von 1 bis 32 durch und geben den Buben die Nummern 1, 2, 3, 4. Es ist (bezogen auf den Spieler 1) Ω = {ω : ω ⊆ {1, 2, . . . , 32}, |ω| = 10}. Wir wissen, dass |Ω| = 32 ist. Aber in wieviel 10-er Mengen ist {1, 2, 3, 4} enthalten? 10 Dies sind alle 10-er Mengen, in denen aus den Zahlen {5, . . . , 32} genau 6 beliebig gewählt werden können, als insgesamt 28 . 6 Ergebnis : Die Wahrscheinlichkeit ist 28 6 32 10 = 10 · 9 · 8 · 7 = 0.00586. 32 · 31 · 30 · 29 Manchmal ist es bequemer, nicht mit Mengen, sondern mit endlichen Folgen zu rechnen : Dann interpretieren wir das Austeilen der Karten als eine Permutation der Zahlen {1, 2, . . . , 32}, die ersten 10 Zahlen der Permutation als die Karten von Spieler 1. Es gibt 32! Permutationen. Es gibt 10 · 9 · 8 · 7 · 28! Permutationen, bei denen die Zahlen 1, 2, 3, 4 unter den ersten 10 Zahlen auftauchen. Also ist die gesuchte Wahrscheinlichkeit 10 · 9 · 8 · 7 10 · 9 · 8 · 7 · 28! = . 32! 32 · 31 · 30 · 29 7 Kapitel 2 : Wahrscheinlichkeitsrechnung §1 Wahrscheinlichkeit Der Begriff der Wahrscheinlichkeit ist grundlegend zur Erfassung und Beschreibung ”zufälliger Vorgänge”. Denken wir an einen Zahlenwürfel mit den Zahlen Ω = {1, 2, . . . , 6} (Sechserwürfel). Wir sagen : ”Die Wahrscheinlichkeit, eine Zahl j ∈ Ω zu würfeln, ist P ({j}) = 1/6”. Dies bedeutet zum Beispiel, dass wir bei n Würfen erwarten, dass die Anzahl n1 von Einsern ungefähr n/6 ist. Oder genauer, dass die relative Häufigkeit n1 /n die Bedingung 1 n1 lim = n→∞ n 6 erfüllt. Ausgehend von diesem Beispiel wollen wir nun in die Theorie der Wahrscheinlichkeiten eindringen.. Definition (W-Raum) Es sei Ω eine nichtleere endliche oder abzählbare Menge. Es sei P : Ω → IR eine Abbildung, so dass P P (ω) ≥ 0 für alle ω ∈ Ω, sowie ω∈Ω P (ω) = 1 ist. Es wird P fortgesetzt (erweitert) zu einer Abbildung P : 2Ω → IR durch P (∅) := 0 und P (A) := X ω∈A P (ω) für alle A ⊆ Ω. Dann heißt das Paar (Ω, P ) diskreter Wahrscheinlichkeitsraum , kurz W-Raum. Jedes ω ∈ Ω heißt Elementarereignis. Die Teilmengen A ⊆ Ω heißen Ereignisse der Wahrscheinlichkeit P (A). Die Abbildung P : 2Ω → IR heißt Verteilung oder Wahrscheinlichkeitsmaß. Wir prüfen sofort nach, dass in einem diskreter Wahrscheinlichkeitsraum (Ω, P ) die folgenden Axiome von Kolmogorov gelten : (a) 0 ≤ P (A) ≤ 1, A ⊆ Ω, (b) P (Ω) = 1, (c) Sei J ⊆ IN eine endliche oder unendliche Indexmenge. Für paarweise disjunkte Ereignisse (Aj )j∈J gilt [ X P Aj = P (Aj ). j∈J j∈J 8 Beispiel 1.1 Das Kartenspiel K1 enthält 32 Karten, darunter 4 Asse, das Kartenspiel K2 nur 12 Karten, darunter ebenfalls 4 Asse. Eine Spieler würfelt mit einem Sechser-Würfel. Würfelt er eine 6, so zieht er eine Karte aus K2 , ansonsten eine Karte aus K1 . Wie groß ist die Wahrscheinlichkeit, dass er ein Ass zieht ? Lösung: Es bezeichne A1 die Menge der 4 Asse in K1 , A2 die Menge der 4 Asse in K2 . Es sei Ω := K1 ∪ K2 . Wir zerlegen Ω in die 4 disjunkte Teilmengen, K1 = A1 ∪ (K1 \ A1 ) , K2 = A2 ∪ (K2 \ A2 ). Also gilt 5 = P (K1 ) = P (A1 ) + P (K1 \ A1 ) , 6 1 = P (K2 ) = P (A2 ) + P (K2 \ A2 ), 6 und somit P (A) = P (A1 ) + P (A2 ) = 1 4 5 4 · + · . 6 32 6 12 Siehe auch den Zusammenhamg der letzte Zeile mit der bedingten Wahrscheinlichkeit und der stochastischen Unabhängigkeit des nächsten Paragraphen. §2 Bedingte Wahrscheinlichkeit Beispiel 2.1 Wir würfeln nun gleichzeitig mit zwei Sechserwürfeln und addieren die Zahlen. Das Ergebnis jedes Wurfes ist eine der natürlichen Zahlen 2 ≤ x ≤ 12. 1. Welche relative Häufigkeit der Zahl x = 8 erwarten wir bei vielen Würfen ? 2. Welche relative Häufigkeit der Zahl x = 8 erwarten wir unter der Nebenbedingung, dass bei einem der beiden Würfel die Zahl 5 oder 6 auftaucht ? Antwort zu 1.: Es ist Ω = {(j, k) : 1 ≤ j, k ≤ 6}, also |Ω| = 36, sowie A = {(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}, also |A| = 5 und P (A) = 5/36. Antwort zu 2. Es ist B = {(5, 1), . . . , (5, 6), (6, 1), . . . , (6, 6), (1, 5), (2, 5), (3, 5), (4, 5), (1, 6), (2, 6), (3, 6), (4, 6)} also |B| = 20, |A ∩ B| = 4, sowie P (A|B) = 4/20. In Beispiel 2.1 wird nach der Wahrscheinlichkeit P (A|B) des Ereignisses A gefragt unter der Zusatzbedingung, dass das Ereignis B eingetreten ist. Allgemein definieren wir 9 Definition (Bedingte Wahrscheinlichkeit) Es sei (Ω, P ) ein W-Raum. Sei B ⊆ Ω ein Ereignis mit P (B) > 0. Dann heißt P (A|B) := PB (A) := P (A ∩ B) , P (B) A ⊆ Ω, die bedingte Wahrscheinlichkeit des Ereignisses A unter Annahme B. Wir prüfen schnell nach, dass (Ω, PB ) ebenfalls ein W-Raum ist. Definition (Stochastische Unabhängigkeit) Es sei (Ω, P ) ein W-Raum. Zwei Ereignisse A, B ⊆ Ω heißen stochastisch unabhängig, falls P (A ∩ B) = P (A)P (B). Ist P (B) > 0, so sind die Ereignisse A und B stochastisch unabhängig genau dann, wenn P (A|B) = P (A). §3 Satz von Bayes Satz 3.1. ( Formel von Bayes) Es sei (Ω, P ) ein W-Raum. Sei B ⊆ Ω mit P (B) > 0. Seien A1 , . . . , Am paarweise disjunkte Ereignisse mit P (Aj ) > 0, j = 1, . . . , m. Außerdem gelte m [ B⊆ Aj . j=1 Dann gilt die Formel von Bayes P (Ak )P (B|Ak ) P (Ak |B) = Pm j=1 P (Aj )P (B|Aj ) für k = 1, . . . , m. Beweis. Da die Mengen Aj , j = 1, . . . , m, paarweise disjunkt sind, sind auch die Ereignisse B ∩ Aj , j = 1, . . . , m, paarweise disjunkt, und es ist B= m [ j=1 und daher P (B) = m X j=1 (B ∩ Aj ), P (B ∩ Aj ) = 10 m X j=1 P (Aj )P (B|Aj ), (3.1) Des weiteren ist nach Definition der bedingten Wahrscheinlichkeit P (Ak |B) = P (Ak ∩ B) P (B ∩ Ak ) P (Ak )P (B|Ak ) = = . P (B) P (B) P (B) Setzen wir (3.1) im Nenner ein, so erhalten wir die Formel von Bayes Ein erste Anwendung des Satzes von Bayes zeigen wir in Beispiel 3.1 (diagnostischer Test, siehe Stahel[1999] , 86d) Ein bekannter Test auf HIV-Infektion ist der ELISA-Test. Infizierte überschreiten einen gewissen Grenzwert mit der Wahrscheinlichkeit 90%, Gesunde mit der Wahrscheinlichkeit 2%. In einer getesteten Personengruppe Ω betrage der Anteil der Infizierten 1%. Wie groß ist die Wahrscheinlichkeit, dass eine Testperson tatsächlich Infizierter ist, wenn er als Virusträger getestet wurde ? Antwort: Es sei Ω die Menge aller getesteten Personen. Es sei A1 ⊂ Ω die Menge aller Infizierten, A2 := Ω \ A1 die Menge aller Gesunden, sowie B die Personen mit positivem Testresultat (Grenzwert überschritten). Gegeben sind die Werte P (B|A1 ) = 0.9 , P (B|A2 ) = 0.02 , P (A1 ) = 0.01. Nach der Formel von Bayes ist P (A1 |B) = P (A1 )P (B|A1 ) 0.01 · 0.9 0.009 = = = 0.31. P (A1 )P (B|A1 ) + P (A2 )P (B|A2 ) 0.01 · 0.9 + 0.99 · 0.02 0.0288 Das heißt : Bei einem positiven Befund ist die Wahrscheinlichkeit nur 31%, dass die Testperson tatsächlich infiziert ist. Aus der letzten Formel können wir ablesen, dass die Wahrscheinlichkeit P (A1 |B) nur dann wesentlich erhöht wird, wenn die Wahrscheinlichkeit 2% für Gesunde deutlich verkleinert wird. Ein zweite Anwendung des Satzes von Bayes ist Beispiel 3.2 (diagnostischer Test, siehe Christian Hesse : Warum Mathematik glücklich macht. Verlag C.H.Beck, 2010) Die Wahrscheinlichkeit, dass eine 50-jährige Frau Brustkrebs hat, ist etwa 0.8%. Die Wahrscheinlichkeit, dass das Mammogramm einer Patientin positiv ist, wenn sie Brustkrebs hat, liegt bei etwa 90%. Die Wahrscheinlichkeit, das das Mammogramm einer Patientin positiv ist, obwohl sie keinen Brustkrebs hat, liegt bei etwa 7%. Wie groß ist die Wahrscheinlichkeit, dass eine Patientin tatsächlich Brustkrebs hat, wenn ihr Mammogramm positiv ist ? 11 Antwort: Es sei Ω die Menge aller 50-jhrigen Patientinnen, die sich dem Test unterziehen. Es sei A1 ⊂ Ω die Menge aller Kranken, A2 := Ω \ A1 die Menge aller Gesunden, sowie B die Patientinnen mit positivem Mammogramm. Gegeben sind die Werte P (B|A1 ) = 0.9 , P (B|A2 ) = 0.07 , P (A1 ) = 0.008. Nach der Formel von Bayes ist P (A1 |B) = P (A1 )P (B|A1 ) 0.008 · 0.9 = = 0.094 P (A1 )P (B|A1 ) + P (A2 )P (B|A2 ) 0.008 · 0.9 + 0.992 · 0.07 Das heißt : Bei einem positiven Befund ist die Wahrscheinlichkeit nur etwa 9%, dass die Patientin tatsächlich Brustkrebs hat. Wenn alle Kranken positiv getestet würden, also wenn P (B|A1 ) = 1.0 wäre, so wäre P (A1 |B) = 0.008 · 1.0 P (A1 )P (B|A1 ) = = 0.103, P (A1 )P (B|A1 ) + P (A2 )P (B|A2 ) 0.008 · 1.0 + 0.992 · 0.07 also auch nur 10%. Um das Ergebnis von Beispiel 3.2 besser zu verstehen, nehmen wir an, dass 10.000 Personen getestet wurden. Dies führt zu (ungefähr) folgenden Zahlen : 80 Kranke, davon 72 positiv getestet, 9.920 Gesunde, davon 694 positiv getestet, also 766 positiv getestete Personen Also ist die Wahrscheinlichkeit positiv getestet und krank zu sein gleich 72 : 766 = 0.094, also gleich 9.4%. 12 §4 Zufallsvariable Definition Es sei (Ω, P ) ein W-Raum. Jede Abbildung X : Ω → IR heißt Zufallsvariable. Vereinbarung : Statt P ({ω : X(ω) = r}) schreiben wir kurz P [X = r], statt P ({ω : r1 ≤ X(ω) ≤ r2 }) schreiben wir P [r1 ≤ X ≤ r2 ], u.s.w. Insbesondere wird jeder Zahl r aus dem Bildbereich WX := {X(ω) : ω ∈ Ω} von X durch P [X = r] eine Wahrscheinlichkeit zugeordnet. Also kann P aufgefaßt werden als Abbildung P [X = ·] : WX → IR. Daher die Bezeichnung Zufallsvariable für X. Oder auch als Abbildung P [X = ·] : IR → IR mit P [X = r] := 0 für r 6∈ WX . Beispiel 4.1 (a) Beim Würfeln wollen wir die Anzahl der Sechser zählen. Daher wählen wir Ω = {1, 2, 3, 4, 5, 6} und die Zufallsvariable X : Ω → IR, X(6) = 1, X(j) = 0 sonst. Und es ist P [X = 0] = 5/6, P [X = 1] = 1/6. (b) Würfeln wir zweimal, dann ist P [X = 0] = 25/36, P [X = 2] = 1/36, P [X = 1] = 10/36 . (c) Würfeln wir n-mal, so finden Sie die Antwort im nächsten Beispiel 4.2. Im folgenden Beispiel lernen wir die Binomialverteilung kennen. Diese und die Normalverteilung spielen in den Anwendungen eine hervorragende Rolle. Beispiel 4.2 (Binomialverteilung) Es sei Ω∗ = {A, B} und P (A) = p, P (B) = 1 − p. (Im Beispiel 4.1 ist A = {6}, B = {1, 2, 3, 4, 5} und p = 1/6.) Führen wir das Experiment mit den beiden Ausgängen A und B n-mal durch, so können wir dies beschreiben durch Ω := (Ω∗ )n und die n Zufallsvariablen Xj : Ω → IR, j = 1, . . . , n, die definiert sind wie folgt : Zu ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω ist Xj (ω) = 1, falls ωj = A, 0, falls ωj = B, und somit P [Xj = 1] = p, P [Xj = 0] = 1 − p. Deren Summe X := X1 + · · · + Xn : Ω → IR ist die Zufallsvariable, für die P [X = k] die Wahrscheinlichkeit ist, dass bei n unabhängigen Experimenten das Ergebnis A k-mal auftritt. Es ist n k p (1 − p)n−k , k = 0, . . . , n. (4.1) P [X = k] = k Beweis der Formel (4.1) : Sei k ∈ {0, 1, 2, . . . , n} . Jedes n-Tupel ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω, für das genau k der ωi 13 gleich A ist, hat die Wahrscheinlichkeit pk (1 − p)n−k . Es gibt genau Also gilt die Formel (4.1) n k solche n-Tupel. Beachten Sie, dass nach der binomischen Formel n X k=0 P [X = k] = n X n k=0 k pk (1 − p)n−k = p + (1 − p) n = 1. Definition Es sei (Ω, P ) ein W-Raum. Sei X : Ω → IR eine Zufallsvariable. Man nennt die Abbildung F : IR → [0, 1], definiert durch F (r) := P [X ≤ r], r ∈ IR, die Verteilungsfunktion ( kurz Verteilung) von X. Definition Es sei (Ω, P ) ein W-Raum. Sei X : Ω → IR eine Zufallsvariable. Dann heißt die Zahl X E(X) := X(ω)P (ω) ω∈Ω der Erwartungswert (der Verteilung) von X. Beachte, dass E : {X : Ω → IR} → IR ein lineares Funktional (= linearer Operator mit Bildbereich in IR) ist. Das heißt, für Zufallsvariable X1 , X2 und α, β ∈ IR gilt E(αX1 + βX2 ) = αE(X1 ) + βE(X2 ). Definition Es sei (Ω, P ) ein W-Raum. Sei X : Ω → IR eine Zufallsvariable mit Erwartungswert µ := E(X). Dann heißt die Zahl V (X) := E((X − µ)2 ) p die Varianz (der Verteilung) von X. Deren Wurzel, V (X), nennt man Standardabweichung (der Verteilung) von X. Sie ist ein Maß für die Streuung von X. Der Erwartungswert E(X) und die Varianz V (X) sind (theoretische) Kennzahlen der Verteilung F von X. Später werden wir die hierzu erwartungstreuen (empirischen) Kennzahlen von Stichproben definieren. Aus der obigen Definition des Erwartungswertes E(X) gewinnen wir im nächsten Satz eine andere Formel für E(X), die später sehr wichtig sein wird. Denn sie benutzt nur die Werte von X und deren Wahrscheinlichkeiten, nicht aber den W-Raum (Ω, P ). 14 Satz 4.1. Es sei (Ω, P ) ein W-Raum. Die Zufallsvariable X : Ω → IR habe den Bildbereich WX := {X(ω) : ω ∈ Ω}. Dann ist X E(X) = rP [X = r] r∈WX Die Varianz ist daher X V (X) = r∈WX (r − E(X))2 P [X = r]. Beweis. Selbst überlegen. Zur Berechnung der Varianz V (X) ist oft folgende Formel wichtig : Satz 4.2. ( Steinersche Formel) Sei V (X) > 0. Dann gilt V (X) = E(X 2 ) − (E(X))2. Beweis. Es bezeichne µ := E(X). Dann ist V (X) = X ω∈Ω = X ω∈Ω = X ω∈Ω (X(ω) − µ)2 P (ω) X(ω)2 − 2µX(ω) + µ2 P (ω) X(ω)2 P (ω) − 2µ 2 2 X X(ω)P (ω) + µ2 ω∈Ω 2 X P (ω) ω∈Ω 2 2 =E(X ) − 2µ + µ = E(X ) − µ . Also gilt Satz 4.2. Zu Beispiel 4.2 : Der Erwartungswert der Xj ist E(Xj ) = pXj (A) + (1 − p)Xj (B) = p · 1 = p. Da der Erwartungswert E ein linearer Operator ist, ist E(X) = E(X1 + X2 + · · · + Xn ) = n X E(Xj ) = np. j=1 Wer dieser Herleitung nicht traut, kann auch nachrechnen, dass E(X) = n X k=0 n X n k p (1 − p)n−k = np. k kP [X = k] = k k=0 15 Die Varianz der Xj ist nach der Steinerschen Formel V (Xj ) = E(Xj2 ) − E(Xj )2 = p − p2 = p(1 − p). Folglich ist nach Satz 5.1 des nächsten Paragraphen (da die Zufallsvariablen X1 , . . . , Xn stochastisch unabhängig sind) V (X) = np(1 − p). Auch hier können Mißtrauische nachrechnen, dass V (X) = = n X k=0 n X k=0 (k − E(X))2P [X = k] n k p (1 − p)n−k = np(1 − p). (k − np) k 2 Beispiel 4.3 (Multinomialverteilung) Ein Experiment habe drei mögliche Ergebnisse Ω∗ = {A, B, C}, die mit den Wahrscheinlichkeiten p1 , p2 , 1 − p1 − p2 eintreten (p1 > 0, p2 > 0, p1 + p2 < 1). Das Experiment werde n-mal durchgeführt mit dem Ergebnis ω = (ω1 , ω2 , . . . , ωn ), ωi ∈ Ω ∗ , i = 1, . . . , n. Dann gilt : (a) Die Wahrscheinlichkeit P (ω) für ein ω = (ω1 , ω2 , . . . , ωn ) ist gegeben durch P (ω) = pj1 pk2 (1 − p1 − p2 )n−j−k , falls in ω = (ω1 , ω2 , . . . , ωn ) das Ergebnis A j-mal, das Ergebnis B k-mal, das Ergebnis C (n − j − k)-mal auftritt. (b) Die Wahrscheinlichkeit, dass nach n Experimenten das Ergebnis A j-mal, das Ergebis B k-mal, das Ergebnis C (n − j − k)-mal auftritt, ist gegeben durch n! pj pk (1 − p1 − p2 )n−j−k , j!k!(n − j − k)! 1 2 0 ≤ j + k ≤ n. §5 Paare und Summen von Zufallsvariablen In Anlehnung an die Definition der stochastischen Unabhängigkeit zweier Ereignisse in §2 definieren wir Definition Es sei (Ω, P ) ein W-Raum. Die Zufallsvariablen X1 , X2 , . . . , Xn : Ω → IR heißen 16 stochastisch unabhängig, falls für alle reelle Zahlen r1 , r2 , . . . , rn n Y P [X1 = r1 , X2 = r2 , . . . , Xn = rn ] = P [Xj = rj ] j=1 erfüllt ist. Etwas ausführlicher sieht diese letzte Gleichung so aus : Es sei Aj := {ω ∈ Ω : Xj (ω) = rj }, j = 1, 2, . . . , n. Dann ist P (A1 ∩ A2 ∩ · · · ∩ An ) = n Y P (Aj ). j=1 Aus der stochastischen Unabhängigkeit der Zufallsvariablen X1 , X2 , . . . , Xn : Ω → IR folgt die Gleichung P [a1 ≤ X1 ≤ b1 , a2 ≤ X2 ≤ b2 , . . . , an ≤ Xn ≤ bn ] = n Y j=1 P [aj ≤ Xj ≤ bj ] für alle reellen Zahlen aj ≤ bj , j = 1, . . . , n. Wir prüfen schnell nach, dass die Zufallsvariablen Xj : Ω → IR, j = 1, . . . , n, in Beispiel 4.2 stochastisch unabhängig sind. Satz 5.1. Es sei (Ω, P ) ein W-Raum. Die Zufallsvariablen X1 , X2 , . . . , Xn : Ω → IR seien stochastisch unabhängig. Für die Erwartungswerte und die Varianzen gilt E(X1 + X2 + · · · + Xn ) = E(X1 · X2 · · · Xn ) = n X E(Xj ), (5.1) j=1 n Y E(Xj ), (5.2) j=1 sowie V (X1 + X2 + · · · + Xn ) = n X V (Xj ). (5.3) j=1 Beweis. Die Gleichung (5.1) haben wir bereits bewiesen. Sie gilt sogar für stochastisch abhängige Zufallsvariable. Beweis von (5.2) im Falle n = 2: 17 Es ist nach Satz 4.1 E(X1 X2 ) = X rP [X1 X2 = r] = X X X r1 r2 P [X1 = r1 , X2 = r2 ] r1 ∈WX1 r2 ∈WX2 r∈WX1 X2 = X r1 r2 P [X1 = r1 ]P [X2 = r2 ] r1 ∈WX1 r2 ∈WX2 = X r1 ∈WX1 r1 P [X1 = r1 ] X r2 P [X2 = r2 ] = E(X1 )E(X2 ). r2 ∈WX2 Beweis von (5.3) im Falle n = 2: Wir beweisen nun (5.3) im Falle n = 2 : Unter Verwendung der Steinerschen Formel (angewendet auf die Zufallsvariable X1 + X2 ) ist V (X1 + X2 ) = E((X1 + X2 )2 ) − (E(X1 + X2 ))2 = E(X12 + 2X1 X2 + X22 ) − (E(X1 ) + E(X2 ))2 = E(X12 ) + 2E(X1 X2 ) + E(X22 ) − (E(X1 ) + E(X2 ))2 = E(X12 ) + 2E(X1 )E(X2 ) + E(X22 ) − (E(X1 ) + E(X2 ))2 = E(X12 ) − (E(X1 ))2 + E(X22 ) − (E(X2 ))2 = V (X1 ) + V (X2 ), Definition Es sei (Ω, P ) ein W-Raum. Zu zwei Zufallsvariablen X, Y : Ω → IR mit den Erwartungswerten µ1 bzw. µ2 heißt cov(X, Y ) := E (X − µ1 )(Y − µ2 ) die Kovarianz (der Verteilungen) von X und Y . Offensichtlich ist wegen E(X + Y ) = E(X) + E(Y ) = µ1 + µ2 V (X + Y ) = E (X + Y − µ1 − µ2 )2 = V (X) + V (Y ) + 2cov(X, Y ). Die Korrelation (der Verteilungen) von X und Y ist definiert durch corr(X, Y ) := p cov(X, Y ) . V (X) · V (Y ) Zeigen Sie, dass immer −1 ≤ corr (X, Y ) ≤ 1 gilt. Hängen X und Y linear von einander ab, etwa Y = aX + b mit a, b ∈ IR, dann gilt corr(X, Y ) = 1, falls a positiv ist, sowie corr(X, Y ) = −1, falls a negativ ist. 18 Es folgt aus Satz 5.1 für unabhängige Zufallsvariable X, Y , dass cov(X, Y ) = 0 und somit auch corr(X, Y ) = 0 sind. Im nächsten Beispiel lernen wir ein Paar stochastisch abhängiger Zufallsvariablen X, Y kennen, für die corr(X, Y ) = 0 gilt. Also sind unkorrelierte Zufallsvariable X, Y : Ω → IR nicht notwendig stochastisch unabhängig. Denn corr berücksichtigt nur die lineare Komponente der Abhängigkeit. Beispiel 5.1 Es sei Ω ⊂ Z2 gegeben durch Ω := {(j, k) : k − 4 ≤ j ≤ 4 − k, k = 0, 1, 2, 3, 4}. Also besteht Ω aus |Ω| = 25 Punkten. Es sei P : Ω → IR die Gleichverteilung, also P (ω) = 1/25, ω ∈ Ω. Die Zufallsvariablen X, Y : Ω → IR seien definiert durch X(j, k) := j , Y (j, k) := k , (j, k) ∈ Ω. Dann ist corr(X, Y ) = 0, aber X, Y sind stochastisch abhängig. Beweis. Es ist X k X j 7∗1+5∗2+3∗3+1∗4 6 = 0 , E(Y ) = = = E(X) = 25 25 25 5 (j,k)∈Ω (j,k)∈Ω und daher 6 cov(X, Y ) = E(X ∗ (Y − )) = 0 5 aus Gründen der Symmetrie bezüglich der y-Achse. Aber X und Y sind nicht stochastisch unabhängig : z.B. gilt für r1 = r2 = 1, dass P [X = 1] = 4 , 25 P [Y = 1] = 7 , 25 P [X = 1, Y = 1] = 1 4∗7 6= . 25 25 ∗ 25 §6 Diskrete Verteilungsfamilien 1. Gleichverteilung, Laplacescher W-Raum Sei Ω eine endliche Menge und P (ω) = 1/|Ω|, ω ∈ Ω. Dann heißt P : Ω → IR die Gleichverteilung, und (Ω, P ) heißt Laplacescher W-Raum. 2. Bernoulli-Verteilung Es sei Ω = {0, 1} und p ∈ IR, wobei 0 ≤ p ≤ 1. Sei P (0) = 1 − p, P (1) = p. Dann heißt P Bernoulli-Verteilung zum Parameter p. 3. Binomialverteilung Sei n ∈ IN, 0 < p < 1. Nach Beispiel 4.2 heißt eine Zufallsvariable X binomialverteilt, in Zeichen X ∼ B(n, p), falls n k p (1 − p)n−k , k = 0, 1, . . . , n, P [X = k] = k mit E(X) = np und V (X) = np(1 − p) 19 Satz 6.1. Es seien 0 < p < 1, m ∈ IN, n ∈ IN. Es seien X ∼ B(m, p) und Y ∼ B(n, p) binomialverteilte Zufallsvariable. Sind X und Y stochastisch unabhängig, dann gilt X + Y = B(m + n, p). Beweis. Es gilt P [X + Y = k] = k X j=0 P [X = j, Y = k − j], 0 ≤ k ≤ m + n, und daher wegen der stochastischen Unabhängigkeit von X und Y P [X + Y = k] = k X j=0 P [X = j] P [Y = k − j], 0 ≤ k ≤ m + n. (6.1) Hieraus folgt k X n m j m−j pk−j (1 − p)n−k+j p (1 − p) P [X + Y = k] = k − j j j=0 k = p (1 − p) = m+n−k k X n m k−j j j=0 m+n k p (1 − p)m+n−k . k 4. Geometrische Verteilung Sei 0 ≤ p ≤ 1. Eine Zufallsvariable X heißt geometrisch verteilt zum Parameter p, falls P [X = k] = p · (1 − p)k−1 , k ∈ IN. Dieser W-Raum beschreibt ”das Warten auf den ersten Erfolg”. Beispiel 6.1 (W.A.Stahel, S.102) Beim russischen Roulette wird ein Trommelrevolver mit sechs Patronenlagern mit einer einzigen Kugel geladen. Jeder “Mitspieler” dreht mehrfach die Trommel bevor er abdrückt. Wie groß ist die Wahrscheinlichkeit, dass erst der k-te Spieler getroffen wird ? Antwort : Es ist für p = 1/6 P [X = k] = p · (1 − p)k−1 , 20 k = 1, 2, . . . . 5. Poisson-Verteilung (Poisson [1781-1840]) Es sei λ > 0. Eine Zufallsvariable X heißt poissonverteilt zum Parameter λ, falls P [X = k] = λk −λ e , k! k ∈ IN0 , in Zeichen X ∼ P(λ). Es ist E(X) = λ und V (X) = λ. Beispiel 6.2 (W.A.Stahel, S.97) Der Regen fällt gleichmäßig auf eine Region. Wir messen die Anzahl der Regentropfen pro Zeiteinheit auf einer kleinen Fläche F der Größe λ. Wir nehmen an, dass auf einer Fläche der Größe n, n sehr groß, pro Zeiteinheit n Tropfen fallen. Wie groß ist die Wahrscheinlichkeit, dass auf die Fläche F in der Zeiteinheit genau k Tropfen fallen ? Lösung: Die zugehörige Zufallsvariable X ist offensichtlich binomialverteilt, X ∼ B(n, λ/n), also ist für k ∈ IN0 λ n−k n λ k 1− , P [X = k] = n n k und somit für großes n λ n n(n − 1) · · · (n − k + 1) λk 1− 1− P [X = k] = k! nk n λk λ n n(n − 1) · · · (n − k + 1) = 1− 1− k! n nk λk −λ → e für n → ∞. k! λ −k n λ −k n Zu Beispiel 6.2 : Es sei M > 0. Es fallen pro Zeiteinheit n Tropfen auf die Fläche der Größe M n. Wie groß ist die Wahrscheinlichkeit, dass auf die Fläche F der Größe λ in der Zeiteinheit genau k Tropfen fallen, wenn n sehr groß ist ? Antwort: Die Zufallsvariable X ist binomialverteilt, X ∼ B(n, λ/(M n)), also ist für k ∈ IN0 λ k n λ n−k P [X = k] = 1− , k Mn Mn und somit für großes n lim P [X = k] = n→∞ mit E(X) = λ M und V (X) = λ M. 21 (λ/M )k −λ/M e , k! Satz 6.2. Es sei 0 < λ ≤ ρ. Es seien X ∼ P(λ) und Y ∼ P(ρ) zwei poissonverteilte stochastisch unabhängige Zufallsvariable. Dann gilt X + Y = P(λ + ρ). Beweis in den Übungen. Beispiel 6.3 (Asbestfasern) (W.A.Stahel, S.159 ) In drei Messungen mit gleichem Volumen V = 0.005 m3 werden die Anzahlen x1 = 6, x2 = 4, sowie x3 = 9 von Asbestfasern gefunden. Wahrscheinlichkeitsmodell: Wie in Beispiel 6.2 der Regentropfen fassen wir das Auftreten einer Asbestfaser als ”Ereignis” auf. Wenn diese ”Ereignisse” unabhängig von einander auftreten, dann eignet sich für die Anzahlen x1 , x2 , x3 der gezählten Fasern als Modell die poissonverteilten Zufallsvariablen Xi ∼ P(λ), i = 1, 2, 3. Sind X1 , X2 , X3 stochastisch unabhängig, so ist nach Satz 6.2 X := X1 + X2 + X3 ∼ P(3λ). Der ”wahrscheinlichste” Wert für den Parameter λ ist wegen E(X) = 3λ gegeben durch das arithmetische Mittel der Messungen, also λ≈ 6+4+9 x1 + x2 + x3 = = 6.333. 3 3 Dies entspricht einer Konzentration von ρ= 6.333 = 1267 m−3 . 3 0.005m Mehr hierzu werden wir in Kapitel 3 über Statistik erfahren. 6. Multinomiale Verteilung Ein Experiment habe m mögliche Ergebnisse A1 , A2 , . . . , Am , wobei dieP Wahrscheinm lichkeit, dass das Ergebnis Aj eintritt gleich pj ist, j = 1, . . . , m, mit j=1 pj = 1. Das Experiment werde n-mal durchgeführt. Dann ist die Wahrscheinlichkeit, dass das Ergebnis A1 k1 -mal, das Ergebnis A2 k2 -mal, . . ., das Ergebnis Am km -mal auftritt, k1 + k2 + · · · + km = n, gegeben durch P (n, k1 , k2 , . . . , km ) = n! pk11 pk22 · · · pkmm . k1 !k2 ! · · · km ! 22 §7 Die Normalverteilung Die wichtigste stetige Verteilung ist die Normalverteilung Φ. Die Dichte der StandardNormalverteilung ist gegeben durch die ”Gaußsche Glockenkurve” 1 −t2 φ(t) = √ e 2 , 2π t ∈ IR. Gib hier eine Skizze des Graphen von φ. Unter Verwendung der Formel Z ∞ 2 e−t dt = √ π −∞ rechnen wir nach, dass Z ∞ φ(t)dt = 1. −∞ Es ist φ eine gerade Funktion mit den Werten φ(0) = 0.399, φ(±1) = 0.242, φ(±2) = 0.054 Die Standard-normalverteilte Zufallsvariable X : IR → IR ist definiert durch ihre Verteilungsfunktion Φ Z x φ(t)dt, x ∈ IR. Φ(x) := P [X ≤ x] = (7.1) −∞ Wir schreiben X ∼ N (0, 1). Es folgt aus (7.1), dass P [a ≤ X ≤ b] = Z b φ(t)dt, a für das Intervall [a, b], a < b. Gib hier eine Skizze des Graphen von Φ. Es gilt Φ(−x) = 1 − Φ(x) für alle x ∈ IR. Insbesondere ist Φ(0) = 0.5 , Φ(1) = 0.841, Φ(−1) = 0.159, Φ(2) = 0.977, Φ(−2) = 0.023, Φ(3) = 0.99865, Φ(−3) = 0.00135, Φ(1.645) = 0.95, Φ(2.58) = 0.995, Φ(−1.645) = 0.05, Φ(−2.58) = 0.005. 23 (7.2) Ziehen wir Satz 4.1 zurate, so ist der Erwartungswert der Standard-Normalverteilung gegeben durch Z ∞ tφ(t)dt = 0, µ := E(X) = −∞ sowie deren Varianz durch 2 V (X) := E((X − µ) ) = Z ∞ t2 φ(t)dt = 1. −∞ Definition Seien µ ∈ IR und σ > 0 gegeben. Wir sagen : Eine Zufallsvariable X ist normalverteilt mit Erwartungswert E(X) = µ und Varianz V (X) = σ 2 und schreiben X ∼ N (µ, σ 2 ), falls die Dichtefunktion gegeben ist durch φµ,σ (t) := √ −(t−µ)2 1 e 2σ2 , 2πσ t ∈ IR. Daher ist die zu X ∼ N (µ, σ 2 ) gehörende Verteilungsfunktion Φ gegeben durch 1 Φµ,σ (x) = √ 2πσ Z x e −(t−µ)2 2σ 2 dt, −∞ x ∈ IR, und die Wahrscheinlichkeit P [a ≤ X ≤ b] , dass X ∼ N (µ, σ 2 ) die Werte in einem Intervall [a, b] annimmt, ist gegeben durch P [a ≤ X ≤ b] = Φµ,σ (b) − Φµ,σ (a). (7.3) Den Zusammenhang zwischen Φµ,σ und der Standard-Normalverteilung Φ zeigt Satz 7.1. Sei µ ∈ IR und σ > 0. Dann gilt Φµ,σ (x) = Φ x − µ σ für alle x ∈ IR. Beweis. Durch die Substitution t = µ + σs, s ∈ IR, wird 1 Φµ,σ (x) = √ 2πσ Z x e −∞ −(t−µ)2 2σ 2 1 dt = √ 2π was wir zeigen wollten. 24 Z x−µ σ −∞ e −s2 2 ds = Φ x − µ , σ Aus (7.3) und den Werten in (7.2) folgt daher für X ∼ N (µ, σ 2 ), dass P [µ − σ ≤ X ≤ µ + σ] = 0.682, P [µ − 2σ ≤ X ≤ µ + 2σ] = 0.954, P [µ − 3σ ≤ X ≤ µ + 3σ] = 0.9973, P [µ − 1.645 σ ≤ X ≤ µ + 1.645 σ] = 0.9, (7.4) P [µ − 2.58 σ ≤ X ≤ µ + 2.58 σ] = 0.99. In den Anwendungen werden wir die Werte in (7.4) runden und verwenden, dass P [|X − µ| ≥ σ] ≈ 0.32 (= 32 Prozent), P [|X − µ| ≥ 2σ] ≈ 0.05 (= 5 Prozent), P [|X − µ| ≥ 3σ] ≈ 0.003 (= 0.3 Prozent). Satz 7.2. Die Zufallsvariablen Xj ∼ N (µj , σj2 ), j = 1, . . . , n, seien stochastisch unabhängig. Dann Pn ist auch deren Summe X := j=1 Xj normalverteilt, X ∼ N (µ∗ , ρ2 ), wobei ∗ µ := n X µj , 2 ρ = n X σj2 . j=1 j=1 Beweis. Nicht vortragen Als Übungsaufgabe ist der Fall n = 2 mit X1 , X2 ∼ N (0, σ 2 ) geeignet. Bemerkung : Bei kontinuierlichen Verteilungen müssen wir den Begriff der stochastischen Unabhängigkeit des §5 erweitern : Es heißen die Zufallsvariablen (Xk )nk=1 stochastisch unabhängig, wenn für alle Intervalle (Ik )nk=1 gilt : P [X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In ] = n Y k=1 P [Xk ∈ Ik ]. Sind zum Beispiel X1 und X2 stochastisch unabhängige Zufallsvariable mit den Dichtefunktionen φ1 : IR → IR bzw. φ2 : IR → IR, so besitzt (vergleiche Beweis von Satz 6.1) die Zufallsvariable X + Y die Dichtefunktion Z ∞ w(x) = φ1 (t)φ2 (x − t)dt, x ∈ IR. −∞ Unter Anwendung dieser Formel beweist man Satz 7.2 für n = 2 durch geschicktes Nachrechnen. Für n ≥ 3 folgt ein Induktionsbeweis. Hierbei muß man beachten, dass 25 für k = 2, . . . , n die Zufallsvariablen X1 + · · · + Xk−1 und Xk stochastisch unabhängig sind. Korollar 7.3. Sei µ ∈ IR, sowie σ > 0. Die Zufallsvariablen Xj ∼ N (µ, σ 2 ), j = 1, . . . , n, seien stochastisch unabhängig. Für deren arithmetisches Mittel n 1X Xj Sn := n j=1 2 gilt Sn ∼ N (µ, σn ), sowie Zn := √ n Sn σ ∼ N (0, 1). Daher gilt h σx i P Sn − µ ≤ √ = P [Zn ≤ x] = Φ(x), n und somit auch h ασ βσ i = Φ(β) − Φ(α), P √ ≤ Sn − µ ≤ √ n n für alle x ∈ IR, −∞ < α < β < ∞. 2 Beweis. Wir beweisen, dass Sn ∼ N (µ, σn ): Da X := X1 + X2 + · · · + Xn ∼ N (nµ, nσ 2), folgt für alle x ∈ IR Z nx (t−nµ)2 1 P [Sn ≤ x] = P [X ≤ nx] = √ √ e 2nσ2 dt. 2π( nσ) −∞ Wir substituieren t = ns und erhalten 1 P [Sn ≤ x] = √ √ 2π(σ/ n) Z x e (s−µ)2 2σ 2 /n ds. −∞ 2 Also ist Sn ∼ N (µ, σn ). §8 Der Zentrale Grenzwertsatz Es sei (Ω, P ) ein W-Raum. Wir betrachten nun Folgen X1 , X2 , X3 , . . . : Ω → IR von Zufallsvariablen, die alle die gleiche Verteilungsfunktion haben und somit alle denselben Erwartungswert µ := E(Xj ) und dieselbe Varianz σ 2 := V (Xj ), j = 1, 2, . . ., besitzen. Wir nehmen an, dass für alle n = 2, 3, . . . die Zufallsvariablen X1 , X2 , . . . , Xn stochastisch unabhängig sind. Für n ∈ IN bilden wir die Zufallsvariable n 1X Xj , Sn := n j=1 26 das arithmetische Mittel von X1 , . . . , Xn . Wir wissen, dass σ2 . E(Sn ) = µ , V (Sn ) = n Hierbei folgt die zweite Gleichung aus Satz 5.1 wegen V (Sn ) = (8.1) n 1 σ2 1 X V (X ) = V (X + X + · · · + X ) = . j 1 2 n n2 n2 j=1 n Die Gleichungen in (8.1) besagen, dass die Zufallsvariablen Sn und X1 , . . . , Xn den gleichen Erwartungswert µ haben, dass aber die Varianz von Sn um den Faktor 1/n kleiner ist. Statt Sn betrachten wir nun die zugehörige standardisierte Zufallsvariable √ n Zn := (Sn − µ), n ∈ IN. σ Offensichtlich ist der Erwartungswert E(Zn ) = 0 und die Varianz n V (Zn ) = 2 V (Sn ) = 1. σ Ohne Beweis zitieren wir den folgenden berühmten Satz Satz 8.1. (Zentraler Grenzwertsatz) Es sei Φ die Standard-Normalverteilung (7.1). Sind die Zufallsvariablen (Xk )∞ k=1 stochastisch unabhängig und haben sie die gleiche Verteilungsfunktion, so gilt für die Folge (Zn )∞ n=1 , dass lim P [Zn ≤ x] = Φ(x), für alle x ∈ IR. n→∞ Hierbei heißen die Zufallsvariablen (Xk )∞ k=1 stochastisch unabhängig, wenn für alle n ≥ 2 die Zufallsvariablen (Xk )nk=1 stochastisch unabhängig sind. Korollar 8.2. Seien α < β zwei reelle Zahlen. Unter den Voraussetzungen von Satz 8.1 ist h ασ βσ i √ √ lim P = Φ(β) − Φ(α). ≤ Sn − µ ≤ n→∞ n n Insbesondere gilt für genügend großes n näherungsweise h σ i √ = 0.68 lim P |Sn − µ| ≤ n→∞ n h 2σ i = 0.954 lim P |Sn − µ| ≤ √ n→∞ n 3σ i lim |Sn − µ| ≤ √ = 0.997. n→∞ n Der Zentrale Grenzwertsatz erklärt, warum die Normalverteilung Φ in der Statistik eine so große Bedeutung hat. Mehr hierzu im nächsten Kapitel. 27 §9 Zufallszahlen Zur Simulation von Experimenten sind Generatoren von Zufallszahlen unentbehrlich. Dies sind Computer-Programme, die bei jedem Aufruf eine Zahl im Intervall [0, 1] (bei vorgegebener Stellenzahl) erzeugen. Gute Programme simulieren die Gleichverteilung möglichst genau. Dies bedeutet, dass bei n-maligem Aufruf die n erzeugten Zufallszahlen möglichst gleich verteilt im Intervall [0, 1] liegen. (a) Teilt man das Intervall [0, 1] in m Teilintervall 0 = x0 < x1 < · · · < xm−1 < xm = 1, so sollten für großes n ungefähr (xj − xj−1 ) · n der n erzeugten Zahlen im Intervall [xj−1 , xj ] liegen. Im Falle m = 6 und der Wahl xj = j/6, j = 0, . . . , 6, kann man so das n-malige Würfeln mit einem Laplace-Würfel simulieren. (b) An einen Zufallsgenerator müssen wir aber noch weitere Ansprüche stellen. Zum Beispiel sollten je zwei (oder 3, 4, 5) aufeinanderfolgende Zufallszahlen von einander unabhängig sein. Im Idealfall, wenn der j-te Aufruf einer gleichverteilten Zufallsvariablen Xj entspricht, müßten die Zufallsvariablen X1 , . . . , Xn der Definition der stochastischen Unabhängigkeit des §5 genügen. Doch sind Zufallszahlen nie stochastisch unabhängig. Das Programm erzeugt nämlich die Zufallszahlen nach einer deterministischen Formel, in der auch die vorher erzeugten Zufallszahlen eingehen. Also Vorsicht ! Zum Beispiel erzeugt der Computer in meinem Pascal-Programm immer die gleichen Zufallszahlen. 28 Kapitel 3. Statistik §1 Schätzungen von Erwartungswert und Varianz Beispiel 1.1 Wir wollen die Fallbeschleunigung g ≈ 9.81 m s−2 am Hubland in Würzburg genau bestimmen. Im physikalischen Versuch wird g aber nicht exakt gemessen, da ”zufällige Fehler” auftreten. Daher wird der Versuch n-mal durchgeführt und liefert die Ergebnisse (Daten, Stichproben, zufällige Stichproben) g1 , g2 , . . . , gn . Hieraus berechnen wir den Mittelwert n 1X gj n sn := j=1 als Schätzung für g. Als Schätzung der Varianz der zufälligen Meßfehler nehmen wir die Zahl n 1 X (gj − sn )2 . (1.1) qn := n−1 j=1 Die (empirische) Standardabweichung der Stichprobe ist dann Warum im Nenner in (1.1) die Zahl n − 1, aber nicht n? √ qn . Um dies zu erklären, kehren wir zurück zu §5 : Wir nehmen an, • der die zufälligen Fehler verursachende W-Raum sei unbekannt, • die den n Messungen zugrunde liegenden Zufallsvariable Xj = g + Fj , Fj = zufälliger Fehler, j = 1, . . . , n, seien stochastisch unabhängig und haben die gleiche Verteilungsfunktion und somit denselben (unbekannten) Erwartungswert µ := g und dieselbe (unbekannte) Varianz σ 2 . Wahrscheinlichkeitsmodell: Nach §5 oder §8 hat die Zufallsvariable n 1X Xj , Sn := n j=1 die Eigenschaften E(Sn ) = µ , V (Sn ) = σ2 . n Die (1.1) entsprechende Zufallsvariable n 1 X (Xj − Sn )2 Qn := n−1 (1.2) j=1 ist erwartungtreu, das heißt hat den Erwartungswert E(Qn ) = σ 2 . 29 (1.3) Beweis von (1.3) Nach der Steinerschen Formel (Satz 4.2, Kap.2) für Sn ist V (Sn ) = E(Sn2 ) − (E(Sn ))2 , und somit E(Sn2 ) = V (Sn ) + (E(Sn ))2 = σ2 + µ2 . n (1.4) Für j = 1, . . . , n gilt nach der Steinerschen Formel V (Xj ) = E(Xj2 ) − (E(Xj ))2 , und somit E(Xj2 ) = V (Xj ) + (E(Xj ))2 = σ 2 + µ2 , Des weiteren ist Qn = j = 1, . . . , n. (1.5) n n X X 1 Xj2 − 2Sn Xj + nSn2 n − 1 j=1 j=1 n X 1 = Xj2 − 2nSn2 + nSn2 n − 1 j=1 n X 1 = Xj2 − nSn2 . n − 1 j=1 Setzen wir nun (1.5) und (1.4) ein, so folgt wegen der Linearität von E E(Qn ) = 1 (nσ 2 + nµ2 − σ 2 − nµ2 ) = σ 2 . n−1 Also gilt (1.3). Nehmen wir in Beispiel 1.1 an, dass die Zufallsvariable Sn (nahezu) Sn ∼ N (g, σ 2/n) erfüllt (vergleiche Korollar 7.3 oder Zentraler Grenzwertsatz Satz 8.1 mit Korollar 8.2). √ Des weiteren sei σ ungefähr gleich qn . Folglich gilt, dass √ i h qn P |sn − g| ≤ √ ≈ 0.68 n √ h 2 qn i P |sn − g| ≤ √ ≈ 0.954 n √ h 3 qn i P |sn − g| ≤ √ ≈ 0.997. n Beispiel 1.2 (aus Stahel, 147i) Wir betrachten eine Waage mit Meßfehlern X ∼ N (0, σ 2) mit σ = 0.63 mg. Wir möchten 30 erreichen, dass das Meßergebnis mit einer Wahrscheinlichkeit von 95% um nicht mehr als 0.5 mg vom wahren Wert abweicht. Lösung. Führen wir n unabhängige Messungen durch, so gilt nach Korollar 7.3, Kap.2, dass h 2σ i 2σ ≈ 0.954 (1.6) P − √ ≤ Sn − µ ≤ √ n n Wegen σ = 0.63 mg und der Bedingung 2σ √ ≤ 0.5mg n führt dies zu √ n ≥ 4 · 0.63 = 2.52 und somit zu n ≥ 7. §2 Statistische Tests Beispiel 2.1 Beim Würfelspiel behauptet ein Spieler, dass die Sechs zu selten gewürfelt wird. Wir wollen experimentell überprüfen, ob die Sechs mit der Wahrscheinlichkeit p = 1/6 auftritt. Zu diesem Zwecke würfeln wir 60 mal. Hierbei tritt die Sechs x-mal auf. Die Frage ist nun, für welche Zahlen x geben wir dem Mitspieler recht ? Sei n = 60 und p = 1/6. Wie in Beispiel 5.2 zur Binomialverteilung ist n k p (1 − p)n−k , P [X = k] = Pn (k) = k k = 0, 1, . . . , n, die Wahrscheinlichkeit, dass die Anzahl der Sechser bei 60 Würfen genau k ist. Daher bezeichnet k X P [X ≤ k] = Pn (j), k = 0, 1, . . . , n, j=0 die Wahrscheinlichkeit, dass die Anzahl der Sechser bei 60 Würfen höchstens k ist. Eine kurze Rechnung zeigt, dass P [X = 0] = 0.000018 P [X ≤ 1] = 0.000231 P [X ≤ 2] = 0.001487 P [X ≤ 3] = 0.006346 P [X ≤ 4] = 0.020192 P [X ≤ 5] = 0.051208 P [X ≤ 6] = 0.108071 P [X ≤ 7] = 0.195803 31 Es soll nun eine sogenannte Nullhypothese überprüft werden. In Beispiel 2.1 ist die Nullhypothese : p = 1/6 (oder p ≥ 1/6). In einem statistischen Test wird festgelegt, für welche der möglichen Wert x die Nullhypothese H0 ablehnt wird. Hierbei gilt meist ”im Zweifel für den Angeklagten”, das heißt, man will möglichst vermeiden, eine richtige H0 abzulehnen. Dafür riskiert man lieber, eine falsche H0 nicht abzulehnen. Also legt man ein sogenanntes Signifikanz-Niveau α fest, 0 < α < 1, dass klein ist, häufig α = 0.1 oder α = 0.05 oder noch kleiner. Hierbei bedeutet Signifikanz-Niveau α, dass die Wahrscheinlichkeit höchstens gleich α ist, eine richtige Nullhypothese abzulehnen. Sehr häufig wählt man das Signifikanz-Niveau α = 0.05 Zurück zu Beispiel 2.1 : bei α = 0.15 lehnen wir H0 für x ≤ 6 Sechser ab, denn P [X ≤ 6] = 0.108 bei α = 0.06 lehnen wir H0 für x ≤ 5 Sechser ab.denn P [X ≤ 5] = 0.0512 Beispiel 2.2 (Qualitätskontrolle) Eine große Ladung Eier soll geprüft werden. Der ausgehandelte Preis soll akzeptiert werden, wenn das durchschnittliche Gewicht der Eier mindestens 76.0 g beträgt. Es wird eine zufällige Stichprobe von n = 25 Eiern entnommen. Nach den Formeln des √ §1 berechnen wir den Mittelwert sn = 75.6 g und die Standardabweichung qn = 1.0 g. Wird der ausgehandelte Preis bei einem Signifikanz-Niveau α = 0.05 akzeptiert? Lösung. Wir nehmen an, dass der zufällige Fehler normalverteilt ist mit Erwartungswert 0 g und √ der Standardabweichung σ ≈ qn = 1.0 g. Nullhypothese: µ = 76.0 g. Unter Verwendung von §1 ist dann (in Gramm) E(Sn ) = µ = 76.0 , V (Sn ) = σ2 qn 1 ≈ = . n n n Wir verwenden Korollar 7.3, σx P [Sn ≤ µ + √ ] = Φ(x), n für alle x ∈ IR. Hierin müssen wir x bestimmen aus σx √ = −0.4, n also ist Also ist √ 0.4 n = −2.0. x=− σ h i P Sn − µ ≤ −0.4 = Φ(−2) = 0.023. 32 Wegen des Signifikanz-Niveaus α = 0.05 lehnen wir die Nullhypothese ab. Wichtige Werte von Φ : Φ(−2) = 0.023, Φ(−1.96) = 0.025, Φ(−1.645) = 0.05, Φ(1.96) − Φ(−1.96) = 0.95, Φ(1.645) − Φ(−1.645) = 0.90. Beispiel 2.3 (Stahel 159 b-g, 161, 162 b, 174 c, 176 h) Der Grenzwert für lungengängige Asbestfasern ist 1000 Fasern pro m3 . • Die Messung der Konzentration ist ist sehr aufwendig. Daher versucht man, nur ein möglichst kleines Luftvolumen v zu untersuchen. • Höhere Konzentrationen machen sehr teure Sanierungsmassnahmen notwendig. Daher wird das Signifikanz-Niveau α möglichst klein gewählt. Es seien drei Messungen mit dem Volumen v = 0.005m3 durchgeführt worden. Die beobachteten Anzahlen der kritischen Fasern seien x1 = 6, x2 = 4 und x3 = 9. Das ergibt eine Konzentration von 19 Fasern in 0.015m3 oder 1267 Fasern pro m3 . Der Grenzwert ist also überschritten. Aber hat sich der überhöhte Wert rein zufällig ergeben? Zum Beispiel wäre ohne die dritte Messung der Grenzwert nicht überschritten. Die Frage ist daher : Können sich bei einer tatsächlichen Konzentration von µ ≤ 1000/m3 Beobachtungen der Höhe 1267 mit einer nicht zu kleinen Wahrscheinlichkeit ergeben ? Wahrscheinlichkeitsmodell: Wir fassen das Auftreten einer Faser als Ereignis auf. Wenn diese Ereignisse unabhängig von einander auftreten, so eignet sich für die Anzahl X der auf einem Filter des Volumens v gezählten Fasern als Modell die Poisson-Verteilung. Der Parameter λ gibt den Erwartungswert dieser Anzahl an : Ist µ die wahre Konzentration pro m3 , dann ist λ = µv der Erwartungswert der Faserzahl in jeder Zählung. Also sind Xj ∼ P(λ), j = 1, 2, 3. Wir wollen jetzt die beobachteten Werte x1 = 6, x2 = 4, x3 = 9 auswerten, und zwar im Sinne von §1 - §2 : Nach §1 berechnen wir 19 1 (6 + 4 + 9) = = 6.33, 3 3 so dass der Wert λ = 6.33 als der plausibelste erscheint. Aber der Grenzwert 1000 Fasern pro m3 entspricht 5 Fasern pro Volumen v = 0.005m3 , also dem Wert λ0 = 5 sn = Nach §2 müssen wir die Frage beantworten, ob für die beobachteten Werte x1 = 6, x2 = 4, x3 = 9 die Aussage Xj ∼ P(5), j = 1, 2, 3, noch plausibel ist. Wir wissen aus Beispiel 6.3, Kapitel 2, , dass dann X := X1 + X2 + X3 ∼ P(15) 33 plausibel ist. Also müssen wir die Frage beantworten, ob x = x1 + x2 + x3 = 19 mit nicht zu geringer Wahrscheinlichkeit für X ∼ P(15) eintreten kann. Es ist P [X ≥ 19] = 1 − 18 X 15k k=0 k! e−15 = 0.181. Also würde man bei einem Signifikanz-Niveau α = 0.05 oder α = 0.1 die Nullhypothese λ = 15 nicht ablehnen. §3 Vertrauensintervalle Bei den statistischen Tests des §2 gehen wir von einem Wahrscheinlichkeitsmodell aus, in dem die Verteilungsfunktion vorgegeben ist, und berechnen den Annahmebereich (abhängig vom Signifikanzniveau α). Fallen die Beobachtungen (Messungen) in diesen Annahmebereich, so werden die vorgegeben Parameter akzeptiert.. Etwa in Beispiel 2.2 ist die Verteilungsfunktionm Φµ,σ/√n als gegeben vorausgesetzt mit σ = 1, µ = 76.0g und n = 25. Der Annahmebereich besteht aus allen Messungen sn mit der Eigenschaft √ n(sn − µ) Φµ,σ/√n (sn ) = Φ ≤ α. σ Wegen α = 0.05 und Φ(−1.645) = 0.05 folgt sn ≥ µ − 1.645 · σ √ , n (3.1) also sn ≥ 75.67. Der linksseitige Annahmebereich für sn ist also das Intervall [75.67, 76.0]. Bei der Bestimmung von Vertrauensintervallen für die Normalverteilung mit bekannter Varianz σ 2 , gehen wir von der beobachteten Zahl sn aus und berechnen die Parameterwerte µ, die mit der Beobachtung sn verträglich sind. Diese Werte bilden ein Intervall. Das rechtssseitige 95%-Vertrauensintervall für den Parameter µ berechnen wir mit Hilfe von (3.1): Der Parameter µ, µ ≥ sn , gehört zum Vertrauensintervall, falls µ ≤ sn + 1.645 · σ √ . n Das linksseitige 95%-Vertrauensintervall für den Parameter µ besteht aus allen µ, µ ≤ sn , mit 1.645 · σ . µ ≥ sn − √ n Das Intervall 1.645 · σ 1.645 · σ , sn + √ sn − √ n n 34 heißt 90%-Vertrauensintervall für µ bei gegebener Messung sn . Das Intervall 1.96 · σ 1.96 · σ , sn + √ sn − √ n n heißt 95%-Vertrauensintervall für µ bei gegebener Messung sn , denn es ist Φ(−1.96) = 0.025 und Φ(1.96) − Φ(−1.96) = 0.95. 35 Anhang : Stochastische Prozesse Beispiel (Epidemie) Wir beschreiben eine ansteckende Krankheit mit folgendem sehr einfachen Modell : Am Anfang seien x0 Personen gesund, aber ansteckbar, sowie y0 Personen krank und ansteckend. Die Wahrscheinlichkeit, dass sich genau ein Gesunder in einem Zeitintervall ansteckt, sei proportional zur Anzahl y0 , also gleich βy0 , 0 < β < 1. Die Wahrscheinlichkeit, dass genau ein Ansteckender in diesem Zeitintervall nicht mehr ansteckend und damit immun wird, sei γ, 0 < γ < 1. Das Zeitintervall sei so klein gewählt, dass die Wahrscheinlichkeit, dass darin zwei Personen krank oder immun werden, vernachlässigbar ist. Dann erhält man für die Anzahl X (1) der Ansteckbaren und Y (1) der Ansteckenden nach dem Zeitintervall die gemeinsame Verteilung P [X (1) = x0 − 1, Y (1) = y0 + 1] = βx0 y0 P [X (1) = x0 , Y (1) = y0 − 1] = γy0 P [X (1) = x0 , Y (1) = y0 ] = 1 − βx0 y0 − γy0 . Die bedingten Wahrscheinlichkeiten für X (2) und Y (2) für gegebene Anzahlen X (1) = x1 , Y (1) = y1 , erfüllen die gleichen Formeln. Man erhält so rekursiv die Wahrscheinlichkeit für alle späteren Zeitpunkte. In diesem einfachen Modell haben wir angenommen, dass die Krankheit zur Immunität führt und dass keine neue Individuen dazukommen, so dass schließlich alle (oder fast alle) zunächst krank und später immun werden. Ein zeitdiskreter stochastischer Prozess auf einem W-Raum (Ω, P ) ist eine Folge (Xt )t∈IN0 von Zufallsvariablen Xt : Ω → S, wobei Ω keine Rolle spielt. Beachte : Jede Komponente von Xt ist eine Zufallsvariable. Im obigen Beispiel der Epidemie sind Xt = (X (t) , Y (t) ), t = 0, 1, . . ., sowie S ⊂ IN0 × IN0 . Man interpretiert Xt als Zustand eines Systems zum Zeitpunkt t. Ein solcher Prozess heißt Markoffkette, falls die folgende Markoff-Bedingung erfüllt ist: P [Xt+1 = rt+1 | Xj = rj , 0 ≤ j ≤ t] = P [Xt+1 = rt+1 | Xt = rt ] für alle (r0 , r1 , . . . , rt ) ∈ IRt+1 , mit der Konvention, dass bedingte Wahrscheinlichkeiten 0 sind, wenn der Nenner 0 ist. Die Markov-Bedingung wird auch als ”Gedächtnislosigkeit” bezeichnet, das heißt, die Wahrscheinlichkeit für den Übergang vom Zustand Xt = rt zum Zustand Xt+1 = rt+1 hängt nicht von den früheren Zuständen r0 , r1 , . . . , rt−1 ab. Zusätzlich wird verlangt : 1. Es gibt nur endlich viele Zustände, das heißt, Xt : Ω → S für t ∈ IN0 mit einer endlichen Menge S. 2. Der Prozess ist zeithomogen, das heißt, die sog. Übergangswahrscheinlichkeit P [Xt+1 = u | Xt = v] hängt nicht von t ∈ IN0 ab, für alle u, v ∈ S. finis WS 2015/16 36