Goethe-Oberschule Berlin A. Mentzendorff Juni 2009 Wahrscheinlichkeitsrechnung Inhaltsverzeichnis 1 Mengen 1.1 Mengenbegriff, Teilmengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Verknüpfung von Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 n-Tupel und direkte Produkte . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 3 4 2 Zufallsexperiment und Wahrscheinlichkeit 2.1 Zufallsexperimente, Ergebnisse, Ereignisse . . . . . . . . . . . . 2.2 Häufigkeiten und Wahrscheinlichkeit . . . . . . . . . . . . . . . 2.3 Wahrscheinlichkeitsfunktion und Wahrscheinlichkeitsverteilung 2.4 Laplace-Experimente . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Gegenereignis. Verknüpfung von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 7 8 11 12 3 Bedingte Wahrscheinlichkeiten 3.1 Der Begriff der bedingten Wahrscheinlichkeit 3.2 Baumdiagramme und Pfadregeln . . . . . . . 3.3 Der Satz von Bayes . . . . . . . . . . . . . . . 3.4 Unabhängige Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 15 16 19 21 4 Kombinatorik 4.1 Produktregel und Permutationen . . . . . . . . 4.2 Stichproben . . . . . . . . . . . . . . . . . . . . 4.3 Ungeordnete Stichproben. Binomialkoeffizienten 4.4 Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 24 25 27 31 . . . . . 33 33 34 37 38 43 5 Zufallsgrößen und Binomialverteilung 5.1 Der Begriff der Zufallsgröße . . . . . . 5.2 Der Erwartungswert . . . . . . . . . . 5.3 Varianz und Standardabweichung . . . 5.4 Die Binomialverteilung . . . . . . . . . 5.5 Abweichungen vom Erwartungswert . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Mengen 1.1 Mengenbegriff, Teilmengen Definition 1.1 a) Unter einer Menge im mathematischen Sinne versteht man jede Zu” sammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens (welche Elemente von M genannt werden) zu einem Ganzen.“ 1 Wir schreiben x ∈ M , falls x Element von M ist, ansonsten x 6∈ M (auch: M 3 x, M 63 x). Zwei Mengen sind genau dann gleich, wenn sie dieselben Elemente enthalten: M =N ⇔ Für alle x gilt: (x ∈ M ⇔ x ∈ N ). Ist E(x) eine Eigenschaft, die für bestimmte Objekte x zutreffen oder nicht zutreffen kann, so setzen wir M = {x|E(x)} ⇔ Für alle x gilt: (x ∈ M ⇔ E(x)). M = {x|E(x)} ist die Menge aller x, für die gilt E(x)“. ” b) M heißt endliche Menge in den folgenden Fällen: Für alle x gilt x 6∈ M ; wir setzen dann M =: ∅ (leere Menge); M = {a} := {x|x = a} für ein Objekt a (einelementige Menge); M = {a1 , . . . , an } := {x|x = a1 oder . . . oder x = an } für gewisse Objekte a1 , . . . , an 2 . Hierbei ist |M | mit |∅| := 0, |{a}| := 1, |{a1 , . . . , an }| := n (mit ai 6= aj für alle Indexzahlen i, j) die Anzahl der Elemente von M . c) Ist M keine endliche Menge, so ist M unendlich. M heißt abzählbar unendlich, wenn es eine Folge a1 , a2 , a3 , . . . von Objekten gibt mit M = {a1 , a2 , a3 , . . . } := {x|Es gibt ein i ∈ N∗ mit x = ai }. Bemerkung 1.1 Mengen können auch andere Mengen als Elemente enthalten, etwa M = {∅, {∅}}. Es darf aber keine unendliche absteigende Elementbeziehung geben, etwa M1 3 M2 3 M3 3 . . . Insbesondere kann eine Menge nicht sich selbst als Element enthalten.3 Beispiel 1.1 Für M1 := {2; 3; 5; 7}, M2 := {5; 3; 7; 2} und M3 := {3; 3; 5; 2; 7; 2; 2} gilt offenbar M1 = M2 und M1 = M3 (und natürlich M2 = M3 ), da alle diese Mengen genau die Elemente 2, 3, 5 und 7 enthalten. Auf die Reihenfolge der Aufzählung und eine Mehrfachnennung von Elementen kommt es also nicht an. Offenbar gilt auch M1 = {x|x ist Primzahl und x ≤ 10}. Beispiel 1.2 Bekannt sind die Zahlenmengen: N := {0; 1; 2; 3; . . . } (Menge der natürlichen Zahlen), 1 Nach Georg Cantor (1845–1918), dem Begründer der Mengenlehre. Bei Aufzählungen von Zahlen bevorzugen wir das Semikolon als Trennzeichen, um Verwechslungen mit Dezimalbrüchen zu vermeiden. 3 Sonst würden sich Widersprüche wie die Russell’sche Antinomie“ ergeben: Für die Menge M := ” {X|X 6∈ X} ( Menge aller Mengen, die sich nicht selbst als Element enthalten“) würde aus M 6∈ M folgen ” M ∈ M , daraus aber wiederum M 6∈ M , was einen Widerspruch ergibt. 2 2 N∗ := {1; 2; 3; . . . } (Menge der positiven natürlichen Zahlen), Z := {n|n ∈ N oder −n ∈ N} ∗ Q := { m n |m ∈ Z, n ∈ N } (Menge der ganzen Zahlen), (Menge der rationalen Zahlen). Die Menge der reellen Zahlen R, die schwieriger zu charakterisieren ist, setzen wir ebenfalls als bekannt voraus. Näheres zu diesen Zahlenmengen im Skript Zahlenbereiche. Die Mengen der natürlichen, ganzen und rationalen Zahlen sind abzählbar unendlich, die der reellen Zahlen hingegen überabzählbar“. ” Definition 1.2 Es seien M und N zwei Mengen. M heißt Teilmenge von N (M ⊆ N ), wenn jedes Element von M auch Element von N ist, d. h. wenn gilt: M ⊆N ⇔ Für alle x gilt: (x ∈ M ⇒ x ∈ N ). Beispiel 1.3 Die Menge {1; 2; 3} besitzt genau die folgenden acht Teilmengen: ∅, {1}, {2}, {3}, {1; 2}, {1; 3}, {2; 3}, {1; 2; 3}. Satz 1.1 Für Mengen M, N, P gilt: a) ∅ ⊆ M , M ⊆ M ; b) aus M ⊆ N und N ⊆ M folgt M = N c) aus M ⊆ N und N ⊆ P folgt M ⊆ P (Antisymmetrie); (Transitivität). Satz 1.2 a) Ist N endlich und M ⊆ N , so ist auch M endlich, und es ist |M | ≤ |N |. b) Ist N endlich und gilt M ⊆ N , so folgt: |M | = |N | ⇔ M = N . 1.2 Verknüpfung von Mengen Definition 1.3 Es seien M und N zwei Mengen. Dann heißen: a) M ∩ N := {x|x ∈ M und x ∈ N } (M geschnitten mit N ) die Schnittmenge von M und N , b) M ∪ N := {x|x ∈ M oder x ∈ N } (M vereinigt mit N ) die Vereinigungsmenge von M und N , c) M \ N := {x|x ∈ M und x 6∈ N } (M vermindert um N oder M ohne N ) die Differenzmenge von M und N . d) M und N heißen disjunkt, wenn ihre Schnittmenge leer ist (M ∩ N = ∅). Beispiel 1.4 Für M := {1; 3; 4; 5} und N := {2; 5} gilt: M ∩N = {5}, M ∪N = {1; 2; 3; 4; 5}, M \ N = {1; 3; 4}, N \ M = {2}. Für M , N und P := {3; 4} gilt: M ∩ P = P , M ∪ P = M , P \ M = ∅, N ∩ P = ∅ (d. h. N und P sind disjunkt). 3 Satz 1.3 (Rechenregeln) Für Mengen M, N, P gilt: a) M ∩ M = M, M ∪M =M b) M ∩ N = N ∩ M und M \ M = ∅, und M ∪ N = N ∪ M c) (M ∩ N ) ∩ P = M ∩ (N ∩ P ) und (M ∪ N ) ∪ P = M ∪ (N ∪ P ) d) M ∩ (N ∪ P ) = (M ∩ N ) ∪ (M ∩ P ) (Distributivität); e) M \ (N ∩ P ) = (M \ N ) ∪ (M \ P ) (Kommutativität); (Assoziativität); und M ∪ (N ∩ P ) = (M ∪ N ) ∩ (M ∪ P ) und M \ (N ∪ P ) = (M \ N ) ∩ (M \ P ); f) M ⊆ N ⇔ M ∩ N = M ⇔ M ∪ N = N ⇔ M \ N = ∅. Beweisskizze: Wir verzichten auf exakte Beweise und veranschaulichen uns die Sachverhalte durch Kreisdiagramme wie etwa: '$ '$ 2 3 N M 1'$ 5 4&% 6 &% 7 &% P Hier ist offenbar M = {1; 2; 4; 5} und N ∩ P = {5; 6}. Also ist M \ (N ∩ P ) = {1; 2; 4}. Andererseits ist M \ N = {1; 4} und M \ P = {1; 2}, also (M \ N ) ∪ (M \ P ) = {1; 2; 4}. Damit wäre die erste Gleichung von e) an diesem Beispiel gezeigt, das man durchaus auf beliebige Mengen verallgemeinern kann. Auf diese Weise kann man sich auch die anderen Gleichungen veranschaulichen. 1.3 n-Tupel und direkte Produkte Definition 1.4 Für die Objekte a1 , a2 bezeichnen wir den Ausdruck (a1 , a2 ) als geordnetes Paar4 und ferner (a1 , a2 , a3 ) := ((a1 , a2 ), a3 ) als Tripel, (a1 , a2 , a3 , a4 ) := ((a1 , a2 , a3 ), a4 ) als Quadrupel und (a1 , . . . , an−1 , an ) := ((a1 , . . . , an−1 ), an ) (induktiv) als n-Tupel. Die a1 , . . . , an heißen Komponenten des n-Tupels. Dabei gilt: Zwei n-Tupel sind genau dann gleich, wenn sie in den jeweiligen Komponenten übereinstimmen: (a1 , a2 , . . . , an ) = (b1 , b2 , . . . , bn ) ⇔ a1 = b1 , a2 = b2 , . . . , an = bn . Beispiel 1.5 Anders als bei Mengen gilt also (1; 2) 6= (2; 1) und erst recht (2; 4) 6= (4; 2; 2; 4). 4 Man kann etwa setzen (a1 , a2 ) := {a1 , {a1 , a2 }} und den Ausdruck so auf den bekannten Mengenbegiff zurückführen. Für die Anwendung hat dies aber keine Bedeutung. 4 Definition 1.5 a) Es sei n ≥ 2, und M1 , M2 , . . . , Mn seien nichtleere Mengen. Dann ist das direkte Produkt M1 × M2 × · · · × Mn definiert als die Menge aller n-Tupel, deren erste Komponente Element von M1 , deren zweite Komponente Element von M2 usw., schließlich deren n-te Komponente Element von Mn ist: M1 × M2 × · · · × Mn := {(x1 , x2 , . . . , xn )| x1 ∈ M1 , x2 ∈ M2 , . . . , xn ∈ Mn }. b) Für n ≥ 2 setzen wir M n := M · · × M} . | × ·{z n-mal die Menge M Beispiel 1.6 Es seien M = {1; 2; 3; 4; 5; 6} und N = {K; Z}. Dann gilt: M × N = {(1, K), (1, Z), (2, K), (2, Z), (3, K), (3, Z), (4, K), (4, Z), (5, K), (5, Z), (6, K), (6, Z)}, M 2 = M ×M = {(1; 1), (1; 2), (1; 3), (1; 4), (1; 5), (1; 6), (2; 1), . . . , (2; 6), (3; 1), . . . , (3; 6), (4; 1), . . . , (4; 6), (5; 1), . . . , (5; 6), (6; 1), . . . , (6; 6)} (36 Elemente), N 3 = {KKK, KKZ, KZK, KZZ, ZKK, ZKZ, ZZK, ZZZ} (wir schreiben kurz KKK für (K, K, K) usw.). Satz 1.4 (Rechenregeln) Für Mengen M, N, P, Q gilt: a) M ⊆ P, N ⊆ Q ⇔ M × N ⊆ P × Q, b) (M ∪ N ) × P = (M × P ) ∪ (N × P ) und (M ∩ N ) × P = (M × P ) ∩ (N × P ), c) M × N = ∅ ⇔ M = ∅ oder N = ∅. Beweis zu a): ⇒“: z ∈ M × N ⇒ z = (x; y) mit x ∈ M, y ∈ N ⇒ z = (x; y) mit ” x ∈ P, y ∈ Q ⇒ z ∈ P × Q. Also ist M × N ⊆ P × Q. ⇐“: x ∈ M, y ∈ N ⇒ (x, y) ∈ M × N ⇒ (x, y) ∈ P × Q ⇒ x ∈ P, y ∈ Q. Also ist ” M ⊆ P, N ⊆ Q. Bemerkung 1.2 Ist M 6= N (und beide 6= ∅), so folgt M × N 6= N × M . 5 2 Zufallsexperiment und Wahrscheinlichkeit 2.1 Zufallsexperimente, Ergebnisse, Ereignisse Definition 2.1 Versuche, deren Ausgang nicht vorhersehbar ist, deren mögliche Ausgänge man aber in einer Menge zusammenfassen kann, nennt man Zufallsexperimente. Die möglichen Ausgänge eines Zufallsexperimentes werden auch als Ergebnisse bezeichnet. Die Menge aller Ergebnisse wird als Ergebnisraum oder Ergebnismenge des Zufallsexperimentes bezeichnet und als Ω geschrieben. Beispiel 2.1 a) Ein Würfel wird einmal geworfen: Ω = {1; 2; 3; 4; 5; 6}. b) Ein Würfel wird zweimal geworfen. Das Ergebnis wird als geordnetes Paar angegeben. (5, 3) bedeutet etwa: Der erste Wurf ergab 5, der zweite 3. Damit ist Ω = {1; 2; 3; 4; 5; 6}2 = {(1; 1), (1; 2), (1; 3), (1; 4), (1; 5), (1; 6), (2; 1), (2; 2), . . . , (6; 5), (6; 6)}. c) Eine Münze wird geworfen: Ω = {Kopf, Zahl}. d) Eine Roulettekugel fällt in ein Feld der Rouletteschüssel: Ω = {0; 1; 2; . . . ; 36}. e) Eine Reißzwecke wird einmal geworfen. Sie kann auf dem Kopf oder auf der Spitze landen: Ω = {⊥; h} f) Aus einer Trommel werden sechs von 49 nummerierten Kugeln gezogen, die dann nach der Größe der Zahlen geordnet werden: Ω = {(n1 , n2 , n3 , n4 , n5 , n6 )|1 ≤ n1 < n2 < · · · < n6 ≤ 49}. g) Bei einem Fußballspiel interessiert man sich nicht für das Torverhältnis am Ende, sondern nur, ob die eigene Mannschaft gesiegt oder verloren hat oder ob es ein Unentschieden gab: Ω = {Sieg; Niederlage; Unentschieden}. h) Eine Oberstufenklausur wird geschrieben und benotet: Ω = {0; 1; 2; . . . ; 15}. i) Ein Würfel wird so lange geworfen, bis eine Sechs fällt. Das Ergebnis ist die Anzahl der Würfe. Diese Zahl ist theoretisch unbeschränkt, d. h. es ist Ω = N∗ . j) Ein 1 Meter langer Draht wird an den beiden Enden A und B gezogen, bis er reißt. Das Ergebnis ist der Abstand der Rissstelle vom Ende A in Metern. Damit gibt es eine kontinuierliche Ergebnismenge, nämlich das Intervall [0; 1]. Definition 2.2 Die Teilmengen eines Ergebnisraumes nennt man Ereignisse5 . Ein Ereignis, das nur ein einziges Ergebnis enthält, heißt Elementarereignis. Beispiel 2.2 a) Ein Würfel wird einmal geworfen. E sei das Ereignis gerade Zahl geworfen“. ” Dann ist E = {2; 4; 6}. b) Beim Münzwurf (Ω = {K; Z}) gibt es die Ereignisse Ω, {K}, {Z}, ∅. 5 Bei bestimmten (unendlichen) Ergebnisräumen (etwa bei Beispiel 2.1 j)) können nur bestimmte Teilmengen als Ereignisse betrachtet werden. Das spielt für uns aber keine Rolle, da wir nur Zufallsexperimente mit endlichen Ergebnisräumen betrachten. 6 Definition 2.3 E1 , E2 ⊆ Ω seien Ereignisse eines Zufallsexperiments. a) Das Ereignis E1 ∪ E2 : E1 oder E2 tritt ein“ heißt Vereinigung von E1 und E2 . ” b) Das Ereignis E1 ∩ E2 : E1 und E2 treten ein“ heißt Schnitt oder Durchschnitt von ” E1 und E2 . c) E1 und E2 heißen unvereinbar, wenn gilt E1 ∩ E2 = ∅. Beispiel 2.3 Beim zweifachen Werfen eines Würfels betrachten wir die Ereignisse: E1 : Pasch geworfen, d. h. E1 = {(1; 1), (2; 2), (3; 3), (4; 4), (5; 5), (6; 6)}. E2 : Augensumme 6 geworfen, d. h. E2 = {(1; 5), (2; 4), (3; 3), (4; 2), (5; 1)}. Dann ist E1 ∩ E2 = {(3; 3)} (Pasch und Augensumme 6 geworfen) und E1 ∪ E2 = {(1; 1), (2; 2), (3; 3), (4; 4), (5; 5), (6; 6), (1; 5), (2; 4), (4; 2), (5; 1)} (Pasch oder Augensumme 6 geworfen). 2.2 Häufigkeiten und Wahrscheinlichkeit Definition 2.4 Gegeben ist ein Zufallsexperiment, das n-mal unter gleichen Bedingungen wiederholt wird. E sei ein Ereignis des Zufallsexperiments. Dann nennt man die Zahl an (E) der Versuche, bei denen E eingetreten ist, die absolute Häufigkeit von E und den Quotienten an (E) rn (E) := n die relative Häufigkeit von E. Satz 2.1 Es sei Ω die Ergebnismenge des Zufallsexperiments, n die Zahl der Durchführungen und E = {e1 , e2 , . . . , ek } ⊆ Ω sei ein Ereignis mit |E| = k. Dann gilt: a) an (Ω) = n, an (∅) = 0, 0 ≤ an (E) ≤ n, an (E) = an (e1 ) + an (e2 ) + · · · + an (ek ); b) rn (Ω) = 1, 0 ≤ rn (E) ≤ 1, rn (E) = rn (e1 ) + rn (e2 ) + · · · + rn (ek ). rn (∅) = 0, Beispiel 2.4 10 Personen lassen je 50-mal eine Reißzwecke fallen und zählen, wie oft diese auf den Kopf gefallen ist ( ⊥“). Die Häufigkeiten dieses Ereignisses werden in der folgenden ” Tabelle dargestellt: Zahl der Versuche abs. Häufigkeit von ⊥“ ” rel. Häufigkeit von ⊥“ ” 50 34 0,68 50 26 0,52 50 25 0,5 50 27 0,54 50 29 0,58 50 33 0,66 50 22 0,44 50 26 0,52 50 32 0,64 50 30 0,6 Die Häufigkeiten gehen noch weit auseinander (von 22 bis 34 bzw. 44 % bis 68 %). Zählen wir nach jeder Versuchsreihe die Zahl der Kopf-Würfe zu der bisherigen Anzahl hinzu und berechnen dann die relative Häufigkeit, so ändert sich diese am Ende nur noch geringfügig: Zahl der Versuche abs. Häufigkeit von ⊥“ ” rel. Häufigkeit von ⊥“ ” 50 34 0,68 100 60 0,60 150 85 0,57 200 112 0,56 7 250 141 0,564 300 174 0,58 350 196 0,56 400 222 0,555 450 254 0,564 500 284 0,568 Von n = 450 auf n = 500 ist also nur noch eine Änderung der relativen Häufigkeit von 0,004 festzustellen. Man kann daher annehmen, dass sich bei weiteren Versuchsreihen die relative Häufigkeit für ⊥“ zwischen 56 und 57 % einpendeln“ wird. (Eine Wiederholung des ” ” Versuchs bringt eine absolute Häufigkeit von 29+25+31+24+32+30+31+28+22+29 = 281, also eine relative Häufigkeit von 56,2 %.) Erhöht man die Zahl der Versuche auf etwa 10.000 oder 100.000, werden die Abweichungen der relativen Häufigkeiten noch geringer. Die relative Häufigkeit, die bei hinreichend großer Anzahl von Versuchen als stabiler Wert erreicht wird, nennt man dann die Wahrscheinlich” keit“ für das Ereignis Die Reißzwecke landet auf dem Kopf“. ” Bemerkung 2.1 Wir machen folgende Annahme: Ist E ein Ereignis eines beliebig oft wiederholbaren Zufallsexperiments, so ist die bei unendlicher“ Durchführung sich ergebende ” Folge der relativen Häufigkeiten (rn (E))n∈N∗ gegen einen Wert p ∈ [0; 1] konvergent: lim rn (E) = p. n→∞ Dieser Sachverhalt wird als empirisches Gesetz der großen Zahlen6 bezeichnet. Dabei handelt es sich nicht um einen mathematischen Satz, da die Folge (rn ) nicht mathematisch definiert, sondern durch reelle Versuche gewonnen wird. Wie sich Münzen, Würfel oder Reißzwecken tatsächlich verhalten, ist nicht Gegenstand der Mathematik, sondern der Physik. ein mathematischer Beweis ist daher nicht möglich. Allerdings wird in Kapitel 5.5 eine etwas schwächere Aussage (Satz 5.10) auf der Grundlage der mathematischen Theorie bewiesen. Der Wert p wird (empirische) Wahrscheinlichkeit des Ereignisses E genannt. Schreibweise: P (E) := p. Beispiel 2.5 Bei Wettervorhersagen werden zuweilen Wahrscheinlichkeitsaussagen gemacht, etwa Die Wahrscheinlichkeit, dass es morgen regnet, beträgt 30 Prozent“. Damit ist nicht ” gemeint, dass es an 30 % des Tageslaufs oder über 30 % des Gebietes, auf das sich die Vorhersage bezieht, regnen wird. Vielmehr ist die Aussage so zu verstehen: Es regnet in 30 % der Fälle, in denen am Vortag entsprechende meteorologische Bedingungen (Temperatur, Luftdruck und -feuchtigkeit, Wind usw.) gegeben sind. Da man solche Bedingungen aber nicht beliebig reproduzieren kann, sind derartige Aussagen allerdings kaum nachprüfbar. Beispiel 2.6 Auch beim Würfeln kann man eine Versuchsreihe ähnlich wie bei Beispiel 2.4 (etwa zur näherungsweisen Bestimmung von P ({6}): Wahrscheinlichkeit, eine Sechs zu werfen) durchführen. Durch den symmetrischen Aufbau eines Würfels liegt jedoch die Annahme nahe, dass bei einer großen Zahl von Würfen jede Augenzahl annähernd gleich häufig auftaucht und somit rund jeder sechste Wurf eine Sechs ergibt: rn ({6}) ≈ 16 . Wir gehen daher davon aus, dass jedes Ergebnis die gleiche Wahrscheinlichkeit hat und dass gilt P ({1}) = P ({2}) = · · · = P ({6}) = 61 (s. u. Kapitel 2.4 über Laplace-Experimente). 2.3 Wahrscheinlichkeitsfunktion und Wahrscheinlichkeitsverteilung Bemerkung 2.2 Die Bestimmung von Wahrscheinlichkeiten durch praktische Versuche gehört nicht zur Wahrscheinlichkeitsrechnung, sondern zur Statistik, dem anderen Teilgebiet der Stochastik. In der Wahrscheinlichkeitsrechnung werden Modelle zur Bestimmung von Wahrscheinlichkeiten von Ereignissen aufgrund bestimmter Annahmen aufgestellt, zum Beispiel: 6 empirisch = durch Erfahrung gewonnen (griech.) 8 Wie groß ist die Wahrscheinlichkeit, beim dreimaligen Würfeln mindestens eine Drei zu werfen, wenn man annimmt, dass die Wahrscheinlichkeit beim einmaligen Werfen für jede Augenzahl gleich ist? In einem Behälter ( Urne“) liegen zwei rote und zwei schwarze Kugeln. Nacheinander ” werden zwei Kugeln ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass die roten Kugeln gezogen werden unter der Annahme, dass das Ziehen jeder Kugel in der Urne gleich wahrscheinlich ist? Die Wahrscheinlichkeit, dass ein an der Krankheit X erkrankter Patient durch die Einnahme von Medikament Y geheilt wird, beträgt 0,7 (70 %). Wie groß ist die Wahrscheinlichkeit, dass von fünf Patienten, die das Medikament einnehmen, alle geheilt werden? In allen diesen Fällen sind Grundwahrscheinlichkeiten“ gegeben, aus denen Wahrschein” lichkeiten für kompliziertere Ereignisse“ berechnet werden sollen. Ob die Grundannahmen ” (etwa die Annahme, dass der Würfel nicht gezinkt ist) tatsächlich mit der Realität übereinstimmt, ist keine Frage der Wahrscheinlichkeitsrechnung, sondern der Statistik. Es sollen also Rechenregeln aufgestellt werden, mit denen Wahrscheinlichkeiten ermittelt werden. Hierzu ordnet zunächst die Wahrscheinlichkeitsfunktion“ jedem Ereignis eines ” Zufallsexperiments eine Maßzahl zwischen 0 und 1 zu, wobei diese Zahl desto größer ist, je wahrscheinlicher“ das Ereignis ist (somit soll 1 für das sichere Eintreten, 0 für die Unmöglich” keit des Ereignisses stehen). Definition 2.5 Es sei E die Menge der Ereignisse eines Zufallsexperiments (d. h. in den uns betreffenden Fällen ist E = {E|E ⊆ Ω}). Eine Funktion P : E → R heißt Wahrscheinlichkeitsfunktion oder Wahrscheinlichkeitsmaß, wenn gilt: (K1) Für alle E ∈ E gilt P (E) ≥ 0, (K2) P (Ω) = 1, (K3) aus E1 ∩ E2 = ∅ folgt P (E1 ∪ E2 ) = P (E1 ) + P (E2 ). P (E) wird Wahrscheinlichkeit des Ereignisses E genannt. Bemerkung 2.3 Die Forderungen (K1) bis (K3), die an die Wahrscheinlichkeitsfunktion gestellt werden, werden Kolmogorow-Axiome genannt7 . Beispiel 2.7 Bezogen auf das Experiment einmal würfeln“ besagt (K2), dass mit Sicherheit ” (mit Wahrscheinlichkeit 1) eine der Zahlen 1 bis 6 geworfen wird. (K3) besagt: Schließen zwei Ereignisse sich aus (beispielsweise: E1 : gerade Zahl geworfen, E2 : 1 geworfen), so ist die Wahrscheinlichkeit für deren Vereinigung (E1 ∪ E2 : gerade Zahl oder 1 geworfen) gleich der Summe der Einzelwahrscheinlichkeiten (P (E1 ∪ E2 ) = 36 + 16 = 46 = 23 ). Satz 2.2 (Rechenregeln) Für eine Wahrscheinlichkeitsfunktion P bezüglich eines Ereignisraumes Ω gilt: a) P (∅) = 0, b) E1 ⊆ E2 ⇒ P (E1 ) ≤ P (E2 ), c) 0 ≤ P (E) ≤ 1. 7 Alexej Nikolajewitsch Kolmogorow, russischer Mathematiker (1903–1987). 9 Beweis: Zu a): ∅ ∩ Ω = ∅, ∅ ∪ Ω = Ω (K3) ⇒ 1 = P (Ω) = P (∅ ∪ Ω) = P (∅) + P (Ω) = P (∅) + 1 ⇒ P (∅) = 0. Zu b): Aus E1 ⊆ E2 folgt E2 = E1 ∪ (E2 \ E1 ) mit E1 ∩ (E2 \ E1 ) = ∅ (K3) ⇒ P (E2 ) = P (E1 ∪ (E2 \ E1 )) = P (E1 ) + P (E2 \ E1 ) P (E2 \ E1 ) ≥ 0 ≥ P (E1 ). b) Zu c): 0 ≤ P (E) nach (K1). E ⊆ Ω ⇒ P (E) ≤ P (Ω) = 1. Bemerkung 2.4 Ist Ω eine endliche Menge, so kann man jedem Elementarereignis eine Wahrscheinlichkeit zuordnen, wobei die Summe dieser Einzelwahrscheinlichkeiten gleich 1 sein muss8 . Beispiel 2.8 Wir betrachten das folgende Glücksrad: '$ b b4 1 3 bb 2 &% Durch das Drehen des Rades wird eine Zahl ausgelost (Ω = {1; 2; 3; 4}). Da die Kreissektoren unterschiedlich groß sind, dürften die Ergebnisse verschieden häufig vorkommen, d. h. die Wahrscheinlichkeiten der Ereignisse sind nicht gleich, sondern proportional zur Größe des Kreisausschnitts. So kann man P (1) = 31 setzen, da der zugehörige Sektor einen Drittel der Kreisfläche ausmacht und so fort, so dass wir erhalten P (1) = 13 , P (2) = 14 , P (3) = 14 , P (4) = 16 . Um die Wahrscheinlichkeit des Ereignisses E: gerade Zahl ausgelost“ zu ermitteln, sind die ” Wahrscheinlichkeiten der zugehörigen Ergebnisse (E = {2; 4}) zu addieren, und wir erhalten P (E) = P (2) + P (4) = 1 4 + 1 6 = 5 12 . Wegen P (Ω) = 1 muss die Summer aller Einzelwahrscheinlichkeiten 1 ergeben, was auch der Fall ist. Definition 2.6 Gegeben ist ein Zufallsexperiment mit dem endlichen Ergebnisraum Ω = {e1 , . . . , em }. Ferner sei P : Ω → R eine Funktion, die jedem Ergebnis ei eine Zahl P (Ei ) = pi zuordnet, d. h. es gilt P (e1 ) = p1 , . . . , P (em ) = pm . P heißt (endliche) Wahrscheinlichkeitsverteilung, wenn gilt (WV1) p1 ≥ 0, . . . , pm ≥ 0 und (WV2) p1 + · · · + pm = 1. 8 Ω kann auch abzählbar unendlich“ sein, etwa Ω = N wie in Beispiel 2.1 h). Dann wäre 1 der Grenzwert der ” konvergenten Reihe der Einzelwahrscheinlichkeiten. Diese Fälle werden aber im Folgenden nicht berücksichtigt, da wir es nur mit endlichen Ergebnisräumen zu tun haben werden. 10 Satz 2.3 Gegeben sei ein Zufallsexperiment mit dem Ergebnisraum Ω = {e1 , . . . , em } und der Wahrscheinlichkeitsverteilung P . Dann lässt sich P eindeutig auf eine Wahrscheinlichkeitsfunktion im Sinne von Definition 1 erweitern, nämlich, indem man für ein beliebiges Ergebnis E ⊆ Ω setzt: P P (e), falls E 6= ∅, P (E) = e∈E 0, falls E = ∅. Das bedeutet: Die Wahrscheinlichkeit eines Ereignisses E wird gleich der Summe der Wahrscheinlichkeiten der für E günstigen Ergebnisse gesetzt. Beweis: Es ist zu zeigen, dass die Bedingungen (K1) bis (K3) erfüllt sind. Zu (K1): Wegen (WV1) werden nichtnegative Zahlen addiert, also ist P (E) ≥ 0. Zu (K2): P (Ω) = P (e1 ) + · · · + P (em ) (WV2) = 1. Zu (K3): Es sei E1 ∩E2 = ∅. Dann gilt für jedes Ergebnis e ∈ EP 1 ∪E2 , dass es entweder in P E1 oder in E2 vorkommt. Damit ist P (E1 ∪E2 ) = P (e)+ P (e) = P (E1 )+P (E2 ). e∈E1 e∈E2 Andererseits folgt aus (K3) für ein zweielementiges Ereignis etwa P (e1 , e2 ) = P (e1 ) + P (e2 ) wegen {e1 }∩{e2 } = ∅. Man erkennt induktiv, dass eine andere Festlegung des P -Wertes eines mehrelementigen Ereignisses als durch Summenbildung nicht möglich ist. Bemerkung 2.5 Da man eine Wahrscheinlichkeitsverteilung P (mit einem Ergebnis e ∈ Ω als Argument) auf diese Weise zu einer Wahrscheinlichkeitsfunktion P (mit einem Ereignis E ⊆ Ω als Argument) erweitern kann, unterscheiden wir nicht streng zwischen einem Ergebnis e und einem Elementarereignis {e}, d. h. wir setzen P (e) = P ({e}) und schreiben auch bei mehrelementigen Mengen kurz P (e1 , . . . , ek ) für P ({e1 , . . . , ek }). 2.4 Laplace-Experimente P steht im Folgenden für eine Wahrscheinlichkeitsfunktion. Definition 2.7 Ein Zufallsexperiment mit einer endlichen Ergebnismenge heißt LaplaceExperiment9 , wenn alle Ergebnisse dieselbe Wahrscheinlichkeit besitzen. Beispiel 2.9 Zu den Laplace-Experimenten zählen wir: das Werfen eines (normalen) Würfels, das Werfen einer Münze, das Losen einer Zahl mit einer Roulette-Schüssel, das Ziehen einer Skatkarte aus dem Kartenstapel, das Entnehmen einer von mehreren unterscheidbaren Kugeln aus einer Urne, das Drehen eines Glücksrades mit gleich großen Sektoren. 9 Pierre Simon de Laplace, französ. Mathematiker und Astronom, 1749–1827. 11 Beim Würfel und bei der Münze können wir von der Gleichwahrscheinlichkeit der Ergebnisse ausgehen, da es sich um symmetrische Körper handelt. Bei der Rouletteschüssel sind alle Felder gleich groß, weshalb die Kugel in jedes Feld gleich häufig fallen wird. Fallen solche Symmetrieeigenschaften weg, kann man nicht mehr vom Vorliegen eines Laplace-Experimentes ausgehen, etwa in folgenden Fällen: Werfen eines gezinkten“ Würfels (Schwerpunkt liegt nicht in der Mitte, oder der Würfel ” ist ist in Wirklichkeit nicht würfelförmig), Werfen einer Reißzwecke (vgl. Beispiel 2.1 e)), Drehen eines Glücksrades mit unterschiedlich großen Sektoren (vgl. Beispiel 2.8). Satz 2.4 Für ein Laplace-Experiment mit Ergebnisraum Ω gilt: a) P (e) = b) P (E) = 1 |Ω| |E| |Ω| für jedes Ergebnis e ∈ Ω. = Anzahl der für E günstigen Ergebnisse Anzahl aller möglichen Ergebnisse für jedes Ereignis E ⊆ Ω. Beweis: Es sei Ω = {e1 , . . . , em } mit m = |Ω|. Wir setzen p = P (e1 ) = · · · = P (em ). Dann ist 1 = P (e1 ) · · · + P (em ) = p + · · · + p = mp ⇒ p = 1 m. Für E = {ei1 , . . . , eik } ∈ Ω mit k = |E| gilt nach Satz 1 P (E) = P (ei1 ) + · · · + P (eik ) = 1 m + ··· + 1 m = k m. Beispiel 2.10 Beim zweimaligen Werfen eines Würfels soll die Wahrscheinlichkeit für das Ereignis E: Augensumme 6 geworfen“ bestimmt werden. Es ist |Ω| = 36 nach Beispiel 2.1 ” b). Wir suchen die für E günstigen Ergebnisse heraus und erhalten E = {(1; 5), (2; 4), (3; 3), (4; 2), (5; 1)}. Damit ist |E| = 5, es folgt also P (E) = |E| 5 = . |Ω| 36 Bemerkung 2.6 Man beachte, dass Satz 2.4 nur für Laplace-Experimente zutrifft! Bei Beispiel 2.8 kann er beispielsweise nicht angewandt werden. 2.5 Gegenereignis. Verknüpfung von Ereignissen Beispiel 2.11 Ein Würfel wird dreimal geworfen. Dabei ist Ω = {(1; 1; 1), (1; 1; 2), . . . , (6; 6; 6)} und |Ω| = 63 = 216. Gesucht ist die Wahrscheinlichkeit für E: Die Augensumme ist größer als 4. Würde man alle für E günstigen Ergebnisse aufzählen ((1,1,3), (1,1,4), . . . ), so wäre dies aufgrund der großen Zahl sehr umständlich. Wesentlich einfacher ist es, die Ergebnisse zu zählen, die nicht zu E gehören. Wir fassen sie zu E: Augensumme ist kleiner oder gleich 4“ ” zusammen. Es gilt E = {(1; 1; 1), (1; 1; 2), (1; 2; 1), (2; 1; 1)}, 212 also |E| = 4. Damit ist |E| = 216 − 4 = 212, also P (E) = 216 = 53 54 , da es sich um ein 4 1 Laplace-Experiment handelt. Man kann auch rechnen: P (E) = 1 − 216 = 1 − 54 = 53 54 . 12 Definition 2.8 E (sprich E quer“) mit E := Ω \ E: E tritt nicht ein“ heißt das Gegen” ” ereignis zu E. Satz 2.5 a) E = E, E ∩ E = ∅, E ∪ E = Ω, E \ E = E, b) E1 \ E2 = E1 ∩ E2 , c) E1 ∩ E2 = E1 ∪ E2 , E1 ∪ E2 = E1 ∩ E2 . Beweis zu c): Satz 1.3 e) mit M = Ω. Satz 2.6 Ist E ein Ereignis eines Zufallexperimentes, so gilt P (E) = 1 − P (E). Beweis: Es gilt E ∩ E = ∅, woraus nach (K3) folgt P (E) + P (E) = P (E ∪ E) = P (Ω) = 1. Beispiel 2.12 Ein Würfel wird zweimal geworfen (|Ω| = 36). Es soll die Wahrscheinlichkeit des Ereignisses E: Mindestens eine Sechs geworfen“ ermittelt werden. Wir tun dies auf drei ” Arten: a) Es ist |E| = |{(1; 6), (2; 6), (3; 6), (4; 6), (5; 6), (6; 1), (6; 2), (6; 3), (6; 4), (6; 5), (6; 6)}| = 11. Da es sich um ein Laplace-Experiment handelt, folgt P (E) = 11 36 . b) Man kann die Aufgabe auch mithilfe des Gegenereignisses E: Keine 6 wird geworfen“ ” lösen. Das ist zwar umfangreicher als E selbst, aber wir brauchen die Ergebnisse nicht einzeln zu zählen, sondern stellen folgende Überlegung an: Wenn keine 6 geworfen wird, dann werden bei beiden Würfen nur Zahlen von 1 bis 5 geworfen. Das sind genau 52 = 25 Möglichkeiten 25 11 und es ist daher P (E) = 25 36 und damit P (E) = 1 − 36 = 36 . c) E trifft genau dann ein, wenn beim ersten oder beim zweiten Mal eine 6 geworfen wird. Setzen wir E1 : 1. Wurf 6, E2 : 2. Wurf 6, so ist E die Vereinigung von E1 und E2 (vgl. Definition 2.1). Offenbar ist P (E1 ) = {(6,1);(6,2);(6,3);(6,4);(6,5);(6,6)} |Ω| = 6 36 und P (E2 ) = {(1,6);(2,6);(3,6);(4,6);(5,6);(6,6)} |Ω| = 6 36 . 12 Nun könnte man meinen, es müsste gelten P (E) = P (E1 )+P (E2 ) = 36 = 26 . Dies würde aber nicht nur den Ergebnissen oben widersprechen, sondern – bei konsequenter Weiterführung – zu einem Widerspruch führen: Würde man dreimal würfeln, wäre die Wahrscheinlichkeit für mindestens eine 6 gleich 36 , bei viermaligem Würfeln gleich 46 , beim fünfmaligem Würfeln gleich 56 und bei sechsmaligem würfeln gleich 66 = 1, die 6 wäre dann also sicher. Das kann aber nicht sein, denn es sind auch Ergebnisse ohne 6 möglich. eine Wahrscheinlichkeit von 76 beim siebenmaligen Würfeln kann erst recht nicht stimmen. Der Fehler bei der Rechnung liegt darin, dass das Ergebnis (6,6) sowohl zu E1 als auch zu E2 gehört und daher bei der Summe P (E1 ) + P (E2 ) doppelt gezählt wurde. Die zugehörige 6 6 1 Wahrscheinlichkeit muss also noch abgezogen werden, und es ist P (E) = 36 + 36 − 36 = 11 36 . Satz 2.7 Für zwei Ereignisse E1 , E2 eines Zufallsexperiments gilt P (E1 ∪ E2 ) = P (E1 ) + P (E2 ) − P (E1 ∩ E2 ). 13 '$ '$ A B &% E E2 1 &% Beweis: Wir setzen A := E1 \ E2 und B := E1 ∩ E2 (vgl. Kreisdiagramm). Dann folgt A ∩ E2 = (E1 \ E2 ) ∩ E2 = E1 ∩ E2 ∩ E2 = ∅ (nach den Sätzen 2.5 a), b) und 1.3 c)). Ferner ist E1 ∪ E2 = A ∪ E2 . Damit ist (K3) P (E1 ∪ E2 ) = P (A ∪ E2 ) = P (A) + P (E2 ). Ferner ist A ∩ B = (E1 ∩ E2 ) ∩ (E1 ∩ E2 ) = ∅ und damit P (A) + P (B) (K2) = P (A ∪ B) = P ((E1 ∩ E2 ) ∪ (E1 ∩ E2 )) = P (E1 ∪ Ω) = P (E1 ). Satz 1.3 d) = P (E1 ∩ (E2 ∪ E2 )) Es ist also P (A) = P (E1 ) − P (E1 ∩ E2 ). Setzt man dies für P (A) in die Gleichung oben ein, so ergibt sich die Behauptung. Beispiel 2.13 Eine Karte wird aus einem Skatspiel gezogen. Es sei E1 : Bildkarte (Bube, Dame, König) gezogen“ ” und E2 : Herz-Karte gezogen“. ” 12 Dann ist P (E1 ) = 32 (da es zu jeder der vier Farben drei Bildkarten gibt), P (E2 ) = |{Herz-Bube; Herz-Dame; Herz-König}| 3 P (E1 ∩ E2 ) = = 32 . Damit gilt 32 P (E1 ∪ E2 ) = 12 8 3 7 + − = . 32 32 32 32 14 8 32 und 3 Bedingte Wahrscheinlichkeiten 3.1 Der Begriff der bedingten Wahrscheinlichkeit Beispiel 3.1 Eine Familie zieht in eine frei gewordene Wohnung eines Mietshauses ein. Die Nachbarn haben mitbekommen, dass sie zwei Kinder hat. Wir interessieren uns für das Ereignis E: Mindestens eins der Kinder ist ein Mädchen. Es gibt die vier Möglichkeiten: Ω = {JJ, JM, M J, M M }, wobei etwa JM kurz für erstes Kind ist ein Junge, zweites Kind ist ein Mädchen“ steht. ” Wenn wir von einem Laplace-Experiment ausgehen, erhalten wir für E die Wahrscheinlichkeit P (E) = |{JM, M J, M M }| 3 = . |Ω| 4 Angenommen, ein Nachbar hätte erfahren, dass mindestens ein Kind ein Junge ist (Ereignis B1 ). Dann verändert sich für ihn die Wahrscheinlichkeit für E, denn die Menge der möglichen Ergebnisse ist nicht mehr Ω, da M M nicht mehr möglich ist, sondern nur noch B1 = {JJ, JM, M J}. M M fällt aber auch als ein für E günstiges Ergebnis aus, da es nicht zu B1 gehört. Die Menge der günstigen Ergebnisse ist nun der Schnitt von E und B1 . Damit gilt für die Wahrscheinlichkeit für E unter der Bedingung B1“: ” |E ∩ B1 | |{JM, M J}| 2 PB1 (E) = = = . |B1 | |{JJ, JM, M J}| 3 Ein anderer Nachbar hat erfahren, dass das erste Kind ein Sohn ist (B2 ), weiß aber nichts über das zweite Kind. Für ihn sieht die Rechnung folgendermaßen aus: PB2 (E) = |E ∩ B2 | |{JM }| 1 = = . |B2 | |{JJ, JM }| 2 Die bedingte“ Wahrscheinlichkeit für E hängt erstaunlicherweise auch davon ab, ob man ” weiß, dass das erste und nicht nur irgendeins der Kinder ein Junge ist. Definition 3.1 Sind E und B Ereignisse eines Zufallsexperiments und ist P (B) > 0, so heißt PB (E) := P (E ∩ B) P (B) die bedingte Wahrscheinlichkeit von E unter (der Bedingung) B 10 . Bemerkung 3.1 Bei einem Laplace-Experiment gilt |{E ∩ B}| , |{B}| PB (E) = denn nach Satz 2.5 b) ist 10 |{E∩B}| |{B}| = |{E∩B}| |{Ω}| |{B}| |{Ω}| = P (E∩B) P (B) . Statt PB (E) gibt es auch die Schreibweise P (E|B). 15 Satz 3.1 Ist B ein Ereignis eines Zufallsexperiments mit P (B) > 0, so gelten (K1) PB (E) ≥ 0, (K2) PB (Ω) = 1, (K3) E1 ∩ E2 = ∅ ⇒ PB (E1 ∪ E2 ) = PB (E1 ) + PB (E2 ), d. h. PB ist eine Wahrscheinlichkeitsfunktion im Sinne von Definition 2.5. Beweis: (K1) ist klar. Zu (K2): PB (Ω) = P P(Ω∩B) (B) = so auch (E1 ∩ B) ∩ (E2 ∩ B) = ∅. Damit folgt: PB (E1 ∪ E2 ) = (K3) zu P = = P (B) P (B) = 1. Zu (K3): Gilt E1 ∩ E2 = ∅, P ((E1 ∪ E2 ) ∩ B) Satz 1.3 d) P ((E1 ∩ B) ∪ (E2 ∩ B)) = P (B) P (B) P (E1 ∩ B) P (E2 ∩ B) P (E1 ∩ B) + P (E2 ∩ B) = + P (B) P (B) P (B) PB (E1 ) + PB (E2 ). Satz 3.2 Ist B ein Ereignis eines Zufallsexperiments mit P (B) > 0, so gelten PB (∅) = 0, E1 ⊆ E2 ⇒ PB (E1 ) ≤ PB (E2 ), PB (E) = 1 − PB (E), 0 ≤ PB (E) ≤ 1, PB (E1 ∪ E2 ) = PB (E1 ) + PB (E2 ) − PB (E1 ∩ E2 ). Beweis: Da PB Wahrscheinlichkeitsfunktion ist, gelten hierfür Satz 2.2, Satz 2.6 und Satz 2.7. 3.2 Baumdiagramme und Pfadregeln Beispiel 3.2 In einer Urne liegen drei rote (Ra, Rb, Rc) und zwei schwarze (Sa, Sb) Kugeln. Es werden zwei Kugeln ohne Zurücklegen gezogen, so dass nicht zweimal dieselbe Kugel gezogen werden kann. a) Wir betrachten das Ereignis E : Es werden zwei rote Kugeln gezogen. Damit ist E = {(Ra, Rb), (Ra, Rc), (Rb, Ra), (Rb, Rc), (Rc, Ra), (Rc, Rb)} und E = {(Ra, Sa), (Ra, Sb), (Rb, Sa), (Rb, Sb), (Rc, Sa), (Rc, Sb), (Sa, Ra), (Sa, Rb), (Sa, Rc), (Sa, Sb), (Sb, Ra), (Sb, Rb), (Sb, Rc), (Sb, Sa)}. Damit ist |Ω| = |E| + |E| = 6 + 14 = 20. Da es sich um ein Laplace-Experiment handelt, können wir die Wahrscheinlichkeit für E nach Satz 2.5 bestimmen: P (E) = 3 6 = . 20 10 Dieses Vorgehen ist allerdings etwas umständlich und spätestens dann nicht mehr praktikabel, wenn es um größere Zahlen von Kugeln geht. Daher unterscheiden wir nicht mehr zwischen gleichfarbigen Kugeln und definieren die Ereignisse: 16 R1 : erste gezogene Kugel rot, R2 : zweite gezogene Kugel rot, S1 : erste gezogene Kugel schwarz, S2 : zweite gezogene Kugel schwarz. Zunächst ziehen wir nur eine Kugel. Es gibt zwei Möglichkeiten, die wir mit den zugehörigen Wahrscheinlichkeiten (P (R1 ) = 35 , P (S1 ) = 25 ) wie folgt darstellen: u P PP PP 25 PP 3 5 PP PP P R1 S1 Ziehen wir die zweite Kugel, so hängt die Wahrscheinlichkeit, ob diese rot oder schwarz ist, von der ersten gezogenen Kugel ab. War diese rot, so sind noch zwei rote und zwei schwarze Kugeln in der Urne. Damit gilt PR1 (R2 ) = 24 und PR1 (S2 ) = 24 . War die erste Kugel schwarz, so ergibt sich PS1 (R2 ) = 34 und PS1 (S2 ) = 14 . Erweitern wir das Baumdiagramm“ ” entsprechend, so ergibt sich: u PP 2 PP PP 5 P PP PP P 3 5 R 2 2 P1P 4 PP4 S 3 P1P 1 4 4 PP PP R2 S2 PP R2 S2 Damit E erfüllt ist, müssen die erste und die zweite gezogene Kugel rot sein (E = R1 ∩R2 ). Günstig ist hierfür nur der etwas dicker gezeichnete Pfad“. Er besteht aus zwei Zweigen, die ” mit den Wahrscheinlichkeiten 35 und 24 versehen sind. Wie unten gezeigt wird (Multiplikationssatz bzw. 1. Pfadregel), ist die Wahrscheinlichkeit für E gleich dem Produkt dieser Zweigwahrscheinlichkeiten: P (E) = P (R1 ∩ R2 ) = 3 5 · 2 4 3 5 = · 1 2 = 3 10 , was auch dem Ergebnis von oben entspricht. Bemerkung 3.2 Eine graphische Darstellung wie in Beispiel 1 wird Baumdiagramm genannt. Vom Ausgangspunkt, der Wurzel, gehen mehrere Zweige aus, die zu Knotenpunkten führen und mit Zweigwahrscheinlichkeiten versehen sind. Von den Knotenpunkten können wiederum Zweige ausgehen. Die Knotenpunkte am Ende der von einem Punkt ausgehenden Zweige stehen für Ereignisse, die unvereinbar sind und in der Vereinigung den Ergebnisraum abdecken, etwa: u PPP PP P (E1 ) P (E1 ) PP PP PP P E1 E1 PE1 (E2 ) PPPPE1 (E2 ) E2 PP PE (E2 ) PE1 (E 2 ) P 1 PP P E2 E2 PP P E2 Die Zweige, die von der Wurzel abwärts zu einem Endpunkt führen, bilden einen Pfad. Ein Pfad steht für den Schnitt der Ereignisse, deren Knotenpunkte passiert werden. Die 17 Wahrscheinlichkeit für diesen Schnitt heißt Pfadwahrscheinlichkeit. Von einem vierstufigen Baumdiagramm sei hier nur ein Pfad mit Zweigwahrscheinlichkeiten dargestellt: u PP P (E1 ) PP PP E E1 1 P P PE1 (E2 ) PP PP E E2 2 P PP P PE1 ∩E2 (E3 ) PP E3 PP PE1 ∩E2 ∩E3 (E 4 ) P E4 E3 PP P E4 Dabei ist PE1 ∩E2 ∩E3 (E4 ) etwa die Wahrscheinlichkeit für E4 , nachdem E1 , E2 und E3 bereits eingetreten sind. Satz 3.3 (Multiplikationssatz) Es seien E1 , E2 , . . . , En Ereignisse eines Zufallsexperiments. a) Ist P (E1 ) > 0, so gilt P (E1 ∩ E2 ) = P (E1 ) · PE1 (E2 ). b) Ist P (E1 ∩ · · · ∩ En−1 ) > 0, so gilt P (E1 ∩ · · · ∩ En ) = P (E1 ) · PE1 (E2 ) · PE1 ∩E2 (E3 ) · . . . · PE1 ∩···∩En−1 (En ). Beweis: Zu a): Nach Definition der bedingten Wahrscheinlichkeit gilt PE1 (E2 ) = Multiplikation der Gleichung mit P (E1 ) liefert die Behauptung. P (E1 ∩E2 ) P (E1 ) . Bemerkung 3.3 Drückt man diesen Satz mit den Begriffen des Baumdiagramms aus, so wird diese Aussage 1. Pfadregel genannt: Die Wahrscheinlichkeit eines Ereignisses, das durch einen Pfad repräsentiert wird, ist gleich dem Produkt der zugehörigen Zweigwahrscheinlichkeiten. Beispiel 3.2 (Fortsetzung) b) Zum selben Zufallsexperiment wollen wir die Wahrscheinlichkeit P (R2 ) berechnen, dass die zweite gezogene Kugel rot ist. Wir betrachten noch einmal das Baumdiagramm (s. oben unter Beispiel 1 a)). Außer dem dick gezeichneten Pfad ist noch der Pfad Wurzel–S1 –R2 günstig. Nach der 1. Pfadregel gilt P (R1 ∩ R2 ) = 3 5 · 2 4 = 3 10 und P (S1 ∩ R2 ) = 2 5 · 3 4 = 3 10 . Nun ist R2 = (R1 ∩ R2 ) ∪ (S1 ∩ R2 ) und (R1 ∩ R2 ) ∩ (S1 ∩ R2 ) = ∅, also ist P (R2 ) = 3 10 + 3 10 = 35 . Das Ergebnis ist auch einleuchtend, da jede der drei roten und zwei blauen Kugeln dieselbe Chance“ hat, als zweite gezogen zu werden. ” Satz 3.4 (Satz von der totalen Wahrscheinlichkeit) a) Sind B und E Ereignisse eines Zufallsexperiments und ist 0 < P (B) < 1, so folgt P (E) = P (B) · PB (E) + P (B) · PB (E). 18 b) Sind B1 , . . . , Bn unvereinbare Ereignisse eines Zufallsexperiments mit B1 ∪ · · · ∪ Bn = Ω und P (Bi ) > 0 (1 ≤ i ≤ n), so gilt für jedes Ereignis E: P (E) = P (B1 ) · PB1 (E) + · · · + P (Bn ) · PBn (E). Beweis: Zu a): Es ist (B ∩ E) ∩ (B ∩ E) ⊆ B ∩ B = ∅, und daher ist P (B) · PB (E) + P (B) · PB (E) Satz 3.3 = Satz 1.3 d) = (K3) P (B ∩ E) + P (B ∩ E) = P ((B ∩ E) ∪ (B ∩ E)) P ((B ∪ B) ∩ E) = P (Ω ∩ E) = P (E). Bemerkung 3.4 In Verallgemeinerung von Satz 3.4 stellen wir die 2. Pfadregel auf: Die Wahrscheinlichkeit eines Ereignisses, für das mehrere Pfade eines Baumdiagramms günstig sind, ist gleich der Summe der zugehörigen Pfadwahrscheinlichkeiten. Beispiel 3.2 (Fortsetzung) c) Wir betrachten das Ereignis F : Beide gezogenen Kugeln haben dieselbe Farbe. Dann gilt: P (F ) = P (R1 ∩ R2 ) + P (B1 ∩ B2 ) = 3.3 3 5 · 2 4 + 2 5 · 1 4 = 8 20 = 25 . Der Satz von Bayes Beispiel 3.3 Es werden drei Urnen gefüllt: Urne A mit 1 weißen und 5 schwarzen Kugeln, Urne B mit 3 weißen und 3 schwarzen Kugeln und Urne C mit 5 weißen und 1 schwarzen Kugel. Anschließend wird eine der drei Urnen, deren Kugeln nicht sichtbar sind, zufällig ausgewählt. Aus der Urne wird eine Kugel gezogen. Sie ist schwarz (Ereignis S). Wie groß ist jeweils die Wahrscheinlichkeit, dass Urne A, B bzw. C gewählt wurde, d. h. wie groß sind PS (A), PS (B) und PS (C)? Zunächst gilt P (A) = P (B) = P (C) = 13 , da die Auswahl einer Urne als LaplaceExperiment anzusehen ist. Man spricht hier von A-priori-Wahrscheinlichkeiten“ (lat. a priori: ” von vornherein), da es die Wahrscheinlichkeiten vor dem Ziehen einer Kugel sind. Nach dem Ziehen der schwarzen Kugel nehmen wir an, dass die Wahrscheinlichkeit für Urne A gestiegen ist, weil bei dieser die Wahrscheinlichkeit, eine schwarze Kugel zu ziehen, am größten ist. Für die genaue Berechnung von PS (A) benutzen wir die Definition der bedingten Wahrscheinlichkeit: P (A ∩ S) PS (A) = . P (S) Wie man auch aus dem Baumdiagramm erkennen kann, ist nach dem Multiplikationssatz (Satz 3.3) 5 P (A ∩ S) = P (A) · PA (S) = 13 · 56 = 18 und nach dem Satz von der totalen Wahrscheinlichkeit (Satz 3.4) P (S) = P (A) · PA (S) + P (B) · PB (S) + P (C) · PC (S) = 19 1 3 · 56 + 13 · 36 + 13 · 16 = 5 18 3 1 + 18 + 18 = 12 . Damit ist also PS (A) = 5 18 1 2 5 = . 9 Das Ergebnis ist auch plausibel, da die Urne A genau 5 der 9 schwarzen Kugeln enthält. Für die Wahrscheinlichkeit, dass Urne B bzw. C gewählt wurde, gilt entsprechend: PS (B) = P (B) · PB (S) = P (A) · PA (S) + P (B) · PB (S) + P (C) · PC (S) 1 3 PS (C) = P (C) · PC (S) = P (A) · PA (S) + P (B) · PB (S) + P (C) · PC (S) 1 3 · 5 6 · 5 6 + + 1 3 1 3 1 3 1 3 · · · · 3 6 3 6 1 6 3 6 + 1 3 · 1 6 + 1 3 · 1 6 = = 1 1 6 1 = 3, 2 1 1 18 1 = 9. 2 Der folgende Satz beinhaltet die Verallgemeinerung der hier angestellten Berechnungen. Satz 3.5 (Bayes11 ) Es seien A1 , . . . , An paarweise unvereinbare Ereignisse eines Zufallsexperiments mit A1 ∪ · · · ∪ An = Ω sowie P (Ak ) > 0 für jedes k ∈ {1; . . . ; n}. Dann gilt für ein Ereignis B mit P (B) > 0: PB (Ak ) = P (Ak ) · PAk (B) . P (A1 ) · PA1 (B) + P (A2 ) · PA2 (B) + · · · + P (An ) · PAn (B) Für n = 2 ergibt sich mit A1 = A, A2 = A speziell: PB (A) = P (A) · PA (B) . P (A) · PA (B) + P (A) · PA (B) k ∩B) Beweis: Nach der Definition der bedingten Wahrscheinlichkeit ist PB (Ak ) = P (A P (B) ; die Anwendung des Multiplikationssatzes im Zähler und die des Satzes von der totalen Wahrscheinlichkeit im Nenner liefern die Behauptung. Beispiel 3.4 (Krankheitstest) An einer Virusinfektion sind 0,01 % der Bevölkerung erkrankt. Zur Feststellung der Infektion gibt es einen Krankheitstest, der ziemlich sichere Ergebnisse liefert: Wenn jemand infiziert ist, dann hat der Test mit Wahrscheinlichkeit von 99,9 % ein positives Ergebnis (d. h. er zeigt die Krankheit an). Bei einem Gesunden beträgt die Wahrscheinlichkeit sogar 99,99 %, dass der Test negativ ausfällt. Ein Mann, bei dem ansonsten keine Anzeichen für eine Erkrankung vorliegen, macht einen Krankheitstest. Dieser fällt positiv aus. Wie groß ist die Wahrscheinlichkeit, dass der Mann tatsächlich infiziert ist? Wir wenden den Satz von Bayes an und definieren die Ereignisse I: Patient ist infiziert“ ” und T : Test ist positiv“. Nach den Voraussetzungen gelten die Gleichungen: P (I) = 0,0001 ” (da 0,01 % erkrankt sind), PI (T ) = 0,999, PI (T ) = 1 − 0,9999 = 0,0001. Gesucht ist die bedingte Wahrscheinlichkeit PT (I). Nach dem Satz von Bayes gilt: PT (I) = P (I) · PI (T ) 0,0001 · 0,999 = ≈ 0,4998. 0,0001 · 0,999 + 0,9999 · 0, 0001 P (I) · PI (T ) + P (I) · PI (T ) Trotz der großen Testgenauigkeit gibt es eine Wahrscheinlichkeit von 50 %, dass der Mann gar nicht erkrankt ist. Das liegt daran, dass sich die geringe Fehlerquote mit der Seltenheit der Krankheit ausgleicht“. Man kann sich das anschaulich klar machen, wenn man mit absoluten ” Zahlen rechnet: Angenommen, unser Mann sei einer von hunderttausend, die sich dem Test 20 unterziehen. Von den hunderttausend sind 0,01 %, also zehn, mit dem Virus infiziert. Bei praktisch allen zehn würde der Test positiv ausfallen (vgl. diesen Häufigkeitsbaum). 100.000 PPP PP 0,9999 0,0001 PP PP PP P 10 I 99.990 I 0,999 PPP0,001 P 10 T 0,0001PPP0,9999 PP 0 T 10 T PP P 999.980 T Daneben gibt es 99.990 Gesunde, von denen 0,01 % ein falsch positives Testergebnis erhalten würden. Dies sind wiederum 10. Es gibt also ebenso viele richtig wie falsch positiv Getestete. Daher beträgt die Quote 50 %. 3.4 Unabhängige Ereignisse Beispiel 3.5 In einer Urne liegen drei rote und zwei schwarze Kugeln. Zwei Kugeln werden gezogen. Wir betrachten die Ereignisse R1 : erste Kugel rot“ und R2 : zweite Kugel rot“ ” ” sowie deren Schnitt R1 ∩ R2 : beide gezogenen Kugeln sind rot“ (vgl. Beispiel 3.2). Nach dem ” Multiplikationssatz gilt P (R1 ∩ R2 ) = P (R1 ) · PR1 (R2 ). Wird mit Zurücklegen gezogen, so ändert sich die Wahrscheinlichkeit für R2 nicht durch die erste Ziehung, d. h. die zweite Ziehung ist von der ersten unabhängig“, und es gilt ” P (R2 ) = PR1 (R2 ). Damit ist auch P (R1 ∩ R2 ) = P (R1 ) · P (R2 ). Wird ohne Zurücklegen gezogen, so ergibt sich je nach Ergebnis der ersten Ziehung eine andere Ausgangslage für die zweite Ziehung, d. h. diese ist von der ersten abhängig“. ” Es gilt PR1 (R2 ) = 12 (da noch zwei rote und zwei scharze Kugeln in der Urne liegen), aber P (R2 ) = 35 (vgl. Fortsetzung von Beispiel 3.2). Damit ist auch P (R1 ∩ R2 ) 6= P (R1 ) · P (R2 ). Definition 3.2 Zwei Ereignisse E1 , E2 eines Zufallsexperiments heißen (stochastisch) unabhängig, wenn gilt P (E1 ∩ E2 ) = P (E1 ) · P (E2 ), ansonsten (stochastisch) abhängig. Satz 3.6 Für P (E1 ) > 0 und P (E2 ) > 0 gilt P (E1 ) = PE2 (E1 ) ⇔ P (E1 ∩ E2 ) = P (E1 ) · P (E2 ) ⇔ P (E2 ) = PE1 (E2 ). Beweis: P (E1 ) = PE2 (E1 ) Def. 3.1 ⇔ P (E1 ) = P (E1 ∩E2 ) P (E2 ) ⇔ P (E1 ) · P (E2 ) = P (E1 ∩ E2 ) ⇔ P (E2 ) = 21 | · P (E2 ) P (E1 ∩E2 ) Def. 3.1 ⇔ P (E1 ) P (E2 ) = PE1 (E2 ). Beispiel 3.6 Ein Würfel wird zweimal geworfen. Wir untersuchen die Ereignisse E1 : erste Augenzahl gerade, E2 : Augensumme gleich 7 auf stochastische Unabhängigkeit. Es gilt P (E1 ) = 12 , P (E2 ) = |{(1;6),(2;5),(3;4),(4;3),(5;2),(6;1)}| 36 Offenbar ist P (E1 ∩ E2 ) = 1 2 · 1 6 = 1 6 und P (E1 ∩ E2 ) = |{(2;5),(4;3),(6;1)}| 36 = 1 12 . = P (E1 ) · P (E2 ). Damit sind E1 und E2 unabhängig. Beispiel 3.7 Bei den Oberstufenschülern einer Schule betrachten wir die Merkmale S : besucht die Schach-AG, M : hat Mathematik als Leistungsfach. Die Häufigkeiten dieser Merkmale sind durch die folgende Vierfeldertafel gegeben: Schach-AG 8 24 Mathematik-LK kein Mathematik-LK keine Schach-AG 9 99 Ein Schüler wird zufällig herausgegriffen. Wir untersuchen, ob die Ereignisse S und M unabhängig sind. Dazu ergänzen wir die Vierfeldertafel durch die Zeilen- und Spaltensummen: Mathematik-LK kein Mathematik-LK Summe Schach-AG 8 24 32 keine Schach-AG 9 99 108 Summe 17 123 140 Die Einträge sind die Anzahlen der Elemente der hier dargestellten Mengen: Mathematik-LK kein Mathematik-LK Summe Schach-AG |S ∩ M | |S ∩ M | |S| keine Schach-AG |S ∩ M | |S ∩ M | |S| Summe |M | |M | |Ω| (Ω ist dabei die Menge aller Oberstufenschüler.) Durch Einsetzen erhält man nun sofort P (M ) · P (S) = 17 32 34 · = ; 140 140 1225 P (M ∩ S) = 8 2 70 = = 6= P (M ) · P (S). 140 35 1225 Die Ereignisse sind somit abhängig. Beispiel 3.8 Zu den Ereignissen von Beispiel 3.7 ergänzen wir noch E3 : Die zweite Augenzahl ist gerade. E1 , E2 und entsprechend E2 , E3 sind unabhängig. Man berechnet auch leicht die Unabhängigkeit von E1 und E3 (die auch anschaulich klar ist, da Würfe von Würfeln sich nicht beeinflussen können). Andererseits ist P (E1 ∩ E2 ∩ E3 ) = 0, da die Augensumme nicht gleich 7 sein kann, wenn beide Augenzahlen gerade sind. Damit ist P (E1 ) · P (E2 ) · P (E3 ) = 1 2 · 1 6 22 · 1 2 6= 0 = P (E1 ∩ E2 ∩ E3 ). Beispiel 3.9 Es gibt auch den umgekehrten Fall: Es sei E1 : 1. Zahl gleich 3 oder 4, E2 : 2. Zahl gerade, E3 : Augensumme ungerade, falls die 1. Zahl eine 6 ist; sonst Augensumme gerade. Dann ist P (E1 ∩ E2 ∩ E3 ) = |{(4;2),(4;4),(4;6)}| 36 = 1 12 = 1 3 · 1 2 · 1 2 = P (E1 ) · P (E2 ) · P (E3 ), danach könnten E1 , E2 , E3 also unabhängig sein. Jedoch gilt P (E2 ∩ E3 ) = |{(2;2),(2,4),(2;6),(4;2),(4;4),(4;6)}| 36 = 1 6 6= 1 2 · 1 2 = P (E2 ) · P (E3 ). Für die Unabhängigkeit von drei Ereignissen sollte aber auch gefordert werden, dass je zwei von ihnen unabhängig sind. Damit sind E1 , E2 , E3 nicht unabhängig. Definition 3.3 a) Drei Ereignisse E1 , E2 , E3 eines Zufallsexperimentes heißen (stochastisch) unabhängig, wenn je zwei von ihnen unabhängig sind und außerdem gilt P (E1 ∩ E2 ∩ E3 ) = P (E1 ) · P (E2 ) · P (E3 ). b) n Ereignisse E1 , . . . , En eines Zufallsexperimentes heißen (stochastisch) unabhängig, wenn für jede nichtleere Teilmenge {a1 , . . . , ak } ⊆ {1; . . . ; n} (ai 6= aj für i 6= j) gilt P (Ea1 ∩ · · · ∩ Eak ) = P (Ea1 ) · . . . · P (Eak ). 23 4 Kombinatorik 4.1 Produktregel und Permutationen Beispiel 4.1 Im Schreibwarenladen gibt es verschiedene Arten von Schulheften: liniert, mit kleinen Karos, mit großen Karos und blanko; DIN A 4, DIN A 5 und DIN A 6; aus weißem Papier und aus Umweltpapier; mit 16 oder 32 Seiten. Angenommen, es wären Hefte mit jeder Kombination von Merkmalsausprägungen erhältlich, wie viele verschiedene Hefte gibt es dann im Sortiment? Es gibt vier Arten von Linienmustern, und für jede Art gibt es drei Formate: das sind schon 12 verschiedene Hefte. Diese gibt es wiederum aus zwei Sorten Papier, das macht 24. Berücksichtigt man noch die zwei verschiedenen Heftdicken, so haben wir schließlich 4 · 3 · 2 · 2 = 48 verschiedene Hefte im Sortiment. Fasst man die Merkmalsausprägungen der Hefte jeweils in Mengen Ωi zusammen, so ist etwa Ω1 = {liniert, kleine Karos, große Karos, blanko}, Ω2 = {4, 5, 6}, Ω3 = {weiß, Umwelt}, Ω4 = {16, 32}. Dann ist beispielsweise (blanko, 5, Umwelt, 16) ∈ Ω1 × Ω2 × Ω3 × Ω4 . Satz 4.1 (Produktregel der Kombinatorik) Es gilt |Ω1 × Ω2 × · · · × Ωn | = |Ω1 | · |Ω2 | · . . . · |Ωn |. Bemerkung 4.1 Angewandt auf die Wahrscheinlichkeitsrechnung besagt der Satz: Ist ein kstufiges Zufallsexperiment gegeben, bei der es in der ersten Stufe n1 , in der zweiten Stufe n2 , . . . , in der k-ten Stufe nk Ergebnisse gibt, so hat das Zufallsexperiment insgesamt n1 ·n2 ·. . .·nk Ergebnisse. Beispiel 4.2 Wird zuerst ein Würfel zweimal und dann eine Münze einmal geworfen und schließlich ein Glücksrad mit zehn Feldern gedreht, so hat dieses Zufallsexperiment genau 6 · 6 · 2 · 10 = 720 Ergebnisse. Definition 4.1 Es sei M eine n-elementige Menge. Die Funktion p : M → M heißt Permutation von M , wenn M der Wertebereich von p ist. Bemerkung 4.2 Eine Permutation bringt die Elemente einer endlichen Menge in eine bestimmte Reihenfolge. Da es auf die Elemente dieser Menge selbst nicht ankommt, genügt es, Zahlenmengen der Gestalt M = {1; 2; . . . ; n} zu betrachten. Für die Permutation auf {1; 2; 3} mit p(1) = 2, p(2) = 1 und p(3) = 3 schreiben wir kurz (2; 1; 3). Beispiel 4.3 Ist Pn die Menge der Permutationen der Menge {1; 2; . . . ; n}, so erhalten wir: P2 = {(1, 2), (2, 1)}, also |P2 | = 2; P3 = {(1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1)}, also |P3 | = 6; P4 = {(1,2,3,4), (1,2,4,3), (1,3,2,4), (1,3,4,2), (1,4,2,3), (1,4,3,2), (2,1,3,4), (2,1,4,3), (2,3,1,4), (2,3,4,1), (2,4,1,3), (2,4,3,1), (3,1,2,4), (3,1,4,2), (3,2,1,4), (3,2,4,1), (3,4,1,2), (3,4,2,1), (4,1,2,3), (4,1,3,2), (4,2,1,3), (4,2,3,1), (4,3,1,2), (4,3,2,1)}, also |P4 | = 24. 24 Definition 4.2 Für n ∈ N ist n! (n Fakultät) definiert durch 0! := 0, Beispiel 4.4 Es ist 1! = 1 · 0! = 1; (n + 1)! := (n + 1) · n!. 2! = 2 · 1! = 2 · 1 = 2; 6! = 6 · 5! = 6 · 5 · 4 · 3 · 2 · 1 = 720. Satz 4.2 Es sei n ∈ N∗ . Jede n-elementige Menge Ωn = {a1 , a2 , . . . , an } besitzt genau n! Permutationen (d. h. ist Pn die Menge aller Permutationen von Ωn , so gilt |Pn | = n!). Beweis (vollständige Induktion): Induktionsanfang: |P1 | = |{a1 }| = 1 = 1!. Induktionsschritt: Für ein n gelte |Pn | = n!. Es sei (e1 , e2 , . . . , en ) ∈ Pn eine Permutation von Ωn . Dann sind (an+1 , e1 , e2 , . . . , en ), (e1 , an+1 , e2 , . . . , en ), . . . , (e1 , . . . , en−1 , an+1 , en ), (e1 , . . . , en , an+1 ) genau die Permutationen von Ωn+1 , in denen die Elemente a1 , a2 , . . . , an in der Reihenfolge e1 , e2 , . . . , en vorkommen. Eine Permutation von Ωn+1 ist daher eine Kombination aus den Eigenschaften: dem n-Tupel, das sich aus dem Weglassen der Komponente an+1 ergibt (n! Möglichkeiten nach Induktionsvoraussetzung) und der Stellung von n + 1 in der Permutation (n + 1 Möglichkeiten). Nach der Produktregel (Satz 4.1) gibt es also genau n! · (n + 1) = (n + 1)! Möglichkeiten. Beispiel 4.5 Will man zehn Bücher nebeneinander in einem Regal anordnen, so hat man dafür genau 10! = 3.628.800 Möglichkeiten. 4.2 Stichproben Definition 4.3 Es seien k, n ∈ N∗ . Gegeben ist die n-elementige Menge Ω = {e1 , . . . , en }. a) Ein k-Tupel (en1 , en2 , . . . , enk ) ∈ Ωk mit n1 , . . . , nk ∈ {1; 2; . . . ; n} heißt geordnete Stichprobe mit Wiederholung. b) Ein k-Tupel (en1 , en2 , . . . , enk ) ∈ Ωk mit n1 , . . . , nk ∈ {1; 2; . . . ; n}, wobei die Indizes n1 , . . . , nk alle verschieden sind (d. h. ni 6= nj für i 6= j), heißt geordnete Stichprobe ohne Wiederholung (k ≤ n). c) Ein k-Tupel (en1 , en2 , . . . , enk ) ∈ Ωk mit 1 ≤ n1 ≤ n2 ≤ · · · ≤ nk ≤ n heißt ungeordnete Stichprobe mit Wiederholung. d) Ein k-Tupel (en1 , en2 , . . . , enk ) ∈ Ωk mit 1 ≤ n1 < n2 < · · · < nk ≤ n heißt ungeordnete Stichprobe ohne Wiederholung (k ≤ n). Bemerkung 4.3 Diese verschiedenen Arten von Stichproben lassen sich mit dem Urnenmodell veranschaulichen: In einer Urne befinden sich n unterscheidbare (etwa nummerierte) Kugeln, von denen k gezogen werden. 25 Bei den Stichproben mit Wiederholung wird jede Kugel nach dem Ziehen wieder zurückgelegt, so dass eine Kugel mehrmals gezogen werden kann. Bei der Stichprobe ohne Wiederholung werden die gezogenen Kugeln nicht zurückgelegt. Bei den geordneten Stichproben kommt es darauf an, welche Kugel als erste, als zweite usw. gezogen wird. Bei den ungeordneten Stichproben kommt es nur darauf an, welche Kugeln überhaupt (und ggf. wie oft) gezogen wurden, aber nicht auf die Reihenfolge der Ziehung. Eine ungeordnete Stichprobe wird etwa durch eine geordnete Stichprobe repräsentiert, bei der die gezogenen Nummern in aufsteigender Reihenfolge genannt werden (so werden die Lottozahlen nicht in der Reihenfolge genannt, in der sie gezogen wurden, sondern aufsteigend). Die Stichprobe (en1 , en2 , . . . , enk ) mit 1 ≤ n1 < n2 < · · · < nk ≤ n (bzw. überall ≤“) steht somit stellvertretend für ” {(enp(1) , enp(2) , . . . , enp(k) )| p ist Permutation von {1; . . . ; k}}. Beispiel 4.6 In einer Urne befinden sich sechs Kugeln mit den Nummern 1 bis 6. Beim einmaligen Ziehen einer Kugel ist damit Ω := {1; 2; 3; 4; 5; 6}. Wir ziehen zwei Kugeln und bestimmen die zugehörigen Stichprobenmengen Sg,m , Sg,o , Su,m , Su,o . a) Wir ziehen mit Zurücklegen und notieren das Ergebnis als geordnetes Paar. Als Ergebnisse kommen alle geordneten Paare aus Elementen von Ω in Frage, also ist Sg,m = Ω2 = {(1, 1), . . . , (1, 6), (2, 1), . . . , (2, 6), . . . , (6, 1), . . . , (6, 6)} (mit |Sg,m | = 36) die Menge der geordneten Stichproben mit Wiederholung. b) Wird die erste Kugel nicht zurückgelegt, so kann nicht zweimal dieselbe Kugel gezogen werden, und daher ist Sg,o = Ω2 \ {(1, 1), . . . , (6, 6)} (mit |Sg,o | = 30) die Menge der geordneten Stichproben ohne Wiederholung. c) Wir ziehen wieder mit Zurücklegen, achten aber nicht auf die Reihenfolge der gezogenen Kugeln, sondern notieren die Nummern und ordnen sie dann der Größe nach. Dadurch ergibt sich Su,m = {(1, 1), . . . , (1, 6), (2, 2), . . . , (2, 6), (3, 3), . . . , (3, 6), (4, 4), (4, 5), (4, 6), (5, 5), (5, 6), (6, 6)} (mit |Su,m | = 21) als Menge der ungeordneten Stichproben mit Wiederholung. d) Wir gehen vor wie unter c), legen die erste Kugel aber nicht zurück. Dann ergibt sich Su,m = {(1, 2), . . . , (1, 6), (2, 3), . . . , (2, 6), (3, 4), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6)} (mit |Su,o | = 15) als Menge der ungeordneten Stichproben ohne Wiederholung. Su,m hat genau halb so viele Elemente wie Sg,m , da man je zwei Elemente aus Sg,m (etwa (1, 2) und (2, 1)) zu einem aus Su,m (nämlich (1, 2)) zusammenfassen kann. Beispiel 4.7 In der Urne befinden sich jetzt sieben nummerierte Kugeln, von denen wir drei ziehen. Wir beschränken uns auf geordnete Stichproben. Deren Zahl ist nun zu groß, als dass wir alle aufzählen könnten. Durch die Produktregel erhalten wir jedoch: 26 a) Ziehen wir mit Zurücklegen, so gibt es jedesmal sieben mögliche Ergebnisse, und damit ist |Sg,m | = 7 · 7 · 7 = 343. b) Ziehen wir ohne Zurücklegen, so ist nach jeder Ziehung eine Kugel weniger in der Urne, und daher ist |Sg,o | = 7 · 6 · 5 = 210. Satz 4.3 Für die geordneten Stichproben vom Umfang k aus einer n-elementigen Menge gilt: a) Es gibt genau nk geordnete Stichproben mit Wiederholung. b) Ist k ≤ n, so gibt es genau n · (n − 1) · . . . · (n − k + 1) = n! (n − k)! geordnete Stichproben ohne Wiederholung. Beweis: Jeweils vollständige Induktion über k ≥ 1. Zu b) gilt noch: n! n · (n − 1) · . . . · (n − k + 1) · (n − k) · . . . · 1 = = n · (n − 1) · . . . · (n − k + 1). (n − k)! (n − k) · . . . · 1 4.3 Ungeordnete Stichproben. Binomialkoeffizienten Beispiel 4.8 Wir greifen auf das Beispiel 4.7 ( 3 aus 7“) zurück. Wie gezeigt wurde, gibt es ” 7 · 6 · 5 = 210 geordnete Stichproben ohne Zurücklegen. Darunter sind die sechs Stichproben (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1), die genau die Permutationen der Menge {1; 2; 3} darstellen. Auch die anderen Stichproben kann man entsprechend in Sechsergruppen zusammenfassen. So gibt es genau 210 6 = 35 Stichproben, die sich nicht nur durch die Reihenfolge der Elemente unterscheiden. Satz 4.4 (ungeordnete Stichprobe ohne Wiederholung) Es sei 0 ≤ k ≤ n. Die Anzahl der ungeordneten Stichproben ohne Wiederholung von k Elementen aus einer n-elementigen Menge beträgt genau n! . k!(n − k)! Beweis: Es sei Sg,o die Menge der geordneten und Su,o die Menge der ungeordneten Stichproben ohne Wiederholung. Ist (en1 , en2 , . . . , enk ) (mit paarweise verschiedenen Komponenten) eine ungeordnete Stichprobe, so ist jede Permutation der Komponenten eine geordnete Stichprobe. Nach Satz 4. 2 gilt daher |Sg,o | = k! · |Su,o | ⇒ |Su,o | = |Sg,o | k! Satz 4.3 b) Definition 4.4 Es sei 0 ≤ k ≤ n. Der Ausdruck n n! := k k!(n − k)! (gesprochen: n über k) heißt Binomialkoeffizient. 27 = n! . k!(n − k)! Beispiel 4.9 10 · 9 · 8 · 7· 6 6· 6 5· 6 4· 6 3· 6 2· 6 1 10 · 9 · 8 · 7 5040 10 10! = = = = = 210. 4 4! · 6! 4 · 3 · 2 · 1· 6 6· 6 5· 6 4· 6 3· 6 2· 6 1 4·3·2·1 24 Beispiel 4.10 Beim Lotto 6 aus 49“ gibt es für eine Ziehung genau ” 49 49 · 48 · 47 · 46 · 45 · 44 = = 13.983.816 6 6·5·4·3·2·1 mögliche Ergebnisse. Die Wahrscheinlichkeit für sechs Richtige bei einem Tipp beträgt somit 1 rund 14 Mill. ≈ 0,000007 %. Satz 4.5 (Rechenregeln) Für 0 ≤ k ≤ n gilt: a) n n = = 1; 0 n n = n; 1 n n−k = n ; k b) n+1 k+1 n n = + . k k+1 Beweis: Zu a): Die Gleichungen folgen unmittelbar aus der Definition, etwa n 0 = n! 0!·n! = 1. Zu b): n n + = k k+1 = = = n! n! + k!(n − k)! (k + 1)!(n − k − 1)! n!(k + 1) n!(n − k) + k!(k + 1)(n − k)! k!(k + 1)(n − k)! n!(k + 1 + n − k) n!(n + 1) = k!(k + 1)(n − k)! k!(k + 1)(n − k)! (n + 1)! n+1 = . (k + 1)!((n + 1) − (k + 1))! k+1 Bemerkung 4.4 Diese Regeln lassen sich auch leicht anschaulich mit dem Urnenmodell begründen. Es gibt genau eine Möglichkeit, keine Kugel zu ziehen (oder alle Kugeln zu ziehen). Es gibt ebenso viele Möglichkeiten, k Kugeln zu ziehen und n − k zurückzulassen wie n − k zu ziehen und k zurückzulassen. Legt man zu n Kugeln noch eine hinzu, so kann, wenn man n k + 1 Kugeln zieht, die (n + 1)-te Kugel mit k weiteren dabei sein ( k Möglichkeiten) oder n nicht ( k+1 Möglichkeiten). Bemerkung 4.5 Die Gleichung zu Satz 4.5 b) ist eine gute Rekursionsformel, mit der man leicht Binomialkoeffizienten mit solchen aus niedrigeren n-Werten berechnen kann. Man stellt dazu das Pascal’sche Dreieck12 auf, ein nach unten offenes Zahlenschema, das wie folgt aussieht: 12 Blaise Pascal, französischer Mathematiker und Philosoph, 1623–1662. 28 1 3 4 0 5 0 0 5 1 2 0 4 1 0 3 1 5 2 0 0 2 1 4 2 1 1 3 2 5 3 2 2 4 3 3 3 5 4 4 4 5 5 Notiert man die Zahlenwerte, so ergibt sich: 1 1 1 1 1 1 3 4 5 1 2 1 3 6 10 1 4 10 1 5 1 Man erkennt, dass jede Zahl (außer der 1 an der Spitze) die Summe der rechts und links darüber stehenden Zahlen ist (freie Plätze werden mit Nullen ergänzt): So ist etwa 10 = 53 = 4 4 2 + 3 = 6 + 4. Beispiel 4.11 Bekanntlich ist (a + b)2 = a2 + 2ab + b2 ; man errechnet ferner leicht (a + b)3 = (a + b)2 (a + b) = (a2 + 2b + b2 )(a + b) = a3 + 3a2 b + 3ab2 + b3 . Zum Exponenten 4 machen wir den Ansatz (a + b)4 = (a + b)(a + b)(a + b)(a + b) = k0 a4 + k1 a3 b + k2 a2 b2 + k3 a3 b + k4 b4 . Um etwa den Wert von k2 zu bestimmen, muss geklärt werden, wie oft beim Auflösen aller Klammern der Summand a2 b2 entsteht. Da alle Summanden in den verschiedenen Klammern jeweils miteinander multipliziert werden, gibt es die Möglichkeiten aabb, abab, abba, baab, baba und bbaa. deren Zahl entspricht genau der Anzahl der ungeordneten Stichproben 2 aus ” 4“, denn einer Stichprobe (e1 , e2 ) kann man eindeutig den Summanden zuordnen, bei dem an e1 -ter und e2 -ter Stelle ein b und ansonsten ein a steht. Es ist damit k2 = 42 = 6. Alle Koeffizienten findet man in der fünften Zeile des Pascal’schen Dreiecks: (a + b)4 = a4 + 4ab3 + 6a2 b2 + 4ab3 + b4 . Man kann also mit Hilfe des Pascal’schen Dreiecks leicht Formeln zu (a+b)n finden. Allgemein gilt der folgende Satz: Satz 4.6 (Binomischer Satz) Für a, b ∈ R und n ∈ N gilt n n n n−1 n n−1 2 n n n n n−1 (a + b) = a + a b+ a b + ··· + ab + b 0 1 2 n−1 n n X n n−k k = a n . k k=0 Beispiel 4.12 Beim Galton-Brett13 sind in der abgebildeten Anordnung Nägel angebracht, so dass eine Kugel, die oben losgelassen wird, bei jedem Nagel mit Wahrscheinlichkeit von je 1 2 den linken oder rechten Weg nach unten einschlägt und schließlich in eines der Fächer 1 bis 6 fällt. 13 Sir Francis Galton, englischer Naturforscher, 1822–1911. 29 s @ s @s @ @ s @s @s @ @ @ s @s @s @s @ @ @ @ s @s @s @s @s @ @ @ @ @ @ @ @ @ @ 1 2 3 4 5 6 Um in Fach 1 zu landen, muss die Kugel jedesmal den linken Weg abrollen (LLLLL); 1 die Wahrscheinlichkeit hierzu beträgt nach dem Multiplikationssatz gleich ( 12 )5 = 32 . Für Fach 2 muss die Kugel einmal nach rechts und sonst nach links rollen; hierfür gibt es die 1 Wege RLLLL, LRLLL, LLRLL; LLLRL und LLLLR, die jeweils die Wahrscheinlichkeit 32 besitzen. Die Wahrscheinlichkeit für Fach 2 ist damit fünfmal so groß wie für Fach 1. Um in Fach 3 zu fallen, gibt es 52 = 10 Wege usw. Die Wahrscheinlichkeiten für die Fächer 1 bis 6 1 5 10 10 5 1 lauten so nacheinander 32 , 32 , 32 , 32 , 32 , 32 . Die Zähler entsprechen genau den Zahlen in der entsprechenden Zeile des Pascal’schen Dreiecks. Sind die Wahrscheinlichkeiten für die linken und rechten Wege ungleich verteilt (etwa durch Schiefhalten“ des Brettes), so erhält man ein Modell für die Binomialverteilung (s. ” Kapitel 5.2). Beispiel 4.13 Wir untersuchen die Zahl der ungeordneten Stichproben 3 aus 7“ mit Wie” derholung. Hierzu zählen die 35 Stichproben ohne Wiederholung (nach Beispiel 4.8), Stichproben, bei denen eine Zahl doppelt vorkommt (7 Möglichkeiten für die doppelt vorkommende Zahl, 6 für die andere Zahl, daher 7 · 6 = 42 Möglichkeiten), Stichproben mit dreimal derselben Zahl (7 Möglichkeiten). Insgesamt gibt es also 35 + 42 + 7 = 84 Möglichkeiten. Auf diese Anzahl kommt man auch durch folgende Überlegung: Zunächst setzen wir senkrechte Striche zwischen die Zahlen der Grundmenge: 1|2|3|4|5|6|7. Für eine gegebene Stichprobe lassen wir die Zahlen weg und notieren an die Stellen die Anzahl von Kreisen, mit der die Zahlen in der Stichprobe vorkommen: Für (2; 3; 6) etwa | • | • ||| • | oder für (1, 1; 5) • • |||| • ||. Für jede Stichprobe gibt es damit eine Zeichenkette, die genau sechs (allgemein: n − 1) Striche und drei (k) Kreise enthält. Jede solche Zeichenkette steht für eine andere Stichprobe. Die Zahl der Stichproben ist somit die Zahl der Möglichkeiten, wie man 3 Kreise auf 3 + 6 Plätze in der Zeichenkette verteilen kann. n−1+k 9 Sie beträgt somit = 6 = 84. k Satz 4.7 (ungeordnete Stichprobe mit Wiederholung) Es sei k ≥ 0, n ≥ 1. Die Anzahl der ungeordneten Stichproben mit Wiederholung von k Elementen aus einer nelementigen Menge beträgt genau n+k−1 n+k−1 = . k n−1 30 4.4 Hypergeometrische Verteilung Beispiel 4.14 In einer Urne befinden sich 20 Kugeln, darunter 8 weiße und 12 schwarze. Es werden 7 Kugeln ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass sich unter den gezogenen Kugeln genau 3 weiße befinden? Zunächst wird die Zahl der günstigen Ergebnisse ermittelt. Eine Stichprobe mit 3 weißen Kugeln kann man in zwei Stichproben aufteilen: Einmal in die der 3 von 8 weißen Kugeln und in die der 4 von 12 schwarzen Kugeln. Für die erste Stichprobe gibt es 83 und für die zweite Stichprobe 12 miteinander kombiniert werden, gibt es nach 4 Möglichkeiten. Da beide der Produktregel der Kombinatorik genau 83 · 12 8-elementige Stichproben mit genau 3 4 20 weißen Kugeln. Da es insgesamt 7 8-elementige Stichproben gibt, ist P ( Genau 3 weiße Kugeln gezogen“) = ” 8 3 · 20 7 12 4 = 56 · 495 ≈ 35,8 %. 77.520 Satz 4.8 (hypergeometrische Verteilung) Es sei 0 ≤ k ≤ n ≤ N , k ≤ K, K − k ≤ N − n. Ω0 sei eine n-elementige Teilmenge der N -elementigen Menge Ω. Für eine ungeordnete Stichprobe ohne Wiederholung von K Elementen aus Ω beträgt die Wahrscheinlichkeit, dass (n)·(N −n) sie genau k Elemente von Ω0 enthält, genau k NK−k . (K ) N Beweis: Insgesamt gibt es K Spichproben. Günstig sind genau die, die k Elemente aus n 0 0 Ω und K − k Elemente aus Ω \ Ω enthalten. Für die erste Teilstichprobe gibt es k , für die −n zweite N K−k Möglichkeiten. Nach Satz 2.4 (Laplace-Experimente) folgt die Behauptung. Beispiel 4.15 Es wird untersucht, wie groß beim Lotto 6 aus 49“ die Wahrscheinlichkeit ” ist, dass ein Tipp a) genau vier Richtige, b) mindestens vier Richtige erzielt. Zu a): Es ist N = 49, n = 6 (die sechs getippten Zahlen), K = 6 (die sechs gezogenen Kugeln), k = 4 (vier Richtige). Nach Satz 4.8 ist 6 43 6! 43! 6! · 43! 4 2 = P ( 4 Richtige“) = · · 49 ” 4! · 2! 2! · 41! 49! 6 6 · 5 43 · 42 6·5·4·3·2·1 645 = · · = ≈ 0, 097 %. 2 · 1 2 · 1 49 · 48 · 47 · 46 · 45 · 44 665.896 Zu b) Es gibt die Möglichkeiten vier, fünf oder sechs Richtige. Es ist 6 43 6 43 6 · 43 1 5 1 6 P ( 5 Richtige“) = 49 = 49 ; P ( 6 Richtige“) = 490 = 49 . ” ” 6 6 6 6 Damit ist P ( mindestens 4 Richtige“) = P ( 4 Richtige“) + P ( 5 Richtige“) + P ( 6 Richtige“) ” ” ” ” 15 · 903 + 6 · 43 + 1 13.840 = = ≈ 0, 099 %. 49 13.983.816 6 Beispiel 4.16 Ein Skatspiel besteht aus N = 32 Karten, darunter n = 4 Buben. Zu Beginn erhält jeder Spieler K = 10 Karten. Wir bestimmen die Wahrscheinlichkeiten für die Ereignisse Bk (k = 0; 1; 2; 3; 4): Ein bestimmter Spieler bekommt genau einen, genau zwei, . . . , alle 31 vier Buben. P (B0 ) = P (B1 ) = P (B2 ) = P (B3 ) = P (B4 ) = 4 0 28 10 32 10 4 28 1 9 32 10 4 28 2 8 32 10 4 28 3 7 32 10 4 28 4 6 32 10 = 1 · 13.123.110 ≈ 20, 3 %, 64.512.240 = 4 · 6.906.900 ≈ 42, 8 %, 64.512.240 = 6 · 3.108.105 ≈ 28, 9 %, 64.512.240 = 4 · 1.184.040 ≈ 7, 3 %, 64.512.240 = 1 · 376.740 ≈ 0, 6 %. 64.512.240 Statistisch erhält jeder Spieler in jedem 14. Spiel genau drei Buben und nur in jedem 171. Spiel alle vier Buben. 32 5 Zufallsgrößen und Binomialverteilung 5.1 Der Begriff der Zufallsgröße Beispiel 5.1 Bei einem Glücksspiel mit drei Würfeln muss ein Spieler zunächst 1 Euro einsetzen. Wirft er dann drei Einsen, erhält er 10 Euro, bei drei Zweien 20 Euro und so fort; bei drei Sechsen bekommt erschließlich 60 Euro Gewinn. Fällt kein Dreierpasch, gewinnt er nichts. Bei diesem Spiel geht es nicht allein um die Wahrscheinlichkeiten bestimmter Ereignisse, sondern auch um bestimmte Wertigkeiten“, die den Ereignissen zugeordnet werden. In den ” meisten Fällen ist dies ein Euro Verlust (−1), im günstigsten Fall ein Gewinn von 60 Euro abzüglich des eingesetzten Euros (+59). Definition 5.1 a) Gegeben ist ein Zufallsexperiment mit Ergebnismenge Ω. Eine Zuordnung X : Ω → R heißt Zufallsgröße oder Zufallsvariable. b) Es sei x0 ∈ R. Wir schreiben kurz: X = x0 für das Ereignis: Das Ergebnis hat den Zufallsgrößenwert x0 , X ≤ x0 für das Ereignis: Das Ergebnis hat einen Zufallsgrößenwert kleiner gleich x0 usw., entsprechend: X ≥ x0 , X < x0 , X > x0 , X 6= x0 . Statt (X = x0 ) ∩ (Y = y0 ) usw. schreiben wir X = x0 , Y = y0 usw. Beispiel 5.2 a) Eine Münze wird zehnmal geworfen. Wir legen X fest als Zahl der Würfe, bei denen Kopf“ gefallen ist. ” b) Bei einem Wissenstest sind zehn Fragen zu beantworten. Wir legen X als Zahl der richtigen Antworten eines Kandidaten fest. Beispiel 5.3 Bei einem Brettspiel, das mit zwei Würfeln gespielt wird, interessieren bei einem Wurf in der Regel nicht die Augenzahlen der einzelnen Würfel, sondern nur die Augensumme. Wir können daher die Zufallsvariable X definieren mit X(e1 , e2 ) := e1 + e2 , wobei e1 und e2 die einzelnen Augenzahlen darstellen. Man kann X auch als Summe der beiden Zufallsgrößen X1 (erster Wurf) und X2 (zweiter Wurf) darstellen. Wir erhalten P (X = 2) = 1 36 , P (X = 3) = 2 36 , P (X = 4) = 3 36 , P (X = 5) = 4 36 , P (X = 6) = 5 36 , P (X = 7) = 6 36 , P (X = 8) = 5 36 , P (X = 9) = 4 36 , P (X = 10) = 3 36 , P (X = 11) = 2 36 , P (X = 12) = 1 36 (vgl. Beispiel 2.10). Selbstverständlich ist die Summe über alle diese Wahrscheinlichkeiten gleich 1. Satz 5.1 Ist X eine Zufallsgröße mit der Wertemenge {x1 , x2 , . . . , xm }, so gilt 1. P (X = x1 ) ≥ 0, . . . , P (X = xm ) ≥ 0 und 2. P (X = x1 ) + · · · + P (X = xm ) = 1. Definition 5.2 Ist Ist X eine Zufallsgröße mit der Wertemenge W = {x1 , x2 , . . . , xm }, so heißt die Funktion PX : W → R mit PX (xi ) := P (X = xi ) (1 ≤ i ≤ m) die Wahrscheinlichkeitsverteilung der Zufallsgröße X. 33 Beispiel 5.1 (Fortsetzung) Beim oben beschriebenen Spiel gibt es folgende Wahrscheinlich1 keitsverteilung: P (X = 59) = P ((6, 6, 6)) = 613 = 216 , entsprechend P (X = 49) = P (X = 1 35 39) = · · · = P (X = 9) = 216 . Schließlich ist P (X = −1) = 210 216 = 36 ≈ 97,2 %. 5.2 Der Erwartungswert Beispiel 5.1 (Fortsetzung, vgl. Abschnitt 5.1): Man kann sich hier fragen, ob das Spiel eigentlich fair“ ist, d. h. ob der Spieler auf lange Sicht gesehen“ ebenso viel gewinnen wie ” ” verlieren wird. Wird das Spiel n-mal durchgeführt, so errechnet sich der Gesamtgewinn (oder -verlust) xges als xges = 59 · an (X = 59) + 49 · an (X = 49) + · · · + 9 · an (X = 9) + (−1) · an (X = −1) = n · (59 · rn (X = 59) + 49 · rn (X = 49) + · · · + 9 · rn (X = 9) + (−1) · rn (X = −1)) , wobei an und rn für die absoluten und relativen Häufigkeiten der jeweiligen Ereignisse steht. Für den durchschnittlichen Gewinn bei einem Spiel x gilt dementsprechend xges x= = 59 · rn (X = 59) + 49 · rn (X = 49) + · · · + 9 · rn (X = 9) + (−1) · rn (X = −1). n Nach dem Gesetz der großen Zahlen (vgl. Abschnitt 2.2) haben bei großem n die relativen Häufigkeiten etwa denselben Wert wie die Wahrscheinlichkeiten, es ist also x ≈ 59 · P (X = 59) + 49 · P (X = 49) + · · · + 9 · P (X = 9) + (−1) · P (X = −1) 1 1 1 1 1 1 = 59 · 216 + 49 · 216 + 39 · 216 + 29 · 216 + 19 · 216 + 9 · 216 + (−1) · 59 + 49 + 39 + 29 + 19 + 9 − 210 6 1 = =− = − ≈ −0, 028. 216 216 36 210 216 Es ist also langfristig mit einem Verlust von rund 2,8 Cent pro Spiel zu rechnen. Da es sich um den zu erwartenden Verlust bei einem Spiel handelt, nennt man diesen Wert den Erwartungswert“ dieser Zufallsgröße. ” Definition 5.3 Es sei X eine Zufallsgröße mit der m-elementigen Wertemenge {x1 , . . . , xm }. Dann heißt E(X) := x1 · P (X = x1 ) + · · · + xm · P (X = xm ) der Erwartungswert von X. Beispiel 5.4 Beim Roulette werden 100 Euro auf Rot“ gesetzt. Von den Zahlen 1 bis 36 ” sind 18 Zahlen rot“ und 18 schwarz“. Dazu gibt es noch die Null. In 18 günstigen Fällen ” ” erhält der Spieler also seinen Einsatz zurück und 100 Euro dazu, in den übrigen 19 Fällen verliert er seinen Einsatz. Da es sich um ein Laplace-Experiment handelt, gilt somit (für X: Gewinn nach dem Spiel): E(X) = 100 · 19 100 18 + (−100) · =− ≈ −2,70. 37 37 37 Ein anderer Spieler setzt 100 Euro auf eine Zahl. Im Gewinnfalle erhält er seinen Einsatz zurück und das 35fache seines Einsatzes. Für ihn gilt: E(X) = 3500 · 1 36 100 + (−100) · =− ≈ −2,70. 37 37 37 Beide haben also einen durchschnittlichen Verlust von rund 2,70 Euro zu erwarten. Dieser negative Erwartungswert stellt sicher, dass die Spielbank auf lange Sicht Gewinne macht. 34 Beispiel 5.5 Ist X die Augenzahl beim einfachen Würfeln, so ist E(X) = 1 · 1 6 +2· 1 6 1 6 +3· 1 6 +4· 1 6 +5· +6· 1 6 = 21 6 = 72 . Beispiel 5.6 Beim zweimaligen Würfeln (vgl. Beispiel 5.3) erhalten wir 1 2 3 4 5 6 5 4 3 2 1 +3· 36 +4· 36 +5· 36 +6· 36 +7· 36 +8· 36 +9· 36 +10· 36 +11· 36 +12· 36 = E(X) = 2· 36 252 36 = 7. Ist X1 die Augenzahl beim ersten und X2 die Augenzahl beim zweiten Würfeln, so ist nicht nur X = X1 + X2 , sondern auch E(X1 ) + E(X2 ) Bsp. 5.5 7 = 2 7 2 + = 7 = E(X) = E(X1 + X2 ). Beispiel 5.7 An einem anderen Beispiel wollen wir nicht nur überprüfen, ob der Erwartungswert der Summe zweier Zufallsvariablen mit der Summe der einzelnen Erwartungswerte übereinstimmt, sondern auch, ob der entsprechende Sachverhalt für das Produkt von Erwartungswerten gilt. In einer Urne liegen drei Kugeln mit den Nummern 1, 2, 3. Zweimal wird eine Kugel gezogen. X stehe für die Nummer der zuerst, Y für die der als zweites gezogenen Kugel. a) Wird mit Zurücklegen gezogen, so hat der Ergebnisraum die Elemente (1, 1), (1, 2), (1, 3), (2, 1) usw., wobei es folgende Summen und Produkte gibt: + 1 2 3 1 2 3 4 2 3 4 5 · 1 2 3 3 4 5 6 1 1 2 3 2 2 4 6 3 3 6 9 Es ist E(X) = E(Y ) = 2 und E(X + Y ) = 2 · E(XY ) = 1 · 1 9 1 9 2 9 +3· +2· 2 9 3 9 +4· +3· 2 9 2 9 +5· +4· 1 9 +6· +6· 2 9 1 9 = 4 = 2 + 2 = E(X) + E(Y ) +9· 1 9 = 4 = 2 · 2 = E(X) · E(Y ). Man kann also Bildung des Erwartungswertes und Rechenoperation (Addition bzw. Multiplikation) in diesem Fall vertauschen. b) Wird ohne Zurücklegen gezogen, so fallen die Ergebnisse mit zweimal derselben Zahl weg, so dass sich die Tabellen folgendermaßen reduzieren: · 1 2 3 + 1 2 3 1 − 2 3 1 − 3 4 2 2 − 6 2 3 − 5 3 3 6 − 3 4 5 − Damit ist E(X + Y ) = 3 · 2 6 +4· 2 6 +5· 2 6 = 4 = 2 + 2 = E(X) + E(Y ), jedoch E(XY ) = 2 · 2 6 +3· 2 6 +6· 2 6 = 11 3 6= 2 · 2 = E(X) · E(Y ). Der Unterschied liegt darin, dass im zweiten Fall das Ergebnis der zweiten Ziehung von der ersten Ziehung beeinflusst wird, da die gezogene Kugel nicht zurückgelegt wird. Im ersten Fall sind die beiden Ziehungen unabhängige“ Zufallsexperimente (vgl. Kapitel 3.4). Wir dehnen ” den Begriff der stochastischen Unabhängigkeit auf Zufallsgröen aus: 35 Definition 5.4 Die Zufallsgrößen X1 , . . . , Xk mit (endlichen) Wertemengen W1 , . . . Wk heißen (stochastisch) unabhängig, wenn für alle (x1 , . . . , xk ) ∈ W1 × · · · × Wk gilt P (X1 = x1 , . . . , Xk = xk ) = P (X1 = x1 ) · . . . · P (Xk = yk ). Satz 5.2 (Rechenregeln) a) Steht c für die konstante Zufallsgröße, die jedem Ergebnis den Wert c ∈ R zuordnet, so gilt E(c) = c. b) (Linearität) Für Zufallsgrößen X1 , X2 , . . . , Xn eines Zufallsexperiments gilt E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ). c) Sind X und Y unabhängige (!) Zufallsgrößen, so folgt E(X · Y ) = E(X) · E(Y ). Beweis: Wir beweisen b) und beschränken uns auf zwei Zufallsgrößen X und Y mit endlichen Wertemengen {x1 , . . . , xm } und {y1 , . . . , yn }. E(X + Y ) = (x1 + y1 ) · P (X = x1 , Y = y1 ) + · · · + (x1 + yn ) · P (X = x1 , Y = yn ) + + (x2 + y1 ) · P (X = x2 , Y = y1 ) + · · · + (x2 + yn ) · P (X = x2 , Y = yn ) + +··· + +(xm + y1 ) · P (X = xm , Y = y1 ) + · · · + (xm + yn ) · P (X = xm , Y = yn ) = x1 · (P (X = x1 , Y = y1 ) + · · · + P (X = x1 , Y = yn )) + {z } | P (X = x1 ) + · · · + xm · (P (X = xm , Y = y1 ) + · · · + P (X = xm , Y = yn )) + | {z } P (X = xm ) +y1 · (P (X = x1 , Y = y1 ) + · · · + P (X = xm , Y = y1 )) + | {z } P (Y = y1 ) + · · · + yn · (P (X = x1 , Y = yn ) + · · · + P (X = xm , Y = yn )) | {z } P (Y = yn ) = x1 P (X = x1 ) + · · · + xm P (X = xm ) + y1 P (Y = y1 ) + · · · + ym P (Y = ym ) = E(X) + E(Y ). Die geschweiften Klammern erklären sich folgendermaßen: Durch ggf. mehrfache Anwendung des Kolmogorow-Axioms (K3) (vgl. Definition 2.5) folgt zunächst etwa P (X = x1 , Y = y1 ) + · · · + P (X = x1 , Y = yn ) = P (X = x1 , (Y = y1 ) ∪ · · · ∪ (Y = yn )); dies ist jedoch gleich P (X = x1 ), da Y stets genau einen der genannten Werte annimmt, diese Vereinigung also gleich Ω ist. Die Behauptung für n Zufallsgrößen wird durch vollständige Induktion über n bewiesen. Aufgabe 5.1 Beweisen Sie Satz 5.2 c) für je zweielementige Wertemengen {x1 , x2 } und {y1 , y2 }. Beispiel 5.8 Bei einem Brettspiel wird jeweils einmal gewürfelt (Augenzahl X). Es werden jedoch immer drei Felder mehr gezogen als der Würfel anzeigt. Der Erwartungswert für die Zahl der gezogenen Felder ist nach Satz 5.2 a) und b) und Beispiel 5.5 dann E(X + 3) = E(X) + E(3) = 27 + 3 = 13 3 . 36 5.3 Varianz und Standardabweichung Beispiel 5.9 Wir betrachten X als Ergebnis eines Wurfs mit einem normalen Würfel und Y als Ergebnis eines Wurfs mit einem Würfel, der nur die Augenzahlen Eins und Sechs aufweist, die jeweils auf drei Seiten stehen. Es ist somit P (Y = 1) = P (Y = 6) = 12 und E(Y ) = 21 · 1 + 12 · 6 = 72 , die Erwartungswerte von X und Y unterscheiden sich also nicht (vgl. Beispiel 5.6). Dennoch unterscheiden sich die Verteilungen: Beim ersten Würfel treten auch Werte auf, die nahe“ beim Erwartungswert liegen (3 und 4), beim zweiten Würfel treten nur ” extreme“ Werte auf. Der mittlere Abstand der geworfenen Zahlen zum Erwartungswert“ ” ” scheint beim zweiten Würfel größer zu sein. Noch größer dürfte der Unterschied werden, wenn wir diesen Abstand |X − E(X)| quadrieren zu (X − E(X))2 und hiervon den Erwartungswert ermitteln: E((X − E(X))2 ) = = 1 7 2 1 7 2 1 7 2 1 7 2 6 · (1 − 2 ) + 6 · (2 − 2 ) + 6 · (3 − 2 ) + · · · + 6 · (6 − 2 ) 1 5 2 3 2 1 2 1 2 3 2 5 2 35 6 (( 2 ) + ( 2 ) + ( 2 ) + ( 2 ) + ( 2 ) + ( 2 ) ) = 12 ≈ 2,92; entsprechend für Y : E((Y − E(Y ))2 ) = 1 2 · (1 − 72 )2 + 1 2 · (6 − 72 )2 = 12 (( 52 )2 + ( 52 )2 ) = 25 4 = 6,25. Definition 5.5 Es sei X eine Zufallsgröße mit der Wertemenge {x1 , . . . , xm }. a) V (X) := E((X − E(X))2 ) = m P P (X = xk ) · (xk − E(X))2 heißt Varianz von X. k=1 p b) σ(X) := V (X) heißt Standardabweichung von X. Beispiel 5.10 Wir betrachten ein Roulettespiel ohne Null, d. h. ein Laplace-Experiment mit Ω = {1; 2; . . . ; 36}. Spieler 1 (Gewinn X1 ) setzt 10 Euro auf Rot, Spieler 2 (Gewinn X2 ) setzt 10 Euro auf die 13. Die Gewinnauszahlung soll wie in Beispiel 5.4 erfolgen. Wie man leicht nachrechnet, sind die Erwartungswerte in beiden Fällen gleich 0. Jedoch gilt: √ 100 V (X1 ) = 12 · (−10 − 0)2 + 12 · (10 − 0)2 = 100 σ(X1 ) = 100 = 10; 2 + 2 = 100, √ 35 1 3502 V (X2 ) = 36 · (−10 − 0)2 + 36 · (350 − 0)2 = 3500 σ(X2 ) = 3500 ≈ 59,2. 36 + 36 = 3500, Bei Spieler 1 ist die Abweichung vom Erwartungswert stets dieselbe (nämlich 10). Bei Spieler 2 ist diese Abweichung im Gewinnfalle erheblich größer, was zu der größeren Standardabweichung führt. Satz 5.3 (Rechenregeln) a) Steht c für die konstante Zufallsgröße, die jedem Ergebnis den Wert c ∈ R zuordnet, so gilt V (c) = 0. b) Für c ∈ R gilt V (X + c) = V (X), V (c · X) = c2 · V (X), σ(c · X) = |c| · σ(X). c) Sind X und Y unabhängige (!) Zufallsgrößen, so folgt V (X + Y ) = V (X) + V (Y ). Für unabhängige Zufallsgrößen X1 , . . . , Xn gilt V (X1 + · · · + Xn ) = V (X1 ) + · · · + V (Xn ). 37 Beweis: Mit Definition 5.5 unter Berücksichtigung der Rechenregeln für den Erwartungswert (Satz 5.2). Zu c): V (X + Y ) = E((X + Y − E(X + Y ))2 ) = E((X + Y − E(X) − E(Y ))2 ) = E(X 2 − 2XE(X) + (E(X))2 ) + E(Y 2 − 2Y E(Y ) + (E(Y ))2 ) + | {z } | {z } E((X−E(X))2 ) E((Y −E(Y ))2 ) + E(2XY ) − E(2XE(Y )) − E(2Y E(X)) + E(2E(X)E(Y )) | {z } | {z } | {z } | {z } 2E(XY ) 2E(X)E(Y ) 2E(X)E(Y ) 2E(X)E(Y ) = V (X) + V (Y ) wegen E(XY ) = E(X)E(Y ) nach Satz 5.2 c). 5.4 Die Binomialverteilung Beispiel 5.11 Bei einem Einstellungstest werden den Bewerbern Fragen vorgelegt, bei denen jeweils vier Antworten zur Auswahl stehen, von denen nur eine richtig ist. Ein Teilnehmer, der vom abgefragten Stoff keine Ahnung hat, kreuzt zu jeder Frage zufällig eine Antwort an. Definition 5.6 a) Ein Zufallsexperiment heißt Bernoulli-Experiment14 , wenn das Experiment mehrfach unabhängig wiederholbar ist und dabei nur zwei mögliche Ereignisse, E (Treffer) und E (Niete) betrachtet werden. Die Wahrscheinlichkeit p = P (E) heißt Trefferwahrscheinlichkeit. b) Die n-fache unabhängige Durchführung eines Bernoulli-Experimentes heißt BernoulliKette der Länge n. Beispiel 5.12 Das mehrfache Werfen eines Würfels ist eine Bernoulli-Kette, wenn dabei nur beachtet wird, ob eine Sechs geworfen wird (E) oder nicht (E). Die Trefferwahrscheinlichkeit beträgt p = 61 . Beispiel 5.13 In einer Urne liegen 5 weiße und 5 schwarze Kugeln. Wir ziehen eine Kugel und setzen E: weiße Kugel gezogen. Die mehrfache Durchführung des Experiments ist eine 5 Bernoulli-Kette (p = 10 = 12 ), sofern die gezogene Kugel zurückgelegt wird, Wird nicht zurückgelegt, sind die Ereignisse bei der k-ten Ziehung weiß gezogen“ nicht unabhängig. ” Beispiel 5.11 (Fortsetzung) Das zufällige Ankreuzen bei einer Frage ist ein BernoulliExperiment, da es nur auf die Ereignisse richtig“ (E) und falsch“ (E) ankommt. Da nur ” ” eine von vier Antworten richtig ist, ist p = 14 . Das Ankreuzen von zehn Fragen stellt eine Bernoulli-Kette der Länge 10 dar, sofern keine Fragen identisch sind oder logisch miteinander zusammenhängen. Angenommen, man müsste mindestens acht Fragen richtig beantworten, um den Test zu bestehen. Wir groß ist die Wahrscheinlichkeit, dass ein ahnungsloser Teilnehmer dies zufällig schafft? Da es sich um ein mehrstufiges Zufallsexperiment handelt, kann eine solche Wahrscheinlichkeit prinzipiell mit den Pfadregeln berechnet werden. Bei 10 Stufen ist dies jedoch zu kompliziert, da sich das Baumdiagramm zu sehr verästelt. Wir gehen daher zunächst von drei gestellten Fragen aus: 14 Jakob Bernoulli (1654–1705), schweizerischer Mathematiker. 38 u PPP PP 34 PP PP PP P 1 4 R 1 4 PP 3 P4P PP R 1 4 R PP 3 P4P PP F @ 3 @4 @ F R @ 3 @4 @ 1 4 F 1 4 R 1 4 F F @ 3 @4 @ R F 1 4 @ 3 @4 @ R F Es sei X die Zahl der richtig beantworteten Fragen. Für X = 0 gibt es nur einen Pfad (F F F ), für X = 1 drei Pfade (RF F, F RF, F F R) usw. Mit der 1. und 2. Pfadregel erhalten wir P (X = 0) = P (X = 1) = 3 4 1 4 · · 3 4 3 4 · · 3 4 3 4 = + 27 64 , 3 1 4 · 4 · 3 4 + 3 4 · 3 4 · 1 4 = 3 · ( 14 )1 · ( 34 )2 = 27 64 . Nach der 1. Pfadregel ist die Pfadwahrscheinlichkeit gleich dem Produkt der Wahrscheinlichkeiten der zugehörigen Zweige. Bei jedem Pfad für X = 1 gibt es genau einen 14 -Zweig (1 richtige Antwort) und zwei 43 -Zweige (2 falsche Antworten), daher haben die Pfade dieselbe Wahrscheinlichkeit, und man kann diese mit der Zahl der Pfade multiplizieren. Es ergibt sich allgemein P (X = k) = (Zahl der Pfade) · (Trefferwahrscheinlichkeit)Trefferzahl · (Gegenwahrscheinlichkeit)Zahl der Nieten . Zu klären ist noch die Zahl der Pfade im allgemeinen Falle. Bei zwei von vier richtigen Antworten gibt es die sechs Möglichkeiten RRF F, RF RF, RF F R, F RRF, F RF R, F F RR. Offenbar handelt es sich um ungeordnete Stichproben von 2 (richtig beantworteten) aus (insgesamt) 4 Fragen, deren Anzahl gleich 42 = 6 beträgt. Mit dieser Erkenntnis erhält man den folgenden Satz: Satz 5.4 (Bernoulli) Es sei X die Zahl der Treffer bei einer Bernoulli-Kette aus n Experimenten mit Trefferwahrscheinlichkeit p ∈ [0; 1]. Für k ∈ {0; . . . ; n} gilt dann n P (X = k) = · pk · (1 − p)n−k . k Beweis: Vollständige Induktion über n. Induktionsanfang: Für n = 1 ist 1 · p1 (1 − p)0 , 1 1 P (X = 0) = P ( kein Treffer“) = 1 − p = · p0 (1 − p)1 . ” 0 P (X = 1) = P ( Treffer“) = p = ” Induktionsschritt: Wir setzen ( 1 für Treffer beim j-ten Versuch“, ” Xj := 0 für kein Treffer beim j-ten Versuch“ ” 39 (j ∈ {1; . . . ; n}); X (n) := X1 + · · · + Xn : Zahl der Treffer bei n Versuchen. Nach Induktionsvoraussetzung ist P (X (n) n = k) = · pk · (1 − p)n−k . k Zunächst sei k = 0. Es ist P (X (n+1) = 0) = Xj unabh. = P (X1 = 0, . . . , Xn+1 = 0) P (X1 = 0) · . . . · P (Xn+1 = 0) = p | {z } | {z } p n+1 = n + 1 n+1 p (1 − p)0 . 0 p Es sei jetzt k > 0. Dann ist P (X (n+1) = k) = Xj unabh. = Ind.-Vor. = = = Satz 4.5 b) = P (X (n) = k, Xn+1 = 0) + P (X (n) = k − 1, Xn+1 = 1) P (X (n) = k) · P (Xn+1 = 0) + P (X (n) = k − 1) · P (Xn+1 = 1) n n k n−k · p (1 − p) · (1 − p) + · pk−1 (1 − p)n+1−k · p k k−1 n n k n+1−k · p (1 − p) + · pk (1 − p)n+1−k k k−1 n n + · pk (1 − p)n+1−k k k−1 n+1 · pk (1 − p)n+1−k , k was zu beweisen war. Definition 5.7 Es sei n ∈ N∗ und 0 < p < 1. Die durch n P (X = k) = B(n, p, k) := · pk · (1 − p)n−k k (0 ≤ k ≤ n) gegebene Wahrscheinlichkeitsverteilung heißt (n, p)-Binomialverteilung oder kurz B(n, p)-Verteilung. Satz 5.5 Für die (n, p)-Binomialverteilung gilt a) n P B(n, p, k) = 1; k=0 b) B(n, p, k) = B(n, 1 − p, n − k). Bemerkung: Zu a): Die Summe über die Werte P (X = 0), . . . , P (X = n) muss natürlich gleich 1 sein, da es sich um eine Wahrscheinlichkeitsverteilung handelt. Zu b): Bei einer Bernoulli-Kette der Länge n treten genau dann k Treffer (jeweils mit Wahrscheinlichkeit p) ein, wenn n − k Nieten (jeweils mit Wahrscheinlichkeit 1 − p) eintreffen, daher ist die Wahrscheinlichkeit dieselbe. Beweis: Zu a): Nach dem binomischen Satz (Satz 4.6) folgt n n X X n k B(n, p, k) = p (1 − p)n−k = (p + (1 − p))n = 1n = 1. k k=0 k=0 40 Zu b): Mit Satz 4.5 a) ist n k n n−k = B(n, p, k) = p (1 − p) (1 − p)n−k (1 − (1 − p))n−(n−k) = B(n, 1 − p, n − k). k n−k Beispiel 5.13 (Fortsetzung) Wir ermitteln nun die Wahrscheinlichkeit, dass der ahnungslose Kandidat von zehn Fragen keine, genau eine, zwei usw. zufällig richtig ankreuzt, mit dem Satz von Bernoulli. Es ist n = 10 (Zahl der Fragen) und p = 14 (jeweils eine von vier Antworten ist richtig). X steht für die Zahl der richtig beantworteten Fragen. Dann gilt: 0 10 3 59.049 10 1 · =1·1· ≈ 0,0563; · 4 4 1.048.576 0 1 9 10 1 3 1 19.683 · · = 10 · · ≈ 0,1877; 1 4 4 4 262.144 2 8 3 1 6561 10 1 · = 45 · · ≈ 0,2816; · 4 4 16 65.536 2 3 7 10 1 3 1 2187 · · = 120 · · ≈ 0,2503; 3 4 4 64 16.384 4 6 10 1 3 1 729 · · = 210 · · ≈ 0,1460; 4 4 4 256 4096 P (X = 0) = P (X = 1) = P (X = 2) = P (X = 3) = P (X = 4) = die Wahrscheinlichkeit ist also für zwei oder drei richtige Lösungen am größten und nimmt dann ab (die Werte für größere k siehe unten in der Tabelle bzw. die Graphik). Bemerkung 5.1 Damit man sich diese aufwendigen Rechnungen sparen kann, gibt es Tabellen, in denen die Werte der Binomialverteilungen verzeichnet sind. Für n = 10 sieht eine solche Tabelle etwa so aus: k 0 1 2 3 4 5 6 7 8 9 10 0,02 8171 1667 0153 0008 0,1 3487 3874 1937 0574 0112 0015 0001 1 6 1615 3230 2907 1550 0543 0130 0022 0002 0,2 1074 2684 3020 2013 0881 0264 0055 0008 0001 p 0,25 0563 1877 2816 2503 1460 0584 0162 0031 0004 0,3 0282 1211 2335 2668 2001 1029 0368 0090 0014 0001 1 3 0173 0867 1951 2601 2276 1366 0569 0163 0030 0003 0,4 0060 0403 1209 2150 2508 2007 1115 0425 0106 0016 0001 0,5 0010 0098 0439 1172 2051 2461 2051 1172 0439 0098 0010 Aufgeführt sind die ersten vier Nachkommastellen der Dezimalbrüche, so erkennt man in der Spalte p = 0,25 etwa P (X = 2) ≈ 0,2816 wie oben in Beispiel 5.12 berechnet. In den freien Feldern ergeben sich so geringe Werte, dass die Rundung auf vier Nachkommastellen keinen positiven Wert mehr ergeben würde (etwa die Wahrscheinlichkeit für 8 Sechsen bei 10 Würfen wäre B(10; 61 ; 8) < 0,00005). Die Summen in einer Spalte müssen aufgrund von Satz 5.5 a) jeweils 1 ergeben. 41 Es stehen zwar keine Werte zu 0,5 < p < 1 verzeichnet Jedoch kann man sich diese mit Hilfe von Satz 5.5 b) erschließen: Um beispielsweise die Wahrscheinlichkeit zu ermitteln, bei einer Trefferwahrscheinlichkeit von p = 0, 9 genau 8 Treffer (von 10 Versuchen) zu erzielen, rechnet man: B(10; 0,9; 8) Satz 5.5 b) = Definition 5.8 F (n, p, k) := B(10; 1 − 0,9; 10 − 8) = B(10; 0,1; 2) ≈ 0,1937. k P B(n, p, j) heißt kumulierte oder summierte Wahr- j=0 scheinlichkeit bei der Binomialverteilung (kurz: kumulierte Binomialverteilung“). ” Beispiel 5.14 Für die Wahrscheinlichkeit für bei zehnmaligem Würfeln höchstens dreimal ” eine Sechs geworfen“ gilt nach der Tabelle15 P (X ≤ 3) = F (10, 16 , 3) = B(10, 16 , 0) + B(10, 16 , 1) + B(10, 16 , 2) + B(10, 16 , 3) ≈ 0,1615 + 0,3230 + 0,2907 + 0,1550 = 0, 9302. Satz 5.6 Für eine (n, p)-binomialverteilte Zufallsgröße gilt: a) P (X ≤ k) = F (n, p, k) (0 ≤ k ≤ n), P (X ≥ k) = 1 − F (n, p, k − 1) b) P (X = k) = F (n, p, k) − F (n, p, k − 1) (1 ≤ k ≤ n), P (k1 ≤ X ≤ k2 ) = F (n, p, k2 ) − F (n, p, k1 − 1) c) F (n, p, k) = 1 − F (n, 1 − p, n − k − 1) (1 ≤ k ≤ n); (0 ≤ k1 < k2 ≤ n); (0 ≤ k ≤ n). Beweis: Zu c): F (n, p, k) = B(n, p, 0) + · · · + B(n, p, k) = 1 − (B(n, p, k + 1) + B(n, p, k + 2) · · · + B(n, p, n)) Satz 5.5b) = 1 − (B(n, 1!p, n−k−1) + B(n, 1−p, n−k−2) + · · · + B(n, 1−p, 0) = 1 − F (n, 1 − p, n − k − 1). Bemerkung 5.2 Da man sich häufig dafür interessiert, mit welcher Wahrscheinlichkeit die Zahl der Treffer in einer Bernoulli-Kette sich in einem bestimmten Intervall befindet und hierfür die Werte der kumulierten Binomialverteilung hilfreich sind, sind auch diese in Tabellen zu finden. Die entsprechende Tabelle zu n = 10 ist: k 0 1 2 3 4 5 6 7 8 9 0,02 8171 9838 9991 0,1 3487 7361 9298 9872 9984 9999 1 6 1615 4845 7752 9303 9845 9976 9997 0,2 1074 3758 6778 8791 9672 9936 9991 9999 p 0,25 0563 2440 5256 7759 9219 9803 9965 9996 15 0,3 0282 1493 3828 6496 8497 9527 9894 9984 9999 1 3 0173 1040 2991 5593 7869 9234 9803 9966 9996 0,4 0060 0464 6739 3823 6331 8338 9452 9877 9983 9999 0,5 0010 0107 0547 1719 3770 6230 8281 9453 9893 9990 Die Abweichung vom Wert 0,9303 in der Tabelle zu Bemerkung 5.2 kommt durch einen Rundungsfehler bei der Addition zustande. 42 Leere Plätze sind hier mit 1 zu ergänzen. Die Zeile k = 10 kann fortfallen, da für jedes p gilt P (X ≤ 10) = 1. Für p-Werte von mehr als 0,5 verwendet man Satz 5.6 c), wie das Beispiel 5.15 zeigt. Beispiel 5.15 Für die Wahrscheinlichkeit, dass bei zehnmaligem Münzwurf mindestens dreimal Zahl geworfen wird, gilt P (X ≥ 3) = P (X > 2) = 1 − P (X ≤ 2) = 1 − F (10; 0,5; 2) ≈ 1 − 0,0547 = 0,9453 = 94,53 %. Beispiel 5.16 einer Urne liegen sechs weiße und vier schwarze Kugeln. Es wird zehnmal mit Zurücklegen gezogen. X steht für die Zahl der Ziehungen einer weißen Kugel. Die Wahrscheinlichkeit für höchstens fünfmal eine weiße Kugel gezogen“ ist dann gleich ” P (X ≤ 5) = F (10; 0,6; 5). Da dieser Wert nicht in der Tabelle steht, schließt man mit Satz 5.6 c) P (X ≤ 5) = 1 − F (10; 0,4; 4) ≈ 1 − 0,6631 = 0,3369. Dabei kann F (10; 0,4; 4) auch als die Wahrscheinlichkeit des Gegenereignisses höchstens ” viermal eine schwarze Kugel gezogen“ betrachtet werden. Beispiel 5.17 Mit einer (hier nicht aufgeführten) Tabelle bestimmen wir die Wahrscheinlichkeit, dass bei 100 Würfelwürfen die Zahl der Sechsen mindestens 15 und höchstens 20 beträgt: P (15 ≤ X ≤ 20) Satz 5.6 b) = F (100, 61 , 20) − F (100, 16 , 14) ≈ 0,8481 − 0,2874 = 0,5607, sie liegt also bei und 56 %. 5.5 Abweichungen vom Erwartungswert Beispiel 5.18 Ein ahnungsloser Teilnehmer nimmt an einem Test mit 10 Fragen teil, bei denen jeweils die richtige von fünf vorgegebenen Antworten angekreuzt werden muss. Wie viele richtige Antworten sind zu erwarten? Intuitiv nimmt man an, dass es zwei sein müssen, da nur jede fünfte Frage richtig beantwortet wird. Die Berechnung des Erwartungswertes mit den Werten aus der Tabelle oben (p = 0,2) ergibt tatsächlich E(X) ≈ 0 · 0,1074 + 1 · 0,2684 + 2 · 0,3020 + 3 · 0,2013 + 4 · 0,0881 + 5 · 0,0264 + + 6 · 0,0055 + 7 · 0,0008 + 8 · 0,0001 + 9 · 0 + 10 · 0 = 2,0001 (es ist exakt E(X) = 2, wie der Satz unten zeigt). Tatsächlich werden nur in rund 30 % der Fälle genau zwei richtige Antworten erzielt. Als Maß dafür, wie stark die Ergebnisse im Mittel vom Erwartungswert abweichen, wird die Varianz bestimmt: V (X) ≈ (2 − 0)2 · 0,1074 + (2 − 1)2 · 0,2684 + (2 − 2)2 · 0,3020 + (2 − 3)2 · 0,2013 + + (2 − 4)2 · 0,0881 + (2 − 5)2 · 0,0264 + (2 − 6)2 · 0,0055 + (2 − 7)2 · 0,0008 + + (2 − 8)2 · 0,0001 + (2 − 9)2 · 0 + (2 − 10)2 · 0 = 1,6009. Man kann Erwartungswert und Varianz auch viel einfacher mit den folgenden Formeln ausrechnen: 43 Satz 5.7 (Erwartungswert und Varianz der Binomialverteilung) Ist X die Anzahl der Treffer in einer Bernoulli-Kette der Länge n mit Trefferwahrscheinlichkeit p, so gilt E(X) = np, V (X) = np(1 − p), σ(X) = p np(1 − p). Beweis: Es sei zunächst n = 1. Nach Definition 5.4 ist E(X) = 0 · P (X = 0) + 1 · P (X = 1) = 0 · (1 − p) + 1 · p = p und damit V (X) = (0 − p)2 · P (X = 0) + (1 − p)2 · P (X = 1) = p2 (1 − p) + (1 − p)2 p = (1 − p)(p2 + (1 − p)p) = (1 − p)p. Es sei jetzt n > 1. Wir definieren Xj wie im Beweis von Satz 5.4. Dann ist X = X1 +· · ·+Xn , also E(X) Satz 5.2 b) = E(X1 ) + · · · + E(Xn ) = np. Satz 5.3 b) Entsprechend ist V (X) = V (X1 ) + · · ·p + V (Xn ) = np(1 − p), da die Zufallsgrößen X1 , . . . , Xn unabhängig sind. Ferner ist σ(X) = V (X). Beispiel 5.18 (Fortsetzung) Wir erhalten für die (10, 15 )-Binomialverteilung E(X) = 10· 15 = 2 und V (X) = 10 · 15 · 45 = 85 = 1,6, was die Rechnung oben bis auf Rundungsfehler bestätigt. √ Außerdem ist σ(X) = 1,6 ≈ 1, 265. Beispiel 5.19 Eine Münze wird 100-mal geworfen. X sei die Anzahl der Kopf“-Würfe. Für ” Erwartungswert und Standardabweichung gilt: q µ := E(X) = 100 · 12 = 50; σ(X) = 100 · 12 · 12 = 5. Wie man berechnen oder einer Tabelle entnehmen kann, ist die Wahrscheinlichkeit, dass bei einer Durchführung des Bernoulli-Experiments tatsächlich der Wert X = 50 realisiert wird, nur knapp 8 %. Interessant wäre die Frage, mit welcher Wahrscheinlichkeit der realisierte Wert nur wenig“ vom Erwartungswert (im Folgenden µ genannt) abweicht, etwa höchstens ” um den Wert der Standardabweichung σ: P (|X − µ| ≤ σ) = Satz 5.6 b) = P (µ − σ ≤ X ≤ µ + σ) = P (45 ≤ X ≤ 55) F (100, 21 , 55) − F (100, 12 , 44) Tabelle ≈ 0,8644 − 0,1356 = 0,7288. Für die maximalen Abweichungen 2σ und 3σ lauten die Berechnungen entsprechend: P (|X − µ| ≤ 2σ) = P (40 ≤ X ≤ 60) ≈ 0, 9824 − 0, 0176 = 0, 9648, P (|X − µ| ≤ 3σ) = P (35 ≤ X ≤ 65) ≈ 0, 9991 − 0, 0009 = 0, 9982. Das bedeutet: In 73 % der Experimente weicht die Anzahl der Kopf“-Würfe um höchstens ” die Standardabweichung σ vom Erwartungswert ab. In 96,5 % beträgt diese Abweichung höchstens das Doppelte, in über 99 % der Fälle höchstens das Dreifache der Standardabweichung. Beispiel 5.20 Eine entsprechende Berechnung wird für den 80fachen Wurf eines Würfels durchgeführt, wobei der Wurf einer 5 oder einer 6 als Treffer betrachtet wird (p = 13 ). Zunächst gilt für Erwartungswert µ und Standardabweichung σ: q q 80 1 2 µ = 3 ≈ 26,667; σ = 80 · 3 · 3 = 160 9 ≈ 4,216. 44 Damit folgt nach der Tabelle: P (|X − µ| ≤ σ) = P (22,5 ≤ X ≤ 30,9) = P (23 ≤ X ≤ 30) ≈ 0,8190 − 0,1616 = 0,6574; P (|X − µ| ≤ 2σ) = P (18,2 ≤ X ≤ 35,1) = P (19 ≤ X ≤ 35) ≈ 0,9803 − 0,0237 = 0,9566; P (|X − µ| ≤ 3σ) = P (14,02 ≤ X ≤ 39,3) = P (15 ≤ X ≤ 39) ≈ 0,9985 − 0,0012 = 0,9973. Beispiel 5.21 Beim 1000-maligen Würfeln (Treffer: Sechs geworfen, also p = 61 ) ergibt sich P (|X − µ| ≤ σ) = P (155 ≤ X ≤ 178) ≈ 0,692, P (|X − µ| ≤ 2σ) = P (144 ≤ X ≤ 190) ≈ 0,954, P (|X − µ| ≤ 3σ) = P (132 ≤ X ≤ 202) ≈ 0,997. Bemerkung 5.3 Trotz unterschiedlicher Werte für n und p erhält man immer ähnliche Wahrscheinlichkeiten für |X − µ| ≤ mσ (für m = 2 in den Beispielen rund 96,5 %, 95,9 % und 95,4 %). (1 ≤ m ≤ 3). Grundsätzlich gilt: Ist n hinreichend groß und p nicht zu nahe p an 0 oder 1 (man überprüft die sog. Laplace-Bedingung σ = np(1 − p) > 3), so gilt P (|X − µ| ≤ σ) ≈ 0,68; P (|X − µ| ≤ 2σ) ≈ 0,955; P (|X − µ| ≤ 3σ) ≈ 0,997. Diese Näherungswerte kommen dadurch zustande, dass man die Werte für B(n, p, k) durch eine Funktion (mit n und p als Parameter und k als Veränderlichen) approximieren kann: (k−µ)2 1 B(n, p, k) ≈ √ e− 2σ2 σ 2π p (mit µ = np, σ = np(1 − p)). Die Wahrscheinlichkeit, dass die Trefferzahl in einem gegebenen Intervall liegt, wird durch Integration näherungsweise bestimmt: Zk2 P (k1 ≤ X ≤ k2 ) ≈ (x−µ)2 1 √ e− 2σ2 dx. σ 2π k1 Eine Stammfunktion für die Integrationsfunktion lässt sich aus den bekannten Funktionen nicht explizit darstellen. Für den Fall µ = 0 und σ = 1 erhält man jedoch die Gaußfunktion x2 1 ϕ(x) := √ e− 2 , 2π für die die Stammfunktion Φ mit Zx Φ(x) := ϕ(t) dt −∞ tabelliert ist. Wie man durch Ableiten leicht nachprüfen kann, ist Z (x−µ)2 1 √ e− 2σ2 dx = Φ( x−µ σ ) + c. σ 2π Damit wäre etwa µ+σ Z (x−µ)2 Tabelle 1 √ e− 2σ2 dx = Φ(1)−Φ(−1) ≈ 0,8413−0,1587 = 0, 6826. P (µ−σ ≤ X ≤ µ+σ) = σ 2π µ−σ Entsprechend ergibt sich für die Abweichungen 2σ und 3σ: Φ(2) − Φ(−2) ≈ 0,9772 − 0,0228 = 0,9544; Φ(3) − Φ(−3) ≈ 0,9987 − 0,0013 = 0,9974. 45 Beispiel 5.22 Wir verwenden die (verschobene und gestreckte) Gaußfunktion für das Beispiel n = 100, p = 21 . Deren Werte kommen den tatsächlichen Wahrscheinlichkeiten sehr nahe, wie die Tabelle zeigt: k B(100, 12 , k) 35 0,0009 40 0,0108 45 0,0485 50 0,0796 55 0,0485 60 0,0108 65 0,0009 √1 e 5 2π 0,0009 0,0108 0,0484 0,0798 0,0484 0,0108 0,0009 (k−50)2 50 Es ist etwa Z55 P (45 ≤ X ≤ 55) ≈ (k−50)2 s. o. 1 45−50 √ e 50 dx = Φ( 55−50 5 ) − Φ( 5 ) = Φ(1) − Φ(−1) ≈ 0, 6826. 5 2π 45 Der tatsächliche Wert (0,7288, vgl. Beispiel 5.18) ist etwas größer, da das Intervall beide Grenzen einschließt. Satz 5.8 (Tschebyscheff-Ungleichung) Es sei X eine Zufallsgröße mit Erwartungswert E(X) = µ und Standardabweichung σ. Ferner sei c ∈ R 0 . Dann gilt: P (|X − µ| ≥ c) ≤ σ2 c2 bzw. P (|X − µ| < c) ≥ 1 − σ2 . c2 Beweis: Wir beweisen den Satz für den Fall, dass X eine endliche Wertemenge {x1 , . . . , xm } besitzt. Wir setzen pk := P (X = xk ). Dann ist σ 2 = V (X) = m X pk (xk − µ)2 ≥ k=1 ≥ m X k=1 |xk −µ|≥c m X pk (xk − µ)2 k=1 |xk −µ|≥c m X pk c2 = c2 pk = c2 · P (|X − µ| ≥ c). k=1 |xk −µ|≥c Division der Ungleichung mit c2 liefert die Behauptung. Beispiel 5.23 Wir wenden die Tschebyscheff-Ungleichung auf den 100fachen Münzwurf mit c = 3σ = 15 an (vgl. Beispiel 5.18). Es gilt danach P (|X − µ| ≤ 3σ) ≥ 1 − 1 8 σ2 = 1 − = ≈ 0,8889. (3σ)2 9 9 Das liegt deutlich unter dem berechneten Wert von 0,9982. Die Abschätzung ist also sehr grob. Das wird auch deutlich, wenn wir den Beweis exemplarisch an diesem Fall zeigen (mit pk = P (X = k) = B(m, p, k)): σ 2 = (50 − 0)2 p0 + (50 − 1)2 p1 + · · · + (50 − 100)2 p100 ≥ (50 − 0)2 p0 + · · · + (50 − 35)2 p35 + (50 − 65)2 p65 + · · · + (50 − 100)2 p100 (die mittleren Summanden mit |50 − k| < 15 werden schlicht weggelassen) ≥ 152 p0 + · · · + 152 p35 + 152 p65 + · · · + 152 p100 (für alle übrigen gilt (50 − k)2 ≥ 152 ) = 152 (p0 + · · · + p35 + p65 + · · · + p100 ) = 152 · P (|X − 50| ≥ 15). Hier wurde einiges verschenkt, einmal durch Weglassen positiver Summanden und einmal durch Ersetzen von bis zu 502 = 2500 durch 152 = 225. 46 Bemerkung 5.4 Im Folgenden soll gezeigt werden, dass die relative Häufigkeit des Eintretens eines Ereignisses in einem beliebig wiederholbaren Experiments tatsächlich gegen einen festen Wert (nämlich p) strebt, wenn man n gegen unendlich gehen lässt. Wir wollen damit auf Kapitel 2.2 zurückkommen und die Konvergenz der relativen Häufigkeit für n → ∞ untersuchen, denn die wiederholte Durchführung eines Zufallsexperiments stellt offenbar eine Bernoulli-Kette dar. Obwohl die Tschebyscheff-Ungleichung eine grobe Abschätzung darstellt, kann man sie für eine solche Herleitung verwenden. Wir formulieren sie speziell für die relative Häufigkeit bei Bernoulli-Ketten: Satz 5.9 Ist X (n, p)-binomialverteilt und rn = eines Treffers und ε > 0, so gilt X n P (|rn − p| ≤ ε) ≥ 1 − die relative Häufigkeit des Eintretens p(1 − p) . nε2 Beweis: Nach der Tschebyscheff-Ungleichung mit c = nε ist P (|rn − p| ≤ ε) = P (|X − pn| ≤ nε) = P (|X − µ| ≤ c) σ2 np(1 − p) p(1 − p) ≥ 1− 2 =1− =1− . 2 c (nε) nε2 Satz 5.10 (Bernoulli-Gesetz der großen Zahlen) Ist rn die relative Häufigkeit des Eintretens eines Treffers bei einer Benoulli-Kette der Länge n mit Trefferwahrscheinlichkeit p, so gilt für jedes ε > 0: lim P (|rn − p| ≤ ε) = 1. n→∞ Beweis: Wegen P (|rn − p| ≤ ε) ≤ 1 gilt dies auch für den Limes. Andererseits ist lim P (|rn − p| ≤ ε) ≥ 1 − lim n→∞ n→∞ p(1 − p) =1−0=1 nε2 nach Satz 5.9 (zu den verwendeten Rechenregeln vgl. Skript Folgen und Reihen“). ” Bemerkung 5.5 Man sagt, rn konvergiert nach Wahrscheinlichkeit“ gegen p. Man beachte, ” dass diese Aussage nicht identisch ist mit der des empirischen Gesetzes der großen Zahlen (s. Bemerkung 2.1). Dennoch kann man hiermit begründen, dass rn für hinreichend große n als Schätzwert für p verwendet werden kann. 47