Skript Mathematik Erweiterungskurs Teil B : Wahrscheinlichkeitstheorie 1 Inhaltsverzeichnis 1 Grundlagen 1.1 Wichtige Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Verknüpfungen von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Wahrscheinlichkeiten 2.1 Relative Häufigkeiten . . . . . . 2.2 Wahrscheinlichkeiten . . . . . . 2.3 Axiome von Kolmogorov . . . . 2.4 Wahrscheinlichkeitsverteilungen 2.5 Laplace-Experimente . . . . . . 3 3 4 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 8 9 10 11 11 3 Kombinatorik 3.1 Anordnungen von n Elementen . . . . . . . 3.2 Allgemeine Anordnungen von Elementen . . 3.3 Auswahlen und Urnenmodelle . . . . . . . . 3.4 Ziehen mit Reihenfolge, mit Zurücklegen . . 3.5 Ziehen mit Reihenfolge, ohne Zurücklegen . 3.6 Ziehen ohne Reihenfolge, ohne Zurücklegen 3.7 Ziehen ohne Reihenfolge, mit Zurücklegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 16 16 18 18 19 21 4 Bedingte Wahrscheinlichkeiten 4.1 Definition der bedingten Wahrscheinlichkeit 4.2 Stochastische Unabhängigkeit . . . . . . . . 4.3 Baumdiagramme . . . . . . . . . . . . . . . 4.4 Vierfeldertafel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 23 25 27 28 5 Bernoulli-Ketten 5.1 Einführendes Beispiel . . 5.2 Bernoulli-Experimente . . 5.3 Bernoulli-Ketten . . . . . 5.4 Die Formel von Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 32 32 33 34 . . . . . . 37 37 39 42 44 45 48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Zufallsgrößen 6.1 Definition des Begriffs der Zufallsgröße . . . . . . . 6.2 Wahrscheinlichkeitsverteilung und Erwartungswert 6.3 Streuung und Varianz . . . . . . . . . . . . . . . . 6.4 Rechenregeln für die Standardabweichung . . . . . 6.5 Die Binomialverteilung . . . . . . . . . . . . . . . . 6.6 Abweichungen vom Mittelwert . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Grundlagen 1.1 Wichtige Grundbegriffe Einer der grundlegenden Begriffe in der mathematischen Behandlung von Wahrscheinlichkeiten ist der Begriff des Zufallsexperiments. Definition. Experimente, bei denen alle möglichen Ergebnisse bekannt sind, nicht aber welches Ergebnis eintritt, werden Zufallsexperimente genannt. Beispiele : • Liednummer im CD-Spieler beim Verwenden der Randomfunktion • Werfen einer Münze und notieren ob Kopf oder Zahl fällt • Ablesen der Temperatur (volle Grad Celcius) an einer Wetterstation um 12.00 Uhr Bemerkung. Im Rahmen des Matheunterrichts an der Schule betrachten wir meist nur den Fall, dass es endlich viele Ergebnisse gibt. Die einzelnen möglichen Ergebnisse benennt man mit !1 , !2 , !3 , . . . , !n und fasst sie alle in der Ergebnismenge ⌦ (auch Ergebnisraum) zusammen, d.h. ⌦ = {!1 , !2 , !3 , . . . , !n } . Beispiel (vgl. oben) : • Liednummer im CD-Spieler (CD mit 13 Liedern) ⌦ = {1, 2, 3, . . . , 13} • Werfen eines Würfels ⌦ = {1, 2, 3, . . . , 6} • Werfen einer Münze ⌦ = {Kopf, Zahl} oder kürzer ⌦ = {K, Z} • Ablesen der Temperatur ⌦ = { 50, 49, 48, , . . . , 48, 49, 50} ( dabei gehen wir davon aus, dass die gemessene Temperatur zwischen -50 und 50 Grad Celsius liegt. Bemerkung. Beachte, dass das Notieren der Ergebnismenge davon abhängt, was man bei dem entsprechenden Versuch untersucht. So kann bei einem sechsseitigen Würfel nach der Augenzahl gefragt werden ( ⌦ = {1, 2, 3, . . . , 6} ) oder danach, ob die Zahl gerade bzw. ungerade ist ( ⌦ = {G, U } ). Der Würfel allein verrät noch nicht, was an ihm untersucht werden soll. Oft werden bei einem Zufallsexperiment mehrere Vorgänge nacheinander ausgeführt bzw. man kann einen Vorgang in einzelne, nacheinander ausführbare Handlungen umwandeln. Das gleichzeitige Werfen von 5 Münzen lässt sich umdeuten als fünf einzelne Würfe, die nacheinander ausgeführt werden. Solche Experimente nennt man auch mehrstufige Zufallsexperimente. Um auch bei einem solchen Zufallsexperiment eine gute Übersicht zu behalten, kann man die auftretenden Fälle in einem Baumdiagramm schematisch aufzeichnen. Beispiel. Drei Münzen werden gleichzeitig geworfen. Welche Ergebnisse sind möglich? Wie sieht eine mögliche Ergebnismenge aus? Ein mögliches Baumdiagramm zeigt die Abbildung 1.1 . 3 1 Grundlagen K K K Z Z Z K K Z K Z Z K Z Abbildung 1.1: Dreifacher Münzwurf Zu einer vollständigen Durchführung des Experiments gehören 3 Würfe, also bestehen alle möglichen Ergebnisse jeweils aus 3 Buchstaben. Man verwendet beim Notieren der Ergebnismenge die Tupelschreibweise : ⌦ = {(K/K/K), (K/K/Z), . . . , (Z/Z/K), (Z/Z/Z)} Ist man noch daran interessiert, wie viele Ergebnisse die Ergebnismenge besitzt, so kann man die Mächtigkeit der Ergebnismenge angeben : |⌦| = 8 1.2 Ereignisse Beim Spiel Monopoly werden vom Spieler zwei Würfel gleichzeitig geworfen und sollte ihm dabei ein Pasch gelingen, so darf er die Würfel ein zweites Mal werfen. Mit zwei Würfeln gibt es 36 mögliche Wurfkombinationen, die wir in ⌦ als Paare auflisten können1 : ⌦ = {(1/1), (1/2), . . . , (6/5), (6/6)} Einige dieser Paare führen zu einem Pasch und werden in einer eigenen Menge A getrennt aufgelistet : A = {(1/1), (2/2), (3/3), (4/4), (5/5), (6/6)} Mathematisch gesehen haben wir schlicht eine Teilmenge von ⌦ erzeugt. Solche Teilmengen werden als Ereignisse bezeichnet. Definition. Gegeben ist ein Zufallsexperiment mit der Ergebnismenge ⌦ . Eine Teilmenge A ⇢ ⌦ heißt Ereignis. Beispiel. Es wird ein sechsseitiger Würfel geworfen und die Augenzahl notiert. Dazu passt die Ergebnismenge ⌦ = {1, 2, 3, . . . , 6} . Einige mögliche Ereignisse sind : • „Es wird eine 6 gewürfelt.“ 1 A = {6} An dieser Stelle taucht bei Schülern oft das Problem auf, ob man in der folgenden Menge die Kombinationen (1/2) und (2/1) wirklich beide auflisten muss. Dazu lässt sich sagen, dass man es nicht “muss”, allerdings steuert man dann später auf das Problem zu, dass die aufgelisteten Kombinationen nicht mehr gleich wahrscheinlich sind. Schreibt man (1/2) und spart man sich das Paar (2/1), so fasst man unter einer Angabe zwei Fälle zusammen, während das Paar (1/1) wirklich nur für einen Fall steht. Beim Thema Laplace-Experimente wird sich zeigen, dass es der ideale Fall ist, wenn alle Ergebnisse gleich wahrscheinlich sind. 4 1 Grundlagen • „Es fällt eine gerade Zahl.“ A = {2, 4, 6} • “Es erscheint eine Zahl größer als Drei.” A = {4, 5, 6} Unter den Ereignissen gibt es ein paar spezielle Ereignisse, denen man eigene Namen gegeben hat : Definition. Gegeben ist ein Zufallsexperiment mit der Ergebnismenge ⌦ . Dann sind folgende Sprechweisen üblich : • A=⌦ sicheres Ereignis • A={} unmögliches Ereignis • |A| = 1 Elementarereignis, d.h. die Menge besteht nur aus einem einzigen Element Zusammengefasst in einer Übersicht : sicheres Ereignis A={ ω1, ω2, ... , ωn}=Ω Ereignis A={ ω2, ω4, ω7} Elementarereignis Ergebnis A={ ω2} ω2 unmögliches Ereignis A={ } Abbildung 1.2: Mögliche besondere Ereignisse 1.3 Verknüpfungen von Ereignissen Ereignisse eines Zufallsexperiments lassen sich in unserer Sprache miteinander verknüpfen. Durch die Wörter „und“ sowie „oder“ kann man zwei Ereignisse verbinden. So sind „Der Würfel zeigt eine gerade Zahl.“ und „Der Würfel zeigt eine Zahl größer als 3.“ zwei sprachlich ausgedrückte Ereignisse. Das Gegenteil eines Ereignisses lässt sich mit dem simplen Wort „nicht“ ausdrücken. Beispiel. Ein sechsseitiger Würfel wird gerollt und die Augenzahl notiert, also ⌦ = {1, 2, 3, . . . , 6}. Ferner betrachten wir die zwei Ereignisse : A = Es fällt eine Zahl größer als 3. B = Es fällt eine gerade Zahl. 5 ) A = {4, 5, 6} ) B = {2, 4, 6} 1 Grundlagen Dann kann man danach fragen, ob das eine, das andere oder beide gleichzeitig eingetreten sind. Sprachlich drückte man genau dies durch das Wort “oder” aus bzw. redet bei den Mengen von einer Vereinigungsmenge und verwendet die Schreibweise A [ B. A [ B = {2, 4, 5, 6} (A oder B ) Ein anderes Ziel hat man im Sinn, wenn man fordert, dass beide Bedingungen gleichzeitig erfüllt sind. Dafür verwendet man das Wort “und” bzw. bildet bei den zugehörigen Mengen die sogenannte Schnittmenge. A \ B = {4, 6} ( A und B ) Zuletzt sei noch die Möglichkeit erwähnt, dass man genau nach dem Gegenteil eines Ereignisses fragt. Man spricht vom Gegenereignis zum Ereignis A , drückt dies durch einen Strich über dem A aus ( A ) und redet sprachlich von “nicht A” 2 . Zu jeder Formulierung in der sprachlichen Ebene gibt es die passende Operation mit den zugehörigen Teilmengen und weiterhin kann man sich ein anschauliches Mengendiagramm dazu zeichnen : sprachliche Ebene A oder B Mengenebene A B anschaulich A B Vereinigungsmenge A und B A B A B Schnittmenge nicht A A A Gegenereignis (Komplement) Abbildung 1.3: Verknüpfungen von Ereignisse Durch mehrfache Anwendung dieser Verknüpfungen lassen sich furchterregende Mengengebilde erzeugen : (A \ B) [ A \ B Sind zwei Mengen gegeben, deren Schnittmenge die leere Menge ist, so nennt man die Mengen disjunkt und die zugehörigen Ereignisse unvereinbar. 2 Mitunter wird im Alltag das Gegenereignis falsch gebildet. Zum Ereignis “Alle Schüler im GKurs sind krank.” ist das entsprechende Gegenereignis “Mindestens ein Schüler im GKurs ist gesund.” und eben nicht “Alle Schüler im GKurs sind gesund.” 6 1 Grundlagen A B A B={ } Abbildung 1.4: Disjunkte Mengen bzw. unvereinbare Ereignisse Manche Ereignisse sind in jedem Fall unvereinbar. So sind A und A immer schon unvereinbar und gleiches gilt auch für die Mengen A \ B und A \ B ( mit Bildern klar machen ! ). Verwendet man öfter die Symbole für Vereinigungsmengen bzw. Schnittmengen, dann fällt irgendwann auf, dass hinter der Anwendung dieser Zeichen eine gewisse Systematik steckt (sogenannte Boolesche Mengenalgebra). Ein paar dieser Regeln seien kurz genannt : Satz. Für alle Teilmengen A, B ⇢ ⌦ gilt : I) A [ (B \ C) = (A [ B) \ (A [ C) II) A \ (B [ C) = (A \ B) [ (A \ C) III) A \ B = A [ B IV) A [ B = A \ B Die beiden ersten Regeln werden als Distributivgesetze bezeichnet und die Regeln III) und IV) sind als Gesetze von de Morgan bekannt. 7 2 Wahrscheinlichkeiten 2.1 Relative Häufigkeiten Unser Ausgangspunkt im Gebiet der Wahrscheinlichkeiten war das Zufallsexperiment. Nachdem wir geklärt haben, welche Ergebnisse überhaupt möglich sind und die Ergebnismenge ⌦ aufgestellt haben, scheint die nächste Frage zu sein, wie wahrscheinlich die einzelnen Möglichkeiten sind. Ein naheliegender Ansatz wäre eine praktische Durchführung mit beliebiger Wiederholung. 1 3 6 5 2 4 Abbildung 2.1: Auf welche Seite fällt ein Legostein ? Beispiel. Die Seiten eines Legosteins mit 8 Noppen werden von 1 bis 6 wie in der nebenstehenden Abbildung 2.1 nummeriert. Da hier kein Würfel vorliegt, stellt sich die Frage welche Seite am häufigsten oben liegt. Durch 200-faches Werfen des Steins erhält man folgende Tabelle : N=200 Seitennummer 1 2 3 4 5 6 Anzahl Z 62 5 13 1 0 119 Z Aus diesem speziellen Versuch kann man sogenannte relative Häufigkeiten h = N berechnen, die eine Art prozentuale Verteilung für die einzelnen Ergebnisse liefern. So ergibt sich für die 1. Seite der 62 31 Anteil h = 200 = 100 = 31 %. Definition. Gegeben sei ein Zufallsexperiment mit den Ergebnissen ⌦ = {!1 , !2 , !3 , . . . , !n }. Dann Z kann man bei einer N -maligen Durchführung dieses Experiments jedem Ergebnis den Anteil h = N zuschreiben und nennt diese Zahl dann relative Häufigkeit. Beim Legostein erhalten wir demnach folgende relative Häufigkeiten : n=200 Seitennummer 1 2 3 4 5 6 Anzahl z 62 4 14 1 0 119 Rel. Häufigkeiten h 31% 2% 7% 0,5% 0,0% 59,5% 8 2 Wahrscheinlichkeiten So anschaulich diese Werte auch sind, so wenig sinnvoll ist eine strikte Festhalten an diesen Werten. Nur weil in unserer speziellen Durchführung die 5. Seite gar nicht fiel, können wir daraus noch nicht folgern, dass sie prinzipiell nie kommt. Dazu hängen diese experimentell ermittelten Werte auch zu sehr von der konkreten Durchführung ab. Genauere Werte erhält man indem man die Anzahl der Durchführungen erhöht aber egal welchen Wert von n man auch wählt, es werden sich nie exakte Werte ergeben. Daher beziehen sich unsere berechneten relativen Häufigkeiten eben nur auf eine konkrete Durchführung eines Zufallsexperiments und unterscheiden sich von den allgemeineren Wahrscheinlichkeiten, die im nächsten Abschnitt definiert werden. 2.2 Wahrscheinlichkeiten Jeder praktisch durchgeführte Versuch liefert relative Häufigkeiten für die einzelnen Ergebnisse aber diese bleiben letztlich unpräzise und hängen vom jeweiligen Experimentator ab. Der Begriff der Wahrscheinlichkeit eines Ergebnisses ist im Gegensatz dazu gerade nicht experimentell bestimmt, sondern man wählt zu einem Zufallsexperiment ein passendes Modell, überlegt sich alles in diesem Modell und erhält nur durch theoretische Überlegungen inner- halb des Modells Zahlenwerte dafür, wie wahrscheinlich ein Ergebnis ist. Diese einfach festgelegten Wahrscheinlichkeiten müssen sich dann aber an den wahren Werten (= relativen Häufigkeiten) messen lassen. Kommt es zu unübersehbaren Abweichungen, so war das gewählte Modell unbrauchbar. Zufallsexperiment mit den Ergebnissen ω1,ω2,ω3, ... , ωn Relative Häufigkeiten theoretisches Modell h(ω1),h(ω2), ... ,h(ωn) NG BA Zufallsexperiment mit den Ergebnissen ω1,ω2,ω3, ... , ωn ! Stimmen Modell und Wirklichkeit überein ? Relative Häufigkeiten praktische Durchführung h(ω1),h(ω2), ... ,h(ωn) Abbildung 2.2: Vergleich von Wahrscheinlichkeiten und Häufigkeiten Ein weiteres Beispiel mag das Diagramm 2.2 verdeutlichen. Beim Würfeln mit einem sechsseitigen Würfel kann man den Würfel 100mal rollen und erhält wie in Kapitel 2.1 beschrieben daraus die relativen Häufigkeiten. Ein mögliches Modell zum Würfeln geht von der Menge ⌦ = {1, 2, 3, . . . , 6} aus und entwirft die Idee, dass keine Zahl beim Würfeln bevorzugt ist und daher alle sechs Ergebnisse gleich wahrscheinlich sind. Daher setzt man in diesem Modell fest, dass jedes Ergebnis die Wahrscheinlichkeit 1/6 besitzt. Ein anschließender Vergleich mit den relativen Häufigkeiten zeigt, dass diese Wahl gerechtfertigt war. Zwar liegen die Häufigkeiten nicht alle exakt bei 1/6 = 16,67% aber je öfter der Versuch durchgeführt wird, um so geringer werden die Unterschiede. 9 2 Wahrscheinlichkeiten 2.3 Axiome von Kolmogorov Nach vielen erfolglosen Versuchen vorheriger Mathematiker den Begriff Wahrscheinlichkeit exakt zu definieren, gelang dem russischen Mathematiker Andrei Kolmogorov in seinem 1933 erschienenen Lehrbuch „Grundbegriffe der Wahrscheinlichkeitsrechnung“ eine sehr kompakte Definition : Definition. Es sei ein Zufallsexperiment gegeben und ⌦ die zugehörige Ergebnismenge. Eine Funktion P , die jedem Ereignis A ( d.h. jeder Teilmenge A ⇢ ⌦ ) eine Zahl P (A) zuordnet, heißt Wahrscheinlichkeitsmaß ( kurz WMaß ), falls sie die folgenden Bedingungen erfüllt : A1) P (A) 0 für jedes Ereignis A ⇢ ⌦ A2) P (⌦) = 1 A3) Sind zwei Ereignisse A, B unvereinbar, d.h. A \ B = { } , so gilt : P (A [ B) = P (A) + P (B) Die zu einem Ereignis A zugehörige Zahl P (A) wird dann die Wahrscheinlichkeit des Ereignisses A genannt. Die drei auftretenden Bedingungen heißen Kolmogorov-Axiome. Ein Axiom ist generell ein Satz, von dem man ausgeht und den man nicht beweisen muss, d.h. eine Art Ausgangspunkt des Denkens. Die drei genannten Axiome dienen uns als Ausgangspunkt und setzen somit fest : • Wahrscheinlichkeiten sollen niemals negativ sein ( Axiom A1 ) . • Wählen wir als Teilmenge die gesamte Menge, d.h. A = ⌦ , so soll die Wahrscheinlichkeit gleich 1 sein. • Haben zwei Ereignisse keinerlei Schnitt, d.h. sind die Mengen disjunkt, so kann man sehr leicht die Wahrscheinlichkeit ihrer Vereinigungsmenge berechnen. Eigentlich würden einem durchaus noch weitere Bedingungen einfallen, die man mit auf die Liste hätte setzen können. So erscheinen die Zeilen B1) P (A)1 für jedes Ereignis A ⇢ ⌦ B2) P ({ }) = 0 B3) P (A) = 1 P (A) B4) Ist A ⇢ B, so folgt P (A)P (B) alle als sinnvolle Aussagen. Dennoch werden sie in der obigen Definition nicht benötigt, da sie sich mit Hilfe der Axiome von Kolmogorov beweisen lassen. Beispielhaft sei hier die Aussage B1) bewiesen : Beweis. Wir zerlegen ⌦ in die zwei Mengen A und A, d.h. ⌦ = A [ A. Da die Mengen A und A disjunkt sind, dürfen wir das Axiom A3 benutzen und erhalten : P (⌦) = P (A [ A) = P (A) + P (A) Nach A1 sind Wahrscheinlichkeiten nie negativ und somit gilt : P (⌦) = P (A) + P (A) P (A) und zusammen mit A2 folgt schließlich : , 1 = P (⌦) P (A) P (A)1 Auf ähnliche Weise lassen sich die weiteren Bedingungen B2 bis B4 beweisen und ergeben sich somit zwangsläufig aus der Definition von Kolmogorov. 10 2 Wahrscheinlichkeiten 2.4 Wahrscheinlichkeitsverteilungen Nach der Definition ordnet jedes WMaß einem Ereignis eine Zahl zu, d.h. jede Teilmenge von ⌦ besitzt eine zugehörige Wahrscheinlichkeit. Verwendet man als Teilmengen gerade solche Mengen, die nur aus einem einzigen Element bestehen, erhält man die einzelnen Wahrscheinlichkeiten1 P ({!1 }), P ({!2 }), . . . , P ({!n }). Das sind genau die Wahrscheinlichkeiten der einzelnen Elementarereignisse. Umgekehrt kann man jedes Ereignis, das kein Elementarereignis ist, in einzelne Elementarereignisse zerlegen. So sei z.B. A = {!1 , !5 , !6 , !8 }. Dann ist P (A) = P ({!1 , !5 , !6 , !8 }) = P ({!1 }) + P ({!5 }) + P ({!6 }) + P ({!8 }) Kurz gesagt lässt sich also jede Wahrscheinlichkeit eines Ereignisses auf die besonderen Wahrscheinlichkeiten der Ergebnisse in ⌦ zurückführen. Bemerkung. Gibt man die Wahrscheinlichkeiten aller möglichen Ergebnisse eines Zufallsexperiments an, so spricht man von einer Wahrscheinlichkeitsverteilung (WVerteilung). Alle benötigten Wahrscheinlichkeiten lassen sich aus der WVerteilung bestimmen. Beispiel. Bei einem gezinkten Würfel ( ⌦ = {1, 2, 3, . . . , 6} ) ergebe sich die folgende WVerteilung : gezinkter Würfel ! 1 2 3 4 5 6 P ({!}) 0,10 0,10 0,20 0,20 0,15 0,25 Wir betrachten das Ereignis A = {4, 5, 6} = Es wird eine Zahl größer als 3 gewürfelt. Dann ist P (A) = P ({4}) + P ({5}) + P ({6}) = 0, 20 + 0, 15 + 0, 25 = 0, 60 2.5 Laplace-Experimente Ein besonderer Fall von Zufallsexperiment liegt vor, wenn sämtliche möglichen Ergebnisse !1 , !2 , . . . , !n alle gleichwahrscheinlich sind. Solche Experimente werden Laplace-Experimente genannt nach dem Mathematiker Simon Laplace. Definition. Ein Zufallsexperiment wird Laplace-Experiment genannt, wenn alle Elementarereignisse die gleiche Wahrscheinlichlichkeit besitzen. Bei einer Ergebnismenge ⌦ = {!1 , !2 , . . . , !n } mit n verschiedenen Elementarereignissen folgt dann natürlich sofort : 1 1 P ({!1 }) = P ({!2 }) = · · · = P ({!n }) = = n |⌦| 1 In der Mittelstufe findet man oft die Schreibweise P (!1 ). Streng genommen ordnet P aber einer Menge eine Zahl zu, so dass eben die leicht umständlichere Schreibweise P ({!1 }) korrekt ist. 11 2 Wahrscheinlichkeiten Quelle : Library of congress Abbildung 2.3: Simon Laplace ( 1749-1827 ) Laplace-Experimente tauchen relativ oft in der WRechnung auf und haben den Vorteil, dass man die Wahrscheinlichkeiten verschiedener Ereignisse schnell berechnen kann. Dadurch, dass alle Ergebnisse gleichwahrscheinlich sind, geht es dann oft nur noch darum Möglichkeiten abzuzählen. Dazu betrachten wir ein Beispiel : Beispiel. Zwei Würfel werden gleichzeitig geworfen und beide Augenzahlen notiert. Wie groß ist die Wahrscheinlichkeit, dass beide Augenzahlen identisch sind, d.h. dass ein Pasch geworfen wurde ? Zunächst ist ⌦ = {(1/1), (1/2), . . . , (6/5), (6/6)} , |⌦| = 36 Betrachten wir alle möglichen Paare in ⌦ so gibt es keinen Grund, weshalb eines der Paare bevorzugt sein sollte, d.h. alle Ergebnisse sind hier gleichwahrscheinlich. Es liegt ein Laplace-Experiment vor und jedes Elementarereignis besitzt die Wahrscheinlichkeit 1/36 . Für die Beantwortung der eigentlichen Frage legen wir ein Ereignis fest : Dann ist A = Beide Zahlen sind gleich. = {(1/1), (2/2), . . . (6/6)} 1 1 1 6 1 + + ··· + = = 36 36 36 36 6 Als Alternative hätte man auch einfach zählen können, wie viele Elemente in A enthalten sind und da jedes Element aus A die Wahrscheinlichkeit 1/36 besitzt, erhält man : P (A) = P (A) = |A| |{z} Wieviel sind es ? 1 |A| = |⌦| |⌦| |{z} · Welche WKeit hat jedes Ergebnis ? Satz. Bei einem Laplace-Experiment ( alle Ergebnisse gleich wahrscheinlichk ) gilt für die Wahrscheinlichkeit eines Ereignisses A stets : P (A) = |A| |⌦| , d.h. man kann Wahrscheinlichlichkeiten durch reines Abzählen bestimmen. Oft wird diese Gleichung auch in Worten folgendermaßen formuliert : Anzahl der günstigen Fälle P (A) = Anzahl der möglichen Fälle 12 3 Kombinatorik Kombinatorik ist die Kunst des Abzählens und kann in der Wahrscheinlichkeitstheorie dabei helfen, Anzahlen wie |A| oder |⌦| rasch abzuzählen. Unter Verwendung der Formel P (A) = |A|/|⌦| kann man (zumindest wenn ein Laplace-Experiment vorliegt) nach dem Abzählen sehr einfach gesuchte Wahrscheinlichkeiten berechnen. Kombinatorik ist ein eigenständiges Teilgebiet der Mathematik und hat viele Techniken entwickelt, um komplizierte Zählungen durchzuführen. 3.1 Anordnungen von n Elementen Wir betrachten n verschiedene Elemente (z.B. die Zahlen von 1 bis n ) und versuchen diese in einer beliebigen Anordnung zu notieren. Beispiel. Für n = 4 betrachten wir die Zahlen 1, 2, 3, 4 und sortieren sie ähnlich wie im Telefonbuch : 1234, 1243, 1324, . . . , 4321 Jede dieser Anordnungen wird in der Mathematik eine Permutation1 genannt. Um im Voraus zu wissen, wie viele verschiedene Anordnungen es gibt, überlegen wir uns das Aufschreiben einer solchen Permutation allgemein : 1. Pos Position 2. Pos 3. Pos 4. Pos n n-1 n-2 n-3 n Elemente zur Auswahl n. Pos .... 1 nur noch 1 Element zur Auswahl n-1 Elemente zur Auswahl n-2 Elemente zur Auswahl Abbildung 3.1: Möglichkeiten bei einer Permutation Durch die Multiplikation der einzelnen Möglichkeiten an jeder Position erhält man die Gesamtzahl aller Anordnungen. Satz. Für die Anordnung von n unterschiedlichen Elementen gibt es n · (n 1) · (n 2) · · · 2 · 1 Möglichkeiten. Diese Zahl nennt man die Fakultät von n und kürzt sie mit einem Ausrufezeichen ab : n! = n · (n 1) · (n 2) · · · 2 · 1 Aus Gründen, die weiter unten eine Rolle spielen, erweitert man die Definition der Fakultät und führt ein : Definition. Für n = 0 definiert man 0! = 1. 1 permutare (lat. ): tauschen 13 3 Kombinatorik Beispiel. Wie viele Wörter (auch sinnlose) kann man aus dem Wort GOLFTASCHE bilden ? Letztlich geht es nur darum die zehn Buchstaben in irgendeine beliebige Reihenfolge zu bringen. Da sie alle unterschiedlich sind, gibt es 10! = 3 628 800 mögliche Wörter. Beachte : Die Zahlen n! „explodieren“ schon für geringe Werte von n. Vergleichen wir dazu einmal quadratisches Wachstum, exponentielles Wachstum und das Wachstum der Fakultäten : Zahl n 1 2 3 4 5 10 20 n2 Quad.Wachstum 1 4 9 16 25 100 400 2n Exp. Wachstum 2 4 8 16 32 1024 ⇡ 1 Million n! Fakultät 1 2 6 24 120 ⇡ 3, 6 Millionen ⇡ 2, 4 · 1018 Das extreme Wachstum der Fakultäten bereitet gerade bei der Berechnung vieler praktischer Probleme große Schwierigkeiten. Beispiel. Der GKurs Mathematik besteht aus 24 Teilnehmern. Beim Klingelzeichen am Ende der Stunde begeben sich alle Schüler nacheinander in zufälliger Reihenfolge durch die Tür. Wie oft kann der Kurs auf diese Weise durch die Tür gehen, ohne dass sich die Reihenfolge wiederholt ? Alle 24 Teilnehmer sind klar zu unterscheiden. Daher geht es nur noch darum, die 24 Schüler in eine beliebige Reihenfolge zu bringen. Dafür gibt es 24! = 6, 204 · 1023 Möglichkeiten. Eine immens riesige Zahl ! Ein weiteres bekanntes Beispiel für das schnelle Zunehmen von Möglichkeiten zeigt das bekannte Problem des Handlungsreisenden ( Traveling Salesman Problem oder kurz TSP ). Beispiel. Ein Vertreter einer großen Firma ist für 4 Filialen im gesamten Bundesgebiet verantwortlich. Jeden Monat muss er jede Filiale einmal besuchen. Zwischen den einzelnen Städten gibt es entsprechende Distanzen, die er per Auto zurücklegen muss. Der Vertreter kann in einer beliebigen Stadt beginnen und ist natürlich daran interessiert eine Gesamtroute zu finden, die eine möglichst geringe Gesamtstrecke aufweist. Die Städte nennen wir A,B,C,D und das folgende Bild gibt exemplarisch die Distanzen2 wieder : B 121 A 95 139 145 C 105 100 D Abbildung 3.2: Traveling Salesman Beispiel 2 Dabei muss mit “Distanz” nicht automatisch nur die Entfernung in km gemeint sein. Allgemein weist man zwei Städten eine Verbindung zu und gibt dieser Verbindung eine Zahlenangabe, die irgendwie den Aufwand ( Strecke, Fahrzeit, Kosten, ... ) berücksichtigt um von der einen Stadt zur anderen zu kommen. 14 3 Kombinatorik Probieren ergibt : • ABCD : 121 + 95 + 100 = 316 • ABDC : 121 + 139 + 100 = 360 • CBAD : 95 + 121 + 105 = 321 • DCBA : 100 + 95 + 121 = 316 Diese Beispiel zeigen zum Einen, dass es nicht egal ist, welche Tour man einschlägt und zum Anderen, dass jede Auflistung der 4 Buchstaben eine Tour erzeugt. Daher gibt es hier 4! = 24 verschiedene Touren, die der Vertreter auswählen kann3 . Bei einer derart geringen Zahl kann der Handlungsreisende schnell mit dem Taschenrechner alle Möglichkeiten ausprobieren. Erhöht sich aber durch Vergrößerung der Firma die Zahl der zu besuchenden Städte auf 9, so hat er die Auswahl aus 9! = 362880 Touren. Da erscheint der Einsatz eines Computers doch viel geeigneter. Allerdings geht auch jeder moderne Rechner schnell in die Knie angesichts des Wachstum der Fakultät. Erhöht man die Zahl der Städte auf 120, so kommt es zu einer riesigen Anzahl von 120! = 6, 69 · 10198 möglichen Touren durch diese Städte. Die besten Rechner der Gegenwart (2013) können in einer Sekunde ungefähr 1016 Rechenoperationen ( 10000 Teraflops ) durchführen. Selbst wenn man vereinfachend annimmt, dass eine komplette Tour in einer einzigen Rechenoperation berechnet wird, so benötigt das Durchsuchen aller Routen eine Zeit von 6, 69 · 10182 Sekunden, was länger ist als das Universum jemals existiert hat. Um so wichtiger sind daher mathematische Verfahren ( sogenannte Algorithmen ), die es erlauben, den besten Weg in viel schnellerer Zeit zu finden. Der dt. Mathematiker Martin Grötschel konnte so z.B. bereits 1977 das Problem mit 120 dt. Städten ( damals ausschließlich westdt. Städte der BRD sowie Berlin ) vollständig lösen und die optimale Route finden. Abbildung 3.3: Optimale Route durch 120 Städte im Jahre 1977 3 Allerdings tritt jede Tour auch in umgekehrter Richtung ( z.B. habenABCD und DCBA die gleiche Gesamtlänge) auf, so dass es nur noch 12 · 4! = 12 Touren sind. 15 3 Kombinatorik 3.2 Allgemeine Anordnungen von Elementen Bisher gingen wir davon aus, dass man n Elemente anordnen sollte und diese alle zu unterscheiden waren. Wie ändert sich aber die Zahl der Anordnungen, wenn die einzelnen Elemente nicht mehr unterscheidbar sind ? Beispiel. Vom Wort RADIO gibt es 5! = 120 mögliche Anordnungen der Buchstaben. Wie viele Anordnungen gibt es vom Wort ATLAS ? Irritierend ist im ersten Moment das doppelte Auftreten des Buchstabens A, so dass man ja nicht mehr alle fünf Buchstaben eindeutig unterscheiden kann. Daher verwenden wir einen Trick und betrachten das Wort A1 T LA2 S. Nun sind die Buchstaben zu unterscheiden und es gibt davon 5! Anordnungen. Sehen wir aber vom Zahlenindex ab, so liefern stets zwei verschiedene Varianten am Ende doch das gleiche Wort. Z.B. ist A1 ST LA2 = A2 ST LA1 oder SA1 LT A2 = SA2 LT A1 Zwei Lösungen fallen somit immer zusammen und verzichten wir auf den Index, so gibt es genau 5! 120 2 = 2 = 60 Anordnungen des Wortes ATLAS. Versuchen wir es noch allgemeiner : Beispiel. Wie viele Anordnungen gibt es vom Wort BANANAS ? Auch hier weichen wir in Gedanken erst auf das Wort BA1 N1 A2 N2 A3 S aus, vom dem es 7! = 5040 mögliche Permutationen gibt. In jedem der 5040 Wörter können wir aber die drei A und die zwei N beliebig vertauschen, ohne dass sich das eigentliche lesbare Wort ändert. Beim Vertauschen der drei A gibt es 3! Möglichkeiten und bei den zwei N dann 2! mögliche Vertauschungen. Insgesamt ergeben sich 7! 5040 = = 420 3! · 2! 6·2 mögliche Anordnungen des Wortes BANANAS. 3.3 Auswahlen und Urnenmodelle Sehr oft geht es beim Abzählen darum, aus einer Menge von n Elementen eine bestimmte Anzahl von k Elementen auszuwählen. Beim Treffen der Auswahl können unterschiedliche Dinge wichtig sein aber im Rahmen der Kombinatorik muss vor allem geklärt werden, ob es auf die Reihenfolge ankommt und ob man ein Element auch mehrfach auswählen kann. Beispiel. a)Beim Samstagslotto werden aus 49 Zahlen 6 ausgewählt. ( n = 49, k = 6 ) und dabei ist die Reihenfolge der gezogenen Kugeln egal und ein mehrfaches Ziehen ist nicht möglich. b) Bei der Auslosung der DFB-Pokalspiele zieht man aus einem Topf die Namen der Vereine und dabei ist ein mehrfaches Ziehen nicht möglich, aber die Reihenfolge ist in diesem Fall wichtig. Meist führt man viele Auswahlaufgaben auf ein sogenanntes Urnenmodell zurück. Dazu betrachtet man einen undurchsichtigen Behälter (= die Urne), in dem n verschiedene Kugeln liegen. Dann wird k-mal eine Kugel gezogen. 16 3 Kombinatorik k Kugeln werden gezogen Urne mit n Kugeln Abbildung 3.4: Ziehen aus einer Urne Es wird k-mal gezogen mit/ohne Zurücklegen und mit/ohne Beachtung der Reihenfolge. Dieses Urnenmodell taucht nur selten so explizit in Problemen und Aufgaben auf, aber viele Aufgaben lassen sich auf das Ziehen an einer solchen Urne übertragen. Beispiele für Urnenmodelle 1. Ein sechsseitiger Würfel wird zweimal nacheinander geworfen und die Ergebnisse nacheinander notiert. Das passende Urnenmodell wäre eine Urne mit 6 Kugeln ( n = 6 ), aus der dann zwei Kugeln ( k = 2 ) mit Zurücklegen und Beachtung der Reihenfolge gezogen werden. 2. Beim Skatspiel erhält ein Spieler zufällig 10 Karten aus einem 32er Kartenspiel. Ein passendes Urnenmodell könnte aus 32 Kugeln bestehen (beschriftet mit Karo7, Karo8, etc.) aus denen man dann 10 Kugeln ohne Zurücklegen zieht. Die Reihenfolge der Ziehung ist hier egal. 3. Beim Hunderennen kann man darauf setzen, in welcher Reihenfolge die teilnehmenden zehn Hunde die ersten drei Plätze belegen. Mit einer Urne lässt sich ein solches Tippen dadurch nachbilden, dass man zehn Kugeln mit den Hundenamen verwendet und dann dreimal ohne Zurücklegen aber unter Beachtung der Reihenfolge zieht. Das Treffen einer Auswahl kann man in vier Bereiche unterteilen. Die gerade besprochenen Beispiele sind dort schon eingetragen. mit Zurücklegen mit Reihenfolge Zweimal Würfeln ohne Zurücklegen Hunderennen 10 Karten aus Kartenstapel verteilen ohne Reihenfolge Abbildung 3.5: Beispiele für Ziehungen 17 3 Kombinatorik 3.4 Ziehen mit Reihenfolge, mit Zurücklegen Bei dieser Art von Auswahl liegen bei jeder Ziehung immer wieder alle n Elemente in der Urne und man wiederholt im Grunde k-mal die gleiche Ziehung. Da die Reihenfolge beachtet wird, können wir uns für jede Ziehung eine Stelle markieren und in Gedanken von links nach rechts durchgehen, wie viele Möglichkeiten wir bei jeder Ziehung haben. 1. Ziehung 2. Ziehung 3. Ziehung 4. Ziehung n n n n k. Ziehung n .... n Elemente zur Auswahl n Elemente zur Auswahl n Elemente zur Auswahl n Elemente zur Auswahl Abbildung 3.6: Ziehen mit Reihenfolge und mit Zurücklegen Satz. Beim Ziehen mit Beachtung der Reihenfolge und unter Zurücklegen, hat man beim k-maligen Ziehen aus n Elementen genau k n | · n ·{zn · · · n} = n k mal Auswahlmöglichkeiten. 3.5 Ziehen mit Reihenfolge, ohne Zurücklegen Legt man ein gezogenes Element nicht zurück, so reduziert sich die Auswahl bei jedem weiteren Zug um 1. Die Reihenfolge wird wieder beachtet, also können wir die Auswahlen pro Zug wieder von links nach rechts notieren : 1. Ziehung 2. Ziehung 3. Ziehung 4. Ziehung n n-1 n-2 n-3 n Elemente zur Auswahl n-1 Elemente zur Auswahl k. Ziehung .... n-k+1 n-k+1 Elemente zur Auswahl n-2 Elemente zur Auswahl Abbildung 3.7: Ziehen mit Reihenfolge ohne Zurücklegen Beim 1. Zug gibt es noch n Möglichkeiten, beim 2. Zug noch n 1 und dies Schema setzt sich fort bis es beim k. Zug dann noch n (k 1) = n k + 1 Möglichkeiten gibt. Insgesamt gibt es dann n · (n 1) · (n 2) · · · (n k + 1) mögliche Auswahlen. Diese absteigenden k Faktoren werden mit Hilfe einer neuen abkürzenden Schreibweise einfacher angegeben : Als neue Schreibweise definiert man : (n)k = n · (n 1) · (n 2) · · · (n k + 1) und spricht von „n index k“. 18 3 Kombinatorik Sollte bei einer Ziehung der Fall auftreten, dass man von den vorhandenen n Elementen alle ziehen soll ( also k = n ), so gibt es dafür (n)n = n · (n 1) · (n 2) · · · 3 · 2 · 1 = n! Möglichkeiten. 3.6 Ziehen ohne Reihenfolge, ohne Zurücklegen Verzichten wir auf die Reihenfolge, so können wir unser obiges Schema mit den einzelnen Positionen nicht mehr so anwenden, sondern müssen uns etwas Neues überlegen. Beispiel : Wir betrachten eine Urne mit 4 Kugeln, beschriftet von A bis D. Aus diesen Kugeln werden nacheinander 3 Kugeln ohne Zurücklegen gezogen. Vorerst legen wir noch Wert auf die Reihenfolge und listen alle Auswahlmöglichkeiten auf : ABC ABD ACB ACD ADB ADC BAC BAD BCA BCD BDA BDC CAB CAD CBA CBD CDA CDB DAB DAC DBA DBC DCA DCB Abbildung 3.8: Möglichkeiten mit Reihenfolge Nach dem letzten Abschnitt gibt es dann 24 = 4 · 3 · 2 mögliche Auswahlen. Verzichten wir in einem zweiten Schritt jetzt aber auf die Reihenfolge, so fallen mehrere Möglichkeiten zusammen, die wir bündeln können : ABC ABD ACB ACD ADB ADC BAC BAD BCA BCD BDA BDC CAB CAD CBA CBD CDA CDB DAB DAC DBA DBC DCA DCB Abbildung 3.9: Gebündelte Möglichkeiten Zu jeder Farbe gehören genau 6 Möglichkeiten, da wir aus jeder Anordnung von 3 Buchstaben ja genau 3! = 6 mögliche Vertauschungen erhalten. Also gibt es bei Verzicht auf die Reihenfolge nur noch 24/6 = 4 Möglichkeiten, 3 der 4 Buchstaben auszuwählen. Gehen wir die Rechnung nochmal durch und betrachten dazu parallel den allgemeinen Fall : Spezieller Fall (4 Kugeln, 3 werden gezogen ) Mit Reihenfolge gibt es 4 · 3 · 2 = 24 Möglichkeiten. Ohne Reihenfolge gibt es dann Möglichkeiten. Insgesamt ergibt sich : 24 3! Allgemeiner Fall ( n Kugeln, k werden gezogen ) Mit Reihenfolge gibt es (n)k = n · (n 1) · (n 2) · · · (n k + 1) Möglichkeiten. k Ohne Reihenfolge gibt es dann (n) k! Möglichkeiten. 19 3 Kombinatorik Satz. Wenn man aus einer Menge von n Elementen k Elemente ohne Zurücklegen und ohne Beachtung der Reihenfolge auswählen möchte, so gibt es (n)k n · (n = k! 1) · (n 2) · · · (n k! k + 1) Möglichkeiten. Da diese Art von Auswahl fast immer diejenige ist, die man in der Praxis meint, wenn man aus einer größeren Menge etwas auswählt gibt es für die zunächst sperrig aussehenden Quotienten erneut eine Abkürzung : Definition. Für alle n 2 N und k 2 N mit kn heißt die Zahl n·(n 1)·(n effizient von n und k . Abkürzende Schreibweise ( gelesen als “n über k” ) : ✓ ◆ n n · (n 1) · (n 2) · · · (n k + 1) = k k! 2)···(n k+1) k! der Binomialko- Beachte zum besseren Merken, dass sowohl im Zähler als auch im Nenner jeweils k absteigende Faktoren auftreten. Beispiel. Es ist 63 = 6·5·4 3·2·1 = 20, d.h. wenn man aus 6 Elementen 3 auswählen will, so gibt es dafür 20 Möglichkeiten. Beachte, dass es bei den 3 ausgewählten dann lediglich darum geht, ob sie gewählt wurden oder nicht. In welcher Reihenfolge sie erwählt wurden, spielt dann keine Rolle. ( “ Ich brauche mal eben 3 Schüler zum Waschen meines Autos.” ) Zum Abschluss noch ein paar ergänzende Bemerkungen zu diesen neuen Binomialkoeffizienten : 1. Man erweitert die Definition noch für k = 0 und legt fest : n0 = 1. Anschaulich entspricht k = 0 dem Fall, dass man von den n Kugeln in der Urne gar keine auswählen möchte und diese “Auswahl” kann man eben genau auf eine Art vornehmen. 2. Wenn man in der Definition von nk etwas weiterrechnet, erhält man eine alternative Berechnungsmöglichkeit der Binomialkoeffizienten. ✓ ◆ n n · (n 1) · (n 2) · · · (n k + 1) n · (n 1) · (n 2) · · · (n k + 1) (n k)! = = · k k! k! (n k)! n! = k! · (n k)! Dies zeigt, dass man die Binomialkoeffizienten auch über Fakultäten berechnen kann. Eleganter ist bei modernen Taschenrechnern aber eher die Verwendung der Taste nCr. 3. Ob man die Biomialkoeffizienten nun nach Definition berechnet oder mit der gerade gezeigten Umformung macht keinen Unterschied. Für beide gibt es Merkhilfen : 20 3 Kombinatorik k absteigende Faktoren beginnend bei n n•(n-1)•(n-2)•••(n-k+1) n•(n-1)•(n-2)•••(n-k+1) = k! k•(k-1)•(k-2)•••2•1 k absteigende Faktoren beginnend bei k ( nk ) = n! k! (n-k)! Differenz von n und k Abbildung 3.10: Merkregeln für Binomialkoeffizienten 4. Es gilt : Beweis : ✓ ◆ ✓ ◆ n n = k n k ✓ n n k ◆ = (n n! k)! · (n (n k))! = (n n! = k)! · k! ✓ ◆ n k 3.7 Ziehen ohne Reihenfolge, mit Zurücklegen Um ein Gefühl für diese Art von Ziehung zu erhalten, betrachten wir einen Getränkemarkt, der drei Sorten an Bier ( Weizen, Pils, Radler ) anbietet. Als besonderes Angebot darf man sich einen Sechserkasten nach Belieben aus den drei Sorten zusammenstellen. Es leuchtet ein, dass die Reihenfolge, in der die Flaschen ausgewählt werden, keine nennenswerte Rolle spielt. Am Ende sind irgendwie sechs Flaschen in den Kasten gekommen. Auch das Nichtzurücklegen leuchtet sofort ein, da man ja durchaus mehr als eine Sorte wählen kann, ja sogar muss, da sonst der Sechserkasten nicht voll wird. In der bisherigen Schreibweise ist hier n = 3 und k = 6. Wir verschaffen uns einen ersten Überblick über das Bierproblem, kürzen die Sorten mit den Zahlen 1,2,3 ab und geben die möglichen Auswahlen an ( z.B. 1, 1, 2, 3, 3, 3). Da es ja auf die Reihenfolge nicht ankommt, geben wir die getroffene Wahl sortiert an. Mit ein wenig Probieren finden wir folgende Möglichkeiten : 1, 1, 1, 1, 1, 1 1, 1, 1, 1, 1, 2 1, 1, 1, 1, 1, 3 1, 1, 1, 1, 2, 2 1, 1, 1, 1, 2, 3 1, 1, 1, 1, 3, 3 1, 1, 1, 2, 2, 2 1, 1, 1, 2, 2, 3 1, 1, 1, 2, 3, 3 1, 1, 1, 3, 3, 3 1, 1, 2, 2, 2, 2 1, 1, 2, 2, 2, 3 1, 1, 2, 2, 3, 3 1, 1, 2, 3, 3, 3 1, 1, 3, 3, 3, 3 1, 2, 2, 2, 2, 2 1, 2, 2, 2, 2, 3 1, 2, 2, 2, 3, 3 1, 2, 2, 3, 3, 3 1, 2, 3, 3, 3, 3 1, 3, 3, 3, 3, 3 2, 2, 2, 2, 2, 2 2, 2, 2, 2, 2, 3 2, 2, 2, 2, 3, 3 2, 2, 2, 3, 3, 3 2, 2, 3, 3, 3, 3 2, 3, 3, 3, 3, 3 3, 3, 3, 3, 3, 3 Auch wenn wir durch pures Abzählen auf die 28 Möglichkeiten zum Befüllen des Sechserkastens gekommen sind, so bleibt doch noch unklar, wie man im allgemeinen Falle vorgeht. 21 3 Kombinatorik Ungewöhnliche Schreibweise Mit einer anderen Schreibweise kommt man bei diesem Problem besser voran. Prinzipiell besteht ja jede Auswahl aus möglichen Wiederholungen der Zahlen 1, 2, 3 und es kommt dann nur noch darauf an, wie viele davon vorhanden sind. Wir verwenden das Zeichen " um Anzahlen darzustellen und trennen mit Hilfe des Zeichens |. Einige Beispiele sollen dies verdeutlichen. Beispiel. a) 1, 1, 1, 2, 2, 3 ! " " " | "" | " b) 1, 1, 1, 1, 1, 2 ! """""|"| c) 2, 2, 2, 3, 3, 3 ! |"""|""" ( Dreimal die 1, zweimal 2 und einmal 3 ) Ein wenig Überlegen zeigt, dass wir jede Auswahl immer mit sechs Zeichen vom Typ " sowie zwei Trennzeichen | darstellen können. Daher könnten wir auch folgendermaßen vorgehen : Wir betrachten acht mögliche Stellen, verteilen dann darauf die zwei Trennzeichen | und füllen den Rest mit " auf4 . Letztlich müssen wir also von acht möglichen Positionen zwei auswählen. Es gibt dafür 82 = 28 Möglichkeiten und das Ergebnis zeigt uns, dass wir auf der richtigen Spur sind. Allgemeine Formel Übertragen wir den Spezialfall der Bierwahl auf den allgemeinen Fall, so gehen wir von n Kugeln in einer Urne aus und wir ziehen k mal daraus eine Kugel mit Zurücklegen. In der neuen Schreibweise gedacht, benötigen wir dann k Zeichen " ( für das k-malige Ziehen ) sowie n 1 Trennlinien | für die n unterschiedlichen Elemente. Beachte, dass wir durch n 1 Trennlinien schon zu n Abschnitten innerhalb der " kommen. Zusammen haben wir dann n 1 + k Zeichen. Davon sind n 1 Trennlinien, die irgendwo gesetzt werden können. Dafür gibt es n n 1+k Möglichkeiten. Was aber, wenn wir zuerst die k Zeichen " 1 k+n 1 wählen? Dann kommen wir doch auf Möglichkeiten. Es gilt aber: k ✓ ◆ ✓ ◆ ✓ ◆ n 1+k n 1+k n 1+k = = n 1 n 1 + k (n 1) k und damit damit zeigt sich, dass es von der Überlegung egal ist, ob man von den n 1 + k Zeichen die n 1 Trennlinien die k anderen Zeichen wählt und jeweils auffüllt mit den nicht benutzten Zeichen. Satz. Wenn man aus einer Menge von n Elementen k Elemente mit Zurücklegen und ohne Beachtung der Reihenfolge auswählen möchte, so gibt es n n 1+k bzw. n k1+k Möglichkeiten. 1 Beispiel. In einem Fantasy-Rollenspiel trägt eine Zauberer-Spielfigur in einem Abenteuer drei magische Tränke bei sich. Zur Auswahl stehen fünf Tränke (Heilung, Schlaf, Verwandlung, Fliegen, Mana) aus denen der Spieler drei nach Belieben ( auch drei Heiltränke sind möglich ) auswählt. Wie viele Möglichkeiten gibt es die Spielfigur auszurüsten? Als Urne gedacht, gibt es fünf Kugeln ( mit H,S,V,F,M beschriftet ) und wir ziehen dreimal aus dieser Urne mit Zurücklegen aber ohne Beachtung der Reihenfolge. Daher ist n = 5 und k = 3 und es gibt n k1+k = 73 = 35 verschiedene Kombinationen der Tränke. Abbildung 3.11: Magische Tränke 4 Auch die umgekehrte Wahl, d.h. erst sechs " und danach zwei | ist ebenso denkbar. 22 4 Bedingte Wahrscheinlichkeiten 4.1 Definition der bedingten Wahrscheinlichkeit Betrachte folgendes Diagramm. Es zeigt anschaulich die Ergebnismeng ⌦ sowie zwei Ereignisse A, B als Teilmengen. A A B B U Abbildung 4.1: Zwei Ereignisse in ⌦ Wir benutzen die Größe der Fläche, um damit die Wahrscheinlichkeit abzuschätzen. Näherungsweise gilt dann : 1 1 P (A) ⇡ und P (B) = 3 20 Betrachten wir nun den Ausschnitt mit der Menge A \ B wie unter einem Mikroskop : A tritt ein B A tritt nicht ein Abbildung 4.2: Ausschnittsvergrößerung Wir sehen, dass die Menge B zweigeteilt wird. Ein Bereich ( ungefähr die Hälfte von B )gehört zur Schnittmenge, d.h. dort tritt A ein, während in der anderen Hälfte von B das Ereignis A nicht eintritt. Bleiben wir nur innerhalb der Menge B, so ist die Wahrscheinlichkeit des Eintretens von A wesentlich größer. Anders formuliert : Ist das Ereignis B schon eingetreten bzw. kann man von B fest ausgehen, so lässt sich eine größere Wahrscheinlichkeit von A erkennen. Dieses Phänomen sei noch einmal an einem Alltagsbeispiel verdeutlicht. Beispiel. Betrachten wir die deutschen Fernsehzuschauer als Menge ⌦ und geben folgende zwei Ereignisse vor : A = Jemand schaut regelmäßig KIKA. B = Jemand ist unter 12. 23 4 Bedingte Wahrscheinlichkeiten Genaue Zahlen liegen uns nicht vor, daher schätzen wir grob ab : P (A) ⇡ 0, 05 (5 von 100 beliebigen Personen schauen regelmäßig KIKA. ) ⇡ 0, 20 (20 von 100 beliebigen Personen sind jünger als 12. ) und P (B) Können wir vom Eintreten von B ausgehen, so steigt dadurch die Wahrscheinlichkeit von A . Wir schreiben dafür : PB (A) ⇡ 0, 30 ( Von 100 Menschen unter 12 schauen 30 regelmäßig KIKA. ) Die Schreibweise PB (A) meint also die Wahrscheinlichkeit für das Eintreten von A unter der Voraussetzung B bzw. unter der bereits erfüllten Bedingung B. Wie berechnet man eine bedingte Wahrscheinlichkeit ? Aus dem vergrößerten Ausschnitt können wir ablesen, wie man PB (A) berechnet. PB (A) = |A \ B| |A \ B|/|⌦| P (A \ B) = = |B| |B|/|⌦| P (B) Streng genommen gilt diese Herleitung nur im Falle eine Laplace-Experiments. Man verwendet daher nur die am Ende erzielte Formel als Definition einer bedingten Wahrscheinlichkeit : Definition. Ist P (B) > 0 , so nennt man PB (A) = unter der Bedingung B. P (A\B) P (B) die bedingte Wahrscheinlichkeit von A Dazu ein paar Bemerkungen : Bemerkung. 1) Als alternative Schreibweise findet man auch P (A|B) = PB (A). 2) Die Bedingung P (B) > 0 in der Definition stellt sicher, dass man den Quotienten P (A\B)/P (B) auch mathematisch bilden kann und anschaulich ist es klar, dass man im Falle von P (B) = 0 eine Bedingung gestellt hätte, die nie eintreten kann und daher sinnlos wäre. 3) Beachte dass allgemein gilt : PB (A) 6= PA (B) ( auch wenn dies sprachlich manchmal ähnlich klingt.) Zwei weitere Beispiel zum Würfeln zeigen die Anwendung der bedingten Wahrscheinlichkeiten : Beispiel. Ein Würfel wird zweimal geworfen. Dabei sind folgende Ereignisse gegeben : A= Die Summe der Zahlen ist 11 oder 12 B= Der 1. Würfel zeigt eine 6. Zunächst ist klar, dass ⌦ = {1, 2, 3, 4, 5, 6}2 = {(1/1), (1/2), . . . , (6/6)} und hier ein LaplaceExperiment vorliegt. Durch einfaches Abzählen folgt schnell : P (A) = 3 1 = , 36 12 P (B) = 6 1 = 36 6 Für die bedingten Wahrscheinlichkeiten müssen wir noch P (A \ B) berechnen. Nur die Paare (6/5) und (6/6) gehören zu beiden Mengen, also ist P (A \ B) = 24 2 1 = 36 18 4 Bedingte Wahrscheinlichkeiten Damit können wir jetzt berechnen : PB (A) = P (A \ B) = P (B) PA (B) = P (A \ B) = P (A) 1 18 1 6 1 18 1 12 = 6 1 = 18 3 = 12 2 = 18 3 und als zweite Aufgabe : Beispiel. Ein Würfel wird fünfmal geworfen. Wir konzentrieren uns auf die folgenden Ereignisse : A= Die ersten vier Würfe zeigen eine 1. B = Der fünfte Wurf zeigt eine 1. Offenbar gilt ⌦ = {1, 2, 3, 4, 5, 6}5 , |⌦| = 65 = 7776 und ein Laplace-Experiment liegt vor. Die beiden Ereignisse geben wir in Mengenform an : A = {(1/1/1/1/1), (1/1/1/1/2), . . . , (1/1/1/1/6)} B = {1, . . . , 6}4 ⇥ {1} = {(1/1/1/1/1), (1/1/1/2/1), . . . , (6/6/6/6/1)} A \ B = {(1/1/1/1/1)} Für die Mächtigkeiten ergibt sich : |A| = 6, |B| = 64 · 1 = 1296, |A \ B| = 1 Damit haben wir alles zusammen, um bedingte Wahrscheinlichkeiten auszurechnen. P (A \ B) PA (B) = = P (A) 1 7776 6 7776 = 1 6 Setzen wir die Bedingung A nicht voraus, dann erhalten wir : P (B) = 1296 1 = 7776 6 In diesem Fall ist also PA (B) = P (B) , d.h. das Eintreten von A hatte keinen Einfluss auf die Wahrscheinlichkeit von B . Weiterhin zeigt dieses Beispiel, dass die Chance auf eine Eins beim Würfeln bei jedem Wurf nicht von den vorherigen Würfen abhängt. Die ersten vier Einsen steigern oder senken die Wahrscheinlichkeit auf eine Eins beim fünften Wurf überhaupt nicht. Der Würfel besitzt also kein Langzeitgedächtnis und zeigt bei jedem einzelnen Wurf die gleichen Wahrscheinlichkeiten. 4.2 Stochastische Unabhängigkeit Es gibt Situationen bei denen die Wahrscheinlichkeit eines Ereignisses A nicht von einem anderen Ereignis B abhängt ( vgl. das Beispiel am Ende des letzten Abschnitts) . Daher definiert man : Definition. Gegeben seien die zwei Ereignisse A, B und P (B) > 0 . Dann nennt man A (stochastisch) unabhängig von B, wenn P (A) = PB (A) . 25 4 Bedingte Wahrscheinlichkeiten Diese Definition findet man oft auch in anderer Form. Die bedingte Wahrscheinlichkeit auf der rechten Seite lässt sich schreiben als it PB (A) = P P(A\B) (B) . Durch Multiplikation mit P (B) folgt : PB (A) · P (B) = P (A \ B) Hängt die Wahrscheinlichkeit P (A) dann gar nicht von B ab, d.h. ist P (A) = PB (A) so kann man die bisherige Zeile fortsetzen : P (A \ B) = PB (A) · P (B) = |{z} Wenn P(A) nicht von B anhängt. P (A) · P (B) Insofern ist es egal, ob man zum Nachweis der Unabhängigkeit direkt P (A) = PB (A) nachweist, oder zeigen kann, dass P (A \ B) = P (A) · P (B) ist. Eine entscheidende Eigenschaft der Unabhängigkeit ist, dass sie nur paarweise auftritt, d.h. entweder sind A und B beide voneinander abhängig oder beide sind voneinander unabhängig. Der folgende Satz zeigt, dass es eben nicht möglich ist, dass A von B unabhängig ist aber umgekehrt nicht. Satz. Gegeben seien die zwei Ereignisse A, B mit P (A) > 0 und P (B) > 0 . Dann gilt : Ist A unabhängig von B, so ist auch B unabhängig von A . Beweis. Es sei A unabhängig von B , d.h. P (A \ B) = P (A) · P (B). Dann folgt : PA (B) = P (A \ B) P (A) · P (B) = = P (B) P (A) P (A) und damit ist gezeigt, dass P (B) nicht vom Eintreten von A abhängt, d.h. B ist unabhängig von A . Die Abbildung fasst die verschiedenen Darstellungen für unabhängige Ereignisse zusammen : PB (A)=P(A) und PA (B)=P(B) A und B sind unabhängig voneinander P(A B)=P(A)· P(B) U Abbildung 4.3: Übersicht der Unabhängigkeit Beachte, dass die beiden Begriffe „unabhängig“ und „unvereinbar“ ähnlich klingen, aber sorgfältig voneinander getrennt werden müssen. Die Unabhängigkeit hängt vom Wahrscheinlichkeitsmaß P ab, während die Unvereinbarkeit lediglich aussagt, dass zwei Ereignisse keinerlei Schnittmenge besitzen. 26 4 Bedingte Wahrscheinlichkeiten 4.3 Baumdiagramme Im letzten Abschnitt hatten wir die Definition der bedingten Wahrscheinlichkeit PB (A) = und erhalten : P (A\B) P (B) umgestellt P (A \ B) = PB (A) · P (B) Dieser Zusammenhang wird auch als Produktsatz bezeichnet : Satz. (Produktsatz) Für zwei Ereignisse A, B mit P (B) > 0 gilt :P (A \ B) = PB (A) · P (B) Dieser Produktsatz erlaubt es also die Wahrscheinlichkeit von A \ B so zu berechnen, dass man die Wahrscheinlichkeit P (B) bestimmt, dann vom Eintreten von B ausgeht und PB (A) berechnet und schließlich durch eine simple Multiplikation das gesuchte P (A \ B) erhält. Betrachten wir ein Beispiel : Beispiel. Wir verwenden aus einem Kartenspiel 3 Damen und 2 Asse, also insgesamt 5 Karten. Davon werden 2 Karten ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass wir genau ein As gezogen haben ? Diese Aufgabe lässt sich mit unseren Kenntnissen auf drei verschiedene Arten lösen, die hier exemplarisch vorgestellt sein sollen. Keine der drei Methoden ist „besser“ oder „schlechter“, jede hat ihre eigene Berechtigung im Rahmen der Wahrscheinlichkeitsrechnung. METHODE 1 : Die Methode der Puristen Wir nenne die Karten D1 , D2 , D3 , A1 , A2 und erhalten damit die Ergebnismenge ⌦ aus lauter Paaren : ⌦ = {D1 , D2 , D3 , A1 , A2 }2 \ {(D1 /D1 ), (D2 /D2 ), (D3 /D3 ), (A1 /A1 ), (A2 /A2 )} Die Anzahl der Paare in ⌦ ist |⌦| = 5 · 4 = 20 . Alle Ergebnisse sind gleichwahrscheinlich, d.h. es liegt ein Laplace-Experiment vor. Mit der Festlegung X = Es wird genau 1 As gezogen. folgt: X = {(D1 /A1 ), (D1 /A2 ), (D2 /A1 ), (D2 /A2 ), (D3 /A1 ), (D3 /A2 ), (A1 /D1 ), (A1 /D2 ), (A1 /D3 ), (A2 /D1 ), (A2 /D2 ), (A2 /D3 )} Letzlich ergibt sich : P (X) = |X| 12 = = 0, 6 |⌦| 20 METHODE 2 : Kombinatorik verwenden Wir ziehen aus den 5 Karten genau 2 heraus und dabei ist eine der Karten ein As. In Gedanken trennen wir die fünf Karten in 2 Asse, von denen wir eines ziehen wollen, und 3 Damen, von denen auch eine gezogen wird. Mit der Festlegung X = Es wird genau 1 As gezogen. folgt: P (X) = 3 1 2 1 5 2 METHODE 3 : Baumdiagramme 27 = 3·2 = 0, 6 10 4 Bedingte Wahrscheinlichkeiten Diese Herangehensweise basiert auf den bedingten Wahrscheinlichkeiten und dem oben genannten Produktsatz. Wir stellen das Ziehen der 2 Karten nacheinander als grafischen Baum dar und schreiben an die einzelnen Äste die entsprechenden Wahrscheinlichkeiten : 2 5 3 5 D A 2 4 2 4 3 4 A D 1 4 A D Abbildung 4.4: Baumdiagramm zur Aufgabe Dabei ist zu beachten, dass wir bei der zweiten Karte schon bedingte Wahrscheinlichkeiten angegeben haben. In einem solchen Baumdiagramm muss man dann von der Spitze bis zum Boden alle derartigen Pfade durchgehen, die zum Ereignis gehören. In jedem einzelnen Pfad multipliziert man die einzelnen Wahrscheinlichkeiten (Produktsatz) der Äste und addiert anschließend alle Wahrscheinlichkeiten der Pfade. 2 5 3 5 D 2 4 D A 2 4 3 4 A D 1 4 A Abbildung 4.5: Wege, die zum Ereignis gehören Mit der Festlegung X = Es wird genau 1 As gezogen. folgt: P (X) = 3 2 2 3 3 3 · + · = + = 0, 6 5 4 5 4 10 10 4.4 Vierfeldertafel Liegen zwei Ereignisse A, B eines Zufallsexperiments vor, so kann man bei jeder Durchführung des Experiments überprüfen, ob A und B eingetreten sind. Dadurch ergeben sich prinzipiell vier Varianten, die man in einer Vierfeldertafel darstellen kann. 28 4 Bedingte Wahrscheinlichkeiten Beispiel. Legt man als Ereignisse fest A = Jemand schaut regelmäßig ARTE. B = Jemand ist Brillenträger. so könnte sich folgende Verteilung ergeben : A A B 0,03 0,24 0,27 B 0,02 0,71 0,73 0,05 0,95 1,00 Abbildung 4.6: Beispiel einer Vierfeldertafel Dabei ist die Darstellung so gemeint, dass jedes Feld für eine Schnittmenge der Ereignisse bzw. ihrer Negation steht. So ist P (A \ B) = 0, 03 oder P (Ā \ B) = 0, 24. Liest man im Diagramm zeilen- oder spaltenweise kann man auch die Wahrscheinlichkeiten P (A) = 0, 05 und P (B) = 0, 27 ablesen. Etwas versteckter enthält das Diagramm auch die Möglichkeit bedingte Wahrscheinlichkeiten abzulesen. Geht man z.B. vom Eintreten von B aus, beschränkt man sich eben auf die obere Zeile und kann dann erkennen : P (A \ B) 0, 03 1 PB (A) = = = P (B) 0, 27 9 Ein weiteres Beispiel verdeutlicht die Anwendung einer Vierfeldertafel : Beispiel. Bei einer Untersuchung des TÜV hat man festgestellt, dass 10 % aller vorgeführten Pkw wegen schwerwiegender Mängel fahruntüchtig sind. 60 % dieser Pkws waren älter als sieben Jahre. 20 % der vorgeführten Pkws bekommen die TÜV-Plakette (sind also fahrtüchtig), obwohl sie älter als sieben Jahre sind. Mit welcher Wahrscheinlichkeit bekommt ein Pkw, der älter als sieben Jahre ist, die TÜV-Plakette nicht? Zunächst erkennen wir im Text die beiden entscheidenden Ereignisse ( und ihre Negationen ) : FT ALT = Ein Auto ist fahrtüchtig (besitzt TÜV-Plakette). = Ein Auto ist älter als 7 Jahre. Dem Text kann man dann entnehmen : P (F T ) = 10% = 0, 10 und P (F T ) = 90% = 0, 90 Der nächste Satz sagt, dass diese 10% sich noch feiner unterteilen lassen. Es ergibt sich : P (F T \ ALT ) = 60% von 10% = 0, 6 · 0, 1 = 0, 06 Aus dem folgenden Satz lesen wir ab : P (F T \ ALT ) = 20% 29 4 Bedingte Wahrscheinlichkeiten Trägt man alle diese Angaben in eine Vierfeldertafel und ergänzt durch Summenbildung die restlichen Felder, erhält man folgendes Bild : FT FT ALT 0,20 0,06 0,26 ALT 0,70 0,04 0,74 0,90 0,10 1,00 Abbildung 4.7: Vierfeldertafel zur Autoaufgabe Daraus können wir jetzt die gefragte Wahrscheinlichkeit berechnen : PALT (F T ) = P (ALT \ F T ) 0, 06 = = 0, 231 P (ALT ) 0, 26 Zum Schluss des Abschnitts sei angemerkt, dass man solche Tafeln nicht nur mit Wahrscheinlichkeiten füllt, sondern oft auch absolute Häufigkeiten oder relative Häufigkeiten einträgt. Beispiel. Eine Gruppe von jungen Männern wird daraufhin untersucht, ob ein bestimmtes Medikament gegen Haarausfall hilft oder nicht. Per Zufall wählt man einige Männer aus und gibt ihnen das Medikament, während andere ein wirkloses Placebo erhalten. Nach mehrwöchiger Anwendung werden die absoluten Häufigkeiten ausgezählt. Mit den Abkürzungen M = Jemand erhält das Medikament. W = Jemand zeigt eine nachweisbare Wirkung gegen den Haarausfall. et: und es ergibt sich : W W M M 142 38 180 236 154 390 378 192 570 Abbildung 4.8: Vierfeldertafel Haarausfall 30 4 Bedingte Wahrscheinlichkeiten Für den Hersteller ist es natürlich interessant zu wissen, ob die Gabe des Medikaments eine nachweisbare Wirkung erzielt. Einen ersten Eindruck liefert die Berechnung der bedingten Wahrscheinlichkeit PM (W ) im Vergleich zu P (W ), um zu erkennen, ob die Bedingung M etwas verändert oder nicht. Hier gilt : PM (W ) = P (W ) = P (M \ W ) 142/570 142 = = = 0, 376 P (M ) 378/570 378 180 = 0, 316 570 Hier zeigt sich ein nur geringer Unterschied der beiden Wahrscheinlichkeiten, der sich auch aus reinem Zufall so hätte ergeben können. Genauere Untersuchungen sind nötig. 31 5 Bernoulli-Ketten 5.1 Einführendes Beispiel Der Psychologe Joseph B. Rhine (1895 – 1980) entwickelte einen bekannten Test zur Untersuchung von außersinnlichen Wahrnehmungen. Damit wollte er empirisch überprüfen, ob es einer Person möglich sei, die Gedanken eines anderen Menschen zu lesen. Dazu verwendete er insgesamt 25 Karten, von denen je fünf mit einem gleichen Symbol bedruckt waren. Folgende Symbole wurden verwendet : Abbildung 5.1: von Rhine verwendete Karten Eine Person mischt die Karten, deckt nur für sich sichtbar die nächste auf und konzentriert sich auf das Symbol der Karte. Die zweite Person versucht nun aus einiger Entfernung durch Gedankenlesen zu erahnen, welches Symbol auf der Karte ist1 . Experiment Führe den Versuch mit einem Partner durch. Statt der Karten kannst du dabei auch die Symbole alle aufzeichnen und dann jede Runde dich zufällig für eines entscheiden. Denke an das gewählte Symbol und lasse die andere Person das Symbol erraten. Dabei wird nach jedem Ratevorgang nicht mitgeteilt, ob jemand richtig geraten hat oder nicht. Insgesamt sollen 8 Symbole erraten werden. In einem Grundkurs in der Schule wurde der Versuch durchgeführt und von den 20 Schülern hatte jemand fünf Symbole korrekt erkannt. Ist diese Schülerin hellseherisch begabt ? 5.2 Bernoulli-Experimente Unter einem Bernoulli-Experiment ( kurz BE oder BExp ) versteht man ein Zufallsexperiment mit nur 2 Ergebnissen, d.h. |⌦| = 2 . Solche Experimente treten immer dann auf, wenn man eine Fragestellung so formuliert, dass nur noch 2 Alternativen auftreten, die sich gegenseitig ausschließen. Beispiel. . a) Ich fahre an eine Ampel und notiere, ob sie Rot zeigt oder nicht. b) Ich rolle einen Würfel und notiere ob eine gerade oder ungerade Zahl fällt. c) Ich versuche ein Symbol zu erraten und notiere ob ich richtig oder falsch gelegen habe. Dabei müssen die beiden Alternativen aber nicht unbedingt die gleiche Wahrscheinlichkeit besitzen2 . 1 Im Film “Ghostbusters” zeigt die Einstiegsszene des Films dieses Gedankenraten, wenn auch die Probanden dort direkt eine Rückmeldung über Erfolg oder Misserfolg erhalten( http://www.youtube.com/watch?v=fn7-JZq0Yxs ). 2 Dann wäre das Bernoulli-Experiment gleichzeitig auch ein Laplace-Experiment. Das Beispiel b) zeigt eine solche Möglichkeit. 32 5 Bernoulli-Ketten Ein Bernoulli-Experiment können wir mit der Ergebnismenge ⌦ = {0, T } beschreiben und verwenden dabei das T für einen Treffer mit der Wahrscheinlichkeit p ( d.h. P ({T }) = p ) und die 0 für einen Nichttreffer. Was man mit der Bezeichnung “Treffer” konkret bei einem Experiment meint, muss vorab festgelegt werden. Der Nichttreffer passiert dann mit der Wahrscheinlichkeit P ({0}) = 1 p und sehr oft wird diese Wahrscheinlichkeit abgekürzt mit q = 1 p . Zusammengefasst als Bild : Bernoulli-Experiment Ω ={ 0, T } Niete Wkeit q=1 - p Treffer Wkeit p Abbildung 5.2: Bernoulli-Experiment 5.3 Bernoulli-Ketten Lässt sich ein Zufallsexperiment in mehrere einzelne Bernoulli-Experimente aufteilen, so spricht man von einer Bernoullikette. Dabei führt man nacheinander n-mal das gleiche Bernoulli-Experiment durch. Dabei muss aber die Wahrscheinlichkeit für einen Treffer bei jeder einzelnen Ausführung die gleiche bleiben ! Bernoulli-Kette Ω={0,T}n Bernoulli-Experiment Bernoulli-Experiment Bernoulli-Experiment Bernoulli-Experiment Bernoulli-Experiment Ω ={ 0, T } Ω ={ 0, T } Ω ={ 0, T } Ω ={ 0, T } Ω ={ 0, T } Niete Wkeit q=1 - p Treffer Wkeit p Niete Wkeit q=1 - p Treffer Wkeit p Niete Wkeit q=1 - p Treffer Wkeit p Niete Wkeit q=1 - p Treffer Wkeit p Niete Wkeit q=1 - p Treffer Wkeit p Abbildung 5.3: Bernoulli-Kette Definition. Führt man n einzelne Bernoulli-Experimente mit der gleichbleibenden Trefferwahrscheinlichkeit p durch, so spricht man von einer Bernoullikette der Länge n mit dem Parameter p . Für eine solche Bernoullikette gilt : ⌦ = {0, T }n und |⌦| = 2n Beispiel. a) Ein routinierter NBA-Spieler wirft fünfmal nacheinander einen Basketball auf einen Korb und notiert bei jeder Durchführung ob ein Treffer erzielt wurde oder nicht. Die Routine sorgt dafür, dass die Wahrscheinlichkeit des Treffens von ⇡ 80% konstant bleibt. Eine Bernoulli-Kette der Länge n = 5 mit dem Parameter p = 0, 8 liefert die passende mathematische Beschreibung. b) In einer Urne sind 9 schwarze und 1 weiße Kugel. Man zieht eine Kugel, notiert ob man die weiße gezogen hat (=Treffer) oder nicht. Dann legt man die Kugel zurück und führt dies insgesamt siebenmal durch. Wir verwenden eine Bernoulli-Kette der Länge n = 7 mit dem Parameter p = 0, 1 ( 1 von 10 Kugeln ist weiß ! ). 33 5 Bernoulli-Ketten 5.4 Die Formel von Bernoulli Bei Bernoulliketten interessiert man sich oft dafür, dass eine bestimmte Anzahl an Treffern erreicht wurde. Wir verwenden die Abkürzungen T = 0, T = 1, T = 2, . . . für die erreichten Trefferanzahlen und meinen damit in Kurzform die Ereignisse “Es wurde kein Treffer erzielt”, “Es wurde genau ein Treffer erzielt”, usw. Entsprechend gibt es dann die Schreibweisen P (T = 0), P (T = 1), P (T = 2), . . . P (T = n) und man meint damit die Wahrscheinlichkeiten der Ereignisse mit keinem, genau einem, genau zwei, ... , genau n Treffern. Wenn wir allgemein eine Bernoullikette der Länge n mit dem Parameter p betrachten, so versuchen wir eine einfache Berechnung von P (T = k) zu erhalten. Wie lässt sich also mit wenig Aufwand die Wahrscheinlichkeit von genau k Treffern bei n Durchgängen berechnen. Stellen wir uns die Kette allgemein im Baumdiagramm vor, so erhalten wir das folgende Bild : 1-p p T p 0 1-p T p 1-p 0 T 1-p T 0 p 1-p T p 0 p 1-p 0T p 1-p 0 T 0 ... usw... Abbildung 5.4: Baum zur Bernoulli-Kette Gehen wir die Gedanken, die zur Formel von Bernoulli führen schrittweise durch : 1. Wenn wir uns für k Treffer interessieren, so müssen wir alle Gesamtwege im Baum finden, die genau k mal ein T besitzen und genau n k mal eine 0. 2. Ein einziger solcher Pfad mit k Treffern hat dann die Wahrscheinlichkeit pk · (1 p)n k , denn entlang des Weges treffen wir ja k-mal auf ein p und auf den restlichen n k Zweigen auf 1 p . Multiplizieren wir alle diese Zahlen und sortieren sie um ( beim Multiplizieren erlaubt !) , so ergibt sich die genannte Wahrscheinlichkeit. 3. Wie viele solcher Pfade mit k Treffern gibt es aber ? Alle solcher Gesamtpfade haben k-mal ein p an irgendwelchen Stellen. Wir müssen also lediglich abzählen, wie viele Möglichkeiten es gibt, an die n Teilabschnitten im Baum von oben nach unten k-mal ein p anzuschreiben. Anders ausgedrückt : Von den n Teilabschnitten müssen wir k auswählen. Aus der Kombinatorik wissen wir, dass es dafür nk Möglichkeiten gibt, also gibt es auch genau n k Pfade mit genau k Treffern. 34 5 Bernoulli-Ketten Insgesamt folgt : ✓ ◆ n P (T = k) = · pk · (1 k p) n k bzw. ✓ ◆ n P (T = k) = · pk · q n k k Jakob Bernoulli (1654 - 1705) und ihm zu Ehren kürzt man die Zahlenwerte auch mit einem B in der Form B(n, p, k) = P (T = k) ab. Stellt man alle Werte von P (T = 0) bis P (T = n) grafisch dar, so erhält man das Bild einer sogenannten Bernoulli-Verteilung (oder auch Binomialverteilung genannt). Beispiel. Für n = 10, p = 0, 3 erhalten wir die verschiedenen Wahrscheinlichkeiten von P (T = 0) bis 3 7 P (T = 10). Der größte Wert ergibt sich bei P (T = 3) = 10 3 · 0, 3 · 0, 7 ⇡ 0, 267 Abbildung 5.5: Verteilung für n = 10, p = 0, 3 Die fehlenden Balken in der Abbildung 5.5 für k = 9 bzw. k = 10 erklären sich dadurch, dass die zugehörigen Wahrscheinlichkeiten sehr klein sind : ✓ ◆ 10 P (T = 9) = · 0, 39 · 0, 71 ⇡ 0, 00014 9 ✓ ◆ 10 P (T = 10) = · 0, 310 · 0, 70 = 0, 310 ⇡ 0, 0000059 10 Zum Schluss kommen wir in diesem Abschnitt noch einmal zurück auf auf den anfangs geschilderten Versuch, die Gedanken einer anderen Person zu erraten. Dort gab es 5 Symbole, von denen sich eine Person eines aussucht und konzentriert daran denkt. Nehmen wir an, dass die zweite Person keinerlei Gedanken lesen kann und einfach nur zufällig rät, dann liegt bei einer einzigen Durchführung ein Bernoulli-Experiment mit T = Person rät korrekt. und p = 1/5 = 0, 2 vor. Der Versuch sollte achtmal durchgeführt werden, so dass wir zu einer Bernoullikette der Länge n = 8 mit p = 0, 2 kommen. Die Abbildung zeigt die Verteilung der Wahrscheinlichkeiten : 35 5 Bernoulli-Ketten Abbildung 5.6: Verteilung für n = 8, p = 0, 2 Zunächst berechnen wir : P (T = 5) = ✓ ◆ 8 1 · 0, 25 · 0, 83 = 0, 00917 = 5 109 Im Mittel erzielt also durch pures Raten eine von 109 Personen fünf richtig geratene Symbole. So beachtlich ist es also nicht, wenn wir in unserem Kurs eine Person mit 5 Treffern wiederfinden. Da die Wahrscheinlichkeit ab sechs Treffern nicht mehr gut abzulesen sind, erweitern wir unsere bisherige Schreibweise P (T = k) und lassen auch die Zeichen und zu. Dann ist P (T 6) = P (T = 6) + P (T = 7) + P (T = 8) ⇡ 0, 00123 = 1 812 Mit der Gegenereignisregel ergibt sich dann : P (T 5) = 1 P (T 6) = 1 0, 00123 = 0, 9988 Mit einer sehr großen Wahrscheinlichkeit von 99, 88% führt demnach pures Raten zu höchstens fünf Treffern. Nur eine von 812 Personen wird durch Raten im Durchschnitt auf sechs oder mehr richtige Rateergebnisse kommen. Hilfreich bei vielen Aufgaben zum Thema Bernoullikette sind Tabellen in Buchform oder eine Internetseite, die die Berechnung der einzelnen Wahrscheinlichkeiten abnimmt. ( z.B. http://www. fortapocalypse.de/binomial.swf). 36 6 Zufallsgrößen 6.1 Definition des Begriffs der Zufallsgröße Bisher sind wir in der Lage spezielle Wahrscheinlichkeiten anzugeben und zu berechnen. Manchmal benötigt man noch weitere Informationen neben der Wahrscheinlichkeit, um einen Ablauf genauer zu beurteilen. So ist beim klassischen Lottospiel ( 6 aus 49 ) die Wahrscheinlichkeit äußerst gering aber der überaus hohe Gewinn lässt viele Menschen dann dennoch mitspielen. Ein anderes Beispiel einfacher als Lotto - soll dies verdeutlichen. Beispiel. Ein Spieler setzt 2 € als Einsatz und entscheidet sich laut hörbar für eine Zahl von 1 bis 6. Dann wirft er zwei Würfel und kann je nach Wurf Geld zurückgewinnen. Er erhält : • 0 € : Seine genannte Zahl taucht überhaupt nicht auf. • 3 € : Seine genannte Zahl erscheint genau einmal. • 15€ : Beide Würfel zeigen seine genannte Zahl. Ein ( mathematisch interessierter ) Spieler muss sich bei diesem Spiel natürlich nicht nur um die einzelnen Wahrscheinlichkeiten kümmern, sondern auch der Frage nachgehen, ob sich insgesamt die Teilnahme lohnt. Entschädigen die hohen Gewinne für die geringen Wahrscheinlichkeiten ? Wieviel kann ein Spieler bei diesem Spiel im Durchschnitt gewinnen ? Wir nehmen an, dass der Spieler immer auf die 6 setzt1 und verwenden die übliche Ergebnismenge bei zwei Würfeln, d.h. ⌦ = {1, . . . , 6}2 und |⌦| = 36 . Die einzelnen Zweiertupel fassen wir übersichtlich zu den Gewinnen pro Spiel zusammen : Mit den festgelegten Spielregeln ist es möglich, jedem Tupel Zahl keinmal {1,..., 5}2 Gewinn pro Spiel Gesamtgewinn ( abzüglich 2 € Einsatz ) Wkeit Zahl einmal (a/6) oder (6/a) mit a є {1,..., 5}2 (6/6) 0€ 3€ 15 € -2 € 1€ 13 € 25 36 10 36 Abbildung 6.1: Übersicht (a/b) 2 ⌦ einen Gesamtgewinn zuzuordnen. 1 Zahl keinmal Die Rechnung lässt sich auf alle anderen genannten Zahlen übertragen. 37 1 36 6 Zufallsgrößen Beispiel. (1/6) 7! 1 €, (2/5) 7! 2 €, (6/6) 7! 13 €, usw. Definition. Eine Zuordnung (Funktion) von ⌦ nach R heißt Zufallsgröße oder auch Zufallsvariable. Jedem möglichem Ergebnis eines Zufallsexperiment wird demnach eine reelle Zahl zugeordnet. Meist verwendet man den Buchstaben X als Namen für die Zufallsgröße , d.h. X : ⌦ ! R ist eine Funktion, die jedem Element ! 2 ⌦ eine bestimmte reelle Zahl X(!) zuordnet. In unserem Beispiel ist der Gesamtgewinn in Euro eine Zufallsvariable. Um noch eine Antwort auf die Frage zu geben, ob sich ein Spiel nun für den Spieler rentiert oder nicht, gehen wir von 36 durchgeführten Spielen aus, die sich perfekt nach dem Durchschnitt richten, d.h. 25 Spiele zeigen keine 6, 10 Spiele zeigen genau eine 6 und ein Spiel zeigt die Doppelsechs. Dann können wir den Gewinn pro Spiel ausrechnen, indem wir den Gewinn aller 36 Spiele durch 36 dividieren, also Gewinn pro Spiel = 25 · ( 2) + 10 · 1 + 1 · 13 27 = = 36 36 0, 75 Ein negativer durchschnittlicher Gewinn ist ein Verlust. Der Spieler verliert pro Spiel durchschnittlich 0,75 € und sollte daher auf lange Sicht die Finger vom Spiel lassen. Damit ist aber auch die goldene Regel des Spielens bestätigt : Die Bank gewinnt immer ! Ergebnismenge einer Zufallsgröße Da in all unseren bisherigen Beispielen die Ergebnismenge ⌦ = {!1 , . . . , !n } stets endlich ist, kann die Zufallsgröße X auch nur endlich viele Werte X(!1 ), . . . , X(!n ) annehmen. Alle Werte fasst man als Wertemenge von X zusammen und nennt diese X(⌦). Beispiel. Eine Münze wird viermal geworfen und X gibt die Anzahl der Würfe mit „Zahl“ an. Zunächst legen wir wie gewohnt die möglichen Ergebnisse beim viermaligen Münzwurf fest : ⌦ = {(K/K/K/K), (K/K/K/Z), . . . , (Z/Z/Z/Z)}, oder kürzer : |⌦| = 16 ⌦ = {K, Z}4 Kommt jetzt die Zufallsgröße X hinzu, interessiert uns dabei nur noch die Anzahl der Münzen mit Z. Die möglichen Werte von X liegen zwischen Null und Vier und daher ist hier X(⌦) = {0, 1, 2, 3, 4}. Eine weitere sinnvolle Abkürzung im Zusammenhang mit Zufallsgrößen ist die Schreibweise {X = c} mit c 2 R. Damit meint man dass Ereignis, das X den Wert c annimmt. Ereignisse sind Teilmengen von ⌦ und insofern ist bei diesem Beispiel : {X = 0} = {(K/K/K/K} {X = 1} = {(K/K/K/Z), (K/K/Z/K), (K/Z/K/K), (Z/K/K/K)} {X = 2} = {(K/K/Z/Z), (K/Z/K/Z), (Z/K/K/Z), (K/Z/Z/K), (Z/K/Z/K), (Z/Z/K/K)} {X = 3} = {(K/Z/Z/Z), (Z/K/Z/Z), (Z/Z/K/Z), (Z/Z/Z/K)} {X = 4} = {(Z/Z/Z/Z)} Dadurch, dass hier stets Teilmengen von ⌦ vorliegen, ist dann später auch eine Schreibweise wie P ({X = 2}) oder abkürzend P (X = 2) durchaus gerechtfertigt und damit können wir den einzelnen 38 6 Zufallsgrößen angegebenen Mengen auch Wahrscheinlichkeiten zuordnen : P (X = 0) = P (X = 1) = P (X = 2) = P (X = 3) = P (X = 4) = 1 16 4 16 6 16 4 16 1 16 6.2 Wahrscheinlichkeitsverteilung und Erwartungswert Eine Zufallsgröße X nimmt in unseren Aufgaben verschiedene, aber nur endlich viele Werte an. Die einzelnen möglichen Werte werden wir in Zukunft mit x1 , x2 , . . . , xn abkürzen. Dann lässt sich die in 6.1 betrachtete Wertemenge dieser Zufallsgröße schreiben als X(⌦) = {x1 , x2 , . . . , xn } Wie schon im letzten Abschnitt angedeutet können wir Wahrscheinlichkeiten bestimmen, mit denen die Zufallsgröße X diese einzelnen Werte annimmt, d.h. die Werte P ({X = x1 }), P ({X = x2 }), . . . berechnen. Damit erhält man eine Übersicht, die uns verrät, mit welcher Wahrscheinlichkeit eine Zufallsgröße ihre verschiedenen möglichen Werte annimmt. Man spricht von der Wahrscheinlichkeitsverteilung der Zufallsgröße X . Beispiel. Mitunter erhält man unter seiner Email-Adresse auch unerwünschte Werbemails ( Spam ). Mit der Zufallsgröße X geben wir die Anzahl solcher Werbemails an einem Tag an und gehen ferner davon aus, dass höchstens 4 Spammails täglich eintrudeln. Durch umfangreiches Auszählen könnten wir dann zu folgender Wahrscheinlichkeitsverteilung gelangen : xi P (X = xi ) 0 0,54 1 0,28 2 0,10 3 0,06 4 0,02 Diese Verteilung stellen wir grafisch als Balkendiagramm dar : 0,5 0,4 0,3 0,2 0,1 0 1 2 3 4 Abbildung 6.2: Verteilung der Zufallsgröße als Balkendiagramm 39 6 Zufallsgrößen Erwartungswert Aus den Angaben mit welcher Wahrscheinlichkeit eine Zufallsgröße ihre verschiedenen Werte annimmt, kann man einen Mittelwert der Zufallsgröße bestimmen. Man spricht vom sogenannten Erwartungswert E(X) oder auch µ genannt. Am oben eingeführten Beispiel der täglich eintreffenden Werbemails lässt sich zeigen, wie man diesen Erwartungswert bestimmt. Gehen wir von 100 betrachteten Tagen aus und stellen wir uns den Fall vor, dass sich in diesen Tagen die Wahrscheinlichkeitsverteilung perfekt einstellt. An 54 Tagen erhalten wir also keine Werbung, an 28 Tagen genau eine Werbemail usw. Dann können wir den Durchschnittswert wie folgt bestimmen : E(X) = Wie oft tritt jeder Wert auf ? 54 · 0 + 28 · 1 + 10 · 2 + 6 · 3 + 2 · 4 74 = = = 0, 74 Anzahl der Durchgänge 100 100 Mit einer kleinen Umformung hätten wir diesen Erwartungswert auch anders berechnen können : E(X) = 54 · 0 + 28 · 1 + 10 · 2 + 6 · 3 + 2 · 4 54 28 10 6 2 = ·0+ ·1+ ·2+ ·3+ · 4 = 0, 74 100 100 100 100 100 100 Hier haben wir jeden einzelnen möglichen Wert der Zufallsgröße mit der zugehörigen Wahrscheinlichkeit multipliziert und alle diese Produkte aufaddiert. Bei einer vorliegenden Tabelle als Wahrscheinlichkeitsverteilung müssen wir daher nur jeden Wert mit der darunterstehenden Wahrscheinlichkeit multiplizieren. Definition. Ist X eine Zufallsgröße mit den Werten X(⌦) = {x1 , x2 , . . . , xn }, dann ergibt sich der Erwartungswert E(X) ( oder auch Mittelwert µ ) dieser Zufallsgröße durch Aufsummieren der Produkte aus den Werten und den zugehörigen Wahrscheinlichkeiten, mit denen die Zufallsgröße sie annimmt. E(X) = x1 · P (X = x1 ) + x2 · P (X = x2 ) + · · · + xn · P (X = xn ) Mit einem Summenzeichen lässt sich diese Summe kürzer schreiben : E(X) = µ = n X i=1 xi · P (X = xi ) Beispiel. a) Man wirft einen sechsseitigen Würfel und legt X als geworfene Zahl fest. Dann ergibt sich folgende W-Verteilung : xi P (X = xi ) 1 1/6 2 1/6 3 1/6 Also ist dann : E(X) = 1 · 1 6 4 1/6 +2· 1 6 5 1/6 6 1/6 + ··· + 6 · 1 6 = 21 6 = 3, 5 b) Man wirft einen sechsseitigen Würfel und legt Y als das Doppelte der geworfenen Zahl plus 1 fest. Dann ist Y = 2X + 1 und es ergibt sich folgende W-Verteilung : yi P (Y = yi ) 3 1/6 5 1/6 7 1/6 9 1/6 11 1/6 13 1/6 Also ist dann : E(Y ) = 3 · 16 + 5 · 16 + · · · + 13 · 16 = 48 6 =8 Vergleicht man dieses Beispiel mit der Rechnung in a) fällt auf, dass es auch eine Abkürzung für die Berechnung von E(Y ) gibt. Offenbar gilt : E(Y ) = E(2X + 1) = 2E(X) + 1 = 2 · 3, 5 + 1 = 8 40 6 Zufallsgrößen Bereits das nächste Beispiel c) zeigt aber, dass eine solche Rechnung nicht immer das korrekte Beispiel liefert. c) Man wirft einen sechsseitigen Würfel und legt Z als das Quadrat der geworfenen Zahl fest. Dann ergibt sich folgende W-Verteilung : zi P (Z = zi ) 1 1/6 4 1/6 9 1/6 16 1/6 Nach der Definition ist : E(Z) = 1 · 1 6 25 1/6 36 1/6 +4· 1 6 + · · · + 36 · 1 6 = 91 6 = 15, 16. Versucht man eine ähnliche Abkürzung wie in b), so gelangt man hier nicht zum korrekten Ergebnis. Zwar ist Z = X 2 , aber das Quadrieren lässt sich nicht auf den Erwartungswert übertragen, denn µZ = 15, 16 6= 12, 25 = µ2X . Anders ausgedrückt : E(X 2 ) 6= (E(X))2 Lineare Transformationen einer Zufallsgröße Die bisherigen Beispiele zeigten Zufallsgrößen Y und Z, die auf einer anderen Zufallsgröße X basierten. Die zugehörigen Erwartungswerte E(Y ) und E(Z) lassen sich zwar immer nach der Definition des Begriffs Erwartungswert ausrechnen, aber bei Y gab es eine Abkürzung. Diesen Sonderfall notieren wir als eigenen Satz. Satz. ( Lineare Transformation ) Es sei X eine Zufallsgröße mit den Werten X(⌦) = {x1 , x2 , . . . , xn }. Weiterhin sei Y eine Zufallsgröße mit Y = a · X + b und a, b 2 R. Eine solche Zufallsgröße heißt eine lineare Transformation der Zufallsgröße X. Dann gilt : E(Y ) = a · E(X) + b Die lineare Transformation darf man also auch auf den Erwartungswert anwenden. Beweis. Aus den Werten X(⌦) = {x1 , x2 , . . . , xn } ergeben sich die Werte der Zufallsgröße Y als Y (⌦) = {ax1 + b, ax2 + b, . . . , axn + b}. Während sich für Y also neue Werte ergeben, bleiben aber die Wahrscheinlichkeiten die gleichen. So wird z.B. mit der Wahrscheinlichkeit P (X = x1 ) sowohl der Wert x1 als auch der Wert ax1 + b angenommen. Kurz : P (X = xk ) = P (Y = yk ).Dann folgt nach Definition : E(Y ) = = n X k=1 n X k=1 = n X yk · P (Y = yk ) = n X k=1 (axk + b) · P (X = xk ) (axk · P (X = xk ) + b · P (X = xk )) axk · P (X = xk )+ k=1 n X = a k=1 n X k=1 xk · P (X = xk ) + b b · P (X = xk ) n X k=1 = a · E(X) + b · 1 = aE(X) + b 41 P (X = xk ) 6 Zufallsgrößen 6.3 Streuung und Varianz Bei einer Kundenbefragung zweier Werkstätten sollten die Kunden ihre Werkstatt mit Schulnoten von 1 bis 6 bewerten. Hier sind die Ergebnisse : Werkstatt 1 Werkstatt 2 1 2 3 4 5 6 19 18 20 20 21 22 1 2 3 4 5 6 6 21 55 87 27 4 Abbildung 6.3: Noten bei zwei Werkstätten Wählen wir bei beiden X als die erzielte Note, so ergeben sich bei beiden Werkstätten die gleichen Mittelwerte, d.h. µ1 = µ2 = 3, 6, d.h. beide Werkstätten erzielen im Durchschnitt eine gleiche Bewertung. Im grafischen Vergleich zeigen sich aber Unterschiede : 40% 40% 30% 30% 20% 20% 10% 10% 1 2 3 4 5 6 1 2 3 4 5 6 Abbildung 6.4: W-Verteilungen der Werkstätten Bei der ersten Werkstatt verteilen sich die Werte gleichmäßig in allen Abständen um den Mittelwert herum, während sie bei der zweiten Werkstatt vom Mittelwert ausgehend schnell abfallen. Der Erwartungswert allein verrät also noch nicht genug über eine Zufallsgröße2 . Jedesmal aber erst eine Zeichnung anzufertigen ist zu aufwändig. Wir suchen daher eine rechnerische Größe, die darüber Auskunft gibt, wie sehr die Werte von X vom Mittelwert µ abweichen. Idee 1 : Neue Größe Y = X verwenden wir die Differenz X als nicht geeignet heraus, denn µ Da wir uns ja für die Abweichung vom Mittelwert interessieren, µ als eigene, neue Zufallsgröße Y . Allerdings stellt sich diese Wahl E(Y ) = E(X µ) = E(X) µ=µ µ=0 Bei dieser Festlegung von Y erhalten wir als mittlere Abweichung immer genau Null. Das liegt daran, dass der Mittelwert µ eben genau so gewählt ist, dass sich positive und negative Abweichungen aufheben. 2 Ebenso wenig wie man einem Notendurchschnitt von 3 entnehmen kann, ob jemand zwei Dreier geschrieben hat oder eine 1 und eine 5. 42 6 Zufallsgrößen Idee 2 : Neue Größe Y = |X µ| Durch die Verwendung von Beträgen, sind alle Differenzen niemals negativ. Allerdings sind Beträge auch in anderen Teilgebieten stets unhandlich und man versucht sie eher loszuwerden. Daher lassen wir diese eigentlich theoretisch gute Idee als unhandlich liegen. Idee 3 : Neue Größe Y = (X µ)2 Man quadriert die Differenzen und erhält ähnlich wie beim Betrag auch hier nur Werte größer oder gleich Null. Wir testen unsere neue Größe am Beispiel der beiden Autowerkstätten und erhoffen uns natürlich davon, dass wir bei Werkstatt 1 größere Abweichungen vorfinden als bei Werkstatt 2. Dazu wandeln wir die absoluten Häufigkeiten in relative Häufigkeiten um und verwenden diese Zahlen als Wahrscheinlichkeiten. Bei beiden Werkstätten war µ = 3, 6. Dadurch können wir die Werte yi = (xi µ)2 einzeln ausrechnen und die Wahrscheinlichkeiten stehenlassen. Werkstatt 1 : xi P (X = xi ) yi = (xi µ)2 1 0, 19 2, 62 = 6, 76 2 0, 18 1, 62 = 2, 56 3 0, 20 0, 62 = 0, 36 4 0, 20 0, 42 = 0, 16 5 0, 21 1, 42 = 1, 96 6 0, 22 2, 42 = 5, 76 Daraus können wir jetzt den Erwartungswert unserer quadrierten Abstände berechnen : E(Y ) = 6, 76 · 0, 19 + 2, 56 · 0, 18 + 0, 36 · 0, 20 + 0, 16 · 0, 20 + 1, 96 · 0, 21 + 5, 76 · 0, 22 = 3, 5258 Werkstatt 2 : xi P (X = xi ) yi = (xi µ)2 1 0, 03 6, 76 2 0, 105 2, 56 3 0, 275 0, 36 4 0, 435 0, 16 5 0, 135 1, 96 6 0, 02 5, 76 Hier ergibt sich als Erwartungswert von Y : E(Y ) = 1, 02 Alles in allem haben wir mit der 3. Idee eine geeignete Größe gefunden, die die Abweichung vom Mittelwert auch in Zahlen fasst. Definition. Ist X eine Zufallsgröße mit den Werten X(⌦) = {x1⇣, x2 , . . . , xn⌘} und dem Mittelwert ( = Erwartungswert ) µ = E(X), so nennt man die Zahl V (X) = E (X µ)2 die Varianz von X. Mit n P dem Summenzeichen lässt sich die Varianz auch schreiben als : V (X) = (xk µ)2 · P (X = xk ). k=1 Die Varianz wird oft auch mit V ar(X) abgekürzt. Der einzige Nachteil an der Varianz besteht darin, dass wir unter Beachtung von Einheiten ( Euro, Meter, Sekunden, ... ) bei X und V (X) nicht die gleichen Einheiten hätten. Wäre z.B. X in Euro vorgesehen, so hätte auch µ die Einheit Euro aber V (X) durch das auftretende Quadrat die Einheit Euro2 . Daher berechnet man aus der Varianz oft eine in der Praxis sinnvollere Größe. Definition. Die Wurzel p aus der Varianz einer Zufallsgrößen heißt Standardabweichung bzw. X . Dann ist daher = V (X) bzw. 2 = V (X). Die Standardabweichung hat die gleiche Einheit wie X und E(X) und gibt Aufschluss darüber, wie stark die Werte einer Zufallsgröße vom Mittelwert abweichen und ist damit anschaulich eine Art von Streuung in Form einer Zahl. Bei unserern beiden Werkstätten hatten wir die Varianzen ( auch wenn sie zu dem Zeitpunkt noch nicht so hießen ) bereits berechnet. Es war V1 (X) = 3, 5258 Daraus ergibt sich jetzt : 1 = 1, 878 und und V2 (X) = 1, 02 2 = 1, 010 Auch hieran lässt sich die breitere Verteilung der Werte bei Werkstatt 1 gut ablesen. 43 6 Zufallsgrößen 6.4 Rechenregeln für die Standardabweichung Die bisherige Berechnung der Standardabweichung ist noch ein wenig mühsam, da wir ja in einer Tabelle immer erst alle quadrierten Abweichungen von µ eintragen müssen. Wir suchen nach einer Abkürzung und gehen noch einmal zur Definition der Varianz, d.h. 2 zurück. n P Es ist : V (X) = (xi µ)2 · P (X = xi ) k=1 Damit weniger Schreibarbeit entsteht, kürzen wir die Wahrscheinlichkeiten mit pk ab, d.h. pk = n P P (X = xk ). Dann ist V (X) = (xk µ)2 · pk . Das im Summenzeichen auftretende Quadrat können k=1 wir nach der binomischen Formel auflösen und weiter rechnen : V (X) = = n X k=1 n X (xk µ)2 · pk = x2k pk n X (x2k 2xk µ + µ2 ) · pk k=1 2xk µpi + µ2 pk k=1 = n X x2k pk k=1 = n X x2k pk k=1 n X 2xk µpk + k=1 nX 2µ n X µ 2 pk k=1 x k pk + µ k=1 2 n X pk k=1 Im letzten Schritt wurden die Terme, die nicht von der Zählervariablen k abhängen, vor das Summenzeichen gezogen. Dies entspricht einem Ausklammern in einer Summe. Die drei noch verbleibenden Summen können wir uns einzeln ansehen und erkennen in den ersten beiden einfach die Erwartungswerte E(X 2 ) bzw. E(X). In der letzten Summe werden alle pk aufaddiert. Dies führt zu einer Summe von 1. Also rechnen wir weiter : = E(X 2 ) 2µE(X) + µ2 · 1 = E(X 2 ) 2µ2 + µ2 = E(X 2 ) µ2 Als Satz formuliert : Satz. Es sei X eine Zufallsgröße mit dem Mittelwert µ. Dann gilt für die Varianz : V (X) = E(X 2 ) µ2 . Anders ausgedrückt : 2 = E(X 2 ) µ2 Machen wir uns an einem Beispiel klar, wie dieser Satz beim schnelleren Berechnen von helfen kann. Betrachten wir erneut die Aufgabe bei einem sechsseitigen Würfel mit X als gewürfelter Augenzahl den Mittelwert µ und die Standardabweichung zu berechnen. Diesmal entwerfen wir die übliche W-Verteilung von X, fügen aber eine neue Zeile mit den quadrierten Werten x2k ein : xi P (X = xi ) x2i 1 2 3 4 5 6 1 6 1 6 1 6 1 6 1 6 1 6 1 4 9 16 25 36 Daraus können wir jetzt rasch E(X) und E(X 2 ) berechnen : µ = E(X) = 21 = 3, 5 6 Mit unserem neuen Satz folgt daraus sofort : 2 E(X 2 ) = = E(X 2 ) Nebenbei zeigt der Satz noch : 44 91 = 15, 16̄ 6 µ2 = 91 6 21 2 6 = 2, 916̄ 6 Zufallsgrößen Notiz. Es sei X eine Zufallsgröße. Dann gilt : E(X 2 ) µ2 bzw. E(X 2 ) (E(X))2 Dies folgt sofort daraus, dass die Varianz als Mittelwert von quadrierten Abweichungen ja nicht negativ sein kann, d.h. V (X) 0 und nach dem gezeigten Satz ist dann auch E(X 2 ) µ2 0 . 6.5 Die Binomialverteilung Im Kapitel 5 behandelten wir als eine wichtige Art von Zufallsexperiment die Bernoullikette der Länge n. Dabei ging es darum, ein Experiment mit zwei möglichen Resultaten ( Treffer und Nichttreffer) n mal zu wiederholen. Die meisten Rechnungen gingen dann darum, Wahrscheinlichkeiten für eine bestimmte Anzahl an Treffern auszurechen ( z.B. P (T = 2) ) . Im jetzigen Kapitel behandeln wir Zufallsgrößen und daher ist es nicht verwunderlich, wenn man die Anzahl der Treffer bei einer Bernoullikette einfach als Zufallsgröße X einführt und damit eine Verknüpfung von Kapitel 5 und 6 geschaffen hat. Wir setzen : X = Anzahl der Treffer bei einer Bernoullikette der Länge n Dann kann X die Werte ( = Trefferanzahlen ) von 0 bis n annehmen. Die zugehörigen Wahrscheinlichkeiten ergeben sich aus der schon damals behandelten Formel von Bernoulli. Satz. Liegt eine Bernoullikette der Länge n mit der Trefferwahrscheinlichkeit p vor und ist X als Zufallsgröße die Anzahl der möglichen Treffer bei dieser Kette, so gilt : 1) X(⌦) = {0, 1, 2, . . . , n} 2) P (X = k) = nk pk (1 p)n k Eine solche Zufallsgröße X wird auch binomialverteilte Zufallsgröße genannt und die zugehörige W-Verteilung heißt Binomialverteilung mit den Parametern n und p. Definition. Als Abkürzung für die auftretenden Wahrscheinlichkeiten definiert man : B(n, p, k) = n k p)n k . k p (1 Binomialverteilte Zufallsgrößen sind also ein Spezialfall einer Zufallsgröße, bei der man die einzelnen Wahrscheinlichkeiten in der W-Verteilung nach einer speziellen Formel berechnen kann. Dadurch erspart man sich dann meist die oft kniffligen Überlegungen, welcher Wert der Zufallsgröße mit welcher Wahrscheinlichkeit angenommen wird. Beispiel. Ein sechsseitiger Würfel wird 4-mal geworfen. X sei die Anzahl der erzielten Sechsen. Da wir nur auf Sechs/Nichtsechs schauen, liegt hier eine Bernoullikette der Länge 4 vor. Als Treffer wählen wir das Werfen einer Sechs mit p = 16 . Anders formuliert : X ist eine binomialverteilte Zufallsgröße mit n = 4 und p = 16 . Dann lässt sich die W-Verteilung von X aus der Formel von Bernoulli leicht bestimmen : xi P (X = xi ) 4 0 p0 q 4 0 ⇡ 0, 482 Dargestellt als Balkendiagramm : 4 1 p1 q 3 1 ⇡ 0, 386 45 4 2 p2 q 2 2 ⇡ 0, 116 4 3 p3 q 1 3 ⇡ 0, 015 4 4 p4 q 0 4 ⇡ 0, 001 6 Zufallsgrößen Abbildung 6.5: Binomialverteilung mit n = 4, p = 1 6 Wie gehabt, können wir aus der W-Verteilung die Werte für µ und rasch berechnen : Mittelwert : µ = 0 · 0, 482 + 1 · 0, 386 + 2 · 0, 116 + 3 · 0, 015 + 4 · 0, 001 = 0, 667 Standardabweichung : zunächst ist E(X 2 ) = 02 · 0, 482 + 12 · 0, 386 + 22 · 0, 116 + 32 · 0, 015 + 42 · 0, 001 = p 1, 001 und daraus folgt : 2 = E(X 2 ) µ2 = 0, 556. Dann ist = 0, 556 = 0, 746 Stellen wir uns jetzt allerdings vor, dass die Kettenlänge n eine größere Zahl ist, so wird dieses Verfahren doch arg mühsam. Daher ist es eine gute Nachricht, dass es zur Berechnung von Mittelwert und Standardabweichung bei Binomialverteilungen eine sehr einfache Alternative gibt. Satz. Es sei X eine binomialverteilte Zufallsgröße mit den Parametern n und p . Dann gilt : 1) E(X) = µ = n · p 2) V (X) = n · p · (1 p) bzw. V (X) = n · p · q p 3) = n · p · q Beweis. Zum Beweis der drei Aussagen verwenden wir eine clevere Idee, die auf Methoden der Analysis basiert. Dazu betrachten wir zunächst folgende Gleichung, die mitunter auch als binomischer Lehrsatz bezeichnet wird : n ✓ ◆ X n k n (1 + x) = x k k=0 Diese Zeile lässt sich z.B. mit Hilfe der Taylorentwicklung der links angegebenen Funktion leicht herleiten. Beide Seiten leiten wir nach x ab und erhalten : n ✓ ◆ X n n 1 n(1 + x) = kxk 1 k k=0 Jetzt setzen wir x = p q auf beiden Seiten ein : p n(1 + )n q 1 n ✓ ◆ ✓ ◆k X n p = k k q 1 k=0 Auf der linken Seite können wir die Tatsache p + q = 1 ausnutzen und erhalten : ✓ ◆n 1 p q p 1 1 n(1 + )n 1 = n( + )n 1 = n =n n 1 q q q q q 46 6 Zufallsgrößen Auf der rechten Seite lösen wir schlicht und einfach die Klammern auf : n ✓ ◆ ✓ ◆k 1 n ✓ ◆ X X n p n pk 1 k = k k q k qk 1 k=0 k=0 Also ergibt sich : n ✓ ◆ X n pk = k k qk n qn 1 1 1 k=0 Beide Seiten werden jetzt mit p · q n 1 multipliziert. Wir erhalten : ✓ ◆ k 1 X ✓ ◆ ✓ ◆ n n n X X n p n n k n n 1 n k k p·n= p·q · k k 1 = q · kp = k· p q k q k k k=0 k=0 k k=0 Die letzte Summe zeigt im hinteren Teil die bekannten Wahrscheinlichkeiten aus der Formel von Bernoulli. Multipliziert werden diese mit k, d.h. genau mit den Werten, die eine binomialverteilte Zufallsgröße annehmen kann. Diese Summe ist daher genau der Erwartungswert und es ergibt sich : n · p = E(X) : Um die zweite Aussage zu beweisen, leiten wir den binomischen Lehrsatz ( siehe oben ) zweimal ab n(n 1)(1 + x) n 2 = n ✓ ◆ X n k k=0 k(k 1)xk 2 Ähnlich wie beim ersten Beweis setzen wir erneut x = pq und erhalten : n ✓ ◆ X 1 n pk 2 n(n 1) n 2 = k(k 1) k 2 q k q k=0 Beide Seiten werden mit p2 q n 2 multipliziert : 2 p n(n 1) = n ✓ ◆ X n k=0 k 1)pk q n k(k k Die Summe auf der rechten Seite wird in zwei Teile aufgespalten : n ✓ ◆ n ✓ ◆ X n 2 k n k X n 2 p n(n 1) = k p q kpk q n k k k=0 k k=0 Genaues Betrachten der beiden Summen zeigt : p2 n(n 1) = E(X 2 ) Diese Zeile stellen wir um und erhalten : E(X 2 ) = p2 n(n wir jetzt schließlich die Varianz berechnen : V (X) = E(X 2 ) = np µ2 = p2 n(n p2 n = np(1 1) + np µ 1) + µ = p2 n(n n 2 p 2 = p2 n 2 1) + np. Damit können p2 n + np n 2 p2 p) = npq Die dritte Aussage ergibt sich dann durch einfaches Wurzelziehen aus der 2. Aussage. Beispiel. Die Polizei untersucht an einem Abend 1200 Fahrzeuge darauf, ob der Fahrer alkoholisiert ist oder nicht. Erfahrungsgemäß haben 3% der Fahrer die Promillegrenze überschritten. Diese Situation können wir mit X als binomialverteilter Zufallsgröße ( n = 1200, p = 0, 03) beschreiben. Dann ist hier : E(X) = µ = 1200 · 0, 03 = 36, d.h. die Polizei kann mit 36 Alkoholdelikten rechnen. Ferner ist p p = 1200 · 0, 03 · 0, 97 = 36 · 0, 97 = 5, 91 47 6 Zufallsgrößen 6.6 Abweichungen vom Mittelwert 48