Manfred Burghardt Allgemeine Hochschulreife in den Bereichen Erziehung und Soziales Version 2013/2014 Inhaltsverzeichnis I Inhaltsverzeichnis Inhaltsverzeichnis ................................................................................................................................. I 1 Was ist Wahrscheinlichkeit? ................................................................................................... 1 1.1 1.2 1.2.1 1.2.2 1.2.3 1.2.4 1.3 1.4 1.5 1.5.1 1.5.2 1.5.3 1.6 1.6.1 1.6.2 1.6.3 1.7 Würfelspiele mit Vorschulkindern .......................................................................................... 1 Modellierung von Zufallsexperimenten durch endliche Wahrscheinlichkeitsräume ............. 1 Zufallsexperimente .................................................................................................................. 1 Das empirische Gesetz der großen Zahlen .............................................................................. 1 Der Wahrscheinlichkeitsraum ................................................................................................. 2 Ereignisse und ihre Wahrscheinlichkeit .................................................................................. 4 Veranschaulichung von Ereignissen durch Venn-Diagramme ................................................ 6 Das Monty-Hall-Problem (Ziegenproblem) ............................................................................. 7 Mehrstufige Zufallsexperimente ............................................................................................. 9 Baumdiagramme ..................................................................................................................... 9 Die Pfadregel ......................................................................................................................... 10 Wie sicher ist ein positiver HIV-Test? .................................................................................... 11 Bedingte Wahrscheinlichkeit und Unabhängigkeit von Ereignissen ..................................... 13 Baumdiagramme auf der Basis von Ereignissen ................................................................... 13 Die bedingte Wahrscheinlichkeit .......................................................................................... 13 Stochastische Unabhängigkeit von Ereignissen .................................................................... 14 Übungen ................................................................................................................................ 15 2 Endliche Kombinatorik .......................................................................................................... 20 2.1 2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.3 2.4 Das Zählprinzip ...................................................................................................................... 20 Anwendungen des Zählprinzips ............................................................................................ 22 Die Anzahl aller Ereignisse..................................................................................................... 22 Anzahl der Ergebnisse bei mehrfacher Wiederholung eines Experiments ........................... 23 Anzahl von Permutationen .................................................................................................... 23 Anzahl von Kombinationen ................................................................................................... 26 Gewinnchancen beim Zahlenlotto 6 aus 49 .......................................................................... 27 Das Sekretärinnenproblem ................................................................................................... 30 Übungen ................................................................................................................................ 35 3 Zufallsvariablen ..................................................................................................................... 37 3.1 3.2 3.3 3.4 3.5 3.6 Ein Glücksspiel zur Finanzierung einer Rutschbahn .............................................................. 37 Definition ............................................................................................................................... 37 Erwartungswert und Varianz ................................................................................................. 39 Unabhängigkeit von Zufallsvariablen .................................................................................... 43 Lage der Werte relativ zum Erwartungswert ........................................................................ 45 Übungen ................................................................................................................................ 45 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten........................................................... 50 4.1 4.2 Neue Lehr-Lern-Methoden in der Kita .................................................................................. 50 Die Binomialverteilung .......................................................................................................... 50 Burghardt – RWB 2013/2014 Inhaltsverzeichnis II 4.2.1 4.2.2 4.2.3 4.2.4 4.3 4.3.1 4.3.2 4.3.3 4.4 4.5 4.6 Bernoulli-Experimente und Bernoulli-Variablen ................................................................... 50 Bernoulli-Ketten .................................................................................................................... 51 Die Binomialverteilung .......................................................................................................... 53 Die kumulierte Binomialverteilung ....................................................................................... 53 Näherungsformeln ................................................................................................................ 54 Poisson-Näherung ................................................................................................................. 54 Lokale Näherungsformel von Laplace ................................................................................... 55 Integrale Näherungsformel von Laplace ............................................................................... 57 Die resolute Minderheit ........................................................................................................ 59 Übungen ................................................................................................................................ 60 Anhang: Eine Herleitung der Poissonschen Näherungsformel ............................................. 63 5 Testen von Hypothesen ......................................................................................................... 65 5.1 5.2 5.3 5.4 5.4.1 5.4.2 5.4.3 5.4.4 5.5 5.6 5.7 Problem I: Neues Lernmaterial ............................................................................................. 65 Problem II: Orangen für die Kita............................................................................................ 65 Problem III: Bluthochdruck .................................................................................................... 65 Einseitige und zweiseitige Hypothesentests ......................................................................... 65 Wissenschaftstheoretische Grundsätze zum Testen von Hypothesen ................................. 66 Linksseitige Hypothesentests (Problem I) ............................................................................. 67 Rechtsseitige Hypothesentests (Problem II) ......................................................................... 70 Zweiseitige Hypothesentests (Problem III) ........................................................................... 73 Faustregeln für das Formulieren der Nullhypothese ............................................................ 75 Übungen ................................................................................................................................ 75 Anhang................................................................................................................................... 78 6 Tabelle der Gaußschen Integralfunktion ............................................................................... 80 7 Lösungen der Übungen ......................................................................................................... 82 7.1 7.2 7.3 7.4 7.5 Lösungen zu Kapitel 1 ............................................................................................................ 82 Lösungen zu Kapitel 2 ............................................................................................................ 96 Lösungen zu Kapitel 3 .......................................................................................................... 101 Lösungen zu Kapitel 4 .......................................................................................................... 113 Lösungen zu Kapitel 5 .......................................................................................................... 121 Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? 1 1 Was ist Wahrscheinlichkeit? 1.1 Würfelspiele mit Vorschulkindern Um Zahlen und einfaches Rechnen mit Kindern spielerisch zu üben, denken die Erzieherinnen und Erzieher in einer Kindertagesstätte über die folgenden einfachen Würfelspiele nach: Spiel 1. Ein Kind würfelt einmal und nennt dann die Zahl auf dem Würfel. Es bekommt ein Gummibärchen, wenn die Zahl stimmt. Hat es nur geraten? Spiel 2. Ein Kind würfelt einmal und gewinnt ein Gummibärchen, wenn die Augenzahl gerade ist. Spiel 3. Ein Kind würfelt zweimal und gewinnt ein Gummibärchen, wenn die Summe der beiden Augen 8 ist. Spiel 4. Ein Kind nennt eine Zahl, dann würfelt es zweimal. Es gewinnt ein Gummibärchen, wenn die Summe der geworfenen Augen der vorher genannten Zahl entspricht. 1.2 Modellierung von Zufallsexperimenten durch endliche Wahrscheinlichkeitsräume 1.2.1 Zufallsexperimente Aus vielen Bereichen den täglichen Lebens ist der Begriff des Experiments bekannt. Dies ist (im Wesentlichen) ein Vorgang, der (zumindest theoretisch) beliebig oft wiederholt werden kann. Jede einmalige Durchführung eines Experiments ist ein Versuch, der jeweils ein bestimmtes Ergebnis hat. Wir können zweierlei Arten von Experimenten unterscheiden. Bei deterministischen Experimenten kann das Ergebnis eines jeden Versuchs eindeutig aus den Bedingungen, unter denen der Versuch stattfindet, bestimmt werden. Wird in der Küche Wasser auf 100° erhitzt, verdampft es. Legt man Wassereis an einem warmen Tag auf den Tisch, schmilzt es. Lässt man ein ungekochtes Ei zu Boden fallen, zerbricht es. Egal, wie oft man es tut: Jeder Versuch endet mit demselben Ergebnis. Anders sieht es zum Beispiel bei Würfelspielen aus: Hier ist das Ergebnis eines Versuchs nicht aus den Versuchsbedingungen eindeutig vorherbestimmt: Eine Wiederholung des Versuchs kann – bei ansonsten unveränderten Versuchsbedingungen – zu einem völlig anderen Ergebnis führen. Solche Experimente heißen nicht-deterministische Experimente oder auch Zufallsexperimente. In der Wahrscheinlichkeitsrechnung geht es darum, Zufallsexperimente mathematisch zu modellieren und Informationen über das nicht eindeutig vorhersehbare Ergebnis der Versuche zu gewinnen. Wir beschränken uns hier auf endliche Zufallsexperimente: Das sind Zufallsexperimente, die nur endlich viele Ergebnisse haben können. Ein Beispiel hierfür sind die Würfelspiele der Kitagruppe. 1.2.2 Das empirische Gesetz der großen Zahlen Bei einem endlichen Zufallsexperiment kommt jede der möglichen Versuchsausgänge mit einer gewissen Wahrscheinlichkeit vor. Was ist hierunter zu verstehen? · Weil ein nicht gezinkter Würfel symmetrisch ist, wird man erwarten, dass jede Seite gleich oft oben liegt, wenn man den Würfel nur sehr häufig wirft: Die relative Häufigkeit Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? · · 2 Anzahl der Versuche, in dem ein bestimmtes Ergebnis auftritt Anzahl aller Versuche liegt für jeden der sechs möglichen Versuchsausgänge (ein, zwei, drei, vier, fünf oder sechs Augen liegen oben) bei ungefähr 1 6 . Man sagt deshalb: Die Wahrscheinlichkeit ist für jedes der sechs möglichen Ausgänge gleich 1 6 . Beim Werfen einer nicht gezinkten deutschen 1-Euro-Münze wird man erwarten, dass bei sehr häufigem Werfen der Münze in etwa der Hälfte der Fälle die Zahl und in der Hälfte der Fälle der Bundesadler oben liegt, die relative Häufigkeit für jedes der beiden Ergebnisse (Kopf liegt oben bzw. Bundesadler liegt oben)1 ist 1 2 . Man sagt deshalb: Die Wahrscheinlichkeit dafür, dass Zahl oder dass Bundesadler oben liegt, ist jeweils 1 2 . Wird eine Reißzwecke geworfen, landet sie entweder mit der Spitze nach oben (up) oder nach unten (down). Da die Reißzwecke nicht symmetrisch ist, kann man nicht davon ausgehen, dass beide Ergebnisse bei sehr häufigem Werfen einer Reißzwecke gleich oft vorkommen. In der Tat ist dies auch nicht der Fall: Indem man das Experiment sehr häufig wiederholt, findet man, dass in 56,52 % aller Fälle die Spitze nach oben und somit in 43,48 % der Fälle die Spitze nach unten zeigt.2 Man sagt deshalb: Die Wahrscheinlichkeit für das Ergebnis „up“ ist 0,5625 und die Wahrscheinlichkeit für das Ergebnis „down“ ist 0,4348. Dies halten wir in Form des Empirischen Gesetzes der großen Zahlen fest: Empirisches Gesetz der großen Zahlen. Wenn man ein endliches Zufallsexperiment sehr häufig wiederholt und nach jedem Versuch für jedes mögliche Ergebnis w die relative Häufigkeit berechnet, wie oft sich w ergab, dann stabilisieren sich die relativen Häufigkeiten schließlich auf einem festen Zahlenwert P ( w) : Anzahl der Versuche mit Ergebnis w » P ( w) . Anzahl aller Versuche w ist der griechische Buchstabe (klein-) Omega. Er und das große Omega W werden uns in der Wahrscheinlichkeitsrechnung of begegnen. Den im Kasten formulierten Sachverhalt nennt man Gesetz der großen Zahlen, da es nur bei einer großen Anzahl von Versuchen feststellbar ist. Es ist empirisch, weil es sich um eine Erfahrungstatsache handelt, die mathematisch nicht bewiesen werden kann. Das empirische Gesetz der großen Zahlen liefert die Möglichkeit, die Wahrscheinlichkeit der einzelnen Versuchsergebnisse festzulegen, ist an sich jedoch letztlich ein physikalischer Sachverhalt. 1.2.3 Der Wahrscheinlichkeitsraum Um den mathematischen Anteil eines Zufallsexperiments zu formulieren, müssen nur die möglichen Ergebnisse und die jeweiligen Wahrscheinlichkeiten angegeben werden. Formal fasst man dies unter dem Begriff Wahrscheinlichkeitsraum zusammen: Definition (Wahrscheinlichkeitsraum). Ein endlicher Wahrscheinlichkeitsraum wird gebildet aus: 1 Der Fall, dass die Münze auf der Seite zu liegen kommt, wird auch bei sehr häufigem Wiederholen des Versuchs nahezu nie auftreten. 2 Zahlenwerte entnommen aus M. Schäl, Wahrscheinlichkeitstheorie, S. 8, online abrufbar unter http://wiener.iam.unibonn.de/~schael/W-theori.pdf [Zugriff 18.08.2010] Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? 3 1. einer endlichen Menge W , die Ergebnisraum heißt. Die Elemente von W werden mit w1 , w2 , , wN bezeichnet und Ergebnisse genannt werden. 2. einer Funktion P : W ® , die jedem Ergebnis aus W eine reelle Zahl zuordnet, so dass gilt: · Für i = 1, ,,N N ist 0 £ P ( wi ) £ 1 . · P ( w1 ) + P ( w2 ) + + P ( wN ) = 1 Die Funktion P heißt Wahrscheinlichkeitsmaß. Beispiele. 1. Einmaliges Werfen eines nicht gezinkten Würfels kann mathematisch mit dem Ergebnisraum W = {1, 2, 3, 4, 5, 6} und dem durch P (1) = P (2) = P ( 3) = P ( 4 ) = P ( 5) = P ( 6 ) = 1 6 gegebenen Wahrscheinlichkeitsmaß beschrieben werden. Mit {1, 2, 3, 4, 5, 6} bezeichnen wir dabei die ungeordnete Liste3 der natürlichen Zahlen 1 bis 6. Ungeordnet bedeutet dabei, dass die Reihenfolge der Zahlen innerhalb der Liste ohne Bedeutung ist. 2. Einmaliges Werfen einer nicht gezinkten deutschen 1-Euro-Münze kann mathematisch mit dem Ergebnisraum W = {Zahl, Adler} und dem durch P ( Zahl) = P ( Adler ) = 0, 5 gegebenen Wahrscheinlichkeitsmaß beschrieben werden. Auch hier bezeichnet {Zahl, Adler} eine ungeordnete Liste, die diesmal aus den beiden Wörtern „Zahl“ und „Adler“ besteht. 3. Das einmalige Werfen einer Reißzwecke kann mathematisch mit dem Ergebnisraum W = {up, down} und dem durch P (up ) = 0, 5625 und P ( down) = 0, 4348 gegebenen Wahrscheinlichkeitsmaß beschrieben werden. Hier ist {up, down} die ungeordnete Liste, die aus den beiden Wörtern „up“ und „down“ besteht. In Beispiel 1 und 2 haben jeweils alle Ergebnisse die gleiche Wahrscheinlichkeit. Diese spezielle Situation hat einen speziellen Namen: Definition (Laplace-Annahme). · Die Annahme, dass alle Ergebnisse eines Zufallsexperiments die gleiche Wahrscheinlichkeit haben, nennt man Laplace-Annahme.4 · Zufallsexperimente, für die die Laplace-Annahme gilt, heißen Laplace-Experimente. Unter der Laplace-Annahme gilt für alle Ergebnisse w aus W 1 , P ( w) = #W wobei #W die Größe von W , also die Anzahl der möglichen Ergebnisse ist: Bezeichnen wir nämlich die gesuchte, wegen der Laplace-Annahme für alle Ergebnisse gleiche Wahrscheinlichkeit mit p , und sind w1 , w2 , wN alle Ergebnisse aus W , so gilt 3 Statt „ungeordnete Liste“ ist in der Mathematik auch die Bezeichnung (endliche) Menge üblich. benannt nach Pierre Simon de Laplace (geboren 28. März 1749, gestorben 5. März 1827), einem der Begründer der modernen Wahrscheinlichkeitsrechnung. 4 Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? 1 = = = also ist p = 1 N , wobei N 4 P ( w1 ) + P ( w2 ) + + P ( wN ) p+p+ +p N × p, die Anzahl der Ergebnisse aus W ist. 1.2.4 Ereignisse und ihre Wahrscheinlichkeit Oft ist es so, dass verschiedene Ergebnisse eines Zufallsexperiments zu einer bestimmten Situation führen, zum Beispiel zu einem Gewinn in einem Glücksspiels: So gewinnt ein Kind bei Spiel 2 ein Gummibärchen, wenn die Augenzahl gerade ist. Welches Ergebnis im Einzelnen vorliegt, ist unerheblich, es interessiert nur noch die von den Ergebnissen hervorgerufene Situation, das hervorgerufene Ereignis: Pierre Simon de Laplace Definition (Ereignis). · Jede Zusammenfassung von Ergebnissen aus dem Ergebnisraums heißt Ereignis. · Man sagt, dass bei einem Versuch das Ereignis A eintritt, wenn das Ergebnis des Versuchs zu A gehört. · Alle Ergebnisse, die nicht zu A gehören, bilden das Komplementärereignis zu A . Dieses wird mit A bezeichnet. Bei Spiel 2 wird das Ereignis „Das Kind gewinnt“ aus den Ergebnissen 2, 4 und 6 gebildet. Das Komplementärereignis „Das Kind gewinnt nicht“ besteht aus den Ereignissen 1, 3 und 5. Um die Wahrscheinlichkeit eines Ereignisses auszurechnen, addiert man die Wahrscheinlichkeiten der Ergebnisse, die zu diesem Ereignis gehören: Definition (Wahrscheinlichkeit von Ereignissen). Besteht das Ereignis A aus den Ergebnissen wk1 , wk2 , definiert als P ( A) = P ( wk1 ) + P ( wk2 ) + ( ) , wkn , so ist die Wahrscheinlichkeit von A + P wkn . Für das Rechnen mit Wahrscheinlichkeiten gelten die folgenden Regeln: Satz (Rechnen mit Wahrscheinlichkeiten). · Für jedes Ereignis A gilt 0 £ P ( A ) £ 1 . · P ( W ) = 1 und P ( Æ ) = 0 . Hierbei bezeichnet W das Ereignis, das aus allen Ergebnissen be- · steht und Æ das leere Ereignis, das kein Ergebnis beinhaltet. P ( A ) = 1 - P ( A) · Falls die Ereignisse A und B disjunkt sind – das bedeutet, dass sie nicht gemeinsam eintreten können, also kein Ergebnis zu beiden gehört –, gilt Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? 5 P ( A È B) = P ( A) + P (B) . · Hierbei ist A È B dasjenige Ereignis, das Eintritt, wenn das Ereignis A oder das Ereignis B eintritt. Für alle Ereignisse A und B gilt P ( A È B) = P ( A) + P ( B ) - P ( A Ç B ) . Hierbei ist A Ç B dasjenige Ereignis, das Eintritt, wenn das Ereignis A und das Ereignis B eintreten. Um die Wahrscheinlichkeit des Ereignisses A : „Das Kind gewinnt“ bei Spiel 2 zu berechnen, muss man die Wahrscheinlichkeit für die Ergebnisse, die zu diesem Ereignis gehören, addieren: 1 1 1 3 + + = 6 6 6 6 Man sieht: Die Wahrscheinlichkeit dieses Ereignisses bei diesem Zufallsexperiment erhält man, indem man die Anzahl der Ergebnisse, die zu A gehören, durch die Anzahl aller Ergebnisse teil. Dies ist unter der Laplace-Annahme immer der Fall: P ( A) = P (2) + P ( 4 ) + P ( 6 ) = Satz. Unter der Laplace-Annahme gilt für jedes Ereignis A : #A . P ( A) = #W Hierbei bezeichnet # A die Anzahl der Ergebnisse, die zu A gehören. Manchmal wird dies auch so ausgedrückt: Anzahl aller für A günstigen Ergebnisse P ( A) = Anzahl aller möglichen Ergebnisse Beispiel. Mit welcher Wahrscheinlichkeit gewinnt ein Kind bei Spiel 3 ein Gummibärchen? Zunächst stellen wir einen passenden Wahrscheinlichkeitsraum auf. Wir können jedes Ergebnis auffassen als eine geordnete Liste von zwei Zahlen, wobei die erste Zahl die Augenzahl des ersten Wurfes uns die zweite Zahl die Augenzahl des zweiten Wurfes angibt. Anders als bei ungeordneten Listen ist bei geordneten Listen die Reihenfolge der Objekte innerhalb der Liste von Bedeutung. Haben wir ungeordnete Listen mit geschweiften Klammern { } gekennzeichnet, wollen wir geordnete Listen mit runden Klammern ( ) kennzeichnen. Der Ergebnisraum W besteht deshalb aus den Ergebnissen ( 1 | 1 ) ( 1 | 2 ) ( 1 | 3 ) ( 1 | 4 ) (1 | 5 ) (1 | 6 ) (2 | 1) (2 | 2 ) (2 | 3) (2 | 4 ) (2 | 5) (2 | 6 ) ( 3 | 1) ( 3 | 2 ) ( 3 | 3) ( 3 | 4 ) ( 3 | 5 ) ( 3 | 6 ) ( 4 | 1) ( 4 | 2 ) ( 4 | 3) ( 4 | 4 ) ( 4 | 5) ( 4 | 6 ) ( 5 | 1) ( 5 | 2 ) ( 5 | 3) ( 5 | 4 ) ( 5 | 5 ) ( 5 | 6 ) ( 6 | 1) ( 6 | 2 ) ( 6 | 3) ( 6 | 4 ) ( 6 | 5) ( 6 | 6 ) Die Anzahl der möglichen Ergebnisse ist also # W = 36 . Zum Ereignis „Augensumme 8“ gehören nur die Ergebnisse (2 | 6 ) , ( 3 | 5) , ( 4 | 4 ) , ( 5 | 3) , ( 6 | 2 ) . Damit sind 5 Ergebnisse günstig für das Ereignis. Da wir die Laplace-Annahme gemacht haben, ergibt sich 5 P ( "Augensumme 8") = = 0, 138 . 36 Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? 6 Werfen wir noch einen Blick auf Spiel 4, bei dem ein Kind ein Gummibärchen gewinnt, wenn die Augensumme mit einer zuvor getippten Zahl übereinstimmt. Welche Zahl sollte es nennen, damit es eine möglichst große Chance hat, das Gummibärchen zu gewinnen? Wenn man den oben angegebenen Wahrscheinlichkeitsraum betrachtet, sieht man, dass die Augensumme, die am meisten vorkommt, die Zahl 7 ist. Sie kommt 6 mal vor. Das Ereignis „Augensumme 7“ hat deshalb die höchste Laplace-Wahrscheinlichkeit: 6 1 P ( "Augensumme 7") = = = 0, 16 . 36 6 Das Kind hat somit die größte Gewinnwahrscheinlichkeit, wenn es auf die 7 tippt. 1.3 Veranschaulichung von Ereignissen durch Venn-Diagramme Um Beziehungen zwischen Ereignissen darstellen zu können, verwendet man oft Diagramme, bei denen die Ereignisse durch Flächen geometrischer Figuren – meist Kreisen, Ellipsen oder Rechtecke – dargestellt werden. Solche Diagramme heißen Venn-Diagramme, benannt nach dem englischen Mathematiker John Venn (geboren 4. August 1834, gestorben 4. April 1923). Indem man die Flächen der Figuren mit ihren Flächeninhalten identifiziert, kann man an Venn-Diagrammen allgemeingültige Gesetz zum Rechnen mit Ereignissen veranschaulichen und herleiten. Wir veranschaulichen mit Venn-Diagrammen die Regeln für das Rechnen mit Wahrscheinlichkeiten. P ( A ) = 1 - P ( A) : John Venn A entspricht der schraffierten Fläche außerhalb A . Die Größe der Fläche von A erhält man, indem man von der Größe der Gesamtfläche – im Rahmen der Wahrscheinlichkeitsrechnung ist dies 1 – die Größe der Fläche von A abzieht. P ( A È B ) = P ( A ) + P ( B ) , falls A und B disjunkt sind: A È B ist die Gesamtheit der beiden schraffierten Flächen. Die Größe der Fläche A È B erhält man, indem man die Größe der Fläche von A und die Größe der Fläche von B addiert. Die Disjunktheit von A und B drückt sich im Venn-Diagramm dadurch aus, dass sich A und B nicht überlappen. Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? 7 P ( A È B) = P ( A) + P ( B ) - P ( A Ç B ) : A È B ist die Gesamtheit der gepunkteten und der beiden schraffierten Flächen, A Ç B ist die gepunktete Fläche. Die Größe der Fläche A È B erhält man, indem man die Größe der Fläche von A und die Größe der Fläche von B addiert und dann einmal die Größe der Fläche von A Ç B abzieht, da diese Fläche sowohl in A als auch in B enthalten ist. 1.4 Das Monty-Hall-Problem (Ziegenproblem) Im deutschen Fernsehen lief von 1992 bis 1997 und später von 1999 bis 2003 auf verschiedenen Kanälen die Spielshow Geh aufs Ganze!, die hauptsächlich von Jörg Draeger und zwischenzeitlich von Elmar Hörig moderiert wurde. In der Grundform bestand eine Runde des Spiels darin, einem Kandidaten aus dem Publikum drei Tore vorzustellen. Für den Kandidaten unsichtbar befand sich hinter einem der drei Tore ein wertvoller Gewinn, hinter den beiden anderen befand sich jeweils eine Niete – der Zonk – in Form einer rot-schwarzen Stoffmaus. Zonk Die Show basiert auf der US-amerikanischen Spielshow Let's Make a Deal, die von 1963 bis 1976 im US-amerikanischen Fernsehen lief und von dem Kanadier Monty Hall moderiert wurde. Auch hier wurden dem Kandidaten drei Tore vorgestellt, wobei sich – wieder für den Kandidaten unsichtbar – hinter einem Tor ein Gewinn verbarg während sich hinter den beiden anderen Toren Nieten befanden, in diesem Fall in Form einer Ziege. In einem Leserbrief an Marilyn vos Savants „Ask Marilyn“-Kolumne in der amerikanische Wochenzeitschrift Parade überlegte Craig F. Whitaker aus Columbia, Maryland, folgendes: Nachdem der Kandidat ein Tor ausgewählt hat, öffnet Monty Hall eines der beiden anderen Tore, und zwar eines, hinter dem sich eine Ziege befindet. (Im Gegensatz zum Kandidaten ist Monty Hall natürlich genau darüber inforMarilyn vos Savant miert, hinter welchem Tor sich der Gewinn beMonty Hall findet.) Dem Kandidaten wird angeboten, seine ursprüngliche Wahl nochmals zu überdenken und von dem bislang ausgewählten Tor zu dem noch nicht geöffneten anderen Tor zu wechseln. Craig F. Whitaker fragte Marilyn vos Savant – zeitweise laut Guinness Buch der Rekorde der Mensch mit dem höchsten Intelligenzquotienten –, ob der Kandidat durch Wechseln seine Gewinnchance erhöhen kann. Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? 8 Marilyn vos Savant bejahte dies! Damit löste sie damit unter den Lesern von Parade einen Sturm der Entrüstung aus.5 Jedoch: Sie hat Recht, wie wir uns jetzt überlegen wollen. Da das Tor, hinter dem sich der Gewinn befindet, zufällig ausgesucht wird, wobei kein Tor eine größere Wahrscheinlichkeit hat, das Gewinntor zu sein, als jedes der beiden anderen, ist die Wahrscheinlichkeit, einen Gewinn hinter einem ausgewählten Tor zu finden, 1 3 : Situation Gewinn hinter dem ausgewählten Tor Ziege hinter dem ausgewählten Tor Wahrscheinlichkeit 1 3 1 2 1- = 3 3 In welchen Fällen gewinnt der Kandidat, wenn er nicht wechselt? Er gewinnt natürlich nur dann, wenn sich hinter dem ausgewählten Tor der Gewinn befindet. Mit der Tabelle über die Wahrscheinlichkeiten für die verschiedenen Situationen finden wir deshalb: Ohne wechseln: Situation Kandidat gewinnt Gewinn hinter dem ausgewählten Tor Kandidat verliert Ziege hinter dem ausgewählten Tor Wahrscheinlichkeit 1 3 2 3 Wie sieht es in dem Fall aus, wenn der Kandidat wechselt? Wenn der Kandidat zum Beispiel Tor 1 auswählt, gewinnt er, wenn sich hinter Tor 1 eine Ziege befindet! Denn dann befindet sich hinter den verbleibenden Toren 2 und 3 jeweils einmal eine Ziege und einmal ein Gewinn. Da Monty Hall nicht das Tor mit dem Gewinn öffnet, hat er das Tor mit der Ziege geöffnet. Das Tor mit dem Gewinn bleibt geschlossen. Wechselt der Kandidat also zu diesem geschlossene Tor, gewinnt er!. Befindet sich aber andererseits hinter Tor 1 der Gewinn, verliert der Kandidat durch wechseln, da er dann auf jeden Fall zu einem Tor mit Ziege wechseln muss. Wir halten fest: Mit wechseln: Situation Kandidat verliert Gewinn hinter dem ausgewählten Tor Kandidat gewinnt Ziege hinter dem ausgewählten Tor Wahrscheinlichkeit 1 3 2 3 Ergebnis: Durch Wechseln verdoppelt der Kandidat seine Gewinnwahrscheinlichkeit von 1 3 auf 2 3 . Er gewinnt nämlich durch Wechseln genau in den Situationen, in denen er ohne Wechseln verlöre! 5 Ein Teil der teilweise sogar böswilligen Leserbriefe, die Marily von Savant zu diesem Thema bekommen hat, findet man im Internet auf http://marilynvossavant.com/game-show-problem/ Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? 1.5 9 Mehrstufige Zufallsexperimente Der Ablauf in Monty Halls Show entspricht einem Zufallsexperiment, das in zwei Stufen durchgeführt wird: In Stufe 1 entscheidet der Kandidat sich für eines der drei Tore und trifft dabei mit einer gewissen Wahrscheinlichkeit die für ihn günstige Wahl (Gewinn hinter dem Tor) und mit einer gewissen Wahrscheinlichkeit die für ihn ungünstige Wahl (Ziege hinter dem Tor). In Stufe 2 entscheidet er sich nach dem Öffnen eines Tores durch Monty Hall erneut und trifft wieder eine für ihn günstige oder ungünstige Wahl. 1.5.1 Baumdiagramme Die Ergebnisse im Monty-Hall-Problem können wir übersichtlich in einem Baumdiagramm darstellen, siehe rechts. Dabei bedeutet G, dass ein Tor mit einem Gewinn, und Z, dass ein Tor mit einer Ziege ausgewählt wurde. G Z Z G G Z Die Wahrscheinlichkeiten in der zweiten Stufe des Experiments hängen jeweils davon ab, ob der Kandidat wechselt oder nicht wechselt, und welche Wahl er in der ersten Stufe getroffen hat. Die Wahrscheinlichkeiten für die möglichen Ausgänge der nächsten Stufe schreiben wir jeweils an den Pfad, der zu diesem Ausgang führt. Zum Beispiel ist die Wahrscheinlichkeit, in der ersten Stufe ein Tor mit Gewinn zu wählen 1 3 , die Wahrscheinlichkeit, ein Tor mit Ziege zu wählen, 2 3 . Wenn der Kandidat nicht wechselt, sehen die Wahrscheinlichkeiten für die Wahlen in der zweiten Stufe wie folgt aus: Wurde in der ersten Stufe ein Tor mit einem Gewinn gewählt, hat in der zweiten Stufe die Wahrscheinlichkeit für G den Wert 1 und für Z den Wert 0 . Wurde dagegen in der ersten Stufe ein Tor mit einer Ziege gewählt, hat in der zweiten Stufe die Wahrscheinlichkeit für G den Wert 0 und für Z den Wert 1 . Burghardt – RWB 2013/2014 G Z Z G G G G Z Z Z G Z 1 Was ist Wahrscheinlichkeit? 10 Wenn dagegen der Kandidat wechselt, sehen die Wahrscheinlichkeiten in der zweiten Stufe ganz anders aus. Wurde in der ersten Stufe ein Tor mit einem Gewinn ausgewählt, bleibt nach dem Öffnen eines weiteren Tors durch Monty Hall als drittes Tor nur noch ein Tor mit einer Ziege übrig. Wechseln bedeutet hier also sicher, ein Tor mit einer Ziege auszuwählen. Die Wahrscheinlichkeit für G ist also 0 und die Wahrscheinlichkeit für Z ist 1 . Wurde dagegen in der ersten Stufe ein Tor mit einer Ziege ausgewählt, bleibt nach dem Öffnen eines weiteren Tors von Monty Hall als drittes Tor nur noch das Tor mit dem Gewinn übrig. Wechseln bedeutet hier also sicherer Gewinn. Die Wahrscheinlichkeit für G ist also 1 und die Wahrscheinlichkeit für Z ist 0. G Z Z G G G G Z Z Z G Z Aus einem Baumdiagramm lassen sich mithilfe der Pfadregel leicht die Wahrscheinlichkeiten für alle möglichen Ergebnisse eines mehrstufigen Zufallsexperiments bestimmen. 1.5.2 Die Pfadregel Satz. (1) Wahrscheinlichkeiten von Ergebnissen (Pfadregel). Die Wahrscheinlichkeit eines Ergebnisses eines mehrstufigen Zufallsexperiments erhält man durch Multiplizieren der Wahrscheinlichkeiten entlang des Pfades, der zu diesem Ergebnis führt. (2) Wahrscheinlichkeiten von Ereignissen. Die Wahrscheinlichkeit eines Ereignisses bei einem mehrstufigen Zufallsexperiment erhält man durch Addition der Wahrscheinlichkeiten aller Pfade, die zu diesem Ereignis gehören.6 Wir tragen die Wahrscheinlichkeiten für die einzelnen Pfade in die Baumdiagramme ein, indem wir die Wahrscheinlichkeiten an jedem Pfad multiplizieren. 6 Diese zweite Aussage ist nichts anderes als die bekannte Festlegung, dass die Wahrscheinlichkeit eines Ereignisses die Summe der Wahrscheinlichkeiten der Ergebnisse ist, die zu diesem Ereignis gehören. Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? Wenn der Kandidat nicht wechselt, ergeben sich für die Pfade die im rechts stehenden Baumdiagramm eingezeichneten Wahrscheinlichkeiten. Ein Kandidat gewinnt die Spielrunde, wenn in der zweiten Stufe des Zufallsexperiments ein G erscheint. Die entsprechenden Pfade haben die Wahrscheinlichkeiten 1 3 und 0 . Die Wahrscheinlichkeit für einen Gewinn beträgt also 1 3 +0 = 1 3 . Die Wahrscheinlichkeiten, die sich ergeben, wenn der Kandidat wechselt, tragen wir im folgenden Baumdiagramm ein. Da ein Kandidat die Spielrunde gewinnt, wenn in der zweiten Stufe des Zufallsexperiments ein G erscheint, und die entsprechenden Pfade die Wahrscheinlichkeiten 0 und 2 3 haben, beträgt die Wahrscheinlichkeit für einen Gewinn also 0 + 2 3 = 2 3 . 11 G Z Z G G G G Z Z Z G Z 1.5.3 Wie sicher ist ein positiver HIV-Test? In der Presse wird immer wieder darauf hingewiesen, wie „sicher“ moderne HIV-Tests sind. Die Sicherheit eines Tests wird durch zwei Gesichtspunkte charakterisiert: · Zunächst soll ein HIV-Test gewährleisten, dass möglichste viele, die tatsächlich infiziert sind, durch den Test auch als infiziert erkannt werden. Man sagt, der Test soll eine möglichst große Sensitivität haben. · Andererseits soll vermieden werden, dass Nichtinfizierte fälschlicherweise ein positives Testergebnis bekommen: Wenn eine Blutprobe keine HI-Viren oder HIV-Antikörper enthält, sollte der Test mit großer Wahrscheinlichkeit auch ein negatives Testergebnis liefern. Die entsprechende Wahrscheinlichkeit heißt Spezifität. Für heute verwendete HIV-Tests liegen die Sensitivität bei etwa 0,999 und die Spezifität bei etwa 0,9999. Bedeutet dies, dass ein positives Testergebnis mit „an Sicherheit grenzender Wahrscheinlichkeit“ bedeutet, dass die Person infiziert ist? Um diese Frage zu beantworten, nehmen wir an, in der Gruppe der erwachsenen Deutschen, die keiner Risikogruppe angehören, ist eine von 10.000 Personen mit dem HI-Virus infiziert. Dies entspricht einer Infiziertenrate von 0,01 % oder 0,0001. Wir modellieren nun einen HIV-Test in Form eines zweistufigen Zufallsexperiments. Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? In der erste Stufe des Experiments sind die Ausgänge „tatsächliche infiziert“ (TI) bzw. „tatsächlich nicht infiziert“ (TNI) möglich. In der zweiten Stufe sind die Ausgänge „positives Testergebnis“ (P) bzw. „negatives Testergebnis“ (N) möglich. Zusammen mit den genannten Wahrscheinlichkeiten ergibt sich das nebenstehende Baumdiagramm, in das die mit der Pfadregel gewonnenen Wahrscheinlichkeiten für die Pfade ebenfalls eingetragen sind. 12 0,9999 0,0001 TI 0,999 P 0,0000999 TNI 0,001 0,0001 N 0,9999 P 0,0000001 1 0,00009999 N 0,99980001 Daraus ergeben sich die folgenden Wahrscheinlichkeiten: · P ('positives Testergebnis') = 0, 0000999 + 0, 00009999 = 0, 00019989 also rund 0,02 %. · P ('negatives Testergebnis') = 0, 0000001 + 0, 99980001 = 0, 99980011 , also rund 99,98 %. Dies bedeutet: Wird eine große Anzahl N Personen getestet, werden rund 0, 00019989 × N ein positives und rund 0, 99980011 × N ein negatives Testergebnis bekommen. Um die Wahrscheinlichkeit zu bestimmen, dass eine positiv getestete Person auch tatsächlich infiziert ist, müssen wir nach Laplace die Anzahl der für das Ereignis günstigen Fälle – das ist hier die Anzahl aller positiv Getesteten und tatsächlich Infizierten – , durch die Anzahl aller möglichen Fälle – das ist hier die Anzahl aller positiv Getesteten – dividieren. Die Wahrscheinlichkeit, dass eine Person positiv getestet und infiziert ist, ergibt sich aus dem linksten Ast im Baumdiagramm zu 0,0000999. Bei N getesteten Personen werden also rund 0, 0000999 × N zu dieser Gruppe gehören. Damit ergibt sich für die gesuchte Laplace-Wahrscheinlichkeit P ( 'eine positiv geteste Person ist tatsächlich infiziert') = 0, 0000999 × N 0, 0000999 = = 0, 4998 0, 00019989 × N 0, 00019989 In der vorliegenden Situation ist also weniger als 50 % der Fälle ein positives Testresultat richtig! Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? 1.6 13 Bedingte Wahrscheinlichkeit und Unabhängigkeit von Ereignissen 1.6.1 Baumdiagramme auf der Basis von Ereignissen Oft interessieren bei Zufallsexperimenten nicht die einzelnen Ergebnisse sondern gewisse Ereignisse, also Zusammenfassungen von Ergebnissen. Betrachtet man für ein zweistufiges Zufallsexperiment ein Ereignis A für die erste Stufe des Experiments und ein Ereignis B für die zweite Stufe des Experiments, kann man auch dies in einem Baumdiagramm darstellen, sofern die Wahrscheinlichkeiten in der zweiten Stufe nicht von den Ergebnissen sondern höchstens vom Ereignis A und seinem Gegenereignis A abhängen. Wie für den Fall, dass die Knoten des Baumes Ergebnisse sind, gilt auch hier eine entsprechende Pfadregel: Satz. (1) Die Wahrscheinlichkeit, dass alle Ereignisse eines Pfades eintreten, erhält man durch Multiplizieren der Wahrscheinlichkeiten entlang dieses Pfades. (Pfadregel) (2) Die Wahrscheinlichkeit des Eintretens eines Ereignisses der letzten Stufe erhält man durch Addition der Wahrscheinlichkeiten aller Pfade, die zu diesem Ereignis führen. Wir erhalten durch Multiplikation der Wahrscheinlichkeiten entlang der Pfade also die Wahrscheinlichkeiten für die Ereignisse A Ç B , A Ç B , A Ç B und A Ç B . Die Wahrscheinlichkeiten an den Pfaden in der ersten Stufe sind natürlich P ( A ) sowie P ( A) . 1.6.2 Die bedingte Wahrscheinlichkeit Die Wahrscheinlichkeiten an den Pfaden in der zweiten Stufe sind nicht zwingend P ( B ) bzw. P ( B ) : Die Wahrscheinlichkeit für das Eintreten eines Ereignisses in der zweiten Stufe kann davon abhängen, welches Ereignis in der ersten Stufe eingetreten ist. Diese Abhängigkeit wird – wie im Baumdiagramm rechts – durch Angabe des im vorherigen Schritt eingetretenen Ereignisses als Index gekennzeichnet. Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? 14 Definition. PA ( B ) bezeichnet die Wahrscheinlichkeit, dass B eintritt unter der Voraussetzung, dass A bereits eingetreten ist. PA ( B ) ist die durch A bedingte Wahrscheinlichkeit von B . Nach der Pfadregel gilt P ( A Ç B ) = P ( A) × PA ( B ) . Indem man hier durch P ( A ) teilt, erhält man: Satz (Berechnung der bedingten Wahrscheinlichkeit). Im Fall P ( A ) ¹ 0 gilt PA ( B ) = P ( A Ç B) . P ( A) 1.6.3 Stochastische Unabhängigkeit von Ereignissen Im speziellen Fall, dass die Wahrscheinlichkeit für das Eintreten eines Ereignisses B in der zweiten Stufe nicht davon abhängt, ob in der ersten Stufe A eingetreten ist oder nicht, gilt PA ( B ) = PA ( B ) . In diesem Fall sind dann die drei Wahrscheinlichkeiten PA ( B ) , PA ( B ) und P ( B ) alle gleich, und die Ereignisse A und B sind aus dem Blickwinkel der der Wahrscheinlichkeitsrechnung (der Stochastik) unabhängig. Nach der Formel für die Berechnung der bedingten Wahrscheinlichkeit bedeutet PA ( B ) = P ( B ) P ( A Ç B) Û P ( A Ç B) = P ( A) × P (B) , P ( A) und diese letzte Identität wird meist untersucht, wenn „stochastische“ Unabhängigkeit überprüft werden soll. Wir fassen dies nochmal zusammen: P (B) = Definition (stochastische Unabhängigkeit von Ereignissen). Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn PA ( B ) = PA ( B ) und damit PA ( B ) = PA ( B ) = P ( B ) ist. Das Bestehen stochastischer Unabhängigkeit P ( A Ç B ) = P ( A) × P ( B ) überprüft wird. wird meist untersucht, indem die Identität Wir untersuchen das folgende Beispiel: Für die 100 Kinder, die die städtischen Kindertagesstätten einer Gemeinde besuchen, wurden für statistische Zwecke neben dem Geschlecht auch festgehalten, ob ein Migrationshintergrund besteht oder nicht. Die dabei gefundenen Werte gibt die folgende Tabelle wieder: mit Migrationshintergrund ohne Migrationshintergrund Summe Burghardt – RWB 2013/2014 weiblich 18 27 45 männlich Summe 22 40 33 60 55 100 1 Was ist Wahrscheinlichkeit? 15 Wenn wir mit A das Ereignis ‚Das Kind ist männlich‘ und mit B das Ereignis ‚Das Kind hat Migrationshintergrund‘ bezeichnen, ergeben sich direkt aus der Tabelle die Wahrscheinlichkeiten im rechts stehenden Baumdiagramm. Wir sehen sofort, dass die Ereignisse A und B stochastisch unabhängig sind, da PA ( B) = 22 55 = 0, 4 = 18 45 = PA ( B ) gilt. Wir untersuchen zusätzlich, ob die Gleichung P ( A Ç B ) = P ( A) × P ( B ) besteht: 55 22 × = 0, 22 . 100 55 · Einerseits gilt nach der Pfadregel P ( A Ç B ) = · Andererseits gilt nach der Pfadregel: P ( B ) = P ( A Ç B ) + P ( A Ç B ) = 0, 22 + dass P ( B ) × P ( B ) = 0, 55 × 0, 4 = 0, 22 ist. 45 18 × = 0, 4 , so100 45 Die beiden Wahrscheinlichkeiten stimmen also überein. In den untersuchten Kindertagesstätten sind das Geschlecht und das Bestehen eines Migrationshintergrundes stochastisch unabhängig. 1.7 Übungen 1.7.1 Aus den Zahlen 1, 2, 3, 4, 5 wird zufällig eine Zahl ausgewählt. Aus den verbleibenden Zahlen wird dann nochmals eine Zahl zufällig ausgewählt. Bestimmen Sie einen geeigneten Ergebnisraum. 1.7.2 In allen Familien der Bundesrepublik Deutschland mit 4 Kindern sollen die Geschlechter der Kinder a) in beliebiger Reihenfolge b) nach dem Alter geordnet registriert werden. Legen Sie zwei geeignete Ergebnisräume fest. 1.7.3 Eine Lostrommel enthält drei Kugeln, die jeweils die Nummern 1, 2 bzw. 3 tragen. Die Kugeln lassen sich ansonsten nicht unterscheiden. Zwei Kugeln werden zufällig gezogen und zwar a) gleichzeitig, b) nacheinander, ohne dass die zuerst gezogene Kugel zurückgelegt wird, c) nacheinander, wobei man die zuerst gezogene Kugel zurücklegt. Konstruieren Sie jeweils geeignete Ergebnisräume. 1.7.4 Eine Urne enthält zwei weiße und drei schwarze Kugeln. Es werden drei Kugeln zufällig herausgegriffen und zwar a) gleichzeitig, b) nacheinander, ohne dass die jeweils gezogene Kugel zurückzulegen, c) nacheinander, wobei man die jeweils gezogene Kugel wieder zurück legt. Legen Sie jeweils geeignete Ergebnisräume fest. Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? 16 1.7.5 Eine Urne A enthält zwei weiße und zwei schwarze Kugeln. Eine Urne B enthält drei schwarze und eine weiße Kugeln. Die Kugeln unterscheiden sich bis auf die Farbe nicht. Geben Sie für die folgenden Zufallsexperimente geeignete Ergebnisräume an: a) Zuerst wird eine Urne, dann eine Kugel aus dieser Urne ausgewählt. b) Es wird zuerst eine Urne, dann werden zwei Kugeln der Reihe nach aus dieser Urne ausgewählt, ohne die gezogene Kugel zurück zu legen. c) Es wird zuerst eine Urne, dann werden drei Kugeln der Reihe nach aus dieser Urne ausgewählt, ohne die jeweils gezogene Kugel zurück zu legen. 1.7.6 Eine Urne enthält vier gleichartige Kugeln mit den Nummern 1, 2, 3, 4 . Es werden zuerst zwei Kugeln gleichzeitig gezogen. Danach werden diese zwei Kugeln in den Urneninhalt zurückgemischt, ehe eine dritte Kugel gezogen wird. Legen Sie einen geeigneten Ergebnisraum fest. 1.7.7 Im Damentennis ist es in der Regel so, dass Matches nach der Regel „Best of 3“ ausgetragen werden: Es gewinnt diejenige Spielerin, die zuerst zwei Sätze gewonnen hat. Geben Sie hierfür einen geeigneten Ergebnisraum an. 1.7.8 Ein Würfel wird so lange geworfen, bis zum ersten Mal 6 erscheint, höchstens jedoch 6-mal. Beschreiben Sie einen geeigneten Ergebnisraum. 1.7.9 Ein Würfel wird zweimal geworfen. Geben Sie aus einem geeignet bestimmten Ergebnisraum jeweils alle Ergebnisse an, die die folgenden Ereignisse bilden. a) „Augensumme 10“ b) „Augensumme £ 5 “ c) „Augensumme gerade“ d) „Augensumme 7 oder 10“ e) „Augenzahl beim ersten Wurf gerade und beim zweiten Wurf ungerade“ f) „Augenzahl beim zweiten Wurf um mindestens eins aber höchstens zwei größer als Augenzahl beim ersten Wurf“ 1.7.10 Eine deutsche 1-€-Münze wird viermal hintereinander geworfen. Geben Sie aus einem geeignet konstruierten Ergebnisraum jeweils die Ergebnisse an, die die folgenden Ereignisse bilden. a) „Adler erscheint erst im dritten Wurf“ b) „Zahl erscheint genau zweimal“ c) „Zahl erscheint höchstens zweimal“ d) „Zahl erscheint mindestens zweimal“ 1.7.11 A, B, C seien drei Ereignisse über einem Ergebnisraum W . Drücken Sie die folgenden umgangssprachlichen Aussagen über die drei Ereignisse mithilfe der Symbole Ç , È und A, B, C aus und kennzeichnen Sie die Ereignisse in Venn-Diagrammen. a) Alle drei Ereignisse treten ein. b) Keines der drei Ereignisse tritt ein. c) Genau eines der drei Ereignisse tritt ein. d) Mindestens eines der drei Ereignisse tritt ein. e) Höchstens eines der drei Ereignisse tritt ein. f) Genau zwei der drei Ereignisse treten ein. g) Mindestens zwei der drei Ereignisse treten ein. h) Höchstens zwei der drei Ereignisse treten ein. Burghardt – RWB 2013/2014 sowie 1 Was ist Wahrscheinlichkeit? i) j) 17 Von den drei Ereignissen treten nur B und C ein. Von den drei Ereignissen tritt nur B ein. 1.7.12 Beweisen Sie durch zurückgehen auf die Definition die folgenden Regel für das Rechnen mit Wahrscheinlichkeiten und veranschaulichen Sie die Regeln in Venn-Diagrammen, sofern dies noch nicht im Lehrtext geschehen ist. a) P ( W ) = 1 und P ( Æ ) = 0 b) Für jedes Ereignis A gilt 0 £ P ( A ) £ 1 c) P ( A ) = 1 - P ( A) d) Für alle Ereignisse A und B gilt P ( A È B) = P ( A) + P ( B ) - P ( A Ç B ) . e) Falls die Ereignisse A und B disjunkt sind, gilt P ( A È B ) = P ( A ) + P ( B ) . f) Für alle Ereignisse A und B gilt P ( A Ç B ) £ P ( A) £ P ( A È B ) . g) Aus P ( A ) = P ( B ) = 1 folgt P ( A Ç B ) = 1 1.7.13 Bei einem gezinkten Würfel erscheinen Augenzahl fünf und sechs jeweils mit der Wahrscheinlichkeit 0, 2 . Alle anderen Augenzahlen kommen mit gleicher Wahrscheinlichkeit vor. Geben Sie über dem Ergebnisraum W = {1, 2, 3, 4, 5, 6} ein geeignetes Wahrscheinlichkeitsmaß P an, das diese Situation modelliert, und berechnen Sie dann die Wahrscheinlichkeiten der folgenden Ereignisse: a) „Augenzahl eins oder sechs“ b) „Augenzahl zwei, fünf oder sechs“ c) „gerade Augenzahl“ d) „Augenzahl ist durch drei teilbar“ 1.7.14 Ein nicht gezinkter Würfel (manchmal auch „Laplace-Würfel“ genannt) wird zweimal geworfen. Berechnen Sie die Wahrscheinlichkeiten der folgenden Ereignisse: a) „Zwei gleiche Augenzahlen“ b) „Zwei verschiedene Augenzahlen“ c) „Genau ein Wurf ergibt Augenzahl 2“ d) „Mindestens ein Wurf ergibt Augenzahl 2“ e) „Höchstens ein Wurf ergibt Augenzahl 2“ f) „Erster und zweiter Wurf ergibt Augenzahl 6“ g) „Augenzahl des ersten Wurfes ist mindestens 4 und Augenzahl des zweiten Wurfes ist kleiner als 3“ h) „Augensumme ist gerade oder durch drei teilbar“ i) „Augensumme ist gerade und durch drei teilbar“ 1.7.15 Eine deutsche 1-€-Münze wird viermal geworfen. Berechnen Sie die Wahrscheinlichkeiten der folgenden Ereignisse: a) „Mindestens einmal Zahl“ b) „Genau einmal Zahl“ c) „Beim zweiten Wurf Zahl“ d) „Beim zweiten oder dritten Wurf Zahl“ e) „Nicht mehr als einmal Zahl“ f) „Sowohl Zahl als auch Adler kommen mindestens einmal vor“ Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? 18 1.7.16 Ein Laplace-Würfel wird dreimal geworfen. Berechnen Sie die Wahrscheinlichkeiten der folgenden Ereignisse: a) „Dreimal Augenzahl 6“ b) „Drei gleiche Augenzahlen“ c) „Genau zweimal Augenzahl 1“ d) „Genau zweimal gleiche Augenzahl“ e) „Drei verschiedene Augenzahlen“ f) „Erster und dritter Wurf ergibt Augenzahl 4“ g) „Die Augenzahlen steigen von Wurf zu Wurf um jeweils 1 an“ h) „Augensumme ist 4“ i) „Augensumme ist 5“ 1.7.17 Eine Urne enthält 4 rote und 3 schwarze Kugeln sowie 1 grüne Kugel. Die Kugeln unterscheiden sich nur durch die Farbe. Es wird zweimal hintereinander blind jeweils eine Kugel gezogen. Die gezogene Kugel wird nicht in die Urne zurückgemischt. a) Modellieren Sie die Situation als zweistufiges Zufallsexperiment mithilfe eines Baumdiagramms. b) Berechnen Sie die Wahrscheinlichkeit für jedes Ergebnis des Experiments. c) Berechnen Sie die Wahrscheinlichkeiten für die Ereignisse · „Alle Kugeln sind rot“ · „Alle Kugeln haben die gleiche Farbe“ · „Alle Kugeln haben unterschiedliche Farben“ · „Die grüne Kugel wurde gezogen“. 1.7.18 In einer Klasse des Beruflichen Gymnasiums haben 4 von 25 Schülerinnen und Schülern die Hausaufgaben in Mathematik nicht gemacht. Der Mathematiklehrer kontrolliert nacheinander drei zufällig ausgewählte Schülerinnen und Schüler der Klasse. a) Modellieren Sie die Situation als dreistufiges Zufallsexperiment mithilfe eines Baumdiagramms. b) Berechnen Sie die Wahrscheinlichkeit für jeden Pfad des Baums. c) Berechnen Sie die Wahrscheinlichkeiten für die Ereignisse · „Genau einer der Kontrollierten hat die Hausaufgaben nicht“ · „Nur der zuletzt Kontrollierte hat die Hausaufgaben nicht“ · „Alle Kontrollierten haben die Hausaufgaben“ · „Keiner der Kontrollierten hat die Hausaufgaben“ · „Mindestens einer der Kontrollierten hat die Hausaufgaben nicht“. 1.7.19 Julia arbeitet bei einem Pizzabringdienst. Ihrer Erfahrung nach sind die Kunden nur dann zufrieden, wenn der bestellte Belag vollständig auf der Pizza, die Pizza nicht angebrannt und die Lieferung innerhalb von 25 Minuten bei ihnen ist. Erfahrungsgemäß ist in 3 % der Fälle der Belag nicht vollständig, ist die Pizza in 8 % der Fälle angebrannt und kommt in 11 % der Fälle die Lieferung verspätet beim Kunden an. a) Modellieren Sie die Situation als dreistufiges Zufallsexperiment mithilfe eines Baumdiagramms. b) Berechnen Sie die Wahrscheinlichkeit für jeden Pfad des Baums. c) Berechnen Sie die Wahrscheinlichkeiten für die Ereignisse · „Der Belag ist vollständig und die Pizza ist angebrannt “ Burghardt – RWB 2013/2014 1 Was ist Wahrscheinlichkeit? · · · · 19 „Der Belag ist unvollständig und die Pizza kommt rechtzeitig an “ „Die Pizza ist nicht angebrannt und kommt rechtzeitig an“ „Der Kunde ist zufrieden“ „Der Kunde ist unzufrieden“. 1.7.20 Die KiTa plant für Montag einen Ausflug in die Rheinaue, der aber nur stattfinden kann, wenn es nicht regnet. Die Leiterin der KiTa glaubt, das Bonner Wetter gut zu kennen. Sie sagt: „Wenn es heute nicht regnet, dann regnet es mit einer Wahrscheinlichkeit von 80 % morgen auch nicht. Und wenn es heute regnet, regnet es morgen mit 70 %iger Wahrscheinlichkeit auch.“ Berechnen Sie hiermit die Wahrscheinlichkeit, dass es am Montag nicht regnet, wenn es am Freitag vorher a) regnet. b) nicht regnet. 1.7.21 Untersuchen Sie die Wahrscheinlichkeit, dass eine HIV- positiv getestete Person tatsächlich infiziert ist, wenn die Infiziertenrate a) 0,1 % b) 1 % beträgt. 1.7.22 Eine Person, die nicht zu einer HIV-Risiko-Gruppe gehört, die also eine geringe Wahrscheinlichkeit hat, mit HIV infiziert zu sein, erhält ein positives Testergebnis. Begründen Sie, dass diese Person unbedingt einen zweiten Test durchführen lassen sollte, da dieser mit sehr hoher Wahrscheinlichkeit kein falsch-positives Resultat liefern wird. (Sie können davon ausgehen, dass die Wahrscheinlichkeit für eine HIV-Infektion bei der Person wie im Lehrtext bei etwa 0,0001 liegt.) 1.7.23 Im Rahmen der Gesundheitsreform wurde diskutiert, für gesetzlich Krankenversicherte gewisse Vorsorgeuntersuchungen verpflichtend vorzuschreiben. Unter anderem war im Gespräch, den Hämokkulttest – der Standardtest auf Darmkrebs – für über 50-jährige Männer verbindlich einzuführen, egal, ob Symptome vorliegen oder nicht. Der Test hat eine nur eine Sensitivität von 50 % und eine Spezifität 97 %. Aus Studien weiß man, dass bei beschwerdefreien über 50-jährigen Männern in etwa 0,3 % aller Fälle Darmkrebs vorliegt. Erläutern Sie, was die angegebenen Werte für die Sensitivität und die Spezifität in der konkreten Situation aussagen und untersuchen Sie, ob der Hämokkulttest für diese Männer verpflichtend vorgeschrieben werden sollte. Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 20 2 Endliche Kombinatorik Zur es zur Berechnung von Wahrscheinlichkeiten bei endlichen Wahrscheinlichkeitsräumen ist es oft notwendig, die Anzahl der Ergebnisse zu zählen. Das Teilgebiet der Mathematik, das sich mit dem systematischen Zählen von Objekten beschäftigt, ist die Kombinatorik. Anstatt alle zu zählenden Objekte aufzuschreiben und dann zu zählen, versucht die Kombinatorik, Gesetzmäßigkeiten zu gewinnen, die es ermöglichen, auf Grund der Struktur beziehungsweise des Aussehens der zu zählenden Objekte die Anzahl dieser Objekte zu berechnen. In diesem Abschnitt werden für uns wesentliche Ergebnisse der (endlichen) Kombinatorik vorgestellt. 2.1 Das Zählprinzip Wirft man einen Würfel zweimal hintereinander, so besteht der Ergebnisraum aus den geordenten Listen (auch Paaren genannt) ( 1 | 1 ) ( 1 | 2 ) ( 1 | 3 ) ( 1 | 4 ) (1 | 5 ) (1 | 6 ) ( 2 | 1) (2 | 2 ) (2 | 3) (2 | 4 ) (2 | 5) (2 | 6 ) ( 3 | 1) ( 4 | 1) ( 5 | 1) ( 6 | 1) (3 | 2) ( 4 | 2) ( 5 | 2) (6 | 2) ( 3 | 3) ( 4 | 3) ( 5 | 3) ( 6 | 3) (3 | 4 ) (4 | 4) (5 | 4) (6 | 4 ) (3 | 5) ( 4 | 5) ( 5 | 5) ( 6 | 5) (3 | 6 ) (4 | 6) (5 | 6) (6 | 6 ) Die Hausbesetzer in der Hamburger Hafenstraße hatten in den achtziger Jahren ihre eigene Meinung zum Thema „endliche Kombinatorik“. Wirft man ihn dreimal, so besteht der Ergebnisraum aus „Drillingen“ der Form ( a | b | c ) , wobei für jeden der Platzhalter jeder der Zahlen 1, 2, 3, 4, 5, 6 einzusetzen ist. Derartige Objekte nennt man in der Mathematik in der Regel ein Tupel oder eine geordnete Liste: Definition. Eine geordnete Liste oder auch Tupel ist eine Aufzählung von mathematischen Objekten in einer festen Reihenfolge. Man spricht von einer geordneten n -Liste bzw. einem n -Tupel, falls die Aufzählung aus n mathematischen Objekten besteht. Statt von geordneten 2-Listen sprechen wir auch von Paaren, statt von geordneten 3-Listen sprechen wir auch von Drillingen. Zum Beispiel bestehen der Ergebnisraum beim zweimaligen Würfeln aus geordneten 2-Listen und der Ergebnisraum beim dreimaligen Würfeln aus geordneten 3-Listen. Auch bei vielen anderen Zufallsexperimenten besteht der Ergebnisraum aus geordneten Listen. Um dann unter der Laplace-Annahme die Wahrscheinlichkeit eines Ereignisses A zu ermitteln, muss bestimmt werden, wie viele Ergebnisse den Ergebnisraum bilden und wie viele Ergebnisse zum Ereignis A gehören. Dies kann natürlich dadurch geschehen, dass man den Ergebnisraum und die zu A gehörenden Ereignisse aufschreibt. Dies ist jedoch in der Regel sehr mühsam. Wer dies nicht glaubt, schreibe einmal aller Ergebnisse auf, die beim dreimaligen Würfeln auftreten können! Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 21 Sinnvoller ist es, ein allgemeines Prinzip zu haben, mit dem man die Anzahl der Ergebnisse berechnen kann. Dieses Prinzip ist das Zählprinzip. Satz. (Zählprinzip) Die Anzahl der geordneten n -Listen, wobei es · k1 Auswahlmöglichkeiten für die erste Stelle, · k2 Auswahlmöglichkeiten für die zweite Stelle, · kn Auswahlmöglichkeiten für die n -te Stelle gibt, ist k1 × k2 × × kn . Wir wollen erläutern, warum das Zählprinzip richtig ist. Der Einfachheit nehmen wir an, dass die Einträge der Listen natürliche Zahlen sind: · An der ersten Stelle können die Zahlen von 1 bis k1 stehen, · an der zweiten Stelle können die Zahlen von 1 bis k2 stehen, · an der n -ten Stelle können die Zahlen von 1 bis kn stehen. Nun sortieren wir alle Listen danach, welche Zahl an der ersten Stelle steht. Wir legen also alle Listen, die an der ersten Stelle eine 1 haben, auf einen Haufen, alle die an der ersten Stelle eine 2 haben auf einen anderen Haufen und so fort: alle Listen Den Haufen entsprechen hier durch die unteren Rechtecke. Würden wir zum Beispiel den Ergebnisraum beim dreimaligen Würfeln so zerlegen, lägen im linken unteren Rechteck alle Drillinge, die mit einer 1 beginnen, im zweiten unteren Rechteck alle Drillinge, die mit einer 2 beginnen, im dritten alle Drillinge, die mit einer 3 beginnen, und so weiter. Alle unteren Rechtecke enthalten gleich viele geordnete Listen, denn was sich an der zweiten, dritten, vierten usw. Stelle einer Liste befindet, ist unabhängig von dem, was sich an der ersten Stelle befindet. Wenn wir die Listen zählen wollen, genügt es also, zum Beispiel die Listen im linken unteren Rechteck zu zählen, und diese Zahl dann mit der Anzahl der unteren Rechtecke – also k1 – zu multiplizieren: Anzahl aller Listen = k1 ´ Anzahl der Listen in Rechteck (1 | ) Um die Anzahl der geordneten n -Listen im linken Rechteck zu zählen, gehen wir wieder ähnlich vor wie eben: Wir sortieren die Listen nun danach, welche Zahl an der zweiten Stelle steht, und legen alle Listen, die an der zweiten Stelle eine 1 haben, auf einen Haufen, alle die an der zweiten Stelle eine 2 haben auf einen anderen Haufen und so fort: Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 22 Beim dreimaligen Würfeln, lägen dann im linken Rechteck alle Drillinge, die an der zweiten Stelle eine 1 haben, im zweiten Rechteck alle Drillinge, die an der zweiten Stelle eine 2 haben, im dritten alle Drillinge, die an der zweiten Stelle eine 3 haben und so weiter, wobei jeweils an der ersten Stelle eine 1 steht. Alle neuen Rechtecke enthalten gleich viele Listen, denn was sich an der dritten, vierten, fünften usw. Stelle einer Liste befindet, ist unabhängig von dem, was sich an der ersten und zweiten Stelle befindet. Wenn wir die Listen zählen wollen, genügt es also, zum Beispiel die Listen im linken Rechteck zu zählen, und diese Zahl dann mit der Anzahl der neuen Rechtecke – also k2 – zu multiplizieren: Anzahl der Listen in Rechteck (1 | ) = k2 ´ Anzahl der Listen in Rechteck (1 | 1 | ) Insgesamt ergibt sich also Anzahl aller Listen = k1 ´ Anzahl der Listen in Rechteck (1 | ) = k1 × k2 ´ Anzahl der Listen in Rechteck (1 | 1 | ) Hier erkennt man bereits einen Teil der Formel aus dem Zählprinzip wieder. Indem man auf die beschriebene Weise immer weiter fortschreitet, kommt man schließlich zu der im Zählprinzip angegebenen Formel. n 2.2 Anwendungen des Zählprinzips Das Zählprinzip hat viele Anwendungen; einige werden jetzt vorgestellt. 2.2.1 Die Anzahl aller Ereignisse Wie viele Ereignisse über einem Ergebnisraum W , der aus den Ergebnissen w1 , w2 , gibt es? Jedes Ereignis A entspricht eindeutig einer geordneten N -Liste ( a1 | a2 | , wN besteht, | aN ) , wenn wir festset- zen, dass ai = 1 ist, wenn wi zu A gehört, und dass ai = 0 ist, wenn wi nicht zu A gehört. Über W gibt es also genau soviele Ereignisse wie es geordnete N -Listen gibt , für die es jeder Stelle zwei Auswahlmöglichkeiten (nämlich 0 und 1 ) gibt. Mit Hilfe des Zählprinzips ergibt sich also Anzahl der Ereignisse = Anzahl der geordneten N-Listen = 2 × 2 × × 2 = 2N N Faktoren Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 23 Satz (Anzahl der Teilmengen einer endlichen Menge). Über einem Ergebnisraum der Größe N gibt es genau 2N paarweise verschiedene Ereignisse. 2.2.2 Anzahl der Ergebnisse bei mehrfacher Wiederholung eines Experiments In vielen Fällen besteht ein mehrstufiges Zufallsexperiment darin, dass ein anderes Experiment mehrmals wiederholt wird. Dies ist zum Beispiel der Fall, wenn ein Würfel zweimal oder dreimal oder viermal hintereinander geworfen wird. Wird ein Experiment k -mal wiederholt, so kann jedes Ergebnis aufgefasst werden als eine geordnete k -Liste ( a1 | a2 | | ak ) , wobei an jeder Stelle ein Ergebnis des wiederholten Ergebnisses steht. Die Größe des resultierenden Ergebnisraums kann mit Hilfe des folgenden Resultats bestimmt werden. Satz. · Aus N Objekten können genau N k geordnete k -Listen gebildet werden. · Wenn ein Zufallsexperiment, das N mögliche Ergebnisse hat, k mal wiederholt wird, dann hat der Ergebnisraum dieses mehrstufigen Zufallsexperiments die Größe N k . Gibt es nämlich an jeder Stelle einer geordneten k -Liste N Auswahlmöglichkeiten, so gibt es nach dem Zählprinzip N × N × × N = Nk k Faktoren solche Listen. Wird ein Würfel dreimal geworfen, hat der Ergebnisraum also 63 = 216 Ergebnisse! 2.2.3 Anzahl von Permutationen Auf wie viele Weisen können sich 10 Kinder einer Kindergruppe in einer Reihe an den Mittagstisch setzen, an dem 10 Plätze zur Verfügung stehen? Bei der mathematischen Modellierung dieses und vergleichbarer Probleme geht es letztlich darum, mathematische Objekte ohne Wiederholung aufzuzählen. Im Fall der Kindergruppe gibt es für die Besetzung des ersten Platzes 10 Möglichkeiten. Bei der Besetzung des zweiten Platzes gibt es dann nur noch 9 Möglichkeiten, da ein Kind ja bereits Platz genommen hat. Bei der Besetzung des dritten Platzes gibt es noch 8 Möglichkeiten und so fort, bis schließlich für die Besetzung des zehnten Platzes nur noch eine Möglichkeit besteht. Nach dem Zählprinzip gibt es also 10 × 9 × 8 × 7 × 6 × 5 × 4 × 3 × 2 × 1 = 3628800 , also mehr als 3, 6 Millionen Möglichkeiten, wie 10 Kinder die 10 Plätze am Tisch besetzen können! Um Produkte wie 10 × 9 × 8 × 7 × 6 × 5 × 4 × 3 × 2 × 1 , bei denen alle natürlichen Zahlen bis zu einer bestimmten Zahl miteinander multipliziert werden, Platz sparend zu notieren, gibt es eine sehr zweckmäßige Bezeichnung: Definition. Unter n -Fakultät – geschrieben n ! – versteht man die Zahl n! = 1 × 2 × 3 × Burghardt – RWB 2013/2014 ×n n. 2 Endliche Kombinatorik 24 Es gibt also 10 ! verschiedene Möglichkeiten, 10 Kinder einer Kindergruppe auf 10 Plätzen zu platzieren, also eine geordnete 10-Liste zu bilden, bei dem alle Positionen unterschiedlich sind. Soll N ! für einen großen Wert N berechnet werden, bedient man sich manchmal der Stirlingschen Formel, mit der man N ! näherungsweise berechnen kann. Sie ist benannt nach dem schottischen Mathematiker James Stirling (geboren im Mai 1692 gestorben 5. Dezember 1770). æNö Satz (Stirlingsche Formel). N ! » 2pN × ç ÷ èeø N Für 10 ! liefert die Stirlingsche Formel zum Beispiel den (gerundeten) Wert 3.598.696. Definition. Eine geordnete N -Liste ( a1 | a2 | jekte w1 , w2 , | aN ) , in der jedes der (paarweise verschiedenen) Ob- , wN genau einmal vorkommt, heißt Permutation von w1 , w2 , , wN . Wie im Fall der Kindergruppe sieht man mit Hilfe des Zählprinzips: Satz (Anzahl der Permutationen). Es gibt genau N ! Permutationen der Objekte w1 , w2 , , wN . Mit anderen Worten: N paarweise verschiedene Objekte können auf genau N ! Weisen nebeneinander angeordnet werden. N ! ist in der Regel eine sehr große Zahl. Wie wir gesehen haben, ist 10 ! schon größer als 3, 6 Millionen. 20! ist eine 19-stellige Zahl, 30! hat 33 Stellen, 50! hat 65 Stellen! Wir verallgemeinern den Begriff der Permutation, um Probleme wie zum Beispiel das folgende angehen zu können: Unter der Laplace-Annahme soll bestimmt werden, wie groß die Wahrscheinlichkeit ist, dass zwei zufällig ausgewählte Kinder einer Kindergruppe an unterschiedlichen Tagen des Jahres Geburtstag haben. Numerieren wir die Tage des Jahres durch, wobei wir von Schaltjahren absehen, bietet sich als Ergebnisraum W die Gesamtheit aller Paare ( a1 | a2 ) an, wobei für a1 und a2 jede der Zahlen 1, 2, 3, ,,365 365 eingesetzt werden können. Damit ist # W = 3652 = 133225 die Anzahl aller möglichen Ergebnisse. Günstig für das Ereignis „Geburtstag an unterschiedlichen Tagen des Jahres“ sind diejenigen Paare ( a1 | a2 ) , bei denen a1 ¹ a2 ist. Die Anzahl dieser 2-Tupel zählen wir mit Hilfe des Zählprinzips: Für die erste Position gibt es 365 Auswahlmöglichkeiten, für die zweite Position gibt es dann noch 364 Auswahlmöglichkeiten. Nach dem Zählprinzip ist die Anzahl der gesuchten, für das Ereignis „Geburtstag an unterschiedlichen Tagen des Jahres“ günstigen Paare also 365 × 364 . Damit ergibt sich: 365 × 364 364 P ( „Geburtstag an unterschiedlichen Tagen des Jahres“ ) = = » 0, 9973 . 3652 365 Die Wahrscheinlichkeit, dass die beiden Kinder am selben Tag Geburtstag haben, ist damit Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 25 P ( „Geburtstag am gleichen Tag des Jahres“ ) = 1 - P ( „Geburtstag an unterschiedlichen Tagen des Jahres“ ) . 1 » 0, 0027 365 Bei den günstigen Paaren handelt es um Listen, bei denen jede der Zahlen 1, 2, 3, einmal vorkommt. Derartige Listen haben einen speziellen Namen. = Definition. Eine geordnete k -Liste ( a1 | a2 | jekte w1 , w2 , ,,365 365 höchstens | ak ) , in dem jedes der (paarweise verschiedenen) Ob- , wN höchstens einmal vorkommt, heißt k -Permutation von w1 , w2 , , wN . Wie wir uns eben am Beispiel einer 2-Permutation klar gemacht haben, gilt auch ganz allgemein: Satz (Anzahl der k -Permutationen). Es gibt genau N × ( N - 1) × ( N - 2 ) × k -Permutationen der Objekte w1 , w2 , × ( N - k + 1) = N! ( N - k )! , wN . Mit anderen Worten: Aus N paarweise verschie- dene Objekte können auf genau N × ( N - 1) × ( N - 2) × × ( N - k + 1) unterschiedliche Weisen k verschiedenen Objekte ausgewählt und angeordnet werden. Man merkt sich das Produkt N × ( N - 1) × ( N - 2) × × ( N - k + 1) am besten so: Es werden von N aus k Zahlen heruntergezählt und dann miteinander multipliziert. Wir haben oben gesehen, dass die Wahrscheinlichkeit, dass zwei Kinder am selben Tag des Jahres Geburtstag haben, ziemlich klein ist. Wie sieht es bei größeren Gruppen aus? Wie groß ist die Wahrscheinlichkeit, dass bei einer Gruppe von 10 Kindern mindestens zwei am gleichen Tag des Jahres Geburtstag haben? Es ist einfacher, zunächst die Wahrscheinlichkeit des Komplementärereignisses „Alle Kinder haben an verschiedenen Tagen Geburtstag“ zu bestimmen, da man hierbei auf das Resultat über k -Permutationen zurückgreifen kann. Als Ergebnisraum W nehmen wir die Gesamtheit aller geordneten 10-Listen ( a1 | a2 | a3 | a4 | a5 | a6 | a7 | a8 | a9 | a10 ) , wobei an jeder Stelle eine der Zahlen 1, 2, 3, ,,365 365 steht. Interpretation: a1 ist der Geburtstag für Kind 1, a2 ist der Geburtstag für Kind 2 usw. Die Anzahl der möglichen Ergebnisse ist damit # W = 36510 . Dies ist eine natürliche Zahl mit 26 Stellen! Die günstigen Ergebnisse bilden alle gordneten 10-Listen, bei denen jede Zahl höchstens einmal vorkommt. Die günstigen Ergebnisse sind also die 10-Permutationen der Zahlen 1, 2, ,,365 365 . Um die Anzahl zu berechnen muss man von 365 aus zehn Zahlen herunterzählen und diese Zahlen dann multiplizieren: 365 × 364 × 363 × 362 × 361 × 360 × 359 × 358 × 357 × 356 . Damit gilt Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 26 P ( „alle haben Geburtstag an unterschiedlichen Tagen“ ) = 365 × 364 × 363 × 362 × 361 × 360 × 359 × 358 × 357 × 356 » 0, 8831, 36510 und es ergibt sich P ( „mindestens zwei haben Geburtstag am gleichen Tag des Jahres“ ) = 1 - P ( „alle haben Geburtstag an unterschiedlichen Tagen“ ) » 0, 1169. Die Wahrscheinlichkeit, dass mindestens zwei Personen einer Gruppe am gleichen Tag des Jahres Geburtstag haben, wächst mit zunehmendes Größe der Gruppe stark an: Besteht die Gruppe aus 20 Personen beträgt sie bereits rund 0, 4114 , ab 23 Personen liegt sie über 0, 5 ! 2.2.4 Anzahl von Kombinationen Permutationen und k -Permutationen sind spezielle geordnete Aufzählungen von Objekten. Oft ist jedoch bei Aufzählungen die Reihenfolge der Objekte unwesentlich, man denke etwa an die Liste aller Schülerinnen und Schüler einer Klasse oder an eine Einkaufsliste. Soll aus einer Klasse eine Gruppe von Schülerinnen und Schülern ausgewählt werden, die beim Tag der offenen Tür einen Vortrag hält, ist ebenfalls die Reihenfolge der ausgewählten Schülerinnen und Schüler unerheblich. Es ist nur von Interesse, wer zu der Gruppe gehört. Und für einen Gewinn beim Zahlenlotto 6 aus 49 ist es völlig unerheblich, in welcher Reihenfolge die 6 Gewinnzahlen gezogen werden. Definition. Eine Aufzählung von k paarweise verschiedenen mathematischen Objekten a1 , a2 , , ak , wobei die Reihenfolge unwesentlich ist, nennen wir eine ungeordnete k -Liste. Wir bezeichnen sie mit {a1 , a2 , , ak } . Eine ebenfalls sehr übliche Bezeichnung für eine ungeordnete k -Liste ist k -Menge. Während die geordneten Listen (1 | 2 | 3) und ( 3 | 2 | 1) verschieden sind, sind die ungeordneten Listen {1, 2, 3} und {3, 2, 1} gleich! Um zu zählen, wie viele ungeordnete k -Listen man aus N paarweise verschiedenen Objekten bilden kann, überlegen wir zunächst, dass wir auf N! N × ( N - 1) × ( N - 2 ) × × ( N - k + 1) = ( N - k )! Weisen k Objekte auswählen können, wobei die Reihenfolge wesentlich ist ( k -Permutation). Für die Bildung der ungeordneten k -Listen ist jedoch die Reihenfolge egal. Hat man einmal k Objekte ausgewählt, kann man diese auf k ! Weisen unterschiedlich anordnen. Diese unterschiedlichen Anordnungen entsprechen aber ein und derselben ungeordneten k -Liste! Sie müssen deshalb nur einmal gezählt werden. Um die Anzahl der ungeordneten k -Listen zu erhalten, muss also die Anzahl N! N × ( N - 1) × ( N - 2 ) × × ( N - k + 1) = ( N - k )! der k -Permutationen durch k ! dividiert werden: Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 27 Satz (Anzahl der Möglichkeiten, aus N Elementen ungeordnete k -Listen zu bilden). Die Anzahl der paarweise verschiedenen ungeordneten k -Listen, die man aus N Objekten bilden kann, ist æ N ö N × ( N - 1) × × ( N - k + 1) N! . = ç ÷= k! ( N - k )!× k ! èkø Hierbei sind k und N natürliche Zahlen mit k £ N , und man setzt 0! = 1 . æN ö Die Zahl ç ÷ nennt man auch Binomialkoeffizient. Man liest ihn als N über k . èkø Soll also zum Beispiel aus einer Klasse von 24 Schülerinnen und Schülern eine Gruppe von 5 Schülerinnen und Schülern ausgewählt werden werden, so kann dies auf æ 24 ö 24 × 23 × 22 × 21 × 20 = 42504 ç ÷= 5! è5ø Weisen geschehen. Die in der Literatur meist zu findende und für theoretische Überlegungen mitunter günstigere und etwas einfacher zu merkende Darstellung æNö N! . ç ÷= è k ø ( N - k )!× k ! ist für die Berechnung insbesondere bei großen Werten von N oder k ungünstig: Man berechnet leicht æ 1000 ö 1000 × 999 = 499500 , ç ÷= 2! è 2 ø wohingegen die Berechnung æ 1000 ö 1000! ç ÷= è 2 ø 2! × 998 ! daran scheitert, dass man weder 1000! noch 998! mit dem Taschenrechner oder einer gängigen Tabellenkalkulation berechnen kann. ( 1000! ist eine Zahl mit 2.568 Stellen; könnte man jede Sekunde eine Stelle der Zahl 1000! aufschreiben, bräuchte man rund 43 Minuten, um die gesamte Zahl zu notieren!) Wir wenden unsere Ergebnisse nun an, um die Gewinnchancen beim Zahlenlotto 6 aus 49 zu berechnen. 2.2.5 Gewinnchancen beim Zahlenlotto 6 aus 49 Um beim deutschen Zahlenlotto 6 aus 49 mitzuspielen, markiert man auf einem Lottoschein 6 der 49 Zahlen 1, 2, 3, ,49 , 49 durch ein Kreuz. Auf dem Lottoschein ist zusätzlich eine der Zahlen 0, 1, 2, , 8, 9 als sogenannte Superzahl aufgedruckt. Jeden Mittwoch und Samstag findet eine Ziehung der Gewinnzahlen statt. Dabei werden zunächst aus einer Trommel nacheinander ohne Zurücklegen 6 Gewinnzahlen aus den Zahlen 1, 2, 3, ,,49 49 Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 28 gezogen. Abschließend wird aus einer anderen Trommel aus den Zahlen 0, 1, 2, perzahl gezogen. , 8, 9 noch die Su- Man hat gewonnen, wenn man drei, vier, fünf oder sechs der zuerst gezogenen 6 Gewinnzahlen richtig vorhergesagt hat. Die Gewinnsumme erhöht sich, wenn auch die Superzahl mit der gezogenen übereinstimmt. Man gewinnt außerdem, wenn man zwei Zahlen richtig vorhergesagt hat und auch die Superzahl mit der gezogenen übereinstimmt. Damit gibt es beim Lotto 6 aus 49 insgesamt 9 Gewinnklassen: Klasse 1 2 3 4 5 6 7 8 9 erforderlich 6 Richtige und Superzahl 6 Richtige ohne Superzahl 5 Richtige und Superzahl 5 Richtige ohne Superzahl 4 Richtige und Superzahl 4 Richtige ohne Superzahl 3 Richtige und Superzahl 3 Richtige ohne Superzahl 2 Richtige und Superzahl Lottoschein 6 aus 49 mit Super 6 und Spiel 77 Welcher Ergebnisraum W ist dem angemessen? Die Elemente von W sollen alle möglichen Lottotipps abdecken. Jeder Lottotipp kann dargestellt werden als Paar ( a1 | a2 ) , wobei a1 eine ungeordnete 6-Liste aus den Zahlen 1, 2, 3, dann , 49 und a2 eine der Zahlen 0, 1, 2, ,49 , 8, 9 ist. Für a1 gibt es æ 49 ö ç ÷ = 13983816 è6ø Möglichkeiten. Für a2 gibt es 10 Möglichkeiten. Nach dem Zählprinzip besteht der Ergebnisraum also aus insgesamt 13983816 × 10 = 139838160 Ergebnissen. Um nun die Wahrscheinlichkeiten für einen Gewinn in den verschiedenen Gewinnklassen zu ermitteln, müssen wir nach Laplace die Anzahl der jeweils günstigen Ergebnisse zählen. Um die Anzahl der Ergebnisse ( a1 | a2 ) , die in Gewinnklasse 9 fallen, zu bestimmen, überlegen wir: Da die Superzahl auf dem Lottoschein mit der gezogenen übereinstimmen muss, gibt es für a2 nur eine Auswahlmöglichkeit: Es muss die gezogene Superzahl sein. Für die ungeordnete 6-Liste a1 werden æ6ö · 2 Zahlen aus den 6 gezogenen Gewinnzahlen verwendet; hierfür gibt es ç ÷ = 15 Möglichkeiten. è2ø Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 29 æ 43 ö 4 Zahlen aus den nicht gezogenen 49 - 6 = 43 Zahlen verwendet. Hierfür gibt es ç ÷ = 123410 è4ø Möglichkeiten. Nach dem Zählprinzip gibt es also 15 × 12341 = 1851150 ungeordnete 6-Listen, die in Gewinnklasse 9 fallen, und somit 1851150 × 1 = 1851150 Ergebnisse in Gewinnklasse 9. Dies bedeutet: · P ( "Gewinn in Klasse 9") = 1851150 = 0, 01324 . 139838160 Bei den Ergebnissen ( a1 | a2 ) , die in Gewinnklasse 8 fallen, gibt es für a2 9 Auswahlmöglichkeiten, denn die Superzahl auf dem Lottoschein darf nicht mit der gezogenen Superzahl übereinstimmen. Für die ungeordneten 6-Liste a1 werden · · æ6ö 3 Zahlen aus den 6 gezogenen Gewinnzahlen verwendet; hierfür gibt es ç ÷ = 20 Möglichkeiè 3ø ten. æ 43 ö 3 Zahlen aus den nicht gezogenen 49 - 6 = 43 Zahlen verwendet Hierfür gibt es ç ÷ = 12341 è3ø Möglichkeiten. Nach dem Zählprinzip gibt es also 20 × 12341 = 246820 ungeordnete 6-Listen, die in Gewinnklasse 8 fallen, und 246820 × 9 = 2221380 Ergebnisse in Gewinnklasse 8. Dies bedeutet: P ( "Gewinn in Klasse 8") = 2221380 = 0, 015885 . 139838160 Mit denselben Überlegungen findet man: æ 6 ö æ 43 ö ç ÷ × ç ÷ ×1 3 3 246820 = 0, 001765 · P ( "Gewinn in Klasse 7") = è ø è ø = 139838160 139838160 æ 6 ö æ 43 ö ç ÷×ç ÷ ×9 4 2 121905 = 0, 0008718 · P ( "Gewinn in Klasse 6") = è ø è ø = 139838160 139838160 æ 6 ö æ 43 ö ç ÷ × ç ÷ ×1 4 2 13545 = 0, 00009686 · P ( "Gewinn in Klasse 5") = è ø è ø = 139838160 139838160 æ 6 ö æ 43 ö ç ÷×ç ÷ ×9 5 1 2322 = 0, 0000166 · P ( "Gewinn in Klasse 4") = è ø è ø = 139838160 139838160 æ 6 ö æ 43 ö ç ÷ × ç ÷ ×1 5 1 258 = 0, 000001844 · P ( "Gewinn in Klasse 3") = è ø è ø = 139838160 139838160 Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 30 æ 6 ö æ 43 ö ç ÷×ç ÷ ×9 6 0 9 P ( "Gewinn in Klasse 2") = è ø è ø = = 0, 00000006436 139838160 139838160 æ 6 ö æ 43 ö ç ÷ × ç ÷ ×1 6 0 1 P ( "Gewinn in Klasse 1") = è ø è ø = = 0, 00000000715 139838160 139838160 · · Die Wahrscheinlichkeit, überhaupt irgendetwas zu gewinnen, ist das Ereignis „Gewinn in Klasse 8“ È „Gewinn in Klasse 7“ È È „Gewinn in Klasse 1“. Da diese Ereignisse disjunkt sind, erhält man die Gesamtwahrscheinlichkeit durch Addition der Wahrscheinlichkeiten der einzelnen Ereignisse „Gewinn in Klasse 8“, , „Gewinn in Klasse 1“. Deshalb gilt 1851150 + 2221380 + 246820 + 121905 + 13545 + 2322 + 258 + 9 + 1 139838160 4457390 = 139838160 = 0, 031875 P ( "Gewinn beim Lotto") = Die Wahrscheinlichkeit, beim Lotto nichts zu gewinnen, ist demgemäß fast als 97 %. 2.3 · · · · Das Sekretärinnenproblem Auf der morgendlichen Autofahrt zur Arbeit passiert Nina insgesamt 15 Tankstellen. Erfahrungsgemäß ist mal die eine, mal die andere billiger, ohne dass sich eine allgemeine Regel aufstellen lässt, welche Tankstelle an einem bestimmten Zeitpunkt die billigste ist. Ninas Sprit reicht nur noch, um bis zur Arbeit zu kommen, sie wird heute Morgen tanken müssen. Welche Tankstelle soll sie anfahren? Bei einer Blumenauktion werden nacheinander Blumen von 18 Großgärtnereien angeboten. Dabei werden zunächst die Blumen einer Großgärtnerei in den Verkaufsraum gebracht und an den meistbietenden Großhändler verkauft. Danach werden die Blumen einer anderen Gärtnerei hineingeholt und versteigert. Es besteht vor der Auktion keine Möglichkeit, die Blumen auf ihre Qualität zu überprüfen. Die Blumen welcher Großgärtnerei soll ein Händler ersteigern? An einem chaotischen Börsentag bekommt ein Aktienhändler den Auftrag, innerhalb der nächsten 120 Minuten ein großes Aktienpaket zu einem möglichst guten Preis zu verkaufen. Er wird alle 30 Sekunden über die aktuelle Börsennotierung der Aktie unterrichtet. Wann soll er verkaufen? Auf eine Stellenanzeige haben sich mehrere Sekretärinnen beworben, 20 wurden aufgrund der Bewerbungsunterlagen als hervorragend geeignet eingestuft und zu einem Bewerbungsgespräch eingeladen. Die Leiterin von Human Resources bittet die Bewerberinnen einzeln zum Gespräch. Nach jedem Gespräch muss sie entscheiden, ob die Bewerberin auf die Stelle eingestellt wird oder nicht. Eine einmal abgewiesene Bewerberin steht danach nicht mehr zur Verfügung. Welche Bewerberin soll sie einstellen? Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 31 Die beschriebenen Situationen haben eines gemeinsam: Aus einer zufälligen Folge von Objekten muss ausschließlich durch individuelle Begutachtung eine optimale Auswahl getroffen werden. Die Objekte können also nicht im Vorfeld miteinander verglichen werden. Bei der jeweiligen Begutachtung ist eine sofortige Entscheidung notwendig, ein einmal abgelehntes Objekt steht danach nicht mehr zur Verfügung. Wegen des zuletzt genannten Beispiels wird diese Problemstellung auch Sekretärinnenproblem genannt. Eine mögliche Strategie, ein Objekt auszuwählen, ist die folgende: Man begutachtet zunächst eine bestimmte Anzahl j an Objekten, ohne eines davon auszuwählen. Von den folgenden Objekten wählt man dann das erste aus, das besser ist als alle j zuerst angesehenen Objekte. Findet man kein derartiges Objekt, wird das letzte Objekt ausgewählt. Die Wartezeit j dient gleichsam dazu, einen Überblick über die Qualität der Objekte zu erhalten, bevor eine Auswahl getroffen wird. Wir wollen die Wartezeit j so bestimmen, dass die Wahrscheinlichkeit, mit dieser Strategie die beste Wahl zu treffen, am größten ist.7 Um dies zu tun, wählen wir zuerst einen geeigneten Wahrscheinlichkeitsraum. Hierzu stellen wir uns vor, dass insgesamt N Objekte zur Auswahl stehen. Wir nehmen an, dass wir alle Objekte ihrer Qualität nach eine Rangfolge zuweisen können, wobei wir die Zahl/ den Rang 1 dem qualitativ schlechtesten und die Zahl N dem qualitativ besten Objekt zuweisen. Die möglichen Ergebnisse bestehen aus allen möglichen solchen Rangfolgen. Der Ergebnisraum W besteht deshalb aus allen möglichen Permutationen der Zahlen 1, 2, 3, ,N , N . Die Anzahl der möglichen Ergebnisse ist also # W = N ! und ein Ergebnis w = ( w1 | w2 | w3 | | wN ) ist wie folgt zu interpretieren: wi ist der Rang des i -ten begutachteten Objekts, wobei ein höherer Rang einer besseren Qualität entspricht. Statt vom i -ten begutachteten Objekt wollen wir kürzer vom zum Zeitpunkt i begutachteten Objekt sprechen. Beim Sekretärinnenproblem ist die Laplace-Annahme sinnvoll, da keine Rangfolge wahrscheinlicher ist als irgendeine andere. Mit B j bezeichnen wir das Ereignis „Bei Wartezeit j wird mit der Strategie das beste Objekt ausgewählt.“ Wir müssen P ( Bj ) allgemein berechnen und dann j so wählen, dass P ( Bj ) größtmöglich ist. Dass ein Ergebnis zu B j gehört, bedeutet, dass zu einem Zeitpunkt k , der später als j ist, das dann begutachtete Objekt ausgewählt wird, und dieses ist das beste von allen, hat also Rang N . Dieses Ereignis bezeichnen wir mit Ak . Dann haben wir Bj = Aj +1 È Aj +2 È Aj +3 È È AN . Die Ereignisse Aj +1 , Aj +2 , Aj +3 , , AN sind paarweise disjunkt, denn bei einem Ergebnis aus Aj +1 steht die Zahl N an der Stelle j + 1 , während bei einem Ergebnis aus Aj +2 hat die Zahl N an der Stelle j + 2 steht und so weiter. Deshalb gilt 7 Mit sehr allgemeinen und weit über unseren Rahmen hinausgehende Überlegungen kann man zeigen, dass diese Strategie sogar unter allen denkbaren Auswahlstrategien diejenige ist, bei der die Wahrscheinlichkeit, tatsächlich das beste Objekt zu erhalten, am größten ist, siehe z.B. Manfred Schäl, Markoff-Ketten, S. 8 ff, online abrufbar unter http://wiener.iam.uni-bonn.de/~schael/MARKOV.pdf [Zugriff 06.01.2011]. Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 32 P ( Bj ) = P ( Aj +1 ) + P ( Aj +2 ) + P ( Aj +3 ) + + P ( AN ) . Wir wollen jetzt die Wahrscheinlichkeiten P ( Aj +1 ) , P ( Aj +2 ) , P ( Aj +3 ) , ,,P P ( AN ) berechnen und be- trachten hierfür einen beliebigen Zeitpunkt k > j und berechnen P ( Ak ) Da die Laplace-Annahme gilt, müssen wir # Ak , also die Anzahl der Ergebnisse, die zu Ak gehören, bestimmen. Dies machen wir, indem wir die zu Ak gehören Ergebnisse in zwei Schritten aus allen Ergebnissen aussieben. Schritt 1. Wenn ein Ergebnis zu Ak gehört, hat es an der Stelle k die Zahl N stehen. Das zum Zeitpunkt k begutachtete Objekt ist nämlich insgesamt das Beste, hat also den höchstmöglichen Rang. Jede Ergebnisliste w = ( w1 | w2 | w3 | | wN ) hat die Zahl N an genau einer der N Stellen stehen. Nach dem Zählprinzip gibt es ( N - 1)! geordnete Listen, die die Zahl N an der Stelle k stehen haben. Schritt 2. Bei denen in Schritt 1 ausgesiebten Ergebnissen w = ( w1 | w2 | w3 | | wN ) befindet sich genau an der Stelle k die Rangziffer N . Dies ist die größte aller in der Liste w vorkommenden Zahlen. Betrachten wir die ersten k - 1 Einträge der Liste, also die Zahlen w1 , w2 , w3 , , wkk-1 , so gibt es auch unter diesen eine größte Zahl. Die in Schritt 1 ausgesiebten Ergebnisse gliedern sich dann in die folgenden k - 1 Familien auf: ● Familie 1 besteht aus allen Ergebnissen w = ( w1 | w2 | w3 | | wN ) , bei denen w1 die größte der Zahlen w1 , w2 , w3 , , wkk 1 ist. ● Familie 2 besteht aus allen Ergebnissen w = ( w1 | w2 | w3 | der Zahlen w1 , w2 , w3 , | wN ) , bei denen w2 die größte , wkk 1 ist. ● Familie k - 1 besteht aus allen Ergebnissen w = ( w1 | w2 | w3 | größte der Zahlen w1 , w2 , w3 , | wN ) , bei denen wk-1 die , wkk 1 ist. Schritt 1 Familie 1 Familie j Familie k-1 k- Da alle k - 1 Familien gleich groß sind, enthält jede 1 ( k - 1) der in Schritt 1 ausgesiebten Ergebnisse, also ( N - 1)! ( k - 1) . Wenn ein Ergebnis zu Ak gehört, wird das zum Zeitpunkt k begutachtete Objekt ausgewählt. Dies bedeutet, dass die nach der Wartezeit j aber vor dem Zeitpunkt k begutachteten Objekte von schlechterer Qualität sind als das beste bis zum Zeitpunkt j begutachtete. Da eine höhere Qualität einer höheren Rangzahl entspricht, muss somit bei den Ergebnissen aus Ak die größte der Zahlen w1 , w2 , w3 , , wkk-1 unter den Zahlen w1 , w2 , w3 , , wj vorkommen. Die zu Ak gehörenden Ergebnisse werden deshalb von den Ergebnissen der j Familien 1, 2, gebildet. Da jede dieser Familien ( N - 1)! ( k - 1) Ergebnisse enthält, ergibt sich Burghardt – RWB 2013/2014 ,j 2 Endliche Kombinatorik 33 # Ak = j × Für P ( Ak ) finden wir deshalb #A P ( Ak ) = k = #W j× ( N - 1)! . k -1 ( N - 1) ! j k -1 = . N! N × ( k - 1) Jetzt kann P ( Bj ) berechnet werden: P ( B j ) = P ( A j +1 ) + P ( A j + 2 ) + P ( A j + 3 ) + = j j j + + + N × j N × ( j + 1) N × ( j + 2 ) = 1 1 j æ1 ×ç + + + N è j j +1 j +2 + + P ( AN ) + j N × ( N - 1) 1 ö N - 1 ø÷ Um den Wert des Terms 1 1 1 + + + j j +1 j +2 + 1 N -1 zu bestimmen, zeichnen wir den Graphen der Funktion g ( x ) = 1 im Intervall [ j | N ] : x Rechtecksfläche Rechtecksfläche Rechtecksfläche Rechtecksfläche Die Summe 1 1 1 1 + + + + j j +1 j +2 N -1 entspricht der Gesamtfläche der oben angedeuteten Rechtecke und diese stimmt bei nicht zu kleinen Werten von N und j , wie sie in der Praxis beim Sekretärinnenproblem vorkommen, sehr gut mit dem Integral N N 1 òj x dx = ln N - ln j = ln j überein. Also ist Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 34 P ( Bj ) = j æ1 1 1 ×ç + + + N è j j +1 j +2 + 1 ö N - 1 ø÷ j N × ln N j N 1 = × ln N j j » = f (N j ) 1 für f ( x ) = ln x . x P ( Bj ) ist größtmöglich, wenn j so gewählt wird, dass f an der Stelle x = N j einen Hochpunkt hat. Wir bestimmen die Extrempunkte von f : 1 1 1 1 1 1 · f ¢ ( x ) = - 2 ln x + × = - 2 ln x + 2 = 2 × (1 - ln x ) x x x x x x · f ¢ ( x ) = 0 Û ln x = 1 Û x = e Das Vorzeichenwechselkriterium zeigt, dass f an der Stelle x = e einen Hochpunkt hat. P ( Bj ) ist also größtmöglich, wenn N j = e , also j = N e » N × 0, 3679 . Der größtmögliche Wert für P ( Bj ) ist dann P ( Bj ) = f ( e ) = 1 » 0, 3679 . e Für die eingangs genannten Beispiele ergibt sich dann: · Nina sollte 6 Tankstellen (genauer Wert: 15 × 0, 3679 = 5, 9685 ) passieren, sich die Preise merken und dann die erste Tankstelle nehmen, die billiger ist. · Der Blumenhändler sollte die Blumen der ersten 7 Gärtnereien (genauer Wert: 18 × 0, 3679 = 6, 6222 ) nur inspizieren und dann die ersten Blumen nehmen, die besser sind als alle diese. · Der Aktienhändler sollte 44 Minuten warten (in 120 Minuten bekommt er 240 Aktienkurse genannt, 240 × 0, 3679 = 88, 296 , den 88. Kurs bekommt er nach 44 Minuten mitgeteilt), die Aktienkurse notieren und dann kaufen, wenn der Kurs auf einen höheren Wert ansteigt. · Die Leiterin von Human Resources wählt keine der ersten 7 Bewerberinnen (genauer Wert: 20 × 0, 3679 = 7, 358 ) sondern die erste, die besser ist als jede von der ersten sieben. Als Faustregel kann man folgende Strategie für die beste Wahl beim Sekretärinnenproblem formulieren: Man begutachtet zunächst etwa 1 3 der Objekte, ohne eines davon auszuwählen. Von den folgenden Objekten wählt man dann das erste aus, das besser ist als alle des ersten Drittels (gegebenenfalls das letzte, falls es kein besseres gibt). Die Wahrscheinlichkeit, hierbei die beste Wahl zu treffen, ist rund 1 3 . Burghardt – RWB 2013/2014 2 Endliche Kombinatorik 2.4 35 Übungen 2.4.1 Drei Kinder in einer Kindertagesstätte werden nach ihrem Geburtstag befragt. Modellieren Sie dieses Zufallsexperiment unter der Laplace-Annahme mit einem geeigneten Wahrscheinlichkeitsraum (Schaltjahre werden vernachlässigt) und berechnen Sie die Wahrscheinlichkeiten für die folgenden Ereignisse: a) „Alle drei Kinder haben an verschiedenen Tagen im Jahr Geburtstag“ b) „Mindestens zwei der Kinder haben am gleichen Tag im Jahr Geburtstag“ 2.4.2 Unter der Laplace-Annahme und unter Vernachlässigung von Schaltjahren berechnen Sie die Wahrscheinlichkeiten für die folgenden Ereignisse: a) „Von zwei zufällig ausgewählten Personen hat keine mit mir am selben Tag im Jahr Geburtstag“ b) „Von zwei zufällig ausgewählten Personen hat mindestens eine mit mir am selben Tag im Jahr Geburtstag“ c) „Von drei zufällig ausgewählten Personen hat keine mit mir am selben Tag im Jahr Geburtstag“ d) „Von drei zufällig ausgewählten Personen hat mindestens eine mit mir am selben Tag im Jahr Geburtstag“ 2.4.3 Berechnen Sie die Laplace-Wahrscheinlichkeit für das Ereignis „Die Geburtstage von 12 zufällig ausgewählten Personen fallen auf 12 verschiedene Monate“. 2.4.4 Ein Laplace-Würfel wird dreimal geworfen. Konstruieren Sie einen geeigneten Wahrscheinlichkeitsraum und berechnen Sie die Wahrscheinlichkeiten der folgenden Ereignisse: a) „Einmal Augenzahl 6 und zwar beim ersten Wurf“ b) „Einmal Augenzahl 6 und zwar beim zweiten Wurf“ c) „Einmal Augenzahl 6 und zwar beim dritten Wurf“ d) „Augenzahl 6 bei genau einem Wurf“ e) „Genau zweimal Augenzahl 6 und zwar beim ersten und zweiten Wurf“ f) „Genau zweimal Augenzahl 6 und zwar beim zweiten und dritten Wurf“ g) „Genau zweimal Augenzahl 6 und zwar beim ersten und dritten Wurf“ h) „Augenzahl 6 bei genau zwei Würfen“ i) „Augenzahl 6 bei mindestens einem Wurf“ j) „Augenzahl 6 bei mindestens zwei Würfen“ k) „Genau zwei gleiche Augenzahlen“ l) „Mindestens zwei gleiche Augenzahlen“ m) „Drei verschiedene Augenzahlen“ 2.4.5 Ein Laplace-Würfel wird viermal geworfen. Konstruieren Sie einen geeigneten Wahrscheinlichkeitsraum und berechnen Sie die Wahrscheinlichkeiten der folgenden Ereignisse: a) „Dreimal Augenzahl 1, einmal Augenzahl 2“ b) „Genau dreimal Augenzahl 1“ c) „Genau dreimal die gleiche Augenzahl“ d) „Beim ersten Wurf Augenzahl 1, beim zweiten und dritten Wurf Augenzahl 2 und beim vierten Wurf Augenzahl 3“ e) „Einmal Augenzahl 1, zweimal Augenzahl 2, einmal Augenzahl 3“ f) „Alle vier Augenzahlen sind verschieden“ Burghardt – RWB 2013/2014 2 Endliche Kombinatorik g) 36 „Mindestens zwei Augenzahlen sind gleich“ 2.4.6 Zwanzig gleichartige Kugeln, von denen 13 blau, 5 grün und 2 rot sind, werden zufällig auf einer Geraden angeordnet. Bestätigen Sie zunächst, dass dies auf 1.627.920 verschiedene Weisen geschehen kann, und berechnen Sie dann unter der Annahme, dass alle Anordnungen gleichwahrscheinlich sind, die Wahrscheinlichkeiten der folgenden Ereignisse : a) „Alle blauen Kugeln liegen nebeneinander“ b) „Alle grünen Kugeln liegen nebeneinander“ c) „Alle roten Kugeln liegen nebeneinander“ 2.4.7 Berechnen Sie ohne Rückgriff auf die Wahrscheinlichkeiten der Gewinnklassen 1 bis 9 die Wahrscheinlichkeit dafür, beim Zahlenlotto nichts zu gewinnen. 2.4.8 Beim Glücksspiel Eurojackpot werden aus 50 Zahlen fünf Zahlen ausgewählt. Zusätzlich werden aus 8 weiteren Zahlen, den sogenannten Eurozahlen, zwei Zahlen getippt. Bei der wöchentlichen Ziehung werden aus einer Trommel aus den Zahlen 1, 2, ,,50 50 zunächst 5 Gewinnzahlen gezogen, dann werden aus einer zweiten Trommel aus den Zahlen 1, ,,8 8 zwei Eurozahlen ermittelt. Es gibt die folgenden 12 Gewinnklassen: Klasse erforderlich 1 5 Richtige und 2 Eurozahlen 2 5 Richtige und 1 Eurozahl 3 5 Richtige und 0 Eurozahlen 4 4 Richtige und 2 Eurozahlen 5 4 Richtige und 1 Eurozahl 6 4 Richtige und 0 Eurozahlen 7 3 Richtige und 2 Eurozahlen 8 3 Richtige und 1 Eurozahl 9 2 Richtige und 2 Eurozahlen 10 3 Richtige und 0 Eurozahlen 11 1 Richtige und 2 Eurozahlen 12 2 Richtige und 1 Eurozahl a) b) c) Spielschein Eurojackpot Berechnen Sie die Gewinnwahrscheinlichkeiten für die einzelnen Gewinnklassen. Bestimmen Sie die Wahrscheinlichkeit dafür, beim Eurojackpot überhaupt irgendetwas zu gewinnen. Entscheiden Sie, ob Zahlenlotto 6 aus 49 oder Eurojackpot die höhere Gewinnwahrscheinlichkeit bietet. 2.4.9 Auf eine Kontaktanzeige erhält Tina 121 Zuschriften, von denen sie 33 als viel versprechend einschätzt. Sie trifft sich mit den 33 potentiellen Partnern in zufälliger Reihenfolge. Nach jedem Treffen muss sie sofort entscheiden, ob sie die Beziehung vertiefen will oder nicht. Geben Sie Tina einen mathematisch begründeten Rat, wie sie vorgehen sollte. Burghardt – RWB 2013/2014 3 Zufallsvariablen 37 3 Zufallsvariablen 3.1 Ein Glücksspiel zur Finanzierung einer Rutschbahn Die Rutsche in der Kindertagesstätte Ömmes und Oimel muss dringend erneuert werden. Die Elterninitiative, die die Kindertagesstätte betreibt, überlegt, ein Kitafest zu veranstalten, zu dem alle Eltern und Verwandten der Kinder und alle Bewohner der Nachbarschaft eingeladen werden. Ein Vater schlägt vor, neben einem Basar und dem Verkauf von selbst gemachtem Kuchen könne auch ein Glücksspiel durchgeführt werden, bei dem der Reinerlös für die Anschaffung der Rutsche mit verwendet werden könnte. Folgendes Spiel schlägt er vor: Mit einem Würfel wird zweimal hintereinander geworfen. Jeder Mitspieler setzt 0,50 € ein. Als Gewinn wird ausgezahlt: · 1 €, falls die Augensumme 10 ist; · 2 €, falls die Augensumme 11 ist; · 3 €, falls die Augensumme 12 ist. In allen anderen Fällen erhält man keinen Gewinn. In der Elterninitiative wird heftig diskutiert, ob dieses Spiel wirklich geeignet ist, einen positiven Erlös für die KiTa zu erbringen... 3.2 Definition Jedem Ergebnis des Zufallsexperiments werden hier Werte zugeordnet: Einerseits wird jedem Wurf die Augensumme, andererseits aber auch der Gewinn zugeordnet. Der Wert der Augensumme und die Höhe des Gewinns sind dabei Größen die vom Zufall abhängen. Zuordnungen, deren Werte vom Zufall abhängen, heißen in der Mathematik Zufallsvariablen. Definition. Es sei ( W,P ) ein endlicher Wahrscheinlichkeitsraum. Jede Funktion X , die jedem Ergebnis w einen Wert X ( w) zuordnet, heißt Zufallsvariable. Sind die zugeordneten Werte allesamt reelle Zahlen, nennt man X auch reellwertige Zufallsvariable. Bei jeder Zufallsvariable interessiert, welche Werte sie mit welcher Wahrscheinlichkeit annimmt. Man nennt dies auch die Verteilung der Zufallsvariablen. Definition. · Für jeden Wert x bezeichnet „ X = x “ das Ereignis, dass die Zufallsvariable X den Wert x hat. Mit P ( X = x ) wird die Wahrscheinlichkeit für dieses Ereignis bezeichnet. · Ist Y ebenfalls eine Zufallsvariable, so bezeichnet „ X = x, Y = y “ das Ereignis, dass X den Wert x und Y den Wert y hat. Mit P ( X = x, Y = y ) wird die Wahrscheinlichkeit für dieses Ereignis bezeichnet. Burghardt – RWB 2013/2014 3 Zufallsvariablen · 38 Nehmen zwei Zufallsvariablen dieselben Werte jeweils mit denselben Wahrscheinlichkeiten an, sagt man, die Zufallsvariablen sind identisch verteilt.8 Im Fall des in der Elterninitiative diskutierten Würfelspiels gebe die reellwertige Zufallsvariable X die Augensumme an. Den Ergebnisraum bilden alle Paare ( a1 | a2 ) von Zahlen 1, 2, 3, 4, 5, 6 . Dann ist X ( a1 | a2 ) = a1 + a2 . X kann nur Zahlen zwischen 2 und 12 annehmen. In der folgenden Tabelle sind die möglichen Werte von X und die Ergebnisse, die zu diesen Werten führen, angegeben: Wert zugehörige Ergebnisse (1 | 1) 2 3 4 5 6 7 8 9 10 11 12 (1 | 2 ) , ( 2 | 1) (1 | 3) , ( 2 | 2 ) , ( 3 | 1) (1 | 4 ) , ( 2 | 3) , ( 3 | 2 ) , ( 4 | 1) (1 | 5) , ( 2 | 4 ) , ( 3 | 3) , ( 4 | 2 ) , ( 5 | 1) (1 | 6 ) , ( 2 | 5) , ( 3 | 4 ) , ( 4 | 3) , ( 5 | 2 ) , ( 6 | 1) ( 2 | 6 ) , ( 3 | 5) , ( 4 | 4 ) , ( 5 | 3) , ( 6 | 2 ) ( 3 | 6 ) , ( 4 | 5) , ( 5 | 4 ) , ( 6 | 3) ( 4 | 6 ) , ( 5 | 5) , ( 6 | 4 ) ( 5 | 6 ) , ( 6 | 5) (6 | 6) Unter der Laplace-Annahme ergeben sich hiermit für die Werte von X folgende Wahrscheinlichkeiten: 1 2 3 4 5 P ( X = 2) = P ( X = 3) = P ( X = 4) = P ( X = 5) = P ( X = 6) = 36 36 36 36 36 6 5 4 3 2 P ( X = 7) = P ( X = 8) = P ( X = 9) = P ( X = 10 ) = P ( X = 11) = 36 36 36 36 36 1 P ( X = 12 ) = 36 Um zu berechnen, wann ein Mitspieler in dem Spiel, dessen Durchführung in der Elterninitiative diskutiert wird, gewinnt, also die Würfelsumme eine 10, 11 oder 12 ist, muss P (" X = 10 " È " X = 11" È " X = 12") berechnet werden. Da die einzelnen Ereignisse disjunkt sind, berechnet man diese Wahrscheinlichkeit so: 3 2 1 1 P ( X = 10 ) + P ( X = 11) + P ( X = 12) = + + = = 0, 16 . 36 36 36 6 Die Wahrscheinlichkeit zu gewinnen ist also nicht klein. 8 Diese Definition des Begriffs ist nur im Kontext endlicher Wahrscheinlichkeitsräume sinnvoll. Burghardt – RWB 2013/2014 3 Zufallsvariablen 39 Die Höhe des Reingewinns je Spieler und Spiel stellen wir mit Hilfe einer weiteren Zufallsvariablen Y dar. Reingewinn bedeutet, dass von dem Gewinn der Einsatz abgezogen wurde. Y nimmt die folgenden Werte mit den folgenden Wahrscheinlichkeiten an: Gewinn Y Augensumme 0, 50 € 10 1, 50 € 11 2, 50 € 12 -0, 50 € alle anderen Wahrscheinlichkeit 3 36 2 36 1 36 30 36 Die Elterninitiative sollte das Spiel nur dann durchführen, wenn der Reingewinn „im Schnitt“ negativ ist, denn ansonsten müsste auf Dauer gesehen mehr Geld an die Spieler ausgezahlt werden als eingenommen wird. Welchen Reingewinn hat man also durchschnittlich zu erwarten, wenn das Spiel sehr oft durchgeführt wird? Diesen Wert bezeichnet man als Erwartungswert der Zufallsvariable. 3.3 Erwartungswert und Varianz Definition. X sei eine reellwertige Zufallsvariable, die die paarweise verschiedenen Werte x1 , x2 , , xn annimmt. Dann heißt die Zahl E ( X ) = x1 × P ( X = x1 ) + x2 × P ( X = x2 ) + + xn × P ( X = xn ) der Erwartungswert der Zufallsvariable X . Der Erwartungswert gibt an, welchen Wert man durchschnittlich für die Zufallsvariable erwarten kann, wenn man das zugrunde liegende Zufallsexperiment sehr häufig durchführt. Wir berechnen den Erwartungswert für den Reingewinn beim Würfelspiel der Elterninitiative: Die Werte, die die Zufallsvariable Y annehmen kann, sind 0, 50 , 1, 50 , 2, 50 und -0, 50 . Mit den Wahrscheinlichkeiten aus der letzten Tabelle ergibt sich: E (Y ) = 0, 5 × P (Y = 0, 5) + 1, 5 × P (Y = 1, 5 ) + 2, 5 × P (Y = 2, 5 ) + ( -0, 5 ) × P (Y = -0, 5 ) 3 2 1 30 = 0, 5 × + 1, 5 × + 2, 5 × + ( -0, 5 ) × 36 36 36 36 2 = 9 Bei sehr häufiger Durchführung des Spiels machen die Spieler also im Schnitt einen Verlust von 22, 2 Eurocent. Das Spiel ist also wirklich für die Elterninitiative lohnend. Welche Augensumme ist zu erwarten, wenn sehr oft ein Würfel zweimal geworfen wird? Für die Zufallsvariable X , die die Augensumme angibt, haben wir oben bereits die folgende Verteilung bestimmt: P ( X = 2) = 1 36 P ( X = 3) = Burghardt – RWB 2013/2014 2 36 P ( X = 4) = 3 36 P ( X = 5) = 4 36 P ( X = 6) = 5 36 3 Zufallsvariablen 6 36 1 P ( X = 12 ) = 36 P ( X = 7) = 40 P ( X = 8) = 5 36 P ( X = 9) = 4 36 P ( X = 10 ) = 3 36 P ( X = 11) = 2 36 Hieraus ergibt sich E ( X ) = 2 × P ( X = 2 ) + 3 × P ( X = 3) + 4 × P ( X = 4 ) + 5 × P ( X = 5) + + 6 × P ( X = 6 ) + 7 × P ( X = 7) + 8 × P ( X = 8 ) + 9 × P ( X = 9 ) + + 10 × P ( X = 10 ) + 11 × P ( X = 11) + 12 × P ( X = 12 ) 1 2 3 4 5 6 + 3× + 4 × + 5× + 6 × + 7× + 36 36 36 36 36 36 5 4 3 2 1 + 8 × + 9 × + 10 × + 11 × + 12 × 36 36 36 36 36 = 7 Diese Rechnung ist sehr umständlich. Es gibt jedoch Rechenregeln, die die Berechnung von Erwartungswerten in vielen Fällen vereinfachen: = 2× Satz (Rechenregeln für den Erwartungswert). a) Für jede Zahl a gilt E ( a × X ) = a × E ( X ) . b) Für jede Zahl b gilt E ( X + b ) = E ( X ) + b . c) E ( X ± Y ) = E ( X ) ± E (Y ) . d) Sind X und Y identisch verteilt, gilt E ( X ) = E (Y ) . Mit Hilfe der Rechenregeln berechnen wir nochmals den Erwartungswert der Augensumme bei zwei Würfen. Hierfür führen wir zwei neue Zufallsvariablen X1 und X 2 ein: X1 gebe die Augenzahl beim ersten und X 2 gebe die Augenzahl beim zweiten Wurf an. Dann gilt für die Augensumme X = X1 + X2 , und aus Rechenregel c) ergibt sich E ( X ) = E ( X1 ) + E ( X2 ) . Wir berechen E ( X1 ) und E ( X2 ) : X1 und X 2 nehmen jeden der Werte 1, 2, 3, 4, 5, 6 mit Wahrscheinlichkeit 1 6 an. X1 und X2 sind also identisch verteilt. Nach Rechenregel d) ist also E ( X1 ) = E ( X2 ) , sodass E ( X ) = E ( X1 ) + E ( X1 ) = 2 × E ( X1 ) ist. E ( X1 ) kann leicht berechnet werden: E ( X1 ) = 1 × P ( X1 = 1 ) + 2 × P ( X1 = 2 ) + 3 × P ( X1 = 3 ) + +4 × P ( X1 = 4 ) + 5 × P ( X1 = 5) + 6 × P ( X1 = 6 ) 1 1 1 1 1 1 = 1× + 2× + 3× + 4 × + 5× + 6 × 6 6 6 6 6 6 = 3, 5 Insgesamt ergibt sich E ( X ) = 2 × E ( X1 ) = 7 . Der Erwartungswert einer Zufallsvariable X gibt an, welcher Durchschnittswert zu erwarten ist, wenn das zugrunde liegende Zufallsexperiments sehr oft wiederholt wird. Jedoch schwanken die tatsächlichen Werte um diesen Wert. Die zu erwartende Größe dieser Abweichung ist natürlich von Interesse. Burghardt – RWB 2013/2014 3 Zufallsvariablen 41 Die Abweichung das tatsächlichen Werts vom Erwartungswert ist X - E ( X ) . Dieser Wert kann positiv oder negativ sein, im Mittel ist er jedoch 0, denn E ( X - E ( X )) = E ( X ) - E ( X ) = 0 , da für jede reelle Zahl b gilt E ( X + b ) = E ( X ) + b . Um für die Abweichung des tatsächlichen Werts vom Erwartungswert nur nicht negative Werte zu bekommen und gleichzeitig größere Abweichungen im Vergleich zu kleineren Abweichungen stärker zu gewichten, quadriert man die Abweichungen – betrachtet also ( X - E ( X ) ) – und bestimmt von dieser Zufallsvariable den Erwartungswert: 2 Definition. Die Zahl ( V ( X ) = E ( X - E ( X )) 2 ) ist die zu erwartende quadratische Abweichung der Zufallsvariable X von ihrem Erwartungswert und heißt Varianz von X . Die Zahl s( X ) = V ( X ) heißt Standardabweichung von X . Eine andere Bezeichnung ist Streuung. Auch für die Berechnung von Varianzen gibt es Rechenregeln: Satz. (Rechenregeln für die Varianz). a) V ( X ) = E ( X 2 ) - éëE ( X )ùû 2 b) Falls X und Y identisch verteilt sind, gilt V ( X ) = V (Y ) . c) Für jede Zahl a gilt V ( a × X ) = a2 × V ( X ) . d) Für jede Zahl b gilt V ( X + b ) = V ( X ) . Vorsicht: In der Regel gilt V ( X + Y ) ¹ V ( X ) + V (Y ) ! Wir wollen die Eigenschaften nachweisen, um das Rechnen mit Varianzen und Erwartungswerten zu üben. zu a) V (X) = E (( X - E ( X )) ) 2 ( = E X 2 - 2 XE ( X ) + E ( X ) 2 ) = E ( X 2 - 2 XE ( X ) ) + E ( X ) , wegen E ( X + b ) = E ( X ) + b 2 = E ( X 2 ) - E ( 2 XE ( X ) ) + E ( X ) , wegen E ( X ± Y ) = E ( X ) ± E (Y ) 2 = E ( X 2 ) - 2E ( X ) E ( X ) + E ( X ) , wegen E ( aX ) = aE ( X ) 2 = E ( X 2 ) - 2E ( X ) + E ( X ) 2 = E ( X2 ) - E ( X ) 2 Burghardt – RWB 2013/2014 2 3 Zufallsvariablen 42 zu b) Aus den Eigenschaften des Erwartungswertes wissen wir E ( X ) = E (Y ) , falls X und Y identisch verteilt sind. Wenn X und Y identisch verteilt sind, also dieselben Werte mit denselben Wahrscheinlichkeiten annehmen, gilt dies auch für X 2 und Y 2 . Also ist dann auch E ( X 2 ) = E (Y 2 ) . Damit ergibt sich V ( X ) = E ( X 2 ) - éëE ( X )ùû = E (Y 2 ) - éëE (Y )ùû = V (Y ) 2 zu c) ( ) V ( aX ) = E ( aX ) - éëE ( aX ) ùû 2 = E ( a2 X 2 ) - éëE ( aX ) ùû 2 2 2 = a2E ( X 2 ) - éëaE ( X ) ùû , wegen E ( aX ) = aE ( X ) 2 = a2E ( X 2 ) - a2 éëE ( X ) ùû ( = a2 E ( X 2 ) - éëE ( X ) ùû 2 2 ) = a2V ( X ) zu d) V ( X + b) = E = E ((( X + b) - E ( X + b)) ) 2 ((( X + b) - (E ( X ) + b)) ) , 2 ((( X + b) - E ( X ) - b) ) E (( X - E ( X )) ) 2 = E = wegen E ( X + b ) = E ( X ) + b 2 = V (X) zu e) V (X +Y ) = E (( X + Y ) ) - éëE ( X + Y )ùû 2 2 E ( X 2 + 2 XY + Y 2 ) - éëE ( X ) + E (Y ) ùû , 2 = wegen E ( X + Y ) = E ( X ) + E (Y ) 2 2 = E ( X 2 ) + E ( 2 XY ) + E (Y 2 ) - éE ( X ) + 2E ( X ) × E (Y ) + E (Y ) ù , ë û wegen E ( X + Y ) = E ( X ) + E (Y ) = E ( X 2 ) + 2E ( XY ) + E (Y 2 ) - E ( X ) - 2E ( X ) × E (Y ) - E (Y ) , 2 2 wegen E ( aX ) = aE ( X ) = E ( X 2 ) - E ( X ) + E (Y 2 ) - E (Y ) + 2E ( XY ) - 2E ( X ) × E (Y ) 2 2 = V ( X ) + V (Y ) + 2E ( XY ) - 2E ( X ) × E (Y ) = V ( X ) + V (Y ) + 2E ( X ) × E (Y ) - 2E ( X ) × E (Y ) , wegen E ( XY ) = E ( X ) E (Y ) = V ( X ) + V (Y ) Burghardt – RWB 2013/2014 3 Zufallsvariablen 43 Wir berechnen die Varianz für die Zufallsvariable Y , die beim Spiel für die Anschaffung der Rutsche den Reingewinn der Spieler angibt: Wir hatten bereits die Werte Reingewinn Y Augensumme 0, 50 € 10 1, 50 € 11 2, 50 € 12 -0, 50 € alle anderen Wahrscheinlichkeit 3 36 2 36 1 36 30 36 und den Erwartungswert E (Y ) = - 2 9 berechnet, sodass E (Y ) = 4 81 ist. Aus der Tabelle ergibt 2 sich für Y 2 die Verteilung Augensumme Y2 2 0, 50 = 0, 25 10 Wahrscheinlichkeit 3 36 1, 502 = 2, 25 11 2 36 2, 50 = 6, 25 12 1 36 alle anderen 30 36 2 ( -0, 50 ) 2 = 0, 25 Also nimmt Y 2 die folgenden Werte mit den folgenden Wahrscheinlichkeiten an: 0, 25 33 36 Wert Wahrscheinlichkeit 2, 25 2 36 6, 25 1 36 Damit ergibt sich E (Y 2 ) = 0, 25 × 33 2 1 19 . + 2, 25 × + 6, 25 × = 36 36 36 36 Für die Varianz berechnen wir damit V (Y ) = E (Y 2 ) - éëE (Y ) ùû = 2 3.4 19 4 - = 0, 478 und s (Y ) = V (Y ) = 0, 692 . 36 81 Unabhängigkeit von Zufallsvariablen Wir hatten für Ereignisse A und B erklärt, wann wir sie als stochastisch unabhängig ansehen wollen: Stellen wir das zugrunde liegende Zufallsexperiment als zweistufig dar, wobei im ersten Schritt A oder A und im zweiten Schritt B oder B eintreten kann, so sind A und B stochastisch unabhängig, wenn die Wahrscheinlichkeit für das Eintreten von B nicht davon abhängt, ob in der ersten Stufe A eingetreten ist oder nicht: Die Wahrscheinlichkeiten PA ( B ) und PA ( B ) sind gleich und stimmen mit P ( B ) überein. Überprüft wird dies in der Regel, indem die Gleichung P ( A Ç B ) = P ( A) × P ( B ) nachgewiesen wird. Burghardt – RWB 2013/2014 3 Zufallsvariablen 44 Wir übertragen dies auf Zufallsvariablen. Liegen zwei Zufallsvariablen X und Y vor, so führen jeder Wert x von X und y von Y zu zwei Ereignissen „ X = x “ und „ Y = y “, die stochastisch unabhängig sein können oder nicht. Sind sie stochastisch unabhängig egal wie x und y gewählt werden, nennen wir die beiden Zufallsvariablen X und Y stochastisch unabhängig: Definition. Zwei Zufallsvariablen X und Y auf einem Wahrscheinlichkeitsraum ( W,P ) sind (stochastisch) unabhängig, wenn für alle Werte x und y gilt: P ( X = x, Y = y ) = P ( X = x ) × P (Y = y ) . Allgemeiner gilt: Eine Familie X1 , X2 , , Xn von Zufallsvariablen auf einem endlichen Wahrschein- lichkeitsraum ( W,P ) ist (stochastisch) unabhängig, wenn für alle Werte x1 , x2 , P ( X1 = x1 , X2 = x2 , , Xn = xn ) = P ( X1 = x1 ) × P ( X2 = x2 ) × , xn und gilt: × P ( X n = xn ) . Im Fall unabhängiger Zufallsvariablen haben wir zwei zusätzliche Rechenregeln für den Erwartungswert und die Varianz: Satz. Wenn X und Y unabhängig sind, gilt a) E ( X × Y ) = E ( X ) × E (Y ) b) V ( X + Y ) = V ( X ) + V (Y ) Mit Hilfe der Formel V ( X + Y ) = V ( X ) + V (Y ) (bei unabhängigen Zufallsvariablen) können wir leicht die Varianz der Augensumme beim zweimaligen Würfeln berechnen: Für die Augensumme X ist X = X1 + X2 , wobei X1 die Augenzahl im ersten Wurf und X 2 die Augenzahl im zweiten Wurf ist. X1 und X 2 sind unabhängig. Um dies zu überprüfen, berechnet man für alle möglichen Werte x und y getrennt die Wahrscheinlichkeiten P ( X = x, Y = y ) sowie P ( X = x ) × P (Y = y ) und stellt fest, dass die Werte überein stimmen. Da X1 und X 2 – wie oben gesehen – identisch verteilt sind, ergibt sich: V ( X ) = V ( X1 + X2 ) = V ( X1 ) + V ( X2 ) = 2V ( X1 ) . Wir hatten bereits E ( X1 ) = 3, 5 nachgewiesen. Da X1 jeden der Werte 1, 2, 3, 4, 5, 6 mit Wahrscheinlichkeit 1 6 annimmt, nimmt X12 jeden der Werte 1, 4, 9, 16, 25, 36 ebenfalls mit Wahrscheinlichkeit 1 6 an. Damit finden wir 1 1 1 1 1 1 92 E ( X12 ) = 2 × + 4 × + 9 × + 16 × + 25 × + 36 × = 6 6 6 6 6 6 6 Es ergibt sich 92 2 V ( X1 ) = E ( X12 ) - E ( X1 ) = - 3, 52 = 3, 083 6 also V ( X ) = 2V ( X1 ) = 6, 16 und s ( X ) = V ( X ) = 2, 483 . Wir können nun auch leicht den Erwartungswert der Zufallsvariable Z berechnen, die das Produkt der Augenzahlen bei zwei Würfen angibt: Da Z = X1 × X2 ist und X1 und X 2 unabhängig sind, ergibt sich Burghardt – RWB 2013/2014 3 Zufallsvariablen 45 E ( Z ) = E ( X1 × X2 ) = E ( X1 ) × E ( X2 ) = 3, 5 × 3, 5 = 12, 25 . 3.5 Lage der Werte relativ zum Erwartungswert Mit Hilfe der Ungleichungen von Tschebyschow9, auf die wir hier nicht weiter eingehen werden, kann man Informationen darüber gewinnen, mit welcher Wahrscheinlichkeit die Werte einer Zufallsvariablen in einem bestimmten Intervall um den Erwartungswert liegen. Mit den Abkürzungen m = E ( X ) und s = s ( X ) gilt: Die Werte einer Zufallsvariable liegen · mit einer Wahrscheinlichkeit von mehr als 3 4 im Intervall [m - 2s | m + 2s] ; · mit einer Wahrscheinlichkeit von mehr als 8 9 im Intervall [m - 3s | m + 3s] ; · Pafnuti L. Tschebyschow mit einer Wahrscheinlichkeit von mehr als 15 16 im Intervall [ m - 4 s | m + 4s ] . 3.6 Übungen 3.6.1 Ein Laplace-Würfel wird zweimal geworfen. Die Zufallsvariable X gebe die Augensumme und die Zufallsvariable Y gebe das Maximum der geworfenen Augenzahlen an. a) Bestimmen Sie die Verteilung von X und von Y . b) Berechnen Sie den Erwartungswert und die Varianz von Y . c) Untersuchen Sie, ob X und Y unabhängig sind. 3.6.2 Eine deutsche 1-€-Münze wird viermal geworfen. Die Zufallsvariable X gebe an, wie oft Adler in den ersten beiden Würfen vorkommt. Die Zufallsvariable Y gebe an, wie oft Adler in den letzten beiden Würfen vorkommt. a) Bestimmen Sie die Verteilung von X und von Y . Untersuchen Sie, ob X und Y identisch verteilt sind. b) Berechnen Sie die Erwartungswerte und die Varianzen von X und Y . c) Untersuchen Sie, ob X und Y unabhängig sind. 3.6.3 Eine Urne enthält zehn Kugeln, die die Zahlen 1, 2, ,10 , 10 tragen. a) Es wird eine Kugel zufällig gezogen. Die Zufallsvariable X gebe die auf der Kugel verzeichnete Zahl an. Bestimmen Sie die Verteilung von X und berechnen Sie E ( X ) und V ( X ) . b) Es werden zwei Kugeln zufällig und ohne Zurücklegen gezogen. Die Zufallsvariable Y gebe das Maximum der beiden Zahlen auf den Kugeln an. Bestimmen Sie die Verteilung von Y und berechnen Sie E (Y ) und V (Y ) . 9 Pafnuti Lwowitsch Tschebyschow (geb. 16. Mai 1821, gest. 8. Dezember 1894) war einer der bedeutendsten russischen Mathematiker des 19. Jahrhunderts. Burghardt – RWB 2013/2014 3 Zufallsvariablen c) 46 Es werden zwei Kugeln zufällig und mit Zurücklegen gezogen. Die Zufallsvariable Z gebe das Maximum der beiden Zahlen auf den Kugeln an. Bestimmen Sie die Verteilung von Z und berechnen Sie E ( Z ) und V ( Z ) . Tipp: Verwenden Sie, wo hilfreich, die folgenden Formeln: n · 1 + 2 + 3 + + n = × ( n + 1) 2 n · 12 + 22 + 32 + + n2 = × ( n + 1) × (2n + 1) 6 2 æn ö · 13 + 23 + 33 + + n3 = ç × ( n + 1) ÷ è2 ø 3.6.4 Ein Glücksspiel heißt faires Spiel, falls der Einsatz nur so hoch ist, dass man dem Erwartungswert nach weder verliert noch gewinnt, wenn also der Einsatz dem Erwartungswert des Gewinns entspricht. Untersuchen Sie, wie groß der Einsatz bei dem folgenden Spiel sein müsste, damit es ein faires Spiel ist: Ein Laplace-Würfel wird zweimal geworfen. Als Gewinn erhält man so viel Euro, wie das Produkt der Augenzahlen beträgt. 3.6.5 Setzt man beim Roulette 1 € auf eine der Zahlen 0, 1, 2, ,,36 36 , so erhält man 36 €, falls die Roulettekugel in dem Feld liegen bleibt, auf dessen Zahl man gesetzt hat. Berechnen Sie den Erwartungswert und die Varianz des Reingewinns des Spiels. 3.6.6 Bei einem Gesellschaftsspiel wird 1 € eingesetzt. Danach wählt man eine Zahl aus den Zahlen 1, 2, ,,6 6 aus und würfelt dreimal mit einem Laplace-Würfel. Man erhält als Gewinn · das Vierfache des Einsatzes (also 4 €), wenn alle drei Würfe die gewählte Zahl zeigen; · das Dreifache des Einsatzes (also 3 €), wenn zwei Würfe die gewählte Zahl zeigen; · das Doppelte des Einsatzes (also 2 €), wenn nur ein Wurf die gewählte Zahl zeigt. In allen anderen Fällen erhält man nichts. Die Zufallsvariable X gebe den Reingewinn eines Spielers bei einem Spiel an. a) Bestimmen Sie die Verteilung von X . b) Berechnen Sie E ( X ) und V ( X ) . Entscheiden Sie, ob es sich um ein faires Spiel handelt. c) Bearbeiten Sie a) und b) erneut für den Fall, dass der Einsatz nicht 1 € sondern ein beliebiger Geldbetrag g ist. 3.6.7 Im Lauf eines Jahres können die Schaukel, die Wippe und die Rutsche in einer Kita kaputt gehen und müssen dann repariert werden. Erfahrungsgemäß ist die Wahrscheinlichkeit dafür, dass Schaukel, Wippe oder Rutsche im Lauf eines Jahres kaputt gehen, jeweils 0, 2 . Eine Reparatur der Schaukel kostet etwa 30 €, eine Reparatur der Wippe 25 € und eine Reparatur der Rutsche 15 €. Man kann davon ausgehen, dass die Schäden an Schaukel, Wippe und Rutsche unabhängig voneinander auftreten, und dass ein einmal repariertes Spielgerät im Lauf des Jahres nicht noch einmal kaputt geht. Um die zu erwartenden Reparaturkosten zu berechnen, modellieren Sie die Situation durch drei unabhängige Zufallsvariablen S,W und R . S = 1 bedeutet, dass die Schaukel im Lauf des Jahres kaputt geht, und S = 0 bedeutet, dass sie nicht kaputt geht. Analoge Bedeutung haben die Zufallsvariablen W für die Wippe und R für die Rutsche. a) Geben Sie umgangssprachlich die Bedeutung der Ereignisse „ S = 0, W = 1, R = 0 “ sowie „ S = 1, W = 0, R = 1 “ an. Burghardt – RWB 2013/2014 3 Zufallsvariablen b) Bestimmen Sie die Werte in der folgenden Tabelle: P ( S = s, W = w, R = r ) s w r Reparaturkosten 0 0 0 0 1 1 1 1 c) d) 47 0 0 1 1 0 0 1 1 0 1 0 1 0 1 0 1 Berechnen Sie die zu erwartenden Reparaturkosten. Bestimmen Sie für die Reparaturkosten die Standardabweichung. 3.6.8 Eine Laplace-Münze wird so lange geworfen, bis eine von beiden Seiten zum zweiten Mal erscheint. a) Modellieren Sie das Zufallsexperiment in einem geeigneten Wahrscheinlichkeitsraum. b) Die Zufallsvariable X gebe die Anzahl der Würfe an. Berechnen Sie E ( X ) und V ( X ) . 3.6.9 Eine deutsche 1 €-Münze wird solange geworfen, bis zum ersten Mal Adler erscheint, höchstens jedoch zehnmal. a) Modellieren Sie das Zufallsexperiment in einem geeigneten Wahrscheinlichkeitsraum unter der Annahme, dass die Münze eine Laplace-Münze ist. b) Die Zufallsvariable X gebe die Anzahl der Würfe an. Berechnen Sie, wie oft man durchschnittlich werfen muss, d.h., berechnen Sie E ( X ) . Tipp: Wenn Sie wollen, können Sie an geeigneter Stelle die Formel n × x n+1 - ( n + 1) × x n + 1 n -1 2 3 1 + 2x + 3x + 4 x + + nx = 2 ( x - 1) verwenden, die man erhält, indem man die geometrische Summenformel x n+1 - 1 1 + x + x2 + x3 + + x n = x -1 (auf beiden Seiten) ableitet. 3.6.10 Von allen Schülern einer Klasse hat der Anteil p , 0 £ p £ 1 , keine Hausaufgaben gemacht. Bei einem zufällig ausgewählten Schüler wird überprüft, ob er die Hausaufgaben gemacht hat. Es sei X = 1 , falls er die Hausaufgaben nicht gemacht hat, und X = 0 , falls er die Hausaufgaben gemacht hat. Berechnen Sie m = E ( X ) sowie s2 = V ( X ) und s = V ( X ) . 3.6.11 Für die Zufallsvariable X gelte E ( X ) = 100 und V ( X ) = 9 . Berechnen Sie a) den Erwartungswert von X 2 , X 2 - 1 und ( X - 1) . b) Erwartungswert und Varianz von 2X + 4 , 2X - 4 und -2X - 4 . 2 3.6.12 Auf dem Weg zur Arbeit muss Christina drei Ampeln passieren, die unabhängig voneinander den Verkehr regeln und jeweils mit der Wahrscheinlichkeit 0, 4 Rot zeigen. Burghardt – RWB 2013/2014 3 Zufallsvariablen a) b) c) 48 Modellieren Sie die Situation in einem geeigneten Wahrscheinlichkeitsraum. Die Zufallsvariable X gebe die Anzahl der Ampeln an, die Christina auf dem Weg zur Arbeit ohne Halt passieren kann. Bestimmen Sie die Verteilung von X und berechnen Sie, wie viele Ampeln Christina im Schnitt ohne Halt passieren kann. Berechnen Sie, mit welcher Wahrscheinlichkeit Christina mindestens zwei Ampeln passieren kann ohne halten zu müssen. 3.6.13 Vor einem Fahrstuhl steht eine Gruppe von sieben Personen. Drei Personen wiegen je 72 kg, zwei wiegen je 80 kg und je eine Person wiegt 82 kg bzw. 85 kg. Zwei zufällig ausgewählte Personen betreten den Fahrstuhl. a) Modellieren Sie die Situation in einem geeigneten Wahrscheinlichkeitsraum. b) Die Zufallsvariable X gebe das Gewicht der beiden Personen, die den Fahrstuhl betreten, an. Bestimmen Sie die Verteilung von X und berechnen Sie den Erwartungswert von X c) Der Fahrstuhl kann maximal 155 kg befördern. Berechnen Sie die Wahrscheinlichkeit, dass der Fahrstuhl die beiden Personen transportieren kann. 3.6.14 Bei einem Büdchen kann man neben einfachen belegten Brötchen auch ein aufwendig belegtes Baguette-Brötchen kaufen. Der Besitzer des Büdchens stellt jeden morgen fünf dieser Baguette-Brötchen her. Die Zutaten kosten ihm im Einkauf je Baguette-Brötchen 1, 50 €, jedes Baguette-Brötchen wird für 2, 50 € verkauft. Aus seinen Erfahrungen hat er die folgende Tabelle für die tägliche Nachfrage nach den Baguette-Brötchen aufgestellt: Nachfrage Wahrscheinlichkeit a) b) 0 0,05 1 0,1 2 0,3 3 0,2 4 0,2 5 0,1 >5 0,05 Untersuchen Sie, ob es sich auf lange Sicht lohnt, die Baguette-Brötchen zum angegebenen Preis zu verkaufen. Ermitteln Sie einen Verkaufspreis, der dem Besitzer des Büdchens im Schnitt einen Gewinn von rund 0,50 € einbringt. 3.6.15 Für die Großküche, die die städtischen Schulen mit Mittagessen versorgt, soll eine Maschine angeschafft werden, die automatisch Brühe in Gefäße füllt. Es sollen jeweils 500 ml abgefüllt werden. Bei einem Test wurden zwei Maschinen überprüft. Es ergaben sich die folgenden Ergebnisse: Menge in ml Wahrscheinlichkeit bei Maschine I Wahrscheinlichkeit bei Maschine II a) b) 494 496 498 500 502 504 506 0,02 0,05 0,19 0,5 0,16 0,05 0,03 0,02 0,07 0,17 0,5 0,14 0,07 0,03 Überprüfen Sie, ob der Sollwert im Schnitt eingehalten wird. Entscheiden Sie, welche Maschine gekauft werden soll. 3.6.16 Beim Spiel 77 wird eine siebenstellige Zahl gezogen. Es gibt die folgenden 7 Gewinnklassen: Klasse 1 2 3 4 5 6 7 Anzahl der richtigen Endziffern 7 6 5 4 3 2 1 Je Spiel ist ein Einsatz von 1,50 € zu leisten. a) Berechnen Sie die Gewinnwahrscheinlichkeiten für die einzelnen Klassen. (Tipp: Die Gewinnwahrscheinlichkeit für Klasse 7 ist nicht 1 10 sondern 9 100 !) b) Für Höhe des Gewinns galten bis August 2010 folgende Quoten: Burghardt – RWB 2013/2014 3 Zufallsvariablen Klasse Gewinn in Euro c) 49 1 mind. 170.000, max. 1.000.000 2 3 4 5 6 7 70.000 7.000 700 70 7 2,50 Die Zufallsvariable X gebe den je Spiel erzielten Reingewinn an, wenn man in Gewinnklasse 1 den minimalen Gewinn annimmt, die Zufallsvariable Y gebe den je Spiel erzielten Gewinn an, wenn man in Gewinnklasse 1 den maximalen Gewinn annimmt. Berechnen Sie jeweils den Erwartungswert, die Varianz und die Standardabweichung. Ab September 2010 erhöhte sich der Einsatz je Spiel auf 2,50 €. Damit verbunden war eine Verbesserung der Gewinnquoten gemäß der folgenden Tabelle: Klasse Gewinn in Euro 1 mind. 177.777, max. 1.777.777 2 3 4 5 6 7 77.777 7.777 777 77 17 5 Die Zufallsvariable X1 gebe den nach den ab September je Spiel erzielbaren Reingewinn an, d) wenn man in Gewinnklasse 1 den minimalen Gewinn annimmt, die Zufallsvariable Y1 gebe den je Spiel erzielten Gewinn an, wenn man in Gewinnklasse 1 den maximalen Gewinn annimmt. Berechnen Sie jeweils den Erwartungswert, die Varianz und die Standardabweichung. Entscheiden Sie, ob die ab September 2010 geltenden Regeln für die Spieler günstiger sind als die Regeln bis August. Burghardt – RWB 2013/2014 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten 50 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten 4.1 Neue Lehr-Lern-Methoden in der Kita Heute lernen Kinder bereits in der Kindertagesstätte und in der Grundschule Englisch. Ein pädagogischer Verlag hat neues Lernmaterial für Kita und Grundschule entwickelt. In einer Broschüre wirbt er, dass mit seinem neuen Material bei 60 % der Kinder bessere Resultate als mit herkömmlichem Lernmaterial erzielt werden können. Die Erzieher des Kita Ömmes und Oimel und die Lehrerinnen und Lehrer einer benachbarten Sankt-Martin-Grundschule haben sich getroffen, um über die Einführung des neuen Lernmaterials zu beraten. Mit welcher Wahrscheinlichkeit werden 6 Kinder einer Kitagruppe von 10 Kindern bessere Lernleistungen zeigen? Mit welcher Wahrscheinlichkeit werden bei einer Grundschulklasse von 18 Kindern 10 Kinder besser lernen? 4.2 Die Binomialverteilung 4.2.1 Bernoulli-Experimente und Bernoulli-Variablen Bei der Untersuchung, ob ein Kind durch das neue Lernmaterial einen besseren Lernerfolg erzielt als mit herkömmlichem Material, liegt ein Zufallsexperiment vor, das nur zwei Ausgänge hat, nämlich „ja“ oder „nein“. Wir können es mit einer Zufallsvariable X modellieren, die nur zwei Werte annimmt, nämlich X = 0 (keine Verbesserung zu beobachten) und X = 1 (Verbesserung liegt vor). Die Wahrscheinlichkeit für das Ereignis „ X = 1 “ ist, wenn man der Broschüre des pädagogischen Verlags vertrauen darf, p = 0, 6 . Dann ist die Wahrscheinlichkeit für das Ereignis „ X = 1 “ natürlich q = 1 - p = 0, 4 . Experimente, die nur zwei mögliche Ausgänge haben, heißen Bernoulli-Experimente (nach Jakob Bernoulli, geboren 6. Januar 1655, gestorben 16. August 1705). Jakob Bernoulli Definition. Ein Bernoulli-Experiment ist ein Zufallsexperiment, das nur zwei Ausgänge hat. Die beiden Ausgänge werden in der Regel als Erfolg und Misserfolg oder Treffer“ und Niete bezeichnet. Die Wahrscheinlichkeit für Erfolg wird mit p bezeichnet und heißt Erfolgswahrscheinlichkeit oder Trefferwahrscheinlichkeit. Die Wahrscheinlichkeit für Misserfolg wird mit q bezeichnet und heißt Nietenwahrscheinlichkeit. In der Regel beschreiben wir ein Bernoulli-Experiment stets mit einer Zufallsvariable, die den Wert 1 mit Wahrscheinlichkeit p und den Wert 0 mit Wahrscheinlichkeit q = 1 - p annimmt. Eine solche Zufallsvariable nennen wir auch Bernoulli-Variable mit Erfolgs- oder Trefferwahrscheinlichkeit p . Wir berechnen Erwartungswert und Varianz von Bernoulli-Variablen: Burghardt – RWB 2013/2014 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten 51 Satz. Für jede Bernoulli-Variable X mit Erfolgswahrscheinlichkeit p gilt: a) E ( X ) = p b) V ( X ) = p × q BEWEIS. Zu a) E ( X ) = 1 × P ( X = 1) + 0 × P ( X = 1) = 1 × p + 0 × q = p Zu b) Die Zufallsvariablen X und X 2 sind (im vorliegenden Fall) identisch verteilt. Deshalb gilt E ( X 2 ) = E ( X ) und wir berechnen V ( X ) = E ( X 2 ) - E ( X ) = E ( X ) - E ( X ) = p - p2 = p (1 - p ) = pq . 2 2 4.2.2 Bernoulli-Ketten In der Regel werden Bernoulli-Experimente mehrfach unabhängig wiederholt. Wenn etwa – wie im Fall der Kita – bei einer Gruppe von 10 Kindern der Erfolg oder Misserfolg des neuen Lernmaterials untersucht wird, kann dies aufgefasst werden als eine Folge von 10 unabhängigen Bernoulli-Experimenten, wobei jedes die Trefferwahrscheinlichkeit p hat. Mit X1 , X2 , , X110 bezeichnen wir die Zufallsvariablen, die diese Versuche modellieren. Das Ereignis „ X1 = 1 “ bedeutet also, dass Kind 1 eine bessere Lernleistung zeigt, „ X2 = 1 “ bedeutet, dass Kind 2 eine bessere Lernleistung zeigt usw. Die Zufallsvariable S = X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9 + X10 gibt dann an, wie viele der 10 Kinder eine bessere Lernleistung zeigen, wenn sie mit dem neuen Material arbeiten. Definition. Wenn X1 , X2 , , Xn unabhängige Bernoulli-Variablen mit Trefferwahrscheinlichkeit p sind, dann heißt die Zufallsvariable S = X1 + X2 + + Xn , die die Anzahl der Treffer angibt, Bernoulli-Kette der Länge n mit Trefferwahrscheinlichkeit p . Die Erzieherinnen und Lehrer stellen sich die Frage, wie groß die Wahrscheinlichkeit dafür ist, dass 6 der 10 Kinder besser lernen. Sie suchen also die Wahrscheinlichkeit für das Ereignis „ S = 6 “. Wir wollen die Wahrscheinlichkeit für dieses Ereignis bestimmen. Hierzu überlegen wir: Das Ereignis „ S = 6 “ setzt sich zusammen aus allen „Einzelereignissen“ „ X1 = x1 , X2 = x2 , X3 = x3 , X4 = x4 , X5 = x5 , X6 = x6 , X7 = x7 , X8 = x8 , X9 = x9 , X10 = x10 “ wobei die Liste ( x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | x10 ) nur aus den Zahlen 0 und 1 besteht und genau 6 dieser Zahlen eine 1 sind. Betrachtet man zwei Einzelereignisse, so sind sie disjunkt, denn an mindestens einer Stelle steht bei dem einen Ereignis eine 1 während dort bei dem anderen Ereignis eine 0 steht. Die Wahrscheinlichkeit des Ereignisses „ S = 6 “ erhält man also, indem man die Wahrscheinlichkeiten aller Einzelereignisse addiert. Burghardt – RWB 2013/2014 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten 52 Wir berechnen nun für jedes Einzelereignis die Wahrscheinlichkeit. Dabei werden wir feststellen, dass die Wahrscheinlichkeiten alle gleich sind. Die Wahrscheinlichkeit des Ereignisses „ S = 6 “ ist also P ( S = 6 ) = Anzahl aller Einzelereignisse ´ Wahrscheinlichkeit eines Einzelereignisses . Wir müssen dann abschließend noch die Anzahl der Einzelereignisse berechnen. Zur Bestimmung der Wahrscheinlichkeit der Einzelereignisse: Die Wahrscheinlichkeit P ( X1 = x1 , X2 = x2 , , X10 = x10 ) für ein Einzelereignis ist, da die Zufallsvariablen unabhängig sind, P ( X1 = x1 ) × P ( X2 = x2 ) × × P ( X9 = x9 ) × P ( X10 = x10 ) . Da es sich um Bernoulli-Experimente handelt, ist jeder Faktor, bei dem die Zufallsvariable = 1 ist, gleich der Trefferwahrscheinlichkeit p = 0, 6 . Jeder Faktor, bei dem die Zufallsvariable = 0 ist, ist gleich der Nietenwahrscheinlichkeit q = 1 - p = 0, 4 . Da bei genau 6 Faktoren die Zufallsvariable = 1 ist, kommt der Faktor p in dem Produkt genau 6 mal vor. Bei genau 4 Faktoren ist die Zufallsvariable = 0 , sodass der Faktor q genau 4 mal vorkommt. Das gesamte Produkt ist also p6 × q 4 . Damit haben wir gefunden: Wahrscheinlichkeit eines Einzelereignisses = p6 × q4 Zur Anzahl der Einzelereignisse: Um die Anzahl der Einzelereignisse zu zählen, muss die Anzahl der Listen ( x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | x10 ) bestimmt werden, die nur aus den Zahlen 0 und 1 bestehen, wobei genau 6 dieser Zahlen eine 1 sind. Jede dieser Listen ist eindeutig festgelegt durch die 6 der Platznummern 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 , an denen eine 1 steht. Es gibt also genau so viele geordnete 10-Listen der Zahlen 0 und 1 mit genau 6 Einsen wie es ungeordnete 6-Listen der Zahlen 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 gibt. Aus der Kombinatorik æ 10 ö wissen wir: Es gibt genau ç ÷ solche ungeordnete 6-Listen. Wir haben gefunden: è6ø æ 10 ö Anzahl aller Einzelereignisse = ç ÷ . è6ø Insgesamt ergibt sich: P ( S = 6 ) = Anzahl aller Einzelereignisse ´ Wahrscheinlichkeit eines Einzelereignisses æ 10 ö = ç ÷ × p6 × q 4 è6ø = 0, 2508 Die Wahrscheinlichkeit, dass 6 von 10 Kindern bessere Lernleistungen zeigen, ist also rund 25 %. Mit denselben Überlegungen kann man allgemein zeigen: Satz. Wenn S eine Bernoulli-Kette der Länge n mit Trefferwahrscheinlichkeit p ist, dann gilt für jedes k = 0, 1, ,,n n: ænö P ( S = k ) = ç ÷ pk q n - k . èkø Burghardt – RWB 2013/2014 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten 53 4.2.3 Die Binomialverteilung ænö Durch B ( n; p; k ) = ç ÷ pk q n-k für k = 0, 1, ,,n n ist auf den Zahlen 0, 1, ,n , n ein Wahrscheinlichkeitsèkø maß gegeben, das Binomialverteilung mit den Parametern n und p genannt wird. Der letzte Satz wird deshalb manchmal so formuliert: Satz. Jede Bernoulli-Kette der Länge n mit Trefferwahrscheinlichkeit p ist gemäß der Binomialverteilung mit den Parametern n und p verteilt. Wir berechnen den Erwartungswert und die Varianz von Bernoulli-Ketten: Satz. Wenn S eine Bernoulli-Kette der Länge n mit Trefferwahrscheinlichkeit p ist, dann gilt: a) E ( S ) = n × p b) V ( S ) = n × p × q c) s ( S ) = n × p × q BEWEIS. Es ist S = X1 + + Xn , wobei X1 , , Xn unabhängige Bernoulli-Variablen mit Trefferwahr- scheinlichkeit p sind. Wir wissen, dass E ( Xi ) = p und V ( Xi ) = p × q gilt. Damit ergibt sich E ( S ) = E ( X1 + + Xn ) = E ( X1 ) + E ( X2 ) + + E ( Xn ) = n × p und V ( S ) = V ( X1 + + X n ) = V ( X1 ) + V ( X 2 ) + wobei die Unabhängigkeit der Zufallsvariablen X1 , + V ( Xn ) = n × p × q , , Xn ausgenutzt wurde. n Im Fall der 10 Kinder der Kitagruppe ergibt sich für Erwartungswert und Varianz: E ( S10 ) = 10 × 0, 6 = 6 und V ( S10 ) = 10 × 0, 6 × 0, 4 = 2, 4 4.2.4 Die kumulierte Binomialverteilung Oft interessiert bei einer Bernoulli-Kette nicht die Wahrscheinlichkeit, dass eine bestimmte Trefferzahl erreicht wird, sondern die Wahrscheinlichkeit, dass eine gewisse Trefferzahl höchstens oder mindestens erreich wird. Im Fall der Lernleistungen der Kinder könnte zum Beispiel die Wahrscheinlichkeit interessieren, dass höchstens 6 Kinder eine Lernleistungsverbesserung zeigen. Diese Wahrscheinlichkeit ist P ( S £ 6 ) = P ( S = 0 ) + P ( S = 1) + + P ( S = 5) + P ( S = 6 ) æ 10 ö æ 10 ö = ç ÷ p0q10-0 + ç ÷ p1q100-1 + è0ø è1ø = 0, 6177194 æ 10 ö æ 10 ö + ç ÷ p5q10-5 + ç ÷ p6q10-4 è5ø è6ø Die Wahrscheinlichkeit, dass mindestens 6 Kinder eine Lernleistungsverbesserung zeigen, ist Burghardt – RWB 2013/2014 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten 54 P ( S ³ 6 ) = P ( S = 6 ) + P ( S = 7 ) + P ( S = 8 ) + P ( S = 9 ) + P ( S = 10 ) æ 10 ö æ 10 ö æ 10 ö æ 10 ö æ 10 ö = ç ÷ p6q10-6 + ç ÷ p7q10-7 + ç ÷ p8q10-8 + ç ÷ p9q10-9 + ç ÷ p10q10-10 è6ø è7ø è8ø è9ø è 10 ø = 0, 63310326 Dies gilt ganz allgemein: Satz. Wenn S eine Bernoulli-Kette der Länge n mit Trefferwahrscheinlichkeit p ist, dann gilt für jedes k = 0, 1, ,,n n: ænö ænö æ nö a) P ( S £ k ) = ç ÷ p0q n-0 + ç ÷ p1q n-1 + + ç ÷ pkq n-k è0ø è1ø èkø ænö æ n ö k +1 n-( k +1) æ nö b) P ( S ³ k ) = ç ÷ pk q n-k + ç + + ç ÷ p nq n - n ÷p q èkø è k + 1ø è nø Die Werte æ n ö 0 n-0 æ n ö 0 n-0 æ n ö 1 n-1 ænö ænö , ç ÷ p0q n-0 + ç ÷ p1q n-1 + ç ÷p q , ç ÷p q +ç ÷p q , è0ø è1ø è0ø è1ø è0ø nennt man auch kumulierte Binomialverteilung. æ nö + ç ÷ p nq n - n è nø Es ist an dem Beispiel bereits aufgefallen, dass die Berechnung der Werte der kumulierten Binomialverteilung sehr umständlich und langwierig sein kann, Aus diesem Grund liegen die Werte für die kumulierte Binomialverteilung für eine große Zahl an Parametern in Tabellen vor und können dort abgelesen werden. 4.3 Näherungsformeln Wir stellen drei Näherungsformel vor, mit deren Hilfe man die Werte der Binomialverteilung und der kumulierten Binomialverteilung angenähert bestimmen kann, ohne Binomialkoeffizienten berechnen und umfangreiche Additionen durchführen zu müssen. In diesem Abschnitt sei durchgängig S eine Bernoulli-Kette der Länge n mit Trefferwahrscheinlichkeit p . Ferner sei m = np der Erwartungswert und s = s ( X ) = npq sei die Standardabweichung von S. 4.3.1 Poisson-Näherung Die Poisson-Näherung – benannt nach Siméon-Denis Poisson (geboren 21. Juni 1781, gestorben 25. April 1840) – lautet P (S = k) » (Hierbei ist 0! = 1 ) Burghardt – RWB 2013/2014 mk -m ×e . k! 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten 55 Die Poisson-Näherung kann immer dann angewendet werden, wenn n groß und p klein ist, also dann, wenn sehr viele Bernoulli-Experimente durchgeführt werden und die Trefferwahrscheinlichkeit sehr klein ist, also in der Regel nur sehr wenige Treffer zu verzeichnen sind. Sie liefert gute Werte für n ³ 20 und p £ 0, 05 , im Fall n ³ 100 auch immer dann, wenn m £ 10 ist. Beispiel: Die Wahrscheinlichkeit, dass ein Mensch farbenblind ist, liegt bei etwa 0, 05 . Wie groß ist die Wahrscheinlichkeit, dass von 90 Schülerinnen und Schülern des beruflichen Gymnasiums mindestens 5 Schüler farbenblind sind. Die Situation wird modelliert durch eine Bernoulli-Kette S der Länge 90 mit Trefferwahrscheinlichkeit p = 0, 05 . Gesucht ist P ( S ³ 5) . Siméon-Denis Poisson Wir berechnen P ( S ³ 5) = 1 - P ( S £ 4 ) = 1 - éëP ( S = 0 ) + P ( S = 1) + P ( S = 2 ) + P ( S = 3) + P ( S = 4 )ùû Mit der Poisson-Näherung ergibt sich mit m = 90 × 0, 05 = 4, 5 : 4, 50 -4,5 × e = 0, 011108996 0! 4, 51 -4,5 · P ( S = 1) = B ( 90; 0, 05; 1) » × e = 0, 049990484 1! 4, 52 -4,5 · P ( S = 2 ) = B ( 90; 0, 05; 2 ) » × e = 0, 112478589 2! 4, 53 -4,5 · P ( S = 3) = B ( 90; 0, 05; 3) » × e = 0, 168717884 3! 4, 54 -4,5 · P ( S = 4 ) = B ( 90; 0, 05; 4 ) » × e = 0, 18980762 4! Damit ist P ( S ³ 5) » 1 - 0, 532103573 = 0, 467896427 . Direktes Rechnen mit der Binomialverteilung · P ( S = 0 ) = B ( 90; 0, 05; 0 ) » ergibt den Wert P ( S ³ 5) = 0, 47032203 . 4.3.2 Lokale Näherungsformel von Laplace Um eine weitere Näherungsformel zu gewinnen, betrachten wir zur Motivation zunächst den Spezialfall, dass S eine Bernoulli-Kette der Länge n = 36 mit Trefferwahrscheinlichkeit p = 0, 5 ist. Die Wahrscheinlichkeiten für P ( S = k ) für k = 0, 1, 2, dinatensystem eingetragen: Burghardt – RWB 2013/2014 ,,36 36 sind in dem folgenden rechtwinkligen Koor- 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten 56 P (S = k) 0,14 0,12 0,1 0,08 0,06 0,04 0,02 k 0 0 3 6 9 12 15 18 21 24 27 30 33 36 -0,02 Wir legen darüber – gestrichelt eingezeichnet – den Graphen der Funktion ( x -18 )2 1 - × 1 f (x) = ×e 2 9 , 2p× 9 wobei der Wert 9 jeweils im Nenner die Varianz und die Zahl 18 im Zähler der Mittelwert von S ist ( s2 = V ( S ) = n × p × q = 36 × 0, 5 × 0, 5 = 9 und m = n × p = 36 × 0, 5 = 18 ). Wegen der Form ihres Gra- phen nennt man f auch eine Glockenkurve: 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0 3 6 9 12 15 18 21 24 27 30 33 36 -0,02 Wir stellen verblüfft fest: Die Werte P ( S = k ) für k = 0, 1, 2, Graphen der Glockenkurve f ! Für k = 0, 1, 2, ,,36 36 liegen nahezu genau auf dem ,,36 36 gilt also 1 - × 1 P (S = k) » ×e 2 2p× 9 ( x -18 )2 9 . Dies gilt nicht nur im vorliegenden Fall, sondern ganz allgemein. Die lokale Näherungsformel von Laplace lautet deshalb 1 ( k -m ) - × 2 s2 2 P (S = k) » 1 ×e . 2p× s2 Sie liefert hinreichend genaue Werte, falls npq > 9 ist, in vielen Fällen liefert sie aber auch schon gute Werte, wenn npq nicht oberhalb von 9 liegt. Burghardt – RWB 2013/2014 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten 57 4.3.3 Integrale Näherungsformel von Laplace Wir wenden uns nun der Frage zu, wie die kumulierte Binomialverteilung näherungsweise berechnet werden kann, genauer: wie man für k £ l die Wahrscheinlichkeit P ( k £ S £ l ) bestimmen kann, ohne die einzelnen Summanden P ( S = k ) , P ( S = k + 1) , ,,P P ( S = l ) mit ihren komplizierten Binomi- alkoeffizienten zu berechnen und zu addieren. Wir kehren zunächst wieder zu unserem Beispiel mit n = 36 und p = 0, 5 zurück und wollen die Wahrscheinlichkeit P (10 £ S £ 20 ) bestimmen. Mithilfe der lokalen Näherungsformel von Laplace finden wir P (10 £ S £ 20 ) = P ( S = 10 ) + P ( S = 11) + + P ( S = 20 ) (10 -18 )2 (11-18 )2 (20 -18 )2 1 1 1 - × - × - × 1 1 1 » ×e 2 9 + ×e 2 9 + + ×e 2 9 . 2p× 9 2p× 9 2p× 9 Die einzelnen Summanden entsprechen von links nach rechts den Flächeninhalten der Rechtecke in der folgenden Darstellung des Graphen der Glockenkurve 1 - × 1 f (x) = ×e 2 2p× 9 0,14 ( x -18 )2 9 : z.B. Flächeninhalt = 1 × f (16 ) = f (16 ) 0,12 0,1 = 0,08 1 - × 1 ×e 2 2p × 9 (16 -18 )2 9 0,06 0,04 0,02 0 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Damit stimmt P (10 £ S £ 20 ) (näherungsweise) mit der Summe der Flächeninhalte aller dieser Rechtecke überein, und diese Summe entspricht wiederum näherungsweise dem Integral ò 20 + 0 , 5 10 - 0 ,5 f ( x ) dx . Zu- sammengefasst ergibt sich P (10 £ S £ 20 ) » 20 + 0 ,5 ò f ( x ) dx = F (20 + 0, 5) - F (10 - 0, 5) , 10 - 0 ,5 wobei F eine Stammfunktion zu f ist. Leider ist der Funktionsterm der Glockenkurve f relativ kompliziert. Um das Integral berechnen zu können, greifen wir deshalb auf eine „standardisierte“ Form von f zurück: die Gaußsche Glockenkurve j . Johann Carl Friedrich Gauß Sie ist benannt nach dem Mathematiker Johann Carl Friedrich Gauß (geboren 30. April 1777, gestorben 23. Februar 1855) und gegeben durch Burghardt – RWB 2013/2014 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten 58 1 - x2 1 j( x ) = ×e 2 . 2p 0,5 0,4 0,3 0,2 0,1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -0,1 Die Gaußsche Glockenkurve ist stetig und hat deshalb nach dem Hauptsatz der Differential- und Integralrechnung eine Stammfunktion F . Da Stammfunktionen nur bis auf eine additive Konstante eindeutig bestimmt sind, wählen wir F so, dass F ( 0 ) = 0, 5 ist. Diese Funktion F heißt Gaußsche Integralfunktion. Eine Stammfunktion F zur ursprünglichen Glockenkurve f kann aus der Gaußschen Integralfunktion F gewonnen werden, indem man æ x - 18 ö F (x) = Fç ÷ è 3 ø wählt: Um zu beweisen, dass die hierdurch gegebene Funktion F wirklich eine Stammfunktion zu f ist, müssen wir zeigen, dass F ¢ ( x ) = f ( x ) ist. Mit der Kettenregel finden wir: æ x - 18 ö 1 F ¢ ( x ) = F¢ ç ÷× è 3 ø 3 æ x - 18 ö 1 = jç ÷ × , da F eine Stammfunktion zu j ist; è 3 ø 3 2 = 1 æ x -18 ö ÷ 3 ø - ç 1 × e 2è 2p × 1 3 2 = = 1 æ x -18 ö ÷ 3 ø - ç 1 × e 2è 2p × 3 f ( x ). Damit ergibt sich P (10 £ S £ 20 ) » ò 20 + 0 , 5 10 - 0 ,5 f ( x ) dx = F ( 20 + 0, 5) - F (10 - 0, 5) ; æ 20 + 0, 5 - 18 ö æ 10 - 0, 5 - 18 ö = Fç ÷ -Fç ÷ 3 3 è ø è ø Indem man diese Überlegungen im allgemeinen Fall durchführt, findet man die integrale Näherungsformel von Laplace: Burghardt – RWB 2013/2014 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten 59 Satz. (Integrale Näherungsformel von Laplace) Für alle natürlichen Zahlen k und l mit 0 £ k £ l £ n gilt æ l - m + 0, 5 ö æ k - m - 0, 5 ö P (k £ S £ l ) » F ç ÷ -Fç ÷ s s è ø è ø Die Formel liefert hinreichend genaue Werte, falls npq > 9 ist. (Zur Erinnerung: In unserem Beispiel galt m = 18 und s = 3 sowie k = 10 und l = 20 .) Wir notieren noch zwei Spezialfälle: Satz. (Folgerungen aus der Integralen Näherungsformel von Laplace) Für jede natürliche Zahl l mit 0 £ l £ n gilt æ l - m + 0, 5 ö · P (S £ l) » Fç ÷ s è ø æ l - m + 0, 5 ö æ l - m - 0, 5 ö · P (S = l) » Fç ÷ -Fç ÷ s s è ø è ø Die Formeln liefern hinreichend genaue Werte, falls npq > 9 ist. Die zweite Folgerung erhält man, wenn man in der integralen Näherungsformel k = l setzt, die erste ergibt sich, indem man dort k = 0 wählt, und folgendes berücksichtigt: Aus der Annahme npq > 9 ergibt sich m = np > 9 und s = npq > 3 . Hieraus folgt k - m - 0, 5 0 - m - 0, 5 0 - 9 - 0, 5 = £ = -3, 16 3 s s ist, und deshalb æ 0 - m - 0, 5 ö Fç ÷ £ F -3, 16 » 0, 0008 » 0 s è ø ( ) Leider kann die Funktion F nicht direkt sondern nur numerisch bestimmt werden. Um dies ohne weiterreichende elektronische Hilfsmittel tun zu können, liegen die Werte tabelliert vor. Eine Ta- ( ) belle findet sich in Abschnitt 6. Aus dieser Tabelle wurde auch der Wert F -3, 16 » 0, 0008 entnommen. Wie man die integrale Näherungsformel anwendet, sehen wir anhand einer Anwendung im nächsten Abschnitt. 4.4 Die resolute Minderheit Die Mitgliederversammlung des gemeinnützigen Vereins, der die Kindertagesstätte Ömmes und Oimel betreibt, berät über den Vorschlag, einen Erweiterungsbau zu errichten. Von den 52 anwesenden Mitgliedern sind 9 vehement für den Erweiterungsbau. Die restlichen 43 Mitglieder stehen dem Vorschlag indifferent gegenüber. Man kann davon ausgehen, dass sie „Laplace-Menschen“ sind, Burghardt – RWB 2013/2014 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten 60 und sich bei einer Abstimmung mit Wahrscheinlichkeit 0, 5 für und mit der gleichen Wahrscheinlichkeit gegen den Vorschlag entscheiden werden. Wir wollen die Wahrscheinlichkeit dafür bestimmen, dass die resolute Minderheit der 9 Befürworter den Vorschlag durchbringt, dass also bei einer Abstimmung mindestens 27 Mitglieder zustimmen. Da die Zustimmung der resoluten Minderheit sicher ist, muss untersucht werden, mit welcher Wahrscheinlichkeit mindestens 18 der anderen Mitglieder zustimmen. Die Anzahl der Ja-Stimmen der 43 „Laplace-Menschen“ kann als Bernoulli-Kette S der Länge 43 mit Trefferwahrscheinlichkeit p = 0, 5 modelliert werden. Gesucht ist P ( S ³ 18 ) . Dies formen wir um und verwenden dann die integrale Näherungsformel; dazu benötigen wir die Werte m = E ( S ) = 43 × 0, 5 = 21, 5 und s = s ( S ) = V ( S ) = 43 × 0, 5 × 0, 5 = 3, 2787 : æ 17 - 21, 5 + 0, 5 ö P ( S ³ 18 ) = 1 - P ( S £ 17 ) » 1 - F ç ÷ = 1 - F ( -1, 22 ) 3, 2787 è ø Für die Berechnung von F ( -1, 22 ) ziehen wir die Tabelle heran: F ( -1, 22) = 0, 1112 . Damit ergibt sich P ( S ³ 18 ) » 1 - F ( -1, 22) = 0, 8888 . Dem Vorschlag wird also mit einer Wahrscheinlichkeit von nahezu 89 % zugestimmt! 4.5 Übungen 4.5.1 Die Zufallsvariable S sei eine Bernoulli-Kette mit den Parametern n = 8 und p = 0, 15 . a) Berechnen Sie m = E ( S ) , V ( S ) sowie s = V ( S ) . b) Berechnen Sie die Werte P ( S = k ) für k = 0, 1, 2, 3, 4, 5, 6, 7, 8 und stellen Sie die Werte in c) einem rechtwinkligen Koordinatensystem dar. Berechnen Sie mithilfe der Werte aus b) P (2 £ S £ 6 ) und P ( 4 £ S £ 7) sowie P ( 0 £ S £ 5) . d) Berechnen Sie die Wahrscheinlichkeit, dass S um mindestens 1 vom Erwartungswert abweicht. 4.5.2 Die Zufallsvariable S sei eine Bernoulli-Kette mit den Parametern n = 1000 und p = 0, 01 . a) Berechnen Sie m = E ( S ) , V ( S ) sowie s = V ( S ) . b) Berechnen Sie zunächst mithilfe der Binomialverteilung und danach sowohl mithilfe der Poisson-Näherung als auch mithilfe der lokalen Näherungsformel P ( S = 3) und P ( S = 8 ) . c) Berechnen Sie mithilfe der integralen Näherungsformel P ( 5 £ S £ 15) und P ( S £ 20 ) sowie P ( S ³ m) . d) e) Berechnen Sie mithilfe der integralen Näherungsformel die Wahrscheinlichkeit, dass S um mindestens 4 vom Erwartungswert abweicht. Berechnen Sie mithilfe der integralen Näherungsformel P ( m - s £ S £ m + s ) sowie P ( m - 2s £ S £ m + 2s ) . 4.5.3 Die Zufallsvariable S sei eine Bernoulli-Kette mit m = 15 und s2 = 11, 25 . a) Berechnen Sie die Parameter n und p . Burghardt – RWB 2013/2014 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten b) 61 Berechnen Sie mithilfe der lokalen und der integralen Näherungsformel P ( S = 7 ) , P ( S = 21) , P ( S = m ) und P ( S = m + 4 ) . Berechnen Sie – obwohl die Voraussetzungen für die Verwen- c) dung hier nicht vorliegen - die Werte auch der Poisson-Näherung. Bestimmen Sie abschließend auch, welche Werte jeweils die Binomialverteilung liefert und vergleichen Sie die Ergebnisse sowie den Arbeitsaufwand. Berechnen Sie mithilfe der integralen Näherungsformel P (15 £ S £ 25) und P ( 5 £ S £ 20 ) sowie P ( 45 £ S £ 55) . d) e) Berechnen Sie mithilfe der integralen Näherungsformel die Wahrscheinlichkeit, dass S um mindestens 8 vom Erwartungswert abweicht. Berechnen Sie mithilfe der integralen Näherungsformel P ( m - s £ S £ m + s ) sowie P ( m - 2s £ S £ m + 2s ) . 4.5.4 Eine deutsche 1-€-Münze wird 100 mal geworfen. Die Zufallsvariable S gebe an, wie oft insgesamt Adler erscheint. a) Berechnen Sie m = E ( S ) , V ( S ) sowie s = V ( S ) . b) Berechnen Sie mithilfe der integralen Näherungsformel P ( 40 £ S £ 60 ) und P (m - s £ S £ m + s) . 4.5.5 Die städtischen Kindergärten erhalten von einem ortsansässigen Obsthändler jeden Wochentag Orangen für die Kinder geliefert. Die Stadt hat mit dem Obsthändler einen Sonderpreis ausgehandelt und lässt deshalb zu, dass 5 % der gelieferten Früchte leichte Druckstellen aufweisen können. Die Kindertagesstätte Ömmes und Oimel und die benachbarte Sankt-Martin-Grundschule erhalten täglich 70 Orangen geliefert. a) Modellieren Sie die Situation mit einer Bernoulli-Kette S mit geeigneten Parametern n und p. b) Bestimmen Sie E ( S ) und V ( S ) und interpretieren Sie die Bedeutung von E ( S ) im vorliec) genden Kontext. Berechnen Sie die Wahrscheinlichkeit P ( S £ 3) mithilfe der Binomilaverteilung und mithilfe eines zulässigen Näherungsverfahrens. Vergleichen Sie die beiden Werte. d) Ermitteln Sie, mit welcher Wahrscheinlichkeit unter den 70 Orangen mindestens 4 Orangen Druckstellen aufweisen. 4.5.6 In einer Broschüre wirbt ein pädagogischer Verlag, dass mit seinem neuen Material für Englisch in Kita und der Grundschule 60 % der Kinder bessere Resultate als mit herkömmlichem Lernmaterial erzielen. Die Erzieherinnen und Erzieher der Kindertagesstätte Ömmes und Oimel und die Lehrerinnen und Lehrer der benachbarten Sankt-Martin-Grundschule setzen die neuen Lernmaterialien in zwei Gruppen mit insgesamt 45 Kindern ein. a) Modellieren Sie die Situation mit einer Bernoulli-Kette S mit geeigneten Parametern n und p. b) Bestimmen Sie E ( S ) und V ( S ) und interpretieren Sie die Bedeutung von E ( S ) im vorliec) genden Kontext. Nach einem Jahr stellen die Erzieherinnen und Lehrerinnen fest, dass bei 25 Kindern bessere Lernleistungen festgestellt werden können. Berechnen Sie die Wahrscheinlichkeit hierfür Burghardt – RWB 2013/2014 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten d) 62 einmal direkt und einmal mit der lokalen sowie mit der integralen Näherungsformel und vergleichen Sie die Werte. Ermitteln Sie, mit welcher Wahrscheinlichkeit zwischen 25 und 30 Kindern nach einem Jahr eine bessere Lernleistung zeigen. Verwenden Sie hierzu einmal die lokale Näherungsformel und einmal die integrale Näherungsformel und vergleichen Sie die Werte. 4.5.7 Im Fach Biologie an einem Beruflichen Gymnasium an einem Berufskolleg wurde die These diskutiert, dass rund 55 % der erwachsenen Deutschen an Bluthochdruck leiden. Das Lehrerkollegium des Berufskollegs besteht aus 175 Lehrerinnen und Lehrern. a) Modellieren Sie die Situation mit einer Bernoulli-Kette S mit geeigneten Parametern n und p. b) Bestimmen Sie E ( S ) und V ( S ) und interpretieren Sie die Bedeutung von E ( S ) im vorliec) genden Kontext. Berechnen Sie die Wahrscheinlichkeit, dass zwischen 80 und 110 Lehrerinnen und Lehrer des Berufskollegs an Bluthochdruck leiden. 4.5.8 In einem Zeitschriftenartikel wird gesagt, dass ca. 32 Millionen Bundesbürger Raucher sind und dass es durch die gesundheitsschädliche Wirkung des Rauchens pro Jahr bei ca. 250.000 Rauchern zu verfrühtem Tod kommt. Bestimmen Sie die Wahrscheinlichkeit, dass von 300 zufällig ausgewählten Rauchern a) genau 4 b) weniger als 2 im folgenden Jahr infolge der schädlichen Wirkung des Rauchens verfrüht sterben. 4.5.9 Eine Fluggesellschaft geht aufgrund ihrer Erfahrungen davon aus, dass 3% aller Fluggäste, die einen Flug buchen, den Flug nicht antreten. Für einen Airbus A 321-200 mit 210 Sitzplätzen verkauft sie 218 Tickets. a) Berechnen Sie die Wahrscheinlichkeit, dass alle Fluggäste, die den Flug antreten wollen, einen Platz in der Maschine bekommen. b) Jeder Passagier, der über die 210 verfügbaren Plätze hinaus mit einem Ticket zum Check in kommt, erhält von der Fluggesellschaft einen Ersatzflug, gegebenenfalls eine Hotelübernachtung und eine finanzielle Entschädigung. Für jeden dieser Passagiere entstehen der Fluggesellschaft so zusätzliche Kosten in Höhe von 175 €. Bestimmen Sie die Verteilung der Zufallsvariable X , die die zusätzlichen Gesamtkosten je Flug angibt, berechnen Sie deren Erwartungswert und interpretieren Sie den Erwartungswert im Kontext. 4.5.10 Jedes Jahr muss die Kindertagesstätte Ömmes und Oimel einen nicht geringen Geldbetrag für Fotokopien einplanen. Ein Teil der Kosten entsteht, weil der Fotokopierer Blätter falsch einzieht, Papierstau entsteht oder sonstige Fehlfunktionen auftreten. Die Herstellerfirma des gerade neu angeschafften Kopierers verspricht, dass die Ausschussquote bei nur 6 % liegt. In der Kita werden im Lauf eines Jahres rund 1.500 Kopien gemacht. a) Berechnen Sie die je Jahr zu erwartende Anzahl an Fehlkopieren bei dem neuen Kopierer. b) Berechnen Sie, mit welcher Wahrscheinlichkeit mit höchstens 100 bzw. mindestens 80 bzw. zwischen 90 und 120 Fehlkopien zu rechnen ist. 4.5.11 In Nordrhein-Westfahlen ist es seit ein paar Jahren möglich, als eine Form direkter Demokratie auf Gemeindeebene so genannte Bürgerentscheide herbeizuführen. Im Bürgerentscheid wird ein Vorschlag zur Politik der Gemeinde zur Abstimmung gestellt. Burghardt – RWB 2013/2014 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten 63 Um einen Bürgerentscheid durchzuführen, muss zunächst eine bestimmte Anzahl Unterschriften von Bewohnern der Gemeinde beigebracht werden, die die Durchführung des Bürgerentscheids befürworten. Gelingt dies, findet in einer geheimen Abstimmung, an der alle wahlberechtigten Bewohner der Stadt teilnehmen dürfen, der Bürgerentscheid statt. Die Anzahl der Unterschriften, die im ersten Schritt von den Befürwortern des Bürgerentscheids beizubringen sind, hängt gemäß der folgenden Tabelle von der Anzahl der wahlberechtigten Bewohner der Stadt ab: wahlberechtigte Bewohner bis 10.000 bis 20.000 bis 30.000 bis 50.000 bis 100.000 bis 200.000 bis 500.000 über 500.000 Unterstützungsunterschriften von mindestens 10 % der wahlberechtigten Bürger 9 % der wahlberechtigten Bürger 8 % der wahlberechtigten Bürger 7 % der wahlberechtigten Bürger 6 % der wahlberechtigten Bürger 5 % der wahlberechtigten Bürger 4 % der wahlberechtigten Bürger 3 % der wahlberechtigten Bürger Der im Bürgerentscheid zur Abstimmung gestellte Vorschlag wird angenommen, · wenn ihm bei der geheimen Abstimmung die Mehrheit der Teilnehmer zugestimmt hat und · wenn dies mindestens 20 % aller wahlberechtigten Bewohner der Gemeinde sind. Nehmen also zum Beispiel in einer Gemeinde mit 1.000 Bewohnern 300 an der Abstimmung teil, so müssen mindestens 200 dem Vorschlag zustimmen, damit er angenommen wird. Wir wollen davon ausgehen, dass alle Bürger, die eine Unterstützungsunterschrift für den Bürgerentscheid leisten, an diesem auch teilnehmen und dem Vorschlag zustimmen werden. Berechnen Sie mit dem Modell der resoluten Minderheit die Wahrscheinlichkeiten, dass der Vorschlag in einer Gemeinde mit 500 Bewohnern bzw. 50.000 Bewohnern bzw. 500.000 Bewohnern angenommen wird unter der Annahme, dass jeweils 30 % bzw. 60 % aller Bewohner am Bürgerentscheid teilnehmen. 4.5.12 Berechnen Sie die Wahrscheinlichkeit dafür, dass dem Vorschlag zum Bau der Erweiterung der Kindertagesstätte Ömmes und Oimel zugestimmt wird, wenn hierfür eine 2/3-Mehrheit erforderlich wäre. 4.6 Anhang: Eine Herleitung der Poissonschen Näherungsformel Während eine Begründung für die lokale Näherungsformel von Laplace nicht möglich ist, ohne den Rahmen dieses Kurses zu sprengen, kann die Poissonsche Näherungsformel leichter hergeleitet werden. Da k im Vergleich zu N klein angenommen wird, können wir P (S = k) = N × ( N - 1) × k! ( N - k + 1 ) × pk mit den folgenden Schritten angenähert bestimmen: Burghardt – RWB 2013/2014 (1 - p ) N -k 4 Unabhängige 0-1-Experimente und Bernoulli-Ketten P (S = k) = N × ( N - 1) × k! ( N - k + 1 ) × pk 64 (1 - p ) N -k N ×N × N k N × p (1 - p ) , weil k klein ist im Vergleich zu N k! k N N = × pk (1 - p ) k! » = ( Np ) k! k × (1 - p ) N m N × (1 - p ) k! k = m k æ Np ö = ×ç1 ÷ k! è N ø mk æ mö = ×ç1 - ÷ k! è N ø N N n æ 1ö Wir wissen, dass für hinreichend großes n der Wert ç 1 + ÷ ungefähr der Eulerschen Zahl e entè nø N mö æ spricht. Wir nutzen dies aus, um den Wert ç 1 - ÷ anzunähern: è Nø mö æ ç1 - ÷ è Nø N æ 1 ö = çç 1 + ÷÷ è N ( -m ) ø N N ( -m ) ææ ö ö 1 ÷ = ç çç 1 + ÷ ç è N ( -m ) ø÷ ÷ è ø » (e) = e -m . -m Damit ergibt sich P ( S = k ) » Burghardt – RWB 2013/2014 mk -m ×e . k! -m 5 Testen von Hypothesen 65 5 Testen von Hypothesen 5.1 Problem I: Neues Lernmaterial In einer Broschüre wirbt ein pädagogischer Verlag, dass mit seinem neuen Material für Englisch in der Kita und in der Grundschule mindestens 60 % der Kinder bessere Resultate als mit herkömmlichem Lernmaterial erzielen. Die Erzieher der Kindertagesstätte Ömmes und Oimel und die Lehrerinnen und Lehrer der benachbarten Sankt-Martin-Grundschule setzen die neuen Lernmaterialien ein und fragen sich, ob die vom Verlag angegebene Erfolgswahrscheinlichkeit stimmt. Um sie zu überprüfen, beschließen sie, nach einem Jahr bei 75 Kindern aus der Kita und aus der Grundschule zu überprüfen, ob die Lernleistung sich wirklich gebessert hat. Wenn die Lernleistung sich nur bei wenigen Kindern verbessert hat, ist die Aussage des Verlags wahrscheinlich falsch. Aber wie viele Kinder sind „wenige Kinder“ und was bedeutet „wahrscheinlich“ falsch? 5.2 Problem II: Orangen für die Kita Die städtischen Kindertagesstätten erhalten von einem ortsansässigen Obsthändler jeden Wochentag Orangen für die Kinder geliefert. Die Stadt hat mit dem Obsthändler einen Sonderpreis ausgehandelt und lässt deshalb zu, dass ein Teil der gelieferten Früchte leichte Druckstellen aufweisen kann. Der Obsthändler hat sich jedoch verpflichtet, dass höchstens 20 % der gelieferten Orangen beschädigt sind. Stichprobenartig untersuchen Mitarbeiter der Stadt die Lieferungen, indem sie eine Kiste mit 60 Orangen zufällig auswählen und auszählen, wie viele Orangen beschädigt sind. Wenn „zu viele“ Orangen beschädigt sind, gehen sie davon aus, dass das Qualitätsversprechen wahrscheinlich nicht eingehalten wurde, und reklamieren die gesamte Lieferung. Aber wie viele Orangen sind „zu viele“ und wie wahrscheinlich ist „wahrscheinlich“? 5.3 Problem III: Bluthochdruck Im Fach Biologie an einem Beruflichen Gymnasium wurde die These diskutiert, dass rund 55 % der erwachsenen Deutschen an Bluthochdruck leiden. Um diese Zahl zu überprüfen, starten die Schülerinnen und Schüler ein Projekt. Sie befragen anonym und zufällig 100 Personen, ob sie unter Hypertonie leiden. Wenn „zu viele“ oder „zu wenige“ Erkrankte gefunden werden, ist die im Unterricht diskutierte Zahl wahrscheinlich falsch. Aber wie viele sind „zu viele“ und wie viele sind „zu wenig“ und was bedeutet „wahrscheinlich“ falsch? 5.4 Einseitige und zweiseitige Hypothesentests In Problem I und Problem II wird jeweils behauptet, dass die Wahrscheinlichkeit p für eine bestimmte Eigenschaft „mindestens“ bzw. „höchstens“ so groß ist wie ein angegebener Wert p0 . Bei einem Test wird man deshalb die zu überprüfende Behauptung als widerlegt angesehen, wenn die Anzahl S der Objekte, die die Eigenschaft haben, eher klein bzw. eher groß ist. Bei Problem III dagegen wird behauptet, dass die Wahrscheinlichkeit p für eine bestimmte Eigenschaft genau so groß ist wie ein angegebener Wert p0 . Bei einem Test wird deshalb die Behauptung Burghardt – RWB 2013/2014 5 Testen von Hypothesen 66 als widerlegt angesehen, wenn die Anzahl S der Objekte, die die Eigenschaft haben, eher klein bzw. eher groß ist: Behauptung als widerlegt angesehen, wenn deshalb p ³ p0 S £ k für ein kleines k linksseitiger Test Ablehnungsbereich Mögliche Anzahl der Objekte p £ p0 S ³ k für ein großes k rechtsseitiger Test Ablehnungsbereich Mögliche Anzahl der Objekte p = p0 S £ k für ein kleines k oder S ³ l für ein großes l Ablehnungs- zweiseitiger Test -bereich Mögliche Anzahl der Objekte 5.4.1 Wissenschaftstheoretische Grundsätze zum Testen von Hypothesen In den oben geschilderten drei Problemen war jeweils eine Behauptung – eine Hypothese – aufgestellt worden, die in allen Situationen stimmen soll: · In jeder Grundschule/ in jeder KiTa führt das neue Lernmaterial bei mindestens 60 % der Kinder zu besseren Leistungen. · Bei jeder Lieferung sind maximal 20 % der Orangen beschädigt. · Für alle Deutschen gilt: Ungefähr 55 % leiden an Bluthochdruck. Hypothesen dieser Art lassen sich nicht beweisen, indem man etwa nur die Kinder einer KiTa/ einer Grundschule bzw. nur die Orangen einer Lieferung oder nur stichprobenartig eine Gruppe von Menschen, sei sie auch völlig zufällig ausgewählt worden, untersucht. Selbst wenn die Hypothese hier stimmt, kann sie sich an einer – ja sogar an jeder! – anderen Stelle als falsch herausstellen. Durch einen Test kann eine Hypothese also nicht bewiesen werden! Sie kann jedoch falsifiziert10 werden: Wenn das neue Lernmaterial nicht bei 60 % der Kinder der KiTa Ömmes und Oimel und der Sankt-Martin-Grundschule zu einer Verbesserung führt, dann führt es nicht in jeder KiTa und jeder Grundschule zu einer Verbesserung bei mindestens 60 % der Kinder. Falls in einer Lieferung mehr als 20 % der Orangen beschädigt sind, dann sind nicht bei jeder Lieferung höchstens 20 % der Orangen beschädigt. Und wenn in der Stichprobe nicht ungefähr 55 % der Personen an Hypertonie leiden, so bedeutet dies, dass eben nicht für alle Deutschen gilt, dass ungefähr 55 % an Bluthochdruck leiden. Für unser weiteres Vorgehen bedeutet das: 10 von lat. falisificare „als falsch erkennen“ Burghardt – RWB 2013/2014 5 Testen von Hypothesen 67 Beim Testen von Hypothesen werden Kriterien festgelegt, unter denen eine Hypothese als widerlegt angesehen werden kann. Die Festlegung geschieht so, dass die Kriterien nur mit einer geringen Irrtumswahrscheinlichkeit in dem Fall erfüllt sind, wenn die Hypothese eigentlich richtig ist. Wir erläutern nun zunächst an Problem I und Problem II modellhaft, wie man linksseitige und rechtsseitige Tests mathematisch behandelt. Danach wenden wir uns mit Problem III der exemplarischen Behandlung eines zweiseitigen Tests zu. 5.4.2 Linksseitige Hypothesentests (Problem I) Die Erzieher und Lehrer wollen Kriterien festlegen, unter denen die Hypothese H0 : „Die Angabe des Verlags ist richtig.“ als widerlegt angesehen werden sollte. Das Überprüfen eines Lernerfolgs bei den 75 Kindern kann durch eine Bernoulli-Kette S der Länge 75 modelliert werden. Ein Treffer liegt vor, wenn ein Kind bessere Lernleistungen zeigt als bei der Arbeit mit herkömmlichem Lernmaterial. Die Hypothese H0 bedeutet, dass die Trefferwahrscheinlichkeit mindestens 0, 6 ist. Wir formulieren H0 deshalb so: H0 : p ³ 0, 6 . Die Hypothese, für die Falsifizierungskriterien gewonnen werden sollen – also H0 –, heißt auch Nullhypothese. Ihr steht die Alternativhypothese H1 gegenüber, die aussagt, dass H0 falsch ist, in unserem Fall H1 : „Die Angabe des Verlags ist falsch.“ oder H1 : p < 0, 6 Da H0 behauptet, dass die Wahrscheinlichkeit für einen Treffer eher groß ist, sollte H0 als widerlegt angesehen werden, wenn nur wenige Treffer gefunden werden. Als Falsifizierungskriterium bestimmt man deshalb eine geeignete Trefferanzahl k und legt folgende Entscheidungsregel fest: · Ist S £ k , so wird H0 abgelehnt. · Ist S > k , so wird H0 angenommen.11 Die Trefferanzahlen, die zu einer Ablehnung der Nullhypothese führen, bilden den Ablehnungsbereich des Tests. Da der Ablehnungsbereich hier im linken Bereich der Zahlen 0, 1, 2, ,,75 75 liegt, spricht man von einem linksseitigen Test. Die Trefferanzahlen, die zu einer Annahme der Nullhypothese führen, bilden den Annahmebereich des Tests. Natürlich bleibt die getroffene Entscheidung mit Unsicherheit behaftet. Zwei Fehler kann man machen: 11 Um zumindest zu Beginn der Beschäftigung mit Hypothesentests nicht iritiert zu werden, sollte man immer den Augenmerk auf den Ablehnungsbereich und das Ziel, eine Hypothese zu falsifizieren, legen. Die „Annahme“ und der „Annahmebereich“ ergeben sich nur als Komplemente zur Ablehnung und zum Ablehnungsbereich und müssen ansonsten nicht weiter beachtet werden. Burghardt – RWB 2013/2014 5 Testen von Hypothesen 68 · Fehler erster Art: H0 wird abgelehnt, obwohl H0 gilt. · Fehler zweiter Art: H0 wird angenommen, obwohl H0 falsch ist. Im vorliegenden Fall könnte ein Fehler erster Art zum Beispiel zu einer ungerechtfertigten Beschwerde beim Verlag und Absetzung des eigentlich guten Lernmaterials führen, was für die Kinder nachteilig wäre und deshalb möglichst nicht vorkommen sollte. Wir haben oben festgehalten, dass die Falsifikationskriterien so festgelegt werden sollen, dass sie nur mit einer geringen Irrtumswahrscheinlichkeit in dem Fall erfüllt sind, wenn die Hypothese eigentlich richtig ist. Dies bedeutet also: Die Wahrscheinlichkeit für einen Fehler erster Art soll kontrolliert und klein gehalten werden. Die Wahrscheinlichkeit, einen Fehler erster Art zu machen, nennen wir Risiko erster Art. Um das Risiko erster Art zu beschränken, gibt man eine obere Grenze hierfür an, die nicht überschritten werden darf. Diese obere Grenze für das Risiko erster Art heißt Signifikanzniveau oder auch Irrtumswahrscheinlichkeit. Es wird mit a bezeichnet. Typische Werte für a sind a = 0, 1 oder a = 0, 05 oder a = 0, 01 . Die Trefferanzahl k , die den Ablehnungsbereich begrenzt, muss also so gewählt, werden, dass es höchstens mit Wahrscheinlichkeit a vorkommen kann, höchstens k Treffer zu haben, wenn tatsächlich H0 stimmt, also p mindestens 0,6 ist. Es muss also k so bestimmt werden, dass Pp ( S £ k ) £ a ist, wann immer p ³ 0, 6 . (Da wir hier mit verschiedenen Trefferwahrscheinlichkeiten arbeiten müssen, geben wir von nun an die gerade angenommene Trefferwahrscheinlichkeit als Index mit an.) Problematisch ist auf den ersten Blick, dass die Ungleichung Pp ( S £ k ) £ a für alle p ³ 0, 6 gelten soll, also unendlich viele Ungleichungen erfüllt sein müssen! Hier hilft folgende Beobachtung weiter: Die durch f ( x ) = Px ( S £ k ) gegebene Funktion ist im Fall k < n für 0 < x < 1 streng monoton fallend (einen Nachweis führen wir unten; ein typischer Verlauf des Graphen von f – hier mit n = 10 und k = 4 – ist rechts gezeichnet). Für p > 0, 6 gilt also f ( p ) < f ( 0, 6 ) , das heißt Pp ( S £ k ) < P0,6 ( S £ k ) . Um die unendlich vielen Ungleichungen Pp ( S £ k ) £ a für alle p ³ 0, 6 zu erfüllen, genügt es also, die Ungleichung P0,6 ( S £ k ) £ a richtig zu machen. Deshalb geht man beim linksseitigen Test so vor: Um den Ablehnungsbereich beim linksseitigen Test zu bestimmen, berechnet man Pp ( S £ k ) mit der Trefferwahrscheinlichkeit p , die H0 von H1 abgrenzt. Burghardt – RWB 2013/2014 5 Testen von Hypothesen 69 Damit das Signifikanzniveau voll ausgeschöpft wird, nimmt man für k den größtmöglichen Wert, sodass Pp ( S £ k ) £ a gilt. Wir führen den Test nun praktisch durch und wählen a = 0, 1 als Signifikanzniveaz. Wir müssen das größte k mit P0,6 ( S £ k ) £ 0, 1 finden, wobei S eine Bernoulli-Kette der Länge n = 75 mit Trefferwahrscheinlichkeit p = 0, 6 ist. Hierfür haben wir zwei Möglichkeiten: · Zum einen können wir die Werte der kumulierten Binomialverteilung (mit n = 75 und Trefferwahrscheinlichkeit p = 0, 6 ) bestimmen und ermitteln, für welchen Wert von k die Wahrscheinlichkeit P ( S £ k ) letztmals unterhalb des Wertes 0, 1 bleibt. · Zum anderen können wir die integrale Näherungsformel von Laplace verwenden. Den letzten Weg wollen wir hier einschlagen. Da wir mit n = 75 und p = 0, 6 arbeiten, ist m = 75 × 0, 6 = 45 und s = 75 × 0, 6 × 0, 4 = 4, 2426 . Damit rechnen wir: æ k - 45 + 0, 5 ö æ k - 44, 5 ö P0,6 ( S £ k ) = F ç = Fç ÷ ÷ è 4, 2426 ø è 4, 2426 ø Wir müssen also das größtmögliche k bestimmen, sodass æ k - 44, 5 ö Fç ÷ £ 0, 1 . è 4, 2426 ø k - 44, 5 Um Schreibarbeit zu sparen, schreiben wir statt kurz x . Aus der Tabelle der Gaußschen 4, 2426 Integralfunktion muss also ein möglichst großes x bestimmt werden, sodass F ( x ) den Wert a = 0, 1 nicht übersteigt. Dies ist x = -1, 29 , also k - 44, 5 = -1, 29 . 4, 2426 Hieraus folgt k = 39, 027 . Da S nur ganzzahlige Werte annehmen kann, ist S £ 39, 027 gleichbedeutend mit S £ 39 . Damit ergibt sich die folgende Entscheidungsregel: · Zeigen 39 oder weniger Kinder eine Verbesserung des Leistung, geht man davon aus, dass die Aussage des Verlages falsch ist: Das neue Lernmaterial führt nicht in mindestens 60 % der Fälle zu einer besseren Lernleistung. · Zeigen mehr als 39 Schüler eine Verbesserung, geht man davon aus, dass die Aussage des Verlages stimmt: Das neue Lernmaterial führt in mindestens 60 % der Fälle zu einer besseren Lernleistung. Wegen des gewählten Signifikanzniveaus a = 0, 1 macht man höchstens mit einer Wahrscheinlichkeit von 10 % einen Fehler erster Art: Man geht irrtümlicherweise davon aus, dass das neue Lernmaterial nicht so gut ist, wie versprochen. Gibt man einen konkreten Wert für p vor, kann man das tatsächliche Risiko erster Art, also die tatsächliche Wahrscheinlichkeit, einen Fehler erster Art zu machen, bzw. das tatsächliche Risiko zweiter Art, also die tatsächliche Wahrscheinlichkeit, einen Fehler zweiter Art zu machen, berechnen. Burghardt – RWB 2013/2014 5 Testen von Hypothesen 70 Angenommen, im vorliegenden Fall ist tatsächlich p = 0, 65 . Dann ist H0 richtig und man macht nur in dem Fall einen Fehler, wenn man H0 ablehnt, nämlich einen Fehler erster Art. Die Wahrscheinlichkeit hierfür, also das Risiko erster Art, bestimmt man so: Wird H0 abgelehnt, befindet sich die Anzahl S der Treffer im Ablehnungsbereich, ist also kleiner oder gleich 39. Die Wahrscheinlichkeit hierfür ist P0,65 ( S £ 39 ) , wobei die tatsächliche Trefferwahrscheinlichkeit p = 0, 65 zu wählen ist. Diese Wahrscheinlichkeit ermitteln wir mit der integralen Näherungsformel. Hierzu berechnen wir m = 75 × 0, 65 = 48, 75 und s = 75 × 0, 65 × 0, 35 = 4, 131 , womit sich æ 39 - 48, 75 + 0, 5 ö P0,65 ( S £ 39 ) = F ç ÷ = F ( -2, 24 ) = 0, 0125 4, 131 è ø ergibt. Das Risiko erster Art beträgt also 0,0125, wenn die tatsächliche Trefferwahrscheinlichkeit p = 0, 65 ist. Wie nach der Konstruktion des Ablehnungsbereichs zu erwarten, liegt das Risiko erster Art unter dem Signifikanzniveau von 0, 1 . Ist die tatsächliche Trefferwahrscheinlichkeit dagegen beispielsweise p = 0, 55 , so ist H0 falsch und man macht nur in dem Fall einen Fehler, wenn man H0 annimmt. Es liegt dann ein Fehler zweiter Art vor. Die Wahrscheinlichkeit hierfür, also das Risiko zweiter Art, ergibt sich so: Wird H0 angenommen, befindet sich die Anzahl S der Treffer im Annahmebereich. Die Wahrscheinlichkeit hierfür ist P0,55 ( S > 39 ) = 1 - P0,55 ( S £ 39 ) , wobei die tatsächliche Trefferwahrscheinlichkeit p = 0, 55 zu wählen ist. Zur Berechnung dieser Wahrscheinlichkeit verwenden wir wieder die integrale Näherungsformel. Mit m = 75 × 0, 55 = 41, 25 und s = 75 × 0, 55 × 0, 45 = 4, 308 ergibt sich æ 39 - 41, 25 + 0, 5 ö P0,55 ( S > 39 ) = 1 - P0,55 ( S £ 39 ) = 1 - F ç ÷ = 1 - F ( -0, 41) = 1 - 0, 3409 = 0, 6591 . 4, 308 è ø Das Risiko zweiter Art beträgt also 0,6591, wenn die tatsächliche Trefferwahrscheinlichkeit p = 0, 55 ist. 5.4.3 Rechtsseitige Hypothesentests (Problem II) Die Mitarbeiter der Stadt wollen für die Hypothese H0 : „Die Angabe des Obsthändlers ist richtig.“, also H0 : p £ 0, 2 ein Falsifikationskriterium finden. Das Überprüfen der 60 Orangen auf Druckstellen kann durch eine Bernoulli-Kette S der Länge 60 modelliert werden. Ein Treffer liegt vor, wenn eine Orange beschädigt ist. Die Trefferwahrscheinlichkeit ist unbekannt. Die Alternativhypothese H1 lautet im vorliegenden Fall H1 : „Die Angabe des Obsthändlers ist falsch.“ oder H1 : p > 0, 2 Um zu testen, ob H0 gilt, legt man für eine geeignete Trefferanzahl k folgende Entscheidungsregel fest: · Ist S ³ k , so wird H0 abgelehnt. · Ist S < k , so wird H0 angenommen. Burghardt – RWB 2013/2014 5 Testen von Hypothesen Da der Ablehnungsbereich hier im rechten Bereich der Zahlen 0, 1, 2, einem rechtsseitigen Test. 71 ,,60 60 liegt, spricht man von Wie bei einem linksseitigen Test soll auch bei einem rechtsseitigen Test die Wahrscheinlichkeit für einen Fehler erster Art ( H0 wird abgelehnt, obwohl H0 gilt.) klein sein. Im vorliegenden Fall würde ein Fehler erster Art eine ungerechtfertigte Reklamation bedeuten. Den vorliegenden Test wollen wir auf dem Signifikanzniveau a = 0, 05 durchführen. Die Abgrenzung k des Ablehnungsbereichs ist so zu wählen, dass Pp ( S ³ k ) £ a ist, wann immer die Trefferwahrscheinlichkeit zur Nullhypothese gehört, also wann immer p £ 0, 2 ist. Da für jedes l < n die Funktion f ( x ) = Pl ( S £ l ) für 0 < x < 1 streng monoton fällt, wächst die durch g ( x ) = Px ( S ³ k ) = 1 - Px ( S £ k - 1) gegebene Funktion für 0 < x < 1 streng monoton. Die unendlich vielen Ungleichungen Pp ( S ³ k ) £ a mit p £ 0, 2 sind also genau dann erfüllt, wenn die entsprechende Ungleichung für das größte p , also p = 0, 2 , erfüllt ist. Die Abgrenzung k des Ablehnungsbereichs ist so zu wählen, dass P0,2 ( S ³ k ) £ a . Deshalb geht man beim rechtsseitigen Test so vor: Um den Ablehnungsbereich beim rechtsseitigen Test zu bestimmen, berechnet man Pp ( S ³ k ) mit der Trefferwahrscheinlichkeit p , die H0 von H1 abgrenzt. Um das Signifikanzniveau voll auszuschöpfen, nimmt man für k den kleinstmöglichen Wert, sodass P ( S ³ k ) £ a gilt. Wir fassen zusammen: Wir müssen das kleinste k mit P0,2 ( S ³ k ) £ 0, 05 finden, wobei S eine Bernoulli-Kette der Länge n = 60 mit Trefferwahrscheinlichkeit p = 0, 2 ist. Hierzu verwenden wir die integrale Näherungsformel von Laplace. Da wir mit n = 60 und p = 0, 2 arbeiten, ist m = 60 × 0, 2 = 12 und s = 60 × 0, 2 × 0, 8 = 3, 0984 . Damit rechnen wir: æ k - 1 - 12 + 0, 5 ö æ k - 12, 5 ö = 1-Fç P0,2 ( S ³ k ) = 1 - P0,2 ( S £ k - 1) » 1 - F ç ÷ ÷ 3, 0984 è ø è 3, 0984 ø Es muss also das kleinstmögliche k gefunden werden, sodass æ k - 12, 5 ö 1-Fç ÷ £ 0, 05 è 3, 0984 ø ist. Da man – sofern man nicht mit einer negativen Zahl multipliziert – Ungleichungen wie Gleichungen umformen kann, bedeutet dies æ k - 12, 5 ö 0, 95 £ F ç ÷. è 3, 0984 ø Burghardt – RWB 2013/2014 5 Testen von Hypothesen 72 k - 12, 5 kurz x . Aus der Tabelle der Gaußschen 3, 0984 Integralfunktion muss also ein möglichst kleines x bestimmt werden, sodass F ( x ) den Wert 0, 95 Um Schreibarbeit zu sparen, schreiben wir statt übersteigt. Es ist x = 1, 65 , also k - 12, 5 = 1, 65 . 3, 0984 Hieraus ergibt sich k = 17, 61236 . Da S nur ganzzahlige Werte annehmen kann, ist S ³ 17, 61236 gleichbedeutend mit S ³ 18 . Somit sieht die Entscheidungsregel wie folgt aus: · Sind 18 oder mehr Orangen beschädigt, geht man davon aus, dass die Aussage des Obsthändlers falsch ist: Die Orangen sind nicht nur in höchstens 20 % der Fälle beschädigt. · Sind weniger als 18 Schüler Orangen beschädigt, geht man davon aus, dass die Aussage des Obsthändlers stimmt: Höchstens 20 % der Orangen sind beschädigt. Wegen des gewählten Signifikanzniveaus a = 0, 05 macht man höchstens mit einer Wahrscheinlichkeit von 5 % einen Fehler erster Art, reklamiert also eine in Wirklichkeit korrekte Lieferung. Auch hier wollen wir für zwei spezielle Werte von p die tatsächlichen Fehlerwahrscheinlichkeiten bestimmen. Zuerst nehmen wir an, die Aussage ist des Obsthändlers ist „so gerade“ erfüllt: Es ist tatsächlich p = 0, 2 . Dann ist H0 richtig und man macht einen Fehler erster Art, wenn man H0 ablehnt. Dies geschieht dann, wenn die Trefferanzahl S im Ablehnungsbereich liegt, also mindestens 18 ist. Die Wahrscheinlichkeit hierfür ist P0,2 ( S ³ 18 ) , wobei die tatsächliche Trefferwahrscheinlichkeit p = 0, 2 zu nehmen ist. Um die integrale Näherungsformel anwenden zu können, berechnen wir m = 60 × 0, 2 = 12 und s = 60 × 0, 2 × 0, 8 = 3, 098 und finden æ 17 - 12 + 0, 5 ö P ( S ³ 18 ) = 1 - P ( S £ 17 ) = 1 - F ç ÷ = 1 - F (1, 78 ) = 1 - 0, 9625 = 0, 0375 . è 3, 098 ø Das Risiko erster Art ist in diesem Fall also 0,0375. Es liegt – wie nach Konstruktion des Ablehnungsbereichs zu erwarten – unterhalb des Signifikanzniveaus 0, 05 . Wenn der Obsthändler nicht recht hat, und die tatsächliche Wahrscheinlichkeit, dass eine gelieferte Orange beschädigt ist, bei p = 0, 3 liegt, so ist H0 falsch und man macht einen Fehler zweiter Art, wenn man H0 annimmt. Dies geschieht dann, wenn die Trefferanzahl S im Annahmebereich liegt, also höchstens 17 ist. Die Wahrscheinlichkeit hierfür ist P0,3 ( S £ 18 ) , wobei die tatsächliche Trefferwahrscheinlichkeit p = 0, 3 zu nehmen ist. Um die integrale Näherungsformel anwenden zu können, berechnen wir m = 60 × 0, 3 = 18 und s = 60 × 0, 3 × 0, 7 = 3, 55 und finden æ 17 - 18 + 0, 5 ö P ( S £ 17 ) = F ç ÷ = F ( -0, 14 ) = 0, 4443 . 3, 55 è ø Das Risiko zweiter Art ist in diesem Fall also 0,4443: Mit ungefähr 45 %iger Wahrscheinlichkeit werden die Orangen nicht beanstandet, obwohl der Anteil der beschädigten Orangen um 50% höher liegt als vom Händler angegeben. Burghardt – RWB 2013/2014 5 Testen von Hypothesen 73 5.4.4 Zweiseitige Hypothesentests (Problem III) Die Schülerinnen und Schüler wollen die Nullhypothese H0 : p = 0, 55 auf ihren Wahrheitsgehalt untersuchen. Als mathematisches Modell wird eine Bernoulli-Kette S der Länge 100 verwendet, wobei „Erfolg“ bedeutet, dass die entsprechende Person an Hypertonie leidet. Die Trefferwahrscheinlichkeit ist unbekannt. Die Alternativhypothese H1 lautet im vorliegenden Fall H1 : p ¹ 0, 55 Um zu testen, ob H0 gilt, legt man für zwei geeignete Trefferanzahlen k < l folgende Entscheidungsregel fest: · Ist S £ k oder S ³ l , so wird H0 abgelehnt. · Ist k < S < l , so wird H0 angenommen. Da der Ablehnungsbereich – also die Trefferzahlen, die zur Ablehnung der Nullhypothese führen – hier sowohl im linken als auch im rechten Bereich der Zahlen 0, 1, 2, ,100 , 100 liegen, spricht man von einem zweiseitigen Test. Wie bei einem einseitigen Test soll auch bei einem zweiseitigen Test die Wahrscheinlichkeit für einen Fehler erster Art ( H0 wird abgelehnt, obwohl H0 gilt.) klein sein. Den vorliegenden Test wollen wir auf dem Signifikanzniveau a = 0, 1 durchführen. Die Abgrenzungen k und l des Ablehnungsbereichs sind so zu wählen, dass P0,55 ( S £ k ) + P0,55 ( S ³ l ) £ a ist, wenn die Nullhypothese gilt, wenn also p = 0, 55 ist. Problematisch ist hier, wie das Signifikanzniveau a auf die beiden Wahrscheinlichkeiten P0,55 ( S £ k ) und P0,55 ( S ³ l ) aufgeteilt werden soll. Hierzu gibt es keine feststehende Regel. Wir legen folgendes fest: Bei einem zweiseitigen Test entfällt auf jeden der beiden Teile des Ablehnungsbereichs die Hälfte des Signifikanzniveaus: a a P0,55 ( S £ k ) £ und P0,55 ( S ³ l ) £ . 2 2 Um das Signifikanzniveau voll auszuschöpfen, nimmt man für k den größtmöglichen Wert mit P0,55 ( S £ k ) £ a 2 und für l den kleinstmöglichen Wert mit P0,55 ( S ³ l ) £ a 2 . Zusammenfassung: Wir müssen · das größte k mit P0,55 ( S £ k ) £ 0, 05 und · das kleinste l mit P0,55 ( S ³ l ) £ 0, 05 Burghardt – RWB 2013/2014 5 Testen von Hypothesen 74 finden, wobei S eine Bernoulli-Kette der Länge n = 100 mit Trefferwahrscheinlichkeit p = 0, 55 ist. Wir arbeiten wieder mit der integralen Näherungsformel. Es ist m = 100 × 0, 55 = 55 und s = 100 × 0, 55 × 0, 45 = 4, 9749 . Wir bestimmen zuerst die Grenze des linken Teils des Ablehnungsbereichs: æ k - 55 + 0, 5 ö æ k - 54, 5 ö P0,55 ( S £ k ) » F ç = Fç ÷ ÷ è 4, 9749 ø è 4, 9749 ø k - 54, 5 . Wir müssen das größtmögliche x bestimmen, sodass Zur Abkürzung setzen wir x = 4, 9749 F ( x ) £ 0, 05 ist. Es ist x = -1, 65 und damit k - 54, 5 = -1, 65 . 4, 9749 Hieraus ergibt sich k = 46, 291415 . Da S nur ganzzahlige Werte annehmen kann, ist S £ 46, 291415 gleichwertig mit S £ 46 . Die linke Teil des Ablehnungsbereichs geht also bis k = 46 . Jetzt bestimmen wir die Grenze des rechten Teils des Ablehnungsbereichs: æ l - 1 - 55 + 0, 5 ö æ l - 55, 5 ö P0,55 ( S ³ l ) = 1 - P0,55 ( S £ l - 1) » 1 - F ç = 1-Fç ÷ ÷ 4, 9749 è ø è 4, 9749 ø Es muss also das kleinstmögliche l gefunden werden, sodass æ l - 55, 5 ö 1-Fç ÷ £ 0, 05 è 4, 9749 ø ist, also æ l - 55, 5 ö 0, 95 £ F ç ÷. è 4, 9749 ø l - 55, 5 Um Schreibarbeit zu sparen, schreiben wir statt kurz x . Aus der Tabelle der Gaußschen 4, 9749 Integralfunktion muss ein möglichst kleines x bestimmt werden, sodass F ( x ) den Wert 0, 95 übersteigt. Es ist x = 1, 65 , also l - 55, 5 = 1, 65 . 4, 9749 Hieraus ergibt sich l = 63, 708585 . Da S nur ganzzahlige Werte annehmen kann, ist S ³ 63, 708585 gleichbedeutend mit S ³ 64 . Damit lautet die Entscheidungsregel für diesen zweiseitigen Test wie folgt. · Sind von den Befragten höchstens 46 oder mindestens 64 Personen an Bluthochdruck erkrankt, wird die Nullhypothese verworfen, das heißt: Man geht davon aus, dass die Wahrscheinlichkeit dafür, an Hypertonie zu erkranken, nicht 55 % ist. · Sind zwischen 46 und 64 der Befragten an Blutdruck erkrankt, wird die Nullhypothese angenommen, das heißt: Man geht davon aus, dass die Wahrscheinlichkeit dafür, an Hypertonie zu erkranken, bei 55 % liegt. Burghardt – RWB 2013/2014 5 Testen von Hypothesen 75 5.5 Faustregeln für das Formulieren der Nullhypothese Während bei zweiseitigen Tests klar ist, wie die Nullhypothese zu wählen ist, kann dies bei einseitigen Tests durchaus problematisch sein. Wir halten deshalb ein paar Faustregeln für die Formulierung der Nullhypothese fest. Dazu fassen wir zunächst zusammen, was ein Fehler erster oder zweiter Art bedeutet. Ein Fehler erster Art bedeutet, dass · die an sich richtige Nullhypothese irrtümlicherweise abgelehnt wird. · die an sich falsche Gegenhypothese irrtümlicherweise angenommen wird. Ein Fehler zweiter Art bedeutet, dass · die an sich falsche Nullhypothese irrtümlicherweise angenommen wird. · die an sich richtige Gegenhypothese irrtümlicherweise abgelehnt wird. Hieraus leiten wir die folgenden Regeln für das Formulieren der Nullhypothese her; Regel 4 ist hierbei die wichtigste: 1. Eine Aussage, die man nur mit geringer Wahrscheinlichkeit irrtümlicherweise ablehnen will, gehört in die Nullhypothese H0 . BEGRÜNDUNG: Das Risiko erster Art, also die Wahrscheinlichkeit für die irrtümliche Ablehnung der Nullhypothese, wird nämlich durch das Signifikanzniveau kontrolliert und beschränkt. 2. Eine Aussage, deren irrtümliche Ablehnung die gravierenderen Folgen hat, gehört in die Nullhypothese H0 . BEGRÜNDUNG: Die Wahrscheinlichkeit für die irrtümliche Ableitung der Aussage soll klein sein, weil man möglichst keinen gravierenden Fehler machen will. Nur, wenn diese Aussage die Nullhypothese bildet, kann dies gewährleistet werden, da das Signifikanzniveau das Risiko erster Art beschränkt. 3. Der „Status Quo“ (der etablierte Zustand) gehört in die Nullhypothese H0 . BEGRÜNDUNG: In der Regel bedarf es guter Gründe, einen etablierten Zustand abzulehnen. Die irrtümliche Ablehnung eines etablierten Zustands hat meist gravierende Folgen. 4. Eine Aussage, deren Gültigkeit – ggf. unter Angabe einer Irrtumswahrscheinlichkeit – nachgewiesen werden soll, gehört in die Gegenhypothese H1 . BEGRÜNDUNG: Man will eine irrtümliche Annahme der nachzuweisenden Aussage möglichst ausschließen. Da die einzige Möglichkeit, in dem gewählten Ansatz für das Testen von Hypothesen Wahrscheinlichkeiten zu kontrollieren, über das Signifikanzniveau führt, kann die Wahrscheinlichkeit für eine irrtümliche Annahme nur dann kontrolliert werden, wenn die entsprechende Aussage die Gegenhypothese bildet. 5.6 Übungen Einseitige Tests 5.6.1 Die Nullhypothese H0 : p ³ 0, 4 soll gegen die Gegenhypothese H1 : p < 0, 4 bei einem Stickprobenumfang von n = 50 und einer Irrtumswahrscheinlichkeit von a = 0, 05 getestet werden. a) Bestimmen Sie den Ablehnungsbereich. Burghardt – RWB 2013/2014 5 Testen von Hypothesen b) c) 76 Berechnen Sie das Risiko erster Art im Fall p = 0, 4 und im Fall p = 0, 45 . Berechnen Sie die Wahrscheinlichkeit für einen Fehler zweiter Art im Fall p = 0, 3 sowie im Fall p = 0, 2 . (Die integrale Näherungsformel darf hier auch verwendet werden, wenn npq < 9 ist.) 5.6.2 Die Nullhypothese H0 : p £ 0, 7 soll gegen die Gegenhypothese H1 : p > 0, 7 bei einem Stichprobenumfang von n = 100 auf dem Signifikanzniveau a = 0, 1 getestet werden. a) Bestimmen Sie den Ablehnungsbereich. b) Berechnen Sie das Risiko erster Art im Fall p = 0, 7 und im Fall p = 0, 67 . c) Berechnen Sie die Wahrscheinlichkeit für einen Fehler zweiter Art im Fall p = 0, 75 sowie im Fall p = 0, 8 . 5.6.3 Ein Teil eines Einstellungstests besteht aus einem Multiple-Choice-Fragebogen, beim dem 40 Fragen mit Ja oder Nein zu beantworten sind. Werden mehr als 24 Fragen korrekt beantwortet, gehen die Tester davon aus, dass die Lösungen nicht erraten sondern aufgrund von Kenntnissen gegeben wurden, und werten diesen Teil des Tests als bestanden. a) Berechnen Sie die Wahrscheinlichkeit, dass ein Bewerber den Teil des Tests besteht, obwohl er rät. b) Erläutern Sie anhand der im Lehrtext gegebenen „Faustregeln“, dass für die Entscheidung, ob ein Bewerber rät oder durch Wissen korrekt antwortet, die Nullhypothese H0 : p £ 0, 5 gewählt werden sollte. c) d) Bestimmen Sie für die Nullhypothese H0 : p £ 0, 5 den Ablehnungsbereich auf dem Signifikanzniveau a = 0, 01 . Geben Sie an, ab wie vielen richtig beantworteten Fragen der Teil des Einstellungstests als bestanden gewertet werden muss, wenn die Wahrscheinlichkeit, dass ein Bewerber den Teil des Tests besteht, obwohl er rät, bei höchstens 1 % liegen soll. 5.6.4 Im Kurs Biologie des Beruflichen Gymnasiums an einem Berufskolleg wurde die These diskutiert, dass mehr als 55 % der erwachsenen Deutschen an Bluthochdruck leiden. Um diese These mit einem einseitigen Hypothesentest zu testen, werden die 175 Lehrerinnen und Lehrer des Berufskollegs anonym befragt, ob sie an Hypertonie leiden. Zugleich wurde der BMI erhoben. a) Erläutern Sie anhand der im Lehrtext gegebenen „Faustregeln“, dass für den Schluss, der Anteil der an Hypertonie erkrankten Deutschen liege bei mehr als 55 %, die Nullhypothese H0 : p £ 0, 55 gewählt werden muss. b) Bestimmen Sie für die Nullhypothese H0 : p £ 0, 55 den Ablehnungsbereich auf dem Signifi- c) d) e) kanzniveau a = 0, 05 und formulieren Sie die Entscheidungsregel in Bezug auf die These, dass mehr als 55 % der Deutschen Bluthochdruck haben. Berechnen Sie die Wahrscheinlichkeit, dass die These „Bluthochdruck bei mehr als 55 % der Deutschen“ aufgrund des Tests abgelehnt wird, wenn tatsächlich 60 % an Hypertonie leiden. Ermitteln Sie die Wahrscheinlichkeit, dass die These aufgrund des Tests angenommen wird, wenn tatsächlich nur 50 % an Hypertonie leiden. Von den 48 adipösen Mitgliedern (BMI ab 30) des Lehrerkollegiums haben 39 angegeben, unter Bluthochdruck zu leiden. Eine Schülerin des Biologiekurses schließt hieraus, dass bei adipösen Menschen die Wahrscheinlichkeit für Bluthochdruck bei über 75 % liegt. Untersuchen Sie, ob dieser Schluss bei einer (großzügigen) Irrtumswahrscheinlichkeit von 0,2 gerechtfertigt ist. Burghardt – RWB 2013/2014 5 Testen von Hypothesen 77 5.6.5 Im Rahmen eines biologischen Experiments soll untersucht werden, welches von zwei Merkmalen A und B bei einer bestimmten Pflanzenart dominant und welches rezessiv ist. Hierzu werden heterozygoter Individuen AB ´ AB gekreuzt. Nach den Mendelschen Gesetzen ist bei dominantem Erbgang zu erwarten, dass der Phänotypus mit dem dominanten Merkmal mit der Wahrscheinlichkeit 0,75 und der Phänotypus des rezessiven Merkmals mit der Wahrscheinlichkeit 0,25 auftritt. Bei dem Kreuzungsversuch ergaben sich insgesamt 15 Nachkommen. Hinweis. Bei der Lösung dieser Aufgabe sind die Voraussetzungen für die Näherungsformeln nicht erfüllt. Sie sollen deshalb mit den genauen Werten arbeiten. Diese sind durch die folgende Tabelle gegeben, wobei Sie die fehlenden Werte noch selbständig ergänzen sollen. p = 0, 25 p = 0, 75 k P (S = k) P (S £ k) P (S = k) P (S £ k) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0,01336 0,06682 0,01336 0,08018 0,2252 0,2252 0,16515 0,09175 0,46129 0,68649 0,85164 0,94339 0 0 0 0,00001 0,0001 0,00068 0,0034 0 0 0 0,00001 0,00011 0,00079 0,00419 0,0034 0,00068 0,0001 0,00001 0 0 0 0,99582 0,99922 0,9999 1 1 1 1 1 0,09175 0,16515 0,2252 0,2252 0,05662 0,14837 0,31352 0,53872 0,76392 0,06682 0,01336 0,98665 1 a) Zunächst wird diskutiert, das Merkmal, das bei den Nachkommen häufiger vorkommt, als dominant anzusehen. Berechnen Sie die Wahrscheinlichkeit, dass diese Entscheidung falsch ist, also das am häufigsten vorkommende Merkmal rezessiv ist. Bestimmen Sie für die Nullhypothese H0 : p ³ 0, 75 den Ablehnungsbereich auf dem Signifikanzniveau a = 0, 05 . Geben Sie an, wie oft ein Merkmal unter den 15 Nachkommen höchstens vorkommen darf, damit höchstens mit einer Wahrscheinlichkeit von 5 % ein tatsächlich dominantes Merkmal nicht als solches erkannt wird. Berechnen Sie für den in c) entwickelten Test die Wahrscheinlichkeit, dass · ein tatsächlich rezessives Merkmal fälschlicherweise als dominant identifiziert wird. · ein tatsächlich dominantes Merkmal tatsächlich als dominant erkannt wird. Entwickeln Sie einen zweiten Hypothesentest, mit dem es möglich ist, ein tatsächlich rezessives Merkmal mit einer Irrtumswahrscheinlichkeit von höchstens 5 % als rezessiv zu identifizieren. b) c) d) e) Burghardt – RWB 2013/2014 5 Testen von Hypothesen 78 5.6.6 Eine Fluggesellschaft geht aufgrund ihrer Erfahrungen davon aus, dass mindestens 3% aller Fluggäste, die einen Langstreckenflug buchen, den Flug nicht antreten. Für den neuen Super-Jumbo Airbus A 380-800 mit 526 Sitzplätzen verkauft sie 541 Tickets. Beim Check in für den Flug erscheinen dann 530 Fluggäste. a) Untersuchen Sie, ob auf Grund dieser Zahlen bei einer Irrtumswahrscheinlichkeit von 5 % der Behauptung zugestimmt werden kann, dass die Anzahl der Fluggäste, die nicht erscheinen, kleiner ist als 3 %. b) Untersuchen Sie andererseits, ob auf der Grundlage der Zahlen bei einer Irrtumswahrscheinlichkeit von 5 % der Behauptung zugestimmt werden kann, dass die Anzahl der Fluggäste, die nicht erscheinen, größer ist als 3 %. c) Im Vorstand der Fluggesellschaft will man die Entwicklung der Zahl der Passagiere, die nicht zu Flügen erscheinen, genauer beobachten und dabei die Buchungs- und Check-in-Zahlen aller Langstreckenflüge des vergangenen Monats berücksichtigen. Entscheiden Sie begründet, ob der Vorstand hierfür einen Test wie in a) oder einen Test wie in b) zu Grunde legen sollte. 5.6.7 Jedes Jahr muss die Kindertagesstätte Ömmes und Oimel einen nicht geringen Geldbetrag für Fotokopien einplanen. Ein Teil der Kosten entsteht, weil der Fotokopierer Blätter falsch einzieht, Papierstau entsteht oder sonstige Fehlfunktionen auftreten. Die Herstellerfirma des gerade neu angeschafften Kopierers verspricht, dass die Ausschussquote bei nur 6 % pro Jahr liegt. In der Kita werden im Lauf eines Jahres rund 1.500 Kopien gemacht. a) Die Leiterin der Kita will durch einen einseitigen Hypothesentest auf dem Signifikanzniveau a = 0, 1 überprüfen, ob die Angaben der Herstellerfirma des Kopierers stimmen, und den Kopierer gegebenenfalls reklamieren. Sie wählt als Nullhypothese H0 : p ³ 0, 06 . Erläutern Sie, warum die Leiterin sich für einen linksseitigen Hypothesentest entschieden hat. b) Innerhalb eines Jahres erzeugt der Kopierer insgesamt 86 Blätter Ausschuss. Entscheiden Sie, ob die Leiterin der Kita Grund hat, den Kopierer zur reklamieren. Bestimmen Sie auch die Wahrscheinlichkeit, dass sie sich ungerechtfertigt beschwert, wenn die Ausschussquote in der Tat 6 % beträgt. 5.7 Anhang In diesem Anhang wird der Nachweis geführt, dass die durch f ( x ) = Px ( S £ k ) gegebene Funktion im Fall k < n für 0 < x < 1 streng monoton fallend ist. Hierzu genügt es für 0 < x < 1 nachzuweisen, dass f ¢ ( x ) < 0 ist. Wir berechnen zuerst diese Ableitung. Um die Darstellung nicht zu kompliziert zu machen, beschränken wir uns auf den Spezialfall k = 2 , also ænö ænö æ nö n-0 n -1 n -2 f ( x ) = Px ( S £ 2 ) = ç ÷ x 0 (1 - x ) + ç ÷ x 1 (1 - x ) + ç ÷ x 2 (1 - x ) ; è0ø è1ø è2ø den allgemeinen Fall behandelt man genau so. Burghardt – RWB 2013/2014 5 Testen von Hypothesen 79 ænö ænö n -1 n -1 n -2 f ¢ ( x ) = ç ÷ én (1 - x ) × ( -1) ù + ç ÷ é1 × (1 - x ) + x 1 ( n - 1 )(1 - x ) × ( -1 ) ù + ë û ë û è0ø è1ø ænö n -2 n -3 + ç ÷ é2 x (1 - x ) + x 2 ( n - 2 )(1 - x ) ( -1 ) ù û è2ø ë ænö ænö ænö n -1 n -1 n -2 = - ç ÷ n (1 - x ) + ç ÷ (1 - x ) - ç ÷ x 1 ( n - 1 )(1 - x ) + è0ø è1ø è1ø ænö ænö n -2 n -3 + ç ÷ 2 x (1 - x ) - ç ÷ x 2 ( n - 2 )(1 - x ) è2ø è2ø = (1 - x ) n -1 éæ n ö æ n ö ù ù ænö n -2 éæ n ö × êç ÷ - ç ÷ n ú + x ( 1 - x ) × êç ÷ × 2 - ç ÷ × ( n - 1 ) ú + è1ø ëè 1 ø è 0 ø û ëè 2 ø û ænö n -3 - ç ÷ ( n - 2 ) x 2 (1 - x ) è2ø Wir weisen nun nach, dass im letzten Term alle Ausdrücke in den eckigen Klammern Null sind. Hieraus ergibt sich dann nämlich ænö n -3 f ¢ ( x ) = - ç ÷ ( n - 2 ) x 2 (1 - x ) , è2ø ænö n - k -1 . also f ¢ ( x ) = - ç ÷ ( n - k ) x k (1 - x ) èkø Aus 0 < x < 1 und n < k ergibt sich sofort, dass hier jeder Faktor positiv ist, sodass – wegen des negativen Vorzeichens – der Gesamtterm negativ ist, wie behauptet. (Im Fall k = n ist f ¢ ( x ) = 0 , f ist also konstant.) Um zu beweisen, dass die Terme in den eckigen Klammern Null sind, berechnen wir exemplarisch den Term ænö ænö ç ÷ × 2 - ç ÷ × ( n - 1) ; è2ø è1ø die anderen Terme werden auf die gleiche Weise berechnet. ænö ænö n! n! ×2 × ( n - 1) ç ÷ × 2 - ç ÷ × ( n - 1) = 2! × ( n - 2 ) ! 1! × ( n - 1 ) ! è2ø è1ø n! n! = ×2× ( n - 1) 1 × 2 × ( n - 2 )! 1! × 1 × 2 × × ( n - 2 ) × ( n - 1 ) = n! n! 1 × ( n - 2 )! 1 × ( n - 2 )! = 0 Burghardt – RWB 2013/2014 Burghardt – RWB 2013/2014 0,0008 0,0005 0,0004 0,0003 0,0007 0,0005 0,0004 0,0003 0,0007 0,0005 0,0003 0,0002 0,0015 0,0011 0,0014 0,0010 0,0014 0,0010 0,0028 0,0021 0,0027 0,0020 0,0026 0,0019 0,0051 0,0038 0,0049 0,0037 0,0048 0,0036 0,0089 0,0068 0,0087 0,0066 0,0084 0,0064 0,0150 0,0116 0,0146 0,0113 0,0143 0,0110 0,0244 0,0192 0,0239 0,0188 0,0233 0,0183 0,0384 0,0307 0,0375 0,0301 0,0367 0,0294 0,0582 0,0475 0,0571 0,0465 0,0559 0,0455 0,0853 0,0708 0,0838 0,0694 0,0823 0,1020 0,1003 0,0985 0,0681 0,1423 0,1210 0,1401 0,1190 0,1379 0,1170 0,1922 0,1660 0,1894 0,1635 0,1867 0,1611 0,2514 0,2206 0,2483 0,2177 0,2451 0,2148 0,3192 0,2843 0,3156 0,2810 0,3121 0,2776 0,3936 0,3557 0,3897 0,3520 0,3859 0,3483 0,4721 0,4325 0,4681 0,4286 0,4641 0,4247 ,07 ,08 ,09 0,0003 0,0004 0,0006 0,0008 0,0011 0,0015 0,0021 0,0029 0,0039 0,0052 0,0069 0,0091 0,0119 0,0154 0,0197 0,0250 0,0314 0,0392 0,0485 0,0594 0,0721 0,0869 0,1038 0,1230 0,1446 0,1685 0,1949 0,2236 0,2546 0,2877 0,3228 0,3594 0,3974 0,4364 0,4761 ,06 0,0003 0,0004 0,0006 0,0008 0,0011 0,0016 0,0022 0,0030 0,0040 0,0054 0,0071 0,0094 0,0122 0,0158 0,0202 0,0256 0,0322 0,0401 0,0495 0,0606 0,0735 0,0885 0,1056 0,1251 0,1469 0,1711 0,1977 0,2266 0,2578 0,2912 0,3264 0,3632 0,4013 0,4404 0,4801 ,05 - 0,0003 0,0004 0,0006 0,0008 0,0012 0,0016 0,0023 0,0031 0,0041 0,0055 0,0073 0,0096 0,0125 0,0162 0,0207 0,0262 0,0329 0,0409 0,0505 0,0618 0,0749 0,0901 0,1075 0,1271 0,1492 0,1736 0,2005 0,2296 0,2611 0,2946 0,3300 0,3669 0,4052 0,4443 0,4840 ,04 0,0003 0,0004 0,0006 0,0009 0,0012 0,0017 0,0023 0,0032 0,0043 0,0057 0,0075 0,0099 0,0129 0,0166 0,0212 0,0268 0,0336 0,0418 0,0516 0,0630 0,0764 0,0918 0,1093 0,1292 0,1515 0,1762 0,2033 0,2327 0,2643 0,2981 0,3336 0,3707 0,4090 0,4483 0,4880 ,03 0,0003 0,0005 0,0006 0,0009 0,0013 0,0018 0,0024 0,0033 0,0044 0,0059 0,0078 0,0102 0,0132 0,0170 0,0217 0,0274 0,0344 0,0427 0,0526 0,0643 0,0778 0,0934 0,1112 0,1314 0,1539 0,1788 0,2061 0,2358 0,2676 0,3015 0,3372 0,3745 0,4129 0,4522 0,4920 ,02 0,0003 0,0005 0,0007 0,0009 0,0013 0,0018 0,0025 0,0034 0,0045 0,0060 0,0080 0,0104 0,0136 0,0174 0,0222 0,0281 0,0351 0,0436 0,0537 0,0655 0,0793 0,0951 0,1131 0,1335 0,1562 0,1814 0,2090 0,2389 0,2709 0,3050 0,3409 0,3783 0,4168 0,4562 0,4960 ,01 0,0003 0,0005 0,0007 0,0010 0,0013 0,0019 0,0026 0,0035 0,0047 0,0062 0,0082 0,0107 0,0139 0,0179 0,0228 0,0287 0,0359 0,0446 0,0548 0,0668 0,0808 0,0968 0,1151 0,1357 0,1587 0,1841 0,2119 0,2420 0,2743 0,3085 0,3446 0,3821 0,4207 0,4602 0,5000 ,00 0,00 3,40 3,30 3,20 3,10 3,00 2,90 2,80 2,70 2,60 2,50 2,40 2,30 2,20 2,10 2,00 1,90 1,80 1,70 1,60 1,50 1,40 1,30 1,20 1,10 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,9997 0,9995 0,9993 0,9990 0,9987 0,9981 0,9974 0,9965 0,9953 0,9938 0,9918 0,9893 0,9861 0,9821 0,9772 0,9713 0,9641 0,9554 0,9452 0,9332 0,9192 0,9032 0,8849 0,8643 0,8413 0,8159 0,7881 0,7580 0,7257 0,6915 0,6554 0,6179 0,5793 0,5398 0,5000 ,00 0,9997 0,9995 0,9993 0,9991 0,9987 0,9982 0,9975 0,9966 0,9955 0,9940 0,9920 0,9896 0,9864 0,9826 0,9778 0,9719 0,9649 0,9564 0,9463 0,9345 0,9207 0,9049 0,8869 0,8665 0,8438 0,8186 0,7910 0,7611 0,7291 0,6950 0,6591 0,6217 0,5832 0,5438 0,5040 ,01 0,9997 0,9995 0,9994 0,9991 0,9987 0,9982 0,9976 0,9967 0,9956 0,9941 0,9922 0,9898 0,9868 0,9830 0,9783 0,9726 0,9656 0,9573 0,9474 0,9357 0,9222 0,9066 0,8888 0,8686 0,8461 0,8212 0,7939 0,7642 0,7324 0,6985 0,6628 0,6255 0,5871 0,5478 0,5080 ,02 0,9997 0,9996 0,9994 0,9991 0,9988 0,9983 0,9977 0,9968 0,9957 0,9943 0,9925 0,9901 0,9871 0,9834 0,9788 0,9732 0,9664 0,9582 0,9484 0,9370 0,9236 0,9082 0,8907 0,8708 0,8485 0,8238 0,7967 0,7673 0,7357 0,7019 0,6664 0,6293 0,5910 0,5517 0,5120 ,03 0,9997 0,9996 0,9994 0,9992 0,9988 0,9984 0,9977 0,9969 0,9959 0,9945 0,9927 0,9904 0,9875 0,9838 0,9793 0,9738 0,9671 0,9591 0,9495 0,9382 0,9251 0,9099 0,8925 0,8729 0,8508 0,8264 0,7995 0,7704 0,7389 0,7054 0,6700 0,6331 0,5948 0,5557 0,5160 ,04 + 0,9997 0,9996 0,9994 0,9992 0,9989 0,9984 0,9978 0,9970 0,9960 0,9946 0,9929 0,9906 0,9878 0,9842 0,9798 0,9744 0,9678 0,9599 0,9505 0,9394 0,9265 0,9115 0,8944 0,8749 0,8531 0,8289 0,8023 0,7734 0,7422 0,7088 0,6736 0,6368 0,5987 0,5596 0,5199 ,05 0,9997 0,9996 0,9994 0,9992 0,9989 0,9985 0,9979 0,9971 0,9961 0,9948 0,9931 0,9909 0,9881 0,9846 0,9803 0,9750 0,9686 0,9608 0,9515 0,9406 0,9279 0,9131 0,8962 0,8770 0,8554 0,8315 0,8051 0,7764 0,7454 0,7123 0,6772 0,6406 0,6026 0,5636 0,5239 ,06 0,9997 0,9996 0,9995 0,9992 0,9989 0,9985 0,9979 0,9972 0,9962 0,9949 0,9932 0,9911 0,9884 0,9850 0,9808 0,9756 0,9693 0,9616 0,9525 0,9418 0,9292 0,9147 0,8980 0,8790 0,8577 0,8340 0,8078 0,7794 0,7486 0,7157 0,6808 0,6443 0,6064 0,5675 0,5279 ,07 0,9997 0,9996 0,9995 0,9993 0,9990 0,9986 0,9980 0,9973 0,9963 0,9951 0,9934 0,9913 0,9887 0,9854 0,9812 0,9761 0,9699 0,9625 0,9535 0,9429 0,9306 0,9162 0,8997 0,8810 0,8599 0,8365 0,8106 0,7823 0,7517 0,7190 0,6844 0,6480 0,6103 0,5714 0,5319 ,08 0,9998 0,9997 0,9995 0,9993 0,9990 0,9986 0,9981 0,9974 0,9964 0,9952 0,9936 0,9916 0,9890 0,9857 0,9817 0,9767 0,9706 0,9633 0,9545 0,9441 0,9319 0,9177 0,9015 0,8830 0,8621 0,8389 0,8133 0,7852 0,7549 0,7224 0,6879 0,6517 0,6141 0,5753 0,5359 ,09 6 Tabelle der Gaußschen Integralfunktion 80 6 Tabelle der Gaußschen Integralfunktion 6 Tabelle der Gaußschen Integralfunktion 81 Ablesebeispiel: F (1, 45) = 0, 9265 ; F ( -1, 45) = 0, 0735 . Ist x nicht tabelliert wählt man das nächst kleinere tabellierte a und das nächst größere tabellierte b , und approximiert F ( x ) durch lineare Interpolation: F ( x ) » F (a) + Beispiel: F (1, 453) » F (1, 45) + x -a × (F ( b) - F (a )) . 0, 01 1, 453 - 1, 45 × ( F (1, 46 ) - F (1, 45) ) = 0, 92692 0, 01 Für x > 3, 49 kann F ( x ) = 1 , für x < -3, 49 kann F ( x ) = 0 angenommen werden. Burghardt – RWB 2013/2014