Vet. Med. Uni. Budapest 4. Übung Biomathematik 2017 4. Übung (Wahrscheinlichkeitsverteilungen) Man wird erst Fragestellung(en) formuliert und dann mit Hilfe des R-Programms gibt man eine Antwort auf die formulierte Frage(n). Verteilung einer Zufallsvariable Es werden einige Begriffe erläutert. Variable: Die charakteristischen Werten und Eigenschaften der Individuen kann man oft bestimmen, bspw. Lebensalter, Körpergewicht, Haarfarbe. Wenn man das Wort „Lebensalter“ aussagt, dann wird ein Merkmal auch dann bestimmt, wenn das Lebensalter der vorliegenden Individuen nicht genau weißt. Die Name der Variable ist „Lebensalter“ und ihre Ausprägung sind die konkrete Alterszahlen der einzelnen Individuen. Oft nennt man in der Mathematik etwas nur dann eine Variable, wenn ihre möglichen Werte Zahlen sind. Zufallsvariable: ist eine vom Zufall abhängige Variable, deren mögliche Werte Zahlen sind, und man kann wissen, dass ihre einzelne Werte wie oft vorkommen können. Die Verteilung einer Zufallsvariable: ist die möglichen Werten und ihre vorkommenden Häufigkeiten (mit anderen Worten Wahrscheinlichkeit) der Variable. z.B. bei einem Münzenwurf sind die möglichen Werte Kopf und Zahl und ihren beiden Wahrscheinlichkeiten sind ½. Diskrete Zufallsvariable: ist eine vom Zufall abhängige Variable, die nur endlich viele oder abzählbarunendliche unterschiedlichen Werte annehmen kann. Im Falle einer diskreten Zufallsvariable können die Wahrscheinlichkeiten der Vorkommen der einzelnen Werte grösser, als Null sein und die Summe der Wahrscheinlichkeiten ist immer eins. Bspw. im Falle von Münzen ½+½=1. Kontinuierliche Zufallsvariable: ist eine vom Zufall abhängige Variable, die überabzählbar viele unterschiedlichen Werte annehmen kann. z. B. Das Gewicht eines Brotes von ein Kilo, das aus dem Intervall 980 Gramm und 1020 Gramm einen beliebigen Wert annehmen kann. Die Wahrscheinlichkeit dafür, dass das Gewicht genau 1000 Gramm ist immer Null. Die Wahrscheinlichkeit dafür ist eins, dass das Gewicht zwischen 980 und 1020 Gramm liegt. Binomialverteilung Nur eine diskrete Zufallsvariable kann binomialverteilt sein. Man stelle vor, dass ein Experiment nacheinander n-mal durchgeführt wird. Während der Versuchen ein bestimmtes Ereignis jedes Mal mit derselben Wahrscheinlichkeit p kommt vor. Das Ergebnis des Experiments ist die Anzahl des Auftrittes eines beobachteten Ereignisses. Dieser Wert liegt offensichtlich zwischen 0 und n und sie kann nur eine ganze Zahl sein. Mit Hilfe der Wahrscheinlichkeitsrechnung kann man die Wahrscheinlichkeit der einzelnen möglichen Werte berechnen. Die Verteilung einer solchen Variable nennt man Binomialverteilung mit den Parameter n und p. Der Erwartungswert einer solchen Variable ist n*p. Der ist der häufigste Wert. Als Beispiel kann man eine Stichprobe mit Zurücklegung betrachten. Stelle man vor, dass man N Stück Kugel in eine Urne hat. Unter die N Kugeln sind M Stück rot. Man zieht blind eine Kugel von der Urne und stellt man ihre Farbe fest. Vor dem nächsten Ziehen legt man den Kugel in die Urne zurück. Insgesamt zieht man n-mal. Man nehme an, die Anzahl der Börzsönyi L. 1 Vet. Med. Uni. Budapest 4. Übung Biomathematik 2017 ausgezogenen roten Kugeln sind X. Dann die Zufallsvariable X ist binomialverteilt und das Parameter ist p=M/N. Die Inaugenscheinnahme der Binomialverteilung Fragestellung: Bei Münzenaufwurf ist der Chance für Kopf die Wahrscheinlichkeit ½. Wenn man eine Münze öfters aufgeworfen wird, was ist der Chance dafür, dass man 0, 1, 2, oder eben 10-mal Kopf bekommt? Antwort: Es hängt von der Anzahl der Münzenaufwurf ab. Die Wahrscheinlichkeiten werden für verschiedenen Wert n unterschiedlich sein. Wenn man aber für unterschiedliche Anzahl von n die Wahrscheinlichkeiten der Auftritt von Kopf dargestellt wird, dann bekommt man immer eine ähnliche Wahrscheinlichkeitsverteilung. Diese Darstellung nennt man die Dichtefunktion der Binomialverteilung. Eine solche Darstellung gibt man folgenderweise an: Distribution/Discrete distribution/Binomial distribution/Plot binomial distribution Menü Man versuche für die folgenden Werte n=5, 10, 100, 500 zu anzufertigen: Börzsönyi L. 2 Vet. Med. Uni. Budapest 4. Übung Biomathematik 2017 Es ist zu sehen, dass der Wert n*p am häufigsten vorkommt. Wenn aber die Anzahl von Versuchen wächst, so werden die Wahrscheinlichkeiten immer kleiner. Man schaue die Zahlen an der y-Achse an! Aufgabe: Man überprüfe dieselbe mit Hilfe eines Würfels. Man betrachte mit welcher Change würfelt man 0, 1, 2, ….mal eine sechs! Die entstehende Verteilung ist auch nicht ähnlich, wie die vorige. Sie ist überhaupt nicht symmetrisch, aber in diesem Falle ist auch festzulegen, dass der Wert n*p, im vorliegenden Fall n/6 am häufigsten vorkommt. Rechnungsaufgaben Frage: Wenn 20% der untersuchten Bevölkerung raucher ist, dann was ist die Wahrscheinlichkeit dafür, dass es in einer zufällig ausgewählten Stichprobe mit 15 Personen kein raucher ist? Antwort: Es liegt eine Binomialverteilung vor, weil die Wahrscheinlichkeit für Raucher 0.2 bei jedem Individuen ist. Vom Menü: Distribution/Discrete distribution/Binomial distribution/Binomial probabilities kann man gleichzeitig für alle möglichen Werte der Variable die Wahrscheinlichkeiten angeben. Man muss nur die Stichprobenanzahl und die Wahrscheinlichkeit das Auftritt des Ereignisses angeben: > .Table <- data.frame(Pr=dbinom(0:15, size=15, prob=0.2)) > rownames(.Table) <- 0:15 > .Table 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Pr 3.518437e-02 1.319414e-01 2.308974e-01 2.501389e-01 1.876042e-01 1.031823e-01 4.299262e-02 1.381906e-02 3.454764e-03 6.717597e-04 1.007640e-04 1.145045e-05 9.542042e-07 5.505024e-08 1.966080e-09 3.276800e-11 Börzsönyi L. 3 Vet. Med. Uni. Budapest 4. Übung Biomathematik 2017 > remove(.Table) Man sucht die Wahrscheinlichkeit dafür, dass keine Raucher da ist, d.h. die Anzahl der Raucher 0 ist. Es ist der mit fett vorhergehobenen Fall, d.h. die gesuchte Wahrscheinlichkeit ist 3,51*10-2, d.h. 0.0351. Frage: 51% der Neugeborener sind Jungs. Was ist die Wahrscheinlichkeit dafür, dass es in einer 8-kinder Familie mindestens 3 Jungen ist? (Es ist angenommen, dass der Change für Geboren eines Jungs die selbe ist.) Antwort: Die Wahrscheinlichkeit des Geboren eines Jungs ist 0.51 bei jedem Individuen. d.h. es liegt eine Binomialverteilung vor. Der vorigen Aufgabe entsprechend könnte man die Wahrscheinlichkeit aller möglichen Werte der Variable bestimmen und dann könnte man die einzelne Wahrscheinlichkeiten für das Geboren von 3, 4, …,8 Jungs addieren. Die kann man in einem Schritt durch das Menü: Distribution/Discrete distribution/Binomial distribution/Binomial tail probabilities auch angeben. Die Option Lower tail sollte man dann ein klicken, wenn man dafür eine Interesse hätte, ob was die Wahrscheinlichkeit dafür ist, dass höchstens 3 Jungs geboren wird. Man muss hier aufpassen, nämlich für das Programm muss man den Wert andersrum angeben, weil es mit dem angegebenen Wert nicht mehr rechnet, d.h. wenn man die Interesse für die Wahrscheinlichkeit von mindestens 3 Junge hat, dann fragt man richtig, was ist die Wahrscheinlichkeit dafür, dass es mehr als zwei betreffende Jungen ist. > pbinom(c(2), size=8, prob=0.51, lower.tail=FALSE) [1] 0.8682019 Frage: 51% der Neugeborener sind Jungs. Was ist die Wahrscheinlichkeit dafür, dass es in einer 8-kinder Familie mindestens 3, aber höchstens 6 Jungs ist? (Es wird angenommen, dass der Change für geboren eines Jungs in jedem Falle dieselbe ist.) Antwort: Die Wahrscheinlichkeit des Geboren eines Jungs ist 0.51 bei jedem Individuen. d.h. es liegt eine Binomialverteilung vor. Man könnte die Wahrscheinlichkeit für die allen möglichen Werte der Variable bestimmen und nachher könnte man diese Werte für 3, 4, 5 und 6 Jungs addieren. Statt dieser Version kann man auch berechnen, was ist die Wahrscheinlichkeit dafür, dass es mehr als 2 solche Junge geboren ist, und davon zieht man die Wahrscheinlichkeit ab, dass es mehr als 6 solche Junge geboren ist. Diese zwei Werte kann man auch gleichzeitig durch eine leere Stelle getrennt angeben: Börzsönyi L. 4 Vet. Med. Uni. Budapest 4. Übung Biomathematik 2017 > pbinom(c(2,6), size=8, prob=0.51, lower.tail=FALSE) [1] 0.86820188 0.03975529 > 0.86820188-0.03975529 [1] 0.8284466 Die zwei Teilergebnissen muss man in Script-Fenster kopieren, um dessen Differenz berechnen. Frage: In ungarischen Geflügelzuchtbestand wurde die Infektion von Salmonella am Ende 2009 an 1% untergestellt. An einer Geflügelniederlassung hat man 100 Geflügel untersucht und unter ihnen hat man 8 infizierten gefunden. Ist die Behauptung wahr, dass die Infektion von Salmonella 1% an dieser Niederlassung ist? Antwort: Bei dieser Aufgabe braucht man eine Hypothesenprüfung, was ausführlich nur später erläutert wird. Es wird angenommen, dass der Change für das Vorkommen der Infektion von Salmonella 1% ist. Das ist die Nullhypothese. Man berechne, wie vorher, was ist die Wahrscheinlichkeit dafür, wenn p= 0.01 ist, dann mindestens 8 infizierten Geflügel in der 100 elementigen Stichprobe zu finden ist. (d.h. was ist die Wahrscheinlichkeit dafür, dass man mindestens so ein schlechtes Ergebnis besitzt.) > pbinom(c(7), size=100, prob=0.01, lower.tail=FALSE) [1] 8.220205e-06 Wenn diese Wahrscheinlichkeit genügend hoch ist, dann stellt man fest, dass dieses 1% zu glauben ist, weil man in diesem Falle mit einer großen Wahrscheinlichkeit eine solche Stichprobe wählen kann. Wenn diese Wahrscheinlichkeit klein ist, dann das vorliegende 1% nicht zu glauben ist. Dieses Resultat kommt nicht zufällig aus, sonder hier zeigt sich eine wesentliche Effekte. Die Wahrscheinlichkeitsgrenze ist wie üblich 5%. Bei der vorliegenden Börzsönyi L. 5 Vet. Med. Uni. Budapest 4. Übung Biomathematik 2017 Aufgabe ist die Wahrscheinlichkeit 0.00082%, was viel kleiner ist, als 5%. Daraus folgt, es ist nicht zu glauben, dass die Infektion an dieser Wirtschaft 1% ist. Frage: Höchstens wie viele infizieret Hüne dürfen in einer 100 elementigen Stichprobe sein, dass die Infektion in dieser Population 1% sei? Antwort: Man muss rückwärts denken. Um die Wahrscheinlichkeit anzugeben, man sucht dazu den entsprechenden Wert der Variable. Es ist zu finden, ob höchstens wie viele Hünen dazu vorliegen müssen, dass die Wahrscheinlichkeit derart über 5% ist, ob der Zufall eine solche Stichprobe auch resultieren kann. Dazu wird das folgende Menü gebraucht: Distribution/Discrete distribution/Binomial distribution/Binomial quantiles > qbinom(c(0.05), size=100, prob=0.01, lower.tail=FALSE) [1] 3 Das Ergebnis zeigt darauf hin, dass höchsten 3 Hünen in der 100 elementigen Stichprobe dazu sein dürfen, dass die gestellte Behauptung war sei. Weil der Wert 3 ein gerundeter Wert ist, man kann auch die zu diesen Wert 3 gehörende Wahrscheinlichkeit berechnen… Poissonverteilung Nur eine diskrete Zufallsvariable kann poissonverteilt sein. Man stelle vor, dass die durchschnittliche Anzahl des Auftretens eines Ereignisses proportional die Zeitdauer der Beobachtung (oder den Maß des beobachteten Gebietes) ist. Die Verteilung einer solchen Zufallsvariable nennt man Piossonverteilung. Diese Verteilung hat nur ein Parameter und es stimmt seinem Erwartungswert überein. z.B. die Anzahl der Anrufe in einer Telefonzentrale. Wenn man die Anrufe zweimal so lange Zeit beobachtet, dann kann man durchschnittlich zweimal so viele Anrufe registrieren. Die Inaugenscheinnahme der Poissonverteilung Frage: Pro Stunde durchschnittlich fahren sechs Fernlastwagen durch eines Naturschutzgebiet. Was ist der Change dafür, dass 0, 1, 2 oder eben 10 Fernlastwagen in der nächsten Stunde dort überfahren? Antwort: Bei dieser Verteilung braucht man nur den Erwartungswert anzugeben. Durch das folgende Menü kann man die Funktion zeichnen: Distribution/Discrete distribution/Poisson distribution/Plot Poisson distribution Börzsönyi L. 6 Vet. Med. Uni. Budapest 4. Übung Biomathematik 2017 Wenn man die Fernlastwagen statt einer Stunde durch zwei Stunden beobachtet, dann der Erwartungswert der Fernlastwagen schon 12 geworden ist. In diesem Falle ist die zweite Funktion die Dichtefunktion der Verteilung. Rechenaufgaben Frage: An einer Kartoffelerde findet man an einer Busch durchschnittlich 2,6 Larven von Kartoffelkäfern. Was ist die Wahrscheinlichkeit dafür, dass man an zwei zufällig ausgewählten Büschen keine Larve findet? Antwort: An einer Busch durchschnittlich 2,6 Larven, an zwei Büschen zweimal so viel findet. Der Parameter dieser Veiteilung ist 2,6. Von dem folgenden Menü kann man für alle möglichen Werte der Variable die Wahrscheinlichkeit bestimmen: Distribution/Discrete distribution/Poisson distribution/Poisson probabilities > .Table <- data.frame(Pr=round(dpois(0:16, lambda=5.2), 4)) > rownames(.Table) <- 0:16 > .Table Börzsönyi L. 7 Vet. Med. Uni. Budapest 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 4. Übung Biomathematik 2017 Pr 0.0055 0.0287 0.0746 0.1293 0.1681 0.1748 0.1515 0.1125 0.0731 0.0423 0.0220 0.0104 0.0045 0.0018 0.0007 0.0002 0.0001 > remove(.Table) Die Wahrscheinlichkeit ist gesucht, dass keine Larve vorkommt. In fett gedruckter Zeile ist es zu sehen, dass die gesuchte Wahrscheinlichkeit 0,0055 ist. Frage: In einem Gewitter sieht man durchschnittlich 3,4 Blitze pro Minuten. Was ist die Wahrscheinlichkeit dafür, dass man in folgenden halben Minuten mehr als 6 Blitze beobachtet werden kann? Antwort: Wenn der Erwartungswert pro Minuten 3,4 ist, dann während einer halben Minute sind durchschnittlich 1,7 Blitze zu erwarten. Wie bei der vorigen Aufgabe kann man die Wahrscheinlichkeit für alle möglichen Werte bestimmen, und nachher addiert man die Wahrscheinlichkeiten, die zu den Werten 7, 8, … angehören. Durch das folgen Menü kann man es auch durch einen Schritt erreichen: Distribution/Discrete distribution/Poisson distribution/Poisson tail probabilities Im folgenden Fenster wird die Option lower tail, dann ein geklickt, wenn man dafür eine Interesse hätte, dass man weniger als 6 Blitz sieht. Man muss aufpassen, für das Programm muss man den Wert anzugeben, dass den angegebenen Wert nicht zugerechnet ist! > ppois(c(6), lambda=1.7, lower.tail=FALSE) [1] 0.001875077 Börzsönyi L. 8 Vet. Med. Uni. Budapest 4. Übung Biomathematik 2017 Frage: In einem Tierarztpraxis kommt ein neuer Patient durchschnittlich in allen 4 Minuten an. Was ist die Wahrscheinlichkeit dafür, dass mindestens 2, aber höchstens 6 neuen Patienten in den nächsten Minute ankommen? Antwort: Wenn ein neuer Patient durchschnittlich in allen 4 Minuten ankommt, dann 0.25 neuer Patient kommen durchschnittlich in einer Minute. Das ist der Parameter der Verteilung. Man könnte die Wahrscheinlichkeit für alle möglichen Werte der Verteilung bestimmen und dann summieren die Wahrscheinlichkeiten, die die Möglichkeiten 2, 3, 4, 5 und 6 angehören. Es wird statt dem folgendes berechnet. Was ist die Wahrscheinlichkeit dafür, dass es mehr als ein Patient ankommt und von dem zieht man die Wahrscheinlichkeit ab, dass es mehr als 6 Patienten ankommt. Diese zwei Werten kann man gleichzeitig berechnen, wenn man zwischen durch eine leere Stelle schreibt: > ppois(c(1,6), lambda=0.25, lower.tail=FALSE) [1] 2.649902e-02 9.734522e-09 > 2.649902e-02-9.734522e-09 [1] 0.02649901 Die zwei Teilergebnisse kopiert man in Script-Fenster zurück, um das Differenz zu berechnen. Hausaufgabe zur Übung 4. Börzsönyi L. 9