Binomialverteilung

Werbung
Vet. Med. Uni. Budapest
4. Übung
Biomathematik 2017
4. Übung (Wahrscheinlichkeitsverteilungen)
Man wird erst Fragestellung(en) formuliert und dann mit Hilfe des R-Programms gibt man
eine Antwort auf die formulierte Frage(n).
Verteilung einer Zufallsvariable
Es werden einige Begriffe erläutert.
Variable: Die charakteristischen Werten und Eigenschaften der Individuen kann man oft
bestimmen, bspw. Lebensalter, Körpergewicht, Haarfarbe. Wenn man das Wort „Lebensalter“
aussagt, dann wird ein Merkmal auch dann bestimmt, wenn das Lebensalter der vorliegenden
Individuen nicht genau weißt. Die Name der Variable ist „Lebensalter“ und ihre Ausprägung
sind die konkrete Alterszahlen der einzelnen Individuen. Oft nennt man in der Mathematik
etwas nur dann eine Variable, wenn ihre möglichen Werte Zahlen sind.
Zufallsvariable: ist eine vom Zufall abhängige Variable, deren mögliche Werte Zahlen sind,
und man kann wissen, dass ihre einzelne Werte wie oft vorkommen können.
Die Verteilung einer Zufallsvariable: ist die möglichen Werten und ihre vorkommenden
Häufigkeiten (mit anderen Worten Wahrscheinlichkeit) der Variable.
z.B. bei einem Münzenwurf sind die möglichen Werte Kopf und Zahl und ihren beiden
Wahrscheinlichkeiten sind ½.
Diskrete Zufallsvariable: ist eine vom Zufall abhängige Variable, die nur endlich viele oder
abzählbarunendliche unterschiedlichen Werte annehmen kann.
Im Falle einer diskreten Zufallsvariable können die Wahrscheinlichkeiten der Vorkommen
der einzelnen Werte grösser, als Null sein und die Summe der Wahrscheinlichkeiten ist immer
eins. Bspw. im Falle von Münzen ½+½=1.
Kontinuierliche Zufallsvariable: ist eine vom Zufall abhängige Variable, die überabzählbar
viele unterschiedlichen Werte annehmen kann.
z. B. Das Gewicht eines Brotes von ein Kilo, das aus dem Intervall 980 Gramm und 1020
Gramm einen beliebigen Wert annehmen kann. Die Wahrscheinlichkeit dafür, dass das
Gewicht genau 1000 Gramm ist immer Null. Die Wahrscheinlichkeit dafür ist eins, dass das
Gewicht zwischen 980 und 1020 Gramm liegt.
Binomialverteilung
Nur eine diskrete Zufallsvariable kann binomialverteilt sein.
Man stelle vor, dass ein Experiment nacheinander n-mal durchgeführt wird. Während der
Versuchen ein bestimmtes Ereignis jedes Mal mit derselben Wahrscheinlichkeit p kommt vor.
Das Ergebnis des Experiments ist die Anzahl des Auftrittes eines beobachteten Ereignisses.
Dieser Wert liegt offensichtlich zwischen 0 und n und sie kann nur eine ganze Zahl sein. Mit
Hilfe der Wahrscheinlichkeitsrechnung kann man die Wahrscheinlichkeit der einzelnen
möglichen Werte berechnen. Die Verteilung einer solchen Variable nennt man
Binomialverteilung mit den Parameter n und p. Der Erwartungswert einer solchen Variable ist
n*p. Der ist der häufigste Wert.
Als Beispiel kann man eine Stichprobe mit Zurücklegung betrachten. Stelle man vor, dass
man N Stück Kugel in eine Urne hat. Unter die N Kugeln sind M Stück rot. Man zieht blind
eine Kugel von der Urne und stellt man ihre Farbe fest. Vor dem nächsten Ziehen legt man
den Kugel in die Urne zurück. Insgesamt zieht man n-mal. Man nehme an, die Anzahl der
Börzsönyi L.
1
Vet. Med. Uni. Budapest
4. Übung
Biomathematik 2017
ausgezogenen roten Kugeln sind X. Dann die Zufallsvariable X ist binomialverteilt und das
Parameter ist p=M/N.
Die Inaugenscheinnahme der Binomialverteilung
Fragestellung: Bei Münzenaufwurf ist der Chance für Kopf die Wahrscheinlichkeit ½. Wenn
man eine Münze öfters aufgeworfen wird, was ist der Chance dafür, dass man 0, 1, 2, oder
eben 10-mal Kopf bekommt?
Antwort: Es hängt von der Anzahl der Münzenaufwurf ab. Die Wahrscheinlichkeiten werden
für verschiedenen Wert n unterschiedlich sein. Wenn man aber für unterschiedliche Anzahl
von n die Wahrscheinlichkeiten der Auftritt von Kopf dargestellt wird, dann bekommt man
immer eine ähnliche Wahrscheinlichkeitsverteilung. Diese Darstellung nennt man die
Dichtefunktion der Binomialverteilung.
Eine solche Darstellung gibt man folgenderweise an:
Distribution/Discrete distribution/Binomial distribution/Plot binomial distribution
Menü
Man versuche für die folgenden Werte n=5, 10, 100, 500 zu anzufertigen:
Börzsönyi L.
2
Vet. Med. Uni. Budapest
4. Übung
Biomathematik 2017
Es ist zu sehen, dass der Wert n*p am häufigsten vorkommt. Wenn aber die Anzahl von
Versuchen wächst, so werden die Wahrscheinlichkeiten immer kleiner. Man schaue die
Zahlen an der y-Achse an!
Aufgabe: Man überprüfe dieselbe mit Hilfe eines Würfels. Man betrachte mit welcher
Change würfelt man 0, 1, 2, ….mal eine sechs!
Die entstehende Verteilung ist auch nicht ähnlich, wie die vorige. Sie ist überhaupt nicht
symmetrisch, aber in diesem Falle ist auch festzulegen, dass der Wert n*p, im vorliegenden
Fall n/6 am häufigsten vorkommt.
Rechnungsaufgaben
Frage: Wenn 20% der untersuchten Bevölkerung raucher ist, dann was ist die
Wahrscheinlichkeit dafür, dass es in einer zufällig ausgewählten Stichprobe mit 15 Personen
kein raucher ist?
Antwort: Es liegt eine Binomialverteilung vor, weil die Wahrscheinlichkeit für Raucher 0.2
bei jedem Individuen ist.
Vom Menü:
Distribution/Discrete distribution/Binomial distribution/Binomial probabilities
kann man gleichzeitig für alle möglichen Werte der Variable die Wahrscheinlichkeiten
angeben. Man muss nur die Stichprobenanzahl und die Wahrscheinlichkeit das Auftritt des
Ereignisses angeben:
> .Table <- data.frame(Pr=dbinom(0:15, size=15, prob=0.2))
> rownames(.Table) <- 0:15
> .Table
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Pr
3.518437e-02
1.319414e-01
2.308974e-01
2.501389e-01
1.876042e-01
1.031823e-01
4.299262e-02
1.381906e-02
3.454764e-03
6.717597e-04
1.007640e-04
1.145045e-05
9.542042e-07
5.505024e-08
1.966080e-09
3.276800e-11
Börzsönyi L.
3
Vet. Med. Uni. Budapest
4. Übung
Biomathematik 2017
> remove(.Table)
Man sucht die Wahrscheinlichkeit dafür, dass keine Raucher da ist, d.h. die Anzahl der
Raucher 0 ist. Es ist der mit fett vorhergehobenen Fall, d.h. die gesuchte Wahrscheinlichkeit
ist 3,51*10-2, d.h. 0.0351.
Frage: 51% der Neugeborener sind Jungs. Was ist die Wahrscheinlichkeit dafür, dass es in
einer 8-kinder Familie mindestens 3 Jungen ist? (Es ist angenommen, dass der Change für
Geboren eines Jungs die selbe ist.)
Antwort: Die Wahrscheinlichkeit des Geboren eines Jungs ist 0.51 bei jedem Individuen. d.h.
es liegt eine Binomialverteilung vor. Der vorigen Aufgabe entsprechend könnte man die
Wahrscheinlichkeit aller möglichen Werte der Variable bestimmen und dann könnte man die
einzelne Wahrscheinlichkeiten für das Geboren von 3, 4, …,8 Jungs addieren. Die kann man
in einem Schritt durch das Menü:
Distribution/Discrete distribution/Binomial distribution/Binomial tail probabilities
auch angeben.
Die Option Lower tail sollte man dann ein klicken, wenn man dafür eine Interesse hätte, ob
was die Wahrscheinlichkeit dafür ist, dass höchstens 3 Jungs geboren wird. Man muss hier
aufpassen, nämlich für das Programm muss man den Wert andersrum angeben, weil es mit
dem angegebenen Wert nicht mehr rechnet, d.h. wenn man die Interesse für die
Wahrscheinlichkeit von mindestens 3 Junge hat, dann fragt man richtig, was ist die
Wahrscheinlichkeit dafür, dass es mehr als zwei betreffende Jungen ist.
> pbinom(c(2), size=8, prob=0.51, lower.tail=FALSE)
[1] 0.8682019
Frage: 51% der Neugeborener sind Jungs. Was ist die Wahrscheinlichkeit dafür, dass es in
einer 8-kinder Familie mindestens 3, aber höchstens 6 Jungs ist? (Es wird angenommen, dass
der Change für geboren eines Jungs in jedem Falle dieselbe ist.)
Antwort: Die Wahrscheinlichkeit des Geboren eines Jungs ist 0.51 bei jedem Individuen. d.h.
es liegt eine Binomialverteilung vor. Man könnte die Wahrscheinlichkeit für die allen
möglichen Werte der Variable bestimmen und nachher könnte man diese Werte für 3, 4, 5 und
6 Jungs addieren.
Statt dieser Version kann man auch berechnen, was ist die Wahrscheinlichkeit dafür, dass es
mehr als 2 solche Junge geboren ist, und davon zieht man die Wahrscheinlichkeit ab, dass es
mehr als 6 solche Junge geboren ist. Diese zwei Werte kann man auch gleichzeitig durch eine
leere Stelle getrennt angeben:
Börzsönyi L.
4
Vet. Med. Uni. Budapest
4. Übung
Biomathematik 2017
> pbinom(c(2,6), size=8, prob=0.51, lower.tail=FALSE)
[1] 0.86820188 0.03975529
> 0.86820188-0.03975529
[1] 0.8284466
Die zwei Teilergebnissen muss man in Script-Fenster kopieren, um dessen Differenz
berechnen.
Frage: In ungarischen Geflügelzuchtbestand wurde die Infektion von Salmonella am Ende
2009 an 1% untergestellt. An einer Geflügelniederlassung hat man 100 Geflügel untersucht
und unter ihnen hat man 8 infizierten gefunden. Ist die Behauptung wahr, dass die Infektion
von Salmonella 1% an dieser Niederlassung ist?
Antwort: Bei dieser Aufgabe braucht man eine Hypothesenprüfung, was ausführlich nur
später erläutert wird. Es wird angenommen, dass der Change für das Vorkommen der
Infektion von Salmonella 1% ist. Das ist die Nullhypothese. Man berechne, wie vorher, was
ist die Wahrscheinlichkeit dafür, wenn p= 0.01 ist, dann mindestens 8 infizierten Geflügel in
der 100 elementigen Stichprobe zu finden ist. (d.h. was ist die Wahrscheinlichkeit dafür, dass
man mindestens so ein schlechtes Ergebnis besitzt.)
> pbinom(c(7), size=100, prob=0.01, lower.tail=FALSE)
[1] 8.220205e-06
Wenn diese Wahrscheinlichkeit genügend hoch ist, dann stellt man fest, dass dieses 1% zu
glauben ist, weil man in diesem Falle mit einer großen Wahrscheinlichkeit eine solche
Stichprobe wählen kann. Wenn diese Wahrscheinlichkeit klein ist, dann das vorliegende 1%
nicht zu glauben ist. Dieses Resultat kommt nicht zufällig aus, sonder hier zeigt sich eine
wesentliche Effekte. Die Wahrscheinlichkeitsgrenze ist wie üblich 5%. Bei der vorliegenden
Börzsönyi L.
5
Vet. Med. Uni. Budapest
4. Übung
Biomathematik 2017
Aufgabe ist die Wahrscheinlichkeit 0.00082%, was viel kleiner ist, als 5%. Daraus folgt, es ist
nicht zu glauben, dass die Infektion an dieser Wirtschaft 1% ist.
Frage: Höchstens wie viele infizieret Hüne dürfen in einer 100 elementigen Stichprobe sein,
dass die Infektion in dieser Population 1% sei?
Antwort: Man muss rückwärts denken. Um die Wahrscheinlichkeit anzugeben, man sucht
dazu den entsprechenden Wert der Variable. Es ist zu finden, ob höchstens wie viele Hünen
dazu vorliegen müssen, dass die Wahrscheinlichkeit derart über 5% ist, ob der Zufall eine
solche Stichprobe auch resultieren kann. Dazu wird das folgende Menü gebraucht:
Distribution/Discrete distribution/Binomial distribution/Binomial quantiles
> qbinom(c(0.05), size=100, prob=0.01, lower.tail=FALSE)
[1] 3
Das Ergebnis zeigt darauf hin, dass höchsten 3 Hünen in der 100 elementigen Stichprobe dazu
sein dürfen, dass die gestellte Behauptung war sei. Weil der Wert 3 ein gerundeter Wert ist,
man kann auch die zu diesen Wert 3 gehörende Wahrscheinlichkeit berechnen…
Poissonverteilung
Nur eine diskrete Zufallsvariable kann poissonverteilt sein.
Man stelle vor, dass die durchschnittliche Anzahl des Auftretens eines Ereignisses
proportional die Zeitdauer der Beobachtung (oder den Maß des beobachteten Gebietes) ist.
Die Verteilung einer solchen Zufallsvariable nennt man Piossonverteilung. Diese Verteilung
hat nur ein Parameter und es stimmt seinem Erwartungswert überein.
z.B. die Anzahl der Anrufe in einer Telefonzentrale. Wenn man die Anrufe zweimal so lange
Zeit beobachtet, dann kann man durchschnittlich zweimal so viele Anrufe registrieren.
Die Inaugenscheinnahme der Poissonverteilung
Frage: Pro Stunde durchschnittlich fahren sechs Fernlastwagen durch eines
Naturschutzgebiet. Was ist der Change dafür, dass 0, 1, 2 oder eben 10 Fernlastwagen in der
nächsten Stunde dort überfahren?
Antwort: Bei dieser Verteilung braucht man nur den Erwartungswert anzugeben. Durch das
folgende Menü kann man die Funktion zeichnen:
Distribution/Discrete distribution/Poisson distribution/Plot Poisson distribution
Börzsönyi L.
6
Vet. Med. Uni. Budapest
4. Übung
Biomathematik 2017
Wenn man die Fernlastwagen statt einer Stunde durch zwei Stunden beobachtet, dann der
Erwartungswert der Fernlastwagen schon 12 geworden ist. In diesem Falle ist die zweite
Funktion die Dichtefunktion der Verteilung.
Rechenaufgaben
Frage: An einer Kartoffelerde findet man an einer Busch durchschnittlich 2,6 Larven von
Kartoffelkäfern. Was ist die Wahrscheinlichkeit dafür, dass man an zwei zufällig
ausgewählten Büschen keine Larve findet?
Antwort: An einer Busch durchschnittlich 2,6 Larven, an zwei Büschen zweimal so viel
findet. Der Parameter dieser Veiteilung ist 2,6. Von dem folgenden Menü kann man für alle
möglichen Werte der Variable die Wahrscheinlichkeit bestimmen:
Distribution/Discrete distribution/Poisson distribution/Poisson probabilities
> .Table <- data.frame(Pr=round(dpois(0:16, lambda=5.2), 4))
> rownames(.Table) <- 0:16
> .Table
Börzsönyi L.
7
Vet. Med. Uni. Budapest
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
4. Übung
Biomathematik 2017
Pr
0.0055
0.0287
0.0746
0.1293
0.1681
0.1748
0.1515
0.1125
0.0731
0.0423
0.0220
0.0104
0.0045
0.0018
0.0007
0.0002
0.0001
> remove(.Table)
Die Wahrscheinlichkeit ist gesucht, dass keine Larve vorkommt. In fett gedruckter Zeile ist es
zu sehen, dass die gesuchte Wahrscheinlichkeit 0,0055 ist.
Frage: In einem Gewitter sieht man durchschnittlich 3,4 Blitze pro Minuten. Was ist die
Wahrscheinlichkeit dafür, dass man in folgenden halben Minuten mehr als 6 Blitze beobachtet
werden kann?
Antwort: Wenn der Erwartungswert pro Minuten 3,4 ist, dann während einer halben Minute
sind durchschnittlich 1,7 Blitze zu erwarten. Wie bei der vorigen Aufgabe kann man die
Wahrscheinlichkeit für alle möglichen Werte bestimmen, und nachher addiert man die
Wahrscheinlichkeiten, die zu den Werten 7, 8, … angehören. Durch das folgen Menü kann
man es auch durch einen Schritt erreichen:
Distribution/Discrete distribution/Poisson distribution/Poisson tail probabilities
Im folgenden Fenster wird die Option lower tail, dann ein geklickt, wenn man dafür eine
Interesse hätte, dass man weniger als 6 Blitz sieht. Man muss aufpassen, für das Programm
muss man den Wert anzugeben, dass den angegebenen Wert nicht zugerechnet ist!
> ppois(c(6), lambda=1.7, lower.tail=FALSE)
[1] 0.001875077
Börzsönyi L.
8
Vet. Med. Uni. Budapest
4. Übung
Biomathematik 2017
Frage: In einem Tierarztpraxis kommt ein neuer Patient durchschnittlich in allen 4 Minuten
an. Was ist die Wahrscheinlichkeit dafür, dass mindestens 2, aber höchstens 6 neuen Patienten
in den nächsten Minute ankommen?
Antwort: Wenn ein neuer Patient durchschnittlich in allen 4 Minuten ankommt, dann 0.25
neuer Patient kommen durchschnittlich in einer Minute. Das ist der Parameter der Verteilung.
Man könnte die Wahrscheinlichkeit für alle möglichen Werte der Verteilung bestimmen und
dann summieren die Wahrscheinlichkeiten, die die Möglichkeiten 2, 3, 4, 5 und 6 angehören.
Es wird statt dem folgendes berechnet. Was ist die Wahrscheinlichkeit dafür, dass es mehr als
ein Patient ankommt und von dem zieht man die Wahrscheinlichkeit ab, dass es mehr als 6
Patienten ankommt. Diese zwei Werten kann man gleichzeitig berechnen, wenn man
zwischen durch eine leere Stelle schreibt:
> ppois(c(1,6), lambda=0.25, lower.tail=FALSE)
[1] 2.649902e-02 9.734522e-09
> 2.649902e-02-9.734522e-09
[1] 0.02649901
Die zwei Teilergebnisse kopiert man in Script-Fenster zurück, um das Differenz zu
berechnen.
Hausaufgabe zur Übung 4.
Börzsönyi L.
9
Herunterladen