5. Übung (Normalverteilung) Die Normalverteilung spielt eine sehr

Werbung
Vet. Med. Uni. Budapest
5. Übung
Biomathematik 2017
5. Übung (Normalverteilung)
Die Normalverteilung spielt eine sehr wichtige Rolle in den Biowissenschaften, unter
anderem auch in der Tiermedizin. Ihre Wichtigkeit beruht an dem sog. zentralen
Grenzwertsatz. Intuitiv kann man folgendes sagen. Die Summe einer großen Zahl von
unabhängigen Zufallsvariablen befolgt asymptotisch eine Normalverteilung bei endlicher
Varianz der Zufallsvariablen. Die statistischen Methoden nützen sehr oft aus, dass die
Versuchsdaten normalverteilt oder mindestens angenähert normalverteilt sind.
Normalverteilung
Die Normalverteilung kommt bei kontinuierlichen Zufallsvariablen vor.
Man stelle vor, dass das Körpergewicht von vielen Hühnern an einer Hühnerniederlassung
gemessen wird. Es wird eine Normalverteilung entstehen.
Die Inaugenscheinnahme der Normalverteilung
Frage: Es gibt eine Hühnerniederlassung. Was ist die Wahrscheinlichkeit dafür, dass die
Masse einer zufällig ausgewählten Huhne genau 1500, 1600 oder 1700 gramm. ist?
Antwort: Es ist einfach zu beantworten. Das Gebiet unter der Dichtefunktion in einem Punkt
(z.B. bei x=1500) ist immer Null. d.h. die Wahrscheinlichkeit dafür, dass eine stetige
Zufallsvariable einen konkreten Wert annimmt Null ist.
Im Falle einer diskreten Verteilung hat man einfach gezählt, was die Wahrscheinlichkeit der
einzelnen möglichen Werten. Im Falle einer stetigen Verteilung fallen die unendlich vielen
möglichen Werte in einem Intervall. Hier wird das Variationsbereich in Teilintervallen geteilt
und es wird gefragt, was ist die Wahrscheinlichkeit dafür, dass eine Beobachtung in einem
bestimmten Teilintervall einfällt.
Vom folgenden Menü kann man Kurven zeichnen:
Distribution/Continuous distributions/Normal distribution/Plot normal distribution
Die Normalverteilung hat zwei Parameter: der Erwartungswert (mü) und die
Standardabweichung (sigma). Die nennt man auch Lageparameter. Der Erwartungswert (mü)
bestimmt, wo der Mittelwert liegt. Es ist die höchste Stelle der Funktion und liegt auch in der
Mitte, die weil Normalverteilung symmetrisch ist. Die Streuung (sigma) gibt die Breite der
Funktion an.
Börzsönyi L.
1
Vet. Med. Uni. Budapest
5. Übung
Biomathematik 2017
Die drei vorhergehenden Normalverteilung sehen sehr ähnlich aus. Wenn man alle drei
Verteilungen auf einer Abbildung dargestellt, dann sieht man die Unterschiede. Wenn die
Streuung größer ist, dann ist die Dichtefunktion breiter und flacher. Wenn die Streuung
kleiner ist, dann ist die Dichtefunktion steiler und höher. Es ist eigentlich keine Überraschung,
nämlich das Gebiet unter der Dichtefunktion ist 1.
Rechenaufgaben
Frage: Es wird eine Rinderniederlassung mit 800 Kühen bezüglich der Michlaktation
beobachtet. Die durchschnittliche Milchproduktion der Kühe ist 32.625 Liter und die
Streuung ist 9.522 Liter ist. Wie viele Prozent der Niederlassung produziert weniger, als 28
Liter?
Antwort: Man nehme an, dass eine Normalverteilung vorliegt. Man gebe im Menü:
Distribution/Continuous distributions/Normal distribution/Normal Probabilities
Den Mittelwert und die Streuung. Sowie gibt man den Wert 28 an, nämlich es wird gefragt,
was ist die Wahrscheinlichkeit dafür, dass wie viel Prozent der Niederlassung weniger, als 28
Liter Milch gibt? Man kann im Programm wählen, dass man von der angegebenen Grenze (28
Liter) weniger (lower tail) oder größere (upper tail) Menge angeben möchte.
Börzsönyi L.
2
Vet. Med. Uni. Budapest
5. Übung
Biomathematik 2017
> pnorm(c(28), mean=32.625, sd=9.522, lower.tail=TRUE)
[1] 0.3135838
Die gesuchte Wahrscheinlichkeit wird in Output-Fenster erscheinen. In unserem Falle ist es
31.36%.
Frage: In der vorher erwähnten Niederlassung was ist die Wahrscheinlichkeit dafür, dass ein
Kuch zwischen 28 und 30 Liter Milch gibt?
Antwort: Man kann genauso verfahren wie vorher. Man nehme an, dass eine
Normalverteilung vorliegt.
Man gebe im Menü:
Distribution/Continuous distributions/Normal distribution/ Normal Probabilities
Den Mittelwert, die Streuung und die Wahrscheinlichkeit gibt man dafür an, dass die
Milchmenge mehr als 28 bzw. 30 Liter sein wird. Die Zahlen 28 und 30 muss man durch leere
Stelle trennen.
> pnorm(c(28,30), mean=32.625, sd=9.552, lower.tail=FALSE)
[1] 0.6858751 0.6082695
Die gesuchte Wahrscheinlichkeit kann man in Output-Fenster ablesen. Hier erscheinen wie
Werte. Man denke nach: Es gilt: P(28<X<30)=P(X<30)–P(X<28).
Die erste Wahrscheinlichkeit gibt an, dass die Milchproduktion mehr als, 28 Liter ist. Die
zweite gibt an, dass die Milchproduktion mehr als, 30 Liter ist. Die Differenz der zwei
Wahrscheinlichkeiten gibt dafür die Wahrscheinlichkeit an, dass die Milchmenge zwischen 28
und 30 Liter liegt. In Script-Fenster gibt man die Differenz einfach an:
> 0.6858751 - 0.6082695
[1] 0.0776056
Die gesuchte Wahrscheinlichkeit ist 7.76%.
Wenn man statt dem upper tail eben lower tail gewählt hätte, dann hätte man das selbe
Ergebnis mit negativen Vorzeichen bekommen.
Börzsönyi L.
3
Vet. Med. Uni. Budapest
5. Übung
Biomathematik 2017
Frage: Man möchte die schlechtesten 10% der Niederlassung bezüglich Milchproduktion
ausscheiden. Was ist die Minimale Milchproduktion, wobei ein Kuch noch in der
Niederlassung bleiben kann?
Antwort: Man nimmt an, dass eine Normalverteilung vorliegt. Im Menü
Distribution/Continuous distributions/Normal distribution/Normal Quantiles
Gibt man den Durchschnitt, die Streuung und die den Wert wofür die Wahrscheinlichkeit
berechnet wird.
> qnorm(c(0.1), mean=32.625, sd=9.552, lower.tail=TRUE)
[1] 20.38362
Nach diesem Ergebnis muss man alle Kühe, die unter 20.38 Liter produzieren, ausscheiden.
Frage: Was ist das auf dem Durchschnitt symmetrischen Intervall, in dem 95% der
Milchproduktionen einfallen? (Das ist ein Konfidenzintervall mit 95% Wahrscheinlichkeit um
den Mittelwert.)
Antwort: Man nimmt an, dass eine Normalverteilung vorliegt. Im Menü:
Distribution/Continuous distributions/Normal distribution/Normal quantiles
gibt man den Durchschnitt, Streuung und die entsprechende Wahrscheinlichkeit an. Wenn
man ein Konfidenzintervall mit 95% Sicherheit angeben will, dann erlaubt man 5% zu irren.
Wegen der Symmetrie halbiert man diese 5%, d.h. von beiden Seiten lässt man 2.5-2.5% weg.
Daraus folgt, man muss zu den 2.5% und 97.5% gehörenden Werte abfragen.
> qnorm(c(0.025,0.975), mean=32.625, sd=9.522, lower.tail=TRUE)
[1] 13.96222 51.28778
Man bekommt die Intervallgrenzen, die zu der 95% Sicherheit angehören, d.h. die
Intervallgrenzen um den Mittelwert sind 13.96 und 51.29. Mit anderen Worten, wenn man ein
Kuh von dieser Population ausgewählt wird, dann ihre Milchleistung fällt mit 95%
Wahrscheinlichkeit zwischen diesen Grenzen.
Börzsönyi L.
4
Vet. Med. Uni. Budapest
5. Übung
Biomathematik 2017
Relative Risk, Odds, Logit
Frage: Die folgende Tabelle zeigt das Vorkommen von Darmtumor in der verschiedenen
englischen Regionen1:
Region
Population
Fallzahlen
Cambridge
141264
19
Oxford
157658
21
Greenwich
220632
37
Wie groß ist das relative Risiko in Oxford bezüglich Cambridges?
Antwort: In beiden Region wird den Quotient von Fallanzahl und die ganze Population
berechnet (d.h. di Häufigkeit des Vorkommens) und Zahlen werden durcheinander geteilt.
RR=(21/157658)/(19/141264)=0.99
Frage: Wie groß ist das Odds des Tumors in den ersten zwei Region?
Antwort: das Odds ist die Wahrscheinlichkeit der Anzahl der positiven Fällen geteilt durch
die Wahrscheinlichkeit der Anzahl der negativen Fällen.
Cambridge: (19/141264)/((141264-19)/141264))=19/(141264-19)= 1,34518·10-4
Oxford: 21/(157658-21)= 1,332175·10-4
Frage: Wie groß ist der Logit des Tumors in den ersten Region?
Antwort: Der Logit ist ln Odds, d.h.
ln(1,34518·10-4) = -8.913813
Frage: Wie groß ist der Quotient von Odds in Oxford bezüglich Cambridge?
Antwort: Der Odds-Quotient ist 0.0001332175/0.000134518 = 0.9903321
1
0,99
http://www.guardian.co.uk/commentisfree/2011/oct/28/bad-science-diy-data-analysis
Börzsönyi L.
5
Herunterladen