Statistik – Verteilungen Statistik Bachelor-Kurs Spezielle Verteilungen K. Molt Universität Duisburg-Essen, Fak. 4, FG Instrumentelle Analytik 9. Januar 2006 K. Molt Spezielle Verteilungen Statistik – Verteilungen Stochastische Modelle und spezielle Verteilungen Mathematisch spezifierte Verteilungsfunktionen sind als Modelle für Zufallsvorgänge brauchbar (stochastische Modelle). Jede der folgenden Verteilungen stellt eine ganze Familie von Verteilungen dar. Die einzelnen Mitglieder der Familie erhält man durch die zahlenmäßige Festlegung ihrer Parameter. Erst dadurch ist eine Verteilungsfunktion eindeutig festgelegt und das stochastische Modell vollständig bestimmt. K. Molt Spezielle Verteilungen Statistik – Verteilungen Gleichförmige diskrete Verteilung X : x1 , x2 , . . . , xm P(X = x1 ) + P(X = x2 ) + . . . P(X = xm ) = 1 ⇒ P(X = x1 ) = P(X = x2 ) = . . . P(X = xm ) = m1 fGl (x; m) = 0 fGl (x; m) = 1 m 1 m 0 K. Molt für x = x1 , x2 , . . . , xm sonst (1) für x = 1, 2, . . . , m sonst (2) Spezielle Verteilungen Statistik – Verteilungen Diskrete gleichförmige Verteilung: Würfel x > > > > <- 0:7 > f <- c(0,rep(1/6 ,6),0) > plot (x,f,type="h",lwd=2) > abline(h=0) > > K. Molt F <- cumsum(f) plot (x,F,type="s",lwd=2) x1 <- seq(1,6,1) f1 <- rep(1/6,6) F1 <- cumsum(f1) points(x1,F1,pch=19) Spezielle Verteilungen Diskrete gleichförmige Verteilung Berechnung des Erwartungswertes und der Varianz: E (X ) = m X xfGl (x; m) = x=1 m X x· x=1 1 m m 1 m(m + 1) 1 X m+1 x= · E (X ) = = m x=1 m 2 2 2 E (X ) = m X 2 x fGl (x; m) = x=1 E (X 2 ) = 1 m m X x=1 2 m X x=1 x2 = x2 · 1 m 1 m(m + 1)(2m + 1) (m + 1)(2m + 1) · = m 2 6 V (X ) = E (X ) − E (X )2 (m + 1)(2m + 1) (m + 1)2 m2 − 1 V (x) = − = 6 4 12 Statistik – Verteilungen Bernoulli Verteilung Ein Zufallsexperiment habe nur die beiden Ausprägungen A (Erfolg) und Ā (Misserfolg). 0 ≤ p ≤ 1 ist die Wahrscheinlichkeit für den Erfolg und q = 1 − p für den Misserfolg. Es ist X = 1 für den Erfolg und X = 0 für den Misserfolg: P(X = 1) = P(A) = p P(X = 0) = P(Ā) = 1 − p 1 − p für p für fBe (x; p) = 0 für 0 1 − p für FBe (x; p) = 1 für K. Molt =q x =0 x =1 sonst x <0 0≤x <1 1≤x Spezielle Verteilungen (3) (4) (5) (6) Statistik – Verteilungen Bernoulli Verteilung Für Erwartungswert und Varianz der Bernoulli-Verteilung erhält man: E (X ) = 0 · (1 − p) + 1 · p = p V (X ) = (0 − p)2 (1 − p) + (1 − p)2 p = p(1 − p) = pq K. Molt Spezielle Verteilungen Statistik – Verteilungen Bernoulli-Verteilung für p=1/3 x <- -1:2 > f <- c(0,2/3,1/3,0) > plot(x,f,type="h",lwd=2) > abline(h=0) K. Molt > F <- cumsum(f) > plot(x,F,type="s",lwd=2) > points(c(0,1),c(2/3,1), pch=19) Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Mehrere Bernoulli-Experimente mit derselben Erfolgswahrscheinlichkeit p werden (hintereinander oder gleichzeitig) unabhängig voneinander durchgeführt, d.h. die Erfolgswahrscheinlichkeit eines Experiments hängt nicht davon ab, wie die anderen ausgegangen sind. X = Zahl der Erfolge x = 0, 1, 2, . . . , n n x p (1 − p)n−x P(X = x) = x K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung n x P(X = x) = p (1 − p)n−x x (7) Beweis in 2 Schritten: n! = xn Permutationen, x Erfolge bei 1. Es gibt genau x!(n−x)! n Versuchen zu erzielen. 2. Jede dieser Permutationen hat dieselbe Eintrittswahrscheinlichkeit. Nach dem Multiplikationssatz beträgt sie p x für die x Erfolge und (1 − p)n−x für die n − x Misserfolge. K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Herauskommen beim Mensch-ärgere-dich-nicht K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Herauskommen beim Mensch-ärgere-dich-nicht Hierzu muss man bei 3 Würfen mindestens eine sechs Würfeln. Die Wahrscheinlichkeit hierfür entspricht der Summe der drei disjunkten Ereignisse P(X = 1) + P(X = 2) + P(X = 3). Denn mindestens eine Sechs zu würfeln bedeutet, entweder eine, zwei oder drei Sechsen zu würfeln. 3 1 5 2 ( ) + 32 1 6 6 ( 16 )2 56 + 3 3 91 ( 61 )3 = (3 · 25 + 3 · 5 + 1) 216 = 0, 4213 K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Herauskommen beim Mensch-ärgere-dich-nicht > x <- 0:3 > f <- dbinom(x,3,prob=1/6) > plot(x,f,type="h",lwd=2) > dbinom(1,3,1/6) + dbinom(2,3,1/6) + dbinom(3,3,1/6) [1] 0.4212963 > pbinom(0,3,prob=1/6,lower.tail=F) [1] 0.4212963 K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Bedeutung der logischen Variablen ‘lower.tail’ > pbinom(0,3,prob=1/6,lower.tail=F) [1] 0.4212963 Wenn lower.tail=TRUE (default), werden die Wahrscheinlichkeiten als P[X ≤ x] berechnet, andernfalls als P[X > x]. K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Definition Eine diskrete Zufallsvariable X mit der Massenfunktion n x p (1 − p)n−x fBi (x; p, n) = x für x = 0, 1, . . . , n, heißt binomialverteilt. Die Binomialverteilungen bilden eine Zwei-Parameter-Familie Verteilungsfunktion: x X n x FBi (x; p, n) = p (1 − p)n−x x k=0 (8) (9) Erwartungswert und Varianz: E (X ) = np V (X K.) Molt = np(1 − p) Spezielle Verteilungen (10) (11) Statistik – Verteilungen Binomische Formel Die Binomialverteilung hat ihren Namen von der binomischen Formel. Die einzelnen Wahrscheinlichkeitsmassen sind die Summanden aus der binomischen Formel (p + q)n für q := 1 − p: n (p + q) = n X n x=0 x p x q n−x = 1 Die Summer der Wahrscheinlichkeitsmassen ist 1. K. Molt Spezielle Verteilungen (12) Statistik – Verteilungen Binomialverteilung Urnenmodell mit Zurücklegen In einer Urne befinden sich 10 schwarze und 20 weiße Kugeln. Daraus soll eine Zufallssichprobe vom Umfang n = 4 gezogen werden, und zwar derart, dass die Kugeln einzeln und nacheinander aus der Urne genommen werden. Nachdem man die Farbe der einzelnen Kugel notiert hat, wie sie sogleich wieder in die dunkle Urne zurückgelegt. Die Wahrscheinlichkeit eine schwarze Kugel zu ziehen beträgt dann nach Laplace für jeden Zug p = 1/3 unabhängig davon, ob voher weiße oder schwarze Kugeln gezogen wurden. Der Ereignisraum diese Zufallsexperiments enthält 4 T2 = 42 = 16 Elementarereignisse. Durch das Zurücklegen sind die einzelnen Bernoulli-Experimente stochastisch unabhängig. K. Molt Spezielle Verteilungen Statistik – Verteilungen Urne: 10 schwarze und 20 weiße Kugeln (mit Zurücklegen), n = 4, X = nschw X ei x = 0 ◦ ◦ ◦◦ x = 1 •◦•◦◦ ◦◦◦ ◦◦•◦ ◦ ◦ ◦• x = 2 ••◦•◦ •◦◦ •◦◦• ◦••◦ ◦◦•◦• ◦ •• x = 3 •••◦• ••◦ •◦•• ◦ • •• x = 4 • • •• Anz. 1 = 40 4 = 41 P(ei ) ( 13 )0 · ( 32 )4 = ( 13 )1 · ( 32 )3 = 16 81 8 81 P(X = x) P(X = 0) = P(X = 1) = 16 81 32 81 6= 4 2 ( 13 )2 · ( 32 )2 = 4 81 P(X = 2) = 24 81 4= 4 3 ( 13 )3 · ( 32 )1 = 2 81 P(X = 3) = 8 81 1P= 44 ( 13 )4 · ( 32 )0 = = 16 1 81 P(X = P = 4) 81 = 1 = 81 1 81 K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Urne: 10 schwarze und 20 weiße Kugeln (mit Zurücklegen), n = 4, X = nschw Erwartunswert von X E (X ) = np = 4 · Varianz von X : V (X ) = np(1 − p) = 4 · 13 · 23 = 98 K. Molt 1 3 = 4 3 Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Beisp.: Nicht spezifikationsgemäße Glasröhrchen (I) Einem Lieferposten von serienmäßig hergestellten Glasröhrchen werden zwecks Prüfung der Länge der Durchmesser wahllos n = 100 Röhrchen entnommen. Ein Röhrchen wird zum Ausschuss gerechnet, wenn sein Durchmesser die vorgegebene Toleranzgrenze überschreitet. Erfahrungsgemäß weisen derartige Röhrchen etwa 4% Ausschuss auf. Was ist die Wahrscheinlichkeit, dass sich unter den herausgegriffenen 100 Röhrchen genau 4 unbrauchbare befinden? K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Beisp.: Nicht spezifikationsgemäße Glasröhrchen (II) Gegeben: n = 100, P(A) = p = 0.04, P(Ā) = q = 0.96 Gesucht: P(X = 4) P(X = 4) = 100 · 0.044 · 0.9696 4 100 100! = 4!96! = 100·99·98·97 = 25 · 33 · 49 · 97 = 3921225 4 1·2·3·4 P(X = 4) = 0.1994 > dbinom(4,100,0.04) [1] 0.1993885 K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Beisp.: Nicht spezifikationsgemäße Glasröhrchen (III) Einem Lieferposten von serienmäßig hergestellten Glasröhrchen werden zwecks Prüfung der Länge der Durchmesser wahllos n = 100 Röhrchen entnommen. Ein Röhrchen wird zum Ausschuss gerechnet, wenn sein Durchmesser die vorgegebene Toleranzgrenze überschreitet. Erfahrungsgemäß weisen derartige Röhrchen etwa 4% Ausschuss auf. Was ist die Wahrscheinlichkeit, dass sich unter den herausgegriffenen 100 Röhrchen höchstens 4 unbrauchbare befinden? K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Beisp.: Nicht spezifikationsgemäße Glasröhrchen (IV) Gegeben: n = 100, P(A) = p = 0.04, P(Ā) = q = 0.96 Gesucht: P(X ≤ 4) P P(X ≤ 4) = 4k=0 P(X = k) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) + P(X = 4) > pbinom(4,100,0.04) [1] 0.6288641 K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Beisp.: Nicht spezifikationsgemäße Glasröhrchen (V) Einem Lieferposten von serienmäßig hergestellten Glasröhrchen werden zwecks Prüfung der Länge der Durchmesser wahllos n = 100 Röhrchen entnommen. Ein Röhrchen wird zum Ausschuss gerechnet, wenn sein Durchmesser die vorgegebene Toleranzgrenze überschreitet. Erfahrungsgemäß weisen derartige Röhrchen etwa 4% Ausschuss auf. Was ist die Wahrscheinlichkeit, dass sich unter den herausgegriffenen 100 Röhrchen mindestens 4 unbrauchbare befinden? K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Beisp.: Nicht spezifikationsgemäße Glasröhrchen (VI) Gegeben: n = 100, P(A) = p = 0.04, P(Ā) = q = 0.96 Gesucht: P(X ≥ 4) P P(X ≥ 4) = 100 k=4 P(X = k) = P(X = 4) + P(X = 5) + . . . + P(X = 100) > 1-pbinom(3,100,0.04) [1] 0.5705244 > pbinom(3,100,0.04,lower.tail=FALSE) [1] 0.5705244 K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Beisp.: Nicht spezifikationsgemäße Glasröhrchen (VII) Gegeben: n = 100, P(A) = p = 0.04, P(Ā) = q = 0.96 Binomialverteilung: K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Mäuse(m/w): Schätzung der Wahrscheinlichkeit, dass eine neugeborene Maus weiblich ist, wenn n und k aus einer empirischen Verteilung bekannt sind (I). In N = 103 Würfen von n = 4 Mäusen wurde die Anzahl der Würfe festgestellt, die k = 0, 1, 2, 3, 4 weibliche Tiere enthielten: Zahl weibl. Mäuse (k) Zahl d. Würfe mit k weibl. Mäusen (zi ) 0 8 1 32 2 34 3 24 4 5 K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Mäuse(m/w): Schätzung der Wahrscheinlichkeit, dass eine neugeborene Maus weiblich ist (II). Ein Wurf von n = 4 Mäusen stellt eine Versuchseinheit dar. Die Zufallsvariable X ist die Zahl k der weiblichen P4i=1 zi kTiere. Berechnung der arithmetischen Mittels: x̄ = 103 = 1.864 Unter der Annahme, dass die beobachtete Verteilung eine binomische Veteilung ist, gilt: x̄ = np; p = x̄/n = 0.466 Die Wahrscheinlichkeit, dass die geworfene Maus eine weibliche Maus ist, ist p = 0.466. > k <- c(0,1,2,3,4); z <- c(8,32,34,24,5) > mean <- sum(k*z)/103; mean [1] 1.864078 > (p<- mean/4) [1] 0.4660194 K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomialverteilung Mäuse(m/w): Schätzung der Wahrscheinlichkeit, dass eine neugeborene Maus weiblich ist (III): Überprüfen des Modells > > < > < > > x <- 0:4 f <- dbinom(x,4,0.466) # Plot mass function in black col plot(x,f,type="h",lwd=10) # Plot relative freq. in red col lines(x,z/103,type="h", lwd=5,col=2) K. Molt Spezielle Verteilungen Statistik – Verteilungen Biologische Assays (assay, engl = Untersuchung) Mit Hilfe biologischer Assays kann man die Toxizität eines Abwassers bestimmen. Man bringt hierzu Orgnaismen (1) in ein Aquarium, das Abwasser enthält oder (2) in en Kontroll-Aquarium mit sauberem Wasser. Eine gleiche Zahl von Organismene wird willkürlich der Kontroll- un der Abwasswergruppe zugeordnmet. Die experimentelle Reaktion (Response) erfolgt in einem binären Maß: Gegenwart oder Abwesenheit einer bestimmten Eigenschaft des Abwassers. K. Molt Spezielle Verteilungen Statistik – Verteilungen Chronisches und akutes Bioassay I I Bei einem chronischen Bioassay werden die Organismen nicht-lethalen Bedingungen ausgesetzt und die gemessene Response können Veränderungen von Stoffwechselgleichgewichten, der Atmungsrate, der Fortpflanzungsfähigeit, der Gewichtszunahme, der Bildung von Neoplasmen etc. sein. Bei einem akuten Bioassay besteht eine binäre Charakteristik mit Überleben oder Tod des Organismus. K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomisches akutes Toxizitätsbioassay Jeder Organismus stellt ein Experiment dar und das interessierende Ereignis ist der Tod innerhalb eines festgelegten Versuchszeitraums. Hierbei wird angenommen, dass 1. die theoretische Wahrscheinlichkeit des Todes für alle Organismen, die der gleichen Behandlung unterworfen werden, gleich ist, 2. das Schicksal jedes einzelnen Organimus unabhängit vom Schicksal der anderen Organismen ist. Wenn n Organismen einer Versuchsbedingung ausgesetzt werden, dann wird die Wahrscheinlichkeit für den Tod eines individuellen Organismus mit Hilfe einer Binomialverteilung berechnet. K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomisches akutes Toxizitätsbioassay Daten von einem Bioassay aus einer Abwasserbehandlungsanlage Jeder Testorganismus stellt ein Experiment dar und das interessierende Ereignis ist das Überleben (Erfolg) bzw. der Tod (Misserfolg) innerhalb des festgelegten Versuchszeitraums. Gruppe Kontroll Abwasser Chancenverhältnis Überlebend 72 64 K. Molt Nicht überlebend 8 16 Spezielle Verteilungen Chancen pü pü/(1−pü) 0.9 9:1 0.8 4:1 2.25 Statistik – Verteilungen Binomisches akutes Toxizitätsbioassay Daten von einem Bioassay aus einer Abwasserbehandlungsanlage (III): Die zwei Binomialverteilungfunktionen, die mit p = 0.9 (Kontrollgruppe) und p = 0.8 (Abwassergruppe) berechnet wurden, sind so verschieden, dass der Unterschied in der Überlebensrate der Organismen zwischen den beiden Gruppen als signifikant betrachtet werden kann. > > > > > > F.cont <- pbinom(x,80,0.9) F.effl <- pbinom(x,80,0.8) # Black plot for control group plot(x,F.cont, type="s",ylab="F") # Red plot for effluent group lines(x,F.effl, type="s",col=2) K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomisches akutes Toxizitätsbioassay Daten von einem Bioassay aus einer Abwasserbehandlungsanlage (IV): Ein Hypothesentest (Fisher’s Exact Test for Count Data) zeigt, dass die Überlebenschancen in der Kontrollgruppe signifikant höher sind als im Abwasser (Signifikanzniveau α = 0.10): > assay <- matrix(c(72,8,64,16),2) > assay [,1] [,2] [1,] 72 64 [2,] 8 16 K. Molt Spezielle Verteilungen Statistik – Verteilungen Binomisches akutes Toxizitätsbioassay Daten von einem Bioassay aus einer Abwasserbehandlungsanlage (V): > fisher.test(assay,alternative="greater", conf.level=0.9) Fisher’s Exact Test for Count Data, data: assay p-value = 0.05995 alternative hypothesis: true odds ratio is greater than 1 90 percent confidence interval: 1.127962 Inf sample estimates: odds ratio 2.238797 K. Molt Spezielle Verteilungen Statistik – Verteilungen Hypergeometrische Verteilung Urnenmodell ohne Zurücklegen In einer Urne befinden sich N = 10 Kugeln, davon seien S = 6 schwarz und N − S = 4 weiß. Aus der Urne wird eine Stichprobe ohne Zurücklegen vom Umfang n = 5 gezogen. Die Zufallsvariable X sei definiert als die Zahl der schwarzen Kugeln in dieser Stichprobe. Wie groß ist die Laplacesche Wahrscheinlichkeit, dass von den fünf Kugeln genau x = 3 schwarz sind? Die Anzahl der möglichen (alle gleich wahrscheinlichen) Ausgänge des Zufallexperiments ist gleich der Anzahl der möglichen Kombinationen 5. Ordnung aus zehn Elementen: 10 m = 10 C5 = = 252 5 K. Molt Spezielle Verteilungen Statistik – Verteilungen Hypergeometrische Verteilung Urnenmodell ohne Zurücklegen In einer Urne befinden sich N = 10 Kugeln, davon seien S = 6 schwarz und N − S = 4 weiß. Aus der Urne wird eine Stichprobe ohne Zurücklegen vom Umfang n = 5 gezogen. Die Zufallsvariable X sei definiert als die Zahl der schwarzen Kugeln in dieser Stichprobe. Wie groß ist die Laplacesche Wahrscheinlichkeit, dass von den fünf Kugeln genau x = 3 schwarz sind? Günstig sind die Ausgänge, bei denen gerade drei Kugeln schwarz sind. Diese Kugeln müssen aus den sechs schwarzen Kugeln der Urne kombiniert werden: 6 g1 = 6 C3 = = 20 3 K. Molt Spezielle Verteilungen Statistik – Verteilungen Hypergeometrische Verteilung Urnenmodell ohne Zurücklegen In einer Urne befinden sich N = 10 Kugeln, davon seien S = 6 schwarz und N − S = 4 weiß. Aus der Urne wird eine Stichprobe ohne Zurücklegen vom Umfang n = 5 gezogen. Die Zufallsvariable X sei definiert als die Zahl der schwarzen Kugeln in dieser Stichprobe. Wie groß ist die Laplacesche Wahrscheinlichkeit, dass von den fünf Kugeln genau x = 3 schwarz sind? Gleichzeitig müssen die in der Stichprobe verbleibenden zwei weißen Kugeln aus den vier weißen Kugeln der Urne kombiniert werden: 4 g2 = 4 C2 = =6 2 K. Molt Spezielle Verteilungen Statistik – Verteilungen Hypergeometrische Verteilung Urnenmodell ohne Zurücklegen In einer Urne befinden sich N = 10 Kugeln, davon seien S = 6 schwarz und N − S = 4 weiß. Aus der Urne wird eine Stichprobe ohne Zurücklegen vom Umfang n = 5 gezogen. Die Zufallsvariable X sei definiert als die Zahl der schwarzen Kugeln in dieser Stichprobe. Wie groß ist die Laplacesche Wahrscheinlichkeit, dass von den fünf Kugeln genau x = 3 schwarz sind? 4 6 · g1 g2 g 20 · 6 10 = = 3 102 = = P(X = 3) = m m 252 21 5 K. Molt Spezielle Verteilungen Statistik – Verteilungen Hypergeometrische Verteilung Definition Eine diskrete Zufallsvariable X mit der Massenfunktion N−S S · n−x x fHy (x; N, S, n) = N n für x = 0, 1, . . . , n, wobei S < N und n ≤ N natürliche Zahlen sind, heißt hypergeometrisch verteilt. Dem Parameter p der Binomialverteilung entspricht hier der Quotient S/N := p, der anfängliche Anteil der schwarzen Kugeln in der Urne bzw. die Erfolgswahrscheinlichkeit beim ersten Ziehen. K. Molt Spezielle Verteilungen Statistik – Verteilungen Hypergeometrische Verteilung Damit kann man die Massenfunktion der hypergeometrischen Verteilung auch in folgender Form schreiben: N−pN pN · n−x x fHy (x; N, p, n) = N n Erwartungswert und Varianz: E (X ) = np V (X ) = np(1 − p) N −n N −1 N→∞ fHy (x; N, p, n) −→ fBi (x; p, n). Die Binomialverteilung ist Grenzverteilung der entsprechenden hypergeometrischen Verteilung. K. Molt Spezielle Verteilungen Statistik – Verteilungen Beispiel für eine hypergeometrische Verteilung Angenommen wir spielen Skat mit einem regulären Stoß von 32 Karten, von denen 16 ‘Bilder’ sind und jede ‘Hand’ besteht aus 10 zufällig ausgewählten Karten. Gesucht sei die Wahrscheinlichkeit in einer Hand von 10 Karten 3 Bilder zu bekommen. K. Molt Spezielle Verteilungen Statistik – Verteilungen Beispiel für eine hypergeometrische Verteilung Angenommen wir spielen Skat mit einem regulären Stoß von 32 Karten, von denen 12 ‘Bilder’ sind und jede ‘Hand’ besteht aus 10 zufällig ausgewählten Karten. Gesucht sei die Wahrscheinlichkeit in einer Hand von 10 Karten 4 Bilder zu bekommen. 12 20 P(4 Bilder ) = 4 32 10 6 > choose(12,4)*choose(20,6)/choose(32,10) [1] 0.297404 > dhyper(x=4,m=12,n=20,k=10) [1] 0.297404 K. Molt Spezielle Verteilungen Statistik – Verteilungen Poisson-Verteilung Die Zufallsvariable X der Poisson-Verteilung ist definiert als Zahl der Erfolge bei sehr vielen“ (n → ∞) ” Bernoulli-Experimenten mit sehr kleiner“ ” Erfolgswahrscheinlichkeit (p → 0). Die Poisson-Verteilung ist somit ein Grenzfall der Binomialverteilung. Die Gesamtheit der Poisson-Verteilungen bildet eine Ein-Parameter-Familie von Verteilungen (Parameter: λ = np). Man kann die Poisson-Verteilung als Approximation für die Binomialverteilung benutzen, wenn 1. n ≥ 100 2. p ≤ 1/10 K. Molt Spezielle Verteilungen Statistik – Verteilungen Die Poisson-Verteilung Die Massenfunktion der Poisson Verteilung lautet: fPo (x; λ) = λx −λ e x! für x = 0, 1, 2, 3, . . . Erwartungswert und Varianz: E (X ) = λ V (X ) = λ K. Molt Spezielle Verteilungen Statistik – Verteilungen Die Poisson-Verteilung λ=4 > > > > K. Molt x <- 0:15 f <- dpois(x,4) plot(x,f,type="h",lwd=2) abline(h=0) Spezielle Verteilungen Statistik – Verteilungen Poisson-Verteilung Die Poissonverteilung ist für viele Probleme in der Biologie, insbesondere für die Schätzung der Dichte von Organismen, von Bedeutung. Zuerst wurde sie in Verbindung mit den Zählungen von Organismen in den Quadraten eines Hämazytometers angewandt, und zwar bei den Zählungen von Hefezellen, die in einer Flüssigkeit suspendiert sind. Es liegen aber auch zahlreiche Untersuchungen der Schätzungen der Dichte von Pflanzen in den Quadraten eines Feldes vor. K. Molt Spezielle Verteilungen Statistik – Verteilungen Poisson-Verteilung Auszählung von Hefezellen Hefezellen je Quadrat Beob. Häufigk. 0 75 1 103 2 121 3 54 4 30 5 13 6 2 7 1 8 0 9 1 400 K. Molt Spezielle Verteilungen Statistik – Verteilungen Poisson-Verteilung Auszählung von Hefezellen ncells <- c(rep(0,75),rep(1,103),rep(2,121), rep(3,54),rep(4,30),rep(5,13), 6,6,7,9) > mean<-mean(ncells);var<-var(ncells) [1] 1.8 [1] 1.964912 > var/mean #dispersion coefficient [1] 1.091618 Da Mittelwert und Standardabweichung von der gleichen Größenordnung sind, liegt die Vermutung nahe, dass die Beobachtungsreihe einer Poisson-Verteilung folgt. K. Molt Spezielle Verteilungen Statistik – Verteilungen Poisson-Verteilung Auszählung von Hefezellen > x <- 0:9 > (n <- length(ncells)) [1] 400 > f <- dpois(x,mean) > #Plot mass function in black col > par(lend=3) > plot(x,f,type="h",lwd=10) > h <- c(75,103,121,54,30,13, 2,1,0,1)/n > #Plot rel. freq. in red col > lines(x,h,type="h",lwd=5,col=2) K. Molt Spezielle Verteilungen Statistik – Verteilungen Poisson-Verteilung Auszählung von Hefezellen Das Ergebnis Die beobachtete Verteilung folgt einer ” Poissonverteilung“ besagt, dass eine Zufallsverteilung vorliegt, d. h., das Auftreten einer Hefezelle in einem Quadrat beeinflußt nicht dasjenige einer anderen Zelle. Das Auftreten der Zellen ist also voneinander unabhängig. Wäre dies nicht der Fall, so müsste etwa auf eine ansteckende Verteilung“ geschlossen ” werden. Die Poissonverteilung kann als Test zum Prüfen der Zufälligkeit oder Unabhängigkeit von Ereignissen benutzt werden. Verhindert das Eintreten eines Ereignisses dasjenige eines zweiten solchen Ereignisses in der Stichprobeneinheit, so erhält man eine räumliche, gleichförmige (repulsed) Verteilung. K. Molt Spezielle Verteilungen Statistik – Verteilungen Geometrische Verteilung Ein Bernoulli-Experiment mit der Erfolgswahrscheinlichkeit p werde so oft ausgeführt, bis zum ersten Mal Erfolg eintritt. Es sei nun die Anzahl der vorausgegangenen Misserfolge als Zufallsvariable X definiert. Die Wahrscheinlichkeit, dabei genau x Misserfolge zu erzielen, beträgt P(X = x) = (1 − p)x p wobei 1 − p die Misserfolgswahrscheinlichkeit ist. K. Molt Spezielle Verteilungen Statistik – Verteilungen Geometrische Verteilung Eine diskrete Zufallsvariable X mit der Massenfunktion fGeo (x; p) = (1 − p)x p für x = 0, 1, 2, . . ., wobei 0 < p < 1 eine reelle Zahl zwischen Null und Eins ist, heißt geometrisch verteilt. Die entsprechende Verteilungsfunktion ist: FGeo (x; p) = 1 − (1 − p)x+1 Für Erwartungwert und Varianz gilt: E (X ) = (1 − p)/p V (X ) = (1 − p)/p 2 K. Molt Spezielle Verteilungen Geometrische Verteilung Maschinenversagen Für jede 1-Stunden-Periode sei die Wahrscheinlichkeit für ein Maschinenversagen p = 0.02. Wie groß ist die Wahrscheinlichkeite, dass die betreffende Maschine 2 Stunden überlebt? Lösung: Wenn X angibt, wie oft bis zum ersten Maschinenversagen kein Maschinenversagen festgestellt werden kann (‘Misserfolg’), dann ist X die Zahl der Stunden, welche die Maschine überlebt hat. Dann gilt pü2h = p(X > 2) = ∞ X p(x) x=3 pü2h = 1 − p(X ≤ 2) = 1 − 2 X p(x) x=0 = 1 − p − pq − pq 2 2 Statistik – Verteilungen Geometrische Verteilung Maschinenversagen Für jede 1-Stunden-Periode sei die Wahrscheinlichkeit für ein Maschinenversagen p = 0.02. Wie groß ist die Wahrscheinlichkeite, dass die betreffende Maschine 2 Stunden überlebt? > pgeom(2,prob=0.02,lower.tail=FALSE) [1] 0.941192 K. Molt Spezielle Verteilungen Statistik – Verteilungen Geometrische Verteilung Maschinenversagen > > > > K. Molt x <- 0:100 f <- dgeom(x,prob=0.02) plot(x,f) plot(x,f,type="h") Spezielle Verteilungen Geometrische Verteilung Maschinenversagen Für jede 1-Stunden-Periode sei die Wahrscheinlichkeit für ein Maschinenversagen p = 0.02. Was ist der Mittelwert und die Standardabweichung für die Überlebenszeit der betreffenden Maschine? Lösung: Wenn X angibt, wie oft bis zum ersten Maschinenversagen kein Maschinenversagen festgestellt werden kann (‘Misserfolg’), dann ist X die Zahl der Stunden, welche die Maschine überlebt hat. Dann gilt (1 − p)/p (1 − 0.02)/0.02 = 49 (1 − p)/p 2 (1 − 0.02)/0.0004 = 2450 √ σ = 2450 = 49.5 E (X ) E (X ) V (X ) V (X ) = = = = Statistik – Verteilungen Rechteckverteilung > > > > > x <- seq(0,7,0.01) f <- dunif(x,1,6) plot(x,f,t="l",lwd=2) F <- punif(x,1,6) plot(x,F,t="l",lwd=2) K. Molt Spezielle Verteilungen Statistik – Verteilungen Rechteckverteilung Gleichförmige kontinuierliche Verteilung im Bereich a ≤ x ≤ b 1 für a ≤ x ≤ b b−a fR (x) = 0 sonst für x ≤ a 0 x−a für a ≤ x ≤ b FR (x) = b−a 1 für x > b a+b 2 (b − a)2 V (X ) = 12 E (X ) = K. Molt Spezielle Verteilungen Statistik – Verteilungen Rechteckverteilung Anwendungsbeispiel: Zwischen ein Uhr nachts und sechs Uhr morgens soll ein Alarm ausgelöst werden. Der genaue Zeitpunkt der Auslösung soll rein zufällig gewählt werden (mit einer gleichbleibenden Wahrscheinlichkeit über den gegebenen Zeitraum). K. Molt Spezielle Verteilungen Statistik – Verteilungen Rechteckverteilung Konventionelle Verteilungsfunktion F (Integration von f vom unteren Ende): Wahrscheinlichkeit, dass der Alarm bis zum Zeitpunkt x ausgelöst wird. > F <- punif(x,1,6,lower.tail=TRUE) # lower.tail=TRUE is default param. Verteilungsfunktion F ∗ (Integration von f vom oberen Ende): Wahrscheinlichkeit, dass der Alarm nach dem Zeitpunkt x ausgelöst wird. > F <- punif(x,1,6,lower.tail=FALSE) > plot(x,F,t="l",lwd=2, ylab=expression(F^"*")) K. Molt Spezielle Verteilungen Statistik – Verteilungen Rechteckverteilung Was ist die Wahrscheinlichkeit, dass der Alarm zwischen 3.00 und 5.00 Uhr ertönt? Die Wahrscheinlichkeit entspricht folgender Fläche unter Rder 5 Dichtefunktion f : p = 3 f (x)dx = 0.4 Die Wahrscheinlichkeit entspricht folgender Differenz zwischen zwei Werten der Verteilungsfunktion: p = F (5) − F (3) = 0.4 punif(5,1,6) - punif(3,1,6) [1] 0.4 K. Molt Spezielle Verteilungen Statistik – Verteilungen Rechteckverteilung Was ist der Zeitpunkt, bis zu dem der Alarm mit 80%iger Wahrscheinlichkeit ertönt ist (0.8-Quantil)? P(X ≤ x[q]) P(X ≥ x[q]) x[q] x[q] = = = = q 1−q F −1 (q) q(b − a) + a > q <- seq(0,1,0.01) > F.inv <- qunif(q,1,6) > plot(q,F.inv,type="l") > x[0.8] = F −1 (0.8), also > qunif(0.8,1,6) x[0.8] = 0.8(6 − 1) + 1 = 5.0. [1] 5 K. Molt Spezielle Verteilungen Rechteckverteilung Simulation des vorigen Beispiels mit der R-Funktion runif(n,1,6): n = 10, 100 und 10000 Ereignisse. Statistik – Verteilungen Exponentialverteilung Kontinuierliche Verteilung im Bereich 0≤x <∞ fEx (x; λ) FEx (x; λ) E (X ) V (X ) = = = = λe −λx 1 − e −λx 1/λ 1/λ2 Die Exponentialverteilung ist das stetige Pendant zur geometrischen Verteilung. Die Exponentialverteilungen bilden eine Ein-Parameter-Familie (λ). K. Molt Spezielle Verteilungen Statistik – Verteilungen Exponentialverteilung Radioaktiver Zerfall Es sei Ti die Wartezeit bis zum Zerfall eines Atoms i. Ti ist exponentialverteilt zu einem festen, nur von dem betrachteten radioaktiven Element abhängigen Parameter λ. Die sog. Halbwertszeit t1/2 des betrachteten Elements ist definiert durch: P[Ti ≤ t1/2 ] 1 − e −λt1/2 e −λt1/2 λt1/2 t1/2 K. Molt = = = = 1/2 1/2 1/2 ln 2 ln 2 = λ Spezielle Verteilungen Statistik – Verteilungen Exponentialverteilung Radioaktiver Zerfall Die Halbwertszeit von 226 88 Rn beträgt 1622 Jahre, d.h. 10 5, 11 × 10 s. Damit ist die Zerfallskonstante λ = ln 2 ln 2 = s−1 10 t1/2 5, 11 × 10 λ = 1.36 × 10−11 s−1 E (X ) = µ = 1/λ ist die mittlere Lebenszeit eines 236 −11 /365/24/3600 = 2332 Jahre. 88 Rn-Nuklids 1/1.36 × 10 K. Molt Spezielle Verteilungen Statistik – Verteilungen Exponentialverteilung Radioaktiver Zerfall Es soll angenommen werden, dass 0.1 ng 226 88 Rn vorliegt (N ≈ 2.66 × 1011 Nuklide) , das mit einem Geiger-Zähler überwacht wird. Näherungsweise soll angenommen werden, dass sich die Masse an 236 88 Rn-Nukliden während der Beobachtung nicht ändert. Dann ist die Zerfallsrate λ0 = λ · N Zerfälle pro s. Die Wartezeiten Wi zwischen 2 Zerfällen gehorchen damit einer Exponentialverteilung mit dem Parameter λ0 . Dann gilt E (Wi ) = 1/λ0 = 1 Nλ D.h. die Wi sind exponentialverteilt zum Parameter Nλ. Die mittlere Wartezeit zwischen 2 radioaktiven Zerfällen beträgt 11 damit 1/(1.36 × 10−11 · 2.66 ) sVerteilungen = 0.28s. K. Molt× 10 Spezielle Statistik – Verteilungen Exponentialverteilung Wegen ihrer Eigenschaft der konstanten Fehlerrate ist die Exponentialverteilung ein ausgezeichnetes Modell für den langgestreckten Teilbereich des intrinsischen Fehlers der Badewannenkurve (Fehlerrate gegen Zeit). Die Tatsache, dass die meisten Komponenten und Systeme den größten Teil ihrer Lebenszeit in diesem Bereich der Badewannenkurve verbringen, rechtfertigt die häufige Benutzung der Exponentialverteilung (wenn frühzeitige Ausfälle oder finaler Verschleiß nicht von K. Molt Spezielle Verteilungen Statistik – Verteilungen Exponentialverteilung Verteilung ohne Gedächntis Die Wahrscheinlichkeit, dass ein Ereignis (z.B. Fehler) nach weiteren x Minuten eintritt, nachdem schon w Minuten gewartet wurde, beträgt: P(x ≤ w + x|X > w ) = P(X ≤ x) Sie ist somit ganz unabhängig davon, wieviel Wartezeit schon verstrichen ist! Es handelt sich um eine gedächtnislose Verteilung mit einem konstanten Fehlerrisiko. Vorhergehende Durchläufe“ sagen ” nichts aus über die Zukunft! Die Exponentialverteilung wird benutzt um Gegenstände zu modellieren, die nicht altern, sondern auf Grund innerer oder äußerer zufälliger Ereignisse versagen. K. Molt Spezielle Verteilungen Statistik – Verteilungen Normalverteilung Mehrfach-Messung des pH-Wertes einer neutralen Lösung (pH=7.00) Messgenauigkeit = ±0.10 K. Molt Spezielle Verteilungen Normalverteilung Simulation des vorigen Beispiels mit der R-Funktion rnorm(n,7,0.1): n = 10, 100 und 10000 Messungen. Normalverteilung Simulation des vorigen Beispiels mit der R-Funktion rnorm(10000,7,0.1): n = 10000 Messungen. Vergleich mit der Dichtefunktion der Normalverteilung. Statistik – Verteilungen Normalverteilung > > > > > x <- seq(6.6,7.4,0.01) f <- dnorm(x,mean=7.0,sd=0.1) plot(x,f,type="l",lwd=2) F <- pnorm(x,mean=7.0,sd=0.1) plot(x,F,type="l",lwd=2) K. Molt Spezielle Verteilungen Statistik – Verteilungen Normalverteilung Kontinuierliche Verteilung im Bereich −∞ < x < ∞ 1 x−µ 2 1 √ e− 2 ( σ ) σ 2π Z x 1 x−µ 2 1 √ FN (x) = e − 2 ( σ ) dx σ 2π −∞ E (X ) = µ V (X ) = σ 2 fN (x) = Die Dichtefunktion fN (x; µ, σ) ist symmetrisch um x = µ. Ihre Wendepunkte liegen bei x = µ + σ and x = µ − σ. K. Molt Spezielle Verteilungen Statistik – Verteilungen Normalverteilung Konventionelle Verteilungsfunktion F (Integration von f vom unteren Ende): Wahrscheinlichkeit, dass ein pH-Wert von höchstens x gemesssen wird. > F <- pnorm(x,7.0,0.1) > plot(x,F,t="l",ylab=expression(F^"*")) Verteilungsfunktion F ∗ (Integration von f vom oberen Ende): Wahrscheinlichkeit, dass ein pH-Wert von mindestens dem Zeitpunkt x gemessen wird. > F <- pnorm(x,7.0,0.1,lower.tail=FALSE) > plot(x,F,t="l",ylab=expression(F^"*")) # default: lower.tail=TRUE K. Molt Spezielle Verteilungen Statistik – Verteilungen Normalverteilung Was ist die Wahrscheinlichkeit, dass ein pH zwischen 6.80 und 7.10 Uhr wird? Die Wahrscheinlichkeit entspricht der roten Fläche unter der Dichtefunktion f Die Wahrscheinlichkeit entspricht folgender Differenz zwischen zwei Werten der Verteilungsfunktion F : > pnorm(7.1,7,0.1)-pnorm(6.8,7,0.1) [1] 0.8185946 K. Molt Spezielle Verteilungen Statistik – Verteilungen Normalverteilung Was ist der pH-Wert, unter dem auf die Dauer 80% der Messergebnisse liegen (0.8-Quantil)? P(X ≤ x[q]) = q P(X ≥ x[q]) = 1 − q x[q] = F −1 (q) > q <- seq(0,1,0.01) > F.inv <- qnorm(q,7,0.1) > plot(q,F.inv,type="l") Die Inverse der Normalverteilung lässt > sich nicht in geschlossener Form > qnorm(0.8,7,0.1) berechnen. Mit dem Computer erhält [1] 7.084162 man x[0.8] = F −1 (0.8) = 7.08. K. Molt Spezielle Verteilungen Statistik – Verteilungen Standardnormalverteilung Durch Standardisieren von X zur standardisierten Zufallsvariablen Z = X σ−µ wird jede Normalverteilung fN (x; µ, σ) in eine Standardnormalverteilung transformiert: 1 2 1 fSt (z) = √ e − 2 z 2π Z x 1 2 1 e − 2 z dz FSt (z) = 2π −∞ E (Z ) = 0 V (X ) = 1 K. Molt Spezielle Verteilungen Statistik – Verteilungen Logarithmische Normalverteilung Eine Verteilung wird logarithmische Normalverteilung, wenn nicht die Zufallsvariable X selbst, sondern ihr Logarithmus normalverteilt ist. FLn (x) = FN (ln x) dFLn (x) d(ln x) 1 fLn (x) = · = fN (ln x) · d(ln x) dx x 1 ln x−m 2 1 √ e− 2 ( s ) fLn (x; m, s) = x · s 2π m = E (ln x) and s 2 = V (ln x) E (X ) = e m+s 2 /2 V (X ) = e 2m+s 2 K. Molt (13) (14) (15) (16) (17) s2 (e − 1) Spezielle Verteilungen (18) Statistik – Verteilungen Logarithmische Normalverteilung Modalwert(xM ) und Schiefe (γ): xM = e m−s 2 2 γ = (e s + 2) · K. Molt Spezielle Verteilungen p e s2 − 1 Statistik – Verteilungen Anwendungen der Logarithmischen Normalverteilung I I I Partikelgrößen z.B. Duchmesser von Partikeln in Aerosolen Verdünnungsvorgänge Die physikalische Verdünnung eines Materials (z.B. eines mischbaren oder löslichen Schadstoffes) in einem anderen Material (z.B. einem Oberflächewassers in einer Bucht) neigt dazu Nicht-Gleichgewichts-Konzentrationen auszubilden mit Eigenschaften, die einer logarithmischen Normalverteilung gehorchen. Konzentrationen Konzentrationen von Schwermetallen oder toxischen Verbindunge in Wasser oder Boden. Gewöhnlich ist deren Konzentration sehr gering. Dies bedeutet, dass K. Molt Spezielle Verteilungen Abweichungen zu noch geringeren Konzentrationen eher Statistik – Verteilungen Gamma Verteilungen Die Gamma-Funktion Die Funktion Z +∞ Γ(α) = z α−1 e −z dz z=0 ist definiert für 0 < α < ∞ und wird Gamma-Funktion K. Molt Spezielle Verteilungen (19) Statistik – Verteilungen Gamma-Verteilungen Die Gamma-Funktion ist keine Verteilungs- oder Dichtefunktion. Aber sie hat interessante mathematische Eigenschaften: Z ∞ Γ(1) = e −z dz = 1 0 Γ(α + 1) = α · Γ(α) rekursive Beziehung Γ(n + 1) = n · Γ(n) = n! √ Γ(1/2) = π 1√ 1 Γ(3/2) = Γ(1/2) = π = 0.8862 2 2 3 3√ Γ(3/2) = Γ(5/2) = π = 1.3293 2 4 ... K. Molt Spezielle Verteilungen Statistik – Verteilungen Gamma-Verteilungen Eine stetige Zufallsvariable mit der Dichtefunktion fΓ (x; α, λ) = λα α−1 −λx x e Γ(α) (20) für 0 < x < ∞ und λ > 0 heißt gamma-verteilt. Die Gamma-Verteilungen bilden eine Zwei-Parameter-Klasse (α, λ). E (X ) = α/2 V (X ) = α/λ2 K. Molt Spezielle Verteilungen (21) (22) Statistik – Verteilungen Zwei spezielle Gamma-Verteilungen Das Quadrat Z 2 := X (23) einer standardnormalverteilten Zufallsvariablen ist gamma-verteilt mit den Parametern α = 1/2 and λ = 1/2. Die Teilklasse der Gammaverteilungen mit α = n/2 und λ = 1/2 heißen Chi-Quadrat-Verteilungen. Dabei muss n ganzzahlig sein und heißt die Zahl der Freiheitsgrade. K. Molt Spezielle Verteilungen