3 Spezielle Verteilungen und ihre Anwendungen 13 3 Spezielle Verteilungen und ihre Anwendungen 3.1 Alternativverteilung A(p) Eine besonders einfache diskrete Verteilung ist die so genannte Alternativverteilung. Bei der Annahmekontrolle eines Warenpostens werde ein Stück herausgegriffen und überprüft. Dabei kann es sich um ein Ausschussstück (Ereignis A) handeln oder auch nicht (Ereignis A ). Das Ergebnis der Prüfung wird dann beschrieben durch eine Zufallsvariable X mit X= { 1 A: Das Stück ist Ausschuss. 0 A: Das Stück ist in Ordnung. Betrachten wir allgemein ein Zufallsexperiment, bei dem nur die beiden Ausgange A und A (für ein bestimmtes Ereignis A) von Interesse sind. Die Wahrscheinlichkeit für das Eintreten von A sei P(A) = p (mit 0 ≤ p ≤ 1), und für A gelte demnach P( A ) = q = 1 − p. Führt man eine Zufallsvariable X ein, welche die Werte 1 bzw. 0 erhält, je nachdem ob A bzw. A eintritt, so nennt man die Verteilung von X eine Alternativverteilung oder Zweipunktverteilung mit dem Parameter p, kurz A(p). Für die Wahrscheinlichkeitsfunktion der Alternativverteilung gilt daher f(1) = P(X = 1) = p und f(0) = P(X = 0) = q (mit p + q = 1). Der Erwartungswert und die Varianz von X lassen sich leicht berechnen. Gemäß Definition erhält man µ = E(X) = ∑ x i f (x i ) = 0 ⋅ q + 1 ⋅ p = p i und σ2 = Var(X) = ∑ (x i − µ) 2 f (x i ) = (0 − p) 2 q + (1 − p) 2 p = pq(p + q) = pq . i Für die Varianz gilt stets σ2 ≤ 1 / 4, wobei der Maximalwert 1 / 4 genau dann angenommen wird, wenn p = q = 1 / 2. 3.2 Binomialverteilung B(n,p) Eines der wichtigsten Beispiele einer diskreten Verteilung stellt die so genannte Binomialverteilung dar. Betrachten wir folgende Situation: In der Gütekontrolle eines Betriebes soll ein großer Warenposten von Erzeugnissen (z.B. Schrauben) auf seine Qualität geprüft werden. Dazu entnimmt man dem Posten zufällig mehrere Erzeugnisse und überprüft jedes Stück, ob es fehlerhaft ist (Ereignis A) oder ob es brauchbar ist, d.h. in seinen Abmessungen den vorgeschriebenen Toleranzgrenzen entspricht (Ereignis A ). Gesucht ist dann die Wahrscheinlichkeit dafür, dass in einer solchen Stichprobe entweder kein defektes Stück, oder 1, 2, 14 3 Spezielle Verteilungen und ihre Anwendungen usw. defekte Stücke auftreten. Die Anzahl der Ausschussstücke in der Stichprobe stellt dann eine binomialverteilte Zufallsvariable dar. (Dabei werde angenommen, dass die Stichprobe klein im Verhältnis zum Umfang des gesamten Warenpostens ist, sodass die Fehlerwahrscheinlichkeit für jedes Stück praktisch dieselbe ist.) Allgemein gehen wir von einem Zufallsexperiment aus und interessieren uns dafür, ob ein bestimmtes Ereignis A eintritt oder nicht. Dabei sei die Wahrscheinlichkeit von A bei jeder Versuchsausführung durch P(A) = p (mit 0 ≤ p ≤ 1) und die Wahrscheinlichkeit des komplementären Ereignisses A durch P( A ) = q = 1 − p gegeben. Das Experiment wird n-mal (mit n ≥ 0) durchgeführt und die Anzahl X des Eintretens von A registriert. Entsprechend der Tatsache, dass das Ereignis A insgesamt nur 0-mal, 1-mal, ... oder n-mal eintreten kann, besitzt die Zufallsvariable X die möglichen Werte k = 0,1,2,...,n. Eine kombinatorische Überlegung zeigt, dass allgemein die Wahrscheinlichkeit für ein k-maliges Eintreten des Ereignisses A gegeben ist durch () f (k) = P(X = k) = n p k q n − k , k = 0,1,..., n . k Eine Zufallsvariable mit einer solchen Wahrscheinlichkeitsfunktion besitzt eine Binomialverteilung mit den Parametern n und p, wir schreiben dafür kurz B(n,p). Für die Werte f(k) gilt stets n f (k) ≥ 0 für alle k und ∑ f (k) = 1 . k =0 Die nachstehende Abbildung zeigt die Wahrscheinlichkeitsfunktion der Binomialverteilung für die Parameter n = 20 und verschiedene Werte von p zwischen 0,1 und 0,95. Wahrscheinlichkeitsfunktion der B(n,p) 0,4 0,35 0,3 p = 0,1 0,25 p = 0,2 p = 0,3 0,2 p = 0,5 p = 0,8 0,15 p = 0,95 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 k = # Erfolge (n = 20) 15 3 Spezielle Verteilungen und ihre Anwendungen Das der Binomialverteilung zu Grunde liegende Versuchsschema wird auch BernoulliSchema genannt und tritt in der Praxis häufig auf. Das Eintreten des Ereignisses A wird mitunter auch als Erfolg bezeichnet. Die Variable X gibt dann die Anzahl der Erfolge in einer Serie von n Wiederholungen an. Wesentlich für die Anwendbarkeit des Bernoulli-Schemas ist, dass die einzelnen Wiederholungen des Versuchs voneinander unabhängig sind, und dass die Erfolgswahrscheinlichkeit für das Ereignis A von Durchführung zu Durchführung gleich bleibt. Beispiel: Wie groß ist die Wahrscheinlichkeit, bei dreimaligem Ausspielen eines Würfels mindestens einmal einen Sechser zu würfeln? Die Anzahl X der Sechser unter drei Würfen ist eine binomialverteilte Zufallsvariable mit den Parametern n = 3 und p = 1/6. Die möglichen Werte für X sind daher k = 0,1,2,3, und die entsprechenden Wahrscheinlichkeiten sind 0 3 3 1 5 P(X = 0) = f (0) = = 0,5787 0 6 6 1 2 3 1 5 P(X = 1) = f (1) = = 0,3472 1 6 6 2 1 3 1 5 P(X = 2) = f (2) = = 0,0694 2 6 6 3 0 3 1 5 P(X = 3) = f (3) = = 0,0046. 3 6 6 Demnach beträgt die gesuchte Wahrscheinlichkeit P(X ≥ 1) = f(1) + f(2) + f(3) oder einfacher P(X ≥ 1) = 1 − f (0) = 1 − 0,5787 = 0,4213 ≈ 42%. Beispiel: Der Ausschussprozentsatz bei der Herstellung bestimmter Schrauben betrage erfahrungsgemäß 3%. Wie groß ist die Wahrscheinlichkeit dafür, dass in einer Stichprobe von 50 Schrauben genau 3 defekte sind? Mit n = 50, p = 0,03 und q = 0,97 berechnen wir 50 P(X = 3) = f (3) = 0, 0330,97 47 = 0,1264 =12,64%. 3 Fragt man dagegen nach der Wahrscheinlichkeit, unter den 50 Schrauben weniger als drei defekte Schrauben vorzufinden, erhält man P(X < 3) = f (0) + f (1) + f (2) 50 50 50 = 0, 0300,9750 + 0, 0310, 97 49 + 0, 032 0,97 48 0 1 2 = 0, 2181 + 0,3372 + 0, 2555 = 0,8108 ≈ 81%. Zur Berechnung von Erwartungswert und Varianz der Binomialverteilung gehen wir wie folgt vor: Ordnen wir jedem der n Versuche im Bernoulli-Schema eine alternativverteilte Zufallsvariable Xi (für i = 1,…,n) zu, welche den Erfolg bei der i-ten Wiederholung misst, dann ist die Anzahl der Erfolge unter allen n Durchführungen des Versuches gegeben durch X = X1 + X2 + … + Xn. Dabei sind alle Zufallsvariablen Xi nach Erklärung des Bernoulli-Schemas unabhängig und identisch verteilt nach der Alternativverteilung A(p), während die Variable X der Binomial- 16 3 Spezielle Verteilungen und ihre Anwendungen verteilung B(n,p) folgt. (Tatsächlich kann man beweisen, dass jede Binomialverteilung als Summe von unabhängigen Alternativverteilungen dargestellt werden kann.) Daraus und unter Zuhilfenahme der Rechenregeln für Erwartungswerte und Varianzen folgt für die Variable X sofort µ = E(X) = E(X1) + … + E(Xn) = p + … + p = np und, da die Variablen Xi unabhängig sind, weiter σ2 = Var(X) = Var(X1) + … + Var(Xn) = pq + … + pq = npq. Wir haben damit das Ergebnis: Für den Erwartungswert und die Varianz einer Binomialverteilung B(n,p) gelten allgemein die beiden Formeln µ = np und σ2 = npq. Beispiel (Fortsetzung): Damit beträgt für die Anzahl der Sechser unter drei Würfen im ersten Beispiel der Erwartungswert µ = 3⋅(1/6) = 0,5 und die Varianz σ2 = 3⋅(1/6)⋅(5/6) = 0,4166, also σ = 0,65. Im zweiten Beispiel ergibt sich für den Erwartungswert der Anzahl der defekten Schrauben unter insgesamt 50 Schrauben der Wert µ= 50⋅0,03 = 1,5 und für die Varianz σ2 = 50⋅0,03⋅0,97 = 1,4550, also σ = 1,21. Wie die Überlegungen dieses Abschnitts zeigen, beschreibt eine B(n,p)-verteilte Zufallsvariable X gerade die absolute Häufigkeit eines Ereignisses A in n unabhängigen Versuchen. Für die relative Häufigkeit Hn(A) von A gilt demnach Hn(A) = X/n und daher für den zugehörigen Erwartungswert bzw. die Varianz 1 1 1 1 pq E(H n (A)) = E( X) = E(X) = p und Var(H n (A)) = Var( X) = 2 Var(X) = . n n n n n Wendet man nun auf die Zufallsvariable Hn(A) die Tschebyscheff’sche Ungleichung an (vgl. Abschnitt 2.2), dann erhält man P(| H n (A) − p |> ε) = P(| H n (A) − µ |> ε) ≤ σ 2 pq = für jedes ε > 0. ε 2 nε 2 Für n → ∞ ergibt sich daraus lim P(| H n (A) − p |> ε) = 0 für jedes ε > 0. n →∞ Das ist das Gesetz der großen Zahlen von Bernoulli, welches die in Kapitel 1 erwähnte empirische Beobachtung über die Stabilität der relativen Häufigkeit bestätigt: Die Wahrscheinlichkeit einer Abweichung der relativen Häufigkeit Hn(A) eines Ereignisses A von dessen Wahrscheinlichkeit P(A) = p wird beliebig klein, wenn nur die Anzahl n der Versuche genügend groß ist. 17 3 Spezielle Verteilungen und ihre Anwendungen 3.3 Hypergeometrische Verteilung Hyp(n,N,M) Bei der Anwendung der Binomialverteilung aus dem vorhergehenden Abschnitt wird stets vorausgesetzt, dass die Wahrscheinlichkeit des jeweiligen Einzelereignisses A, also z.B. die Erfolgswahrscheinlichkeit oder die Ausschusswahrscheinlichkeit während der einzelnen Wiederholungen gleich bleibt. Bei der Kontrolle eines Warenpostens bedeutet das, dass der Umfang des Postens im Verhältnis zur Stichprobe sehr groß sein muss, so dass sich die Zusammensetzung des Postens durch Entnahme einzelner Prüfstücke praktisch nicht verändert. Andernfalls muss an Stelle der Binomialverteilung die hypergeometrische Verteilung herangezogen werden. Betrachten wir etwa einen Warenposten vom Umfang N, in dem sich M Ausschussstücke befinden mögen. Entnimmt man dem Posten eine Stichprobe vom Umfang n, dann können darunter k = 0, 1, ..., n Ausschussstücke sein. Die Verteilung der Ausschussstücke in der Stichprobe ist dann durch die hypergeometrische Verteilung gegeben. Allgemein gehen wir von N Objekten aus, unter denen M (mit 0 ≤ M ≤ N) eine bestimmte Eigenschaft A besitzen, die restlichen N − M Objekte nicht. Wir wählen nun zufällig n Objekte (n ≤ N) aus und fragen nach der Anzahl X jener Stichprobenelemente, welche die Eigenschaft A aufweisen. Dann ist X eine Zufallsvariable mit den möglichen Werten 0,1,...,n und den Wahrscheinlichkeiten M N−M ( k )( n − k ) f (k) = P(X = k) = , N (n) k = 0,1,..., n . Dabei gelte k ≤ M und n − k ≤ N − M, andernfalls ist P(X = k) = 0. Diese Verteilung wird hypergeometrische Verteilung mit den Parametern n, N und M genannt und kurz mit Hyp(n,N,M) bezeichnet. Die hypergeometrische Verteilung spielt in der statistischen Qualitätskontrolle eine wichtige Rolle. Wie eingangs erwähnt ist die Entscheidung für die hypergeometrische Verteilung insbesondere bei relativ kleinen Grundgesamtheiten oder großen Stichproben angebracht, da sich dann die Wahrscheinlichkeiten für die Entnahme von brauchbaren bzw. unbrauchbaren Stücken in der Stichprobe merkbar ändern können. Generell führt eine Auswahl der Stichprobenelemente ohne Zurücklegen auf die hypergeometrische Verteilung, während eine Auswahl mit Zurücklegen auf die Binomialverteilung führt. Beispiel: Einem Posten von N = 500 Antriebswellen wird eine Stichprobe von n = 50 Wellen entnommen. Der Ausschussprozentsatz betrage erfahrungsgemäß 3%, d.h., es ist von insgesamt M = 500 ⋅ 0,03 = 15 defekten Wellen auszugehen. Dann ist z.B. die Wahrscheinlichkeit dafür, dass in der Stichprobe genau 3 Wellen defekte sind, gegeben durch 15 485 ( 3 )( 47 ) P(X = 3) = = 0,1289 = 12,89% . 500 ( 50 ) 18 3 Spezielle Verteilungen und ihre Anwendungen Die Wahrscheinlichkeit, unter den 50 Wellen mindestens eine defekte zu finden, beträgt dagegen 15 485 ( 0 )( 50 ) P(X > 0) = 1 − P(X = 0) = 1 − = 1 − 0, 2010 = 0, 7990 = 79,90% . 500 ( 50 ) Die folgende Abbildung zeigt die Wahrscheinlichkeitsfunktion f der hypergeometrischen Verteilung für die Werte n = 20, N = 100 und verschiedene Werte von M. Ein Vergleich mit der Binomialverteilung (vgl. die entsprechende Abbildung in Abschnitt 3.2) zeigt eine große Übereinstimmung der beiden Wahrscheinlichkeitsfunktionen. (Tatsächlich besitzen die beiden Verteilungen dieselbe Lage, während die Streuung bei der hypergeometrischen Verteilung etwas kleiner ist als bei der Binomialverteilung, siehe unten. Damit verschieben sich aber auch alle Quantile, die z.B. für die Annahme oder Ablehnung von Hypothesen in der beurteilenden Statistik maßgeblich sind.) Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung Hyp(n,N;M) 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 M = 10 M = 20 M = 30 M = 50 M = 80 M = 95 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 k = # Erfolge (n = 20, N = 100) Der Erwartungswert µ und die Varianz σ2 der hypergeometrischen Verteilung sind – wie man zeigen kann – gegeben durch µ=n M N−n = np und σ 2 = n pq , N N −1 wobei p = M/N und q = 1 − p gesetzt wurde. Damit besitzt die hypergeometrische Verteilung denselben Erwartungswert wie die entsprechende Binomialverteilung B(n, p = M/N), während die Varianz kleiner als die der Binomialverteilung ist. 3 Spezielle Verteilungen und ihre Anwendungen 19 Für großes N fällt der Unterschied zwischen der hypergeometrischen und der Binomialverteilung immer weniger ins Gewicht. Man kann zeigen, dass die hypergeometrische Verteilung Hyp(n,N,M) für N → ∞ gegen die Binomialverteilung B(n,p) mit p = M/N strebt, was auch die angegebenen Formeln für Erwartungswert und Varianz bestätigen. Beispiel (Fortsetzung): In obigem Beispiel beträgt die mittlere Anzahl defekter Antriebswellen in der Stichprobe vom Umfang n = 50 wegen p = M/N = 0,03 µ = np = 50 ⋅ 0, 03 = 1,5 und für die Varianz gilt σ2 = n N−n 500 − 50 pq = 50 0, 03 ⋅ 0,97 = 1,31 . N −1 499 3.4 Poisson-Verteilung Po(λ) Für eine binomialverteilte Zufallsvariable X ist die Berechnung der Wahrscheinlichkeiten f(k) für großes n recht mühsam. Ist n sehr groß, p aber gleichzeitig sehr klein, dann ist in guter Näherung f(k) ≈ (λk/k!)e−λ mit λ = np für k = 0,1,...,n. Als Faustregel für die Brauchbarkeit dieser Approximation gilt n ≥ 30 und p ≤ 0,1. Man bezeichnet eine Zufallsvariable X mit der Wahrscheinlichkeitsfunktion f (k ) = P(X = k ) = λk − λ e für k = 0,1,2,... k! als Poisson-verteilt mit dem Parameter λ, und schreibt dafür kurz Po(λ). Wie die Binomialverteilung ist auch die Poissonverteilung eine diskrete Verteilung und spielt über die Tatsache hinaus, dass sie als eine „Grenzverteilung“ für die Binomialverteilung fungiert, auch als „Verteilung der seltenen Ereignisse“ eine eigenständige Rolle in den Anwendungen. Beispiele für Poisson-verteilte Zufallsgrößen sind • Anzahl der in einer Telefonzentrale eingehenden Anrufe pro Stunde, • Anzahl der Kunden an einem Schalter pro Zeiteinheit, • Anzahl der Verkehrsunfälle pro Woche an einer Kreuzung, • Anzahl der Störfälle pro Monat in einer Produktionsanlage, • Anzahl der pro Sekunde zerfallenen Atome eines radioaktiven Präparats, • Anzahl der Druckfehler in einem Buch, usw. Mit Hilfe der Taylorentwicklung für die Exponentialfunktion eλ = ∑ k =0 ∞ λk λ2 λ3 = 1+ λ + + + ... k! 2! 3! sieht man sofort, dass durch die oben angegebene Wahrscheinlichkeitsfunktion in der Tat eine Verteilung beschrieben wird, denn f(k) ≥ 0 für alle k und Σ f(k) = 1. Auch der Erwartungswert 20 3 Spezielle Verteilungen und ihre Anwendungen und die Varianz einer Poissonverteilung Po(λ) können mittels der Exponentialreihe bestimmt werden, wobei sich µ = λ und σ2 = λ ergibt, d.h., Erwartungswert und Varianz sind für die Poisson-Verteilung gleich groß. Die nachstehende Abbildung zeigt den Verlauf der Poisson-Verteilung Po(λ) für verschiedene Parameterwerte von λ. Die Poisson-Verteilung ist immer rechtsschief. Mit zunehmendem λ nehmen auch Erwartungswert und Varianz zu, d.h., das Maximum der eingipfeligen Verteilung verschiebt sich immer weiter nach rechts und nach unten. Wahrscheinlichkeitsfunktion der Poisson-Verteilung Po(lambda) 0,3 0,25 0,2 lambda = 2 lambda = 10 0,15 lambda = 20 lambda = 30 0,1 0,05 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 0 Beispiel: In einer Telefonzentrale kommen erfahrungsgemäß im Durchschnitt 300 Anrufe pro Stunde an. Wie groß ist dann die Wahrscheinlichkeit für höchstens drei Anrufe in einer Minute? Sei X die Anzahl der Anrufe pro Minute. Dann ist X Poisson-verteilt und mit µ = λ = 300/60 = 5 ergibt sich für die gesuchte Wahrscheinlichkeit P(X ≤ 3) = f (0) + f (1) + f (2) + f (3) = ( 50 51 52 53 −5 118 −5 + + + )e = e = 0, 2650 = 26,5% . 0! 1! 2! 3! 3 Die eingangs angesprochene gute Annäherung der Binomialverteilung durch die PoissonVerteilung resultiert aus der Tatsache, dass die Binomialverteilung B(n,p) – wie man zeigen kann – gegen die Poisson-Verteilung Po(λ) konvergiert, falls n → ∞ (und zugleich p → 0) geht, wobei np = λ konstant bleibt. Somit findet die Poisson-Verteilung neben der Binomialund der hypergeometrischen Verteilung auch in der statistischen Qualitätskontrolle Anwendung, nämlich dann, wenn die Fehlerquoten p sehr gering sind. 21 3 Spezielle Verteilungen und ihre Anwendungen 3.5 Geometrische Verteilung Geo(p) Die geometrische Verteilung ist eine diskrete Verteilung zur Beschreibung der Lebensdauer technischer Geräte. Nehmen wir an, ein Gerät funktioniert einen Tag lang einwandfrei mit Wahrscheinlichkeit p, oder es fällt aus mit Wahrscheinlichkeit q = 1 − p. Dann ist die Anzahl der Tage bis zum ersten Ausfall (im einfachsten Fall) geometrisch verteilt. Allgemein betrachten wir wieder ein Zufallsexperiment, bei dem ein Ereignis A mit Wahrscheinlichkeit P(A) = p eintreten kann. Das Experiment wird beliebig oft wiederholt, wobei die einzelnen Wiederholungen unabhängig voneinander sind. Das Eintreten von A bezeichnen wir (vielleicht im Zusammenhang mit dem Ausfall technischer Geräte nicht immer passend) als Erfolg. Dann folgt die Anzahl X der Misserfolge bis zum ersten Erfolg bei unabhängigen Wiederholungen einer geometrischen Verteilung Geo(p) mit dem Parameter p gemäß f (k) = P(X = k) = pq k für k = 0,1, 2,... , wobei wie üblich q = 1 − p ist. Somit bezeichnet p die Erfolgswahrscheinlichkeit und q die Wahrscheinlichkeit für einen Misserfolg. Offensichtlich sind alle Wahrscheinlichkeiten f(k) ≥ 0 und für ihre Summe gilt ∑ f (k) = ∑ k = 0 pq k = p(1 + q + q 2 + ...) = p k =0 ∞ ∞ 1 =1. 1− q Für den Erwartungswert und die Varianz der geometrischen Verteilung erhält man nach längerer Rechnung µ= Die nebenstehende Abbildung zeigt den Verlauf der geometrischen Verteilung für verschiedene Werte des Parameters p. Die Wahrscheinlichkeitsfunktion ist stets monoton fallend und nähert sich mit zunehmendem k dem Wert 0. Die geometrische Verteilung ist das diskrete Gegenstück zur Exponentialverteilung (siehe weiter unten), welche ebenfalls als Lebensdauerverteilung Verwendung findet. q q und σ2 = 2 . p p Wahrscheinlichkeitsfunktion der geometrischen Verteilung Geo(p) 0,9 0,8 0,7 0,6 p = 0,2 0,5 p = 0,5 0,4 p = 0,8 0,3 0,2 0,1 0 0 1 2 3 4 5 6 7 8 9 10 22 3 Spezielle Verteilungen und ihre Anwendungen Beispiel: Ein technisches Gerät werde alle Minuten einer kurzzeitigen Belastung ausgesetzt, welche keine Nachwirkungen auf die weitere Funktionstüchtigkeit des Geräts haben möge. Es sei p die Wahrscheinlichkeit dafür, dass das Gerät eine solche Belastung nicht übersteht. Dann wird die Lebensdauer X des Geräts (in Minuten) durch eine geometrische Verteilung Geo(p) beschrieben. Für p = 0,01 beispielsweise ist die Wahrscheinlichkeit dafür, dass das Gerät 10 Belastungen übersteht, gegeben durch P(X = 10) = pq10 = 0,01⋅0,9910 = 0,009 = 0,9%. Die Wahrscheinlichkeit, dass das Gerät höchstens 10 Belastungen übersteht, beträgt P(X ≤ 10) = ∑ k =0 pq k = 0, 01(1 + 0,99 + 0,992 + ... + 0,9910 ) = 0,105 = 10,5% , 10 während die Wahrscheinlichkeit, dass das Gerät mehr als 10 Belastungen übersteht, P(X > 10) = 1 − ∑ k =0 pq k = 1 − 0,105 = 0,895 = 89,5% 10 beträgt. Die mittlere Lebensdauer des Geräts beträgt µ = q/p = 0,99/0,01 = 99 Minuten. Eine Verallgemeinerung der geometrischen Verteilung stellt die so genannte negative Binomialverteilung dar. Sie beschreibt die Anzahl der Misserfolge (oder auch die Anzahl der insgesamt notwendigen Versuche) bei unabhängigen Wiederholungen, bis zum r-ten Mal ein Erfolg eintritt. Für r = 1 erhält man den Spezialfall der geometrischen Verteilung. Betrachtet man Versuchsschemata, bei denen nicht nur Erfolg bzw. Misserfolg, sondern drei oder mehr Ausgänge von Interesse sind, so kann man anstelle der Binomialverteilung die Multinomialverteilung, eine weitere diskrete Verteilung verwenden. Schließlich sei noch die diskrete Gleichverteilung erwähnt, bei der ebenfalls mehrere Ausgänge eines Zufallsexperiments eintreten können, die jedoch alle gleichwahrscheinlich sind (vgl. etwa das Würfeln mit einem fairen Würfel aus Abschnitt 2.1). 3.6 Normalverteilung N(µ,σ2) Von den in der Praxis vorkommenden stetigen Verteilungen ist die so genannte Normalverteilung die wichtigste. Sie wird häufig zur Beschreibung von Messfehlern verwendet, ihre Dichtefunktion wird daher auch Fehlerkurve genannt. Die Wahrscheinlichkeitsdichte einer normalverteilten Zufallsvariablen X ist durch die Formel 1 x −µ σ − 1 f (x) = e 2 σ 2π 2 gegeben. Dabei bedeuten die Parameter µ bzw. σ den Mittelwert bzw. die Standardabweichung von X. Die Normalverteilung wird kurz mit N(µ, σ2) bezeichnet. Der Verlauf der Dichtefunktion f ist in folgender Abbildung für einige Werte von µ und σ dargestellt. Besonders auffallend ist das glockenförmige Aussehen dieser Kurven und die Symmetrie bezüglich x = µ. 23 3 Spezielle Verteilungen und ihre Anwendungen Eine Veränderung von µ bewirkt eine Verschiebung der betrachteten Glockenkurve längs der x-Achse. Dagegen beeinflusst der zweite Parameter σ wesentlich die Steilheit der Kurve; je größer σ, desto kleiner ist das Maximum von f und desto flacher der Abfall nach beiden Seiten. Im Sonderfall µ = 0, σ = 1 spricht man von der Standardnormalverteilung, kurz mit N(0, 1) bezeichnet. Für jede Normalverteilung N(µ, σ2) gilt zunächst ∞ ∫ f ( x ) dx = 1 . −∞ Für den Erwartungswert E(X) und die Varianz Var(X) einer normalverteilten Zufallsvariablen X erhält man gerade ∞ E(X) = ∫ x f (x ) dx = µ und −∞ ∞ Var (X) = ∫ ( x − µ) 2 f ( x ) dx = σ 2 . −∞ Es sei X eine N(µ,σ2)-verteilte Zufallsvariable und F ihre Verteilungsfunktion. Für viele Zwecke ist es nützlich, die Variable X in eine standardnormalverteilte Zufallsvariable Z zu transformieren. Dies erreicht man, indem man die sogenannte standardisierte Variable Z= X−µ σ bildet. Diesen Vorgang bezeichnet man als Standardisierung von X. Die Zufallsvariable Z ist wegen E(Z) = (E(X) − µ)/σ = 0 und Var(Z) = Var(X)/σ2 = 1 nun standardnormalverteilt, für ihre Verteilungsfunktion schreibt man speziell Φ(z). Diese Funktion ist für z ≥ 0 im Anhang tabelliert. Werte für negative Argumente erhält man mit Hilfe von Φ(−z) = 1 − Φ(z). 24 3 Spezielle Verteilungen und ihre Anwendungen Zwischen der Verteilungsfunktion F der N(µ,σ2)-verteilten Zufallsvariablen X und der Verteilungsfunktion Φ der standardisierten Zufallsvariablen Z = (X − µ)/σ besteht der Zusammenhang F( x ) = Φ ( x −µ ). σ Damit ist es möglich, die Werte der Verteilungsfunktion einer beliebigen normalverteilten Zufallsvariablen mit Hilfe der Tabelle für Φ(z) zu bestimmen. Beispiel: Der Messfehler bei einer Längenmessung X sei normalverteilt mit dem Erwartungswert µ = 15mm und der Standardabweichung σ = 4mm. Man bestimme die Wahrscheinlichkeiten (a) P(X < 10), (b) P(X > 10), (c) P(16 < X < 20). Es ist unter Verwendung der oben angeführten Formeln im Fall (a) P(X < 10) = F(l0) = Φ(−l,25) = 1 − Φ(l,25) = 0,1056. Die Frage (b) kann unmittelbar auf (a) zurückgeführt werden: P(X > 10) = 1 − P(X ≤ 10) = 1 − F(l0) = 0,8944. Schließlich ist im Fall (c) P(16 < X < 20) = F(20) − F(l6) = Φ(1,25) − Φ(0,25) = 0,2957. Für eine normalverteilte Zufallsvariable X mit den Parametern µ und σ gilt näherungsweise P(µ − σ < X < µ + σ) = 68% P(µ − 2σ < X < µ + 2σ) = 95,5% , P(µ − 3σ < X < µ + 3σ) = 99,7% denn P(µ − σ < X < µ + σ) = F(µ + σ) − F(µ − σ) = Φ (1) − Φ (−1) = 2Φ(1) − 1 = 0,6826 , usw. Dieses Ergebnis lässt sich folgendermaßen interpretieren: Bei genügend großer Anzahl von Beobachtungswerten einer normalverteilten Größe liegen ca. 2/3 aller Werte innerhalb der einfachen, ca. 95% innerhalb der zweifachen und 99,7% innerhalb der dreifachen Standardabweichung um den Mittelwert herum. Praktisch liegen also fast alle Beobachtungswerte einer normalverteilten Zufallsvariablen innerhalb der 3σ-Grenzen (Drei-Sigma-Regel). Die besondere Bedeutung der Normalverteilung beruht u.a. auf ihrer zentralen Rolle als Grenzverteilung. Wir haben die Binomialverteilung unter bestimmten Voraussetzungen durch die Poisson-Verteilung angenähert. Die Binomialverteilung kann aber auch in guter Näherung durch die Normalverteilung approximiert werden, falls n genügend groß ist. Grenzwertsatz von Moivre und Laplace: Ist X eine binomialverteilte Zufallsvariable mit den Parametern n und p und gilt np(1−p) ≥ 9, dann folgt die Verteilung von X näherungsweise einer Normalverteilung mit µ = np und σ2 = np(1−p), d.h. P(a ≤ X ≤ b) ≈ Φ (β) − Φ (α ) mit 25 3 Spezielle Verteilungen und ihre Anwendungen α= a − 0,5 − np np(1 − p) und β = b + 0,5 − np np(1 − p) . Es ist bekannt, dass in der Praxis zahlreiche Größen annähernd normalverteilt sind oder sich in normalverteilte Zufallsgrößen transformieren lassen. Es können, wie der letzte Satz zeigt, unter bestimmten Voraussetzungen auch verschiedene andere Verteilungen durch die Normalverteilung angenähert werden. Diese Sonderstellung der Normalverteilung wird durch den Zentralen Grenzwertsatz zum Ausdruck gebracht. Nach diesem ist eine Summe von n Zufallsvariablen bei großem n annähernd normalverteilt (wenn die Zufallsvariablen voneinander unabhängig und gleichartig verteilt sind). Diese Tatsache ist der Grund dafür, dass in der Praxis so oft annähernd normalverteilte Zufallsvariable beobachtet werden, was meist seine Ursache in einem additiven Zusammenwirken von vielen voneinander unabhängigen Einflüssen hat. 3.7 Logarithmische Normalverteilung LN(µ,σ2) Die logarithmische Normalverteilung ist eine stetige Verteilung über der Menge der positiven reellen Zahlen. Eine Zufallsvariable X mit Werten in —+ besitzt eine logarithmische Normalverteilung (kurz Lognormalverteilung) LN(µ, σ2) mit den Parametern µ und σ2, wenn die Variable Y = ln(X) normalverteilt gemäß N(µ, σ2) ist. Die Parameter µ und σ2 bezeichnen also den Erwartungswert und die Varianz der transformierten Variablen Y − und nicht der lognormalverteilten Variablen X. Durch die Transformation Y = ln(X) werden kleine x-Werte (zwischen 0 und 1) in negative y-Werte abgebildet, während große x-Werte am rechten Rand gestaucht werden. Die Rücktransformation erfolgt über X = exp(Y). Dichtefunktion der Lognormalverteilung LN(m,s2) 1 0,9 0,8 0,7 0,6 m=0, s=1 0,5 m=0, s=0,5 0,4 m=1, s=0,5 0,3 0,2 0,1 3 2,8 2,6 2,4 2,2 2 1,8 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0,01 0 Die Abbildung zeigt die Dichtefunktion der Lognormalverteilung für verschiedene Werte von µ und σ2. Wie man sieht, ist die Lognormalverteilung eine deutlich rechtsschiefe Verteilung. 26 3 Spezielle Verteilungen und ihre Anwendungen Auf Grund der Monotonie der Logarithmusfunktion, d.h. X ≤ x ⇔ Y = ln(X) ≤ ln(x), können die Verteilungsfunktion und andere Kenngrößen der Lognormalverteilung mit Hilfe der Normalverteilung bestimmt werden. Für die Verteilungsfunktion F(x) von X gilt demnach F(x) = P(X ≤ x) = P(ln(X) ≤ ln(x)) = Φ( ln(x) − µ ) σ für x > 0, wo Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet. Ferner ist die Dichte f(x) von X durch f (x) = F′(x) = (ln(x) − µ)2 1 ln(x) − µ 1 ϕ( )= exp − σx σ 2σ 2 2πσx gegeben, wo ϕ die Dichtefunktion der Standardnormalverteilung bezeichnet. Während die Berechnung von Erwartungswert und Varianz gemäß 2 2 2 E(X) = eµ+σ / 2 , Var(X) = e 2µ+σ (eσ − 1) etwas aufwändiger ist, ergibt sich der Median x0,5 der Lognormalverteilung sofort aus P(X ≤ eµ) = P(ln(X) ≤ µ) = 0,5 ⇒ x0,5 = eµ. Analog lassen sich aus allen Quantilen von Y = ln(X) nach Rücktransformation die entsprechenden Quantile von X bestimmen. Die Lognormalverteilung spielt in der Praxis u.a. bei Lebensdaueranalysen im technischen, ökonomischen und biologischen Bereich eine Rolle. In der Versicherungsmathematik wird sie auf Grund ihrer ausgeprägten Rechtsschiefe häufig für die Verteilung der Schadenshöhe verwendet. Nach dem Black-Scholes-Modell aus der Finanzmathematik sind auch die Kurse von Aktien häufig lognormalverteilt. 3.8 Lebensdauerverteilungen In diesem Abschnitt werden zwei Verteilungen zur Beschreibung von Lebensdauern behandelt, die sowohl im technischen Bereich wie im medizinisch-biologischen Bereich von Bedeutung sind. Dabei handelt es sich um die Exponentialverteilung und um die WeibullVerteilung. Wir betrachten ein technisches Gerät in der Zeit zwischen einem definierten Anfangsereignis, etwa dem Zeitpunkt seiner Inbetriebnahme und einem zufallsbedingten Endereignis, etwa dem Ausfall des Geräts, und bezeichnen die Zeitspanne zwischen Betriebsbeginn und Ausfall als Lebensdauer T. Dann ist T eine Zufallsvariable mit T ≥ 0. Die zugehörende Verteilungsfunktion F(t) = P(T ≤ t) gibt die Wahrscheinlichkeit an, mit der das Gerät vor dem Zeitpunkt t ausfällt. Eng damit verbunden ist die Überlebenswahrscheinlichkeit oder Überlebensfunktion S(t) = 1 − F(t) = P(T > t), 3 Spezielle Verteilungen und ihre Anwendungen 27 also die Wahrscheinlichkeit, mit der das Gerät länger als t Zeiteinheiten in Betrieb ist. Die Überlebensfunktion, im technischen Bereich auch als Zuverlässigkeitsfunktion bezeichnet, ist eine zentrale Größe in der Ereigniszeitanalyse. Im Allgemeinen ist S(0) = 1, die Funktion S(t) ist monoton fallend und konvergiert für t → ∝ gegen 0. Ist S(t) bekannt, dann sind damit auch die Verteilungsfunktion F(t) und die Dichtefunktion f(t) eindeutig festgelegt. Eine weitere wichtige Größe bei der Untersuchung von Lebensdauern ist die Ausfallrate oder Hazard-Funktion r(t) = f (t) S′(t) =− . S(t) S(t) Sie ist eine Kenngröße für die Zuverlässigkeit eines Objekts in Abhängigkeit von dessen Alter t und gibt näherungsweise den Anteil der Ausfälle pro Zeiteinheit unter jenen Objekten an, die zum Zeitpunkt t noch in Betrieb sind. Betrachten wir nämlich die bedingte Wahrscheinlichkeit dafür, dass ein Gerät, welches zum Zeitpunkt t noch in Betrieb ist, kurz danach zum Zeitpunkt t + ∆t ausfällt, so ergibt sich P(T ≤ t + ∆t | T > t) = P(t < T ≤ t + ∆t) F(t + ∆t) − F(t) = . P(T > t) S(t) Bezieht man nun diese Wahrscheinlichkeit auf die Länge des Zeitintervalls ∆t und lässt ∆t gegen 0 gehen, so erhält man die Ausfallrate r(t) = lim ∆t → 0 wie oben angegeben. P(T ≤ t + ∆t | T > t) F(t + ∆t) − F(t) 1 f (t) = lim = , ∆ t → 0 ∆t ∆t S(t) S(t) 3 Spezielle Verteilungen und ihre Anwendungen 28 Die oben stehende Abbildung (entnommen aus der freien Enzyklopädie Wikipedia) zeigt die empirische Überlebensfunktion für die Lebensdauer von Glühbirnen. Die Anzahl der in einem bestimmten Zeitintervall (z.B. einer Stunde) ausgefallenen Glühbirnen dividiert durch die zu Beginn dieses Intervalls noch vorhandenen Glühbirnen bestimmt die Ausfallrate. Diese kann, wie das Beispiel zeigt, abschnittsweise fallen, wachsen oder auch konstant bleiben. 3.8.1 Exponentialverteilung Exp(λ) Eine stetige Zufallsvariable T mit Werten in —0+ besitzt eine Exponentialverteilung Exp(λ) mit dem Parameter λ > 0, wenn sich die Überlebensfunktion S(t) darstellen lässt als S(t) = P(T > t) = e−λt. Für die Verteilungsfunktion der Exponentialverteilung gilt demnach F(t) = P(T ≤ t) = 1 − S(t) = 1 − e−λt, und die Dichtefunktion lautet f(t) = F′(t) = λe−λt (für t ≥ 0). Die Dichte verläuft analog zur Wahrscheinlichkeitsfunktion der geometrischen Verteilung streng monoton fallend gegen null (siehe Abbildung im nächsten Abschnitt), so dass die Exponentialverteilung als stetiges Gegenstück zur diskreten geometrischen Verteilung angesehen werden kann. Eine bemerkenswerte Eigenschaft der Exponentialverteilung ist ihre Gedächtnislosigkeit. Die bedingte Überlebenswahrscheinlichkeit P(T > t + ∆t | T > t) = S(t + ∆t) e −λ (t +∆t ) = −λt = e −λ⋅∆t S(t) e ist nämlich nur von ∆t, nicht aber von t abhängig. D.h., die Wahrscheinlichkeit, noch eine Zeitspanne der Länge ∆t zu leben, ist unabhängig vom Alter t. Folglich ist auch die Ausfallrate r(t) = f (t) λe−λt = =λ S(t) e−λt konstant und damit altersunabhängig. Die Exponentialverteilung eignet sich daher zur Beschreibung der Lebensdauer von nicht alternden Objekten. Typische exponentialverteilte Zufallsvariablen sind • die Zeit zwischen zwei Telefonanrufen, • die Lebensdauer von Atomen beim radioaktiven Zerfall, • die Lebensdauer von Bauteilen und Geräten, wenn Alterserscheinungen nicht berücksichtigt werden müssen. Weitere Kenngrößen der Exponentialverteilung sind der Median µɶ , der Erwartungswert µ und die Varianz σ2. Wie man unschwer nachrechnet gilt 29 3 Spezielle Verteilungen und ihre Anwendungen µɶ = x 0,5 = ln 2 1 , µ = E(T) = λ λ und σ2 = Var(T) = 1 . λ2 Alle diese Kennzahlen sind umso größer, je kleiner λ ist. Schließlich beträgt die Schiefe der Verteilung stets 2, die Verteilung ist also rechtsschief. Der Parameter λ der Exponentialverteilung besitzt, wie wir gesehen haben, zwei anschauliche Interpretationen: Zum einen ist λ gerade die Ausfallrate, zum anderen ist 1/λ die mittlere Lebensdauer der Exponentialverteilung. Ausfallrate und Lebensdauer sind also zueinander reziprok. Beispiel: Die Wartezeit T auf eine freie Leitung bei einer Telefonhotline betrage durchschnittlich 5 Minuten. Mit welcher Wahrscheinlichkeit muss man länger als 5 Minuten warten? Wir nehmen an, die Wartezeit T (in min) sei exponentialverteilt, dann folgt wegen E(T) = 1/λ = 5, dass λ = 0,2 min−1. Somit beträgt die gesuchte Wahrscheinlichkeit P(T > 5) = S(5) = e−5λ = e−1 = 0,37. Auch die Wahrscheinlichkeit, nach 10 Minuten Wartezeit nochmals 5 Minuten zu warten, ist P(T > 15 | P > 10) = S(15) / S(10) = e−3/e−2 = e−1 = 0,37. 3.8.2 Weibull-Verteilung WB(λ,γ) Eine weitere wichtige Verteilung zur Beschreibung der Lebensdauer technischer Geräte ist die Weibull-Verteilung. Eine Zufallsvariable T > 0 besitzt eine Weibull-Verteilung WB(λ, γ) mit den Parametern λ > 0 und γ > 0, wenn sie eine Überlebensfunktion S(t) der Gestalt S(t) = P(T > t) = e−λt γ (für t > 0) besitzt. Für die Verteilungsfunktion von T gilt daher γ F(t) = 1 − S(t) = 1 − e −λt , und die Dichtefunktion von T lautet γ f(t) = F′(t) = λγt γ−1e −λt . Die Weibull-Verteilung ist durch die beiden Parameter λ und γ eindeutig festgelegt. Wie man sofort sieht, stellt die Weibull-Verteilung WB(λ, γ) eine Verallgemeinerung der Exponentialverteilung Exp(λ) dar, und im Sonderfall γ = 1 ist WB(λ, 1) gleich Exp(λ). Durch den zusätzlichen Parameter γ ist sie jedoch wesentlich flexibler, wie sich gleich zeigen wird. Wir berechnen die Hazard-Funktion r(t), also die altersabhängige Ausfallrate für die WeibullVerteilung und erhalten γ f (t) λγt γ−1e −λt r(t) = = = λγt γ−1 . −λt γ S(t) e 30 3 Spezielle Verteilungen und ihre Anwendungen Diese Funktion zeigt in Abhängigkeit von γ ein unterschiedliches Verhalten: • Für γ = 1 ist die Ausfallrate konstant gleich λ, das ist der Spezialfall der Exponentialverteilung. • Für γ > 1 ist die Ausfallrate mit zunehmendem Alter t streng monoton wachsend, durch die Weibull-Verteilung wird also in diesem Fall ein alterndes System (z.B. in Folge von Materialermüdung) beschrieben. • Für 0 < γ < 1 ist die Ausfallrate mit zunehmender Zeit streng monoton fallend, und die Verteilung beschreibt ein Überleben mit Regeneration. Der Median µɶ der Weibull-Verteilung, also jene Zeit, nach der die Hälfte aller beobachteten Geräte ausgefallen ist, kann mit Hilfe der Verteilungsfunktion einfach gefunden werden: 1/ γ γ F(µɶ ) = 1 − e−λµɶ = 1 ln 2 ⇒ µɶ = . 2 λ Die Bestimmung von Erwartungswert, Varianz und weiterer Kenngrößen ist nicht mehr elementar, sondern nur mit Hilfe der Gamma-Funktion möglich. Nachstehende Abbildung zeigt die Dichte der Exponentialverteilung sowie die Dichte einer Weibull-Verteilung mit γ > 1 und der zugehörenden Hazard-Funktion. Die letzte Verteilung beschreibt also ein Überleben mit Altern, bei dem mit wachsendem Alter die Ausfallrate ansteigt. 1 0,9 0,8 0,7 0,6 Exp 0,5 WB Hazard 0,4 0,3 0,2 0,1 3 2,8 2,6 2,4 2,2 2 1,8 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0,01 0 Weitere stetige Verteilungen sind etwa die stetige Gleichverteilung (zur Simulation von Zufallsprozessen) oder die so genannten Testverteilungen (z.B. t-Verteilung, χ2-Verteilung), von denen später noch die Rede sein wird.