Prof. Dr. Roland Füss Statistik II SS 2008 1. Spezielle stetige Wahrscheinlichkeitsmodelle 1.1 Rechteckverteilung • Die Dichtefunktion der Rechteckverteilung ist in einem bestimmten Intervall [a, b] positiv und konstant und ansonsten Null. 1 Prof. Dr. Roland Füss Statistik II SS 2008 • Die Rechteckverteilung ist die stetige Version der Gleichverteilung (z.B. Würfel) d.h. in einem bestimmten Intervall [a;b] ist die Eintrittswahrscheinlichkeit gleich groß. 2 Prof. Dr. Roland Füss • Dichtefunktion: Statistik II SS 2008 ⎧ 1 ,a< x<b ⎪ f (x ) = ⎨ b − a ⎪⎩0 , sonst • Verteilungsfunktion: ⎧0 , x < a ⎪x − a ⎪ F (x ) = ⎨ ,a≤ x<b b a − ⎪ ⎪⎩1 , b ≤ x • Erwartungswert und Varianz: b+a E(X ) = 2 2 ( b − a) und σ = 12 2 3 Statistik II Prof. Dr. Roland Füss SS 2008 1.2 Exponentialverteilung • Die Exponentialverteilung ist die stetige Version der geometrischen Verteilung, d.h. X ist die Zeit (z.B. in Minuten) bis zu zum Eintreffen des Ereignisses A. • Häufige Verwendung: Die Dauer in Minuten bis zur nächsten Schadensmeldung bei Versicherungen oder die Dauer in Sekunden bis zum nächsten Anruf in Call Centern. ⎧λe − λx , 0 ≤ x < ∞ • Dichtefunktion: f ( x ) = ⎨0 , sonst ⎩ für λ > 0 4 Prof. Dr. Roland Füss • Verteilungsfunktion: Statistik II SS 2008 ⎧0 , x < 0 F (x ) = ⎨ − λx ,0 ≤ x < ∞ ⎩1 − e 5 Prof. Dr. Roland Füss Statistik II SS 2008 • Je größer λ ist, desto schneller konvergiert f ( x ) gegen 0 und F ( x ) gegen 1, d.h. die Dauer bis zur nächsten Schadensmeldung ist noch kürzer und die Wahrscheinlichkeit, das es länger dauert, sinkt. 1 • Erwartungswert und Varianz: E ( X ) = λ und σ 2 = 1 λ2 • Die Exponentialverteilung hat kein Gedächtnis: Die Wahrscheinlichkeit mehr als 5 Minuten zu warten, nachdem man bereits 10 Minuten gewartet hat, ist dieselbe Wahrscheinlichkeit wie wenn man zu Beginn mehr als 5 Minuten warten muss: P( X > 15 X > 10) = P( X > 5) 6 Prof. Dr. Roland Füss • Gedächtnislosigkeit bedeutet Statistik II nicht stochastische SS 2008 Unabhängigkeit. Letzteres wäre P( X > 15 X > 10) = P( X > 15) wie es z.B. beim Würfel der Fall ist. 1.3 Pareto-Verteilung • Die Pareto-Verteilung wird häufig dann angewendet, wenn die Grundgesamtheit hauptsächlich nur positive Werte enthält und aus vielen kleinen Einheiten und wenigen großen Einheiten besteht. Z.B. ist die Bevölkerung eines Landes auf wenige große Städte aber auf viele kleine Städte und Dörfer verteilt. 7 Prof. Dr. Roland Füss Statistik II ⎧ x mk ⎪k k +1 , x ≥ xm ( ) = f x ⎨ x • Dichtefunktion: mit ⎪0 , sonst ⎩ SS 2008 x m als das kleinste Element in der Grundgesamtheit und k als Krümmungsparameter. • Erwartungswert und Varianz: kx E(X ) = m k −1 2 und ⎛ x ⎞ k σ =⎜ m ⎟ ⎝ k − 1⎠ k − 2 2 8 Prof. Dr. Roland Füss Statistik II SS 2008 9 Prof. Dr. Roland Füss Statistik II SS 2008 1.4 Normalverteilung • Die NV stellt die wichtigste stetige Verteilung für die Schätz- und Testtheorie dar. • Die NV wird durch den Mittelwert µ und die Varianz σ 2 bzw. Standardabweichung σ vollständig beschrieben. • ⎛ (x − µ )2 exp⎜⎜ − Wahrscheinlichkeitsfunktion: f (x ) = 2σ 2 σ 2π ⎝ 1 ⎞ ⎟ ⎟ ⎠ 10 Prof. Dr. Roland Füss Statistik II SS 2008 • Eine normalverteilte Zufallsvariable X wird dann kompakt als X ~ N (µ ; σ ) geschrieben. 11 Prof. Dr. Roland Füss Statistik II SS 2008 • Normalverteilungen mit kleinerer Standardabweichung haben mehr Wahrscheinlichkeitsdichte um den Mittelwert konzentriert. 12 Prof. Dr. Roland Füss Statistik II SS 2008 13 Prof. Dr. Roland Füss Statistik II SS 2008 • Je höher die Standardabweichung, desto weniger aussagekräftig ist der Erwartungswert. • Durch das Standardisieren erhält man eine Standardnormalverteilung X ~ N (0;1) . Auch ein Wahrscheinlichkeitsintervall einer Normalverteilung kann in ein äquivalentes Wahrscheinlichkeitsintervall einer Standardnormalverteilung überführt werden: x +µ⎞ ⎛x −µ ≤X≤ o P ( x u ≤ X ≤ x o ) = P ( x u − µ ≤ X ≤ x o + µ ) = P⎜ u ⎟ = P( z u ≤ Z ≤ z o ) σ ⎠ ⎝ σ und umgekehrt: X −µ ⎛ ⎞ ≤ z o ⎟ = P(µ + z u σ ≤ X ≤ µ + z oσ ) P ( z u ≤ Z ≤ z o ) = P⎜ z u ≤ σ ⎝ ⎠ 14 Prof. Dr. Roland Füss Statistik II SS 2008 • Zur Bestimmung von Wahrscheinlichkeiten von Intervallen benutzt man die Tabelle (Vertafelung) der Standardnormalverteilung, welche die jeweiligen Werte der Verteilungsfunktion für bestimmte Z-Werte angibt. Da die Normalverteilung symmetrisch ist, ist die Wahrscheinlichkeit, dass Z zwischen –z und 0 liegt, genauso hoch wie, dass sie zwischen 0 und +z liegt. Folglich ist die Wahrscheinlichkeit grösser oder kleiner als der Erwartungswert zu sein gleich groß: P(Z < 0) = P(Z > 0 ) = 0,5 . 15 Prof. Dr. Roland Füss Statistik II SS 2008 1.5 Log-Normalverteilung • Bei der Lognormalverteilung ist nicht die Variable X selbst, sondern ihr Logarithmus Y = ln x normalverteilt. • Die Lognormalverteilung wird z.B. für die Darstellung der Einkommensverteilung verwendet, da keine negativen Einkommen vorkommen können und einige wenige Einkommen sehr hoch sind, wodurch eine positive Schiefe entsteht. 16 Prof. Dr. Roland Füss Statistik II SS 2008 17 Prof. Dr. Roland Füss Statistik II SS 2008 • Kompakt schreibt man auch X ~ LN (µ L , σ L2 ) . Es wird der Erwartungswert µ L 2 und die Varianz σ L der normalverteilten Zufallsvariable Y angegeben. 18 Prof. Dr. Roland Füss Statistik II SS 2008 µ und σ 2 der lognormalverteilten Zufallsvariable X lassen sich berech- nen als: µ = eµ L +σ L2 2 2µ 2 und σ = e L +σ L2 ( ) ⋅ eσ L − 1 2 Trotzdem können Wahrscheinlichkeitsintervalle der Lognormalverteilung berechnet werden, da P ( X ≤ 2 ) = P (Y ≤ ln 2 ) ist und man durch standardisieren der normalverteilten Variable Y die Tabelle der Standardnormalverteilung benutzen kann. 19 Statistik II Prof. Dr. Roland Füss SS 2008 1.6 Gammaverteilung ∞ x −1 − z • Die Gammafunktion Γ (x ) = ∫ z e dz kommt in vielen stetigen, für die z =0 Testtheorie wichtigen Verteilungen vor. • Eine Eigenschaft dieser Funktion ist, dass Γ (x + 1) = xΓ ( x ) : Für Γ (1) = ∞ [ −z −z ∫ e dz = − e ] ∞ 0 =1 z =0 20 Statistik II Prof. Dr. Roland Füss SS 2008 ∞ x −z Für den allgemeinen Fall Γ (x + 1) gilt: Γ (x + 1) = ∫ z e dz , was sich durch z =0 partielle Integration lösen lässt (allgemein: ∫ u ' vdx = uv − ∫ uv' dx ). Dabei setzt x x −1 −z −z man z.B. v = z ; v' = x ⋅ z ; u ' = e ; u = −e und kann entsprechend Γ (x + 1) berechnen: Γ ( x + 1) = [− e ⋅ z −z ∞ ] − ∫−e x ∞ 0 −z ⋅ xz x −1dz . 0 ∞ x −1 −z Der erste Term wird Null und der zweite Term ist x ∫ e ⋅ z dz (x als 0 Konstante vor das Integral) was x ⋅ Γ (x ) ist. Also ist Γ (x + 1) = xΓ ( x ) . Γ (2 ) = 1Γ (1) = 1 ; Γ (3) = 2 Γ (2 ) = 2 ⋅1 = 2! ; Γ (4 ) = 3Γ (3) = 3 ⋅ 2 = 3! usw. 21 Prof. Dr. Roland Füss Statistik II SS 2008 • Die Gammaverteilung ist eine Verallgemeinerung der Verteilungen aus der Testtheorie und enthält die Gammafunktion: f (x, k ,θ ) = x k .−1 e−x θ θ k Γ (k ) 22 Prof. Dr. Roland Füss Statistik II SS 2008 • Je grösser k, desto flacher ist die Verteilung und je grösser θ , desto asymmetrischer ist die Verteilung (großes θ = positive Schiefe) 23 Prof. Dr. Roland Füss Statistik II SS 2008 24