1 Verteilung / PDF = probability distribution function / distribution Akademische Disziplin der Statistik/academic field of statistics/ la discipline statistique/estadística/disciplina academica della statistica Verteilung einer Zufallsvariablen / probability distribution function (pdf) distribution d’une variable aleatoire / distribución /distribuzione Zufallsvariable und Verteilungen Bei der Bestimmung von Wahrscheinlichkeiten stößt man häufig auf Schwierigkeiten, die zugrundeliegenden Ereignisse richtig zu beschreiben. Dies läßt sich dadurch überwinden, daß man die Wahrscheinlichkeit nicht unmittelbar als Abbildung von P(Ω) nach dem Intervall [0,1] betrachtet, sondern vorher den Ereignisraum Ω in die reellen Zahlen abbildet. Dadurch erhält man einen neuen Ereignisraum, dessen Elemente reelle Zahlen sind. Bildet man auf dieser Menge von reellen Zahlen ein P(Ω) entsprechendes Mengensystem, dann entsprechen die gemäß der Abbildung von Ω nach R abgebildeten Ereignisse den "Originalereignissen". Mit einem durch die gleiche Abbildung erzeugten Wahrscheinlichkeitsmaß auf dem von R erzeugten Mengensystem lassen sich dann die entsprechenden Wahrscheinlichkeiten bestimmen. Damit heißt eine Abbildung X: Ω→R, die den Elementarereignissen eines Zufallsexperiments in eindeutiger Weise reelle Zahlen zuordnet, eine Zufallsvariable. Definition (Zufallsvariable) Eine Abbildung X: Ω → R mit der Eigenschaft, daß das Urbild eines jeden Intervalls aus R ein Ereignis aus P(Ω) ist, heißt Zufallsvariable. Bemerkung (Realisierung einer Zufallsvariablen) Werden durch Ω die Ereignisse eines Zufallsvorganges beschrieben, und lassen sich diesen Ergebnissen eindeutig reelle Zahlen zuordnen, dann entspricht diese Zuordnung einer Zufallsvariablen. Ein Funktionswert x von X, also die Zahl x∈R, deren Urbild X-1 (x) ein Ereignis A∈ P(Ω) ist, heißt Realisierung oder Realisation der Zufallsvariablen X. Definition (Verteilungsfunktion) Die Funktion F: R → [0,1], die jedem Intervall (-∞,x] die Wahrscheinlichkeit P({ω∈Ω| X(ω)∈(-∞,x]}) zuordnet, heißt Verteilungsfunktion der Zufallsvariablen X. Bemerkung (Monotonie der Verteilung) Offenkundig ist F eine in x monoton wachsende Funktion, deren Werte nicht negativ und nicht größer als 1 werden können. Die übliche Schreibweise ist: F(x) = P(X≤x) = P({ω| X(ω) ≤ x}) 2 Definition (Zähldichte einer diskreten Zufallsvariablen) Sei Ω eine Menge mit höchstens abzählbar vielen Elementen xi , i = 1, 2, …, K, dann heißt die Funktion f: R → [0,1] mit f(x) = P(X=x) = P({ ω ∈Ω: X( ω ) = x}), Wahrscheinlichkeitsfunktion oder Zähldichte der Zufallsvariablen X. X heißt diskrete Zufallsvariable. Definition (Verteilung einer diskreten Zufallsvariablen) F(x) = Σ P(X = xi ) bzw. i:x i ≤ x sei o.B.d.A. x1≤x2≤...≤xk , dann heißt k F k := F(x k) := P[X≤x k]= k ∑ pi = i=1 ∑ P(X=x i) i=1 Verteilungsfunktion der Zufallsvariablen X. Bemerkung (Monotonie der Verteilung einer diskreten Zufallsvariablen) Für die Verteilung der diskreten Zufallsgröße gilt: (i) 0 ≤ Fk ≤ 1 (ii) 0 =F1(iii) Fk ≤ Fk+1 , k=1,2,…,K-1, d.h. F(x) ist monoton nichtfallend (monoton steigend). (Die Bezeichnung “1-” soll heißen: unmittelbar links vom ersten Wert.) Der Beweis folgt unmittelbar aus den Eigenschaften der Zähldichte. M.a.W. die Verteilung ist eine von links nach rechts nichtfallende Treppenfunktion, wie folgendes Schema verdeutlicht: F(x) p6 1 p5 p4 p2 p1 0 p3 } } } } } } x1 x2 x3 x4 x5 Das Schema einer Verteilung x6 x 3 Bemerkung (Zusammenhang zwischen empirischer und diskreter Verteilung) Falls Ω endlich ist, d.h. es gibt nur die Realisierungen x1, x2, ..., xK , entspricht die Verteilungsfunktion der empirischen Verteilungsfunktion. Der Wertebereich erstreckt sich von null nach eins: F1- := F(x1-) := P[X<x1] = 0 FK + := F(xK +):= P[X<xK +d] = 1 (d>0). Der Begriff der Verteilung erlaubt, die Wahrscheinlichkeit für beliebige Bereiche anzugeben: P[u< X ≤o] = F o - Fu. Dabei ist genau auf die (jeweilige) Definition von Fi zu achten, d.h. etwa: P[u< X <o] = Fo-1 - Fu P[u≤ X <o] = Fo-1 - Fu-1 P[u< X ≤o] = Fo - Fu P[u≤ X ≤o] = Fo - Fu-1. Ebenso läßt sich die Zähldichte aus der Verteilung bestimmen: pi = P[X = xi ] = Fi - Fi-1 (i=2,3,...) p1 = P[X = x1] = F1. Definition (Dichte einer nicht-diskreten Zufallsvariablen) Ist die Verteilungsfunktion F einer Zufallsvariablen X an höchstens abzählbar vielen Stellen xi (i= 1,2,...) nicht differenzierbar, dann gibt es eine höchstens an diesen Stellen unstetige Funktion f(x) mit dF(x) f(x) = F'(x) = für x≠xi (i= 1,2,...). dx Diese Funktion f heißt Dichtefunktion von X. X bezeichnet man dann als stetige Zufallsvariable. Bemerkung (Monotonie der Verteilung einer stetigen Zufallsvariablen) Da F monoton wachsend (nicht fallend) ist, gilt für die Dichtefunktion (vergleichbar der diskreten Verteilung): f(x) ≥ 0 für alle x∈R. Wegen lim F(x) = 1 gilt f(x)dx= 1. R Umgekehrt läßt sich die Verteilungsfunktion aus der Dichtefunktion gewinnen: . x →∞ F(x):= P[X≤x] = x -∞ f(u)du 4 Illustration 1 Die Dreiecksdichte und Verteilung Die abgebildete Verteilung ist 0 , x< 0 F(x) = 2x 2 , 0 ≤ x < 0.5 4x –2x - 1 , 0.5 ≤ x ≤ 1 , x≥ 1 1 2 Illustration 2 Sei die Verteilung 0 , F(x) = 0.5- 0.125 x 0.5 2 2 x≤ -2 ,-2 < x < 0 , 0 ≤x < 2 , 2 ≤x < 3 , x≥ 3 0.5 x - 2x+ 2.5 1 Damit ist die Dichte sozusagen eine zweiteilige Dreiecksdichte: – 0.25.x ,-2 ≤ x ≤ 0 f(x) = x -2 ,2 ≤ x≤ 3 0 , sonst 5 Im Vergleich zur diskreten Verteilung bestehen aus Gründen der unterschiedlichen Formalisierung einige Unterschiede. Zunächst ist die Bestimmung einer bestimmten Wahrscheinlichkeit entsprechend: P[u≤ X ≤o] = F(o) - F(u). Im Grenzfall gilt aber: lim P[u< X ≤o] = 0 und u→ o lim P[u≤ X ≤o] = 0. o →u Die Wahrscheinlichkeit, genau einen bestimmten Punkt zu realisieren, ist 0. Illustration 3 Man betrachte z.B. erneut die Dreiecksdichte und errechne die Wahrscheinlichkeiten dafür, daß X in einer ε-Umgebung von 0.2 liegt: P[0.2 - ε ≤ X ≤ 0.2 - ε] = F(0.2 + ε) - F(0.2 - ε) = 2o2 -2u2 = = (0.2 + ε)2 - (0.2 - ε)2 = 0.8ε lim P[u≤ X ≤o] = lim 0.8ε = 0 o →u ε→ 0 Eine solche Überlegung gilt für alle stetigen Verteilungen. Definition (α-Verteilungspunkt, α-Quantil) Der Wert x α , für den gilt F(xα ) ≥ α und F(x) < α für alle x < xα heißt (α . 100) - Prozentpunkt. Dieser Begriff entspricht vollständig dem Quantilspunkt im Fall der diskreten Zufallsgröße. 6 Illustration 4 Die Verteilung einer Weibull-verteilten Zufallsgröße P[X ≤ x] = 1 - exp( - (ax)b) = F(x), 0<a, 0<b, 0≤x Sei a= 0.5, b= 2, dann zeigt die Abbildung die Dichte und die Verteilung: (– ln(1 – q))1/ b Für die Quantile folgt xq = , z.B. für a =0.5, b=2.0 a Quantil der Größe q bzw graphisch: 0≤xq≤1 q = 0.25 1.07272 q = 0.50 1.66511 q = 0.75 2.35482 7 Illustration 2 Die Klasse der Verteilungen F(x, b) = xb, x∈[0, 1] Die zugehörige Dichte ist f(x, b) = bxb-1, x∈[0, 1] Sie wird für unterschiedliche b’s dargestellt: Die Dichte für b=1, 2, 3, 4, 5 Das zugehörige Quantil folgt aus der Verteilung; sei q das gewünschte Quantil F(x) = q = xb, also x(q) = q1/ b , z.B. für b =0.5 ist xq = q2 8 Quantil der Größe q 0≤xq≤1 q = 0.25 0.0625 q = 0.50 0.2500 q = 0.75 0.5625 bzw. graphisch bzw. als Funktion Beispiele Beispiel 1 (Eine nichtstetige Verteilung) Beispiel 2 (Zwei konvexe bzw. konkave Dichten, Formulierung als Aufgabe) Beispiel 3 (Einige symmetrische Dichten) Beispiel 4 (Einige Zähldichten) Beispiel 5 (Einige stetige Dichten, Formulierung als Aufgabe) Beispiel 6 (Der allgemeine Fall einer beliebigen Verteilung mit beliebiger Kurve über dem Intervall [a,b]) Beispiel 7 (Einige typische Aufgaben) Beispiel 8 (Eine Zähldichte und Verteilung aus dem Sport) Example 9 (A bath tub distribution) Beispiel 10 (Eine multimodale zweidimensionale Verteilung nach Dhrymes) (BINOMIAL, MULTINOMIAL, BERNOULLI, HYPER, PARETO, STIRLING)