Kapitel 6 Verteilungsparameter Wie bei einem Merkmal wollen wir nun die Lage und die Streuung der Verteilung einer diskreten Zufallsvariablen durch geeignete Maßzahlen beschreiben. Beginnen wir mit Maßzahlen für die Lage. 6.1 6.1.1 Der Erwartungswert Diskrete Zufallsvariablen In der Datenanalyse haben wir den Mittelwert eines diskreten Merkmals mit den Merkmalsausprägungen a1 , . . . , ak und zugehörigen relativen Häufigkeiten h1 , . . . , hk folgendermaßen berechnet: x̄ = k ai hi . i=1 Die folgende Definition überträgt dieses Konzept auf eine diskrete Zufallsvariable X mit Wahrscheinlichkeitsfunktion fX (x). Definition 6.1 Sei X eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion fX (x) und Träger TX . Der Erwartungswert E(X) von X ist definiert durch E(X) = x fX (x) (6.1) {x|x∈TX } Beispiel 54 (fortgesetzt) Wir betrachten die Anzahl XMädchen in Familien mit zwei Kindern. Es gilt E(X) = 0 · 0.25 + 1 · 0.5 + 2 · 0.25 = 1 . 159 KAPITEL 6. VERTEILUNGSPARAMETER 160 Beispiel 61 Tversky und Kahneman fragten Personen, welche der beiden folgenden Alternativen sie vorzögen. Alternative A Man erhält eine sichere Auszahlung von $ 240. Alternative B Mit Wahrscheinlichkeit 0.25 erhält man eine Auszahlung von $ 1000 und mit Wahrscheinlichkeit 0.75 keine Auszahlung. Wir wollen zunächst untersuchen, ob eine der beiden Situationen günstiger ist. Die Konsequenz von Alternative A ist klar. Wir erhalten auf jeden Fall $ 240. Wir betrachten für Alternative B die Auszahlung X. Es gilt P (X = 0) = 0.75 P (X = 1000) = 0.25 . Es gilt E(X) = 0 · 0.75 + 1000 · 0.25 = 250 . Bei Alternative A haben wir eine sichere Auszahlung von $ 240 und bei Alternative B eine erwartete Auszahlung von $ 250. Obwohl die erwartete Auszahlung bei Alternative B höher ist, entschieden sich 84 Prozent der von Tversky und Kahneman befragten Personen für Alternative A. 6.1.2 Stetige Zufallsvariablen Definition 6.2 Sei X eine stetige Zufallsvariable mit Dichtefunktion fX (x). Der Erwartungswert E(X) von X ist definiert durch ∞ E(X) = x fX (x) dx . −∞ Beispiel 59 (fortgesetzt) Es gilt ∞ E(X) = 10 x fX (x) dx = −∞ 0 x2 10 x 0.1 dx = 0.1 = 5. 2 0 (6.2) 6.1. DER ERWARTUNGSWERT 161 Beispiel 60 (fortgesetzt) Es gilt ∞ E(X) = ∞ x fX (x) dx = −∞ = lim x→∞ xe −x dx = − x e 0 −x ∞ 0 ∞ − −e−x dx 0 ∞ −x −1 −x + − e = lim x + (0 − (−1)) = 1 x x→∞ e e 0 Der Erwartungswert einer Zufallsvariablen muss nicht existieren. Beispiel 62 Die Zufallsvariable X besitze die Dichtefunktion 1 für x > 1 x2 fX (x) = 0 sonst Der Erwartungswert von X existiert nicht. Dies sieht man folgendermaßen: ∞ 1 6.1.3 ∞ 1 x 2 dx = ln x →∞ x 1 Erwartungswerte von Funktionen von Zufallsvariablen Ist X eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion fX (x) und g(X) eine Funktion von X. Dann können wir den Erwartungswert von g(X) dadurch bestimmen, dass wir die Wahrscheinlichkeitsfunktion von g(X) und über diese den Erwartungswert von g(X) bestimmen. Wir können den Erwartungswert von g(X) aber auch bestimmen, ohne die Wahrscheinlichkeitsfunktion von g(X) herzuleiten. Es gilt nämlich E(g(X)) = {x|x∈TX } g(x) fX (x) (6.3) KAPITEL 6. VERTEILUNGSPARAMETER 162 Beispiel 58 (fortgesetzt) Wir betrachten nun noch einmal die Position X des Teilchens, das sich auf den ganzen Zahlen bewegt. Es gilt −3 x P (X = x) 0.125 −1 1 3 0.375 0.375 0.125 Hieraus folgt E(|X|) = | − 3| · 0.125 + | − 1| · 0.375 + |1| · 0.375 + |3| · 0.125 = 1.5 . Wir können diesen auch mit der Wahrscheinlichkeitsfunktion von Y = |X| bestimmen. Es gilt P (Y = 1) = 0.75 und P (Y = 3) = 0.25. Hieraus folgt E(Y ) = 1 · 0.75 + 3 · 0.25 = 1.5 . Bei einer stetigen Zufallsvariablen X mit Dichtefunktion fX (x) bestimmen wir den Erwartungswert einer Funktion g(X) folgendermaßen: ∞ E(g(X)) = g(x) fX (x) dx . (6.4) −∞ Beispiel 59 (fortgesetzt) Wir suchen den Erwartungswert von X 2 . Es gilt E(X 2 ) = ∞ x2 fX (x) dx = −∞ 10 0 x3 10 100 x2 0.1 dx = 0.1 = . 3 0 3 Beispiel 60 (fortgesetzt) Es gilt 2 ∞ E(X ) = ∞ 2 x fX (x) dx = −∞ x2 = lim − x + 2 x→∞ e 2 −x x e dx = − x e 0 ∞ xe−x dx = lim − x→∞ 0 2 −x ∞ 0 ∞ − 2x(−e−x ) dx 0 2x 2 + 2 = lim − +2=2 x→∞ ex ex 6.1. DER ERWARTUNGSWERT 6.1.4 163 Eigenschaften des Erwartungswerts Der folgende Satz zeigt, wie sich der Erwartungswert unter linearen Transformationen verhält. Satz 6.1 Sei X eine Zufallsvariable mit Wahrscheinlichkeitsfunktion bzw. Dichtefunktion fX (x) und a und b reelle Zahlen. Dann gilt E(a X + b) = a E(X) + b . (6.5) Beweis: Wir zeigen den diskreten Fall. E(a X + b) = {x|x∈TX } = a x fX (x) + {x|x∈TX } = a (a x + b) fX (x) = (a x fX (x) + b fX (x)) {x|x∈TX } b fX (x) {x|x∈TX } x fX (x) + b {x|x∈TX } fX (x) {x|x∈TX } = a E(X) + b Mit g(x) = a x + b gilt also E(g(X)) = g(E(X)). Dies gilt aber nicht immer, wie das folgende Beispiel zeigt. Beispiel 59 (fortgesetzt) Es gilt E(X 2 ) = und 100 3 E(X)2 = 25 Nun gilt E(X 2 ) − E(X)2 = 25 100 75 − = . 3 3 3 KAPITEL 6. VERTEILUNGSPARAMETER 164 Also ist bei der Gleichverteilung E(X 2 ) > E(X)2 . Oft betrachtet man die Zufallsvariable Y = X − E(X). Man sagt auch, dass man die Zufallsvariable X zentriert. Es gilt E(X − E(X)) = 0 . (6.6) Setzen wir in Gleichung (6.5) a = 1 und b = −E(X), so gilt E(X − E(X)) = E(X) − E(X) = 0 . Der Erwartungswert einer zentrierten Zufallsvariablen ist also gleich 0. Bei einer zentrierten Zufallsvariablen sieht man also sofort, welche Werte kleiner und welche größer als der Erwartungswert sind. Die folgende Eigenschaft des Erwartungswertes benötigen wir im nächsten Kapitel. Satz 6.2 X sei eine Zufallsvariable mit Erwartungswert E(X). Außerdem seien g und h reellwertige Funktionen. Dann gilt E(g(X) + h(X)) = E(g(X)) + E(h(X)) Beweis: Wir zeigen den diskreten Fall. E(g(X) + E(h(X)) = (6.7) (g(x) + h(x)) fX (x) {x|x∈TX } = (g(x)fX (x) + h(x)fX (x)) {x|x∈TX } = g(x)fX (x) + {x|x∈TX } h(x)fX (x) {x|x∈TX } = E(g(X)) + E(h(X)) Die Aussage des Satzes gilt auch, wenn wir mehr als zwei Funktionen von X betrachten. Sind also g1 , . . . , gk reellwertige Funktionen, so gilt E k i=1 gi (X) = k i=1 E(gi (X)) (6.8) 6.2. DIE VARIANZ 6.2 165 Die Varianz Der Erwartungswert einer Zufallsvariablen X ist ein Maß für die Lage von X. Neben der Lage der Verteilung einer Zufallsvariablen X ist auch die Streuung von Interesse. Für eine Urliste x1 , . . . , xn ist die mittlere quadratische Abweichung d2 folgendermaßen definiert: n 1 = (xi − x)2 n i=1 2 d Wir bestimmen hier den Mittelwert der quadratierten Abweichungen der Beobachtungen vom Mittelwert. Ersetzen wir in diesem Satz Mittelwert durch Erwartungswert und Beobachtungen durch Zufallsvariable, so erhalten wir folgende Definition: Definition 6.3 Sei X eine Zufallsvariable. Die Varianz V ar(X) von X ist definiert durch V ar(X) = E([X − E(X)]2 ) (6.9) Wir berechnen die Varianz im diskreten Fall also durch V ar(X) = [x − E(X)]2 fX (x) (6.10) {x|x∈TX } und im stetigen Fall durch ∞ V ar(X) = [x − E(X)]2 fX (x) dx (6.11) −∞ Wir wählen für die Varianz oft die Abkürzung σ 2 . Die Varianz besitzt nicht die gleiche Maßeinheit wie X, die Standardabwei chung V ar(X) hingegen doch. Wir kürzen im folgenden die Standardabweichung mit σ ab. KAPITEL 6. VERTEILUNGSPARAMETER 166 Beispiel 63 Im Beispiel 61 auf Seite 160 haben wir zwei Alternativen betrachtet. Bei Alternative A erhalten wir $ 240. Wir bezeichnen die zugehörige Zufallsvariable mit X. Es gilt P (X = 240) = 1 Bei Alternative B erhalten wir mit Wahrscheinlichkeit 0.25 $ 1000 und mit Wahrscheinlichkeit 0.75 nichts. Wir bezeichnen die zugehörige Zufallsvariable mit Y . Es gilt P (Y = 0) = 0.75 P (Y = 1000) = 0.25 Es gilt E(X) = 240 und E(Y ) = 250. Obwohl der Erwartungswert von Alternative B höher ist, entscheiden sich 84 Prozent der Befragten für Alternative A. Dies liegt an der unterschiedlichen Streuung. Offensichtlich gilt V ar(X) = 0 . Für Y gilt V ar(Y ) = (0 − 250)2 · 0.75 + (1000 − 250)2 · 0.25 = 187500 Die zweite Alternative hat die größere Varianz. Tversky und Kahneman stellen fest, dass die meisten Personen in Situationen mit möglichem Gewinn nicht risikofreudig sind. Bei möglichen Verlusten ist dies anders. Tversky und Kahneman fragten Personen, welche der beiden folgenden Alternativen sie vorzögen. Alternative A Man hat einen sicheren Verlust von $ 750. Alternative B Mit Wahrscheinlichkeit 0.75 verliert man $ 1000 und mit Wahrscheinlichkeit 0.25 nichts. Sei X der Verlust bei Alternative A und Y der Verlust bei Alternative B. Es gilt P (X = 750) = 1 und P (Y = 1000) = 0.75 P (Y = 0) = 0.25 . 6.2. DIE VARIANZ 167 Somit gilt E(X) = 750 und E(Y ) = 750. In beiden Fällen ist der erwartete Verlust gleich hoch. Die Varianz ist bei Alternative A gleich 0 und bei Alternative B: V ar(Y ) = (0 − 750)2 · 0.25 + (1000 − 750)2 · 0.75 = 187500 . In diesem Fall entscheiden sich 87 Prozent der Befragten für Alternative B. Der folgende Satz zeigt, wie man die Varianz einfach berechnen kann. Satz 6.3 Sei X eine Zufallsvariable mit Varianz V ar(X). Dann gilt V ar(X) = E(X 2 ) − E(X)2 (6.12) Beweis: Mit Gleichung (6.8) auf Seite 164 gilt: V ar(X) = E([X − E(X)]2 ) = E(X 2 − 2XE(X) + E(X)2 ) = E(X 2 ) − E(2XE(X)) + E(E(X)2 ) = E(X 2 ) − 2E(X)E(X) + E(X)2 = E(X 2 ) − E(X)2 Beispiel 63 (fortgesetzt) Wir berechnen die Varianz der Zufallsvariablen Y mit Hilfe von (6.12). Es gilt P (Y = 1000) = 0.75, P (Y = 0) = 0.25 und E(Y ) = 750. Weiterhin gilt y 2 P (Y = y) = 02 · 0.25 + 10002 · 0.75 = 750000 . E(Y 2 ) = y Also gilt V ar(Y ) = E(Y 2 ) − E(Y )2 = 750000 − 7502 = 187500 Beispiel 59 (fortgesetzt) Für die Gleichverteilung gilt E(X) = 5 und E(X 2 ) = 100/3. Also gilt V ar(X) = E(X 2 ) − E(X)2 = 100 25 −5= . 3 3 Beispiel 60 (fortgesetzt) Für die Exponentialverteilung mit λ = 1 gilt E(X) = 1 und E(X 2 ) = 2. Also gilt V ar(X) = E(X 2 ) − E(X)2 = 2 − 1 = 1 . 168 KAPITEL 6. VERTEILUNGSPARAMETER Schauen wir uns an wie sich die Varianz einer Zufallsvariablen X ändert, wenn X linear transformiert wird. Ist X eine Zufallsvariable und a und b reelle Zahlen, dann gilt: V ar(a X + b) = a2 V ar(X) . (6.13) Dies sieht man folgendermaßen: V ar(a X + b) = E [a X + b − E(a X + b)]2 = E [a X + b − a E(X) − b]2 = E [a (X − E(X))]2 = E a2 [X − E(X)]2 = a2 E [X − E(X)]2 = a2 V ar(X) Auf Seite 164 haben wir zentrierte Zufallsvariablen betrachtet. Der Erwartungswert einer zentrierten Zufallsvariablen ist gleich 0. Sei X eine Zufallsvariable mit E(X) = µ und V ar(X) = σ 2 . Wir betrachten die Zufallsvariable Z= X −µ σ . (6.14) Man nennt Z standardisierte Zufallsvariable. Es gilt E(Z) = 0 (6.15) und V ar(Z) = 1 . (6.16) Schauen wir uns erst Beziehung (6.15) an: 1 X −µ = E(X − µ) = 0 . E(Z) = E σ σ Beziehung (6.16) gilt wegen (6.13): 1 1 X −µ = 2 V ar(X − µ) = 2 V ar(X) = 1 . V ar(Z) = V ar σ σ σ 6.3. DIE TSCHEBYSCHEFF-UNGLEICHUNG 6.3 169 Die Tschebyscheff-Ungleichung Bisher haben wir die Frage noch nicht beantwortet, wann eine Varianz klein odwer groß ist. Dies wollen wir jetzt nachholen. Wir betrachten zunächst eine nichtnegative Zufallsvariable Y . Es gilt also P (Y = y) = 0 für y < 0. Ist a eine positive reelle Zahl, so gilt P (Y ≥ a) ≤ E(Y ) a . (6.17) Dies ist die Markow-Ungleichung. Wir beweisen sie für eine stetige Zufallsvariable Y mit Dichtefunktion fY (y) am Ende dieses Unterkapitels. Vorerst schauen wir uns aber an, welche Folgerungen man aus der MarkowUngleichung ziehen kann. Ist X eine Zufallsvariable mit E(X) = µ und V ar(X) = σ 2 . Wir betrachten die Zufallsvariable Y = (X − µ)2 . Da diese nichtnegativ ist, können wir die Markow-Ungleichung anwenden. Es gilt also P ((X − µ)2 ≥ a) ≤ Wegen √ und E([X − µ]2 ) . a c2 = |c| V ar(X) = E((X − µ)2 ) ist dies äquivalent zu: P (|X − µ| ≥ a) ≤ V ar(X) . a Setzen wir a = k 2 σ 2 mit k > 0, so gilt: P (|X − µ| ≥ k σ) ≤ 1 k2 . (6.18) Gleichung (6.18) ist die Tschebyscheff-Ungleichung. Diese erlaubt es, die Wahrscheinlichkeit abzuschätzen, dass eine Zufallsvariable X Werte im Intervall (µ − k σ, µ + k σ) annimmt. Multiplizieren wir beide Seiten von Gleichung (6.18) mit −1 und addieren 1, so erhalten wir folgende Ungleichung: 1 − P (|X − µ| ≥ k σ) ≥ 1 − 1 k2 (6.19) KAPITEL 6. VERTEILUNGSPARAMETER 170 Auf der linken Seite von Gleichung 6.19 zeigt die Wahrscheinlichkeit des Komplementärereignisses von |X − µ| ≥ k σ. Dieses ist |X − µ| < k σ. Also gilt P (µ − k σ < X < µ + k σ) ≥ 1 − 1 k2 Für k = 1, 2, 3 gilt also P (µ − k σ < X < µ + k σ) ≥ 0 3 4 8 9 für k = 1 für k = 2 für k = 3 Bei jeder Zufallsvariablen X liegen also mindestens 75 Prozent der Werte im Intervall (µ − 2 σ, µ + 2 σ). Bei speziellen Verteilungen kann dieser Wert aber bedeutend größer sein. Beispiel 59 (fortgesetzt) Bei der Gleichverteilung auf [0, 10] gilt σ = 25/3 = 2.87. Hieraus folgt µ − 2 σ = 5 − 2 · 2.87 = −0.74 und µ + 2 σ = 5 + 2 · 2.87 = 10.74 . Somit liegen alle Werte im Intervall [µ − 2 σ < X < µ + 2 σ]. Beispiel 60 (fortgesetzt) Bei der Exponentialverteilung mit λ = 1 gilt µ = 1 und σ = 1. Hieraus folgt P (µ − 2 σ < X < µ + 2 σ) = P (1 − 2 · 1 < X < 1 + 2 · 1) = P (−1 < X < 3) = FX (3) − FX (−1) = 1 − e−3 − 0 = 0.9502 und P (µ − 3 σ < X < µ + 3 σ) = P (1 − 3 · 1 < X < 1 + 3 · 1) = P (−2 < X < 4) = FX (4) − FX (−2) = 1 − e−4 − 0 = 0.9817 6.4. QUANTILE 171 Nun noch der Beweis der Markow-Ungleichung. Es gilt ∞ E(Y ) = a ∞ y fY (y)dy = 0 y fY (y)dy + 0 ∞ a ∞ y fY (y)dy ≥ a ≥ a yfY (y)dy fY (y)dy = a P (Y ≥ a) a Also gilt E(Y ) ≥ a P (Y ≥ a) . Hieraus folgt P (Y ≥ a) ≤ 6.4 E(Y ) . a Quantile Im Kapitel 2.2.2 haben wir empirische Quantile betrachtet. Das p-Quantil ist der Wert, der von 100·p Prozent der Beobachtungen nicht überschritten wird. Bei einem stetigen Merkmal gilt F̂ (xp ) = p. Wir wollen Quantile hier nur für stetige Zufallsvariablen betrachten, bei denen die Verteilungsfunktion auf dem Träger streng monoton wachsend ist. Dies ist bei den Verteilungen in den Beispielen 59 und 60 der Fall. In Analogie zur Empirie ist das (theoretische) Quantil xp der Wert, für den gilt FX (xp ) = p. Beispiel 59 (fortgesetzt) Der Träger der Gleichverteilung auf [0, 10] ist das Intervall [0, 10]. Hier gilt FX (x) = 0.1 x . (6.20) Um das Quantil xp zu bestimmen, setzen wir xp für x in die Gleichung (6.20) ein und erhalten: FX (xp ) = p = 0.1 xp . Lösen wir diese Gleichung nach xp auf, so erhalten wir xp = 10 · p So ist das untere Quartil der Gleichverteilung auf [0, 10] gleich x0.25 = 10 · 0.25 = 2.5. KAPITEL 6. VERTEILUNGSPARAMETER 172 Beispiel 60 (fortgesetzt) Für die Exponentialverteilung mit Parameter λ = 1 ist der Träger das Intervall [0, ∞). Hier gilt FX (x) = 1 − e−λx . (6.21) Um das Quantil xp zu bestimmen, setzen wir xp für x in die Gleichung (6.21) ein und erhalten: FX (xp ) = p = 1 − e−λxp . Diese Gleichung können wir nach xp auflösen: p = 1 − e−λxp ⇐⇒ e−λxp = 1 − p ⇐⇒ −λxp = ln (1 − p) 1 ⇐⇒ xp = − ln (1 − p) λ So ist der Median der Exponentialverteilung mit λ = 1 gleich x0.5 = ln 0.5 = −0.693. Wir werden später oftmals die standardisierte Zufallsvariable Z= X −µ σ betrachten. Dabei ist µ der Erwartungswert und σ 2 die Varianz von X. Ist xp das p-Quantil von X, so gilt für das p-Quantil zp von Z zp = xp − µ σ . (6.22) Wir haben zu zeigen: P (Z ≤ xp − µ )=p σ Dies sieht man folgendermaßen: P (X ≤ xp ) = p ⇔ P (X − µ ≤ xp − µ) = p ⇔ P ( xp − µ X −µ ≤ )=p σ σ xp − µ )=p σ Wir können zp natürlich auch aus xp bestimmen, indem wir Gleichung 6.22 nach zp auflösen. Wir erhalten ⇔ P (Z ≤ xp = µ + zp σ . (6.23)