Statistik I für Statistiker, Mathematiker und Informatiker Gerhard Tutz, Jan Ulbricht Lösungen zu Blatt 12 WS 05/06 Theorie: • Gemeinsame Verteilungsfunktion von (X, Y ) F (a, b) = P (X ≤ a, Y ≤ b) = P ({X ≤ a} ∩ {Y ≤ b}), a, b ∈ IR • Zusammenhang zwischen gemeinsamer Verteilungsfunktion und Verteilungsfunktionen von X und Y FX (a) = P (X ≤ a) = P (X ≤ a, Y < ∞) = lim F (a, n) n→∞ Entsprechend für FY (b) = limn→∞ F (n, b). FX (a) und FY (b) heißen Randverteilungsfunktionen von (X, Y ). • X, Y diskret: – gemeinsame Wahrscheinlichkeitsfunktion fX,Y (x, y) = P (X = x, Y = y) = P ({X = x} ∩ {Y = y}), x, y ∈ IR – Randverteilungen: fX (x) = P (X = x) = P ({X = x} ∩ {Y < ∞}) [ = P( {X = x, Y = y}) y:fX,Y (x,y)>0 X = fX,Y (x, y) y:fX,Y (x,y)>0 X fY (y) = P (Y = y) = fX,Y (x, y) x:fX,Y (x,y)>0 • X, Y stetig: – Gemeinsame Verteilungfunktion Z bZ P (a ≤ X ≤ b, c ≤ Y ≤ d) = d fX,Y (x, y)dxdy, a c mit fX,Y (x, y) gemeinsame Dichtefunktion – Randdichte von X Z ∞ fX (x) = fX,Y (x, y)dy −∞ – Randverteilungsfunktion von X Z a FX (a) = fX (x)dx −∞ – Analog für Y • Unabhängigkeit FX,Y (a, b) = FX (a)FY (b) äquivalent : fX,Y (a, b) = fX (a)fY (b) • Kovarianz: Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ) • Korrelationskoeffizient Cov(X, Y ) p ρ = ρ(X, Y ) = p V ar(X) V ar(Y ) – Zwei Zufallsvariablen X und Y heißen unkorreliert, wenn gilt ρ(X, Y ) = 0. – Sind zwei Zufallsvariablen unabhängig, so sind sie auch unkorreliert, d.h. es gilt ρ(X, Y ) = 0. • Erwartungswert und Varianz von Linearkombinationen: Sei X = a1 X1 + . . . an Xn , so gilt E(X) = a1 E(X1 ) + . . . + an E(Xn ) und V ar(X) = n X a2i V ar(Xi ) + 2 i=1 X ai aj Cov(Xi , Xj ). i<j • bedingte Verteilungen fX,Y (x, y) fY (y) fX,Y (x, y) fX (x) FX,Y (x, y) FY (y) FX,Y (x, y) FX (x) fX|Y (x|y) = fY |X (y|x) = FX|Y (x|y) = FY |X (y|x) = • bedingte Erwartung (diskret) X E(X|Y = y) = xfX|Y (x|y) x:fX,Y (x,y)>0 • bedingte Erwartung (stetig) Z ∞ E(X|Y = y) = xfX|Y (x|y)dx −∞ Lösung Aufgabe 60 Aufgabe a) Aus den Zusatzangaben entnimmt man zunächst P (X = 1|Y = 3) = 0.4 P (Y = 2|X = 2) = 0.3 P (X = 1, Y = 4) = 0.03. Mit den gegebenen Randverteilungen fX (x) und fY (y) sowie unter Berechnung von P (X = 2, Y = 2) = P (Y = 2|X = 2) · P (X = 2) = 0.3 · 0.4 = 0.12 P (X = 1, Y = 3) = P (X = 1|Y = 3) · P (Y = 3) = 0.4 · 0.3 = 0.12 ergibt sich damit die folgende, in einer Kontingenztabelle dargestellte, gemeinsame Wahrscheinlichkeitsfunktion fXY (x, y): Y X 1 0.07 0.03 0.1 1 2 fY (y) 2 0.38 0.12 0.5 3 0.12 0.18 0.3 4 0.03 0.07 0.1 fX (x) 0.6 0.4 1 X und Y sind demnach nicht unabhängig, da zum Beispiel fXY (1, 1) = 0.07 6= 0.06 = 0.6 · 0.1 = fX (1) · fY (1). Aufgabe b) Zur Bestimmung der bedingten Verteilungsfunktion FY (y|X = 1) = X fY (y|X = 1) yj ≤y berechnet man zunächst die bedingten Wahrscheinlichkeiten fY (1|X = 1) = fY (2|X = 1) = fY (3|X = 1) = fY (4|X = 1) = fXY (1, 1) fX (1) fXY (1, 2) fX (1) fXY (1, 3) fX (1) fXY (1, 4) fX (1) 0.07 0.6 0.38 = 0.6 0.12 = 0.6 0.03 = 0.6 = = 0.12 = 0.63 = 0.20 = 0.05. Daraus erhält man 0, 0.12, 0.75, FY (y|X = 1) = 0.95, 1, y < 1, 1 ≤ y < 2, 2 ≤ y < 3, 3 ≤ y < 4, y ≥ 4. Aufgabe c) Zur Berechnung der Kovarianz Cov(X, Y ) = E(XY ) − E(X)E(Y ) bestimmt man zunächst direkt aus den Randverteilungen von X und Y X E(X) = xfX (x) = 0.6 + 0.8 = 1.4, x E(Y ) = X yfY (y) = 0.1 + 1 + 0.9 + 0.4 = 2.4. y Für E(XY ) erstellt man aufgrund der Abhängigkeit zwischen X und Y zunächst die Wahrscheinlichkeitsfunktion der Zufallsvariablen Z := XY gemäß z fZ (z) 1 0.07 2 0.41 3 0.12 4 0.15 6 0.18 8 0.07 und erhält damit E(Z) = X zfZ (z) = 0.07 + 0.82 + 0.36 + 0.6 + 1.08 + 0.56 = 3.49 z sowie insgesamt Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 3.49 − 1.4 · 2.4 = 0.13. Zur Berechnung der Korrelation ρ(X, Y ) = p Cov(X, Y ) p V ar(X) V ar(Y ) bestimmt man zunächst ebenfalls direkt aus den Randverteilungen von X und Y X x2 fX (x) = 0.6 + 1.6 = 2.2, E(X 2 ) = x X 2 E(Y ) = y 2 fY (y) = 0.1 + 2 + 2.7 + 1.6 = 6.4. y und erhält daraus über den Verschiebungssatz für die Varianz V ar(X) = E(X 2 ) − E(X)2 = 2.2 − 1.42 = 0.24 V ar(Y ) = E(Y 2 ) − E(Y )2 = 6.4 − 2.42 = 0.64. Somit gilt Cov(X, Y ) 0.13 p √ =√ ≡ 0.33, 0.24 0.64 V ar(X) V ar(Y ) ρ(X, Y ) = p d.h. es liegt eine mittlere positive Korrelation zwischen X und Y vor. Lösung Aufgabe 61 Aufgabe a) X ist die tägliche Anzahl an Frauen, Y ist die tägliche Anzahl an Männern, die das Postamt betreten. Die Gesamtzahl der Kunden ist damit X + Y . Bekannt ist, dass die Gesamtzahl poissonverteilt ist mit Parameter λ, also λn P (X + Y = n) = e−λ , n ≥ 0. n! Gesucht ist die gemeinsame Wahrscheinlichkeitsverteilung P (X = x, Y = y). Angenommen es kommen n Kunden in das Postamt. Die Wahrscheinlichkeit, dass davon k Frauen sind ergibt sich mit Hilfe der Binomialverteilung n k P (X = k| X + Y = n) = p (1 − p)n−k , 0 ≤ k ≤ n. k Wenn von n Kunden k Frauen sind, dann sind n − k Kunden Männer. Daher gilt P (X = k| X + Y = n) = P (X = k, Y = n − k| X + Y = n). Mit Hilfe dieser bedingten Wahrscheinlichkeit können wir nun die gesuchte gemeinsame Wahrscheinlichkeitsverteilung bestimmen. Es gilt P (X = k, Y = n − k| X + Y = n) = = P ({X = k, Y = n − k} ∩ {X + Y = n}) P ({X + Y = n}) P ({X = k, Y = n − k) P ({X + Y = n}) und allgemein für i, j ∈ N0 : P (X = i, Y = j) = P (X = i, Y = j| X + Y = i + j)P (X + Y = i + j) i+j i λi+j = p (1 − p)j e−λ i (i + j)! 1 −λ = e · (pλ)i · ((1 − p)λ)j i!j! (pλ)i −(1−p)λ ((1 − p)λ)j = e−pλ e . i! j! Die gemeinsame Verteilung von X und Y entspricht dem Produkt zweier Poisson-Verteilungen. Aufgabe b) Zwei Zufallsvariablen X und Y heißen stochastisch unabhängig, falls gilt P (X ∈ A, Y ∈ B) = P (X ∈ A)P (X ∈ B), für alle A, B. Hier ergibt sich für die Randverteilungen: P (X = i) = e−pλ = e−pλ (pλ)i i! X e−(1−p)λ j:pY (j)>0 ((1 − p)λ)j j! (pλ)i i! und äquivalent X P (Y = i) = e−pλ i:pX (i)>0 = e−(1−p)λ (pλ)i −(1−p)λ ((1 − p)λ)j e i! j! ((1 − p)λ)j . j! Damit gilt P (X = i)P (Y = j) = e−pλ (pλ)i −(1−p)λ ((1 − p)λ)j ·e = P (X = i, Y = j) ∀ i, j ∈ N0 . i! j! X und Y sind damit stochastisch unabhängige Zufallsvariablen. Aufgabe c) Gesucht ist E(X|X + Y = n) = n X k · P (X = k| X + Y = n) = k=0 n X k=0 n k k· p (1 − p)n−k = np. k Wenn insgesamt n Kunden das Postamt besuchen, dann sind im Mittel np von ihnen Frauen. Lösung Aufgabe 62 Aufgabe a) Den Parameter c erhält man über die Normierungsbedingung Z ∞Z ∞ 1= fXY (x, y)dxdy −∞ −∞ durch Z 1 = c · (x + y + xy)dxdy 1 Z 1 2 1 c· x + xy + x2 y dy 2 2 0 0 Z 1 1 1 c· + y + y dy 2 2 0 1 1 2 1 2 1 c· y+ y + y 2 2 4 0 5 c · =⇒ c = 0.8. 4 0 = = = = 1Z 1 0 1 Wegen c > 0 und 0 ≤ x, y ≤ 1 gilt weiterhin fXY (x, y) ≥ 0. Aufgabe b) Für die Randdichte von X gilt für 0 ≤ x ≤ 1 Z ∞ fXY (x, y)dy fX (x) = −∞ 1 Z 0.8 · (x + y + xy)dy 1 2 1 2 1 = 0.8 · xy + y + y x 2 2 0 3 1 = 0.8 · x+ = 0.4 · (3x + 1). 2 2 = 0 Analog erhält man für Y im Bereich 0 ≤ y ≤ 1 Z 1 fY (y) = 0.8 · (x + y + xy)dx 0 1 2 1 1 2 = 0.8 · x + xy + x y 2 2 0 = 0.4 · (3y + 1) = 0.4 · (3x + 1). Aufgabe c) Für die bedingte Dichte von X unter der Bedingung Y = y gilt für 0 ≤ x, y ≤ 1 0.8 · (x + y + xy) x + y + xy fXY (x, y) = =2 . fY (y) 0.4 · (3y + 1) 3y + 1 fX|Y (x|y) = Für die bedingte Dichte von Y unter der Bedingung X = x gilt für 0 ≤ x, y ≤ 1 fXY (x, y) 0.8 · (x + y + xy) x + y + xy = =2 . fX (x) 0.4 · (3x + 1) 3x + 1 fY |X (y|x) = Aufgabe d) Für die Kovarianz gilt allgemein Cov(X, Y ) = E(XY ) − E(X)E(Y ). Mit den zuvor errechneten Dichten erhält man Z ∞ Z E(X) = xfX (x)dx = 1 2 1 3 0.4x(3x + 1)dx = 0.4 x + x = 0.6 2 −∞ 0 0 Z ∞ Z 1 1 2 1 3 = 0.6 E(Y ) = yfY (y)dy = 0.4y(3y + 1)dy = 0.4 y + y 2 −∞ 0 0 Z ∞ Z 1Z 1 E(XY ) = xyfXY (x, y)dxdy = xy · 0.8 · (x + y + xy)dxdy 1 −∞ 0 0 1Z 1 Z (x2 y + xy 2 + x2 y 2 )dxdy Z 1 1 2 2 1 3 2 1 1 3 = 0.8 · x y+ x y + x y dy 3 2 3 0 0 1 2 5 3 1 4 = 0.8 y + y = 0.8 · 6 18 9 0 16 = 45 = 0.8 · 0 0 und daraus 16 Cov(X, Y ) = − 45 2 3 1 =− . 5 225 Aufgabe e) Es gilt: Z xZ y 0.8(u + v + uv)dudv = 0 1 2 1 2 v=y uv + v + v u du 2 2 0 v=0 Z x 1 1 uy + y 2 + y 2 u du 0.8 2 2 0 1 2 2 u=x 1 2 1 2 0.8 yu + y u + y u 2 2 4 u=0 1 2 1 2 1 2 2 0.8 x y + xy + x y 2 2 4 1 0.4xy x + y + xy . 2 Z 0 = = = = x Damit folgt: 0, für x, y < 0, 0.4xy(x + y + 21 xy), für x, y ∈ [0, 1], FX (x), für x ∈ [0, 1] ∧ y > 1, F (x, y) = F (y), für y ∈ [0, 1] ∧ x > 1, Y 1, für x, y > 1. Lösung Aufgabe 63 Herleitung des Erwartungswertes: Es gilt M N −M k=0 k k n−k N n Pn E(X) = . Wir ersetzen X durch X1 + . . . + XM , wobei 1, falls die i -te schwarze Kugel gezogen wird, i = 1, . . . , M Xi = 0, sonst, Aufgrund der Linearitätseigenschaft des Erwartungswertes gilt E(X) = E(X1 + . . . + XM ) = E(X1 ) + . . . + E(XM ). Xi ist nach seiner Definition bernoulliverteilt. Es gilt daher E(Xi ) = P (Xi = 1). Für die Eintrittswahrscheinlichkeit ergibt sich 1 1 P (Xi = 1) = = n . N N −1 n−1 N n Begründung: Wenn die i-te Kugel ohne Zurücklegen gezogen wird, dann gibt es für die übrigen n − 1 −1 Kugeln in der Stichprobe vom Umfang n genau N n−1 Möglichkeiten, diese aus den übrigen N − 1 Kugeln auszuwählen (ohne Berücksichtigung der Reihenfolge). Da dies für jede der insgesamt M schwarzen Kugeln gilt, erhält man für den Erwartungswert von X E(X) = M n . N Herleitung der Varianz: Wir wählen denselben Ansatz wie in (i), indem wir X als Summe von M Zufallsvariablen darstellen. Damit ergibt sich M X V ar(X) = V ar( Xi ) i=1 = M X V ar(Xi ) + i=1 M X Cov(Xi , Xj ), (1) i=1 i6=j mit Cov(Xi , Xj ) = E(Xi Xj ) − E(Xi )E(Xj ). Da Xi bernoulliverteilt ist, erhalten wir V ar(Xi ) = n n n(N − n) 1− = . N N N2 (2) Sei Zij := Xi Xj . Die Zufallsvariable Zij ist wieder bernoulliverteilt, da 1, falls die i -te und die j -te schwarze Kugel gezogen werden, Zij = i, j = 1, . . . , M, i 6= j 0, sonst, Es gilt E(Zij ) = P (Zij = 1) = P ({Xi = 1} ∩ {Xj = 1}) = P (Xi = 1, Xj = 1) 2 N −2 = = 2 n−2 N n n(n − 1) . N (N − 1) Damit erhalten wir Cov(Xi , Xj ) = = n(n − 1) n2 − 2 N (N − 1) N n(n − N ) . N 2 (N − 1) (3) Setzen wir (2) und (3) in (1) ein, so erhalten wir n(N − n) n(n − N ) + M (M − 1) 2 2 N N (N − 1) 2 2 M nN − M n (M − M )(n2 − N n) = + N2 N 2 (N − 1) nM (N 2 − nN + M n − M N ) = N 2 (N − 1) M M N −n = n 1− . N N N −1 V ar(X) = M Bemerkung: Es sind insgesamt M identische Varianzen und M (M − 1) identische Kovarianzen zu berücksichtigen. Lösung Aufgabe 64 Aufgabe a) Für n ≥ 0 gilt PX+Y (n) = P (X + Y = n) = = Unabh. = = = n X k=0 n X k=0 n X k=0 n X P (X = k, X + Y = n) P (X = k, Y = n − k) P (X = k)P (Y = n − k) λkX −λY λn−k Y e k! (n − k)! k=0 n e−(λX +λY ) X n k n−k λ λ n! k X Y e−λX k=0 = e−(λX +λY ) (λX + λY )n . n! X + Y ist daher poissonverteilt zum Parameter λX + λY . Aufgabe b) Für 0 ≤ k ≤ n gilt pX|X+Y (k|n) = = = Unabh. = = = = = P (X = k|X + Y = n) P (X = k, X + Y = n) P (X + Y = n) P (X = k, Y = n − k) P (X + Y = n) P (X = k)P (Y = n − k) P (X + Y = n) λkX −λY λn−k n! Y e −(λ +λ ) X Y k! (n − k)! e (λX + λY )n k n−k n λX λY k λX + λY λX + λY k n−k λY n λX λX + λY λX + λY k k n−k n λX λX 1− k λX + λY λX + λY e−λX X Die bedingte Verteilung von X gegeben X +Y ist eine Binomialverteilung zu den Parametern n, λXλ+λ . Y Lösung Aufgabe 65 Theorie: Seien X und Y zwei unabhängige, stetige Zufallsvariablen. Gesucht sind Verteilungs- und Dichtefunktion von X + Y . Z Z FX+Y (a) = P (X + Y ≤ a) = fX,Y (x, y)dxdy x+y≤a Z Z Unabh. fX (x)fY (y)dxdy = Z ∞ x+y≤a a−y Z = Z−∞ ∞ fX (x)dx fY (y)dy −∞ FX (a − y)fY (y)dy = −∞ =⇒ fX+Y (a) = d FX+Y (a) da Z ∞ d FX (a − y)fY (y)dy da −∞ Z ∞ d FX (a − y)fY (y)dy −∞ da Z ∞ fX (a − y)fY (y)dy = = = −∞ Bemerkung: fX+Y (a) wird auch als Faltungsdichte von X und Y bezeichnet. Zur eigentlichen Aufgabe: Dichtefunktion der Exponentialverteilung ist gegeben als λe−λx , x ≥ 0, fX (x) = 0, sonst. Damit ergibt sich ∞ Z fX (x − y)fY (y)dy, fX+Y (x) = x>0 Z−∞ x λe−λ(x−y) λe−λy dy 0 Z x 2 −λx dy = λ e = 0 2 −λx = λ e fX+Y (x) = 0, Z x x<0 x fX+Y (x − y)fZ (y)dy, fX+Y +Z (x) = Z0 x x>0 λ2 (x − y)e−λ(x−y) λe−λy dy 0 Z x = λ3 e−λx (x − y)dy 0 1 2 x 3 −λx = λ e xy − y 2 0 = x2 , 2 x<0 = λ3 e−λx fX+Y +Z (x) = 0, x≥0 Alternative Darstellung führt zu ( fX+Y +Z (x) = wobei Z Γ(s) = ∞ 3−1 λe−λx (λx) Γ(3) , x ≥ 0, 0, sonst, e−t ts−1 dt, s>0 0 die sog. Gammafunktion als Verallgemeinerung der Fakultät auf beliebige positive reelle Zahlen darstellt. Definition: Eine Zufallsvariable X heißt Gamma-verteilt“ zu den Parametern (s, λ), wenn X die Dichte ” ( s−1 λe−λx (λx) Γ(s) , x ≥ 0, f (x) = 0, sonst, besitzt. In der Aufgabe ist X + Y + Z Gamma-verteilt zu den Parametern (3, λ).