13 Mehrdimensionale Zufallsvariablen – Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem Abschnitt geben wir nun eine kurze Einführung in Zufallsexperimente, bei denen gleichzeitig zwei (oder auch mehr) Zufallsvariablen beobachtet werden. Wie stoßen in diesem Fall auf mehrdimensionale Wahrscheinlichkeitsverteilungen und beschreiben diese wiederrum durch Wahrscheinlichkeits- bzw. Dichtefunktionen oder durch die zugehörigen Verteilungsfunktionen, die in diesem Fall dann von mehreren Variablen abhängen. Definition 13.1. Wir nennen eine Abbildung X : Ω → Rn auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit der Eigenschaft (X ∈ B) ∈ A für alle B aus der σ-Algebra Bn der Borelschen Mengen auf Rn , einen Zufallsvektor oder eine n-dimensionale Zufallsvariable. Für jedes ω ∈ Ω ist der Wert X (ω) eines solchen Zufallsvektors ein Vektor, dessen Komponenten wir mit Xk (ω) bezeichnen X (ω) = X1 (ω), X2 (ω), . . . , Xn (ω) . Die dadurch festgelegten Funktionen Xk : Ω → R nennen wir die Komponenten des Zufallsvektors X und schreiben kurz X = (X1 , X2 , . . . , Xn ) . Für die Beziehung zwischen Zufallsvektoren und Zufallsvariablen gilt der folgende Satz, den wir nur zitieren aber nicht beweisen: Satz 13.2. Die Abbildung X = (X1 , X2 , . . . , Xn ) ist ein Zufallsvektor genau dann, wenn alle Komponenten Zufallsvariable sind. Man kann also stets eine beliebige Anzahl X1 , X2 , . . . , Xm von Zufallsvariablen zu einer vektorwertigen Funktion X = (X1 , . . . , Xm ) zusammen fassen und als Zufallsvektor behandeln. Die Wahrscheinlichkeitsverteilung eines Zufallsvektors X läßt sich vollständig durch die Verteilungsfunktion darstellen11 . 11 Für den Vergleich von Vektoren x, y ∈ Rn bezeichne im Weiteren x ≤ y die koordinatenweise Halbordnung xi ≤ yi für alle i = 1, . . . , n. 95 Definition 13.3. Ist X : Ω → Rn ein Zufallsvektor auf dem Wahrscheinlichkeitsraum (Ω, A, P ), so heißt die Funktion FX : Rn → R mit FX (x) := P (X ≤ x) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ) = = P n \ ! {ω ∈ Ω : Xi (ω) ≤ xi } , i=1 wobei x = (x1 , x2 , . . . , xn ) ∈ Rn , die Verteilungsfunktion des Zufallsvektors X . Dabei ist also P (X ≤ x) die Wahrscheinlichkeit dafür, dass alle Komponenten Xi , i = 1, 2, . . . , n, einen Wert kleiner oder gleich xi gleichzeitig annehmen. Man sagt auch, dass die Verteilungsfunktion FX die gemeinsame Verteilung der Zufallsvariablen Xi , i = 1, 2, . . . , n, beschreibt. Die Wahrscheinlichkeit des Ereignisses (X ∈ (a, b]), wobei a, b ∈ Rn und (a, b] ⊆ Rn ein achsenparalleler Quader ist, ergibt sich mit FX durch geeignete mengenalgebraische Darstellungen von (a, b]. Zum Beispiel im R2 gilt es P (X ∈ (a, b]) = FX (b1 , b2 ) − FX (a1 , b2 ) − FX (b1 , a2 ) + FX (a1 , a2 ) für (a, b] = (a1 , b1 ] × (a2 , b2 ]. Sind die alle Zufallsvariablen Xi , i = 1, 2, . . . , n, stetig, so gilt diese Formel auch für den abgeschlossenen Quader [a, b]. Definition 13.4. Die Verteilungen PXi der Komponenten Xi des Zufallsvektors X , i = 1, . . . , n, mit den zugehörigen Verteilungsfunktionen FXi : R → R FXi (t) := P (Xi ≤ t, Xj ∈ R) für j 6= i nennen wir eindimensionale Randverteilungen (Marginalverteilungen) von X . Im Kapitel über diskrete Wahrscheinlichkeitsräume haben wir die stochastische Unabhängigkeit für diskrete Zufallsvariablen definiert (s. Def. 7.11). Jetzt wollen wir diese Definition allgemeiner formulieren. Definition 13.5. Die Zufallsvariablen X1 , X2 , . . . , Xn auf einem Wahrscheinlichkeitsraum (Ω, A, P ) heißen stochastisch unabhängig, wenn für beliebige Teilmengen A1 , A2 , . . . , An ∈ B gilt die Produktregel h i P (X1 ∈ A1 ) ∩ (X2 ∈ A2 ) ∩ . . . ∩ (Xn ∈ An ) = = P (X1 ∈ A1 ) · P (X2 ∈ A2 ) · . . . · P (Xn ∈ An ) . Ist die obige Produktregel jedoch nicht erfüllt, so heißen die Zufallsvariablen stochastisch abhängig. 96 Aus der Tatsache, dass man die Intervalle (−∞, xi ], xi ∈ R, als erzeugendes System der Borel-Algebra B von R benutzt kann, resultiert die folgende Aussage. Satz 13.6. Es sei X = (X1 , X2 , . . . , Xn ) ein Zufallsvektor. Die Zufallsvariablen (Komponenten) X1 , X2 , . . . , Xn sind genau dann stochastisch unabhängig, wenn auf Rn die Bedingung FX (x1 , x2 , . . . , xn ) = FX1 (x1 ) · FX2 (x2 ) · . . . · FXn (xn ) erfüllt ist. Bei Unabhängigkeit ist also die Verteilung des Zufallsvektors X durch die Randverteilungen der Komponenten Xi bestimmt. In der Praxis ist es oft sehr mühsam und schwierig, die stochastische Unabhängigkeit zweier Zufallsvariabler anhand der obigen Bedingung nachzuweisen. In vielen Fällen jedoch läßt sich die Unabhängigkeit logisch begründen. Bei den weiteren Überlegungen unterscheiden wir noch, ob die Komponenten des Zufallsvektors X alle diskret oder stetig sind. Die entsprechenden mehrdimensionalen Verteilungen werden dann als diskrete bzw. stetige Verteilungen bezeichnet. Um im Weiteren die Vorgehenweise besser zu verdeutlichen, beschränken wir auf den Fall n = 2, d.h. X = (X, Y )t . 13.1 Verteilung diskreter Zufallsvektoren Die Verteilung eines diskreten Zufallsvektors X = (X, Y ) auf einer höchstens abzählbar unendlichen Menge ΩX = {(xj , yk ) ∈ R2 : (j, k) ∈ M ⊆ N2 } ⊂ R2 ist festgelegt durch die Einzelwahrscheinlichkeiten pjk := P (X = (xj , yk )) = P (X = xj , Y = yk ) für jeden Punkt (xj , yk ) ∈ WX , oder äquivalent durch die wie folgt definierte Wahrscheinlichkeitsfunktion pjk für (x, y) = (xj , yk ) ∈ ΩX , f (x, y) := 0 sonst. Es ist stets f (x, y) ≥ 0 und X f (x, y) = X pjk = 1. j,k Im zweidimensionalen Fall kann man die Verteilung von X in einer Matrixtabelle (zweidimensionale Verteilungstabelle) veranschaulichen. 97 Beispiel 13.7. Die Verteilungstabelle des diskreten zweidimensionalen Zufallsvektors (X, Y ) laute X Y y1 = 0 y2 = 1 x1 = 0 p11 = 1 8 p12 = 2 8 x2 = 1 p21 = 0 p22 = 1 8 y3 = 2 y4 = 3 p13 = 1 8 p14 = 0 p23 = 2 8 p24 = Die Verteilungsfunktion erhalten wir dann durch die Vorschrift X F (x, y) = P (X ≤ (x, y)) = P (X = (xj , yk )) = xj ≤x, yk ≤y 1 8 X pjk . xj ≤x, yk ≤y Satz 13.8. Die Verteilungsfunktion F der zweidimensionalen Zufallsvektors X hat folgende Eigenschaften ❶ ❷ lim F (x, y) = x→−∞ lim F (x, y) = 0; y→−∞ lim F (x, y) = 1; x→∞ y→∞ ❸ x 7→ F (x, y) für festes y und y 7→ F (x, y) für festes x sind monoton wachsend auf R; ❹ x 7→ F (x, y) für festes y und y 7→ F (x, y) für festes x sind rechtsseitig stetig auf R. Die Einzelwahrscheinlichkeiten P (X = xj ), bzw. P (Y = yk ) der eindimensionalen Randverteilungen von X erhalten wir durch die Aufsummierung über alle pjk bei denen der erste Index gleich j, bzw. der zweite Index gleich k ist, d.h. P (X = xj ) = ∞ X P (X = xj , Y = yk ) = P (Y = yk ) = pjk =: pj• , k=1 k=1 ∞ X ∞ X P (X = xj , Y = yk ) = ∞ X pjk =: p•k . j=1 j=1 Beispiel 13.9. Die Randverteilungen des diskreten zweidimensionalen Zufallsvektors (X, Y ) erhält man, indem man in der Verteilungstabelle (s. Bsp. 13.7) die Einzelwahrscheinlichkeiten pjk zeilen- bzw. spaltenweise aufaddiert. X Y y1 = 0 x1 = 0 p11 = 1 8 p12 = 2 8 x2 = 1 p21 = 0 p22 = 1 8 p•2 = f (x, yk ) = p•k p•1 = y2 = 1 y3 = 2 y4 = 3 p13 = 1 8 p14 = 0 p1• = 1 2 1 8 p23 = 2 8 p24 = 1 8 p2• = 1 2 3 8 p•3 = 3 8 p•4 = 1 8 98 f (xj , y) = pj• Die zugehörigen Verteilungstabellen der Randverteilungen lauten somit xj x1 = 0 x2 = 1 fX (xj ) = pj• 1 2 1 2 und yk y1 = 0 y2 = 1 y3 = 2 y4 = 3 fY (yk ) = p•k 1 8 3 8 3 8 1 8 Sei X = (X, Y ) ein Zufallsvektor mit stochastisch unabhängigen Komponenten X und Y , so gilt für die zugehörigen Wahrscheinlichkeitsfunktionen, bzw. die zugehörigen Einzelwahrscheinlichkeiten die folgende Beziehung f (x, y) = fX (x) · fY (y), bzw. pjk = pj• · p•k für alle (x, y) ∈ R2 , bzw. alle (j, k) ∈ M. Sie ist eine notwendige und hinreichende Bedingung für die stochastische Unabhängigkeit der Zufallsvariablen X und Y . Beispiel 13.10. Betrachten wir den Zufallsvektor (X, Y ) aus dem Beispiel 13.9 und überprüfen wir die stochastische Unabhängigkeit der Komponenten. Da 1 1 1 1 = p11 6= p1• · p•1 = · = 8 2 8 16 ist die hinreichende Bedingung pjk = pj• · p•k nicht erfüllt. Die beiden Zufallsvariablen X und Y sind daher stochastisch abhängig. 13.2 Verteilung stetiger Zufallsvektoren Definition 13.11. Es sei X : Ω → R2 ein Zufallsvektor. Wenn es eine auf R2 nichtnegative und integrierbare Funktion f mit ZZ F (x, y) = P (X ≤ (x, y)) = f (s, t) ds dt {(s,t): s≤x, t≤y} gibt, dann heißt der Zufallsvektor stetig verteilt. Die Funktion f heißt Dichte der Verteilung von X . Es gilt somit ZZ f (x, y) dx dy = 1 R2 99 und für eine borelsche Menge A des R2 , d.h. A ∈ B2 , folgt ZZ ZZ P (X ∈ A) = f (x, y) dx dy = 1A · f (x, y) dx dy. R2 A Die Abschließung offener Mengen A hat die gleiche Wahrscheinlichkeit wie die Menge A selbst, da der Rand einer offenen Menge bei der Integration keinen Beitrag liefert. Analog zu den diskreten Verteilungen erhalten wir auch hier die eindimensionalen Randverteilungen für X bzw. Y durch die Randverteilungsfunktionen FX (x) = P (X ≤ x) bzw. FY (y) = P (Y ≤ y). Nach geeigneter Verteuschung der Integrationsreihenfolge bekommt man Z x Z ∞ Z y Z ∞ FX (x) = f (s, t) dt ds bzw. FY (y) = f (s, t) ds dt. −∞ −∞ −∞ −∞ Die Randverteilungen der Zufallsvariablen X bzw. Y besitzen daher die folgenden Dichtefunktionen Z ∞ Z ∞ fX (x) = f (x, y) dy bzw. fY (x) = f (x, y) dx. −∞ −∞ Beispiel 13.12. Die Dichtefunktion des zweidimensionalen Zufallsvektors (X, Y ) laute −2x−3y ce für x > 0, y > 0; f (x, y) = 0 sonst. Zuerst bestimmen wir die Konstante c aus der Normierungsbedingung ZZ Z +∞ Z +∞ −2x−3y f (x, y) dx dy = c e dx dy = 1. R2 0 Wir erhalten Z +∞ Z +∞ Z −2x−3y c e dx dy = c 0 0 0 +∞ −2x e dx · 0 Z +∞ e−3y dy = c · 0 c −1 −1 · = = 1 2 3 6 Somit ist c = 6. Die Verteilungsfunktion läßt sich damit für x > 0, y > 0 durch das folgende Doppelintegral darstellen ZZ Z x Z y −2s−3t F (x, y) = f (s, t) ds dt = 6 e dt ds = {(s,t): s≤x, t≤y} 0 0 x y x y −1 −2s −1 −3t −2s −3t = 6 e ds · e dt = 6 · e · e = 2 3 0 0 0 0 = e−2x − 1 · e−3y − 1 Z Z 100 und für alle andere (x, y) ist die Verteilungsfunktion F (x, y) = 0, d.h. −2x (e − 1) · (e−3y − 1) für x > 0, y > 0; F (x, y) = 0 sonst. Die Wahrscheinlichkeit P (1 < X < 2, −1 < Y < 1) kann man bestimmen mit Hilfe der Dichtefunktion ZZ Z 2 Z 1 −2x−3y f (x, y) dx dy = 6 e dy dx (1,2)×(−1,1) 1 0 oder, einfacher, mit der gerade berechneten Verteilungsfunktion P (1 < X < 2, −1 < Y < 1) = F (2, 1) − F (1, 1) − F (2, −1) + F (1, −1) = | {z } | {z } =0 −4 = (e −3 − 1) · (e −2 − 1) − (e =0 − 1) · (e−3 − 1) = = e−7 − e−5 − e−4 + e−2 . Wir bestimmen noch die Dichtefunktionen der Randverteilungen der beiden Komponenten X und Y in dieser zweidimensionalen Verteilung. Für x > 0 erhält man Z ∞ Z ∞ fX (x) = f (x, y) dy = 6 e−2x · e−3y dy = −∞ −2x = 6e 0 Z ∞ −3y e −2x dy = 6e 0 somit ist fX (x) = Analog kann man berechnen, dass fY (y) = +∞ −1 −3y = 2e−2x · e 3 0 2e−2x für x > 0; 0 sonst. 3e−3y für y > 0; 0 sonst. Sei X = (X, Y ) ein Zufallsvektor mit stochastisch unabhängigen Komponenten X und Y , so gilt für die zugehörigen Dichtefunktionen die folgende Beziehung f (x, y) = fX (x) · fY (y) für alle (x, y) ∈ R2 . Sie ist eine notwendige und hinreichende Bedingung für die stochastische Unabhängigkeit der Zufallsvariablen X und Y . Beispiel 13.13. Betrachten wir den Zufallsvektor (X, Y ) aus dem Beispiel 13.12. Die Komponenten X und Y sind stochastisch unabhängig, da für x > 0 und y > 0 folgt 6e−2x · e−3y = 2e−2x · 3e−3y und für alle andere (x, y) sind die Funktionen gleich Null. 101 13.3 Erwartungswert, Kovarianz Den Erwartungswert von X setzt sich aus den Erwartungswerten der Randverteilungen zusammen, d.h. Z E (X ) := x dF (x) = (E (X1 ) , . . . , E (Xn )) . Rn Bei der Varianz ist es etwas komplizierter. Definition 13.14. Sei X = (X, Y ) ein Zufallsvektor, dessen Komponenten X bzw. Y 2 den Erwartungswert µX bzw. µY und die Varianz σX bzw. σY2 haben. Dann heißt cov(X, Y ) = σXY := E ((X − µX ) · (Y − µY )) Kovarianz von X und Y . Die Zahl cov(X, Y ) σX · σY ist bei σX · σY > 0 definiert und heißt Korrelationskoeffizient von X und Y . ρXY = ρ(X, Y ) := Ist cov(X, Y ) = 0, so heißen die Zufallsvariablen X und Y unkorreliert. Ist X = Y , dann ergibt sich cov(X, X) = E (X − µX )2 = V (X). Varianzen und Kovarianzen fasst man zu einer symmetrischen und positiv semidefiniten Kovarianzmatrix zusammen ! V (X) cov(X, Y ) CX = . cov(Y, X) V (Y ) Mit den vorher eingeführten algebraischen Rechenregeln für den Erwartungswert läßt sich die Formel für die Kovarianz etwas vereinfachen. Es ist cov(X, Y ) = E ((X − µX ) · (Y − µX )) = = E (X · Y ) − µX · E(Y ) − µY · E(X) + µX · µY = = E(X · Y ) − E(X) · E(Y ). Sind die Zufallsvariablen X und Y stochastisch unabhängig, so gilt nach der Produktregel für Erwartungswerte cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) = E(X) · E(Y ) − E(X) · E(Y ) = 0, d.h. stochastisch unabhängige Zufallsvariablen sind stets unkorreliert. 102 Warnung: Die Umkehrung dieser Aussage ist nicht immer richtig! Aus cov(X, Y ) = 0 folgt normalerweise nicht, dass die beiden Zufallsvariablen X und Y stochastisch unabhängig sind. Für die Varianz der Summe X + Y hat man die sog. Additionsregel für die Varianzen V (X + Y ) = V (X) + cov(X, Y ) + V (Y ), die in dem Sonderfall stochastisch unabhängiger Zufallsvariablen nimmt die spezielle Form V (X + Y ) = V (X) + V (Y ). Der Korrelationskoeffizient ρXY der Zufallsvariablen X und Y besitzt folgende Eigenschaften ❶ Unmittelbar aus der Cauchy-Schwarzschen Ungleichung folgt, dass der Korrelationskoeffizient ρXY der Zufallsvariablen X und Y nur Werte aus dem Intervall [−1, 1] annehmen kann: −1 ≤ ρXY ≤ 1. ❷ Die mittlere Standardabweichung E (Y − aX − b)2 von Y zu einer linearen Abbildung aX + b der Zufallsvariable X ist genau dann minimal, wenn a = cov(X, Y ) V (X) und b = E(Y ) − aE(X). Die minimale Abweichung ergibt sich dabei zu min E (Y − aX − b)2 = 1 − ρ2XY V (Y ). a,b ❸ Zwischen den Zufallsvariablen X und Y besteht genau dann eine lineare Beziehung vom Typ Y = aX + b, wenn |ρXY | = 1 ist, dabei sgn(a) = sgn (ρXY ). ❹ Ist ρXY = 0, dann bedeutet dies lediglich, dass zwischen den beiden Zufallsvariablen keine lineare Abhängigkeit besteht. Sie können aber in diesem Fall durchaus eine nichtlineare stochastische Bindung haben. Die oben aus dem Zufallsvektor X = (X, Y ) bestimmte Gerade y = ax + b heißt Regressionsgerade von Y bzgl. X. Die Koeffizienten a, b heißen Regressionskoeffizienten. 103