13 Mehrdimensionale Zufallsvariablen – Zufallsvek

Werbung
13
Mehrdimensionale Zufallsvariablen – Zufallsvektoren
Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem Abschnitt geben wir
nun eine kurze Einführung in Zufallsexperimente, bei denen gleichzeitig zwei (oder auch
mehr) Zufallsvariablen beobachtet werden. Wie stoßen in diesem Fall auf mehrdimensionale Wahrscheinlichkeitsverteilungen und beschreiben diese wiederrum durch Wahrscheinlichkeits- bzw. Dichtefunktionen oder durch die zugehörigen Verteilungsfunktionen, die in
diesem Fall dann von mehreren Variablen abhängen.
Definition 13.1. Wir nennen eine Abbildung X : Ω → Rn auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit der Eigenschaft
(X ∈ B) ∈ A
für alle B aus der σ-Algebra Bn der Borelschen Mengen auf Rn , einen Zufallsvektor oder
eine n-dimensionale Zufallsvariable.
Für jedes ω ∈ Ω ist der Wert X (ω) eines solchen Zufallsvektors ein Vektor, dessen Komponenten wir mit Xk (ω) bezeichnen
X (ω) =
X1 (ω), X2 (ω), . . . , Xn (ω) .
Die dadurch festgelegten Funktionen Xk : Ω → R nennen wir die Komponenten des
Zufallsvektors X und schreiben kurz
X = (X1 , X2 , . . . , Xn ) .
Für die Beziehung zwischen Zufallsvektoren und Zufallsvariablen gilt der folgende Satz,
den wir nur zitieren aber nicht beweisen:
Satz 13.2. Die Abbildung X = (X1 , X2 , . . . , Xn ) ist ein Zufallsvektor genau dann, wenn
alle Komponenten Zufallsvariable sind.
Man kann also stets eine beliebige Anzahl X1 , X2 , . . . , Xm von Zufallsvariablen zu einer vektorwertigen Funktion X = (X1 , . . . , Xm ) zusammen fassen und als Zufallsvektor
behandeln.
Die Wahrscheinlichkeitsverteilung eines Zufallsvektors X läßt sich vollständig durch die
Verteilungsfunktion darstellen11 .
11
Für den Vergleich von Vektoren x, y ∈ Rn bezeichne im Weiteren x ≤ y die koordinatenweise Halbordnung xi ≤ yi für alle i = 1, . . . , n.
95
Definition 13.3. Ist X : Ω → Rn ein Zufallsvektor auf dem Wahrscheinlichkeitsraum
(Ω, A, P ), so heißt die Funktion FX : Rn → R mit
FX (x) := P (X ≤ x) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ) =
= P
n
\
!
{ω ∈ Ω : Xi (ω) ≤ xi } ,
i=1
wobei x = (x1 , x2 , . . . , xn ) ∈ Rn , die Verteilungsfunktion des Zufallsvektors X .
Dabei ist also P (X ≤ x) die Wahrscheinlichkeit dafür, dass alle Komponenten Xi , i =
1, 2, . . . , n, einen Wert kleiner oder gleich xi gleichzeitig annehmen.
Man sagt auch, dass die Verteilungsfunktion FX die gemeinsame Verteilung der Zufallsvariablen Xi , i = 1, 2, . . . , n, beschreibt.
Die Wahrscheinlichkeit des Ereignisses (X ∈ (a, b]), wobei a, b ∈ Rn und (a, b] ⊆ Rn
ein achsenparalleler Quader ist, ergibt sich mit FX durch geeignete mengenalgebraische
Darstellungen von (a, b]. Zum Beispiel im R2 gilt es
P (X ∈ (a, b]) = FX (b1 , b2 ) − FX (a1 , b2 ) − FX (b1 , a2 ) + FX (a1 , a2 )
für (a, b] = (a1 , b1 ] × (a2 , b2 ].
Sind die alle Zufallsvariablen Xi , i = 1, 2, . . . , n, stetig, so gilt diese Formel auch für den
abgeschlossenen Quader [a, b].
Definition 13.4. Die Verteilungen PXi der Komponenten Xi des Zufallsvektors X , i =
1, . . . , n, mit den zugehörigen Verteilungsfunktionen FXi : R → R
FXi (t) := P (Xi ≤ t, Xj ∈ R)
für j 6= i
nennen wir eindimensionale Randverteilungen (Marginalverteilungen) von X .
Im Kapitel über diskrete Wahrscheinlichkeitsräume haben wir die stochastische Unabhängigkeit für diskrete Zufallsvariablen definiert (s. Def. 7.11). Jetzt wollen wir diese
Definition allgemeiner formulieren.
Definition 13.5. Die Zufallsvariablen X1 , X2 , . . . , Xn auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) heißen stochastisch unabhängig, wenn für beliebige Teilmengen A1 , A2 , . . . , An ∈
B gilt die Produktregel
h
i
P (X1 ∈ A1 ) ∩ (X2 ∈ A2 ) ∩ . . . ∩ (Xn ∈ An ) =
= P (X1 ∈ A1 ) · P (X2 ∈ A2 ) · . . . · P (Xn ∈ An ) .
Ist die obige Produktregel jedoch nicht erfüllt, so heißen die Zufallsvariablen stochastisch
abhängig.
96
Aus der Tatsache, dass man die Intervalle (−∞, xi ], xi ∈ R, als erzeugendes System der
Borel-Algebra B von R benutzt kann, resultiert die folgende Aussage.
Satz 13.6. Es sei X = (X1 , X2 , . . . , Xn ) ein Zufallsvektor. Die Zufallsvariablen (Komponenten) X1 , X2 , . . . , Xn sind genau dann stochastisch unabhängig, wenn auf Rn die
Bedingung
FX (x1 , x2 , . . . , xn ) = FX1 (x1 ) · FX2 (x2 ) · . . . · FXn (xn )
erfüllt ist.
Bei Unabhängigkeit ist also die Verteilung des Zufallsvektors X durch die Randverteilungen der Komponenten Xi bestimmt.
In der Praxis ist es oft sehr mühsam und schwierig, die stochastische Unabhängigkeit zweier Zufallsvariabler anhand der obigen Bedingung nachzuweisen. In vielen Fällen jedoch
läßt sich die Unabhängigkeit logisch begründen.
Bei den weiteren Überlegungen unterscheiden wir noch, ob die Komponenten des Zufallsvektors X alle diskret oder stetig sind. Die entsprechenden mehrdimensionalen Verteilungen werden dann als diskrete bzw. stetige Verteilungen bezeichnet.
Um im Weiteren die Vorgehenweise besser zu verdeutlichen, beschränken wir auf den Fall
n = 2, d.h. X = (X, Y )t .
13.1
Verteilung diskreter Zufallsvektoren
Die Verteilung eines diskreten Zufallsvektors X = (X, Y ) auf einer höchstens abzählbar
unendlichen Menge ΩX = {(xj , yk ) ∈ R2 : (j, k) ∈ M ⊆ N2 } ⊂ R2 ist festgelegt durch
die Einzelwahrscheinlichkeiten
pjk := P (X = (xj , yk )) = P (X = xj , Y = yk )
für jeden Punkt (xj , yk ) ∈ WX , oder äquivalent durch die wie folgt definierte Wahrscheinlichkeitsfunktion
pjk für (x, y) = (xj , yk ) ∈ ΩX ,
f (x, y) :=
0 sonst.
Es ist stets f (x, y) ≥ 0 und
X
f (x, y) =
X
pjk = 1.
j,k
Im zweidimensionalen Fall kann man die Verteilung von X in einer Matrixtabelle (zweidimensionale Verteilungstabelle) veranschaulichen.
97
Beispiel 13.7. Die Verteilungstabelle des diskreten zweidimensionalen Zufallsvektors
(X, Y ) laute
X Y
y1 = 0
y2 = 1
x1 = 0
p11 =
1
8
p12 =
2
8
x2 = 1
p21 = 0
p22 =
1
8
y3 = 2
y4 = 3
p13 =
1
8
p14 = 0
p23 =
2
8
p24 =
Die Verteilungsfunktion erhalten wir dann durch die Vorschrift
X
F (x, y) = P (X ≤ (x, y)) =
P (X = (xj , yk )) =
xj ≤x, yk ≤y
1
8
X
pjk .
xj ≤x, yk ≤y
Satz 13.8. Die Verteilungsfunktion F der zweidimensionalen Zufallsvektors X hat folgende Eigenschaften
❶
❷
lim F (x, y) =
x→−∞
lim F (x, y) = 0;
y→−∞
lim F (x, y) = 1;
x→∞
y→∞
❸
x 7→ F (x, y) für festes y und y 7→ F (x, y) für festes x sind monoton wachsend
auf R;
❹
x 7→ F (x, y) für festes y und y 7→ F (x, y) für festes x sind rechtsseitig stetig auf R.
Die Einzelwahrscheinlichkeiten P (X = xj ), bzw. P (Y = yk ) der eindimensionalen Randverteilungen von X erhalten wir durch die Aufsummierung über alle pjk bei denen der
erste Index gleich j, bzw. der zweite Index gleich k ist, d.h.
P (X = xj ) =
∞
X
P (X = xj , Y = yk ) =
P (Y = yk ) =
pjk =: pj• ,
k=1
k=1
∞
X
∞
X
P (X = xj , Y = yk ) =
∞
X
pjk =: p•k .
j=1
j=1
Beispiel 13.9. Die Randverteilungen des diskreten zweidimensionalen Zufallsvektors
(X, Y ) erhält man, indem man in der Verteilungstabelle (s. Bsp. 13.7) die Einzelwahrscheinlichkeiten pjk zeilen- bzw. spaltenweise aufaddiert.
X Y
y1 = 0
x1 = 0
p11 =
1
8
p12 =
2
8
x2 = 1
p21 = 0
p22 =
1
8
p•2 =
f (x, yk ) = p•k
p•1 =
y2 = 1
y3 = 2
y4 = 3
p13 =
1
8
p14 = 0
p1• =
1
2
1
8
p23 =
2
8
p24 =
1
8
p2• =
1
2
3
8
p•3 =
3
8
p•4 =
1
8
98
f (xj , y) = pj•
Die zugehörigen Verteilungstabellen der Randverteilungen lauten somit
xj
x1 = 0
x2 = 1
fX (xj ) = pj•
1
2
1
2
und
yk
y1 = 0
y2 = 1
y3 = 2
y4 = 3
fY (yk ) = p•k
1
8
3
8
3
8
1
8
Sei X = (X, Y ) ein Zufallsvektor mit stochastisch unabhängigen Komponenten X und
Y , so gilt für die zugehörigen Wahrscheinlichkeitsfunktionen, bzw. die zugehörigen Einzelwahrscheinlichkeiten die folgende Beziehung
f (x, y) = fX (x) · fY (y),
bzw. pjk = pj• · p•k
für alle (x, y) ∈ R2 , bzw. alle (j, k) ∈ M.
Sie ist eine notwendige und hinreichende Bedingung für die stochastische Unabhängigkeit
der Zufallsvariablen X und Y .
Beispiel 13.10. Betrachten wir den Zufallsvektor (X, Y ) aus dem Beispiel 13.9 und
überprüfen wir die stochastische Unabhängigkeit der Komponenten.
Da
1
1 1
1
= p11 6= p1• · p•1 = · =
8
2 8
16
ist die hinreichende Bedingung pjk = pj• · p•k nicht erfüllt. Die beiden Zufallsvariablen
X und Y sind daher stochastisch abhängig.
13.2
Verteilung stetiger Zufallsvektoren
Definition 13.11. Es sei X : Ω → R2 ein Zufallsvektor. Wenn es eine auf R2 nichtnegative
und integrierbare Funktion f mit
ZZ
F (x, y) = P (X ≤ (x, y)) =
f (s, t) ds dt
{(s,t): s≤x, t≤y}
gibt, dann heißt der Zufallsvektor stetig verteilt.
Die Funktion f heißt Dichte der Verteilung von X .
Es gilt somit
ZZ
f (x, y) dx dy = 1
R2
99
und für eine borelsche Menge A des R2 , d.h. A ∈ B2 , folgt
ZZ
ZZ
P (X ∈ A) =
f (x, y) dx dy =
1A · f (x, y) dx dy.
R2
A
Die Abschließung offener Mengen A hat die gleiche Wahrscheinlichkeit wie die Menge A
selbst, da der Rand einer offenen Menge bei der Integration keinen Beitrag liefert.
Analog zu den diskreten Verteilungen erhalten wir auch hier die eindimensionalen Randverteilungen für X bzw. Y durch die Randverteilungsfunktionen
FX (x) = P (X ≤ x)
bzw.
FY (y) = P (Y ≤ y).
Nach geeigneter Verteuschung der Integrationsreihenfolge bekommt man
Z x Z ∞
Z y Z ∞
FX (x) =
f (s, t) dt ds
bzw.
FY (y) =
f (s, t) ds dt.
−∞
−∞
−∞
−∞
Die Randverteilungen der Zufallsvariablen X bzw. Y besitzen daher die folgenden Dichtefunktionen
Z ∞
Z ∞
fX (x) =
f (x, y) dy
bzw.
fY (x) =
f (x, y) dx.
−∞
−∞
Beispiel 13.12. Die Dichtefunktion des zweidimensionalen Zufallsvektors (X, Y ) laute
−2x−3y
ce
für x > 0, y > 0;
f (x, y) =
0 sonst.
Zuerst bestimmen wir die Konstante c aus der Normierungsbedingung
ZZ
Z +∞ Z +∞
−2x−3y
f (x, y) dx dy = c
e
dx dy = 1.
R2
0
Wir erhalten
Z +∞ Z +∞
Z
−2x−3y
c
e
dx dy = c
0
0
0
+∞
−2x
e
dx ·
0
Z
+∞
e−3y dy = c ·
0
c
−1 −1
·
=
= 1
2
3
6
Somit ist c = 6.
Die Verteilungsfunktion läßt sich damit für x > 0, y > 0 durch das folgende Doppelintegral
darstellen
ZZ
Z x Z y
−2s−3t
F (x, y) =
f (s, t) ds dt = 6
e
dt ds =
{(s,t): s≤x, t≤y}
0
0
x
y
x
y
−1 −2s −1 −3t −2s
−3t
= 6
e ds ·
e dt = 6 ·
e ·
e =
2
3
0
0
0
0
= e−2x − 1 · e−3y − 1
Z
Z
100
und für alle andere (x, y) ist die Verteilungsfunktion F (x, y) = 0, d.h.
−2x
(e
− 1) · (e−3y − 1) für x > 0, y > 0;
F (x, y) =
0 sonst.
Die Wahrscheinlichkeit P (1 < X < 2, −1 < Y < 1) kann man bestimmen mit Hilfe der
Dichtefunktion
ZZ
Z 2 Z 1
−2x−3y
f (x, y) dx dy = 6
e
dy dx
(1,2)×(−1,1)
1
0
oder, einfacher, mit der gerade berechneten Verteilungsfunktion
P (1 < X < 2, −1 < Y < 1) = F (2, 1) − F (1, 1) − F (2, −1) + F (1, −1) =
| {z } | {z }
=0
−4
= (e
−3
− 1) · (e
−2
− 1) − (e
=0
− 1) · (e−3 − 1) =
= e−7 − e−5 − e−4 + e−2 .
Wir bestimmen noch die Dichtefunktionen der Randverteilungen der beiden Komponenten
X und Y in dieser zweidimensionalen Verteilung.
Für x > 0 erhält man
Z ∞
Z ∞
fX (x) =
f (x, y) dy = 6
e−2x · e−3y dy =
−∞
−2x
= 6e
0
Z
∞
−3y
e
−2x
dy = 6e
0
somit ist
fX (x) =
Analog kann man berechnen, dass
fY (y) =
+∞
−1 −3y = 2e−2x
·
e 3
0
2e−2x für x > 0;
0 sonst.
3e−3y für y > 0;
0 sonst.
Sei X = (X, Y ) ein Zufallsvektor mit stochastisch unabhängigen Komponenten X und Y ,
so gilt für die zugehörigen Dichtefunktionen die folgende Beziehung
f (x, y) = fX (x) · fY (y)
für alle (x, y) ∈ R2 .
Sie ist eine notwendige und hinreichende Bedingung für die stochastische Unabhängigkeit
der Zufallsvariablen X und Y .
Beispiel 13.13. Betrachten wir den Zufallsvektor (X, Y ) aus dem Beispiel 13.12. Die
Komponenten X und Y sind stochastisch unabhängig, da für x > 0 und y > 0 folgt
6e−2x · e−3y = 2e−2x · 3e−3y
und für alle andere (x, y) sind die Funktionen gleich Null.
101
13.3
Erwartungswert, Kovarianz
Den Erwartungswert von X setzt sich aus den Erwartungswerten der Randverteilungen
zusammen, d.h.
Z
E (X ) :=
x dF (x) = (E (X1 ) , . . . , E (Xn )) .
Rn
Bei der Varianz ist es etwas komplizierter.
Definition 13.14. Sei X = (X, Y ) ein Zufallsvektor, dessen Komponenten X bzw. Y
2
den Erwartungswert µX bzw. µY und die Varianz σX
bzw. σY2 haben.
Dann heißt
cov(X, Y ) = σXY := E ((X − µX ) · (Y − µY ))
Kovarianz von X und Y .
Die Zahl
cov(X, Y )
σX · σY
ist bei σX · σY > 0 definiert und heißt Korrelationskoeffizient von X und Y .
ρXY = ρ(X, Y ) :=
Ist cov(X, Y ) = 0, so heißen die Zufallsvariablen X und Y unkorreliert.
Ist X = Y , dann ergibt sich
cov(X, X) = E (X − µX )2
= V (X).
Varianzen und Kovarianzen fasst man zu einer symmetrischen und positiv semidefiniten
Kovarianzmatrix zusammen
!
V (X)
cov(X, Y )
CX =
.
cov(Y, X)
V (Y )
Mit den vorher eingeführten algebraischen Rechenregeln für den Erwartungswert läßt sich
die Formel für die Kovarianz etwas vereinfachen. Es ist
cov(X, Y ) = E ((X − µX ) · (Y − µX )) =
= E (X · Y ) − µX · E(Y ) − µY · E(X) + µX · µY =
= E(X · Y ) − E(X) · E(Y ).
Sind die Zufallsvariablen X und Y stochastisch unabhängig, so gilt nach der Produktregel
für Erwartungswerte
cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) = E(X) · E(Y ) − E(X) · E(Y ) = 0,
d.h. stochastisch unabhängige Zufallsvariablen sind stets unkorreliert.
102
Warnung: Die Umkehrung dieser Aussage ist nicht immer richtig! Aus cov(X, Y ) = 0
folgt normalerweise nicht, dass die beiden Zufallsvariablen X und Y stochastisch unabhängig sind.
Für die Varianz der Summe X + Y hat man die sog. Additionsregel für die Varianzen
V (X + Y ) = V (X) + cov(X, Y ) + V (Y ),
die in dem Sonderfall stochastisch unabhängiger Zufallsvariablen nimmt die spezielle Form
V (X + Y ) = V (X) + V (Y ).
Der Korrelationskoeffizient ρXY der Zufallsvariablen X und Y besitzt folgende Eigenschaften
❶ Unmittelbar aus der Cauchy-Schwarzschen Ungleichung folgt, dass der Korrelationskoeffizient ρXY der Zufallsvariablen X und Y nur Werte aus dem Intervall [−1, 1]
annehmen kann:
−1 ≤ ρXY ≤ 1.
❷ Die mittlere Standardabweichung E (Y − aX − b)2 von Y zu einer linearen Abbildung aX + b der Zufallsvariable X ist genau dann minimal, wenn
a =
cov(X, Y )
V (X)
und
b = E(Y ) − aE(X).
Die minimale Abweichung ergibt sich dabei zu
min E (Y − aX − b)2 = 1 − ρ2XY V (Y ).
a,b
❸ Zwischen den Zufallsvariablen X und Y besteht genau dann eine lineare Beziehung
vom Typ Y = aX + b, wenn |ρXY | = 1 ist, dabei sgn(a) = sgn (ρXY ).
❹ Ist ρXY = 0, dann bedeutet dies lediglich, dass zwischen den beiden Zufallsvariablen
keine lineare Abhängigkeit besteht. Sie können aber in diesem Fall durchaus eine
nichtlineare stochastische Bindung haben.
Die oben aus dem Zufallsvektor X = (X, Y ) bestimmte Gerade y = ax + b heißt Regressionsgerade von Y bzgl. X.
Die Koeffizienten a, b heißen Regressionskoeffizienten.
103
Herunterladen