Kapitel 2 Multivariate Verteilungen

Werbung
Kapitel 2
Multivariate Verteilungen
2.1 Gemeinsame-, Rand- und bedingte Verteilungen
Wir hatten in unserer Datenmatrix m Spalten, d.h. m Variablen. Demnach brauchen wir jetzt
die wichtigsten Begriffe für die Verteilung von m Zufallsvariablen. Wir verweisen in diesem
Zusammenhang auf das Skript zur Vorlesung Statistik III (Zucchini, Böker und Stadie, 2001).
Wir bezeichnen eine m-dimensionale Zufallsvariable, auch zufälliger Vektor genannt, mit Y,
wobei
Y t = (Y1 , Y2 , . . . , Ym )
ist und Y1 , Y2 , . . . , Ym sind univariate Zufallsvariablen. Wir verwenden Großbuchstaben für
Zufallsvariablen. Wir hatten die Spalten in der Datenmatrix mit y1 , y2 , . . . , ym bezeichnet,
wobei yit = (x1i , x2i , . . . , xni ), d.h. yit besteht aus n Beobachtungen oder n Realisationen der
Zufallsvariablen Yi . Man sollte hier also immer genau auf Groß- und Kleinschreibung achten.
Ferner sei daran erinnert, dass Vektoren fettgedruckt werden, so ist z.B. Y ein Vektor von
Zufallsvariablen, yi ein Vektor von Beobachtungen, während Yi eine einzelne Zufallsvariable
ist.
Obwohl wir es später überwiegend mit stetigen Zufallsvariablen zu tun haben werden, beginnen wir mit dem diskreten Fall, d.h. wir nehmen an, dass alle Zufallsvariablen Y1 , Y2 , . . . , Ym
diskret sind. Die Verteilung dieser m Zufallsvariablen wird dann durch eine Wahrscheinlichkeitsfunktion beschrieben:
PY1 Y2 ...Ym (y1 , y2, . . . , ym ) = P ({Y1 = y1 , Y2 = y2 , . . . , Ym = ym })
Man beachte bitte, dass hier yi klein geschrieben und nicht fett gedruckt ist, demnach ist
yi eine einzelne mögliche Beobachtung der Zufallsvariablen Yi . Die Wahrscheinlichkeitsfunktion gibt die Wahrscheinlichkeit an, dass die Zufallsvariable Y1 den Wert y1 und die
Zufallsvariable Y2 den Wert y2 und . . . und die Zufallsvariable Ym den Wert ym annimmt.
Die gemeinsame Wahrscheinlichkeitsfunktion beschreibt also die gemeinsame Verteilung
der Zufallsvariablen Y1 , Y2, . . . , Ym .
Aus der gemeinsamen Verteilung lassen sich zwei weitere Arten von Verteilungen berechnen, nämlich die Rand- und bedingten Verteilungen. Nehmen Sie an, wir interessieren uns
für die Verteilung einer einzelnen Komponente des zufälligen Vektors Y, z.B. Yi. Die Wahrscheinlichkeitsfunktion von Yi bekommen wir, indem wir die gemeinsame Wahrscheinlichkeitsfunktion über alle anderen Variablen summieren, d.h.
PYi (yi) =
X
PY1 Y2 ...Ym (y1 , . . . , yi , . . . , ym ) ,
13
14
KAPITEL 2. MULTIVARIATE VERTEILUNGEN
wobei die Summation über alle m-Tupel y = (y1 , . . . , yi , . . . , ym ) mit festem yi , d.h. mit
anderen Worten: es wird über (y1 , . . . , yi−1, yi+1 , . . . , ym ) summiert. Die Verteilung von Yi
heißt dann die Randverteilung von Yi . Es sei daran erinnert, dass man (gemeinsame) Randverteilungen auch für mehr als eine Variable bestimmen kann, indem man die gemeinsame Wahrscheinlichkeitsfunktion über alle möglichen Werte der restlichenVariablen aufsummiert. Schließlich sei noch an den Begriff der Unabhängigkeit erinnert. Die Zufallsvariablen Y1 , Y2 , . . . , Ym sind unabhängig, wenn die gemeinsame Wahrscheinlichkeitsfunktion
das Produkt der Randwahrscheinlichkeitsfunktionen ist.
Sind die Werte von einigen der m Zufallsvariablen bereits gegeben (gleich festen Werten),
so nennt man die Verteilung der übrigen Zufallsvariablen (deren Werte noch nicht bekannt
sind) bedingte Verteilung. Es sei daran erinnert, dass für zwei Ereignisse A und B, die bedingte Wahrscheinlichkeit des Ereignisses A, gegeben, dass das Ereignis B eingetreten ist,
folgendermaßen definiert ist:
P (A ∩ B)
P (A|B) =
P (B)
Für zwei Zufallsvariablen Y1 und Y2 ist die bedingte Wahrscheinlichkeitsfunktion von Y1 ,
gegeben Y2 = y2 , definiert durch:
PY1 |Y2 (y1 |y2 ) =
PY1 Y2 (y1 , y2 )
PY2 (y2 )
Allgemeiner ist die bedingte Wahrscheinlichkeitsfunktion von Y1 , Y2 , . . . , Yk , gegeben Yk+1 =
yk+1, . . . , Ym = ym definiert durch:
PY1 ...Yk |Yk+1...Ym (y1 , . . . , yk |yk+1, . . . , ym) =
PY1 ...Ym (y1 , . . . , ym )
PYk+1 ...Ym (yk+1, . . . , ym )
Die gemeinsame Verteilungsfunktion der Zufallsvariablen Y1 , Y2 , . . . , Ym ist definiert durch:
FY1 Y2 ...Ym (y1 , y2, . . . , ym ) = P (Y1 ≤ y1 , Y2 ≤ y2 , . . . , Ym ≤ ym ) .
Diese Definition gilt auch für stetige Zufallsvariablen. Die Verteilung von m stetigen Zufallsvariablen kann auch durch die gemeinsame Dichtefunktion beschrieben werden, die man
durch Differentiation aus der gemeinsamen Verteilungsfunktion erhält:
fY1 Y2 ...,Ym (y1 , y2 , . . . , ym ) =
∂ m FY1 Y2 ...Ym (y1 , y2 , . . . , ym )
∂y1 ∂y2 . . . ∂ym
Die Begriffe Randdichte und bedingte Dichtefunktionen sind analog zum diskreten Fall definiert. Man hat nur die Summenzeichen durch Integrale zu ersetzen. Die Randdichte einer
Komponente des zufälligen Vektors Y, z.B. Yi bekommen wir, indem wir über alle anderen
Variablen integrieren.
fYi (yi ) =
Z∞
−∞
...
Z∞
fY1 Y2 ...Ym (y1 , . . . , yi, . . . , ym )dy1 . . . dyi−1 dyi+1 . . . dym
−∞
Stetige Zufallsvariablen sind unabhängig, wenn die gemeinsame Dichtefunktion das Produkt
der Randdichtefunktionen ist. Man bekommt die gemeinsame Randdichtefunktion von mehr
2.2. ERWARTUNGSWERT, VARIANZ, KOVARIANZ UND KORRELATION
15
als einer (und weniger als m) Zufallsvariablen, indem man über die möglichen Werte der
restlichen Zufallsvariablen integriert.
Die bedingte Dichtefunktion von Y1 , gegeben Y2 = y2 ist definiert durch:
fY1 |Y2 (y1 |y2 ) =
fY1 Y2 (y1 , y2 )
fY2 (y2 )
Allgemeiner ist die bedingte Dichtefunktion von Y1 , Y2 , . . . , Yk , gegeben
Yk+1 = yk+1, . . . , Ym = ym definiert durch:
fY1 ...Yk |Yk+1...Ym (y1 , . . . , yk |yk+1, . . . , ym) =
fY1 ...Ym (y1, . . . , ym )
fYk+1 ...Ym (yk+1, . . . , ym )
2.2 Erwartungswert, Varianz, Kovarianz und Korrelation
Im univariaten Fall beschreibt man eine Verteilung häufig durch die ersten beiden Momente,
d.h. durch den Erwartungswert und die Varianz, bzw. durch die Quadratwurzel aus der Varianz, die Standardabweichung. Bei zwei Zufallsvariablen, also im bivariaten Fall, nimmt man
noch als gemeinsames Moment die Kovarianz oder die standardisierte Version, den Korrelationskoeffizienten dazu. Im multivariaten Fall (m ≥ 2 Zufallsvariablen) braucht man für
eine Charakterisierung der Verteilung durch die ersten beiden Momente außer den Mittelwerten und den Varianzen noch die Korrelationskoeffizienten für jedes mögliche Paar von
Variablen. Wir wiederholen kurz die Definitionen:
Erwartungswert: Wir bezeichnen den Vektor der Erwartungswerte mit µt = (µ1 , µ2 , . . . , µm ),
wobei
∞
µi = E(Yi) =
Z
yfi(y)dy
−∞
der Erwartungswert der i-ten Komponente des Vektors Y t = (Y1 , Y2, . . . , Ym ) ist. Diese
Definition gilt für eine stetige Zufallsvariable Yi mit Randdichte fi . Für eine diskrete ZuP
fallsvariable gilt E(Yi ) = yPi(y), wenn Pi die Randwahrscheinlichkeitsfunktion von Yi
y
bezeichnet.
Varianz: Die Varianz der i-ten Komponente des Zufallsvektors Y ist gegeben durch
Var(Yi ) = E[(Yi − µi )2 ]
= E(Yi2 ) − µ2i
Dies wurde bisher üblicherweise mit σi2 bezeichnet. Um Verträglichkeit mit der Bezeichnung
der Kovarianzen herzustellen, wählen wir jedoch im multivariaten Fall die Bezeichnung σii .
Kovarianz: Die Kovarianz zweier Zufallsvariablen Yi und Yj ist definiert durch:
Cov(Yi , Yj ) = E[(Yi − µi )(Yj − µj )]
Sie ist daher das Produktmoment zweier Zufallsvariablen um ihren Erwartungswert (siehe
Skript Statistik III, 2001, S.102). Im Spezialfall i = j ist die Kovarianz einer Zufallsvariablen
16
KAPITEL 2. MULTIVARIATE VERTEILUNGEN
mit sich selbst einfach die Varianz. Die Kovarianz von Yi und Yj wird üblicherweise mit σij
bezeichnet. Für den Fall i = j bezeichnen wir also die Varianz, wie schon oben vereinbart,
mit σii . Die Kovarianz wird oft nach der äquivalenten Formel
σij = E(Yi Yj ) − µi µj
berechnet.
Kovarianzmatrix: Bei m Zufallsvariablen gibt es m Varianzen und 21 m(m−1) Kovarianzen.
Diese Größen werden üblicherweise in einer m × m Matrix dargestellt, die mit Σ bezeichnet
wird.
Σ =






σ11
σ21
..
.
σ12
σ22
. . . σ1m
. . . σ2m 


σm1 σm2 . . . σmm



Diese Matrix wird gelegentlich mit Dispersionsmatrix, Varianz-Kovarianzmatrix oder einfach als Kovarianzmatrix bezeichnet. Beachten Sie, dass in der Diagonalen die Varianzen σii
stehen. Da die Kovarianz von Yi und Yj identisch mit der von Yj und Yi ist, gilt σij = σji ,
d.h. die Kovarianzmatrix ist symmetrisch. Da
(Y − µ)(Y − µ)
t
=






(Y1 − µ1 )2
(Y2 − µ2 )(Y1 − µ1 )
..
.
(Y1 − µ1 )(Y2 − µ2 )
(Y2 − µ2 )2
. . . (Y1 − µ1 )(Ym − µm )
. . . (Y2 − µ2 )(Ym − µm ) 

(Ym − µm )(Y1 − µ1 ) (Ym − µm )(Y2 − µ2 ) . . .

(Ym − µm )2
und entsprechende Gleichungen auch für YYt und µµt gelten ist:
Σ = E[(Y − µ)(Y − µ)t ] = E[YY t ] − µµt
(2.1)
Wir werden die Kovarianzmatrix später benutzen, um die Korrelationsmatrix auszurechnen. Wir werden sie hier zunächst einmal benutzen, um die Varianz einer Linearkombination der Komponenten des zufälligen Vektors Y t = (Y1 , Y2 , . . . , Ym ) zu berechnen. Sei
at = (a1 , a2 , . . . , am ) ein Vektor von Konstanten. Dann ist at Y das Skalarprodukt aus dem
konstanten Vektor a und dem zufälligen Vektor Y, also ein zufälliger Skalar, eine univariate
Zufallsvariable. Bezeichnen wir diese aus Y durch eine lineare Transformation hervorgegangene Zufallsvariable mit Z.
Z = at Y
Es gilt: Z = a1 Y1 + a2 Y2 + . . . + am Ym . Daher ist
E(Z) = a1 E(Y1 ) + a2 E(Y2 ) + . . . + am E(Ym )) = a1 µ1 + a2 µ2 + . . . + am µm ,
d.h. in Vektorschreibweise:
E(Z) = E(at Y ) = at µ
Die Varianz von Z ist gegeben durch:
Var(Z) = E[{Z − E(Z)}2 ] = E[{at Y − at µ}2 ] = E[{at (Y − µ)}2 ]
(2.2)



2.2. ERWARTUNGSWERT, VARIANZ, KOVARIANZ UND KORRELATION
17
Da at (Y − µ) ein Skalar ist und daher identisch ist mit seinem Transponierten, können wir
für die Varianz von Z unter Benutzung von Gleichung 2.1 unter Beachtung der Linearität des
Erwartungswertes schreiben:
Var(Z) = E[at (Y − µ)(Y − µ)t a] = at E[(Y − µ)(Y − µ)t ]a = at Σa
(2.3)
Diese Formel bedeutet (ohne Matrizen geschrieben):
Var(Z) = Var(at Y ) =
m
X
m X
m
X
a2i σii +
i=1
i=1
ai aj σij
j=1
i6=j
In dieser Form finden Sie diese Formel im Skript Statistik III (2001, S. 133). Für m=2 ist:
at Y = a1 Y1 + a2 Y2 . In den Übungen zu Statistik III wurde gezeigt, dass
Var(a1 Y1 + a2 Y2 ) = Var(a1 Y1 ) + Var(a2 Y2 ) + 2Cov(a1 Y1 , a2 Y2 )
= a21 Var(Y1 ) + a22 Var(Y2 ) + 2a1 a2 Cov(Y1 , Y2 )
= a21 σ11 + a22 σ22 + 2a1 a2 σ12
Die letzte Zeile kann in der Form geschrieben werden:
(a1 a2 )
σ11 σ12
σ21 σ22
!
a1
a2
!
Die Gleichungen 2.2 und 2.3 können in der folgenden Weise verallgemeinert werden: Sei
A eine m × p-Matrix von Konstanten. Dann ist At Y ein zufälliger p × 1-Vektor, dessen
Erwartungswertvektor und Kovarianzmatrix gegeben sind durch die folgenden Gleichungen:
E(At Y) = At µ
Var(At Y) = At ΣA
(2.4)
(2.5)
Korrelationen: Die Kovarianz wird selten als deskriptives Maß für den linearen Zusammenhang zweier Zufallsvariablen benutzt, da sie von der Dimension abhängt, in der die Variablen
gemessen werden. Nur das Vorzeichen macht eine Aussage über den Zusammenhang. Deshalb dividiert man die Kovarianz häufig durch das Produkt der Standardabweichungen der
beiden Zufallsvariablen Yi und Yj und erhält damit den Korrelationskoeffizienten ρij , der
definiert ist durch:
σij
ρij =
,
σi σj
wobei σi die Standardabweichung von Yi bezeichnet. Der Korrelationskoeffizient ist ein dimensionsloses Maß für den linearen Zusammenhang zweier Zufallsvariablen und nimmt
Werte zwischen -1 und 1 an. Der Korrelationskoeffizient ist positiv, wenn der Zusammenhang zwischen beiden Variablen eine positive Steigung hat, d.h. große Werte der einen Variablen gehen mit großen Werten der anderen Variablen einher. Wenn der Korrelationskoeffizient negativ ist, bedeutet dies bildlich, dass die Punktwolke eine negative Steigung hat:
große Werte der einen Variablen gehen mit kleinen Werten der andern Variablen einher.
18
KAPITEL 2. MULTIVARIATE VERTEILUNGEN
Wenn zwei Zufallsvariablen unabhängig sind, so ist ihre Kovarianz und damit auch der Korrelationskoeffizient Null. Es ist jedoch wichtig, dass die Umkehrung nicht gilt. Zwei Zufallsvariablen können unkorreliert und nicht unabhängig sein. Meistens sind sie in nichtlinearer
Form abhängig (Beispiel Statistik III). Für die bivariate Normalverteilung gilt jedoch die
Umkehrung: Wenn zwei Zufallsvariablen gemeinsam normalverteilt sind, so folgt aus der
Unkorreliertheit die Unabhängigkeit.
Die Korrelationsmatrix: Bei m Zufallsvariablen gibt es m(m-1)/2 Korrelationen. Diese werden häufig ähnlich wie die Kovarianzmatrix in einer (m × m)-Matrix dargestellt. In der i-ten
Zeile und j-ten Spalte dieser Matrix steht ρij , der Korrelationskoeffizient zwischen Yi und
Yj . Diese Matrix wird mit P bezeichnet, dem griechischen Symbol für ein großes Rho. Die
Diagonalelemente der Korrelationsmatrix sind 1 (in der Kovarianzmatrix standen dort die
Varianzen!). Die Korrelationsmatrix ist wie die Kovarianzmatrix symmetrisch.
P =






1
ρ21
..
.
ρ12
1
ρm1 ρm2
. . . ρ1m
. . . ρ2m
..
..
.
.
... 1






Um die Beziehung zwischen Kovarianzmatrix und Korrelationsmatrix in Matrizenform zu
schreiben, definieren wir eine Diagonalmatrix D, in deren Diagonale die Standardabwei√
chungen σi = σii der Zufallsvariablen stehen. Für den umgekehrten Zusammenhang zwischen P und Σ benötigt man die Inverse D −1 , die in der Diagonale die reziproken Werte der
Standardabweichungen enthält.
D=






σ1 0 . . . 0
0 σ2 . . . 0
..
.
..
. ..
.
0 0 . . . σm






D
−1
=






1/σ1
0
...
0
0
1/σ2 . . .
0
..
..
..
.
.
.
0
0
. . . 1/σm






Dann gilt:
Σ = DP D
P = D −1 ΣD −1
(2.6)
(2.7)
Rang von Σ und P: Wir hatten oben gesehen, dass at Y eine Zufallsvariable ist. Die Varianz
einer Zufallsvariablen ist selbstverständlich größer oder gleich Null, d.h.
V ar(at Y) ≥ 0
für alle a
Da V ar(at Y) = at Σa gilt, muss Σ positiv semidefinit sein. Da die Diagonalmatrix D nichtsingulär ist, muss wegen der obigen Beziehung zwischen Σ und P, die Korrelationsmatrix P
ebenfalls positiv semidefinit sein. Weiterhin folgt wegen des gleichen Zusammenhangs zwischen P und Σ , dass P und Σ denselben Rang haben müssen, da für Matrizen A, B und C
gilt: Rang(A)=Rang(BA)=Rang(AC), wenn B und C nichtsinguläre quadratische Matrizen
sind. Der Rang von Σ und daher auch P ist kleiner oder gleich m, der Anzahl der Variablen.
Wenn Σ und daher auch P von vollem Rang ist, dann ist Σ und daher auch P positiv definit,
da dann V ar(at Y) = at Σa strikt größer ist als Null für jedes a 6= 0. Ist Rang(Σ) < m,
2.3. MULTIVARIATE NORMALVERTEILUNG
19
so ist Σ und daher auch P singulär, d.h. es gibt einen linearen Zusammenhang zwischen den
Komponenten von Y, d.h. es existiert ein Vektor a 6= 0, so dass at Y eine Konstante ist und
somit gilt: V ar(at Y) = at Σa = 0. Das bedeutet: Σ ist positiv semidefinit und nicht positiv
definit. Mindestens eine der Variablen lässt sich als Linearkombination der übrigen darstellen und ist somit überflüssig, d.h. die Information, die in dieser Variablen enthalten ist, steckt
auch schon in den anderen drin.
2.3 Multivariate Normalverteilung
Wir erinnern an die Dichtefunktion einer normalverteilten Zufallsvariablen Y mit Erwartung
µ und Varianz σ 2 , die gegeben ist durch (siehe Skript, Statistik III, S.29):
fY (y) = √
1
exp[−(y − µ)2 /2σ 2 ]
2πσ 2
für
−∞<y <∞
(2.8)
Wir haben dafür geschrieben: Y ∼ N(µ; σ 2 ). Im multivariaten Fall sagen wir, dass eine mdimensionale Zufallsvariable eine m-dimensionale Normalverteilung besitzt, wenn sie die
folgende gemeinsame Dichtefunktion besitzt:
fY1 Y2 ...Ym (y1 , y2, . . . , ym ) =
1
(2π)m/2
1
exp[− (y − µ)t Σ−1 (y − µ)] .
2
det (Σ)
q
(2.9)
Dabei ist Σ eine symmetrische, positiv definite m × m-Matrix und det (Σ) die Determinante
der Matrix Σ, Σ−1 die Inverse der Matrix Σ, µt = (µ1 , µ2, . . . , µm ) und yt = (y1 , y2 , . . . , ym ).
Die Gleichung 2.9 reduziert sich für m = 1 auf Gleichung 2.8.
Wenn Y1 , Y2 , . . . , Ym unabhängige Zufallsvariablen mit Yi ∼ N(µi , σi2 ), dann ist ihre gemeinsame Dichtefunktion das Produkt der Randdichtefunktionen:
f (y1, y2 , . . . , ym ) =
1
(2π)m/2
m
1X
y i − µi
exp
−
m
Q
2 i=1
σi
σi
"
2 #
(2.10)
i=1
In diesem Fall hat Y t = (Y1 , Y2 , . . . , Ym) den Erwartungswertvektor µt = (µ1 , µ2 , . . . , µm)
und die Kovarianzmatrix
Σ =






σ12 0 . . .
0 σ22 . . .
..
.
0
0
0
0 

2
. . . σm




und man sieht, dass Gleichung 2.10 in der Form von Gleichung 2.9 geschrieben werden kann.
Im allgemeinen Fall ist Σ natürlich keine Diagonalmatrix. Man kann zeigen, dass Gleichung
2.9 für alle µ und für alle symmetrischen und positiv definiten m × m-Matrizen Σ eine
gemeinsame Dichtefunktion definiert. Dann gilt:
E(Y) = µ
und
V ar(Y) = Σ ,
wobei wir mit ,,Var” die Kovarianzmatrix bezeichnen. Wir schreiben dann
Y ∼ Nm (µ; Σ) ,
20
KAPITEL 2. MULTIVARIATE VERTEILUNGEN
wobei m die Dimension von Y, µ den Erwartungswertvektor und Σ die Kovarianzmatrix bedeutet. Die Definition über Gleichung 2.9 verlangt, dass die Matrix Σ nichtsingulär ist, damit
man die Inverse Σ−1 bilden kann. Damit sind lineare Abhängigkeiten zwischen den Komponenten von Y nicht erlaubt. Die Bedeutung der multivariaten Normalverteilung beruht auf
dem zentralen Grenzwertsatz in seiner multivariaten Form. Der zentrale Grenzwertsatz (univariat) besagt, dass standardisierte Mittelwerte für große n annähernd standardnormalverteilt
sind (siehe Skript, Statistik III, S. 36). Wir kommen auf die multivariate Normalverteilung in
einem späteren Kapitel zurück. Die multivariate Normalverteilung kann in R mit der Funktion mvrnorm(n=1, mu, Sigma) aus der library MASS simuliert werden. Dabei ist n die
Anzahl der Simulationen, mu der Erwartungswertvektor µ und Sigma die Kovarianzmatrix.
2.4 Bivariate Normalverteilung
Die bivariate Normalverteilung ist ein wichtiger Spezialfall der multivariaten Normalverteilung. In diesem Fall ist µt = (µ1 , µ2 ), während die Kovarianzmatrix gegeben ist durch:
Σ=
σ11 σ12
σ21 σ22
!
σ12
ρσ1 σ2
ρσ1 σ2
σ22
=
!
(2.11)
Dabei bezeichnet ρ den Korrelationskoeffizienten zwischen den beiden Zufallsvariablen (siehe Skript, Statistik III, S. 128). Dort wurde auch gezeigt, dass dies mit der üblichen Darstellung
fY1 Y2 (y1 , y2 ) =
2πσ1 σ2
1
√
(
1
exp −
2
2 (1 − ρ2 )
1−ρ
"
y 1 − µ1
σ1
2
y 1 − µ1
− 2ρ
σ1
y 2 − µ2
y 2 − µ2
+
σ2
σ2
übereinstimmt. Die bivariate Normalverteilung hängt von fünf Parametern ab, den beiden
Erwartungswerten µ1 und µ2 , den beiden Varianzen σ12 und σ22 und dem Korrelationskoeffizienten ρ. Die Kovarianzmatrix ist positiv definit, wenn alle Hauptabschnittsdeterminanten
größer als Null sind. Die erste Hauptabschnittsdeterminante ist σ12 und damit größer als Null.
Die zweite ist
det(Σ) = σ12 σ22 − ρ2 σ12 σ22 = (1 − ρ2 )σ12 σ22
Offensichtlich ist det(Σ) genau dann größer als Null, wenn |ρ| < 1 gilt. Wenn ρ = 1 oder
ρ = −1, dann sind die beiden Variablen linear abhängig und die Beobachtungen liegen auf
einer Geraden. Man erhält also eine ausgeartete Form der bivariaten Normalverteilung. Wenn
ρ = 0, dann ist die gemeinsame Dichtefunktion das Produkt zweier univariater Normalverteilungen. Die beiden Zufallsvariablen sind somit unabhängig.
2.5 Andere multivariate Verteilungen
a) Diskrete Verteilungen Die beste Quelle zur Information ist das Buch von Johnson,
Kotz und Balakrishnan (1997) über diskrete multivariate Verteilungen. Im Zusammenhang mit mehrdimensionalen Kontingenztafeln findet man auch viele Verteilungen bei
Bishop u.a. (1980, Kapitel 13). Wir zählen hier nur einige Namen auf. Meistens geht
2 #)
2.5. ANDERE MULTIVARIATE VERTEILUNGEN
21
aus dem Namen schon hervor, zu welcher univariaten Verteilung eine Beziehung besteht.
• Multinomialverteilung
• Negative Multinomialverteilung
• Multivariate Poissonverteilungen
• Multivariate hypergeometrische Verteilung
b) Stetige Verteilungen Auch hier hier gibt es ein ganzes Buch über multivariate stetige
Verteilungen von Johnson und Kotz (1972). Die wichtigste Verteilung ist die bereits
oben besprochene multivariate Normalverteilung. Wie im univariaten Fall gibt es Verteilungen, die in enger Beziehung zur multivariaten Normalverteilung stehen, wie
• Wishart-Verteilung (Verallgemeinerung der χ2 -Verteilung)
• Multivariate t-Verteilung.
Daneben findet man bei Johnson und Kotz (1972) unter anderem Verallgemeinerungen
der
• Betaverteilung (Dirichletverteilung)
• Gammaverteilung
• Exponentialverteilung
Als Beispiel betrachten wir die Dirichletverteilung. Zur Erinnerung sei die Dichtefunktion der Betaverteilung noch einmal gegeben:
y α−1(1 − y)β−1
0≤y≤1
fY (y) =
B(α, β)


0
sonst .



Wir geben noch einmal die Definition der Betafunktion und ihre Beziehung zur Gammafunktion.
B(α, β) =
Z1
0
=
tα−1 (1 − t)β−1 dt
α>0
β>0
Γ(α)Γ(β)
.
Γ(α + β)
Die Zufallsvariablen Y1 , Y2 , . . . Ym besitzen eine Dirichletverteilung mit den Parametern α1 , α2 , . . . , αm , wenn ihre gemeinsame Dichtefunktion gegeben ist durch:
Γ(C)
f (y1, . . . , ym ) =
m
Q
i=1
m
Q
i=1
yiαi −1
Γ(αi )
Dabei muss gelten yi ≥ 0 für alle i mit der Nebenbedingung
P
C= m
i=1 αi , αi > 0 für alle i.
Pm
i=1
yi = 1. Ferner ist
Die Dirichletverteilung ist verwendet worden als Modell für die Kaufwahrscheinlichkeit einer bestimmten Marke eines Produkts, von dem nur genau eine Marke gekauft wird.
Herunterladen