Kapitel 2 Multivariate Verteilungen 2.1 Gemeinsame-, Rand- und bedingte Verteilungen Wir hatten in unserer Datenmatrix m Spalten, d.h. m Variablen. Demnach brauchen wir jetzt die wichtigsten Begriffe für die Verteilung von m Zufallsvariablen. Wir verweisen in diesem Zusammenhang auf das Skript zur Vorlesung Statistik III (Zucchini, Böker und Stadie, 2001). Wir bezeichnen eine m-dimensionale Zufallsvariable, auch zufälliger Vektor genannt, mit Y, wobei Y t = (Y1 , Y2 , . . . , Ym ) ist und Y1 , Y2 , . . . , Ym sind univariate Zufallsvariablen. Wir verwenden Großbuchstaben für Zufallsvariablen. Wir hatten die Spalten in der Datenmatrix mit y1 , y2 , . . . , ym bezeichnet, wobei yit = (x1i , x2i , . . . , xni ), d.h. yit besteht aus n Beobachtungen oder n Realisationen der Zufallsvariablen Yi . Man sollte hier also immer genau auf Groß- und Kleinschreibung achten. Ferner sei daran erinnert, dass Vektoren fettgedruckt werden, so ist z.B. Y ein Vektor von Zufallsvariablen, yi ein Vektor von Beobachtungen, während Yi eine einzelne Zufallsvariable ist. Obwohl wir es später überwiegend mit stetigen Zufallsvariablen zu tun haben werden, beginnen wir mit dem diskreten Fall, d.h. wir nehmen an, dass alle Zufallsvariablen Y1 , Y2 , . . . , Ym diskret sind. Die Verteilung dieser m Zufallsvariablen wird dann durch eine Wahrscheinlichkeitsfunktion beschrieben: PY1 Y2 ...Ym (y1 , y2, . . . , ym ) = P ({Y1 = y1 , Y2 = y2 , . . . , Ym = ym }) Man beachte bitte, dass hier yi klein geschrieben und nicht fett gedruckt ist, demnach ist yi eine einzelne mögliche Beobachtung der Zufallsvariablen Yi . Die Wahrscheinlichkeitsfunktion gibt die Wahrscheinlichkeit an, dass die Zufallsvariable Y1 den Wert y1 und die Zufallsvariable Y2 den Wert y2 und . . . und die Zufallsvariable Ym den Wert ym annimmt. Die gemeinsame Wahrscheinlichkeitsfunktion beschreibt also die gemeinsame Verteilung der Zufallsvariablen Y1 , Y2, . . . , Ym . Aus der gemeinsamen Verteilung lassen sich zwei weitere Arten von Verteilungen berechnen, nämlich die Rand- und bedingten Verteilungen. Nehmen Sie an, wir interessieren uns für die Verteilung einer einzelnen Komponente des zufälligen Vektors Y, z.B. Yi. Die Wahrscheinlichkeitsfunktion von Yi bekommen wir, indem wir die gemeinsame Wahrscheinlichkeitsfunktion über alle anderen Variablen summieren, d.h. PYi (yi) = X PY1 Y2 ...Ym (y1 , . . . , yi , . . . , ym ) , 13 14 KAPITEL 2. MULTIVARIATE VERTEILUNGEN wobei die Summation über alle m-Tupel y = (y1 , . . . , yi , . . . , ym ) mit festem yi , d.h. mit anderen Worten: es wird über (y1 , . . . , yi−1, yi+1 , . . . , ym ) summiert. Die Verteilung von Yi heißt dann die Randverteilung von Yi . Es sei daran erinnert, dass man (gemeinsame) Randverteilungen auch für mehr als eine Variable bestimmen kann, indem man die gemeinsame Wahrscheinlichkeitsfunktion über alle möglichen Werte der restlichenVariablen aufsummiert. Schließlich sei noch an den Begriff der Unabhängigkeit erinnert. Die Zufallsvariablen Y1 , Y2 , . . . , Ym sind unabhängig, wenn die gemeinsame Wahrscheinlichkeitsfunktion das Produkt der Randwahrscheinlichkeitsfunktionen ist. Sind die Werte von einigen der m Zufallsvariablen bereits gegeben (gleich festen Werten), so nennt man die Verteilung der übrigen Zufallsvariablen (deren Werte noch nicht bekannt sind) bedingte Verteilung. Es sei daran erinnert, dass für zwei Ereignisse A und B, die bedingte Wahrscheinlichkeit des Ereignisses A, gegeben, dass das Ereignis B eingetreten ist, folgendermaßen definiert ist: P (A ∩ B) P (A|B) = P (B) Für zwei Zufallsvariablen Y1 und Y2 ist die bedingte Wahrscheinlichkeitsfunktion von Y1 , gegeben Y2 = y2 , definiert durch: PY1 |Y2 (y1 |y2 ) = PY1 Y2 (y1 , y2 ) PY2 (y2 ) Allgemeiner ist die bedingte Wahrscheinlichkeitsfunktion von Y1 , Y2 , . . . , Yk , gegeben Yk+1 = yk+1, . . . , Ym = ym definiert durch: PY1 ...Yk |Yk+1...Ym (y1 , . . . , yk |yk+1, . . . , ym) = PY1 ...Ym (y1 , . . . , ym ) PYk+1 ...Ym (yk+1, . . . , ym ) Die gemeinsame Verteilungsfunktion der Zufallsvariablen Y1 , Y2 , . . . , Ym ist definiert durch: FY1 Y2 ...Ym (y1 , y2, . . . , ym ) = P (Y1 ≤ y1 , Y2 ≤ y2 , . . . , Ym ≤ ym ) . Diese Definition gilt auch für stetige Zufallsvariablen. Die Verteilung von m stetigen Zufallsvariablen kann auch durch die gemeinsame Dichtefunktion beschrieben werden, die man durch Differentiation aus der gemeinsamen Verteilungsfunktion erhält: fY1 Y2 ...,Ym (y1 , y2 , . . . , ym ) = ∂ m FY1 Y2 ...Ym (y1 , y2 , . . . , ym ) ∂y1 ∂y2 . . . ∂ym Die Begriffe Randdichte und bedingte Dichtefunktionen sind analog zum diskreten Fall definiert. Man hat nur die Summenzeichen durch Integrale zu ersetzen. Die Randdichte einer Komponente des zufälligen Vektors Y, z.B. Yi bekommen wir, indem wir über alle anderen Variablen integrieren. fYi (yi ) = Z∞ −∞ ... Z∞ fY1 Y2 ...Ym (y1 , . . . , yi, . . . , ym )dy1 . . . dyi−1 dyi+1 . . . dym −∞ Stetige Zufallsvariablen sind unabhängig, wenn die gemeinsame Dichtefunktion das Produkt der Randdichtefunktionen ist. Man bekommt die gemeinsame Randdichtefunktion von mehr 2.2. ERWARTUNGSWERT, VARIANZ, KOVARIANZ UND KORRELATION 15 als einer (und weniger als m) Zufallsvariablen, indem man über die möglichen Werte der restlichen Zufallsvariablen integriert. Die bedingte Dichtefunktion von Y1 , gegeben Y2 = y2 ist definiert durch: fY1 |Y2 (y1 |y2 ) = fY1 Y2 (y1 , y2 ) fY2 (y2 ) Allgemeiner ist die bedingte Dichtefunktion von Y1 , Y2 , . . . , Yk , gegeben Yk+1 = yk+1, . . . , Ym = ym definiert durch: fY1 ...Yk |Yk+1...Ym (y1 , . . . , yk |yk+1, . . . , ym) = fY1 ...Ym (y1, . . . , ym ) fYk+1 ...Ym (yk+1, . . . , ym ) 2.2 Erwartungswert, Varianz, Kovarianz und Korrelation Im univariaten Fall beschreibt man eine Verteilung häufig durch die ersten beiden Momente, d.h. durch den Erwartungswert und die Varianz, bzw. durch die Quadratwurzel aus der Varianz, die Standardabweichung. Bei zwei Zufallsvariablen, also im bivariaten Fall, nimmt man noch als gemeinsames Moment die Kovarianz oder die standardisierte Version, den Korrelationskoeffizienten dazu. Im multivariaten Fall (m ≥ 2 Zufallsvariablen) braucht man für eine Charakterisierung der Verteilung durch die ersten beiden Momente außer den Mittelwerten und den Varianzen noch die Korrelationskoeffizienten für jedes mögliche Paar von Variablen. Wir wiederholen kurz die Definitionen: Erwartungswert: Wir bezeichnen den Vektor der Erwartungswerte mit µt = (µ1 , µ2 , . . . , µm ), wobei ∞ µi = E(Yi) = Z yfi(y)dy −∞ der Erwartungswert der i-ten Komponente des Vektors Y t = (Y1 , Y2, . . . , Ym ) ist. Diese Definition gilt für eine stetige Zufallsvariable Yi mit Randdichte fi . Für eine diskrete ZuP fallsvariable gilt E(Yi ) = yPi(y), wenn Pi die Randwahrscheinlichkeitsfunktion von Yi y bezeichnet. Varianz: Die Varianz der i-ten Komponente des Zufallsvektors Y ist gegeben durch Var(Yi ) = E[(Yi − µi )2 ] = E(Yi2 ) − µ2i Dies wurde bisher üblicherweise mit σi2 bezeichnet. Um Verträglichkeit mit der Bezeichnung der Kovarianzen herzustellen, wählen wir jedoch im multivariaten Fall die Bezeichnung σii . Kovarianz: Die Kovarianz zweier Zufallsvariablen Yi und Yj ist definiert durch: Cov(Yi , Yj ) = E[(Yi − µi )(Yj − µj )] Sie ist daher das Produktmoment zweier Zufallsvariablen um ihren Erwartungswert (siehe Skript Statistik III, 2001, S.102). Im Spezialfall i = j ist die Kovarianz einer Zufallsvariablen 16 KAPITEL 2. MULTIVARIATE VERTEILUNGEN mit sich selbst einfach die Varianz. Die Kovarianz von Yi und Yj wird üblicherweise mit σij bezeichnet. Für den Fall i = j bezeichnen wir also die Varianz, wie schon oben vereinbart, mit σii . Die Kovarianz wird oft nach der äquivalenten Formel σij = E(Yi Yj ) − µi µj berechnet. Kovarianzmatrix: Bei m Zufallsvariablen gibt es m Varianzen und 21 m(m−1) Kovarianzen. Diese Größen werden üblicherweise in einer m × m Matrix dargestellt, die mit Σ bezeichnet wird. Σ = σ11 σ21 .. . σ12 σ22 . . . σ1m . . . σ2m σm1 σm2 . . . σmm Diese Matrix wird gelegentlich mit Dispersionsmatrix, Varianz-Kovarianzmatrix oder einfach als Kovarianzmatrix bezeichnet. Beachten Sie, dass in der Diagonalen die Varianzen σii stehen. Da die Kovarianz von Yi und Yj identisch mit der von Yj und Yi ist, gilt σij = σji , d.h. die Kovarianzmatrix ist symmetrisch. Da (Y − µ)(Y − µ) t = (Y1 − µ1 )2 (Y2 − µ2 )(Y1 − µ1 ) .. . (Y1 − µ1 )(Y2 − µ2 ) (Y2 − µ2 )2 . . . (Y1 − µ1 )(Ym − µm ) . . . (Y2 − µ2 )(Ym − µm ) (Ym − µm )(Y1 − µ1 ) (Ym − µm )(Y2 − µ2 ) . . . (Ym − µm )2 und entsprechende Gleichungen auch für YYt und µµt gelten ist: Σ = E[(Y − µ)(Y − µ)t ] = E[YY t ] − µµt (2.1) Wir werden die Kovarianzmatrix später benutzen, um die Korrelationsmatrix auszurechnen. Wir werden sie hier zunächst einmal benutzen, um die Varianz einer Linearkombination der Komponenten des zufälligen Vektors Y t = (Y1 , Y2 , . . . , Ym ) zu berechnen. Sei at = (a1 , a2 , . . . , am ) ein Vektor von Konstanten. Dann ist at Y das Skalarprodukt aus dem konstanten Vektor a und dem zufälligen Vektor Y, also ein zufälliger Skalar, eine univariate Zufallsvariable. Bezeichnen wir diese aus Y durch eine lineare Transformation hervorgegangene Zufallsvariable mit Z. Z = at Y Es gilt: Z = a1 Y1 + a2 Y2 + . . . + am Ym . Daher ist E(Z) = a1 E(Y1 ) + a2 E(Y2 ) + . . . + am E(Ym )) = a1 µ1 + a2 µ2 + . . . + am µm , d.h. in Vektorschreibweise: E(Z) = E(at Y ) = at µ Die Varianz von Z ist gegeben durch: Var(Z) = E[{Z − E(Z)}2 ] = E[{at Y − at µ}2 ] = E[{at (Y − µ)}2 ] (2.2) 2.2. ERWARTUNGSWERT, VARIANZ, KOVARIANZ UND KORRELATION 17 Da at (Y − µ) ein Skalar ist und daher identisch ist mit seinem Transponierten, können wir für die Varianz von Z unter Benutzung von Gleichung 2.1 unter Beachtung der Linearität des Erwartungswertes schreiben: Var(Z) = E[at (Y − µ)(Y − µ)t a] = at E[(Y − µ)(Y − µ)t ]a = at Σa (2.3) Diese Formel bedeutet (ohne Matrizen geschrieben): Var(Z) = Var(at Y ) = m X m X m X a2i σii + i=1 i=1 ai aj σij j=1 i6=j In dieser Form finden Sie diese Formel im Skript Statistik III (2001, S. 133). Für m=2 ist: at Y = a1 Y1 + a2 Y2 . In den Übungen zu Statistik III wurde gezeigt, dass Var(a1 Y1 + a2 Y2 ) = Var(a1 Y1 ) + Var(a2 Y2 ) + 2Cov(a1 Y1 , a2 Y2 ) = a21 Var(Y1 ) + a22 Var(Y2 ) + 2a1 a2 Cov(Y1 , Y2 ) = a21 σ11 + a22 σ22 + 2a1 a2 σ12 Die letzte Zeile kann in der Form geschrieben werden: (a1 a2 ) σ11 σ12 σ21 σ22 ! a1 a2 ! Die Gleichungen 2.2 und 2.3 können in der folgenden Weise verallgemeinert werden: Sei A eine m × p-Matrix von Konstanten. Dann ist At Y ein zufälliger p × 1-Vektor, dessen Erwartungswertvektor und Kovarianzmatrix gegeben sind durch die folgenden Gleichungen: E(At Y) = At µ Var(At Y) = At ΣA (2.4) (2.5) Korrelationen: Die Kovarianz wird selten als deskriptives Maß für den linearen Zusammenhang zweier Zufallsvariablen benutzt, da sie von der Dimension abhängt, in der die Variablen gemessen werden. Nur das Vorzeichen macht eine Aussage über den Zusammenhang. Deshalb dividiert man die Kovarianz häufig durch das Produkt der Standardabweichungen der beiden Zufallsvariablen Yi und Yj und erhält damit den Korrelationskoeffizienten ρij , der definiert ist durch: σij ρij = , σi σj wobei σi die Standardabweichung von Yi bezeichnet. Der Korrelationskoeffizient ist ein dimensionsloses Maß für den linearen Zusammenhang zweier Zufallsvariablen und nimmt Werte zwischen -1 und 1 an. Der Korrelationskoeffizient ist positiv, wenn der Zusammenhang zwischen beiden Variablen eine positive Steigung hat, d.h. große Werte der einen Variablen gehen mit großen Werten der anderen Variablen einher. Wenn der Korrelationskoeffizient negativ ist, bedeutet dies bildlich, dass die Punktwolke eine negative Steigung hat: große Werte der einen Variablen gehen mit kleinen Werten der andern Variablen einher. 18 KAPITEL 2. MULTIVARIATE VERTEILUNGEN Wenn zwei Zufallsvariablen unabhängig sind, so ist ihre Kovarianz und damit auch der Korrelationskoeffizient Null. Es ist jedoch wichtig, dass die Umkehrung nicht gilt. Zwei Zufallsvariablen können unkorreliert und nicht unabhängig sein. Meistens sind sie in nichtlinearer Form abhängig (Beispiel Statistik III). Für die bivariate Normalverteilung gilt jedoch die Umkehrung: Wenn zwei Zufallsvariablen gemeinsam normalverteilt sind, so folgt aus der Unkorreliertheit die Unabhängigkeit. Die Korrelationsmatrix: Bei m Zufallsvariablen gibt es m(m-1)/2 Korrelationen. Diese werden häufig ähnlich wie die Kovarianzmatrix in einer (m × m)-Matrix dargestellt. In der i-ten Zeile und j-ten Spalte dieser Matrix steht ρij , der Korrelationskoeffizient zwischen Yi und Yj . Diese Matrix wird mit P bezeichnet, dem griechischen Symbol für ein großes Rho. Die Diagonalelemente der Korrelationsmatrix sind 1 (in der Kovarianzmatrix standen dort die Varianzen!). Die Korrelationsmatrix ist wie die Kovarianzmatrix symmetrisch. P = 1 ρ21 .. . ρ12 1 ρm1 ρm2 . . . ρ1m . . . ρ2m .. .. . . ... 1 Um die Beziehung zwischen Kovarianzmatrix und Korrelationsmatrix in Matrizenform zu schreiben, definieren wir eine Diagonalmatrix D, in deren Diagonale die Standardabwei√ chungen σi = σii der Zufallsvariablen stehen. Für den umgekehrten Zusammenhang zwischen P und Σ benötigt man die Inverse D −1 , die in der Diagonale die reziproken Werte der Standardabweichungen enthält. D= σ1 0 . . . 0 0 σ2 . . . 0 .. . .. . .. . 0 0 . . . σm D −1 = 1/σ1 0 ... 0 0 1/σ2 . . . 0 .. .. .. . . . 0 0 . . . 1/σm Dann gilt: Σ = DP D P = D −1 ΣD −1 (2.6) (2.7) Rang von Σ und P: Wir hatten oben gesehen, dass at Y eine Zufallsvariable ist. Die Varianz einer Zufallsvariablen ist selbstverständlich größer oder gleich Null, d.h. V ar(at Y) ≥ 0 für alle a Da V ar(at Y) = at Σa gilt, muss Σ positiv semidefinit sein. Da die Diagonalmatrix D nichtsingulär ist, muss wegen der obigen Beziehung zwischen Σ und P, die Korrelationsmatrix P ebenfalls positiv semidefinit sein. Weiterhin folgt wegen des gleichen Zusammenhangs zwischen P und Σ , dass P und Σ denselben Rang haben müssen, da für Matrizen A, B und C gilt: Rang(A)=Rang(BA)=Rang(AC), wenn B und C nichtsinguläre quadratische Matrizen sind. Der Rang von Σ und daher auch P ist kleiner oder gleich m, der Anzahl der Variablen. Wenn Σ und daher auch P von vollem Rang ist, dann ist Σ und daher auch P positiv definit, da dann V ar(at Y) = at Σa strikt größer ist als Null für jedes a 6= 0. Ist Rang(Σ) < m, 2.3. MULTIVARIATE NORMALVERTEILUNG 19 so ist Σ und daher auch P singulär, d.h. es gibt einen linearen Zusammenhang zwischen den Komponenten von Y, d.h. es existiert ein Vektor a 6= 0, so dass at Y eine Konstante ist und somit gilt: V ar(at Y) = at Σa = 0. Das bedeutet: Σ ist positiv semidefinit und nicht positiv definit. Mindestens eine der Variablen lässt sich als Linearkombination der übrigen darstellen und ist somit überflüssig, d.h. die Information, die in dieser Variablen enthalten ist, steckt auch schon in den anderen drin. 2.3 Multivariate Normalverteilung Wir erinnern an die Dichtefunktion einer normalverteilten Zufallsvariablen Y mit Erwartung µ und Varianz σ 2 , die gegeben ist durch (siehe Skript, Statistik III, S.29): fY (y) = √ 1 exp[−(y − µ)2 /2σ 2 ] 2πσ 2 für −∞<y <∞ (2.8) Wir haben dafür geschrieben: Y ∼ N(µ; σ 2 ). Im multivariaten Fall sagen wir, dass eine mdimensionale Zufallsvariable eine m-dimensionale Normalverteilung besitzt, wenn sie die folgende gemeinsame Dichtefunktion besitzt: fY1 Y2 ...Ym (y1 , y2, . . . , ym ) = 1 (2π)m/2 1 exp[− (y − µ)t Σ−1 (y − µ)] . 2 det (Σ) q (2.9) Dabei ist Σ eine symmetrische, positiv definite m × m-Matrix und det (Σ) die Determinante der Matrix Σ, Σ−1 die Inverse der Matrix Σ, µt = (µ1 , µ2, . . . , µm ) und yt = (y1 , y2 , . . . , ym ). Die Gleichung 2.9 reduziert sich für m = 1 auf Gleichung 2.8. Wenn Y1 , Y2 , . . . , Ym unabhängige Zufallsvariablen mit Yi ∼ N(µi , σi2 ), dann ist ihre gemeinsame Dichtefunktion das Produkt der Randdichtefunktionen: f (y1, y2 , . . . , ym ) = 1 (2π)m/2 m 1X y i − µi exp − m Q 2 i=1 σi σi " 2 # (2.10) i=1 In diesem Fall hat Y t = (Y1 , Y2 , . . . , Ym) den Erwartungswertvektor µt = (µ1 , µ2 , . . . , µm) und die Kovarianzmatrix Σ = σ12 0 . . . 0 σ22 . . . .. . 0 0 0 0 2 . . . σm und man sieht, dass Gleichung 2.10 in der Form von Gleichung 2.9 geschrieben werden kann. Im allgemeinen Fall ist Σ natürlich keine Diagonalmatrix. Man kann zeigen, dass Gleichung 2.9 für alle µ und für alle symmetrischen und positiv definiten m × m-Matrizen Σ eine gemeinsame Dichtefunktion definiert. Dann gilt: E(Y) = µ und V ar(Y) = Σ , wobei wir mit ,,Var” die Kovarianzmatrix bezeichnen. Wir schreiben dann Y ∼ Nm (µ; Σ) , 20 KAPITEL 2. MULTIVARIATE VERTEILUNGEN wobei m die Dimension von Y, µ den Erwartungswertvektor und Σ die Kovarianzmatrix bedeutet. Die Definition über Gleichung 2.9 verlangt, dass die Matrix Σ nichtsingulär ist, damit man die Inverse Σ−1 bilden kann. Damit sind lineare Abhängigkeiten zwischen den Komponenten von Y nicht erlaubt. Die Bedeutung der multivariaten Normalverteilung beruht auf dem zentralen Grenzwertsatz in seiner multivariaten Form. Der zentrale Grenzwertsatz (univariat) besagt, dass standardisierte Mittelwerte für große n annähernd standardnormalverteilt sind (siehe Skript, Statistik III, S. 36). Wir kommen auf die multivariate Normalverteilung in einem späteren Kapitel zurück. Die multivariate Normalverteilung kann in R mit der Funktion mvrnorm(n=1, mu, Sigma) aus der library MASS simuliert werden. Dabei ist n die Anzahl der Simulationen, mu der Erwartungswertvektor µ und Sigma die Kovarianzmatrix. 2.4 Bivariate Normalverteilung Die bivariate Normalverteilung ist ein wichtiger Spezialfall der multivariaten Normalverteilung. In diesem Fall ist µt = (µ1 , µ2 ), während die Kovarianzmatrix gegeben ist durch: Σ= σ11 σ12 σ21 σ22 ! σ12 ρσ1 σ2 ρσ1 σ2 σ22 = ! (2.11) Dabei bezeichnet ρ den Korrelationskoeffizienten zwischen den beiden Zufallsvariablen (siehe Skript, Statistik III, S. 128). Dort wurde auch gezeigt, dass dies mit der üblichen Darstellung fY1 Y2 (y1 , y2 ) = 2πσ1 σ2 1 √ ( 1 exp − 2 2 (1 − ρ2 ) 1−ρ " y 1 − µ1 σ1 2 y 1 − µ1 − 2ρ σ1 y 2 − µ2 y 2 − µ2 + σ2 σ2 übereinstimmt. Die bivariate Normalverteilung hängt von fünf Parametern ab, den beiden Erwartungswerten µ1 und µ2 , den beiden Varianzen σ12 und σ22 und dem Korrelationskoeffizienten ρ. Die Kovarianzmatrix ist positiv definit, wenn alle Hauptabschnittsdeterminanten größer als Null sind. Die erste Hauptabschnittsdeterminante ist σ12 und damit größer als Null. Die zweite ist det(Σ) = σ12 σ22 − ρ2 σ12 σ22 = (1 − ρ2 )σ12 σ22 Offensichtlich ist det(Σ) genau dann größer als Null, wenn |ρ| < 1 gilt. Wenn ρ = 1 oder ρ = −1, dann sind die beiden Variablen linear abhängig und die Beobachtungen liegen auf einer Geraden. Man erhält also eine ausgeartete Form der bivariaten Normalverteilung. Wenn ρ = 0, dann ist die gemeinsame Dichtefunktion das Produkt zweier univariater Normalverteilungen. Die beiden Zufallsvariablen sind somit unabhängig. 2.5 Andere multivariate Verteilungen a) Diskrete Verteilungen Die beste Quelle zur Information ist das Buch von Johnson, Kotz und Balakrishnan (1997) über diskrete multivariate Verteilungen. Im Zusammenhang mit mehrdimensionalen Kontingenztafeln findet man auch viele Verteilungen bei Bishop u.a. (1980, Kapitel 13). Wir zählen hier nur einige Namen auf. Meistens geht 2 #) 2.5. ANDERE MULTIVARIATE VERTEILUNGEN 21 aus dem Namen schon hervor, zu welcher univariaten Verteilung eine Beziehung besteht. • Multinomialverteilung • Negative Multinomialverteilung • Multivariate Poissonverteilungen • Multivariate hypergeometrische Verteilung b) Stetige Verteilungen Auch hier hier gibt es ein ganzes Buch über multivariate stetige Verteilungen von Johnson und Kotz (1972). Die wichtigste Verteilung ist die bereits oben besprochene multivariate Normalverteilung. Wie im univariaten Fall gibt es Verteilungen, die in enger Beziehung zur multivariaten Normalverteilung stehen, wie • Wishart-Verteilung (Verallgemeinerung der χ2 -Verteilung) • Multivariate t-Verteilung. Daneben findet man bei Johnson und Kotz (1972) unter anderem Verallgemeinerungen der • Betaverteilung (Dirichletverteilung) • Gammaverteilung • Exponentialverteilung Als Beispiel betrachten wir die Dirichletverteilung. Zur Erinnerung sei die Dichtefunktion der Betaverteilung noch einmal gegeben: y α−1(1 − y)β−1 0≤y≤1 fY (y) = B(α, β) 0 sonst . Wir geben noch einmal die Definition der Betafunktion und ihre Beziehung zur Gammafunktion. B(α, β) = Z1 0 = tα−1 (1 − t)β−1 dt α>0 β>0 Γ(α)Γ(β) . Γ(α + β) Die Zufallsvariablen Y1 , Y2 , . . . Ym besitzen eine Dirichletverteilung mit den Parametern α1 , α2 , . . . , αm , wenn ihre gemeinsame Dichtefunktion gegeben ist durch: Γ(C) f (y1, . . . , ym ) = m Q i=1 m Q i=1 yiαi −1 Γ(αi ) Dabei muss gelten yi ≥ 0 für alle i mit der Nebenbedingung P C= m i=1 αi , αi > 0 für alle i. Pm i=1 yi = 1. Ferner ist Die Dirichletverteilung ist verwendet worden als Modell für die Kaufwahrscheinlichkeit einer bestimmten Marke eines Produkts, von dem nur genau eine Marke gekauft wird.