Statistik III Walter Zucchini Fred Böker Andreas Stadie 18. April 2006 Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Die Verteilungsfunktion einer Zufallsvariablen . . . . . . . . . . . . . . . . 6 2 Erwartungswert 12 2.1 Erwartungswert einer Zufallsvariablen . . . . . . . . . . . . . . . . . . . . 12 2.2 Erwartungswert einer Funktion einer Zufallsvariablen . . . . . . . . . . . . 17 2.3 Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.4 Die Varianz einer Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 20 3 Stetige Verteilungen 23 3.1 Rechteckverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.3 Gammaverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.4 Chiquadratverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.5 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.6 Betaverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4 Diskrete Verteilungen 60 4.1 Bernoulli-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.2 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.3 Geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.4 Die negative Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . 66 4.5 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5 Beziehungen zwischen Verteilungen 5.1 74 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.1.1 74 Bernoulli-Verteilung, Binomialverteilung . . . . . . . . . . . . . . I II Inhaltsverzeichnis 5.2 5.1.2 Bernoulli-Verteilung, Geometrische Verteilung . . . . . . . . . . . 75 5.1.3 Bernoulli-Verteilung, Negative Binomialverteilung . . . . . . . . . 75 5.1.4 Geometrische Verteilung, Negative Binomialverteilung . . . . . . . 75 5.1.5 Binomialverteilung, Poissonverteilung . . . . . . . . . . . . . . . . 76 5.1.6 Binomialverteilung, Normalverteilung . . . . . . . . . . . . . . . . 77 5.1.7 Negative Binomialverteilung, Normalverteilung . . . . . . . . . . . 77 5.1.8 Summen poissonverteilter Zufallsvariablen . . . . . . . . . . . . . 78 5.1.9 Poissonverteilung, Normalverteilung . . . . . . . . . . . . . . . . . 78 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.2.1 Exponentialverteilung, Gammaverteilung, Normalverteilung . . . . 79 5.2.2 Summe von gammaverteilten Zufallsvariablen . . . . . . . . . . . . 79 2 5.2.3 Gammaverteilung, χ -Verteilung, Normalverteilung . . . . . . . . 80 5.2.4 Summen normalverteilter Zufallsvariablen . . . . . . . . . . . . . 80 5.2.5 Normalverteilung, χ2 -Verteilung . . . . . . . . . . . . . . . . . . . 81 5.2.6 Normalverteilung, t-Verteilung . . . . . . . . . . . . . . . . . . . . 82 5.2.7 Normalverteilung, F-Verteilung . . . . . . . . . . . . . . . . . . . 85 5.2.8 Normalverteilung, Lognormalverteilung . . . . . . . . . . . . . . . 87 6 Gemeinsame Verteilung von Zufallsvariablen 6.1 90 Gemeinsame Verteilungen zweier Zufallsvariablen . . . . . . . . . . . . . 90 6.1.1 Gemeinsame Verteilung zweier diskreter Zufallsvariablen . . . . . 91 6.1.2 Gemeinsame Verteilung zweier stetiger Zufallsvariablen . . . . . . 92 6.1.3 Die gemeinsame Verteilungsfunktion . . . . . . . . . . . . . . . . 98 6.2 Gemeinsame Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.3 Bedingte Verteilungen, Unabhängigkeit . . . . . . . . . . . . . . . . . . . 110 6.3.1 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 110 6.3.2 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Die bivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . 119 6.4 7 p-dimensionale Zufallsvariablen 125 7.1 Definitionen, Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . 125 7.2 Die p-dimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . 130 7.3 Summen und Linearkombinationen von Zufallsvariablen . . . . . . . . . . 134 7.4 Weiteres zur multivariaten Normalverteilung . . . . . . . . . . . . . . . . . 136 8 Schätzung von Parametern 8.1 Schätzmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 142 Inhaltsverzeichnis 8.2 III 8.1.1 Die Methode der Momente . . . . . . . . . . . . . . . . . . . . . . 142 8.1.2 Die Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . 144 Einige Eigenschaften von Schätzern . . . . . . . . . . . . . . . . . . . . . 150 8.2.1 Erwartungstreue, Bias . . . . . . . . . . . . . . . . . . . . . . . . 150 8.2.2 Standardfehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 8.2.3 Mittlerer quadratischer Fehler . . . . . . . . . . . . . . . . . . . . 154 8.2.4 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 8.2.5 Effizienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 9 Mischverteilungen 160 9.1 Diskrete Mischung diskreter Verteilungen . . . . . . . . . . . . . . . . . . 160 9.2 Diskrete Mischung stetiger Verteilungen . . . . . . . . . . . . . . . . . . . 166 9.3 Stetige Mischungen diskreter Verteilungen . . . . . . . . . . . . . . . . . . 173 9.3.1 Die Beta-Binomialverteilung . . . . . . . . . . . . . . . . . . . . . 173 9.3.2 Die negative Binomialverteilung . . . . . . . . . . . . . . . . . . . 177 ML–Schätzung bei Mischverteilungen . . . . . . . . . . . . . . . . . . . . 179 9.4.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 9.4.2 Die Likelihoodfunktion für Mischverteilungen . . . . . . . . . . . 179 9.4.3 Parameterschätzung mit C.A.MAN . . . . . . . . . . . . . . . . . 182 9.4 10 Bayes’sche Verfahren 186 10.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 10.2 Das Theorem von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 10.3 Bayes’sche Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 10.4 Bemerkungen zu konjugierten Verteilungen . . . . . . . . . . . . . . . . . 205 Literatur 208 Index 210 Formeln 216 Kapitel 1 Zufallsvariablen und ihre Verteilung 1.1 Diskrete Zufallsvariablen Definition 1.1 Eine Zufallsvariable X heißt diskret, wenn sie nur endlich viele oder höchstens abzählbar unendlich viele Werte annehmen kann. Beispiel 1.1 Wir betrachten drei Situationen, die sich in den Bereichen der möglichen Werte unterscheiden. a) Eine Münze wird zweimal geworfen. Sei X die Anzahl der dabei geworfenen ,,Köpfe”. Die möglichen Werte dieser Zufallsvariablen sind: 0, 1, 2. b) Eine Münze wird so lange geworfen, bis zum ersten mal ,,Zahl” erscheint. X sei die Anzahl der bis dahin geworfenen ,,Köpfe”. Die möglichen Werte dieser Zufallsvariablen sind: 0, 1, 2, . . . . c) Sei X die Anzahl der Autos, die eine Firma im n¨achsten Jahr verkauft. Die möglichen Werte dieser Zufallsvariablen sind: 0, 1, . . . , N. (Dabei sei N die Anzahl der maximal produzierbaren Autos.) Definition 1.2 Sei X eine diskrete Zufallsvariable. Die Funktion PX mit PX (x) = P ({X = x}) heißt die Wahrscheinlichkeitsfunktion von X. Wir wollen die Wahrscheinlichkeitsfunktionen für die drei Situationen aus Beispiel 1.1 bestimmen. Beispiel 1.1 a: Wir gehen von der Annahme aus, dass die Münze fair ist, d.h. beide Seiten der Münze, die wir mit K für ,,Kopf” und Z für ,,Zahl” bezeichnen, haben die gleiche Chance aufzutreffen. Möglichkeiten: Werte von X : Wahrscheinlichkeit: (ZZ) 0 1/4 1 (ZK) 1 1/4 (KZ) 1 1/4 (KK) 2 1/4 2 KAPITEL 1. ZUFALLSVARIABLEN UND IHRE VERTEILUNG Fasst man gleiche Werte von X zusammen, so ergibt sich: x 0 1 2 P ({X = x}) 1/4 1/2 1/4 Dafür schreibt man auch 1/4 1/2 x=0 x=1 PX (x) = 1/4 x = 2 0 sonst . Abbildung 1.1 zeigt eine graphische Darstellung der Wahrscheinlichkeitsfunktion. Die Höhe der St¨abe entspricht den Wahrscheinlichkeiten. 1.0 P(x) 0.8 0.6 0.4 0.2 0.0 -1 0 1 2 3 x (Anzahl der Koepfe) Abbildung 1.1: Wahrscheinlichkeitsfunktion für die Anzahl der Köpfe beim zweifachen Münzwurf Beispiel 1.1 b: Die folgende Tabelle gibt die möglichen Wurffolgen bis zur ersten ,,Zahl” und die zugehörigen Wahrscheinlichkeiten an. Wurffolge Z KZ KKZ .. . Wahrscheinlichkeit 1/2 1/4 1/8 .. . Anzahl ,,Köpfe” x=0 x=1 x=2 .. . (1/2)k+1 x=k K...KZ Damit ist die Wahrscheinlichkeitsfunktion von X gegeben durch PX (x) = ( (1/2)x+1 für x = 0, 1, 2, ... 0 sonst . Abbildung 1.2 zeigt den Graphen der Wahrscheinlichkeitsfunktion. 1.2. STETIGE ZUFALLSVARIABLEN 3 1.0 P(x) 0.8 0.6 0.4 0.2 0.0 -1 0 1 2 3 4 5 6 7 8 9 10 x (Anzahl der Koepfe vor Zahl) Abbildung 1.2: Wahrscheinlichkeitsfunktion für die Anzahl der Köpfe vor der ersten Zahl Beispiel 1.1 c: In diesem Beispiel können wir ohne zus¨atzliche Information keine Wahrscheinlichkeitsfunktion aufstellen. Satz 1.1 Eine Wahrscheinlichkeitsfunktion hat die Eigenschaften: a) PX (x) ≥ 0 für alle x , b) PX (x) > 0 für höchstens abzählbar unendlich viele x , c) P x PX (x) = 1 . Bei diskreten Zufallsvariablen gibt es Lücken zwischen den einzelnen Werten, d.h. Werte, die die Zufallsvariable nicht annehmen kann. 1.2 Stetige Zufallsvariablen Es gibt auch Zufallsvariablen, die im Prinzip jeden Zwischenwert annehmen können, z.B. • Temperatur am Mittag • Marktanteil • Umsatz Solche Zufallsvariablen heißen stetig. Man verwendet eine Dichtefunktion, um Wahrscheinlichkeiten zu beschreiben. 4 KAPITEL 1. ZUFALLSVARIABLEN UND IHRE VERTEILUNG Definition 1.3 Die Dichtefunktion fX einer stetigen Zufallsvariablen X hat die Eigenschaften a) fX (x) ≥ 0 b) ∞ R −∞ für alle x, fX (x)dx = 1, c) P ({a ≤ X ≤ b}) = Rb a für alle a und b mit a ≤ b. fX (x)dx Die in Definition 1.3 erwähnte Wahrscheinlichkeit kann aufgefasst werden als Fläche unterhalb der Dichtefunktion zwischen den Punkten a und b (siehe Abbildung 1.3). 0.5 f(x) 0.4 0.3 0.2 P({a<X<b}) 0.1 0.0 -4 -2 a 0 2 b 4 x Abbildung 1.3: Wahrscheinlichkeit als Fläche unter der Dichtefunktion Eine stetige Zufallsvariable kann jeden möglichen Wert in dem Bereich annehmen, in dem fX (x) > 0 ist. Wichtig ist jedoch die folgende Eigenschaft stetiger Zufallsvariablen. Sei X eine stetige Zufallsvariable und x0 ein beliebiger Wert. Dann ist P ({X = x0 }) = 0 . Das bedeutet, die Wahrscheinlichkeit, dass eine stetige Zufallsvariable einen ganz bestimmten Wert x0 annimmt, ist gleich Null. Man erinnere sich daran, dass eine diskrete Zufallsvariable jeden ihrer möglichen Werte mit positiver Wahrscheinlichkeit annehmen kann. Für stetige Zufallsvariablen gilt damit für alle a und b mit a ≤ b P ({a ≤ X ≤ b}) = P ({a < X ≤ b}) = P ({a ≤ X < b}) = P ({a < X < b}) . Überzeugen Sie sich, dass diese Eigenschaft für diskrete Zufallsvariablen nicht gilt, indem Sie die obigen Wahrscheinlichkeiten für Beispiel 1.1 a mit a = 0 und b = 2 ausrechnen. Eine Dichtefunktion beschreibt das Verhalten einer stetigen Zufallsvariablen. Man kann sie auch als die Antwort auf Fragen folgender Art ansehen: 1.2. STETIGE ZUFALLSVARIABLEN 5 Wie groß wird unser Marktanteil im nächsten Jahr sein (wenn wir, wie bis jetzt, weitermachen)? Solche Fragen haben keine einfachen Antworten, wie z.B. 23.4%. 0.10 f(x) 0.08 0.06 0.04 0.02 0.0 0 10 20 30 40 50 x (Marktanteil in %) Abbildung 1.4: Mögliche Dichtefunktion für den Marktanteil im nächsten Jahr Der genaue Anteil wird von vielen und komplexen Faktoren abh¨angen, z.B. politischen Faktoren, dem Klima und anderen zuf¨alligen Einflüssen, die man nicht im voraus wissen kann. Man ist höchstens in der Lage, die möglichen Werte zu bestimmen und anhand statistischer Methoden ihr wahrscheinliches Verhalten zu sch¨atzen. Die Antwort auf solche Fragen beschreibt man mit Hilfe einer Dichtefunktion. So könnte der Marktanteil im n¨achsten Jahr durch die Dichtefunktion in Abbildung 1.4 gegeben sein. 0.10 f(x) 0.08 0.06 0.04 P({X<20}) 0.02 0.0 0 10 20 30 40 50 x (Marktanteil in %) Abbildung 1.5: P ({X < 20}) als Fläche unterhalb der Dichtefunktion Um Entscheidungen zu treffen, muss man mit Wahrscheinlichkeiten arbeiten. Solch eine Entscheidung könnte z.B. sein: Soll man jetzt etwas dagegen unternehmen, dass der Marktanteil im n¨achsten Jahr nicht unter 20% sinkt oder sollen wir jetzt nichts unternehmen. Dazu muss man wissen, wie groß diese Wahrscheinlichkeit ist. Kennt man die zugehörige Dichtefunktion, so ist diese Wahrscheinlichkeit gegeben durch P ({X < 20}) = Z20 −∞ fX (x)dx . 6 KAPITEL 1. ZUFALLSVARIABLEN UND IHRE VERTEILUNG Diese Wahrscheinlichkeit entspricht der Fl¨ache unterhalb der Dichtefunktion links von 20 (siehe Abbildung 1.5). 1.3 Die Verteilungsfunktion einer Zufallsvariablen Definition 1.4 Die Verteilungsfunktion einer Zufallsvariablen X ist definiert durch FX (t) = P ({X ≤ t}) t ∈ IR . Diese Definition gilt für eine beliebige Zufallsvariable, egal ob diese stetig oder diskret ist. 0.5 f(x) 0.4 0.3 0.2 F(t) 0.1 0.0 0 2 t 4 6 8 10 x Abbildung 1.6: Verteilungsfunktion F (t) als Fläche unterhalb der Dichtefunktion Satz 1.2 a) Für eine stetige Zufallsvariable X mit Dichtefunktion fX (x) gilt FX (t) = Zt fX (x)dx . −∞ b) Für eine diskrete Zufallsvariable X mit Wahrscheinlichkeitsfunktion PX (x) gilt FX (t) = X x≤t PX (x) . 1.3. DIE VERTEILUNGSFUNKTION EINER ZUFALLSVARIABLEN 7 Bei einer stetigen Zufallsvariablen kann man sich unter der Verteilungsfunktion die Fläche unterhalb der Dichtefunktion von −∞ bis t vorstellen (siehe Abbildung 1.6). Beispiel 1.2 (Exponentialverteilung mit Parameter λ = 1) Die Dichtefunktion der Zufallsvariablen X sei gegeben durch fX (x) = ( e−x für x ≥ 0 0 sonst . 1.5 f(x) 1.0 0.5 0.0 0 1 2 3 4 5 x Abbildung 1.7: Dichtefunktion der Exponentialverteilung mit dem Parameter λ = 1 1.0 F(t) 0.8 0.6 0.4 0.2 0.0 0 1 2 3 4 5 t Abbildung 1.8: Verteilungsfunktion der Exponentialverteilung mit dem Parameter λ = 1 Dann ist die Verteilungsfunktion FX (t) = Zt fX (x)dx . −∞ Dieses Integral ist 0 für t < 0. Für t ≥ 0 erh¨alt man Zt 0 e−x dx = −e−x t 0 = (−e−t ) − (−e−0 ) = −e−t + 1 = 1 − e−t . 8 KAPITEL 1. ZUFALLSVARIABLEN UND IHRE VERTEILUNG Damit gilt für die Verteilungsfunktion (siehe Abbildung 1.8) FX (t) = ( 0 für −t 1−e für t<0 t≥0. Beispiel 1.3 (Anzahl der ,,Köpfe” beim zweifachen Münzwurf) In Beispiel 1.1a hatten wir die folgende Wahrscheinlichkeitsfunktion für die Anzahl der ,,Köpfe” beim zweifachen Werfen einer Münze bestimmt. PX (x) = 1/4 1/2 1/4 0 Die Verteilungsfunktion ist dann FX (t) = 0 1/4 3/4 1 für x = 0 für x = 1 für x = 2 sonst für für für für t<0 0≤t<1 1≤t<2 2≤t. Diese Verteilungsfunktion ist in Abbildung 1.9 zusammen mit der Wahrscheinlichkeitsfunktion dargestellt. Wahrscheinlichkeitsfunktion P(x) 1.0 0.5 0.0 -2 -1 0 1 2 3 4 3 4 x (Anzahl der Koepfe) Verteilungsfunktion F(t) 1.0 0.5 0.0 -2 -1 0 1 2 t (Anzahl der Koepfe) Abbildung 1.9: Wahrscheinlichkeits- und Verteilungsfunktion f ür die Anzahl der Köpfe beim zweifachen Münzwurf 1.3. DIE VERTEILUNGSFUNKTION EINER ZUFALLSVARIABLEN 9 Anschaulich ist die Verteilungsfunktion also die Summe der Höhen der Stäbe bis einschließlich t. Beachten Sie, dass die Verteilungsfunktion an den Sprungstellen den oberen Wert annimmt. Die Verteilungsfunktion ist also stetig von rechts. Satz 1.3 (Eigenschaften einer Verteilungsfunktion) Eine Verteilungsfunktion F X hat die Eigenschaften: a) 0 ≤ FX (t) ≤ 1 , b) FX (t1 ) ≤ FX (t2 ), falls t1 < t2 , c) lim FX (t) = 0 , t→−∞ d) lim FX (t) = 1 , t→∞ e) FX ist stetig von rechts. Jetzt sei die Verteilungsfunktion einer Zufallsvariablen X gegeben, und wir wollen die Dichteoder Wahrscheinlichkeitsfunktion von X bestimmen. Satz 1.4 Sei X eine stetige Zufallsvariable mit der Verteilungsfunktion F X . Dann ist die Dichtefunktion von X gegeben durch fX (x) = FX0 (x) . Beispiel 1.4 (Exponentialverteilung mit dem Parameter λ = 1) Die Verteilungsfunktion einer stetigen Zufallsvariablen sei (vergleiche Beispiel 1.2) FX (x) = ( dFX (x) = fX (x) = dx ( 0 für 1 − e−x für x≤0 x>0. Dann gilt 0 für −x −x 0 − (−e ) = e für x≤0 x>0. Für diskrete Zufallsvariablen erhält man die Wahrscheinlichkeitsfunktion, indem man an den Sprungstellen der Verteilungsfunktion die Differenz berechnet. 10 KAPITEL 1. ZUFALLSVARIABLEN UND IHRE VERTEILUNG Beispiel 1.5 Die Verteilungsfunktion einer diskreten Zufallsvariablen X sei gegeben durch 0 1/8 x<1 1≤x<2 3/8 2 ≤ x < 3 FX (x) = 7/8 3 ≤ x < 4 1 4≤x. X kann die Werte 1, 2, 3 und 4 annehmen. Da F X an der Stelle 1 von 0 auf 1/8 springt, wird der Wert 1 mit der Wahrscheinlichkeit 1/8 angenommen, der Wert 2 mit der Wahrscheinlichkeit F X (2) − FX (1) = 3/8 − 1/8 = 1/4. Die vollst¨andige Wahrscheinlichkeitsfunktion ist 1/8 1/4 x=1 x=2 PX (x) = 1/2 x = 3 1/8 x = 4 0 sonst . Abbildung 1.10 zeigt die Verteilungsfunktion und die Wahrscheinlichkeitsfunktion. Verteilungsfunktion 1.0 F(x) 0.8 0.6 0.4 0.2 0.0 -1 0 1 2 3 4 5 6 5 6 x Wahrscheinlichkeitsfunktion 1.0 P(x) 0.8 0.6 0.4 0.2 0.0 -1 0 1 2 3 4 x Abbildung 1.10: Verteilungs- und Wahrscheinlichkeitsfunktion f ür Beispiel 1.5 Allgemein gilt: 1.3. DIE VERTEILUNGSFUNKTION EINER ZUFALLSVARIABLEN 11 Satz 1.5 Sei X eine diskrete Zufallsvariable mit der Verteilungsfunktion F X . Dann ist die Wahrscheinlichkeitsfunktion von X gegeben durch PX (x) = FX (x) − lim FX (x − h) . h→0 h>0 Mit Hilfe der Verteilungsfunktion ist es besonders einfach, Wahrscheinlichkeiten auszurechnen, dass eine Zufallsvariable Werte in einem Intervall (a, b] annimmt. Denn es gilt: Satz 1.6 Sei X eine Zufallsvariable mit der Verteilungsfunktion FX . Dann gilt P ({a < X ≤ b}) = FX (b) − FX (a) . (1.1) Dieser Satz gilt sowohl für stetige als auch für diskrete Zufallsvariablen. Wie wir schon gesehen haben (siehe S. 4), kommt es bei stetigen Zufallsvariablen nicht darauf an, ob es in der Gleichung (1.1) < oder ≤ heißt. Für diskrete Zufallsvariablen gilt dieser Satz jedoch nur in dieser Form, wenn a und b mögliche Werte der Zufallsvariablen sind! Beispiel 1.6 (Exponentialverteilung mit dem Parameter λ = 1) Die Verteilungsfunktion einer stetigen Zufallsvariablen sei (vergleiche Beispiel 1.2 und 1.4) FX (x) = ( 0 für 1 − e−x für x≤0 x>0. Dann gilt P ({1 < X ≤ 2}) = FX (2) − FX (1) = (1 − e−2 ) − (1 − e−1 ) = e−1 − e−2 = 0.3679 − 0.1353 = 0.2326 . Beispiel 1.7 Die Zufallsvariable X besitze die Verteilungsfunktion aus Beispiel 1.5. Dann gilt P ({1 < X ≤ 3}) = FX (3) − FX (1) = 7/8 − 1/8 = 3/4 P ({1 < X < 3}) = FX (2) − FX (1) = 3/8 − 1/8 = 1/4 P ({1 ≤ X ≤ 3}) = FX (3) = 7/8 und P ({1 ≤ X < 3}) = FX (2) = 3/8 . Kapitel 2 Erwartungswert 2.1 Erwartungswert einer Zufallsvariablen Definition 2.1 Der Erwartungswert EX einer diskreten Zufallsvariablen X mit Wahrscheinlichkeitsfunktion PX ist definiert als EX = X xPX (x) . x Für spätere Notationen sei angemerkt, dass der Erwartungswert einer Zufallsvariablen häufig einfach mit µ bezeichnet wird. Beispiel 2.1 (Anzahl der ,,Köpfe” beim zweifachen Münzwurf) 1.0 P(x) 0.8 0.6 0.4 0.2 0.0 -1 0 1 2 3 Abbildung 2.1: Wahrscheinlichkeitsfunktion In Beispiel 1.1a hatten wir die folgende Wahrscheinlichkeitsfunktion für die Anzahl der ,,Köpfe” beim zweifachen Werfen einer Münze bestimmt, 12 2.1. ERWARTUNGSWERT EINER ZUFALLSVARIABLEN PX (x) = Damit erh¨alt man als Erwartungswert EX = 2 X 1 4 1 2 1 4 0 13 für x = 0 für x = 1 für x = 2 sonst . xPX (x) = 0(1/4) + 1(1/2) + 2(1/4) = 1 . x=0 Wir werden jetzt zwei mögliche Interpretationen des Erwartungswertes kennenlernen. a) EX ist die x-Koordinate des Schwerpunktes der Wahrscheinlichkeitsfunktion von X. Die Wahrscheinlichkeitsfunktion ist in Abbildung 2.1 graphisch dargestellt. Stellen Sie sich die drei Balken in Abbildung 2.1 als Metallst¨abe vor, die an die x-Achse geklebt sind. Versuchen Sie dann, die Wahrscheinlichkeitsfunktion auf eine scharfe Kante zu legen und dort auszubalancieren. Wenn Sie die Wahrscheinlichkeitsfunktion so, wie in Abbildung 2.2 dargestellt, auf die Kante legten, fiele die Funktion nach rechts, in Abbildung 2.3 würde sie nach links fallen. 1.0 P(x) 0.8 0.6 0.4 0.2 0.0 -1 0 1 2 3 Abbildung 2.2: Kippt nach rechts Wenn die Kante exakt unter dem Erwartungswert w¨are, wie in Abbildung 2.4, würde die Funktion die Balance halten. In diesem Beispiel ist der Erwartungwert gerade 1. Der Erwartungswert ist also der Schwerpunkt von PX . b) Der Erwartungswert EX kann als Mittelwert sehr vieler Realisationen von X aufgefasst werden. 14 KAPITEL 2. ERWARTUNGSWERT 1.0 P(x) 0.8 0.6 0.4 0.2 0.0 -1 0 1 2 3 Abbildung 2.3: Kippt nach links 1.0 P(x) 0.8 0.6 0.4 0.2 0.0 -1 0 1 2 3 Abbildung 2.4: Gleichgewicht: Erwartungswert als Schwerpunkt Stellen Sie sich dazu vor, dass Sie die zwei Münzen sehr oft werfen. Eine typische Folge von Ergebnissen könnte so aussehen: Wurfspiel Ergebnis x Summe Mittelwert 1 0 0 0/1 2 1 1 1/2 3 1 2 2/3 4 0 2 2/4 5 2 4 4/5 ... ... ... ... 10 000 0 10 068 1.0068 Abbildung 2.5 zeigt die ersten fünf Mittelwerte. Abbildung 2.6 zeigt den Pfad der Mittelwerte bei 10 000 simulierten Wurfspielen. In jedem Wurfspiel wird die Münze zweimal geworfen und die Anzahl der ,,Köpfe” bestimmt. Nach jedem Wurfspiel wird der Mittelwert der bisher erzeugten Realisationen von X berechnet. Abbildung 2.6 zeigt, dass der Pfad der Mittelwerte sich mit wachsender Anzahl der Realisationen stabilisiert, gegen einen endgültigen Wert konvergiert. Um zu zeigen, dass dies kein einmaliges Ergebnis war, sind in Abbildung 2.7 drei solcher Mittelwertpfade dargestellt. Wir folgern aus diesen Bildern, dass der Mittelwert mit zunehmender Anzahl von Spielen gegen den Erwartungswert EX = 1 konvergiert. Diese Tatsache l¨asst sich natürlich auch exakt beweisen. 2.1. ERWARTUNGSWERT EINER ZUFALLSVARIABLEN 15 Mittlere Kopfzahl 2.0 1.5 1.0 * * * * 0.5 0.0 0 * 1 2 3 4 5 6 7 8 9 10 Anzahl der Spiele Abbildung 2.5: Pfad der ersten fünf Mittelwerte Mittlere Kopfzahl 2.0 1.5 * * 1.0 * * ** ** * * * ************************* ********************************************************************************************************** *************** * * ** 0.5 0.0 1 10 100 1000 10000 Anzahl der Spiele Abbildung 2.6: Pfad der Mittelwerte bei 10 000 Würfen Diese beiden Interpretationen lassen sich genauso auf stetige Zufallsvariablen anwenden. Definition 2.2 Der Erwartungswert X einer stetigen Zufallsvariablen X mit der Dichtefunktion fX ist definiert als EX = Z∞ xfX (x)dx . −∞ Beispiel 2.2 Die Dichtefunktion einer Zufallsvariablen X sei gegeben durch fX (x) = ( 2x für 0 ≤ x ≤ 1 0 sonst . 16 KAPITEL 2. ERWARTUNGSWERT Mittlere Kopfzahl 2.0 * * 1.5 * 1.0 * * * 0.5 ** * ** *************** * ********* * ** ***** ** **** ** *** ************************************************************************************************************************************************************************************************************************************* ************* * ** * * *** * * * * * **** 0.0 1 10 100 1000 10000 Anzahl der Spiele Abbildung 2.7: Drei Mittelwertpfade in je 10 000 Spielen Der Erwartungswert berechnet sich dann als E(X) = Z∞ xfX (x)dx = −∞ = Z1 0 Z0 −∞ 1 x 0 dx + Z1 0 x 2x dx + Z∞ x 0 dx 1 2 2 2x2 dx = x3 = . 3 3 0 a) Der Erwartungswert ist die x-Koordinate des Schwerpunktes der Dichtefunktion. 2.0 f(x) 1.5 1.0 0.5 0.0 -1 0 E(X) 1 2 Abbildung 2.8: Erwartungswert als Schwerpunkt der Dichtefunktion Stellen Sie sich die Dichtefunktion aus einer Metallplatte gemacht vor. Wenn wir die Dichtefunktion auf eine Kante legten, die genau unter E(X) w¨are, würde die Dichtefunktion die Balance halten. b) Der Erwartungswert ist der Mittelwert sehr vieler Realisationen von X . Um diese zweite Interpretation des Erwartungswertes anzuwenden, betrachten wir X als wöchentliche Auslastung einer Maschine, gemessen als Anteil der möglichen Auslastung. Dann bedeutet also X = 1, dass die Maschine zu 100% ausgelastet und X = 0.5, dass die Maschine zu 50% ausgelastet ist usw.. 2.2. ERWARTUNGSWERT EINER FUNKTION EINER ZUFALLSVARIABLEN 17 Typische Beobachtungen über mehrere Wochen könnten so aussehen: Werte: Summe: Mittelwert: 0.80 0.80 0.80 0.59 1.39 0.70 0.39 1.78 0.59 0.65 2.43 0.61 0.37 2.80 0.56 usw. usw. usw. Abbildung 2.9 zeigt eine graphische Darstellung der ersten fünf Mittelwerte. Mittlere Auslastung 1.0 ** 0.5 *** 0.0 0 1 2 3 4 5 6 7 8 9 10 Anzahl der Wochen Abbildung 2.9: Pfad der ersten fünf Mittelwerte Abbildung 2.10 zeigt uns, dass der Pfad der Mittelwerte, jeweils berechnet als Durchschnitt der bisher vorliegenden Realisationen, mit zunehmender Anzahl der Realisationen gegen den Erwartungswert von X konvergiert. Mittlere Auslastung 1.0 0.8 * **** * ** ******* ************** ******* *********************************************************************** * * * ******** ****** **** 0.6 0.4 * 0.2 0.0 1 10 100 1000 10000 Anzahl der Wochen Abbildung 2.10: Konvergenz der Mittelwerte gegen den Erwartungswert 2.2 Erwartungswert einer Funktion einer Zufallsvariablen Gelegentlich braucht man nicht nur den Erwartungswert der Zufallsvariablen X selbst, sondern auch den Erwartungswert EH(X), wobei H(X) eine Funktion der Zufallsvariablen X ist, z.B. H(X) = X − 3 oder H(X) = (X − 6)2 . 18 KAPITEL 2. ERWARTUNGSWERT Beispiel 2.3 Betrachten Sie folgendes Spiel. Ich werfe zwei faire Münzen. X sei die Anzahl der ,,Köpfe”. Die Spielregeln sind die folgenden: • Sie zahlen 3 Euro, um zu spielen. • Wenn X = 0, verlieren Sie die 3 Euro. X = 1, bekommen Sie 5 Euro (3+2). X = 2, bekommen Sie 4 Euro (3+1). Ihr Gewinn ist eine Funktion von X , die in der folgenden Tabelle aufgelistet ist: X: H(X) : 0 -3 1 +2 2 +1 Wenn Sie vor der Entscheidung stehen, ob Sie dieses Spielangebot annehmen oder nicht, ist es für Sie wichtig, den Erwartungswert von H(X) zu kennen. Bevor wir dieses Beispiel fortsetzen können, ist der Erwartungswert einer Funktion H(X) einer Zufallsvariablen X zu definieren. Definition 2.3 Sei H(X) eine Funktion der Zufallsvariablen X. Der Erwartungswert EH(X) ist definiert durch: EH(X) = X H(x)PX (x) , falls Xdiskret ist, x EH(X) = Z∞ H(x)fX (x)dx , falls Xstetig ist. −∞ Für das obige Beispiel hatten wir die Wahrscheinlichkeitsfunktion schon in Beispiel 1.1a berechnet. Damit ist der Erwartungswert: EH(X) = 2 X H(x)PX (x) = H(0)PX (0) + H(1)PX (1) + H(2)PX (2) x=0 = (−3)(1/4) + (2)(1/2) + (1)(1/4) = 1/2 Euro (= 50Cent pro Spiel) Im Mittel gewinnen Sie also 50 Cent pro Spiel. Auf lange Sicht lohnt sich also das Spiel für Sie. Wenn Sie dagegen nur ein einziges Mal spielen, ist die Wahrscheinlichkeit 1/4, dass Sie Ihre 3 Euro verlieren werden. Beispiel 2.4 Die stetige Zufallsvariable X besitze die Dichtefunktion aus Beispiel 2.2, d.h. fX (x) = ( 2x 0 ≤ x ≤ 1 0 sonst . 2.3. MOMENTE 19 Die Funktion H(X) sei gegeben durch H(X) = X 2 . Dann ist der Erwartungswert von H(X) EH(X) = Z1 2 x 2x dx = 0 Z1 0 2 1 1 2x dx = x4 = . 4 0 2 3 Nützlich sind die folgenden Rechenregeln für Erwartungswerte, die sich aus den entsprechenden Regeln für Summen bzw. Integrale ergeben. Satz 2.1 (Rechenregeln für Erwartungswerte) a) Ec = c, wenn c eine Konstante ist. b) EcH(X) = cEH(X), insb. EcX = cEX. c) E(H(X) + G(X)) = EH(X) + EG(X), von X ist, insb. E(X + c) = EX + c. Beweis: H(X) = c, Ec = R∞ cf (x)dx = c −∞ Z∞ −∞ | wenn G(X) eine weitere Funktion f (x)dx = c. {z 1 } Auf die weiteren Beweise verzichten wir hier. 2.3 Momente Wichtige Funktionen einer Zufallsvariablen X sind die Potenzen X k , d.h. H(X) = X k . Definition 2.4 µ0k = EX k heißt das k-te Moment von X. Es gilt: • 1. Moment: µ01 = EX ... µ01 ≡ µ ♦ 20 KAPITEL 2. ERWARTUNGSWERT • 2. Moment µ02 = EX 2 • 3. Moment µ03 = EX 3 Sind alle Momente einer Zufallsvariablen bekannt, so ist dadurch die Verteilung dieser Zufallsvariablen eindeutig bestimmt. Es ist µ0k = EX k = µ0k = EX k = Z X x ∞ −∞ xk PX (x), falls X diskret ist, xk fX (x)dx, falls X stetig ist. (2.1) (2.2) Eine weitere wichtige Funktion einer Zufallsvariablen ist H(X) = (X − µ)k . Definition 2.5 µk = E(X − µ)k heißt das k-te zentrale Moment von X, auch zentriertes Moment oder Moment um den Erwartungswert. Erstes zentrales Moment: µ1 = E(X − µ) = EX − Eµ = µ − µ = 0 . Zweites zentrales Moment: µ2 = E(X − µ)2 ≡ Var X ≡ σ 2 . Das zweite zentrale Moment stimmt also mit der Varianz überein, die wir abkürzend auch mit σ 2 bezeichnen. Drittes zentrales Moment: µ3 = E(X − µ)3 . 2.4 Die Varianz einer Zufallsvariablen Besonders wichtig ist das zweite zentrale Moment µ2 = E(X −µ)2 , da es gleich der Varianz von X ist: 2 µ2 = σ X = E(X − EX)2 = V arX . Nützlich zur Berechnung von Varianzen ist die folgende Regel: Satz 2.2 µ2 = V arX = EX 2 − (EX)2 2.4. DIE VARIANZ EINER ZUFALLSVARIABLEN 21 Beweis: µ2 = E(X − µ)2 = E(X 2 − 2µX + µ2 ) = EX 2 − E(2µX) + Eµ2 = EX 2 − 2µEX + µ2 = EX 2 − 2(EX)2 + (EX)2 = EX 2 − (EX)2 ♦ Beispiel 2.5 In den Beispielen 2.2 und 2.4 hatten wir den Erwartungswert EX bzw. EX 2 einer stetigen Zufallsvariablen mit der Dichtefunktion fX (x) = ( 2x 0 ≤ x ≤ 1 0 sonst berechnet. Es war und EX 2 = 1/2 . EX = 2/3 Damit ist nach der Regel aus Satz 2.2 VarX = 1/2 − (2/3)2 = 1/18 . Dies ist i.allg. einfacher als Z1 0 (x − 2/3)2 2xdx = . . . = 1/18 . Wichtig sind die folgenden Rechenregeln für Varianzen, die aus den Rechenregeln für Erwartungwerte folgen. Satz 2.3 (Rechenregeln für Varianzen) Sei c eine Konstante. Dann gilt: a) V ar(c) = 0 b) V ar(cX) = c2 V arX c) V ar(X + c) = V arX Beweis: a) Es ist Ec = c und Ec2 = c2 , d.h. V ar(c) = c2 − c2 = 0 . 22 KAPITEL 2. ERWARTUNGSWERT b) V ar(cX) = E(cX)2 − (E(cX))2 = E(c2 X 2 ) − c2 (EX)2 = c2 (EX 2 − (EX)2 ) = c2 V arX c) V ar(X + c) = E(X + c − E(X + c))2 = E(X + c − EX − c)2 = E(X − EX)2 = V arX ♦ Diese Formeln kann man sich auch auf anschauliche Weise merken. Die Quadratwurzel aus der Varianz ist die Standardabweichung einer Zufallsvariablen und misst die Breite einer Verteilung oder die Streuung einer Zufallsvariablen. Die Varianz ist also das Quadrat eines Streuungsmaßes. Es ist doch nur vernünftig, dass a) die Streuung einer Konstanten, d.h. einer Zufallsvariablen, die nur einen einzigen Wert annehmen kann, Null ist, b) ein Streuungsmaß mit dem Faktor c, also das Quadrat eines Streuungsmaßes mit dem Faktor c2 zu multiplizieren ist, wenn ich jeden möglichen Wert dieser Zufallsvariablen mit einem Faktor c multipliziere, c) sich ein Streuungsmaß nicht ändert, wenn ich den Wertebereich einer Zufallsvariablen um eine Konstante c verschiebe. Kapitel 3 Stetige Verteilungen 3.1 Rechteckverteilung Für die Rechteckverteilung benutzen wir die Notation U (a; b). Der Buchstabe U rührt von der englischen Bezeichnung Uniform her. Wir wollen aber nicht Gleichverteilung oder gleichmäßige Verteilung sagen, um keine Verwechslungen mit gleicher Verteilung zu provozieren. Statt gleicher Verteilung werden wir identische Verteilung sagen. Wir schreiben X ∼ U (a; b) , wenn eine Zufallsvariable X eine Rechteckverteilung besitzt. Dabei sind a und b zwei Parameter, für die a < b gelten muss. Definition 3.1 Die Dichtefunktion der Rechteckverteilung ist gegeben durch: fX (x) = ( 1 b−a 0 für a ≤ x ≤ b sonst . Der Verlauf der Dichtefunktion (siehe Abbildung 3.1) entspricht einem Rechteck über dem Intervall [a, b]. Die Standardform der Rechteckverteilung oder Standardrechteckverteilung U (0; 1), die große Bedeutung bei der Erzeugung von Zufallszahlen hat, hat die Parameter a = 0 und b = 1. Satz 3.1 Die Verteilungsfunktion der Rechteckverteilung ist: FX (t) = 0 t−a b−a 1 für t < a für a ≤ t ≤ b für t > b . 23 24 KAPITEL 3. STETIGE VERTEILUNGEN 1/(b-a) a b Abbildung 3.1: Dichtefunktion der Rechteckverteilung Beweis: FX (t) = Zt fX (x)dx = −∞ 0 Rt a 1 dx b−a = t−a b−a 1 für t<a für a≤t≤b für t>b. ♦ Abbildung 3.2 zeigt die Verteilungsfunktion. Es handelt sich also um eine Gerade mit der Steigung 1/(b − a). Wir wollen jetzt den Erwartungswert und die Varianz einer Rechteckverteilung bestimmen. Satz 3.2 Sei X eine Zufallsvariable mit einer Rechteckverteilung mit den Parametern a und b. Dann gilt EX = b+a 2 V arX = und (b − a)2 . 12 Beweis: EX = Z∞ xfX (x)dx = −∞ = 2 EX = Zb a " x2 1 2 b−a #b Za −∞ = a " x · 0 dx + a 1 x dx + b−a Z∞ b x · 0 dx 1 b2 − a 2 b+a = . 2 b−a 2 1 1 x3 x dx = b−a b−a 3 2 Zb #b a 1 b3 − a 3 1 = = (a2 + ab + b2 ) . 3 b−a 3 3.1. RECHTECKVERTEILUNG 25 Nach Satz 2.2 gilt dann !2 1 a+b V arX = EX − (EX) = (a2 + ab + b2 ) − 3 2 2 2 2 2 2 a − 2ab + b2 4(a + ab + b ) − 3(a + 2ab + b ) = = 12 12 (b − a)2 = . 12 2 2 ♦ 1 a b Abbildung 3.2: Verteilungsfunktion der Rechteckverteilung Für Anwendungen wichtig ist das folgende Resultat: Satz 3.3 Sei X eine Zufallsvariable mit einer streng monotonen Verteilungsfunktion FX (x). Die Zufallsvariable U = FX (X) ist dann verteilt wie U (0; 1),d.h. U ∼ U (0; 1) . Beweis: Die Verteilungsfunktion von U ist FU (u) = P ({U ≤ u}) = P ({FX (X) ≤ u}) = P ({FX−1 (FX (X)) ≤ FX−1 (u)}) = P ({X ≤ FX−1 (u)}) = FX (FX−1 (u)) = u 0≤u≤1. Dies ist die Verteilungsfunktion einer U (0; 1) Zufallsvariablen. Im vorletzten Schritt wurde die Definition der Verteilungsfunktion von X (FX (t) = P ({X ≤ t})) benutzt. ♦ Anschaulich kann man sich den obigen Sachverhalt wie folgt vorstellen. Abbildung 3.3 zeigt die Verteilungsfunktion FX (x). Von den auf der x-Achse angedeuteten Realisationen der 26 KAPITEL 3. STETIGE VERTEILUNGEN Zufallsvariablen X geht man dann in Pfeilrichtung zu den entsprechenden Werten der Verteilungsfunktion, die man an der u-Achse abliest. Dies sind dann die Realisationen der Zufallsvariablen U . 1.0 0.8 u 0.6 0.4 0.2 0.0 -4 -2 0 x 2 4 Abbildung 3.3: Zur Konstruktion der Zufallsvariablen U Angewendet wird der Satz wie folgt: Wenn wir eine Verteilung FX (x) für die Daten x1 , x2 , ..., xn postulieren, dann müssen u1 = FX (x1 ), u2 = FX (x2 ), ..., un = FX (xn ) U (0; 1)-verteilt sein. Wir können dies z.B. durch graphische Darstellungen (wie Histogramm) oder durch andere statistische Verfahren überprüfen. Ein Histogramm sollte etwa so aussehen, wie das in Abbildung 3.4 dargestellte Histogramm. 2.0 1.5 1.0 0.5 0.0 0.0 0.2 0.4 0.6 0.8 1.0 x Abbildung 3.4: Histogramm der u1 , u2 , ..., un (n = 100) Das Histogramm in Abbildung 3.4 wurde mit folgenden R-Befehlen erzeugt: u<-runif(100) # erzeugt 100 U(0,1)-Zufallszahlen hist(u, probability=T) # zeichnet Histogramm Stellt man sich die empirische Verteilungsfunktion der u1 , u2 , . . . , un graphisch dar, so sollte sich ungefähr eine Gerade mit der Steigung 1 wie in Abbildung 3.5 ergeben. Die Abbildung 3.5 wurde mit den folgenden R-Befehlen erzeugt. 3.1. RECHTECKVERTEILUNG 27 u<-sort(runif(100)) # erzeugt und sortiert 100 U(0,1)-ZZ y<-(1:100)/100 # bildet Folge 1/100, 2/100, ..., 100/100 plot(u, y, type="s", ylab="F n") # plottet emp. Vertfkt. abline(0,1) # zeichnet Diagonale 1.0 Fn(u) 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 u Abbildung 3.5: Empirische Verteilungsfunktion der u1 , u2 , ..., un (n = 100) Beispiel 3.1 (Verteilung des P-Wertes unter der Nullhypothese) Sei X die Prüfgröße in einem Hypothesentest. Die Verteilungsfunktion der Prüfgröße unter der Nullhypothese sei FX . Der P-Wert bei einem einseitigen Hypothesentest ist dann FX (X) oder 1 − FX (X) , je nachdem, ob der Ablehnungsbereich links oder rechts liegt. Der P-Wert ist eine Zufallsvariable. Es folgt aus Satz 3.3, dass der P-Wert unter der Nullhypothese eine U (0; 1)-Verteilung besitzt. H¨aufig ist die exakte Verteilung einer Prüfgröße nicht bekannt. Man kann dann meistens nur eine asymptotische Verteilung der Prüfgröße unter der Nullhypothese angeben. In Böker (1996) und Böker und Dannenberg (1995, 1996) werden eine Reihe von graphischen Verfahren betrachtet, mit denen man überprüfen kann, wie gut diese Approximation ist. Dazu werden Prüfgrößen unter der Nullhypothese simuliert und die P-Werte mit Hilfe der asymptotischen Verteilung berechnet. Diese P-Werte sollten sich verhalten wie Realisationen U (0; 1)-verteilter Zufallsvariablen. Man kann insbesondere überprüfen, ob die Prüfgrößen gewisse gewünschte Signifikanzniveaus einhalten können. Der folgende Satz ist gewissermaßen die Umkehrung des vorangehenden Satzes. Satz 3.4 Sei U ∼ U (0; 1) und F (x) eine streng monotone Verteilungsfunktion. Dann hat die Zufallsvariable X = F −1 (U ) die Verteilungsfunktion F (x). 28 KAPITEL 3. STETIGE VERTEILUNGEN Beweis: P ({X ≤ x}) = P ({F −1 (U ) ≤ x}) = P ({F (F −1 (U )) ≤ F (x)}) = P ({U ≤ F (x)}) = FU (F (x)) = F (x) . Im letzten Schritt, wurde benutzt, dass P ({U ≤ F (x)}) die Verteilungsfunktion von U an der Stelle F (x), also gleich F (x) ist. ♦ Der Inhalt dieses Satzes wird durch Abbildung 3.6 veranschaulicht. Dort ist wieder die Verteilungsfunktion F (x) dargestellt. Jetzt geht man jedoch den umgekehrten Weg. Man geht von Realisationen der Rechteckverteilung U (0; 1) auf der Ordinate, der u-Achse, aus, geht dann in Pfeilrichtung zur Verteilungsfunktion FX (x) und bestimmt dann auf der Abszisse den zugehörigen x-Wert. 1.0 0.8 u 0.6 0.4 0.2 0.0 -4 -2 0 x 2 4 Abbildung 3.6: Zur Konstruktion der Zufallsvariablen X mit Verteilungsfunktion F (x) Der Satz 3.4 findet Anwendung bei der Erzeugung von Zufallszahlen mit der Verteilungsfunktion F (x). • Es ist leicht U (0; 1)-Zufallszahlen, besser sollte man Pseudo-Zufallszahlen sagen, zu erzeugen. Das sind Zahlen, die sich, ,,wenigstens annähernd” so verhalten wie ,,echte” Realisationen U (0; 1)-verteilter Zufallsvariablen. Jeder Rechner hat solch ein Verfahren implementiert. Dabei wird häufig die lineare Kongruenz-Methode benutzt. Seien u1 , u2 , . . . , u n auf diese Weise gegeben. • Man bilde x1 = F −1 (u1 ), x2 = F −1 (u2 ), . . . , xn = F −1 (un ) . Dann verhalten sich x1 , x2 , . . . , xn wie Realisationen von Zufallsvariablen mit der Verteilungsfunktion F (x). Beispiel 3.2 (Erzeugung exponentialverteilter Zufallsvariablen) Es sollen (Pseudo)-Zufallszahlen erzeugt werden, die sich verhalten wie ,,echte” Realisationen exponentialverteilter Zufallsvariablen. Die Verteilungsfunktion der Exponentialverteilung mit dem Parameter λ(λ > 0) ist F (x) = 1 − e−λx . 3.2. NORMALVERTEILUNG 29 Um die Umkehrfunktion F −1 zu bestimmen, setzen wir u = 1 − e−λx . Diese Gleichung ist nach x aufzulösen: x = − log(1 − u)/λ = F −1 (u) . Speziell für λ = 1 ist x = − log (1 − u) . (3.1) In der folgenden Tabelle stehen einige Werte von u, die mit dem R-Befehl runif(5) erzeugt wurden. Die x-Werte wurden nach Gleichung (3.1) erzeugt. u x 0.42 0.54 0.31 0.37 0.87 2.04 0.17 0.19 0.69 1.17 R-Befehle zur Rechteckverteilung dunif(x, min=0, max=1) berechnet die Dichtefunktion der Rechteckverteilung an der Stelle x, wobei x ein Vektor ist. Defaultmäßig (min=0, max=1) wird die Dichte der Standardrechteckverteilung berechnet. Durch Veränderung der optionalen Argumente min und max kann die Dichtefunktion für beliebige Parameter a und b berechnet werden. punif(q, min=0, max=1) berechnet die Verteilungsfunktion der Rechteckverteilung mit den Parametern a =min und b =max an der Stelle q, wobei q ein Vektor ist. qunif(p, min=0, max=1) berechnet die Umkehrfunktion der Verteilungsfunktion der Rechteckverteilung mit den Parametern a =min und b =max an der Stelle p, wobei p ein Vektor von Wahrscheinlichkeiten, also Zahlen zwischen 0 und 1, ist. runif(n, min=0, max=1) erzeugt n rechteckverteilte Zufallszahlen im Intervall [0, 1]. 3.2 Normalverteilung Definition 3.2 Die Dichtefunktion der Normalverteilung ist gegeben durch fX (x) = √ 1 2 2 e−(x−µ) /2σ 2 2πσ für −∞<x<∞. Dabei sind µ und σ 2 Parameter, für die gelten muss −∞ < µ < ∞ und σ2 > 0 . 30 KAPITEL 3. STETIGE VERTEILUNGEN Man schreibt dafür X ∼ N (µ; σ 2 ) . Für µ = 0 und σ 2 = 1 erhält man die Standardnormalverteilung, deren Dichte durch 1 2 fX (x) = √ e−x /2 2π −∞<x<∞ für gegeben ist. Man schreibt dann X ∼ N (0; 1) . Abbildung 3.7 zeigt die Dichtefunktion der Standardnormalverteilung. 0.5 f(x) 0.4 0.3 0.2 0.1 0.0 -4 -2 0 2 4 6 8 10 x Abbildung 3.7: Dichtefunktion der Standardnormalverteilung Über den Verlauf der Dichtefunktion (siehe Abbildung 3.7) kann man sagen: Die Dichtefunktion hat ihr Maximum an der Stelle µ, sie ist symmetrisch um eine senkrechte Achse bei µ und hat Wendepunkte an den Stellen µ − σ und µ + σ. Der Parameter µ ist ein Lageparameter. Eine Veränderung von µ bei konstantem σ bewirkt nur eine Verschiebung der Dichtefunktion (siehe Abbildung 3.8). 0.5 f(x) 0.4 0.3 0.2 0.1 0.0 -4 -2 0 2 4 6 8 10 x Abbildung 3.8: Dichtefunktion der N(3,1)-Verteilung 3.2. NORMALVERTEILUNG 31 0.5 f(x) 0.4 0.3 0.2 0.1 0.0 -4 -2 0 2 4 6 8 10 x Abbildung 3.9: Dichtefunktion der N(3,4)-Verteilung Dagegen ist σ 2 ein Streuungsparameter. Mit wachsendem σ 2 wird die Kurve flacher und breiter (siehe Abbildung 3.9). Die Verteilungsfunktion der Standardnormalverteilung ist FX (x) = Φ(x) = Zx f (z)dz = −∞ Zx −∞ 1 2 √ e−z /2 dz . 2π Abbildung 3.10 zeigt den Verlauf der Verteilungsfunktion der Standardnormalverteilung. Diese Verteilungsfunktion ist nicht durch eine elementare Funktion darstellbar. Für die Standardnormalverteilung (N (0, 1)) ist die Verteilungsfunktion tabelliert. Das ist wegen des folgenden Satzes ausreichend: Satz 3.5 Ist X verteilt wie N (µ; σ 2 ), so ist Z= X −µ σ verteilt wie N (0, 1). Als Folgerung aus diesem Satz ergibt sich, wenn X ∼ N (µ; σ 2 ) und Z ∼ N (0; 1): P ({a < X < b}) = P ({a − µ < X − µ < b − µ}) )! ( a−µ X −µ b−µ = P < < σ σ σ ( )! a−µ b−µ = P <Z< σ σ ! b−µ a−µ = Φ −Φ , σ σ 32 KAPITEL 3. STETIGE VERTEILUNGEN wobei Φ = FZ die Verteilungsfunktion der Standardnormalverteilung sei, die aus der Tabelle abgelesen werden kann. Manche Tabellen enthalten jedoch Φ(z) nur für z ≥ 0. Dann hat man zu beachten, dass aus Symmetriegründen (siehe Abbildung 3.7 oder 3.10) gilt Φ(−z) = 1 − Φ(z) . 1.0 F(x) 0.8 0.6 0.4 0.2 0.0 -4 -2 0 x 2 4 Abbildung 3.10: Verteilungsfunktion der Standardnormalverteilung Zwischen den Verteilungsfunktionen der N (µ; σ 2 )- und N (0; 1)-Verteilung besteht der folgende Zusammenhang, den wir beweisen wollen, da diese Beweismethode auch in anderen Situationen nützlich sein kann. Satz 3.6 Die Verteilungsfunktion FX einer N (µ; σ 2 )-Verteilung ist x−µ FX (x) = Φ σ −∞<x<∞, wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichne. Beweis: Die Verteilungsfunktion der N (µ; σ 2 )-Verteilung ist FX (x) = Zx −∞ √ Wir substituieren z= 1 2 2 e−(t−µ) /2σ dt . 2 2πσ (t − µ) . σ Dann ist dz 1 = oder dt σ Dabei ändern sich die Grenzen wie folgt: dt = σdz . 3.2. NORMALVERTEILUNG 33 • Wenn t = −∞, ist z = −∞ . • Wenn t = x, ist z = x−µ σ . Damit ist x−µ σ FX (x) = Z −∞ 1 x−µ 2 √ e−z /2 dz = Φ σ 2π . ♦ Beispiel 3.3 Sei X ∼ N (10; 32 ). Die zugehörige Dichtefunktion ist in Abbildung 3.11 dargestellt. 0.3 f(x) 0.2 0.1 0.0 0 5 10 x 15 20 Abbildung 3.11: Dichtefunktion der N(10,9)-Verteilung Die Verteilungsfunktion ist dann x − 10 FX (x) = Φ 3 . Die Wahrscheinlichkeit P (13 ≤ X ≤ 16), die in Abbildung 3.12 als Fl¨ache unterhalb der Dichtefunktion zwischen 13 und 16 dargestellt ist, berechnet sich dann zu: 16 − 10 13 − 10 −Φ 3 3 = Φ(2) − Φ(1) = 0.977 − 0.841 = 0.136 . P ({13 ≤ X ≤ 16}) = FX (16) − FX (13) = Φ Satz 3.7 Für eine normalverteilte Zufallsvariable X ∼ N (µ; σ 2 ) gilt EX = µ und Var(X) = σ 2 . 34 KAPITEL 3. STETIGE VERTEILUNGEN 0.3 f(x) 0.2 0.1 0.0 0 5 10 x 15 20 Abbildung 3.12: P ({13 < X < 16}) als Fläche unterhalb der Dichtefunktion Beweis: Z∞ E(X) = −∞ x√ 1 2 2 e−(x−µ) /2σ dx . 2 2πσ Wir verwenden wieder die Substitution z= x−µ . σ Dann ist dz 1 = dx σ Dabei ändern sich die Grenzen wie folgt. x = zσ + µ oder dx = σdz . • Wenn x = −∞, ist z = −∞ . • Wenn x = ∞, ist z = ∞ . Damit folgt: Z∞ Z∞ 1 1 2 2 E(X) = (zσ + µ) √ e−z /2 σdz = (zσ + µ) √ e−z /2 dz 2π 2πσ 2 −∞ −∞ = Z∞ −∞ | ∞ ∞ Z Z 1 1 1 2 2 2 √ e−z /2 dz = µ . zσ √ e−z /2 dz + µ √ e−z /2 dz = µ 2π 2π 2π −∞ −∞ {z 0 } | {z 1 } Das erste Integral in der zweiten Zeile ist Null, da der Integrand punktsymmetrisch zum Ursprung ist, z.B. ergibt sich für • • z = −1 : z = +1 : 2 (−1)σ √12π e−(−1) /2 2 (+1)σ √12π e−(1) /2 . 3.2. NORMALVERTEILUNG 35 Es gilt also g(z) = −g(−z) , wenn wir den Integranden, dessen Graph in Abbildung 3.13 dargestellt ist, mit g bezeichnen. Das letzte Integral in dieser Zeile ist 1, da es das Integral über die Dichtefunktion der Standardnormalverteilung ist. 0.4 g(z) 0.2 0.0 -0.2 -0.4 -4 -2 0 z 2 4 Abbildung 3.13: Graph der Funktion zσ √12π e−z 2 /2 für σ = 1 Bei der Bestimmung der Varianz verwenden wir wieder die gleiche Substitution wie oben. Zur Berechnung des Integrals in der zweiten Zeile verwenden wir die Regel der partiellen Integration, die hier zur Erinnerung noch einmal aufgeschrieben sei: Zb 0 v(x)w (x)dx = a Z∞ b v(x)w(x) a − Zb 0 v (x)w(x)dx . (3.2) a Z∞ 1 1 2 2 2 Var(X) = (x − µ) √ e−(x−µ) /2σ dx = z2σ2 √ e−z /2 σdz 2 2 2πσ 2πσ −∞ −∞ = σ 2 2 Z∞ −∞ " 1 z 2 2 z · z √ e−z /2 dz = σ 2 − √ e−z /2 2π 2π Bei der partiellen Integration wurde • v(z) = z =⇒ • w 0 (z) = z √12π e−z | {z 0 #∞ +σ −∞ } 2 Z∞ −∞ 1 2 √ e−z /2 dz = σ 2 2π | {z 1 } v 0 (z) = 1 2 /2 =⇒ w(z) = − √12π e−z 2 /2 benutzt. Ferner wurde wiederum benutzt, dass das Integral über eine Dichtefunktion (hier die 2 Standardnormalverteilung) Null ist und dass ze−z /2 → 0, wenn z → ∞. (Dies lässt sich mit den Regeln von L‘Hôspital (Theorem 7.11.1 in Sydsæter und Hammond (2003)) beweisen. Siehe dort auch Formel 7.11.4.) ♦ Die große Bedeutung der Normalverteilung beruht auf folgenden Tatsachen: 36 KAPITEL 3. STETIGE VERTEILUNGEN a) Viele Phänomene sind normalverteilt: z.B. in der Finanzwissenschaft, Astronomie, Ökonometrie, Biologie usw. b) Aufgrund des folgenden Satzes kann man viele Zufallsvariablen durch eine Normalverteilung approximieren. Satz 3.8 (Zentraler Grenzwertsatz) Die Zufallsvariablen X1 , X2 , ..., Xn seien unabhängig und identisch verteilt mit EXi = µ und V arXi = σ 2 < ∞. Sei n P X̄n = n1 Xi . Dann ist i=1 X̄n − µ √ ∼N ˙ (0; 1) . σ/ n Das Zeichen ∼ ˙ bedeutet, die entsprechende Zufallsvariable ist asymptotisch verteilt wie N (0, 1). Man beachte E X̄n = µ und V ar X̄n = σ 2 /n . Der standardisierte Mittelwert ist asymptotisch standardnormalverteilt. Wenn n groß wird, kann die Verteilung von X̄n durch eine Normalverteilung approximiert werden. 3 3 n= 5 2 n = 10 2 1 1 0 0 0 1 2 3 0 Mittelwerte 1 2 3 Mittelwerte 3 3 n = 20 2 n = 50 2 1 1 0 0 0 1 2 Mittelwerte 3 0 1 2 3 Mittelwerte Abbildung 3.14: Histogramme von je 1 000 Mittelwerten in Stichproben der Gr öße n = 5, 10, 20, 50 aus einer exponentialverteilten Grundgesamtheit Abbildung 3.14 veranschaulicht den zentralen Grenzwertsatz. Dort sind die Mittelwerte von je 1 000 Stichproben der Größen n = 5, 10, 20, 50 in einem Histogramm 3.2. NORMALVERTEILUNG 37 dargestellt. Je größer der Stichprobenumfang, desto mehr nähert sich die Form des Histogramms der Dichtefunktion einer Normalverteilung an. c) Oft ist eine Variable die Summe unterschiedlicher Zufallseinflüsse. In solchen Fällen ist die Normalverteilung häufig ein gutes Modell. d) Die theoretischen Eigenschaften sind einfach zu bestimmen. Daher ist die Theorie der Normalverteilung sehr weit entwickelt. e) Die Normalverteilung hat viele angenehme Eigenschaften. So sind Linearkombinationen und insbesondere Summen unabhängiger normalverteilter Zufallsvariablen wieder normalverteilt. f) Abgesehen von einigen Ausnahmen sind Maximum-Likelihood-Schätzer von Parametern asymptotisch normalverteilt. Man benutzt dann diese Eigenschaft bei der Konstruktion von Konfidenzintervallen. g) Die Normalverteilung tritt im Zusammenhang mit sogenannten Wiener-Prozessen auf. Ein Wiener-Prozess ist ein stochastischer Prozess X(t), t ≥ 0 mit stetiger Zeit, d.h. für jedes t gibt es eine Zufallsvariable X(t). Eine der Annahmen des Wiener-Prozesses ist, dass die Zuwächse X(t) − X(s) für s < t normalverteilt sind. Wiener-Prozesse fanden zunächst Anwendung in der Physik, wo die Bewegung eines kleinen Teilchens beschrieben wurde, das einer großen Anzahl kleiner Stöße ausgesetzt ist. In diesem Zusammenhang spricht man von einer Brownschen Bewegung. Wiener-Prozesse werden aber auch als Modell für Aktienkurse angewendet und wurden z.B. bei der Herleitung der Black-Scholes-Formel verwendet, deren Erfinder 1997 mit dem Nobelpreis für Wirtschaftswissenschaften ausgezeichnet wurden. Aufgrund ihrer angenehmen Eigenschaften und der weit entwickelten Theorie wird die Annahme einer Normalverteilung in vielen statistischen Verfahren, wie Varianzanalyse, Regressionsanalyse, Zeitreihenanalyse, Diskriminanzanalyse usw. verwendet. Ein weiterer Vorteil ist es, dass die unter der Annahme der Normalverteilung entwickelten Test- und Schätzverfahren relativ unempfindlich gegenüber Abweichungen von dieser Annahme sind. Man sagt, dass solche Verfahren robust sind. So kommt es z.B. beim t-Test zur Prüfung der Hypothese, dass der Erwartungswert einen bestimmten Wert besitzt, nicht so sehr darauf an, dass die einzelnen Beobachtungen einer Normalverteilung entstammen, sondern mehr, dass der Mittelwert normalverteilt ist, was aufgrund des zentralen Grenzwertsatzes zumindest für große n gewährleistet ist. R-Befehle zur Normalverteilung dnorm(x, mean=0, sd=1) berechnet die Dichtefunktion der Normalverteilung an der Stelle x, wobei x ein Vektor ist. Defaultmäßig (mean=0, sd=1) wird die Dichte der Standardnormalverteilung berechnet. Durch Veränderung der optionalen Argumente mean und sd kann die Dichtefunktion für beliebige Parameter µ und σ 2 berechnet werden. Dabei ist zu beachten, dass sd die Standardabweichung, also die Quadratwurzel aus der Varianz σ 2 ist. Der Erwartungswert µ ist durch mean anzugeben. 38 KAPITEL 3. STETIGE VERTEILUNGEN pnorm(q, mean=0, sd=1) berechnet die Verteilungsfunktion der Normalverteilung mit dem Erwartungswert µ =mean und der Standardabweichung sd an der Stelle q, wobei q ein Vektor ist. Standardmäßig wird P (X ≤ q) berechnet. Mit dem zusätzlichen Argument lower.tail=F wird die Wahrscheinlichkeit P (X > q) berechnet. qnorm(p, mean=0, sd=1) berechnet die Umkehrfunktion der Verteilungsfunktion der Normalverteilung mit dem Erwartungswert µ =mean und der Standardabweichung sd an der Stelle p, wobei p ein Vektor von Wahrscheinlichkeiten, also Zahlen zwischen 0 und 1, ist. Auch hier kann das Argument lower.tail verwendet werden. rnorm(n, mean=0, sd=1)] erzeugt n normalverteilte Zufallszahlen mit dem Erwartungswert µ =mean und der Standardabweichung sd. 3.3 Gammaverteilung Definition 3.3 Die Gammafunktion ist für ν > 0 definiert durch das Integral Γ(ν) = Z∞ tν−1 e−t dt . (3.3) 0 Für ν = 1 ergibt sich Γ(1) = Z∞ e−t dt = 1 . 0 Wir wenden für ν > 1 auf das Integral in Gleichung (3.3) die Regel der partiellen Integration (siehe Gleichung (3.2)) an. Dabei setzen wir v(t) = tν−1 =⇒ v 0 (t) = (ν − 1)tν−2 und w 0 (t) = e−t =⇒ w(t) = −e−t . Damit folgt Γ(ν) = −tν−1 e−t |∞ 0 | {z 0 } − − Z∞ 0 (ν − 1)t ν−2 −t e dt = (ν − 1) Das bedeutet Γ(ν) = (ν − 1)Γ(ν − 1) . Z∞ 0 | tν−2 e−t dt . {z Γ(ν−1) } 3.3. GAMMAVERTEILUNG 39 Daraus folgt für natürliche Zahlen: Γ(1) Γ(2) Γ(3) Γ(4) .. . Γ(n) = = = = 1 1 · Γ(1) = 1 · 1 = 1 = 1! 2 · Γ(2) = 2 · 1 = 2 = 2! 3 · Γ(3) = 3 · 2 · 1 = 6 = 3! = (n − 1)Γ(n − 1) = (n − 1)(n − 2) · . . . · 2 · 1 = (n − 1)! Satz 3.9 Für natürliche Zahlen n gilt: Γ(n) = (n − 1)! Die Gammafunktion kann mit der R-Funktion gamma(x) berechnet werden. Sie ist in Abbildung 3.15 dargestellt. Gammafunktion 20 Γ(ν) 15 10 5 0 0 1 2 ν 3 4 5 Abbildung 3.15: Der Graph der Gammafunktion 40 KAPITEL 3. STETIGE VERTEILUNGEN Definition 3.4 Die Dichtefunktion der Gammaverteilung ist gegeben durch λν xν−1 e−λx x ≥ 0 Γ(ν) fX (x) = 0 sonst . (3.4) Dabei sind ν und λ Parameter, für die gelten muss ν>0 und λ > 0 . Wir schreiben X ∼ G(ν; λ) , wenn eine Zufallsvariable X eine Gammaverteilung besitzt. Wir wollen nachweisen, dass durch Gleichung (3.7) tatsächlich eine Dichtefunktion definiert wird, d.h. dass das Integral Z∞ 0 λν xν−1 e−λx 1 dx = Γ(ν) Γ(ν) Z∞ ν ν−1 −λx λ x e 0 1 dx = Γ(ν) Z∞ (λx)ν−1 e−λx λdx (3.5) 0 den Wert 1 hat, d.h. das ganz rechts stehende Integral muss Γ(ν) ergeben. Wir verwenden die Substitution t = λx =⇒ dt = λdx . Die Grenzen ändern sich wie folgt: • Wenn x = 0, ist t = 0 . • Wenn x → ∞, gilt auch t → ∞ . Damit ergibt sich für das obige Integral in Gleichung (3.5) 1 Γ(ν) Z∞ 0 | tν−1 e−t dt = 1 . {z Γ(ν) } ♦ Einen wichtigen Spezialfall der Gammaverteilung erhalten wir, wenn der Parameter ν den Wert 1 hat. Dann ist λ1 x1−1 e−λx fX (x) = = λe−λx Γ(1) für x ≥ 0 . 3.3. GAMMAVERTEILUNG 41 Dies ist die Dichte einer Exponentialverteilung mit dem Parameter λ, d.h. G(1; λ) ≡ Exp(λ) . (3.6) Wir werden die Exponentialverteilung später in Abschnitt 3.5 behandeln. Satz 3.10 Es gelte X ∼ G(ν; λ) . Dann gilt EX = ν/λ und V arX = ν/λ2 . Die Abhängigkeit der Dichtefunktion von den Parametern ν und λ können Sie den Abbildungen 3.16 - 3.19 entnehmen. 1.0 0.5 f(x) 0.8 0.6 1 0.4 1.5 2 0.2 0.0 0 5 10 15 x Abbildung 3.16: Dichtefunktionen der Gammaverteilung mit λ = 1 und ν = 0.5, 1, 1.5 und 2 Man entnimmt diesen Abbildungen, dass der Parameter ν für die Gestalt oder die Form der Dichtefunktion verantwortlich ist. In der englischen Literatur sagt man, dass ν ein ‘shape’Parameter ist, während λ ein ‘scale’-Parameter ist, d.h. λ bestimmt die Skala oder die Breite der Dichtefunktion. R-Befehle zur Gammaverteilung: Beachten Sie bitte, dass der scale-Parameter in R in unserer Bezeichnungsweise das Inverse des Parameters λ ist, d.h. R verwendet die Dichtefunktion der Gammaverteilung in der Form: Dabei ist a = ν und b = 1/λ. xa−1 e−x/b x ≥ 0 ba Γ(a) fX (x) = 0 sonst . (3.7) dgamma(x, shape,scale=1) berechnet die Dichtefunktion der Gammaverteilung mit den Parametern λ = 1 und ν =shape an der Stelle x. Dabei kann x ein Vektor sein. 42 KAPITEL 3. STETIGE VERTEILUNGEN 1.0 0.8 f(x) 0.5 0.6 0.4 1 1.5 0.2 2 0.0 0 5 10 15 x Abbildung 3.17: Dichtefunktionen der Gammaverteilung mit λ = 1/2 und ν = 0.5, 1, 1.5 und 2 1.0 f(x) 0.8 0.6 1 0.4 0.2 0.5 0.25 0.0 0 5 10 15 x Abbildung 3.18: Dichtefunktionen der Gammaverteilung mit ν = 1 und λ = 1, 0.5 und 0.25 pgamma(q, shape,scale=1) berechnet die Verteilungsfunktion der Gammaverteilung mit den Parametern λ = 1 und ν =shape an der Stelle q. Dabei kann q ein Vektor sein. qgamma(p, shape,scale=1) berechnet die Umkehrfunktion der Verteilungsfunktion der Gammaverteilung mit den Parametern λ = 1 und ν =shape an der Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein. rgamma(n, shape,scale=1) erzeugt n gammaverteilte Zufallszahlen mit den Parametern λ = 1 und ν =shape. Anwendungen der Gammaverteilung a) Wir betrachten einen Poissonprozess. Das ist eine Folge von zufälligen Punkten (Ereignissen) auf der positiven reellen Zahlenachse, unter der man sich häufig die Zeit vorstellt. Bedingungen unter denen, eine solche zufällige Folge von Punkten ein Poissonprozess ist, werden an anderer Stelle betrachtet (siehe S. 52). Die Wartezeit (siehe 3.3. GAMMAVERTEILUNG 43 1.0 f(x) 0.8 0.6 1 0.4 0.5 0.2 0.25 0.0 0 5 10 15 x Abbildung 3.19: Dichtefunktionen der Gammaverteilung mit ν = 1.5 und λ = 1, 0.5 und 0.25 Abbildung 3.20) bis zum ν-ten (ν muss eine ganze Zahl sein) Ereignis eines Poissonprozesses ist G(ν; λ)-verteilt. Wν ∼ G(ν; λ) b) Die Gammaverteilung der Wartezeiten bis zum ν-ten Ereignis eines Poissonprozesses folgt aus dem folgenden Resultat. Die Zeiten zwischen Ereignissen eines Poissonprozesses sind nämlich unabhängig und identisch exponentialverteilt. Satz 3.11 Wenn X1 , X2 , ..., Xν unabhängig und identisch exponentialverteilt sind, d.h. Xi ∼ Exp(λ), ist ν X i=1 Xi ∼ G(ν; λ) . Beispiel 3.4 Sie haben eine Netzkarte und eine Ersatzkarte. Die Lebensdauern der einzelnen Karten seien exponentialverteilt mit Parameter λ = 1/500 Tage. Wir suchen eine Antwort auf die Frage: Wie groß ist die Wahrscheinlichkeit, dass Sie in einem Jahr keine zus¨atzliche Netzkarte brauchen, d.h. dass die Netzkarte und die Ersatzkarte zusammen für mindestens 1 Jahr reichen? Sei X1 die Lebensdauer der Netzkarte. Sei X2 die Lebensdauer der Ersatzkarte. Die Lebensdauer beider Karten zusammen ist X = X 1 + X2 , und die gesuchte Wahrscheinlichkeit ist P ({X > 365}) . 44 KAPITEL 3. STETIGE VERTEILUNGEN Poissonprozess W1 W2 W3 Zeit Abbildung 3.20: Wartezeiten bei einem Poissonprozess Aufgrund unserer Annahmen über die Verteilungen von X1 und X2 und des Satzes 3.11 gilt X ∼ G(2; 1/500) . Abbildung 3.21 zeigt die Dichtefunktion von X und die gesuchte Wahrscheinlichkeit als schraffierte Fl¨ache unterhalb der Dichtefunktion. Sie können diese Wahrscheinlichkeit mit dem RBefehl 1-pgamma (365, 2, 500) oder pgamma(365,2,500,lower.tail=F) berechnen. Es gilt P ({X > 365}) = 0.8337 . c) Für ganzzahliges ν wird die Gammaverteilung (G(ν; λ)) auch als Erlangverteilung bezeichnet. 3.4 Chiquadratverteilung Die aus der Grundvorlesung bekannte Chiquadratverteilung ist ein Spezialfall der Gammaverteilung. Satz 3.12 Die Gammaverteilung mit den Parametern ν = n/2 und λ = 1/2 stimmt mit der χ2 -Verteilung mit dem Parameter n überein. Dabei ist n eine positive ganze Zahl. 3.4. CHIQUADRATVERTEILUNG 45 8 7 10 000*f(x) 6 5 4 3 2 P({X>365}) 1 0 0 1000 2000 3000 4000 5000 x Abbildung 3.21: P ({X > 365}) als Fläche unterhalb der Dichtefunktion Die χ2 -Verteilung hat einen Parameter n. Wir schreiben X ∼ χ2n oder X ∼ χ2 (n) , wenn X eine χ2 -Verteilung mit dem Parameter n besitzt und sagen: X hat eine χ2 -Verteilung mit n Freiheitsgraden. Die Dichtefunktion der χ2 -Verteilung mit n Freiheitsgraden ist xn/2−1 e−x/2 x ≥ 0 f (x) = 2n/2 Γ(n/2) 0 sonst . Aus Satz 3.10 erhalten wir sofort: Satz 3.13 Sei X ∼ χ2n . Dann gilt EX = n und V arX = 2n . Beweis: Nach Satz 3.12 gilt χ2n ≡ G(n/2; 1/2) . Erwartungswert und Varianz einer Gammaverteilung waren in Satz 3.10 angegeben. Mit ν = n/2 und λ = 1/2 folgt ν n/2 EX = = =n λ 1/2 und V arX = ν n/2 = = 2n . 2 λ (1/2)2 46 KAPITEL 3. STETIGE VERTEILUNGEN Die Abbildungen 3.22 - 3.24 zeigen einige Dichtefunktionen der χ 2 -Verteilung mit wachsender Anzahl der Freiheitsgrade. Beachten Sie bei diesen Abbildungen die unterschiedlichen Achsenskalierungen. Ab n = 3 Freiheitsgraden hat die χ2 -Verteilung eine ganz typische Form, die sich mit wachsenden Freiheitsgraden der Normalverteilung annähert, dabei verschiebt sich die Kurve weiter nach rechts. Für n = 2 Freiheitsgrade stimmt die χ 2 -Verteilung mit der Exponentialverteilung mit dem Parameter λ = 1/2 überein (siehe Satz 3.12 und Gleichung (3.6)). 1.0 0.8 f(x) 1 0.6 0.4 2 0.2 3 4 0.0 0 5 10 15 x Abbildung 3.22: Dichtefunktionen der χ2 -Verteilung 0.10 10 15 0.08 f(x) 20 0.06 30 0.04 0.02 0.0 0 20 40 60 x Abbildung 3.23: Dichtefunktionen der χ2 -Verteilung Anwendungen der χ2 -Verteilung: • Die χ2 -Verteilung tritt häufig als Verteilung von Prüfgrößen bei Hypothesentests auf. • Die Prüfgröße nS 2 σ02 zur Prüfung der Hypothese σ 2 = σ02 , dass die Varianz in einer Grundgesamtheit einen ganz bestimmten Wert σ02 hat, ist χ2 -verteilt mit n − 1 Freiheitsgraden. Dabei ist S2 = n 1X (Xi − X̄)2 n i=1 3.4. CHIQUADRATVERTEILUNG 47 0.06 30 40 50 60 f(x) 0.04 0.02 0.0 0 20 40 60 80 100 x Abbildung 3.24: Dichtefunktionen der χ2 -Verteilung die geschätzte Varianz und n der Stichprobenumfang. Die Verteilung gilt exakt unter der Normalverteilungsannahme, andernfalls nur approximativ. • Die Prüfgröße im Anpassungstest von Pearson ist asymptotisch χ 2 -verteilt. Geprüft wird die Hypothese, dass Zufallsvariablen eine ganz bestimmte Verteilung besitzen (z.B. U (0; 1) oder N (0; 1)) oder einer bestimmten Verteilungsfamilie angehören (z.B. Gammaverteilung oder Normalverteilung). • Die Prüfgröße im Unabhängigkeitstest bei Kontingenztafeln ist als Spezialfall des Anpassungstests ebenfalls asymptotisch χ2 -verteilt. • Summen von Quadraten von unabhängigen N (0, 1)-verteilten Zufallsvariablen sind χ2 -verteilt. Solche Summen von Quadraten treten in der Varianzanalyse häufig auf und bilden Zähler und Nenner von F -Prüfgrößen, die Ihnen in den Vorlesungen Lineare Modelle und Ökonometrie begegnen werden. Solche Quotienten führen dann zu einer F -Verteilung. Wir werden an späterer Stelle darauf zurückkommen (S. 85). R-Befehle zur Chiquadratverteilung: dchisq(x, df) berechnet die Dichtefunktion der Chiquadratverteilung mit dem Parameter n =df an der Stelle x. Dabei kann x ein Vektor sein. pchisq(q, df, ncp=0) berechnet die Verteilungsfunktion der Chiquadratverteilung mit dem Parameter n =df an der Stelle q. Dabei kann q ein Vektor sein. Mit dem optionalen Argument ncp wird der Nichtzentralitätsparameter festgelegt. Wir behandeln hier die zentrale Chiquadratverteilung, für die ncp=0 ist. qchisq(p, df) berechnet die Umkehrfunktion der Verteilungsfunktion der Chiquadratverteilung mit dem Parameter n =df an der Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein. rchisq(n, df) erzeugt n chiquadratverteilte Zufallszahlen mit dem Parameter n =df. 48 KAPITEL 3. STETIGE VERTEILUNGEN 3.5 Exponentialverteilung Definition 3.5 Die Dichtefunktion der Exponentialverteilung ist gegeben durch f (x) = ( λe−λx 0 ≤ x < ∞ 0 sonst . Dabei ist λ ein Parameter, für den gelten muss λ>0. Wir schreiben X ∼ Exp(λ) , wenn eine Zufallsvariable X eine Exponentialverteilung mit dem Parameter λ besitzt. In einer alternativen Darstellung, die Sie in der Literatur finden werden, wird anstelle des Parameters λ der Parameter β = 1/λ verwendet. In dieser Darstellung ist dann die Dichtefunktion ( 1 −x/β e 0≤x<∞ f (x) = β 0 sonst . Es sei daran erinnert, dass die Exponentialverteilung ein Spezialfall der Gammaverteilung ist. Eine Gammaverteilung mit dem Parameter ν = 1 ist eine Exponentialverteilung. Exp(λ) ≡ G(1; λ) Abbildung 3.25 zeigt einige Dichtefunktionen in Abhängigkeit vom Parameter λ. 2.0 1.5 f(x) 2 1.0 0.5 1 0.5 0.0 0 1 2 3 4 5 x Abbildung 3.25: Dichtefunktionen der Exponentialverteilung in Abh ängigkeit von λ Die Dichtefunktionen sind monoton fallend, nehmen an der Stelle 0 den Wert des Parameters λ an. 3.5. EXPONENTIALVERTEILUNG 49 1.0 0.8 2 F(x) 1 0.5 0.6 0.4 0.2 0.0 0 1 2 3 4 5 x Abbildung 3.26: Verteilungsfunktionen der Exponentialverteilung in Abh ängigkeit von λ Satz 3.14 Die Verteilungsfunktion der Exponentialverteilung mit dem Parameter λ ist F (t) = ( 0 1 − e−λt t<0 t≥0. für für Beweis: Für t ≥ 0 ist F (t) = Zt f (x)dx = 0 Zt 0 = −e−λt + 1 = 1 − e−λt . 0 ♦ In der alternativen Darstellung gilt: F (t) = t λe−λx dx = −e−λx ( 0 für −t/β 1−e für t<0 t≥0 Abbildung 3.26 zeigt einige Verteilungsfunktionen der Exponentialverteilung in Abhängigkeit des Parameters λ. Obwohl wir Erwartungswert und Varianz der Exponentialverteilung aus denen der Gammaverteilung mit dem Parameter ν = 1 ableiten könnten, wollen wir beide hier explizit berechnen. 50 KAPITEL 3. STETIGE VERTEILUNGEN Satz 3.15 Es gelte X ∼ Exp(λ) . Dann gilt EX = 1 λ EX = Z∞ Beweis: V arX = und xfX (x)dx = −∞ Z∞ 1 . λ2 xλe−λx dx 0 Wir verwenden die Regel der partiellen Integration (siehe Gleichung (3.2) und setzen dabei • v(x) = x =⇒ • w 0 (x) = λe−λx v 0 (x) = 1 =⇒ w(x) = −e−λx Damit gilt EX = = ∞ −xe−λx 0 | 1 λ {z } =0 Z∞ − Z∞ (−e−λx )dx 0 λe−λx dx = 0 | {z =1 1 . λ } Dabei wurde benutzt (siehe Formel (7.11.4) in Sydsæter und Hammond (2003)) , dass lim xe−λx = 0 x→∞ und dass das Integral über eine Dichtefunktion 1 ergibt. Durch zweimalige Anwendung der partiellen Integration erhält man 2 EX = Z∞ x2 λe−λx dx = 2/λ2 0 und damit nach Satz 2.2 V arX = EX 2 − (EX)2 = 2/λ2 − (1/λ)2 = 1/λ2 ♦ In der alternativen Darstellung gilt EX = β und Anwendungen der Exponentialverteilung: V arX = β 2 . 3.5. EXPONENTIALVERTEILUNG 51 a) Die Exponentialverteilung ist ein nützliches Modell für die Lebensdauer von Teilen, die nicht wesentlich ,,altern”, wie elektronische Komponenten oder Fensterscheiben. In diesem Zusammenhang ist die Exponentialverteilung durch die folgende Eigenschaft charakterisiert: Satz 3.16 (Markoffsche Eigenschaft) Sei X die Lebensdauer eines Teiles. Die Zufallsvariable X ist genau dann exponentialverteilt, wenn für alle x und x0 P ({X > x + x0 }|{X > x0 }) = P ({X > x}) (3.8) gilt. Dieser Satz besagt, dass man Individuen (Teilen), deren Lebensdauer einer Exponentialverteilung folgt, ihr Alter nicht anmerkt. Gleichung (3.8) bedeutet, dass die bedingte Wahrscheinlichkeit, den Zeitpunkt x + x0 zu überleben, wenn man weiß, dass der Zeitpunkt x0 bereits überlebt wurde, genau so groß ist wie die Wahrscheinlichkeit, den Zeitpunkt x (von 0 ausgehend) zu überleben. Das bisher erreichte Alter des Individuums hat also keinen Einfluss auf die weiteren Überlebenswahrscheinlichkeiten, z.B. gilt P ({X > (3 + 2) Jahre}|{X > 2 Jahre}) = P ({X > 3 Jahre}) . Das bedeutet die Wahrscheinlichkeit P ({Ein zwei Jahre altes Teil hält sich noch drei weitere Jahre }) ist gleich der Wahrscheinlichkeit P ({Ein neues Teil hält sich drei Jahre }) . Die Exponentialverteilung ist also eine Verteilung ohne Gedächtnis. Auch Gegenstände, die sich wenig verändern, z. B. Teller, haben eine exponentialverteilte Lebensdauer. b) Die Zeitintervalle zwischen Ereignissen eines Poissonprozesses sind exponentialverteilt. Typischerweise sind dies die folgenden Ereignisse: Unfälle, Nachfrage bestimmter Produkte, Stürme, Fluten, Telefonanrufe, radioaktiver Zerfall, usw.. Wir wollen die für einen Poissonprozess charakteristischen Eigenschaften in der folgenden Definition zusammenfassen. 52 KAPITEL 3. STETIGE VERTEILUNGEN Definition 3.6 Ein Poissonprozess liegt vor, wenn die folgenden Eigenschaften erfüllt sind i) Die Wahrscheinlichkeit, dass ein Ereignis in einem Intervall der Länge ∆t vorkommt, ist λ∆t, wobei λ eine Konstante ist. ii) Die Wahrscheinlichkeit, dass zwei oder mehr Ereignisse in einem Intervall der Länge ∆t vorkommen, ist klein im Vergleich zu λ∆t. P ({2 oder mehr Ereignisse in ∆t}) =0 ∆t→0 P ({1 Ereignis in ∆t}) lim iii) Die Ereignisse treten unabhängig auf. Satz 3.17 Die Zeit zwischen zwei Ereignissen in einem Poissonprozess ist exponentialverteilt mit dem Parameter λ. Beweis: Betrachten Sie die Abbildung 3.27. Dort sind zwei Ereignisse durch das Zeichen ∗ dargestellt. | | | | | | | | | | | | | | | | | | | | | 123 n X Abbildung 3.27: Zeitintervall zwischen zwei Ereignissen in einem Poissonprozess Sei X das Zeitintervall zwischen diesen beiden Ereignissen. Die Zeitachse ist in kleine Intervalle der Länge ∆t aufgeteilt. Die Anzahl der Teilintervalle zwischen diesen beiden Ereignissen sei n. Wir müssen zeigen, dass die Verteilungsfunktion von X die einer Exponentialverteilung ist (siehe Satz 3.14). Äquivalent dazu ist der Nachweis, dass P ({X > x}), diese Funktion bezeichnet man auch als Überlebenszeitfunktion, gegeben ist durch P ({X > x}) = ( 0 für −λx e für x<0 x≥0 Für x > 0 gilt P ({X > x}) = P ({kein Ereignis in Intervall 1 und kein Ereignis in Intervall 2 und .. . kein Ereignis in Intervall n}) 3.6. BETAVERTEILUNG 53 = P ({kein Ereignis in Intervall 1}) · P ({kein Ereignis in Intervall 2}) · .. . P ({kein Ereignis in Intervall n}) = (1 − λ∆t) · (1 − λ∆t) · . . . · (1 − λ∆t) | {z n = (1 − λ∆t)n = (1 − λ∆t)x/∆t . } Nun gilt (siehe z.B. Sydsæter und Hammond (2003), Formel (6.11.4) oder (7.10.1)) lim (1 − λ∆t)x/∆t = e−λx . ∆t→0 Damit gilt für x > 0 F (x) = P ({X ≤ x}) = 1 − P ({X > x}) = 1 − e−λx . ♦ R-Befehle zur Exponentialverteilung: dexp(x, rate=1) berechnet die Dichtefunktion der Exponentialverteilung mit dem Parameter λ =rate=1 an der Stelle x. Dabei kann x ein Vektor sein. pexp(q, rate=1) berechnet die Verteilungsfunktion der Exponentialverteilung mit dem Parameter λ =rate an der Stelle q. Dabei kann q ein Vektor sein. qexp(p, rate=1) berechnet die Umkehrfunktion der Verteilungsfunktion der Exponentialverteilung mit dem Parameter λ =rate an der Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein. rexp(n, rate=1) erzeugt n exponentialverteilte Zufallszahlen mit dem Parameter λ =rate. 3.6 Betaverteilung Definition 3.7 Die Betafunktion ist definiert durch B(α, β) = Z1 0 = tα−1 (1 − t)β−1 dt α>0 β>0 Γ(α)Γ(β) . Γ(α + β) Es gibt eine R-Funktion beta(a,b), die die Betafunktion nach der obigen Formel berechnet. 54 KAPITEL 3. STETIGE VERTEILUNGEN Definition 3.8 Die Dichtefunktion der Betaverteilung ist gegeben durch fX (x) = ( xα−1 (1−x)β−1 B(α,β) 0 0≤x≤1 sonst . Die Betaverteilung hat zwei Parameter, für die gelten muss α>0 β>0. und Wir schreiben X ∼ Be(α; β) , wenn X eine Betaverteilung mit den Parametern α und β besitzt. Die Verteilungsfunktion ist für 0 < x < 1 gleich 1 FX (x) = B(α, β) Zx 0 tα−1 (1 − t)β−1 dt . Das Integral auf der rechten Seite der obigen Gleichung ist auch als unvollständiger Betafunktions-Quotient (,,incomplete beta function ratio”) bekannt. Wir werden die Verteilungsfunktion bei Bedarf mit R berechnen (siehe unten). Satz 3.18 Die Zufallsvariable X sei betaverteilt mit den Parametern α und β. Dann gilt E(X) = α α+β und V arX = αβ (α + β)2 (α + β + 1) . Beweis: Im folgenden Beweis benutzen wir den Zusammenhang zwischen der Betafunktion und der Gammafunktion (siehe Definition 3.7). EX = Z1 0 xf (x)dx = Z1 0 xα−1+1 (1 − x)β−1 B(α + 1, β) dx = B(α, β) B(α, β) Γ(α + 1)Γ(β) Γ(α + β) αΓ(α)Γ(α + β) · = Γ(α + 1 + β) Γ(α)Γ(β) Γ(α)Γ(α + β)(α + β) α = α+β = 3.6. BETAVERTEILUNG EX 2 = Z1 55 Z1 2 x f (x)dx = 0 0 B(α + 2, β) xα−1+2 (1 − x)β−1 dx = B(α, β) B(α, β) Γ(α + 2)Γ(β) Γ(α + β) (α + 1)αΓ(α)Γ(α + β) = · = Γ(α + 2 + β) Γ(α)Γ(β) Γ(α)Γ(α + β)(α + 1 + β)(α + β) (α + 1)α = (α + 1 + β)(α + β) Mit Satz 2.2 folgt !2 α (α + 1)α V arX = EX − (EX) = − (α + 1 + β)(α + β) α+β 2 (α + 1)α(α + β) − α (α + 1 + β) = (α + 1 + β)(α + β)2 α3 + α2 + α2 β + αβ − α3 − α2 − α2 β αβ = . = 2 2 (α + β) (α + β + 1) (α + β) (α + β + 1) 2 2 ♦ Abbildung 3.28 zeigt einige Dichtefunktionen der Betaverteilung. Diese Abbildung macht deutlich, wie verschieden die Gestalt der Dichtefunktion in Abhängigkeit der beiden Parameter sein kann. Für α = 1 und β = 1 ergibt sich als Spezialfall die Rechteckverteilung U (0; 1). Für α = β ist die Dichtefunktion symmetrisch zu einer senkrechten Achse durch x = 0.5. Vertauscht man α und β, so wird die Dichtefunktion an der gleichen Achse gespiegelt. Die Betaverteilung kann auch in Abhängigkeit von den Parametern µ und θ dargestellt werden, wobei 1 µ = E(X) und θ= . α+β Da die Betaverteilung nur Werte im Intervall [0, 1] annehmen kann, α > 0 und β > 0 sind, gilt 0<µ<1 und θ>0. Da E(X) = α/(α + β) ist, gilt µ= α α+β und θ= 1 . α+β Umgekehrt gilt: α = µ/θ und β = (1 − µ)/θ . Mit diesen neuen Parametern gilt E(X) = µ und Var(X) = µ(1 − µ)θ/(1 + θ) . Der Parameter θ ist ein Formparameter. Er bestimmt die Gestalt der Dichtefunktion. Abbildung 3.29 zeigt Dichtefunktionen der Betaverteilung in Abhängigkeit von diesen Parametern. 56 KAPITEL 3. STETIGE VERTEILUNGEN 3 3 3 0.5, 3 1, 3 3 2, 3 3, 3 2 2 2 2 1 1 1 1 0 0.0 0.5 1.0 3 0 0.0 0.5 1.0 3 0 0.0 0.5 1.0 3 0.5, 2 1, 2 0 0.0 2, 2 3, 2 2 2 2 1 1 1 1 0.5 1.0 3 0 0.0 0.5 1.0 3 0 0.0 0.5 1.0 3 0.5, 1 1, 1 0 0.0 2, 1 2 2 1 1 1 1 1.0 3 0 0.0 0.5 1.0 3 0 0.0 0.5 1.0 3 0.5, 0.5 1, 0.5 0 0.0 2, 0.5 2 2 1 1 1 1 1.0 0 0.0 0.5 1.0 0 0.0 1.0 3, 0.5 2 0.5 0.5 3 2 0 0.0 1.0 3, 1 2 0.5 0.5 3 2 0 0.0 1.0 3 2 0 0.0 0.5 0.5 1.0 0 0.0 0.5 1.0 Abbildung 3.28: Dichtefunktionen der Betaverteilung Anstelle des Parameters θ wird auch der Parameter ϕ= 1 θ = α+β+1 θ+1 betrachtet. Für diesen Parameter gilt 0 < ϕ < 1. Es ist dann α = µ(1 − ϕ)/ϕ und β = (1 − µ)(1 − ϕ)/ϕ . Mit den Parametern µ und ϕ gilt E(X) = µ und Var(X) = µ(1 − µ)ϕ . Abbildung 3.30 zeigt Dichtefunktionen der Betaverteilung in Abhängigkeit von den Parametern µ und ϕ. 3.6. BETAVERTEILUNG 3 0.33 , 0.1 57 3 0.33 , 0.33 3 0.33 , 0.5 3 2 2 2 2 1 1 1 1 0 0.0 3 0.5 1.0 0.4 , 0.1 0 0.0 3 0.5 1.0 0.4 , 0.33 0 0.0 3 0.5 1.0 0.4 , 0.5 0 0.0 3 2 2 2 2 1 1 1 1 0 0.0 3 0.5 1.0 0.5 , 0.1 0 0.0 3 0.5 1.0 0.5 , 0.33 0 0.0 3 0.5 1.0 0.5 , 0.5 0 0.0 3 2 2 2 2 1 1 1 1 0 0.0 3 0.5 1.0 0.67 , 0.1 0 0.0 3 0.5 1.0 0.67 , 0.33 0 0.0 3 0.5 1.0 0.67 , 0.5 0 0.0 3 2 2 2 2 1 1 1 1 0 0.0 0.5 1.0 0 0.0 0.5 1.0 0 0.0 0.5 1.0 0 0.0 0.33 , 0.67 0.5 1.0 0.4 , 0.67 0.5 1.0 0.5 , 0.67 0.5 1.0 0.67 , 0.67 0.5 1.0 Abbildung 3.29: Dichtefunktionen der Betaverteilung als Funktion von µ und θ Anwendungen der Betaverteilung a) Aufgrund der großen Flexibilität der Gestalt der Dichtefunktion ist die Betaverteilung sehr gut geeignet für stetige Zufallsvariablen, die nur Werte im Intervall (0, 1) annehmen, z.B. als Modell für Anteile. b) Wir werden die Betaverteilung als Modell für die Apriori-Verteilung des Parameters π einer Bernoulli-Verteilung verwenden (siehe S. 192). Die Betaverteilung wird sich als konjugierte Verteilung (siehe Beispiel 10.7) der Binomialverteilung erweisen, und wir werden sie zur Konstruktion der Beta-Binomialverteilung verwenden (siehe S. 176). c) In der ,,Normalverteilungstheorie” erhält man die Betaverteilung als Verteilung von V 2 = X12 /(X12 + X22 ) , 58 KAPITEL 3. STETIGE VERTEILUNGEN 3 0.33 , 0.1 3 0.33 , 0.25 3 0.33 , 0.33 3 2 2 2 2 1 1 1 1 0 0.0 3 0.5 1.0 0.4 , 0.1 0 0.0 3 0.5 1.0 0.4 , 0.25 0 0.0 3 0.5 1.0 0.4 , 0.33 0 0.0 3 2 2 2 2 1 1 1 1 0 0.0 3 0.5 1.0 0.5 , 0.1 0 0.0 3 0.5 1.0 0.5 , 0.25 0 0.0 3 0.5 1.0 0.5 , 0.33 0 0.0 3 2 2 2 2 1 1 1 1 0 0.0 3 0.5 1.0 0.67 , 0.1 0 0.0 3 0.5 1.0 0.67 , 0.25 0 0.0 3 0.5 1.0 0.67 , 0.33 0 0.0 3 2 2 2 2 1 1 1 1 0 0.0 0.5 1.0 0 0.0 0.5 1.0 0 0.0 0.5 1.0 0 0.0 0.33 , 0.5 0.5 1.0 0.4 , 0.5 0.5 1.0 0.5 , 0.5 0.5 1.0 0.67 , 0.5 0.5 1.0 Abbildung 3.30: Dichtefunktionen der Betaverteilung als Funktion von µ und ϕ wobei X12 , X22 unabhängige χ2 -verteilte Zufallsvariablen sind mit den Parametern n1 und n2 . Es gilt dann V 2 ∼ Be(n1 /2; n2 /2) . Da die χ2 -Verteilung ein Spezialfall der Gammaverteilung ist, folgt dieses Resultat aus dem folgenden allgemeineren: Wenn X1 und X2 eine Gammaverteilung mit identischem Parameter λ und ν1 bzw. ν2 besitzen, so gilt: X1 ∼ Be(ν1 ; ν2 ) . X1 + X 2 d) Die Zufallsvariable X besitze eine F -Verteilung (siehe Definition 5.2) mit ν 1 und ν2 Freiheitsgraden, dann gilt: ν1 X ∼ Be(ν1 /2; ν2 /2) . ν2 + ν 1 X 3.6. BETAVERTEILUNG 59 e) Für α = β = 1/2 ergibt sich als Spezialfall die Arcus-Sinus-Verteilung, die in der Theorie der ,,random walks” Anwendung findet. Erfüllen die Parameter α + β = 1 (jedoch α 6= 1/2), so spricht man auch von einer verallgemeinerten Arcus-SinusVerteilung. f) Seien U1 , U2 , . . . Un unabhängig und identisch U (0, 1)-verteilt. Ordnet man die Realisationen u1 , u2 , . . . , un der Größe nach, so dass u(1) ≤ u(2) ≤ u(3) ≤ . . . ≤ u(n) , so nennt man die durch diese Umordnung neu entstehenden Zufallsvariablen U(i) , i = 1, 2, . . . , n die i-ten Ordnungsstatistiken, die ganz allgemein bei der Konstruktion verteilungsfreier Verfahren Anwendung finden. Unter der obigen Annahme der Rechteckverteilung für Ui gilt U(i) ∼ Be(i; n − i + 1) . R-Befehle zur Betaverteilung: dbeta(x, shape1, shape2) berechnet die Dichtefunktion der Betaverteilung mit den Parametern α =shape1 und β =shape2 an der Stelle x. Dabei kann x ein Vektor sein. pbeta(q, shape1, shape2) berechnet die Verteilungsfunktion der Betaverteilung mit den Parametern α =shape1 und β =shape2 an der Stelle q. Dabei kann q ein Vektor sein. qbeta(p, shape1, shape2) berechnet die Umkehrfunktion der Verteilungsfunktion der Betaverteilung mit den Parametern α =shape1 und β =shape2 an der Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein. rbeta(n, shape1, shape2) erzeugt n betaverteilte Zufallszahlen mit den Parametern α =shape1 und β =shape2. Kapitel 4 Diskrete Verteilungen 4.1 Bernoulli-Verteilung Definition 4.1 Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist gegeben durch 1 − π für x = 0 PX (x) = π für x = 1 0 sonst . Die Bernoulli-Verteilung hat einen Parameter π, für den gelten muss 0<π<1. Wir schreiben X ∼ Ber(π) , wenn eine Zufallsvariable X eine Bernoulli-Verteilung besitzt. Eine Bernoulli-verteilte Zufallsvariable X nimmt nur die zwei Werte 0 und 1 an. Dabei spricht man von einem Erfolg, wenn X = 1 ist und von einem Misserfolg, wenn X = 0 ist, wobei mit Erfolg nicht immer ein ,,positives” Ereignis im gewöhnlichen Sprachgebrauch gemeint ist. π 1−π 0 Misserfolg 1 Erfolg Abbildung 4.1: Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung 60 4.2. BINOMIALVERTEILUNG 61 Satz 4.1 Es gelte X ∼ Ber(π) . Dann gilt für den Erwartungswert und die Varianz EX = π und V ar(X) = π − π 2 = π(1 − π) . In Anwendungen der Bernoulli-Verteilung ist die Erfolgswahrscheinlichkeit π gleich einem Anteil in einer Grundgesamtheit (z.B. Besitzt einen Fernseher, kauft ein Produkt, ist krank, wählt ,,Ja” usw.). 4.2 Binomialverteilung Definition 4.2 Die Wahrscheinlichkeitsfunktion der Binomialverteilung ist gegeben durch ( n π x (1 − π)n−x x = 0, 1, 2, ..., n x PX (x) = 0 sonst . Die Binomialverteilung hat zwei Parameter n und π, für die gelten muss n ∈ IN und 0<π<1. Wir schreiben X ∼ b(n; π) , wenn die Zufallsvariable X eine Binomialverteilung besitzt. Satz 4.2 Es gelte X ∼ b(n; π) . Dann gilt für den Erwartungswert und die Varianz EX = nπ und V arX = nπ(1 − π) . Die Abbildungen 4.2 - 4.4 zeigen einige Wahrscheinlichkeitsfunktionen der Binomialverteilung. Achten Sie auf die Symmetrie und die Annäherung an die Normalverteilung mit wachsendem n. 62 KAPITEL 4. DISKRETE VERTEILUNGEN b( 10 ; 0.5 ) 0.4 0.3 0.3 P(x) P(x) b( 10 ; 0.1 ) 0.4 0.2 0.2 0.1 0.1 0.0 0.0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 x x b( 10 ; 0.9 ) 0.4 0.3 0.3 P(x) P(x) b( 10 ; 0.7 ) 0.4 0.2 0.2 0.1 0.1 0.0 0.0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 x x Abbildung 4.2: Wahrscheinlichkeitsfunktionen der Binomialverteilung mit n = 10, π = 0.1, 0.5, 0.7, 0.9 b( 60 ; 0.5 ) 0.20 0.15 0.15 P(x) P(x) b( 60 ; 0.1 ) 0.20 0.10 0.10 0.05 0.05 0.0 0.0 0 10 20 30 40 50 60 0 x x b( 60 ; 0.9 ) 0.20 0.15 0.15 P(x) P(x) b( 60 ; 0.7 ) 0.20 0.10 0.10 0.05 0.05 0.0 0.0 0 10 20 30 40 50 60 x 10 20 30 40 50 60 0 10 20 30 40 50 60 x Abbildung 4.3: Wahrscheinlichkeitsfunktionen der Binomialverteilung mit n = 60, π = 0.1, 0.5, 0.7, 0.9 4.2. BINOMIALVERTEILUNG 63 b( 150 ; 0.1 ) b( 150 ; 0.5 ) 0.10 P(x) P(x) 0.10 0.05 0.0 0.0 0 30 60 90 120 150 0 30 60 90 120 150 x x b( 150 ; 0.7 ) b( 150 ; 0.9 ) 0.10 P(x) 0.10 P(x) 0.05 0.05 0.0 0.05 0.0 0 30 60 90 120 150 0 x 30 60 90 120 150 x Abbildung 4.4: Wahrscheinlichkeitsfunktionen der Binomialverteilung mit n = 150, π = 0.1, 0.5, 0.7, 0.9 Die charakteristische Eigenschaft einer Binomialverteilung wird durch den folgenden Satz ausgedrückt: Satz 4.3 Wenn X1 , X2 , ..., Xn unabhängig und identisch Bernoulli-verteilt sind mit dem Parameter π, dann gilt X= n X i=1 Xi ∼ b(n; π) . Typischerweise erhält man in der folgenden Situation eine Binomialverteilung: Beispiel 4.1 (Anzahl der Erfolge) Der Anteil der Erfolge in einer Grundgesamtheit sei π . Die Zufallsvariable X sei die Anzahl der Erfolge in einer Stichprobe der Größe n. Dann gilt nach Satz 4.3 X ∼ b(n; π) . R-Befehle zur Binomialverteilung: dbinom(x, size, prob) berechnet die Wahrscheinlichkeitsfunktion der Binomialverteilung mit den Parametern n =size und π =prob an der Stelle x. Dabei kann x ein Vektor sein. 64 KAPITEL 4. DISKRETE VERTEILUNGEN pbinom(q, size, prob) berechnet die Verteilungsfunktion der Binomialverteilung mit den Parametern n =size und π =prob an der Stelle q. Dabei kann q ein Vektor sein. qbinom(p, size, prob) berechnet die Umkehrfunktion der Verteilungsfunktion der Binomialverteilung mit den Parametern n =size und π =prob an der Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein. rbinom(n, size, prob) erzeugt n binomialverteilte Zufallszahlen mit den Parametern n =size und π =prob. choose(n,k) berechnet den Binomialkoeffizienten n x . 4.3 Geometrische Verteilung Definition 4.3 Die Wahrscheinlichkeitsfunktion der geometrischen Verteilung ist gegeben durch ( (1 − π)x π x = 0, 1, 2, ... PX (x) = 0 sonst . Die geometrische Verteilung hat einen Parameter π, für den gelten muss 0 < π < 1. Wir schreiben X ∼ Ge(π) , wenn die Zufallsvariable X eine geometrische Verteilung besitzt. Satz 4.4 Es gelte X ∼ Ge(π) . Dann gilt für den Erwartungswert und die Varianz EX = 1−π π und V arX = 1−π . π2 Beispiel 4.2 (Anzahl der Misserfolge vor dem ersten Erfolg) Unabh¨angige Bernoulli-Experimente werden solange durchgeführt, bis der erste Erfolg eintritt. Die Zufallsvariable X sei die Anzahl der Misserfolge vor dem ersten Erfolg bei diesen Bernoulli-Experimenten. Dann gilt X ∼ Ge(π) . In der anschließenden Berechnung der Wahrscheinlichkeitsfunktion werde ein Erfolg mit ,,E” und ein Misserfolg mit ,,M” bezeichnet. 4.3. GEOMETRISCHE VERTEILUNG 65 X 0 1 2 .. . Wahrscheinlichkeit P (E) = π P (M E) = P (M )P (E) = (1 − π)π P (M M E) = P (M )P (M )P (E) = (1 − π)(1 − π)π = (1 − π)2 π .. . x x P (M | M...M {z } E) = P (M ) · . . . · P (M ) P (E) = (1 − π) π | x {z } x Die Wahrscheinlichkeitsfunktion der geometrischen Verteilung kann also als Antwort auf die Frage Wieviele Versuche muss man abwarten, bis man Erfolg hat? aufgefasst werden. Ge( 0.5 ) 1.0 0.8 0.8 0.6 0.6 P(x) P(x) Ge( 0.1 ) 1.0 0.4 0.4 0.2 0.2 0.0 0.0 0 2 4 6 8 101214161820 0 2 4 6 8 101214161820 x x Ge( 0.9 ) 1.0 0.8 0.8 0.6 0.6 P(x) P(x) Ge( 0.7 ) 1.0 0.4 0.4 0.2 0.2 0.0 0.0 0 2 4 6 8 101214161820 0 2 4 6 8 101214161820 x x Abbildung 4.5: Wahrscheinlichkeitsfunktionen der geometrischen Verteilung mit π = 0.1, 0.5, 0.7, 0.9 Die geometrische Verteilung hat eine charakteristische Eigenschaft, die analog ist zu der Charakterisierung der Exponentialverteilung in Gleichung (3.8). Dort haben wir von einer Verteilung ohne Gedächtnis gesprochen. 66 KAPITEL 4. DISKRETE VERTEILUNGEN Satz 4.5 (Markoffsche Eigenschaft) Die geometrische Verteilung ist charakterisiert durch die Eigenschaft P ({X = x + x0 }|{X ≥ x0 }) = P ({X = x}) . Egal, wie viele Misserfolge man beim Warten auf den ersten Erfolg schon erlebt hat, die Verteilung der noch folgenden Misserfolge vor dem ersten Erfolg ändert sich dadurch nicht. R-Befehle zur geometrischen Verteilung: dgeom(x, prob) berechnet die Wahrscheinlichkeitsfunktion der geometrischen Verteilung mit dem Parameter π =prob an der Stelle x. Dabei kann x ein Vektor sein. pgeom(q, prob) berechnet die Verteilungsfunktion der geometrischen Verteilung mit dem Parameter π =prob an der Stelle q. Dabei kann q ein Vektor sein. qgeom(p, prob) berechnet die Umkehrfunktion der Verteilungsfunktion der geometrischen Verteilung mit dem Parameter π =prob an der Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein. rgeom(n, prob) erzeugt n geometrisch verteilte Zufallszahlen mit dem Parameter π =prob. 4.4 Die negative Binomialverteilung Definition 4.4 Die Wahrscheinlichkeitsfunktion der negativen Binomialverteilung ist gegeben durch PX (x) = ( x+r−1 r−1 0 π r (1 − π)x x = 0, 1, 2, . . . sonst . Die negative Binomialverteilung hat zwei Parameter r und π, für die gelten muss r ∈ IN und 0<π<1. Wir schreiben X ∼ N B(r; π) , wenn X eine negative Binomialverteilung mit den Parametern r und π besitzt. Die negative Binomialverteilung tritt typischerweise in der folgenden Situation auf. 4.4. DIE NEGATIVE BINOMIALVERTEILUNG 67 NB( 5 ; 0.3 ) NB( 5 ; 0.5 ) 0.4 0.4 P(x) 0.6 P(x) 0.6 0.2 0.2 0.0 0.0 0 2 4 6 8 101214161820 0 2 4 6 8 101214161820 x x NB( 5 ; 0.7 ) NB( 5 ; 0.9 ) 0.4 0.4 P(x) 0.6 P(x) 0.6 0.2 0.2 0.0 0.0 0 2 4 6 8 101214161820 0 2 4 6 8 101214161820 x x Abbildung 4.6: Wahrscheinlichkeitsfunktionen der negativen Binomialverteilung mit r = 5, π = 0.9, 0.7, 0.5, 0.3 Beispiel 4.3 (Anzahl der Misserfolge vor dem r-ten Erfolg) Unabh¨angige Bernoulli-Experimente werden solange durchgeführt, bis der r -te Erfolg eintritt. Die Zufallsvariable X sei die Anzahl der Misserfolge vor dem r -ten Erfolg bei diesen Bernoulli-Experimenten. Dann gilt X ∼ N B(r; π) . Wir wollen die Wahrscheinlichkeitsfunktion von X bestimmen. Die Zufallsvariable X nimmt genau dann den Wert x an, wenn es vor dem r -ten Erfolg x Misserfolge und r − 1 Erfolge gibt. Nun kann man diese x Misserfolge und r − 1 Erfolge auf verschiedene Weisen (Reihenfolgen) anordnen. Jede Möglichkeit hat die Wahrscheinlichkeit π r (1 − π)x . Die Anzahl der Möglichkeiten, r − 1 Erfolge und x Misserfolge auf x + r − 1 Stellen anzuordnen, ist x+r−1 r−1 ! . Damit gilt P ({X = x}) = P ({r − 1 Erfolge und x Misserfolge vor r-tem Erfolg)} = ! x+r−1 r π (1 − π)x r−1 x = 0, 1, 2, ... . 68 KAPITEL 4. DISKRETE VERTEILUNGEN NB( 2 ; 0.5 ) NB( 5 ; 0.5 ) 0.2 0.2 P(x) 0.3 P(x) 0.3 0.1 0.1 0.0 0.0 0 5 10 15 20 25 30 0 5 10 15 20 25 30 x x NB( 10 ; 0.5 ) NB( 15 ; 0.5 ) 0.2 0.2 P(x) 0.3 P(x) 0.3 0.1 0.1 0.0 0.0 0 5 10 15 20 25 30 0 5 10 15 20 25 30 x x Abbildung 4.7: Wahrscheinlichkeitsfunktionen der negativen Binomialverteilung mit r = 2, 5, 10, 15, π = 0.5 Satz 4.6 Es gelte X ∼ N B(r; π). Dann gilt für den Erwartungswert und die Varianz von X 1−π 1−π EX = r und V arX = r 2 . π π Satz 4.7 Seien X1 , X2 , ..., Xr unabhängig und identisch Ge(π)-verteilt sind, dann gilt X1 + X2 + ... + Xr ∼ N B(r; π) . Beweis: Sei X1 X2 X3 .. . Xr die Anzahl der Misserfolge bis zum 1. Erfolg die Anzahl der Misserfolge zwischen dem 1. und dem 2. Erfolg die Anzahl der Misserfolge zwischen dem 2. und dem 3. Erfolg die Anzahl der Misserfolge zwischen dem (r − 1)-ten und dem r-ten Erfolg. Die einzelnen Zufallsvariablen Xi , i = 1, 2, . . . , r besitzen eine Ge(π)-Verteilung, da man sie jeweils als Anzahl der Misserfolge vor dem ersten Erfolg auffassen kann. Die Summe die- 4.4. DIE NEGATIVE BINOMIALVERTEILUNG 69 ser Zufallsvariablen ist die Anzahl der Misserfolge bis zum r-ten Erfolg und besitzt demnach eine N B(r; π)-Verteilung. ♦ Beispiel 4.4 Sei r = 3. Vor dem dritten Erfolg gebe es die folgende Anordnung von Erfolgen und Misserfolgen. 000 1 0000 0 1 |{z} | {z } 1 |{z} X1 X2 X3 Dann ist die Anzahl der Misserfolge bis zum dritten Erfolg X =3+4+1=8 . Die Abbildungen 4.6 und 4.7 zeigen die Vielseitigkeit der Gestalt der negativen Binomialverteilung, die sich daher in Anwendungen gut zum Anpassen an gegebene Daten eignet (siehe Johnson, Kotz und Kemp (1992), dort werden auch Literaturangaben zu Anwendungen aus dem ökonomischen Bereich gegeben). Sie weist im Vergleich zur Poissonverteilung größere Flexibilität auf. Dabei braucht r keine natürliche Zahl zu sein. Man kann die negative Binomialverteilung für beliebiges positives reelles r definieren. Dazu muss man die in der Definition der Binomialkoeffizienten auftretenden Fakultäten durch die Gammaverteilung definieren. Wenn n keine natürliche Zahl ist, so definiert man aufgrund des Satzes 3.9 n! = Γ(n + 1) . Als weitere Anwendung werden wir die negative Binomialverteilung im Zusammenhang mit Mischverteilungen (siehe Kapitel 9.3.2) und Bayes’schen Verfahren kennenlernen, denn sie ist die prädiktive Verteilung einer Poissonverteilung, deren Parameter gammaverteilt ist (siehe Satz 10.8). R-Befehle zur negativen Binomialverteilung: dnbinom(x, size, prob) berechnet die Wahrscheinlichkeitsfunktion der negativen Binomialverteilung mit den Parametern r =size und π =prob an der Stelle x. Dabei kann x ein Vektor sein. pnbinom(q, size, prob) berechnet die Verteilungsfunktion der negativen Binomialverteilung mit den Parametern r =size und π =prob an der Stelle q. Dabei kann q ein Vektor sein. qnbinom(p, size, prob) berechnet die Umkehrfunktion der Verteilungsfunktion der negativen Binomialverteilung mit den Parametern r =size und π =prob an der Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein. rnbinom(n, size, prob) erzeugt n binomialverteilte Zufallszahlen mit den Parametern r =size und π =prob. 70 KAPITEL 4. DISKRETE VERTEILUNGEN 4.5 Poissonverteilung Definition 4.5 Die Wahrscheinlichkeitsfunktion der Poissonverteilung ist definiert durch ( x −λ λ e x = 0, 1, 2, ... x! PX (x) = 0 sonst. Die Poissonverteilung hat einen Parameter λ, für den gelten muss λ > 0. Wir schreiben X ∼ P o(λ) , wenn X eine Poissonverteilung mit dem Parameter λ besitzt. Abbildung 4.8 zeigt einige Wahrscheinlichkeitsfunktionen der Poissonverteilung. Man beachte, dass die Poissonverteilung mit wachsendem Parameter λ immer mehr die Gestalt der Dichte einer Normalverteilung annimmt. Daher hat man in der Vorcomputerzeit die Poissonverteilung für große λ durch eine Normalverteilung approximiert. Satz 4.8 Es gelte X ∼ P o(λ). Dann gilt für den Erwartungswert und die Varianz von X EX = λ und V arX = λ . Der Poissonverteilung kommt in Anwendungen eine ähnliche Bedeutung unter den diskreten Verteilungen zu wie der Normalverteilung unter den stetigen Verteilungen. Sie wird gebraucht als • Approximation der Binomialverteilung (siehe Satz 4.9) und anderer Verteilungen, • wenn Ereignisse zufällig in der Zeit oder allgemeiner auf der reellen Zahlenachse (Poissonprozess) oder im Raum (räumliche Poissonprozesse) auftreten (siehe Beispiel 4.6), • in Modellen für die Analyse von Häufigkeitstabellen, • in der empirischen Analyse von Zähldaten. 4.5. POISSONVERTEILUNG 71 Po( 0.5 ) Po( 2.5 ) 0.4 0.4 P(x) 0.6 P(x) 0.6 0.2 0.2 0.0 0.0 0 4 8 12 16 20 0 4 8 x 12 16 20 16 20 x Po( 5 ) Po( 9 ) 0.4 0.4 P(x) 0.6 P(x) 0.6 0.2 0.2 0.0 0.0 0 4 8 12 16 20 0 x 4 8 12 x Abbildung 4.8: Wahrscheinlichkeitsfunktionen der Poissonverteilung mit λ = 0.5, 2.5, 5, 9 Satz 4.9 (Approximation der Binomialverteilung) Sei X ∼ b(n; π) . Wenn π ,,klein” ist und n ,,groß” ist, so gilt asymptotisch X ∼P ˙ o(λ) mit λ = nπ. Dieser Satz wird durch Abbildung 4.9 veranschaulicht, in der die Wahrscheinlichkeitsfunktionen der P o(5)-Verteilung und einiger Binomialverteilungen, für die nπ = 5 mit wachsendem n und fallendem π gilt, dargestellt ist. Beispiel 4.5 Ein typisches Beispiel für die Anwendung dieses Satzes findet man in der Versicherungswirtschaft. Die Anzahl n der Versicherten ist groß, die Wahrscheinlichkeit π eines Schadenfalles ist klein. Sei X die Anzahl der Versicherten, die in einem bestimmten Zeitraum (z.B. ein Jahr) einen Schaden anmelden. Wenn man annimmt, dass die Wahrscheinlichkeit eines Schadensfalles für jeden Versicherten gleich groß ist, so gilt X ∼ b(n; π) . Als Approximation kann unter den obigen Voraussetzungen die Poissonverteilung verwendet werden: X ∼P ˙ o(λ) λ = nπ . 72 KAPITEL 4. DISKRETE VERTEILUNGEN 0.3 b( 10 ; 0.5 ) Po( 5 ) 0.2 b( 50 ; 0.1 ) Po( 5 ) P(x) P(x) 0.2 0.3 0.1 0.1 0.0 0.0 0 2 4 6 8 10 12 14 x 0 2 4 6 8 10 12 14 x 0.3 b( 100 ; 0.05 ) Po( 5 ) 0.2 b( 1000 ; 0.005 ) Po( 5 ) P(x) P(x) 0.2 0.3 0.1 0.1 0.0 0.0 0 2 4 6 8 10 12 14 x 0 2 4 6 8 10 12 14 x Abbildung 4.9: Wahrscheinlichkeitsfunktionen der Binomialverteilung und Poissonverteilung mit λ = nπ = 5 Beispiel 4.6 Auch in der Qualit¨atskontrolle wird die Poissonverteilung h¨aufig als Modell verwendet, z.B. für • die Anzahl der fehlerhaften Teile (die Wahrscheinlichkeit eines Fehlers sei klein) in einem großen Los. • die Anzahl der Fehler pro Einheit in einem lackierten Draht, dessen Fehlstellen zuf¨allig über die gesamte L¨ange verteilt seien (eindimensionaler Poissonprozess). • Anzahl der Astlöcher pro Fl¨acheneinheit in einer Holzplatte oder Anzahl der Bl¨aschen pro Fl¨acheneinheit in einer Glasplatte (r¨aumlicher Poissonprozess). Wir hatten schon in Kapitel 3 einen Poissonprozess definiert (Definition 3.6). Der folgende Satz gibt eine Begründung des Namens ,,Poissonprozess” an. Satz 4.10 Sei N (t) die Anzahl der Ereignisse in dem Zeitintervall (0, t] eines Poissonprozesses mit Intensität λ (Ereignisse pro Zeiteinheit), dann gilt N (t) ∼ P o(λt) , d.h. (λt)n e−λt P ({N (t) = n}) = n! 0 für n = 0, 1, ... sonst. 4.5. POISSONVERTEILUNG 73 Beispiel 4.7 Unterbrechungen am Fließband tauchen wie ein Poissonprozess N (t) auf mit Intensit¨at λ = 0.1 pro Stunde. Sei X = N (8) die Anzahl der Unterbrechungen in 8 Stunden. Dann gilt: X ∼ P o((0.1) · 8) = P o(0.8) Dann gilt z.B. P ({X = 0}) = (0.8)0 e−0.8 0! = e−0.8 = 0.449 , P ({X = 1}) = (0.8)1 e−0.8 1! = ... = 0.359 , P ({X = 2}) = (0.8)2 e−0.8 2! = ... = 0.144 , P ({X = 3}) = (0.8)3 e−0.8 3! = ... = 0.038 . R-Befehle zur Poissonverteilung: dpois(x, lambda) berechnet die Wahrscheinlichkeitsfunktion der Poissonverteilung mit dem Parameter λ =lambda an der Stelle x. Dabei kann x ein Vektor sein. ppois(q, lambda) berechnet die Verteilungsfunktion der Poissonverteilung mit dem Parameter λ =lambda an der Stelle q. Dabei kann q ein Vektor sein. qpois(p, lambda) berechnet die Umkehrfunktion der Verteilungsfunktion der Poissonverteilung mit dem Parameter λ =lambda an der Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein. rpois(n, lambda) erzeugt n poissonverteilte Zufallszahlen mit dem Parameter λ =lambda. Kapitel 5 Beziehungen zwischen Verteilungen In diesem Kapitel wollen wir Beziehungen zwischen Verteilungen betrachten, die wir z.T. schon bei den einzelnen Verteilungen betrachtet haben. So wissen Sie schon, dass die Exponentialverteilung und die χ2 -Verteilung spezielle Gammaverteilungen sind oder dass die Summe geometrisch verteilter Zufallsvariablen negativ binomialverteilt ist. All diese Zusammenhänge sollen hier noch einmal zusammenfassend betrachtet werden. Dabei werden wir auch einige neue Verteilungen kennenlernen. 5.1 Diskrete Verteilungen 5.1.1 Bernoulli-Verteilung, Binomialverteilung Der Zusammenhang zwischen der Bernoulli- und der Binomialverteilung wurde schon in Satz 4.3 behandelt. Satz 5.1 Seien X1 , X2 , . . . , Xn unabhängig und identisch Ber(π)-verteilt. Dann gilt: X= n X i=1 Xi ∼ b(n; π) . Beweis: P ({X = x}) = P ({X1 + X2 + ... + Xn = x}) = P ({x Erfolge und (n − x) Misserfolge }) Die Erfolge und Misserfolge können in verschiedenen Reihenfolgen angeordnet werden. Die Anzahl der Möglichkeiten, x Erfolge und (n − x) Misserfolge in n Positionen anzuordnen, ist ! n . x Jede einzelne dieser Möglichkeiten hat die Wahrscheinlichkeit π x (1 − π)n−x . 74 5.1. DISKRETE VERTEILUNGEN 75 Demnach gilt: P ({X = x}) = ( n x π x (1 − π)n−x 0 x = 0, 1, 2, ..., n sonst . ♦ Als Folgerung aus diesem Satz ergibt sich: Satz 5.2 Die Zufallsvariablen X1 und X2 seien unabhängig und binomialverteilt mit den Parametern n1 bzw. n2 und identischem Parameter π. Dann gilt: X1 + X2 ∼ b(n1 + n2 ; π) . Beweis: Die Summe lässt sich auffassen als die Anzahl der Erfolge in n1 +n2 unabhängigen BernoulliExperimenten mit Erfolgswahrscheinlichkeit π. ♦ 5.1.2 Bernoulli-Verteilung, Geometrische Verteilung Eine Folge von Bernoulli-Experimenten mit Erfolgswahrscheinlichkeit π werde solange durchgeführt, bis der erste Erfolg eintritt. Die Zufallsvariable X sei die Anzahl der Misserfolge bis zum ersten Erfolg. Dann gilt (siehe Beispiel 4.2): X ∼ Ge(π) . 5.1.3 Bernoulli-Verteilung, Negative Binomialverteilung Wir betrachten weiterhin eine Folge von Bernoulli-Experimenten mit Erfolgswahrscheinlichkeit π. Die Zufallsvariable X sei die Anzahl der Misserfolge vor dem r-ten Erfolg (r > 0). Dann gilt: X ∼ N B(r; π) . 5.1.4 Geometrische Verteilung, Negative Binomialverteilung Die geometrische Verteilung ist ein Spezialfall der negativen Binomialverteilung, denn es gilt offensichtlich Ge(π) ≡ N B(1; π) . Darüberhinaus kann man für r ∈ IN jede negativ binomialverteilte Zufallsvariable als Summe von geometrisch verteilten Zufallsvariablen auffassen (vergleiche Satz 4.7). 76 KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN Satz 5.3 Seien X1 , X2 , . . . , Xr unabhängig und identisch Ge(π)–verteilt. Dann gilt: X= r X i=1 Xi ∼ N B(r; π) . Es folgt aus Satz 5.3, dass der Erwartungswert und die Varianz einer negativ binomialverteilten Zufallsvariablen r mal so groß sind wie die entsprechenden Werte der geometrischen Verteilung. Zur Warnung sei aber gesagt, dass die Unabhängigkeit der Zufallsvariablen eine wesentliche Voraussetzung ist. Bei nicht unabhängigen Zufallsvariablen darf man die Varianzen nicht einfach addieren. Ein ähnlicher Zusammenhang bestand zwischen den Erwartungswerten und Varianzen der Bernoulli- und Binomialverteilung. Als weitere Folgerung aus Satz 5.3 ergibt sich: Satz 5.4 Die Zufallsvariablen X1 und X2 seien unabhängig und negativ binomialverteilt mit den Parametern r1 bzw. r2 und identischem Parameter π. Dann gilt: X1 + X2 ∼ N B(r1 + r2 ; π) . Beweis: Man fasse beide Zufallsvariablen als Summe von r1 bzw. r2 unabhängig und identisch geometrisch verteilten Zufallsvariablen auf. Die Summe dieser r1 + r2 unabhängig geometrisch verteilten Zufallsvariablen ist dann negativ binomialverteilt mit den Parametern r 1 + r2 und π. ♦ 5.1.5 Binomialverteilung, Poissonverteilung Die Binomialverteilung hatten wir als Anzahl der Erfolge in n unabhängigen BernoulliExperimenten mit Erfolgswahrscheinlichkeit π kennengelernt (siehe Beispiel 4.1). Ist die Anzahl der Experimente sehr groß und die Erfolgswahrscheinlichkeit klein, so kann man die Binomialverteilung durch eine Poissonverteilung approximieren (siehe Satz 4.9). 5.1. DISKRETE VERTEILUNGEN 77 Satz 5.5 Sei X ∼ b(n; π) . Wenn π ,,klein” ist und n ,,groß” ist, so gilt asymptotisch X ∼P ˙ o(λ) mit λ = nπ . Aufgrund dieses Satzes spricht man bei der Poissonverteilung auch als der Verteilung seltener Ereignisse. 5.1.6 Binomialverteilung, Normalverteilung Aufgrund des zentralen Grenzwertsatzes (siehe Satz 3.8) kann man eine binomialverteilte Zufallsvariable für große n durch eine Normalverteilung approximieren. Satz 5.6 Sei X ∼ b(n; π) . Wenn n ,,groß” ist, so gilt asymptotisch: X ∼N ˙ (µ; σ 2 ) mit µ = nπ und σ 2 = nπ(1 − π) . In diesem Satz wird nur verlangt, dass n groß sein muss. Über π wird nichts gesagt. In der Tat gilt dieser Satz schließlich für jedes π. Nur für sehr kleine oder sehr große π (d.h. π nahe bei 1), dauert es sehr lange, bis die Wahrscheinlichkeitsfunktion der Binomialverteilung mit wachsendem n allmählich eine symmetrische glockenförmige Gestalt annimmt. Für solche π muss dann n eben noch größer sein, bis die Approximation durch die Normalverteilung hinreichend genau ist. 5.1.7 Negative Binomialverteilung, Normalverteilung Aufgrund des zentralen Grenzwertsatzes (siehe Satz 3.8) kann man auch eine negativ binomialverteilte Zufallsvariable für große r durch eine Normalverteilung approximieren. Auch hier werden nur Voraussetzungen über r gemacht. Der Parameter π bestimmt aber, wie groß r sein muss, damit man von einer guten Approximation sprechen kann. 78 KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN Satz 5.7 Sei X ∼ N B(r; π) . Wenn r ,,groß” ist, so gilt asymptotisch: X ∼N ˙ (µ; σ 2 ) mit µ = r(1 − π)/π und σ 2 = r(1 − π)/π 2 . 5.1.8 Summen poissonverteilter Zufallsvariablen Satz 5.8 Die Zufallsvariablen X1 und X2 seien unabhängig und poissonverteilt mit den Parametern λ1 bzw. λ2 . Dann gilt: X1 + X2 ∼ P o(λ1 + λ2 ) . Die Summe von zwei und damit von beliebig vielen unabhängigen poissonverteilten Zufallsvariablen ist also wieder poissonverteilt. Die Parameter sind zu addieren. Damit kann man sich die Poissonverteilung für großes λ auch als Verteilung der Summe von vielen unabhängig und identisch verteilten Zufallsvariablen vorstellen und den zentralen Grenzwertsatz (siehe Satz 3.8) anwenden. 5.1.9 Poissonverteilung, Normalverteilung Die Poissonverteilung kann für große λ bekanntlich (siehe S. 70) durch eine Normalverteilung approximiert werden. Satz 5.9 Sei X ∼ P o(λ) . Wenn λ ,,groß” ist, so gilt asymptotisch: X ∼N ˙ (µ; σ 2 ) mit µ=λ und σ2 = λ . 5.2. STETIGE VERTEILUNGEN 79 5.2 Stetige Verteilungen 5.2.1 Exponentialverteilung, Gammaverteilung, Normalverteilung Die Exponentialverteilung ist ein Spezialfall der Gammaverteilung, denn es gilt nach Gleichung (3.6): Exp(λ) ≡ G(1; λ) . Wir erhalten also eine Exponentialverteilung, wenn der Parameter ν der Gammaverteilung 1 ist. Darüberhinaus erhalten wir eine Gammaverteilung als Summe unabhängiger exponentialverteilter Zufallsvariablen (siehe Satz 3.11). Satz 5.10 Wenn X1 , X2 , ..., Xν unabhängig und identisch exponentialverteilt sind, d.h. Xi ∼ Exp(λ), so gilt: ν X i=1 Xi ∼ G(ν; λ) . Nun kann man wieder den zentralen Grenzwertsatz (Satz 3.8) anwenden, um zu folgern: Satz 5.11 Sei X ∼ G(ν; λ) . Wenn ν ,,groß” ist, so gilt asymptotisch: X ∼N ˙ (µ; σ 2 ) mit µ= ν λ und σ2 = ν . λ2 5.2.2 Summe von gammaverteilten Zufallsvariablen Satz 5.12 Die Zufallsvariablen X1 und X2 seien unabhängig und gammaverteilt mit den Parametern ν1 bzw. ν2 und identischem Parameter λ. Dann gilt: X1 + X2 ∼ G(ν1 + ν2 ; λ) . Die Summe von zwei und damit beliebig vielen gammaverteilten Zufallsvariablen mit identischem Parameter λ ist wieder gammaverteilt. Der Parameter ν ist die Summe der beiden Parameter ν1 und ν2 . 80 KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN 5.2.3 Gammaverteilung, χ2 -Verteilung, Normalverteilung Die χ2 -Verteilung ist ein Spezialfall der Gammaverteilung. Nach Satz 3.12 gilt: χ2n ≡ G(n/2; 1/2) . Es folgt aus Satz 5.12, dass die Summe unabhängiger χ2 -verteilter Zufallsvariablen wieder χ2 -verteilt ist, wobei die Freiheitsgrade zu addieren sind. Satz 5.13 Die Zufallsvariablen X1 und X2 seien unabhängig und χ2 -verteilt mit den Parametern n1 bzw. n2 . Dann gilt: X1 + X2 ∼ χ2n1 +n2 . Mit dem zentralen Grenzwertsatz (Satz 3.8) oder aus Satz 5.11 folgt wieder: Satz 5.14 Sei X ∼ χ2n . Wenn n ,,groß” ist, so gilt asymptotisch: X ∼N ˙ (µ; σ 2 ) mit µ=n und σ 2 = 2n . 5.2.4 Summen normalverteilter Zufallsvariablen Satz 5.15 Seien X1 , X2 , . . . , Xn unabhängig und identisch N (µ; σ 2 )-verteilt. Dann gilt: X= n X i=1 Xi ∼ N (nµ; nσ 2 ) . Für nicht identisch normalverteilte Zufallsvariablen gilt: 5.2. STETIGE VERTEILUNGEN 81 Satz 5.16 Seien X1 , X2 , . . . , Xn unabhängig N (µi ; σi2 )-verteilt. Dann gilt: X= n X i=1 Xi ∼ N ( n X µi ; i=1 n X σi2 ) . i=1 5.2.5 Normalverteilung, χ2 -Verteilung Satz 5.17 Es gelte X ∼ N (0; 1) . Dann gilt: X 2 ∼ χ21 . Das Quadrat einer standarnormalverteilten Zufallsvariablen ist also χ 2 -verteilt mit einem Freiheitsgrad. Mit Satz 5.13 folgt, dass auch die Summe der Quadrate unabhängiger N (0; 1)verteilter Zufallsvariablen χ2 -verteilt ist. Satz 5.18 Seien X1 , X2 , ..., Xn unabhängig und identisch N (0; 1)-verteilt. Dann gilt: X= n X i=1 Xi2 ∼ χ2n . Für praktische Anwendungen wichtig ist der folgende Satz: Satz 5.19 Seien X1 , X2 , ..., Xn unabhängig und identisch N (µ; σ 2 )-verteilt. Sei X̄ = n 1X Xi n i=1 und S 2 = n 1X (Xi − X̄)2 . n i=1 Dann gilt: nS 2 ∼ χ2 (n − 1) . σ2 82 KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN Man benutzt dieses Resultat, um Hypothesen über die Varianz in einer normalverteilten Grundgesamtheit zu testen. Um die Nullhypothese H0 : σ 2 = σ02 gegen die Alternative H1 : σ 2 6= σ02 zu testen, verwendet man die Prüfgröße nS 2 , σ02 die nach Satz 5.19 unter der Hypothese eine χ2 -Verteilung mit n − 1 Freiheitsgraden besitzt. Die χ2 -Verteilung ist eine wichtige Verteilung in der Varianzanalyse. Die dort berechneten Summen der Quadrate von normalverteilten Zufallsvariablen sind verteilt wie σ 2 · χ2 , wobei σ 2 die Varianz ist (siehe Beispiel 5.1). 5.2.6 Normalverteilung, t-Verteilung Definition 5.1 Die Dichtefunktion der t-Verteilung ist gegeben durch fX (x) = )(1 + x2 /ν)−(ν+1)/2 Γ( ν+1 2 √ νπΓ(ν/2) − ∞ < x < ∞ .. Die t-Verteilung besitzt einen Parameter ν, für den gilt ν ∈ IN . Wir schreiben X ∼ tν , wenn eine Zufallsvariable eine t-Verteilung besitzt. Wir sagen dann auch, dass X eine tVerteilung mit ν Freiheitsgraden besitzt. Abbildung 5.1 zeigt einige Dichtefunktionen der t-Verteilung. Sie ist wie die Normalverteilung symmetrisch um eine senkrechte Achse bei 0 und nähert sich mit wachsender Zahl der Freiheitsgrade der Dichtefunktion der Standardnormalverteilung. Aufgrund der Symmetrie der Dichtefunktion folgt: Satz 5.20 Es gelte X ∼ tν . Dann gilt für den Erwartungswert: EX = 0 . 5.2. STETIGE VERTEILUNGEN 83 0.5 1000 0.4 f(x) 5 0.3 0.2 1 0.1 0.0 -6 -4 -2 0 x 2 4 6 Abbildung 5.1: Dichtefunktionen der t-Verteilung mit ν = 1, 5, 1 000 Um von der Normalverteilung zur t-Verteilung zu kommen, benötigen wir das folgende Resultat, das wir hier der Vollständigkeit halber formulieren, obwohl wir den Begriff der Unabhängigkeit (siehe Definition 6.16) noch nicht definiert haben. Satz 5.21 Seien X1 , ..., Xn unabhängig und identisch N (µ; σ 2 )-verteilt. Sei X̄ = n 1X Xi n i=1 und S∗2 = n 1 X (Xi − X̄)2 . n − 1 i=1 Dann gilt: X̄ und S∗2 sind unabhängig. Satz 5.22 Die Zufallsvariablen X1 und X2 seien unabhängig und X1 ∼ N (0; 1), X2 ∼ χ2 (ν) . Dann gilt X1 q X2 /ν ∼ t(ν) , d.h. t-verteilt mit ν Freiheitsgraden. Satz 5.23 Die Zufallsvariablen X1 , X2 , . . . , Xn seien unabhängig und identisch N (µ; σ 2 )-verteilt. Dann gilt: X̄ − µ √ ∼ tn−1 . S∗ / n 84 KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN Beweis: Es gilt (ohne kompletten Beweis, den Erwartungswert und die Varianz von X̄ werden wir später berechnen) X̄ − µ √ ∼ N (0; 1) . σ/ n Nach Satz 5.19 gilt: (n − 1)S∗2 ∼ χ2 (n − 1) . 2 σ Ferner sind X̄ und S∗2 nach Satz 5.21 unabhängig. Damit gilt nach Satz 5.22: X̄−µ √ σ/ n r (n−1)S∗2 σ 2 (n−1) = X̄ − µ √ ∼ t(n − 1) . S∗ / n ♦ Man verwendet T = X̄ − µ √ ∼ tn−1 S∗ / n als Prüfgröße im t-Test zur Prüfung von Hypothesen über den Erwartungswert in einer normalverteilten Grundgesamtheit, z.B. H0 : µ = µ0 H1 : µ 6= µ0 . gegen die Alternative Unter der Nullhypothese H0 besitzt die Prüfgröße T dann die in Satz 5.23 angegebene Verteilung. Dieses Resultat wird ferner bei der Konstruktion von Konfidenzintervallen für den Parameter µ der Normalverteilung benutzt. R-Befehle zur t-Verteilung: dt(x, df) berechnet die Dichtefunktion der t-Verteilung mit dem Parameter ν =df an der Stelle x. Dabei kann x ein Vektor sein. pt(q, df, ncp=0) berechnet die Verteilungsfunktion der t-Verteilung mit dem Parameter ν =df an der Stelle q. Dabei kann q ein Vektor sein. Mit dem optionalen Argument ncp wird der Nichtzentralitätsparameter festgelegt. Wir behandeln hier die zentrale t-Verteilung, für die ncp=0 ist. qt(p, df) berechnet die Umkehrfunktion der Verteilungsfunktion der t-Verteilung mit dem Parameter ν =df an der Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein. rt(n, df) erzeugt n t-verteilte Zufallszahlen mit dem Parameter ν =df. 5.2. STETIGE VERTEILUNGEN 85 5.2.7 Normalverteilung, F-Verteilung Definition 5.2 Die Dichtefunktion der F-Verteilung ist gegeben durch: fX (x) = 2 Γ( ν1 +ν ) ν1 2 ν2 ν1 Γ( 2 )Γ( 2 ) ν2 ν1 /2 xν1 /2−1 1 + ν1 x ν2 −(ν1 +ν2 )/2 x≥0 Die F-Verteilung hat zwei Parameter ν1 und ν2 , für die gelten muss νi ∈ IN, i = 1, 2. Beachten Sie, dass für den Koeffizienten in der Dichteverteilung der F-Verteilung gilt: 2 Γ( ν1 +ν ) 1 2 ν1 ν2 = ν1 ν2 . Γ( 2 )Γ( 2 ) B( 2 ; 2 ) Wir schreiben X ∼ F (ν1 ; ν2 ) , wenn die Zufallsvariable X eine F -Verteilung besitzt. Die Parameter werden auch Freiheitsgrade genannt, dabei heißen ν1 die Freiheitsgrade im Zähler und ν2 die Freiheitsgrade im Nenner. 1.0 1 f(x) 0.8 20 2 10 0.6 3 0.4 0.2 0.0 0 1 2 3 4 5 x Abbildung 5.2: Dichtefunktionen der F -Verteilung mit ν1 = 1, 2, 3, 10, 20, ν2 = 20 Satz 5.24 Die Zufallsvariablen X1 und X2 seien unabhängig χ2 -verteilt mit ν1 bzw. ν2 Freiheitsgraden, dann gilt: X1 /ν1 ∼ F (ν1 ; ν2 ) . X2 /ν2 86 KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN Beispiel 5.1 (Varianzanalyse) In der Grundvorlesung haben Sie bereits einen F -Test kennengelernt. Die Situation kann wie folgt beschrieben werden. Es liegen Beobachtungen in I Gruppen vor. Yij = µi + eij i = 1, 2, . . . , I; j = 1, 2, . . . , J. Dabei seien µi Konstante, die eij seien normalverteilte unabh¨angige Zufallsvariablen mit E(eij ) = 0 und V ar(eij ) = σ 2 . Es soll die Hypothese H0 : µ 1 = µ 2 = . . . = µ I geprüft werden. Die Prüfgröße ist dann 1 I−1 PG = 1 I(J−1) I P J Ȳi. − Ȳ.. i=1 J I P P i=1 j=1 2 Yij − Ȳi. 2 Diese Prüfgröße ist typisch für viele F -Prüfgrößen, die Ihnen in Regressionsanalysen (z.B. in der Vorlesung Ökonometrie) oder in Varianzanalysen (in der Vorlesung Lineare Modelle) oder bei der Analyse von Daten mit Statistikprogrammpaketen begegnen werden. Die Summen der Quadrate in Z¨ahler und Nenner der Prüfgröße • • I P i=1 J Ȳi. − Ȳ.. I P J P i=1 j=1 2 Yij − Ȳi. Summe der Quadrate Gruppen 2 Summe der Quadrate Rest sind jeweils verteilt wie σ 2 · χ2 mit I − 1 bzw. I(J − 1) Freiheitsgraden. Außerdem sind die beiden Summen der Quadrate unabh¨angig. Es folgt dann aus Satz 5.24, dass der Quotient eine F -Verteilung mit I − 1 und I(J − 1) Freiheitsgraden besitzt. Beispiel 5.2 Auch den fogenden F -Test haben Sie in der Grundvorlesung im Zusammenhang mit der Regressionsanalyse kennengelernt. Das Modell M 2 bezeichne eine Vereinfachung des Modells M1 , d.h. einige der Parameter aus M1 fehlen in M2 . Zur Prüfung der Hypothese, dass die Modellvereinfachung gilt, d.h. die in M2 fehlenden Parameter aus M1 null sind, wird die Prüfgröße PG = (SQ(Res; M2 ) − SQ(Res; M1 ))/(F G(M2 ) − F G(M1 )) SQ(Res; M1 )/F G(M1 ) verwendet, die unter der Nullhypothese eine F -Verteilung mit F G(M 2 ) − F G(M1 ) und F G(M1 ) Freiheitsgraden hat. Dabei sind SQ(Res; M 1 ) und SQ(Res; M2 ) die Summe der Quadrate der Residuale unter den Modellen M1 und M2 und F G bezeichnen die jeweiligen Freiheitsgrade. R-Befehle zur F-Verteilung: df(x, df1, df2) berechnet die Dichtefunktion der F-Verteilung mit den Parametern ν1 =df1 und ν2 =df2 an der Stelle x. Dabei kann x ein Vektor sein. pf(q, df1, df2, ncp=0) berechnet die Verteilungsfunktion der F-Verteilung mit den Parametern ν1 =df1 und ν2 =df2 an der Stelle q. Dabei kann q ein Vektor sein. Mit dem optionalen Argument ncp wird der Nichtzentralitätsparameter festgelegt. Wir behandeln hier die zentrale F-Verteilung, für die ncp=0 ist. 5.2. STETIGE VERTEILUNGEN 87 qf(p, df1, df2) berechnet die Umkehrfunktion der Verteilungsfunktion der FVerteilung mit den Parametern ν1 =df1 und ν2 =df2 an der Stelle p. Dabei muss p ein Vektor von Wahrscheinlichkeiten, d.h. von Zahlen zwischen 0 und 1 sein. rf(n, df1, df2) erzeugt n F-verteilte Zufallszahlen mit den Parametern ν1 =df1 und ν2 =df2 . 5.2.8 Normalverteilung, Lognormalverteilung Definition 5.3 Die Dichtefunktion der Lognormalverteilung ist gegeben durch 1 2 2 e−(log x−µ) /2σ x > 0 2 f (x) = x 2πσ 0 sonst . √ Die Lognormalverteilung hat zwei Parameter µ und σ 2 , für die gelten muss −∞ < µ < ∞ und σ2 > 0 . Wir schreiben X ∼ Λ(µ; σ 2 ) , wenn die Zufallsvariable X eine Lognormalverteilung besitzt. Der folgende Satz erklärt den Namen Lognormalverteilung. Die Zufallsvariable log X besitzt nämlich eine Normalverteilung, wenn X eine Lognormalverteilung besitzt. Satz 5.25 a) Es gelte X ∼ Λ(µ; σ 2 ), dann gilt: log X ∼ N (µ; σ 2 ) . b) Es gelte Y ∼ N (µ; σ 2 ), dann gilt: eY ∼ Λ(µ; σ 2 ) . Die Verteilungsfunktion der Lognormalnormalverteilung kann man auf die der Standardnormalverteilung zurückführen. 88 KAPITEL 5. BEZIEHUNGEN ZWISCHEN VERTEILUNGEN Satz 5.26 Für die Verteilungsfunktion FX einer lognormalverteilten Zufallsvariablen X gilt ! log x − µ FX (x) = Φ , σ wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichne. Beweis: Für x ≥ 0 gilt: FX (x) = P ({X ≤ x}) = Zx 0 1 2 2 e−(log t−µ) /2σ dt . t 2πσ 2 √ Wir substituieren s = log t . Dann ist 1 ds = dt t Dabei ändern sich die Grenzen wie folgt: 1 ds = dt . t • Wenn t −→ 0, gilt s −→ −∞ . • Wenn t = x, ist s = log x . Damit folgt, wenn man beachtet, dass der folgende Integrand die Dichtefunktion einer Normalverteilung mit den Parametern µ und σ 2 ist, unter Anwendung von Satz 3.6 FX (x) = log Z x −∞ √ 1 2 2 e−(s−µ) /2σ ds 2 2πσ log x − µ = Φ σ ! . ♦ Satz 5.27 Es gelte X ∼ Λ(µ; σ 2 ) . Dann gilt für den Erwartungswert und die Varianz von X: EX = eµ+σ 2 /2 und 2 2 V arX = e2µ eσ (eσ − 1) . 5.2. STETIGE VERTEILUNGEN 89 0.8 f(x) 0.6 0.4 0.2 0.0 0 2 4 6 x 8 10 12 Abbildung 5.3: Dichtefunktion der Lognormalverteilung mit µ = 0, σ 2 = 1 In Anwendungen findet man die Lognormalverteilung als Modell für viele Zufallsvariablen, die nur positive Werte annehmen können. Wie Abbildung 5.3 zeigt, ist die Lognormalverteilung insbesondere geeignet für Daten mit einer schiefen Verteilung. Durch geeignete Wahl der Parameter (insbesondere von σ 2 ) kann man jedoch erreichen, dass die Gestalt der Lognormalverteilung wieder sehr ähnlich der Gestalt einer Normalverteilung wird. In manchen Fällen erhält man damit ein realistischeres Modell als mit der Normalverteilung. Die Lognormalverteilung findet Anwendung als Modell für das Einkommen, für Lebensdauern (von produzierten Gütern) oder Verweildauern (z.B. von Beschäftigten in einem Betrieb) und auch ganz aktuell als Modell für Aktienkurse. R-Befehle zur Lognormalverteilung dlnorm(x, meanlog=0, sdlog=1) berechnet die Dichtefunktion der Lognormalverteilung mit den Parametern µ =meanlog und σ 2 = sdlog2 an der Stelle x, wobei x ein Vektor ist. Dabei ist zu beachten, dass sdlog die Standardabweichung, also die Quadratwurzel aus der Varianz σ 2 der logarithmierten Zufallsvariablen ist. plnorm(q, meanlog=0, sdlog=1) berechnet die Verteilungsfunktion der Lognormalverteilung mit den Parametern µ =meanlog und σ 2 = sdlog2 an der Stelle q, wobei q ein Vektor ist. qlnorm(p, meanlog=0, sdlog=1) berechnet die Umkehrfunktion der Verteilungsfunktion der Lognormalverteilung mit den Parametern µ =meanlog und σ 2 = sdlog2 an der Stelle p, wobei p ein Vektor von Wahrscheinlichkeiten, also Zahlen zwischen 0 und 1, ist. rlnorm(n, meanlog=0, sdlog=1) erzeugt n lognormalverteilte Zufallszahlen mit den Parametern µ =meanlog und σ 2 = sdlog2 . Kapitel 6 Gemeinsame Verteilung von Zufallsvariablen 6.1 Gemeinsame Verteilungen zweier Zufallsvariablen Bisher haben wir nur die Verteilung einer Zufallsvariablen betrachtet. Zur Beschreibung des stochastischen Verhaltens einer Zufallsvariablen haben wir die Begriffe Wahrscheinlichkeitsfunktion, Dichtefunktion und Verteilungsfunktion kennengelernt. Jetzt werden wir analoge Begriffe kennenlernen, um das gemeinsame Verhalten zweier Zufallsvariablen X und Y zu betrachten. X Einkommen Einkommen Haushaltsgröße Autotyp Autotyp Schulbildung DAX heute Werbungsausgaben Geschlecht Note Vordiplom Y Ausgaben für Lebensmittel Ausgaben für Versicherungen Anzahl der Autos Anzahl der Schadensfälle Schadenshöhe Durchschnittliche Fernsehzeit pro Tag DAX morgen Umsatz Einkommen Note Hauptdiplom Bei der Behandlung einer Zufallsvariablen haben wir zwischen diskreten und stetigen Zufallsvariablen unterschieden. Jetzt sind die folgenden drei Fälle zu unterscheiden: a) Beide Zufallsvariablen sind diskret. b) Beide Zufallsvariablen sind stetig. c) Eine Zufallsvariable ist diskret, die andere ist stetig. Wir werden nur die beiden ersten Fälle behandeln. 90 6.1. GEMEINSAME VERTEILUNGEN ZWEIER ZUFALLSVARIABLEN 91 6.1.1 Gemeinsame Verteilung zweier diskreter Zufallsvariablen Definition 6.1 Die gemeinsame Wahrscheinlichkeitsfunktion zweier diskreter Zufallsvariablen X und Y ist definiert durch PXY (x, y) = P ({X = x, Y = y}) . Die gemeinsame Wahrscheinlichkeitsfunktion gibt uns also die Wahrscheinlichkeiten an, mit der Paare möglicher Werte der beiden Zufallsvariablen angenommen werden. Die Betonung im vorigen Satz liegt auf Paare, nicht mehr wie früher einzelne Werte für sich, sondern zwei Werte gemeinsam als Paar. Beispiel 6.1 Die folgenden Daten sind aus dem Buch ,,Applied Multivariate Data Analysis, Volume II, Categorical and Multivariate Methods” von J.D. Jobson (1992). Die Daten können als Wahrscheinlichkeitsfunktion angesehen werden, da eine sehr große Grundgesamtheit von Steuerzahlern nach ihrer Altersgruppe X und nach ihrer Einsch¨atzung Y der Kriminalit¨atslage in ihrer Umgebung befragt wurden. Tabelle 6.1: Gemeinsame Wahrscheinlichkeitsfunktion P XY (x, y) Meinung Alter nicht ernst etwas ernst ernst sehr ernst y=1 y=2 y=3 y=4 PX (x) unter 30 x = 1 0.015 0.076 0.121 0.055 0.267 30 - 50 x=2 0.029 0.191 0.215 0.069 0.504 50+ x=3 0.008 0.061 0.110 0.050 0.229 PY (y) 0.052 0.328 0.446 0.174 1.000 Satz 6.1 Eine gemeinsame Wahrscheinlichkeitsfunktion PXY hat die folgenden Eigenschaften: a) PXY (x, y) ≥ 0 für alle (x, y) . b) PXY (x, y) > 0 für höchstens abzählbar unendlich viele (x, y) . c) PP x y PXY (x, y) = 1 . 92 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN Definition 6.2 Die Randwahrscheinlichkeitsfunktionen von X und Y sind definiert durch a) PX (x) = P ({X = x}) = b) PY (y) = P ({Y = y}) = P y P x P ({X = x; Y = y}) = P ({X = x; Y = y}) = P y P x PXY (x, y) PXY (x, y) In Tabelle 6.1 sind die Randwahrscheinlichkeitsfunktionen ausgerechnet und an den Rand (daher der Name!) geschrieben worden. Es sind einfach die Summen der gemeinsamen Wahrscheinlichkeiten über die einzelnen Zeilen bzw. Spalten zu bilden. Die Randwahrscheinlichkeiten sind gewöhnliche Wahrscheinlichkeitsfunktionen einer Zufallsvariablen, wie wir sie in Kapitel 1 kennengelernt haben. 6.1.2 Gemeinsame Verteilung zweier stetiger Zufallsvariablen Definition 6.3 Die gemeinsame Dichtefunktion fXY (x, y) zweier Zufallsvariablen X, Y hat die Eigenschaften a) fXY (x, y) ≥ 0 b) ∞ R R∞ −∞ −∞ für alle x, y , fXY (x, y)dx dy = 1 , c) P ({a ≤ X ≤ b; c ≤ Y ≤ d}) = (c, d) mit a ≤ b und c ≤ d. Rb Rd a c fXY (x, y)dy dx für alle Paare (a, b) und Beispiel 6.2 Die Funktion f sei definiert durch f (x, y) = ( 12 5 x(2 0 − x − y) 0 ≤ x ≤ 1, sonst. 0≤y≤1 . Es soll gezeigt werden, dass f eine gemeinsame Dichtefunktion ist. Es ist f (x, y) ≥ 0 und Z 1 0 Z 1 f (x, y)dydx = 0 = = = = Z Z 12 1 1 (2x − x2 − xy)dydx 5 0 0 Z 12 1 1 2 1 2 (2xy − x y − xy ) dx 5 0 2 0 Z 12 1 1 (2x − x2 − x)dx 5 0 2 12 2 1 3 1 2 1 (x − x − x ) 5 3 4 0 12 1 1 12 5 (1 − − ) = =1. 5 3 4 5 12 93 0 f(x,y) 2 1 6.1. GEMEINSAME VERTEILUNGEN ZWEIER ZUFALLSVARIABLEN 1 1 0.5 y 0 0.5 x 0 Abbildung 6.1: Gemeinsame Dichtefunktion aus Beispiel 6.2 Daher ist f eine gemeinsame Dichtefunktion, die in Abbildung 6.1 graphisch dargestellt ist. Diese Graphik wurde mit der R-Funktion persp erstellt. Abbildung 6.2 zeigt die Wahrscheinlichkeit P ({0 ≤ X ≤ 1/2, 1/2 ≤ Y ≤ 1}) 0 f(x,y) 0.5 1 als Volumen unterhalb der gemeinsamen Dichtefunktion. 1 1 0.5 0.5 x y 0 0 Abbildung 6.2: Wahrscheinlichkeit als Volumen unterhalb der gemeinsamen Dichte Diese Wahrscheinlichkeit wollen wir jetzt durch das folgende Doppelintegral berechnen. P ({0 ≤ X ≤ 1/2, 1/2 ≤ Y ≤ 1}) = 12 5 = 12 5 = Z1 1/2 = Z1 Z1/2 1/2 0 Z1 1/2 (2x − x2 − xy)dxdy = 1 1 1 12 − − y dy = 4 24 8 5 1 3 − y dy = 2 10 12 5 Z1 1/2 Z1 1/2 1/2 1 1 x2 − x3 − x2 y dy 3 2 0 5 1 − y dy 24 8 1 1 3 y − y 2 2 20 1/2 1 3 1 3 40 − 12 − 20 + 3 11 − − + = = = 0.1375 . 2 20 4 80 80 80 94 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN Beispiel 6.3 Die Funktion f (x, y) sei definiert durch 2e−x e−2y x, y ≥ 0 0 sonst. f(x,y) 0 0.5 1 1.5 2 f (x, y) = ( 3 2 6 y 4 1 2 0 x 0 Abbildung 6.3: Gemeinsame Dichtefunktion aus Beispiel 6.3 Wir wollen zeigen, dass f eine Dichtefunktion ist. Es gilt f (x, y) ≥ 0 und Z∞ Z∞ fXY (x, y)dy dx = Z∞ 0 Z∞ = Z∞ h e−x −e−2y = Z∞ e−x [0 − (−1)] dx = Z∞ e−x dx −∞ −∞ 0 0 e −x 2e−2y dy dx 0 i∞ 0 dx 0 ∞ −e−x 0 = 0 − (−1) = 1 . = Also ist f tats¨achlich eine Dichtefunktion. Wir wollen die Wahrscheinlichkeit P ({X > 1, Y < 1}), die in Abbildung 6.4 als Volumen unterhalb der gemeinsamen Dichtefunktion graphisch dargestellt ist, berechnen. P ({X > 1, Y < 1}) = = Z∞ Z1 1 0 Z∞ 2e−x e−2y dy dx e−x 1 1 −e−2y dx 0 6.1. GEMEINSAME VERTEILUNGEN ZWEIER ZUFALLSVARIABLEN = (1 − e −2 e−x dx 1 (1 − e = ) Z∞ −2 95 ∞ )(−e−x ) = (1 − e−2 )(e−1 ) 1 f(x,y) 0 0.2 0.4 0.6 = (0.8647)(0.3679) = 0.3181 . 3 2 6 y 4 1 2 0 x 0 Abbildung 6.4: P ({X > 1, Y < 1}) als Volumen unterhalb der gemeinsamen Dichtefunktion . ... .... ... .... . . . . . . . . . ...... . . . . . . ...... . . . . . ...... . . . . . ...... . . . . . ...... . . . . ..... . . . . ...... . . ....... ....... ....... .......... . . ..... . . ...... . ....... . ...... . . . .... ... ... ... . . . . . . . . . . . . . . . . . . . . . x<y 0 0 Abbildung 6.5: Zur Berechnung der Wahrscheinlichkeit P ({X < Y }) Jetzt soll die Wahrscheinlichkeit P ({X < Y }), die in Abbildung 6.6 graphisch dargestellt ist, berechnet werden. Dazu betrachten wir zun¨achst die Abbildung 6.5, in der der Bereich, über den das Integral zu bilden ist, gepunktet eingezeichnet ist. Wenn wir y ∈ (0, ∞) frei w¨ahlen, kann x sich nur noch zwischen 0 und y frei bewegen. Das erkl¨art die Grenzen in dem folgenden Doppelintegral. P ({X < Y }) = = Z∞ Zy 0 0 Z∞ 2e−2y 0 = e−x 2e−2y dx dy Z∞ 0 y −x −e dy 0 (2e−2y )(1 − e−y )dy 96 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN Z∞ = 2e −2y 0 = 1− 2 3 dy − Z∞ Z∞ 2e−3y dy 0 3e−3y dy 0 1 . 3 f(x,y) 0 0.5 1 1.5 2 = 3 2 3 2 1 y 1 0 x 0 Abbildung 6.6: P ({X < Y }) als Volumen unterhalb der gemeinsamen Dichtefunktion Man h¨atte bei der Berechnung der obigen Wahrscheinlichkeit die Integrationsreihenfolge auch vertauschen können. Dann würde man x ∈ (0, ∞) frei w¨ahlen. Bei gegebenem x, könnte y dann von x bis ∞ variieren. Man müsste dann das Integral Z∞ Z∞ e−x 2e−2y dy dx 0 x berechnen. Definition 6.4 Die Randdichtefunktionen von X und Y sind definiert durch a) fX (x) = b) fY (y) = ∞ R −∞ ∞ R −∞ fXY (x, y)dy , fXY (x, y)dx . Beispiel 6.4 Wir betrachten die gemeinsame Dichtefunktion aus Beispiel 6.2. fXY (x, y) = ( 12 5 x(2 0 − x − y) 0 ≤ x ≤ 1, sonst 0≤y≤1 6.1. GEMEINSAME VERTEILUNGEN ZWEIER ZUFALLSVARIABLEN 12 5 fX (x) = = = fX (x) = fY (y) = = 12 5 Z1 0 0 (2x − x2 − xy)dy 1 12 1 2xy − x2 y − xy 2 5 2 0 12 1 2x − x2 − x 5 2 12 3 x − x2 , 5 2 = d.h. Z1 97 ( 12 5 0 3 2x − x2 (2x − x2 − xy)dx = 0≤x≤1 sonst . 12 2 1 3 1 2 1 (x − x − x y) 5 3 2 0 12 1 1 12 2 1 (1 − − y) = ( − y) , 5 3 2 5 3 2 d.h. fY (y) = ( 12 2 5 (3 0 − 12 y) 0 ≤ y ≤ 1 sonst . Man beachte, dass die Randdichten nicht die gemeinsame Dichtefunktion bestimmen. Im vorangehenden Beispiel ist das Produkt der Randdichten fX (x)fY (y) wieder eine gemeinsame Dichtefunktion, die jedoch nicht mit der anfangs gegebenen gemeinsamen Dichtefunktion fXY (x, y) übereinstimmt. Beispiel 6.5 Wir betrachten die gemeinsame Dichtefunktion aus Beispiel 6.3, d.h. fXY (x, y) = ( 2e−x e−2y 0 ≤ x < ∞, 0 sonst , ∞ e−x R 2e−2y dy = e−x fX (x) = 0 0 ∞ 2e−2y R e−x dx = 2e−2y fY (y) = 0 0 0≤y<∞ 0≤x<∞ sonst , 0≤y<∞ sonst . In diesem Beispiel ist die gemeinsame Dichtefunktion das Produkt der Randdichten. Wir werden sp¨ater sehen (Beispiel 6.14), dass X und Y in diesem Fall unabh¨angig sind. Bildlich ist die Randdichtefunktion von X an der Stelle x der Flächeninhalt der in Abbildung 6.7 dargestellten Schnittfläche der gemeinsamen Dichtefunktion. Genauso ist die Randdichtefunktion von Y an der Stelle y der Flächeninhalt der in Abbildung 6.8 dargestellten Schnittfläche der gemeinsamen Dichtefunktion. KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN f(x,y) 0 0.2 0.4 0.6 98 3 2 6 y 4 1 2 0 x 0 f(x,y) 0 0.2 0.4 0.6 Abbildung 6.7: Schnittfläche zur Berechnung der Randdichte von X 3 2 6 y 4 1 2 0 x 0 Abbildung 6.8: Schnittfläche zur Berechnung der Randdichte von Y 6.1.3 Die gemeinsame Verteilungsfunktion Definition 6.5 Die gemeinsame Verteilungsfunktion zweier Zufallsvariablen X und Y ist definiert durch FXY (x, y) = P ({X ≤ x; Y ≤ y}) 6.1. GEMEINSAME VERTEILUNGEN ZWEIER ZUFALLSVARIABLEN 99 Satz 6.2 Für zwei diskrete Zufallsvariablen X und Y mit der gemeinsamen Wahrscheinlichkeitsfunktion PXY gilt FXY (x, y) = XX PXY (s, t) . s≤x t≤y Für zwei stetige Zufallsvariablen mit der gemeinsamen Dichtefunktion f XY gilt FXY (x, y) = Zx Zy fXY (s, t)dt ds . −∞ −∞ Beispiel 6.6 Wir betrachten die gemeinsame Wahrscheinlichkeitsfunktion aus dem Beispiel 6.1, in dem eine große Grundgesamtheit von Steuerzahlern nach ihrer Altersgruppe und zu ihrer Einsch¨atzung der Kriminalit¨atslage befragt wurde. Aus Tabelle 6.1 erhalten wir die folgende gemeinsame Verteilungsfunktion. Tabelle 6.2: Gemeinsame Verteilungsfunktion F XY (x, y) y=1 y=2 y=3 y=4 x=1 0.015 0.091 0.212 0.267 x=2 0.044 0.311 0.647 0.771 x=3 0.052 0.380 0.826 1.000 Beispiel 6.7 Die gemeinsame Dichtefunktion zweier Zufallsvariablen X und Y sei 4(1 − x)y 0 ≤ x ≤ 1 0 sonst. 0≤y≤1 0 f(x,y) 1 2 3 4 fXY (x, y) = ( 1 1 0.5 0.5 x y 0 0 Abbildung 6.9: Gemeinsame Dichtefunktion f (x, y) = 4(1 − x)y Dann gilt FXY (x, y) = 0 100 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN für x < 0 oder y < 0, w¨ahrend für 0 ≤ x ≤ 1 und 0 ≤ y ≤ 1 gilt Zx Zy FXY (x, y) = 0 0 4(1 − s)t dt ds 1 = 2x(1 − x)y 2 . 2 Zusammenfassend gilt FXY (x, y) = 0 1 2 2x(1 − 2 x)y für für für für für 2x(1 − 12 x) y2 1 x < 0 oder y < 0 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 0 ≤ x ≤ 1, y > 1 x > 1, 0 ≤ y ≤ 1 x > 1, y > 1 . Die einzelnen Bereiche der Verteilungsfunktion sind in Abbildung 6.10 dargestellt, w¨ahrend Abbildung 6.11 die Verteilungsfunktion zeigt. .... ... .. ... .. .. .. ... .. . ................................................................................. ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ... ... ... ... ... ... . ..... ... ... ... ... ... ... ... ... . 0≤x≤1 y>1 1 x>1 y>1 x>1 0≤y≤1 0 0 1 0 F(x,y) 0.5 1 Abbildung 6.10: Definitionsbereich der obigen Verteilungsfunktion 1 1 0.5 y 0 0 0.5 x Abbildung 6.11: Gemeinsame Verteilungsfunktion FXY (x, y) = 2x(1 − x/2)y 2 Die Randverteilungsfunktionen erh¨alt man wie folgt FX (x) = P ({X ≤ x}) = P ({X ≤ x; Y < ∞}) = FXY (x; ∞) 6.1. GEMEINSAME VERTEILUNGEN ZWEIER ZUFALLSVARIABLEN FX (x) = 0 101 x<0 0≤x≤1 x>1 für 2x(1 − 12 x) für 1 für FY (y) = P ({Y ≤ y}) = P ({X < ∞; Y ≤ y}) = FXY (∞; y) FY (y) = 0 für für für y2 1 y<0 0≤y≤1 y>1 Wir wollen jetzt die gemeinsame Dichtefunktion zweier stetiger Zufallsvariablen bestimmen, wenn die gemeinsame Verteilungsfunktion gegeben ist. Satz 6.3 Seien X und Y zwei stetige Zufallsvariablen mit der gemeinsamen Verteilungsfunktion FXY (x, y). Dann erhält man die gemeinsame Dichtefunktion durch Differentiation: ∂2 fXY (x, y) = FXY (x, y) . ∂x∂y Beispiel 6.8 Wir betrachten die Verteilungsfunktion, die wir in Beispiel 6.6 aus der gemeinsamen Dichtefunktion bestimmt hatten. Wir müssten also jetzt durch Differentiation zu der usprünglichen Dichtefunktion zurückkommen. Die Verteilungsfunktion war: FXY (x, y) = 0 1 2 2x(1 − 2 x)y 2x(1 − 12 x) y2 1 Für 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 gilt für für für für sonst x < 0 oder y < 0 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 0 ≤ x ≤ 1, y > 1 x > 1, 0 ≤ y ≤ 1 ∂ ∂ F (x, y) = ∂x ∂y ∂ 1 2x(1 − x)2y ∂x 2 ∂ = (4x − 2x2 )y ∂x = (4 − 4x)y = 4(1 − x)y Für alle übrigen Bereiche ist ∂ ∂ F (x, y) = 0 . ∂x ∂y Damit gilt fXY (x, y) = ( 4(1 − x)y 0 ≤ x ≤ 1 0 sonst. 0≤y≤1 102 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN Dies ist die gemeinsame Dichtefunktion, von der wir in Beispiel 6.6 ausgegangen waren. R-Befehl zur graphischen Darstellung gemeinsamer Dichtefunktionen • persp(x,y,z) erstellt einen 3D-Plot. Dabei sind x und y Vektoren, die das Gitternetz bilden, über dem die Funktion gezeichnet werden soll. Und z ist eine Matrix, die die Funktionswerte angibt. In der Hilfe finden Sie weitere optionale Argumente. 6.2 Gemeinsame Momente Wir betrachten jetzt Erwartungswerte von Funktionen H(X, Y ) von zwei Zufallsvariablen X und Y . Definition 6.6 Sei H(X, Y ) eine Funktion der Zufallsvariablen (X, Y ). Der Erwartungswert EH(X, Y ) ist definiert durch EH(X, Y ) = PP x y H(x, y)PXY (x, y) ∞ R ∞ R H(x, y)fXY (x, y)dydx falls X und Y diskret sind, falls X und Y stetig sind. −∞ −∞ Für das Rechnen mit Erwartungswerten gelten die folgenden Regeln (vergleiche Satz 2.1). Satz 6.4 Seien H(X, Y ) und G(X, Y ) Funktionen der beiden Zufallsvariablen X und Y , dann gilt: a) E(cH(X, Y )) = cEH(X, Y ), wenn c eine Konstante ist, b) E[(H(X, Y ) + G(X, Y )] = EH(X, Y ) + EG(X, Y ), insb. E(H(X, Y ) + c) = EH(X, Y ) + c . Man beachte jedoch, dass im allgemeinen: E[H(X, Y ) · G(X, Y )] 6= EH(X, Y ) · EG(X, Y ) . Definition 6.7 Das (r, s)-te gemeinsame Moment zweier Zufallsvariablen X und Y ist definiert als µ0rs = EX r Y s . 6.2. GEMEINSAME MOMENTE 103 Es ist z.B. µ011 = EX 1 Y 1 = EXY µ010 = EX 1 Y 0 = EX = µX µ001 = EX 0 Y 1 = EY = µY µ002 = EX 0 Y 2 = EY 2 µ020 = EX 2 Y 0 = EX 2 Definition 6.8 Das (r, s)-te gemeinsame Moment zweier Zufallsvariablen X und Y um den Erwartungswert ist definiert durch µrs = E(X − µX )r (Y − µY )s . 3 2 y 1 0 -1 -2 -3 -3 -2 -1 0 x 1 2 3 Abbildung 6.12: Typische Realisationen bei positiver Kovarianz Es ist z.B. 2 µ20 = E(X − µX )2 (Y − µY )0 = E(X − µX )2 = V ar(X) = σX = σXX die Varianz von X, µ02 = E(X − µX )0 (Y − µY )2 = E(Y − µY )2 = V ar(Y ) = σY2 = σY Y die Varianz von Y , µ11 = E(X − µX )(Y − µY ) = Cov(X, Y ) = σXY die Kovarianz von X und Y . 104 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN 3 2 y 1 0 -1 -2 -3 -3 -2 -1 0 x 1 2 3 Abbildung 6.13: Typische Realisationen bei negativer Kovarianz Wegen der besonderen Bedeutung definieren wir noch einmal: Definition 6.9 Das gemeinsame Moment µ11 heißt die Kovarianz von X und Y und wird auch mit cov(X, Y ) oder σXY bezeichnet. Zur Berechnung der Kovarianz nützlich ist die folgende Regel (vgl. Satz 2.2, in dem die entsprechende Regel für die Varianz gegeben wird). Satz 6.5 Cov(X, Y ) = EXY − EX · EY Beweis: Cov(X, Y ) = = = = = E[(X − µX )(Y − µY )] = E[XY − XµY − µx Y + µX µy ] E(XY ) − E(XµY ) − E(µX Y ) + E(µX µY ) E(XY ) − E(X)µY − µX E(Y ) + µX µY EXY − µX µY − µX µY + µX µY = EXY − µX µY EXY − EX · EY ♦ Die Kovarianz ist ein Maß für die gemeinsame Variation. Die Kovarianz ist positiv, wenn X und Y gemeinsam, d.h. gleichzeitig überwiegend positive (gemeint ist, größere Werte als der jeweilige Erwartungswert) oder gleichzeitig negative Werte (d.h. jeweils kleinere Werte als der Erwartungswert) annehmen. Abbildung 7.1 zeigt typische Realisationen bei positiver Kovarianz. Dort wurde EX = EY = 0 gewählt. Treten überwiegend positive Werte der 6.2. GEMEINSAME MOMENTE 105 einen Zufallsvariablen mit negativen Werten der anderen auf, so ist die Kovarianz negativ (siehe Abbildung 7.2). Die Größe der Kovarianz sagt nichts über die Stärke des Zusammenhangs aus. Denken Sie an zwei Zufallsvariablen, die Längen messen. Wenn Sie als Maßeinheit Zentimeter statt Meter verwenden, wird die Kovarianz um den Faktor 104 größer. Es ist also nötig, die Variation der einzelnen Variablen zu berücksichtigen, um zu einem dimensionslosen Maß zu kommen. Definition 6.10 Der Korrelationskoeffizient zweier Zufallsvariablen X und Y ist definiert durch cov(X, Y ) σXY ρXY = =q . σX σY V ar(X)V ar(Y ) Satz 6.6 Der Korrelationskoeffizient ρXY ist ein dimensionsloses Maß für den linearen Zusammenhang zweier Zufallsvariablen X und Y und es gilt −1 ≤ ρXY ≤ 1 . ρ = 0.95 y y ρ=0 x x ρ = 0.5 y y ρ = −0.7 x x Abbildung 6.14: Höhenlinien der gemeinsamen Dichtefunktion für verschiedene ρ Abbildung 6.14 zeigt die Höhenlinien (das sind Linien, auf denen die gemeinsame Dichtefunktion die gleiche Höhe hat) gemeinsamer Dichtefunktionen für verschiedene Werte von 106 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN ρ. Je größer |ρ|, desto mehr nähern sich die Höhenlinien einer Geraden. Es handelt sich um die Höhenlinien einer bivariaten Normalverteilung, die mit der R-Funktion contour gezeichnet wurden. Eine andere Darstellungsform erhält man mit der R-Funktion image, die die unterschiedlichen Höhen einer bivariaten Funktion durch Farben bzw. Graustufen darstellt. Die Dichtefunktion ist dort am höchsten, wo sie am hellsten dargestellt ist. So ähnlich kann man sich dann auch die Verteilung der Beobachtungen vorstellen, wenn man sehr viele Realisationen zur Verfügung hat. ρ=0 ρ=0.95 ρ=− 0.7 ρ=0.5 Abbildung 6.15: Imageplots der gemeinsamen Dichtefunktion f ür verschiedene ρ Definition 6.11 Zwei Zufallsvariablen X und Y heißen unkorreliert, wenn ρXY = 0 gilt. Satz 6.7 Zwei Zufallsvariablen X und Y sind genau dann unkorreliert, wenn EXY = EX · EY gilt. 6.2. GEMEINSAME MOMENTE 107 Beweis: ρ(X, Y ) = 0 ⇐⇒ Cov(X, Y ) = 0 ⇐⇒ EXY − EX · EY = 0 ⇐⇒ EXY = EX · EY . ♦ Beispiel 6.9 Die gemeinsame Dichtefunktion zweier Zufallsvariablen X und Y sei gegeben durch fXY (x, y) = ( 2 für 0 sonst. 0≤x≤y≤1 f(x,y) 0 0.5 1 1.5 2 Abbildung 6.16 zeigt die gemeinsame Dichtefunktion. Bei dieser Dichtefunktion ist wieder auf den Definitionsbereich zu achten (vergleiche Abbildung 6.5). Man kann fXY auffassen als die Dichtefunktion des Minimums (X ) und des Maximums (Y ) zweier U (0, 1)-verteilter Zufallsvariablen U 1 und U2 , d.h. X = min(U1 , U2 ) und Y = max(U1 , U2 ) . 1 1 0.5 y 0 0 0.5 x Abbildung 6.16: Gemeinsame Dichtefunktion f (x, y) = 2 für 0 ≤ x ≤ y ≤ 1 Wir wollen den Korrelationskoeffizienten ρXY von X und Y berechnen. Dazu gehen wir in folgenden Schritten vor: a) Berechne µ010 = EX b) Berechne µ020 = EX 2 c) Berechne µ20 = EX 2 − (EX)2 = V ar(X) d) Berechne µ001 = EY e) Berechne µ002 = EY 2 f) Berechne µ02 = EY 2 − (EY )2 = V ar(Y ) g) Berechne µ011 = EXY 108 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN h) Berechne µ11 = EXY − EXEY = Cov(X, Y ) Cov(X,Y ) V ar(X)V ar(Y ) i) Berechne ρXY = √ Bevor wir mit den einzelnen Schritten beginnen, bestimmen wir zun¨achst die Randdichten von X und Y , da wir die ersten und zweiten Momente von X und Y einfacher mit den Randdichtefunktionen als mit der gemeinsamen Dichtefunktion berechnen können. Z∞ fX (x) = fXY (x, y)dy −∞ Z1 = 2 dy x 2y|1x = ( = fY (y) = = 2(1 − x) für 0 ≤ x ≤ 1 0 sonst Z∞ fXY (x, y)dx −∞ Zy 2 dx 0 = = 2x|y0 ( 2y für 0 ≤ y ≤ 1 0 sonst Jetzt gehen wir in den obigen Schritten vor: a) µ010 = EX = Z1 x2(1 − x)dx = Z1 2x − 2x2 dx 0 0 = = 2 1 x − x3 3 0 1 3 2 b) µ020 = EX 2 = Z1 0 x2 2(1 − x)dx 6.2. GEMEINSAME MOMENTE 109 = Z1 0 = = 2x2 − 2x3 dx 2 3 1 4 1 x − x 3 2 0 1 6 c) V arX = µ20 = E(X 2 ) − (EX)2 2 1 1 = − 6 3 1 1 1 = − = 6 9 18 d) µ001 = EY = Z1 1 2 3 2 y2ydy = y = 3 3 Z1 1 1 4 1 2 y 2ydy = y = 2 2 0 e) µ002 = EY 2 = 0 f) 0 0 V arY = µ02 = E(Y 2 ) − (EY )2 2 1 2 = − 2 3 1 1 4 − = = 2 9 18 g) µ011 = EXY = Z1 Zy = Z1 0 0 0 = Z1 xy · 2dxdy y x2 y dy 0 y 3 dy 0 = h) 1 4 1 1 y = 4 0 4 µ11 = Cov(X, Y ) = EXY − EXEY 1 1 2 = − · 4 3 3 1 2 1 = − = 4 9 36 110 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN i) ρXY = = = p Cov(X, Y ) V ar(X)V ar(Y ) 1 q 36 1 1 18 18 18 1 = 36 2 R-Befehle zur graphischen Darstellung gemeinsamer Dichtefunktionen • contour(x, y, z) zeichnet die Höhenlinien der durch die Matrix z einzugebenden Funktion. Die Vektoren x und y bestimmen das Gitternetz, über dem die Funktion berechnet werden soll. In der Hilfe finden Sie weitere optionale Argumente, mit denen Sie z.B. die Anzahl der Höhenlinien bestimmen können. • image(x, y, z) zeichnet die Höhenlinien durch Farbabstufungen oder durch Graustufen. Die Argumente sind wie bei der Funktion contour. 6.3 Bedingte Verteilungen, Unabh¨ angigkeit 6.3.1 Bedingte Verteilungen Definition 6.12 Seien X und Y diskrete Zufallsvariablen. Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x ist definiert als PY |X (y|x) = PXY (x, y) , PX (x) und die bedingte Wahrscheinichkeitsfunktion von X gegeben Y = y ist definiert als PX|Y (x|y) = PXY (x, y) . PY (y) Beispiel 6.10 Wir betrachten die Situation aus Beispiel 6.1. Dort wurde eine große Grundgesamtheit von Steuerzahlern nach ihrer Altersgruppe und nach ihrer Meinung zur Kriminalit¨atslage in ihrer Umgebung befragt. Die gemeinsame Wahrscheinlichkeitsfunktion P XY ist in Tabelle 6.1 gegeben. Nehmen Sie an, dass wir eine Person aus der Grundgesamtheit zuf¨allig ausw¨ahlen. Wir stellen die beiden folgenden Fragen: • FRAGE 1: Wie hoch ist die Wahrscheinlichkeit, dass er oder sie die Kriminalit¨atslage als ,,sehr ernst” einsch¨atzt? ANTWORT: P ({Y = 4}) = PY (4) = 0.055 + 0.069 + 0.050 = 0.174 6.3. BEDINGTE VERTEILUNGEN, UNABHÄNGIGKEIT 111 • FRAGE 2: Wie hoch ist die Wahrscheinlichkeit, dass er oder sie die Kriminalit¨atslage als ,,sehr ernst” betrachtet, gegeben, dass er oder sie zwischen 30 und 50 Jahre alt ist? ANTWORT: P ({Y = 4}|{X = 2}) = PXY (2, 4) 0.069 = = 0.137 PX (2) 0.504 Wir wollen die komplette bedingte Wahrscheinlichkeitsfunktion von Y , gegeben X = 2 bestimmen. PY |X (y|2) = 0.029/0.504 = 0.058 0.191/0.504 = 0.379 PXY (2, y) = 0.215/0.504 = 0.427 PX (2) 0.069/0.504 = 0.137 0 y=1 y=2 y=3 y=4 sonst . Schließlich bestimmen wir noch die bedingte Wahrscheinlichkeitsfunktion von X , gegeben Y = 4. Diese Wahrscheinlichkeitsfunktion gibt uns die Antwort auf die • FRAGE: Wie groß ist die Wahrscheinlichkeit, dass eine zuf¨allig ausgew¨ahlte Person einer bestimmten Altersgruppe angehört, gegeben, dass diese Person die Kriminalit¨atslage als ,,sehr ernst” einsch¨atzt? ANTWORT: PX|Y (x|4) = 0.055/0.174 = 0.316 PXY (x, 4) 0.069/0.174 = 0.397 = 0.050/0.174 = 0.287 PY (4) 0 x=1 x=2 x=3 sonst . Definition 6.13 Seien X und Y stetige Zufallsvariablen. Die bedingte Dichtefunktion von Y gegeben X = x ist definiert durch fY |X (y|x) = fXY (x, y) , fX (x) und die bedingte Dichtefunktion von X gegeben Y = y ist definiert durch fX|Y (x|y) = fXY (x, y) . fY (y) Beispiel 6.11 Wir betrachten die gemeinsame Dichtefunktion aus Beispiel 6.2, die in Abbildung 6.1 graphisch dargestellt ist. fXY (x, y) = ( 12 5 x(2 0 − x − y) 0 ≤ x ≤ 1, sonst 0≤y≤1 In Beispiel 6.4 hatten wir auch schon die Randdichtefunktionen bestimmt. Es war fX (x) = ( 12 5 0 3 2x − x2 0≤x≤1 sonst 112 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN und fY (y) = ( 12 2 5 (3 0 − 12 y) 0 ≤ y ≤ 1 sonst. Damit ist die bedingte Dichte von X , gegeben Y = y fXY (x, y) fY (y) 12 5 x(2 − x − y) 12 2 1 5 ( 3 − 2 y) x(2 − x − y) ( 23 − 12 y) fX|Y (x|y) = = = 12x − 6x2 − 6yx . 4 − 3y = Damit ist z.B. die bedingte Dichte von X , gegeben Y = 2/3, für 0 ≤ x ≤ 1 (12x − 6x2 − 4x) 4−2 = 4x − 3x2 , fX|Y (x|2/3) = d.h. die bedingte Dichtefunktion von X , gegeben Y = 2/3, ist fX|Y (x|2/3) = ( 4x − 3x2 0 ≤ x ≤ 1 0 sonst . (6.1) 0 f(x,y) 0.5 1 Anschaulich ist fX|Y (x|2/3) die in Abbildung 6.17 durch Schnitt an der Stelle y = 2/3 entstehende Schnittkurve, die so zu normieren ist, dass die Fl¨ache unter der Kurve 1 wird, d.h. es ist durch den Inhalt der Schnittfl¨ache zu dividieren, d.h. durch fY (2/3). 1 1 0.5 0.5 x y 0 0 Abbildung 6.17: Zur Berechnung der bedingten Dichte von X, gegeben Y = 2/3 Die bedingte Dichtefunktion von Y , gegeben X = x, ist fY |X (y|x) = = = fXY (x, y) fX (x) 12 5 x(2 − x − y) 12 3 5 x( 2 − x) 2−x−y . ( 32 − x) 6.3. BEDINGTE VERTEILUNGEN, UNABHÄNGIGKEIT 113 Damit ist z.B. die bedingte Dichte von Y , gegeben X = 1/2, für 0 ≤ y ≤ 1 fY |X (y|1/2) = = 2− 3 2 1 2 − −y 1 2 3 −y , 2 d.h. die bedingte Dichtefunktion von Y , gegeben X = 1/2 ist 3 2 −y 0≤y ≤1 sonst. 0 0 f(x,y) 2 1 fY |X (y|1/2) = ( 1 1 0.5 y 0 0 0.5 x Abbildung 6.18: Zur Berechnung der bedingten Dichte von Y , gegeben X = 0.5 Anschaulich ist fY |X (y|1/2) die in Abbildung 6.18 durch Schnitt an der Stelle x = 1/2 entstehende Schnittkurve, die so zu normieren ist, dass die Fl¨ache unter der Kurve 1 wird, d.h. es ist durch den Inhalt der Schnittfl¨ache zu dividieren, d.h. durch fX (1/2). Definition 6.14 Seien X und Y zwei stetige Zufallsvariablen. Der bedingte Erwartungswert von Y gegeben X = x ist definiert durch E(Y |X = x) = Z∞ −∞ yfY |X (y|x)dy , und die bedingte Erwartung von X gegeben Y ist definiert durch E(X|Y = y) = Z∞ −∞ xfX|Y (x|y)dx . 114 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN Für zwei diskrete Zufallsvariablen gilt entsprechend E(Y |X = x) = X yPY |X (y|x) , E(X|Y = y) = X xPX|Y (x|y) . y und x Beispiel 6.12 Wir betrachten wieder die gemeinsame Dichtefunktion aus dem Beispiel 6.11 und wollen die bedingte Erwartung von E(X|Y = y) bestimmen. Dabei wollen wir für y zun¨achst keinen bestimmten Wert festlegen. Dann gilt Z∞ xfX|Y (x|y)dx = Z1 x 0 12x − 6x2 − 6yx dx 4 − 3y = Z1 12x2 − 6x3 − 6yx2 dx 4 − 3y E(X|Y = y) = −∞ 0 = = 1 4x3 − (3/2)x4 − 2yx3 4 − 3y 0 5 − 4y . 8 − 6y Zum Beispiel für y = 2/3 ergibt sich die bedingte Erwartung E(X|Y = 2/3) = 7/12 . (6.2) Definition 6.15 Seien X und Y zwei stetige Zufallsvariablen. Die bedingte Varianz von Y , gegeben X = x, ist definiert durch V ar(Y |X = x) = Z∞ −∞ (y − E(Y |X = x))2 fY |X (y|x)dy , und die bedingte Varianz von X, gegeben Y = y, ist definiert durch V ar(X|Y = y) = Z∞ −∞ (x − E(X|Y = y))2 fX|Y (x|y)dx . 6.3. BEDINGTE VERTEILUNGEN, UNABHÄNGIGKEIT 115 Für zwei diskrete Zufallsvariablen gilt entsprechend V ar(Y |X = x) = X V ar(X|Y = y) = X und y x (y − E(Y |X = x))2 PY |X (y|x) , (x − E(X|Y = y))2 PX|Y (x|y) . Beispiel 6.13 Wir benutzen die gemeinsame Dichtefunktion aus den beiden vorigen Beispielen und wollen jetzt die bedingte Varianz von X , gegeben Y = 2/3, berechnen. Die bedingte Erwartung ist nach Gleichung 6.2 E(X|Y = 2/3) = 7/12 . Wir wollen jetzt E(X 2 |Y = 2/3) bestimmen und benutzen dazu die bedingte Dichtefunktion von X , gegeben Y = 2/3, die wir in Gleichung 6.1 bestimmt hatten. E(X |Y = 2/3) = Z1 x2 (4x − 3x2 )dx = Z1 (4x3 − 3x4 )dx 2 0 0 3 1 = x − x5 5 0 = 1 − 3/5 = 2/5 . 4 Damit ist die bedingte Varianz V ar(X|Y = 2/3) = E(X 2 |Y = 2/3) − [E(X|Y = 2/3)]2 2 2 7 = − 5 12 288 − 245 43 = = . 720 720 Man rechnet also bedingte Erwartungswerte und bedingte Varianzen genauso aus wie gewöhnliche Erwartungswerte und Varianzen. Man muss nur die bedingten Dichtefunktionen bzw. Wahrscheinlichkeitsfunktionen verwenden. 116 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN 6.3.2 Unabhängigkeit Definition 6.16 Zwei Zufallsvariablen X und Y heißen unabhängig, wenn im Falle diskreter Zufallsvariablen für die gemeinsame Wahrscheinlichkeitsfunktion PXY (x, y) = PX (x)PY (y) für alle x, y gilt, bzw. im Falle stetiger Zufallsvariablen für die gemeinsame Dichtefunktion fXY (x, y) = fX (x)fY (y) für alle x, y gilt. Beispiel 6.14 In Beispiel 6.5 hatten wir gesehen, dass die gemeinsame Dichtefunktion fXY (x, y) = ( 2e−x e−2y 0 < x < ∞, sonst 0 0<y<∞ das Produkt ihrer Randdichten fX (x) = und fY (y) = ( ( e−x 0 < x < ∞ 0 sonst 2e−2y 0 0<y<∞ sonst ist. Die Zufallsvariablen X und Y sind also unabh¨angig. Satz 6.8 Wenn die beiden Zufallsvariablen X und Y unabhängig sind, so gilt für diskrete Zufallsvariablen PY |X (y|x) = PY (y) und PX|Y (x|y) = PX (x) . Für stetige Zufallsvariablen gilt fY |X (y|x) = fY (y) und fX|Y (x|y) = fX (x) . Beweis: Für diskrete Zufallsvariablen gilt im Falle der Unabhängigkeit PY |X (y|x) = PXY (x, y) PX (x)PY (y) = = PY (y) . PX (x) PX (x) Für stetige Zufallsvariablen ersetze man P durch f . ♦ 6.3. BEDINGTE VERTEILUNGEN, UNABHÄNGIGKEIT 117 Beispiel 6.15 Wir betrachten die gemeinsame Wahrscheinlichkeitsfunktion aus dem Beispiel 6.1 (Einsch¨atzung der Kriminalit¨atslage). Dort war PXY (1, 1) = 0.015, PX (1) = 0.267 und PY (1) = 0.052 . Offensichtlich gilt PX (1)PY (1) = 0.267 · 0.052 = 0.013884 6= 0.015 = P XY (1, 1) . Damit sind X und Y nicht unabh¨angig. In dieser Grundgesamtheit ist also die Einsch¨atzung der Kriminalit¨atslage nicht unabh¨angig vom Alter. Beispiel 6.16 In Beispiel 6.9 hatten wir die folgende gemeinsame Dichtefunktion zweier stetiger Zufallsvariablen X und Y betrachtet. fXY (x, y) = ( 2 0 für sonst. 0<x<y<1 Die Randdichten waren fX (x) = ( und fY (y) = 2(1 − x) 0 ( 2y 0 für sonst 0<x<1 für 0<y<1 sonst . Da fX (x)fY (y) = 4y(1 − x) 6= 2 = fXY (x, y) , sind die beiden Zufallsvariablen X und Y nicht unabh¨angig. Beispiel 6.17 In Beispiel 6.11 hatten wir die bedingten Dichtefunktionen ausgerechnet. Es galt fX|Y (x|y) = ( und fY |X (y|x) = 12x−6x2 −6yx 4−3y 0 ( 2−x−y ( 32 −x) 0 für sonst für 0<x<1 0<y<1 sonst . Offensichtlich h¨angt die bedingte Dichtefunktion von X , gegeben Y = y von y und die bedingte Dichte von Y , gegeben X = x von x ab, so dass die beiden Zufallsvariablen X und Y nach Satz 6.8 nicht unabh¨angig sein können. Satz 6.9 Wenn die beiden Zufallsvariablen X und Y unabhängig sind, so sind sie unkorreliert, d.h. es gilt EXY = EX · EY . 118 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN Beweis: Wir führen den Beweis nur für stetige Zufallsvariablen, für diskrete ist der Beweis analog, wenn man die Integrale durch Summen ersetzt. EXY = = = Z∞ Z∞ −∞ −∞ Z∞ Z∞ xyfXY (x, y)dxdy xyfX (x)fY (y)dxdy −∞ −∞ Z∞ −∞ yfY (y) Z∞ = EX −∞ | | Z∞ −∞ xfX (x)dx dy {z EX } yfY (y)dy = EXEY . {z EY } Die Umkehrung dieses Satzes gilt jedoch i. allg. nicht, wie das folgende Beispiel zeigt. Beispiel 6.18 Wir betrachten die gemeinsame Wahrscheinlichkeitsfunktion PXY (x, y) = ( 1/4 (x, y) = (−2, 4), (−1, 1), (1, 1), (2, 4) 0 sonst . Die Randwahrscheinlichkeitsfunktionen sind PX (x) = ( 1/4 x = −2, −1, 1, 2 0 sonst , PY (y) = ( 1/2 y = 1, 4 0 sonst . Es gilt EXY = 0 und EX = 0 , d.h. EXY = EX · EY . Die Zufallsvariablen X und Y sind also nach Satz 6.7 unkorreliert. Sie sind jedoch nicht unabh¨angig, da z.B. PXY (1, 1) = 1/4 6= 1/8 = PX (1)PY (1) . Das ist auch anschaulich klar, da Y = X 2 gilt. 6.4. DIE BIVARIATE NORMALVERTEILUNG 119 6.4 Die bivariate Normalverteilung Definition 6.17 Die Dichtefunktion der zweidimensionalen Normalverteilung ist gegeben durch fX1 X2 (x1 , x2 ) = x1 −µ1 2 x1 −µ1 x2 −µ2 x2 −µ2 2 1 1√ exp − 2(1−ρ2 ) − 2ρ σ + σ . σ σ 1−ρ2 2πσ1 σ2 1 1 2 2 Dabei gilt −∞ < x1 < ∞, −∞ < x2 < ∞ . Die zweidimensionale Normalverteilung hat fünf Parameter, für die gelten muss −∞ < µ2 < ∞, σ12 > 0, σ22 > 0, −1 < ρ < 1 . 0 f(x 1,x2) 0.1 0.2 −∞ < µ1 < ∞, 2 2 0 x 2 -2 0 -2 x1 Abbildung 6.19: Dichtefunktion einer zweidimensionalen Normalverteilung µ 1 = µ2 = 0, σ12 = σ22 = 1, ρ = −0.6 Wir schreiben (X1 , X2 ) ∼ N (µ1 , µ2 , σ12 , σ22 , ρ) , wenn (X1 , X2 ) eine zweidimensionale Normalverteilung besitzen. Die Bedeutung der einzelnen Parameter ist aus der folgenden Tabelle zu ersehen. Parameter µ1 µ2 σ12 σ22 ρ Bedeutung Erwartungswert von X1 Erwartungswert von X2 Varianz von X1 Varianz von X2 Korrelationskoeffizient von X1 und X2 Die zweidimensionale Normalverteilung hat die Form einer Glocke, die je nach Größe von ρ verschieden stark zusammengedrückt ist (siehe Abbildung 6.19). 120 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN 3 2 x2 1 0 -1 -2 ρ = −0.6 -3 -3 -2 -1 0 x1 1 2 3 Abbildung 6.20: Höhenlinien der zweidimensionalen Normalverteilung mit µ1 = µ2 = 0, σ12 = σ22 = 1, ρ = −0.6 2 2 -2 0 x x1 2 -2 x x1 -2 x x 2 -2 -2 1 ρ= 0.6 x x1 2 0.2 x 2 -2 0 -2 x -2 0 -2 x1 ρ= 0.9 0 0 0 2 2 0 2 0 0 ρ= 0.8 2 1 2 0 0.2 0.4 2 x 0 0 0 -2 2 0 -2 ρ= 0.3 2 0 2 0 x -2 2 2 2 0.1 0.2 0 0 ρ= 0 0.1 0.2 ρ= −0.3 -2 0.1 0.2 -2 2 0 2 0 x 0.1 0.2 0 0 0 2 2 ρ= −0.6 0.1 0.2 ρ= −0.8 0.2 0.2 0.4 ρ= −0.9 2 0 x 2 -2 1 2 0 -2 x 1 2 0 x 2 -2 0 -2 x1 Abbildung 6.21: Dichtefunktionen der zweidimensionalen Standardnormalverteilung in Abhängigkeit von ρ Die Standardform der bivariaten Normalverteilung ist: N (0, 0, 1, 1, ρ) . Die gemeinsame Dichtefunktion ist in diesem Fall für −∞ < x1 , x2 < ∞ ( ) 1 1 2 2 fX1 X2 (x1 , x2 ) = √ exp − x − 2ρx x + x 1 2 2 2 (1 − ρ2 ) 1 2π 1 − ρ2 . 6.4. DIE BIVARIATE NORMALVERTEILUNG 121 Abbildung 6.21 zeigt einige gemeinsame Dichtefunktionen der bivariaten Standardnormalverteilung in Abhängigkeit von ρ. (Beachten Sie die unterschiedlichen Skalierungen der zAchse.) Abbildung 6.22 zeigt die zugehörigen Höhenlinien, während Abbildung 6.23 die Image-Plots und Abbildung 6.24 simulierte Punktwolken zeigt. ρ = −0.99 ρ = −0.9 ρ = −0.6 ρ = −0.3 ρ=0 ρ = 0.3 ρ = 0.6 ρ = 0.9 ρ = 0.99 Abbildung 6.22: Höhenlinien der zweidimensionalen Standardnormalverteilung in Abhängigkeit von ρ Satz 6.10 Seien X1 und X2 gemeinsam normalverteilt. Dann gilt für die Randverteilungen von X1 und X2 X1 ∼ N (µ1 ; σ12 ) und X2 ∼ N (µ2 ; σ22 ) . Satz 6.11 Seien X1 und X2 gemeinsam normalverteilt. Dann gilt für die bedingte Verteilung von X1 , gegeben X2 = x2 , N (µ1 + ρσ1 (x2 − µ2 )/σ2 ; σ12 (1 − ρ2 )) , und die bedingte Verteilung von X2 , gegeben X1 = x1 , N (µ2 + ρσ2 (x1 − µ1 )/σ1 ; σ22 (1 − ρ2 )) . 122 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN ρ=− 0.99 ρ=− 0.9 ρ=− 0.6 ρ=− 0.3 ρ=0 ρ=0.3 ρ=0.6 ρ=0.9 ρ=0.99 Abbildung 6.23: Image-Plots der zweidimensionalen Standardnormalverteilung in Abhängigkeit von ρ Die Abbildungen 6.25 und 6.26 veranschaulichen die bedingten Dichtefunktionen (vergleiche Seite 112). Die Schnittkurven sind so zu normieren, dass die Fläche unterhalb der Dichtefunktion den Wert 1 erhält. R-Befehle zur bivariaten Normalverteilung Zur bivariaten Normalverteilung gibt es keine internen R-Funktionen. Es gibt jedoch die selbstgeschriebenen Funktionen: dbnorm(x1=0, x2=0, mu1=0, mu2=0, sigma1=1, sigma2=1, rho=0) berechnet die Dichtefunktion an der Stelle (x1, x2). rbnorm(n=1, mu1=0, mu2=0, sigma1=1, sigma2=1, rho=0) erzeugt n Paare bivariat normalverteilter Zufallszahlen. Weitere selbstgeschriebene R-Funktionen zur bivariaten Normalverteilung sind: • s3bnormpersp.fun(mu1=0, mu2=0, sigma1=1, sigma2=1, rho=0, nx=30, ax=1, bx=nx, ay=1, by=nx, ...) zeichnet einen 3D-Plot der gemeinsamen Dichtefunktion. Dabei ist nx die Anzahl der Gitterpunkte in x1 - und x2 -Richtung, für die die Dichtefunktion berechnet werden soll. Die Berechnung der Dichtefunktion kann auf den Bereich von ax bis bx und ay bis by (in Gitterpunkten gemessen) beschränkt werden, um Schnitte durch die gemeinsame Dichtefunktion zu erhalten (siehe Abbildung 9.7 oder 9.8). Es können optionale Argumente der R-Funktion persp und graphische Parameter als weitere Argumente angegeben werden. 6.4. DIE BIVARIATE NORMALVERTEILUNG 123 ρ = −0.99 ρ = −0.9 ρ = −0.6 ρ = −0.3 ρ=0 ρ = 0.3 ρ = 0.6 ρ = 0.9 ρ = 0.99 Abbildung 6.24: Simulierte Punktwolken der zweidimensionalen Standardnormalverteilung in Abhängigkeit von ρ • s3bnormcon.fun(mu1=0, mu2=0, sigma1=1, sigma2=1, rho=0, nx=30, ...) zeichnet die Höhenlinien der bivariaten Normalverteilung. Dabei ist nx die Anzahl der Gitterpunkte in beiden Richtungen, für die die gemeinsame Dichtefunktion berechnet wird. Es können optionale Argumente der R-Funktion contour und graphische Parameter als weitere Argumente angegeben werden. • s3bnormim.fun(mu1=0, mu2=0, sigma1=1, sigma2=1, rho=0, nx=30, ...) zeichnet die Höhenlinien der bivariaten Normalverteilung in Farbabstufungen. Dabei ist nx die Anzahl der Gitterpunkte in beiden Richtungen, für die die gemeinsame Dichtefunktion berechnet wird. Es können optionale Argumente der R-Funktion image und graphische Parameter als weitere Argumente angegeben werden. f(x1,x2) 0 0.05 0.1 0.15 0.2 KAPITEL 6. GEMEINSAME VERTEILUNG VON ZUFALLSVARIABLEN 2 2 0 x -2 2 0 -2 x1 Abbildung 6.25: Veranschaulichung der bedingten Dichte von X 1 , gegeben X2 = x2 f(x1,x2) 0 0.02 0.04 0.06 124 2 2 0 x 2 -2 0 -2 x1 Abbildung 6.26: Veranschaulichung der bedingten Dichte von X 2 , gegeben X1 = x1 Kapitel 7 p-dimensionale Zufallsvariablen 7.1 Definitionen, Eigenschaften Wir betrachten jetzt p Zufallsvariablen X1 , X2 , . . . , Xp . Alle Definitionen, Notationen und Eigenschaften sind analog zum 2-dimensionalen Fall. Definition 7.1 Die Zufallsvariablen X1 , X2 , . . . , Xp seien diskret. Die gemeinsame Wahrscheinlichkeitsfunktion ist dann definiert durch PX1 X2 ...Xp (x1 , x2 , . . . , xp ) = P ({X1 = x1 , X2 = x2 , . . . , Xp = xp }) . Definition 7.2 Eine Funktion f : IRp −→ IR heißt eine gemeinsame Dichtefunktion, wenn gilt a) f (x1 , x2 . . . , xp ) ≥ 0 für alle (x1 , x2 . . . , xp ) , b) ∞ R ... −∞ ∞ R ∞ R −∞ −∞ f (x1 , x2 , . . . , xp )dx1 dx2 . . . dxp = 1 . Definition 7.3 Die Zufallsvariablen (X1 , X2 , . . . Xp ) heißen stetig, wenn es eine gemeinsame Dichtefunktion fX1 X2 ...Xp gibt, so dass für alle ai , bi ; i = 1, 2, . . . , p mit ai ≤ bi gilt P ({a1 ≤ X1 ≤ b1 , a2 ≤ X2 ≤ b2 , . . . , ap ≤ Xp ≤ bp }) = Zbp ap ... Zb2 Zb1 fX1 X2 ...Xp (x1 , x2 , . . . , xp )dx1 dx2 . . . dxp . a2 a1 125 126 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN Satz 7.1 Für diskrete Zufallsvariablen (X1 , X2 , . . . , Xp ) gilt P ({a1 ≤ X1 ≤ b1 , a2 ≤ X2 ≤ b2 , . . . , ap ≤ Xp ≤ bp }) = X ... ap ≤xp ≤bp X X PX1 X2 ...Xp (x1 , x2 , . . . , xp ) . a2 ≤x2 ≤b2 a1 ≤x1 ≤b1 Definition 7.4 Die gemeinsame X1 , X2 , . . . , Xp ist definiert als Verteilungsfunktion der p Zufallsvariablen FX1 X2 ...,Xp (x1 , x2 , . . . , xp ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xp ≤ xp ) . Satz 7.2 Für stetige Zufallsvariablen X1 , X2 , . . . , Xp mit der gemeinsamen Verteilungsfunktion FX1 X2 ...,Xp erhält man die gemeinsame Dichtefunktion durch Differentiation: fX1 X2 ...,Xp (x1 , x2 , . . . , xp ) = ∂p FX X ...X (x1 , x2 , . . . , xp ) . ∂x1 ∂x2 . . . ∂xp 1 2 p Definition 7.5 Der Erwartungswert einer Funktion H(X1 , X2 , . . . , Xp ) ist im stetigen Fall definiert durch EH(X1 , X2 , . . . , Xp ) = Z∞ −∞ ... Z∞ Z∞ H(x1 , x2 , . . . , xp )fX1 X2 ...Xp (x1 , x2 , . . . , xp )dx1 dx2 . . . dxp −∞ −∞ und im diskreten Fall durch EH(X1 , X2 , . . . , Xp ) = XX x1 x2 ... X H(x1 , x2 , . . . , xp )PX1 X2 ...Xp (x1 , x2 , . . . , xp ) . xp Seien H1 (X1 , X2 , . . . , Xp ) und H2 (X1 , X2 , . . . , Xp ) jeweils Funktionen von (X1 , X2 , . . . , Xp ). Dann folgt sofort aus der Definition des Erwartungswertes E(H1 (X1 , X2 , . . . , Xp ) + H2 (X1 , X2 , . . . , Xp )) = EH1 (X1 , X2 , . . . , Xp ) + EH2 (X1 , X2 , . . . , Xp ) . 7.1. DEFINITIONEN, EIGENSCHAFTEN 127 So ist z.B. E(X1 + X2 + . . . + Xp ) = EX1 + EX2 + . . . + EXp . Definition 7.6 Die gemeinsamen Momente von p Zufallsvariablen sind definiert durch µ0r1 r2 ...rp = E(X1r1 X2r2 . . . Xprp ) . So ist z.B. µ0100...0 = EX1 und µ01100...0 = EX1 X2 . Die Randverteilungsfunktion einer Teilmenge von X1 , X2 , . . . , Xp erhält man, indem man die nicht in dieser Teilmenge enthaltenen Argumente gegen ∞ konvergieren lässt. Seien z.B. X1 , X2 , . . . , X5 Zufallsvariablen mit der Verteilungsfunktion FX1 X2 ...X5 (x1 , x2 , . . . , x5 ). Die Randverteilungsfunktion von X1 , X2 und X4 ist FX1 X2 X4 (x1 , x2 , x4 ) = lim lim FX1 X2 X3 X4 X5 (x1 , x2 , x3 , x4 , x5 ) x3 →∞ x5 →∞ Um die Randdichtefunktion (Randwahrscheinlichkeitsfunktion) einer Teilmenge von X1 , X 2 , . . . , X p zu bestimmen, integriert (summiert) man über die nicht in der Teilmenge enthaltenen Argumente. So ist z.B. im stetigen Fall fX1 X2 X4 (x1 , x2 , x4 ) = Z∞ Z∞ fX1 X2 X3 X4 X5 (x1 , x2 , x3 , x4 , x5 )dx3 dx5 −∞ −∞ und im diskreten Fall PX1 X2 X4 (x1 , x2 , x4 ) = XX x3 PX1 X2 X3 X4 X5 (x1 , x2 , x3 , x4 , x5 ) . x5 Definition 7.7 Die p Zufallsvariablen X1 , X2 , . . . , Xp sind unabhängig, wenn die folgende Bedingung für stetige Zufallsvariablen erfüllt ist fX1 X2 ...Xp (x1 , x2 , . . . , xp ) = fX1 (x1 )fX2 (x2 ) . . . fXp (xp ) , bzw. für diskrete Zufallsvariablen PX1 X2 ...Xp (x1 , x2 , . . . , xp ) = PX1 (x1 )PX2 (x2 ) . . . PXp (xp ) . 128 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN Unabhängigkeit kann auch mit Hilfe der Verteilungsfunktionen nachgewiesen werden. Satz 7.3 Die p Zufallsvariablen X1 , X2 , . . . , Xp sind genau dann unabhängig, wenn die folgende Bedingung erfüllt ist: FX1 X2 ...Xp (x1 , x2 , . . . , xp ) = FX1 (x1 )FX2 (x2 ) . . . FXp (xp ) . Bedingte Dichtefunktionen (Wahrscheinlichkeitsfunktionen) werden auf die übliche Weise definiert. So ist z.B. fX1 X3 |X2 X4 (x1 , x3 |x2 , x4 ) = fX1 X2 X3 X4 (x1 , x2 , x3 , x4 ) , fX2 X4 (x2 , x4 ) PX1 X3 |X2 X4 (x1 , x3 |x2 , x4 ) = PX1 X2 X3 X4 (x1 , x2 , x3 , x4 ) . PX2 X4 (x2 , x4 ) bzw. Wir wollen jetzt die p Zufallsvariablen X1 , X2 , . . . , Xp als Vektor betrachten, den wir mit dem Symbol X bezeichnen, also mit einem fettgedruckten X, d.h. X= X1 X2 .. . Xp oder X t = (X1 , . . . , Xp ) Ist µi = EXi der Erwartungswert von Xi , so bezeichnen wir mit µ den Vektor der Erwartungswerte. µ1 µ2 µ = .. oder µt = (µ1 , . . . , µp ) . µp Die Varianz-Kovarianzmatrix oder einfach Kovarianzmatrix wird mit Σ bezeichnet und enthält in der i-ten Zeile und j-ten Spalte die Kovarianz zwischen Xi und Xj : Σ = = V ar(X1 ) Kov(X1 , X2 ) Kov(X1 , X3 ) Kov(X2 , X1 ) V ar(X2 ) Kov(X2 , X3 ) Kov(X3 , X1 ) Kov(X3 , X2 ) V ar(X3 ) .. . . . . Kov(X1 , Xp ) . . . Kov(X2 , Xp ) . . . Kov(X3 , Xp ) .. . Kov(Xp , X1 ) Kov(Xp , X2 ) Kov(Xp , X3 ) . . . σ11 σ12 σ13 . . . σ1p σ21 σ22 σ23 . . . σ2p σ31 σ32 σ33 . . . σ3p .. . σp1 σp2 σp3 . . . σpp V ar(Xp ) 7.1. DEFINITIONEN, EIGENSCHAFTEN 129 Falls j = i ist, so ist Kov(Xi , Xj ) = Kov(Xi , Xi ) = V ar(Xi ), d.h. in der Diagonalen der Kovarianzmatrix stehen die Varianzen der Variablen X1 , X2 , . . . , Xp . Da σij = E(Xi − µi )(Xj − µj ) = E(Xj − µj )(Xi − µi ) = σji , ist Σ eine symmetrische p × p Matrix. Die Korrelationsmatrix wird mit einem großen griechischen Rho bezeichnet, das wie ein lateinisches P aussieht. Sie enthält in der i-ten Zeile und j-ten Spalte den Korrelationskoeffizienten zwischen Xi und Xj . P = ρ11 ρ12 ρ13 . . . ρ1p ρ21 ρ22 ρ23 . . . ρ2p ρ31 ρ32 ρ33 . . . ρ3p .. . ρp1 ρp2 ρp3 . . . ρpp Dabei ist ρij = √ ρii = √ P = σij σij = σii σjj σi σj und offensichtlich d.h. σii =1, σii σii 1 ρ12 ρ13 . . . ρ1p ρ21 1 ρ23 . . . ρ2p ρ31 ρ32 1 . . . ρ3p .. . ρp1 ρp2 ρp3 . . . 1 Die Korrelationsmatrix ist wie die Kovarianzmatrix eine symmetrische Matrix und enthält in der Diagonalen jeweils Einsen. Der Zusammenhang zwischen der Kovarianzmatrix Σ und der Korrelationsmatrix P kann mithilfe der Diagonalmatrix D beschrieben werden, die in √ der Diagonalen die Standardabweichungen σi = σii enthält. Für den umgekehrten Zusammenhang zwischen P und Σ benötigt man die Inverse D −1 , die in der Diagonalen die reziproken Werte der Standardabweichungen enthält. D= σ1 0 . . . 0 σ2 . . . .. . 0 0 0 0 . . . σp D −1 = Dann gilt: Σ = DP D P = D −1 ΣD −1 1 σ1 0 0 .. . 1 σ2 0 0 ... ... ... 0 0 1 σp 130 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN 7.2 Die p-dimensionale Normalverteilung Wir schreiben X ∼ N (µ; Σ) , wenn der Vektor X t = (X1 , X2 , . . . , Xp ) eine p-dimensionale Normalverteilung besitzt. Definition 7.8 Die Dichtefunktion einer p-dimensionalen Normalverteilung ist fX1 X2 ...Xp (x1 , x2 , . . . , xp ) = 1 (2π)p/2 q t det (Σ) e−(x−µ) Σ x−µ)/2 . −1 ( Dabei ist det (Σ) die Determinante der symmetrischen und positiv definiten Matrix Σ, Σ−1 die Inverse der Matrix Σ und xt = (x1 , x2 , . . . , xp ). Der Wertebereich ist −∞ < x1 , x2 , . . . , xp < ∞ . Die p-dimensionale Normalverteilung hat die Parameter µ und Σ, d.h. die Parameter a) µ1 , µ2 , . . . , µp , d.h. die p Erwartungswerte und b) p(p + 1)/2 Kovarianzen und Varianzen σ11 σ12 σ13 . . . σ1p σ22 σ23 . . . σ2p σ33 . . . σ3p .. . σpp Wegen der Symmetrie wurden die Elemente unterhalb der Diagonalen weggelassen. Beispiel 7.1 Für die 2-dimensionale Normalverteilung ist x= x1 x2 ! σ det (Σ) = 11 σ21 Σ−1 = 1 det (Σ) µ= σ12 σ22 µ1 µ2 ! Σ= σ11 σ12 σ21 σ22 ! = σ12 σ1 σ2 ρ σ1 σ2 ρ σ22 ! = σ11 σ22 − σ12 σ21 = σ12 σ22 − σ12 σ22 ρ2 = σ12 σ22 (1 − ρ2 ) ! ! σ22 −σ12 −σ21 σ11 = 1 σ12 σ22 (1 − ρ2 ) σ22 −ρσ1 σ2 −ρσ1 σ2 σ12 . Leiten Sie daraus die bekannte gemeinsame Dichtefunktion (siehe Definition 6.17) der bivariaten Normalverteilung her. Wir betrachten jetzt den Spezialfall, dass in der Kovarianzmatrix Σ σij = 0 für alle i 6= j , 7.2. DIE P-DIMENSIONALE NORMALVERTEILUNG d.h. Dann ist auch σ11 0 · · · 0 σ 0 22 .. . 0 0 Σ= . . . ··· 0 0 ··· ρij = √ σij =0 σii σjj ··· ··· 131 0 0 .. . ··· .. . 0 0 σpp für . (7.1) i 6= j . Die Zufallsvariablen X1 , ..., Xp sind dann nach Definition 6.11 unkorreliert. Wir hatten in Beispiel 6.18 gesehen, dass aus der Unkorreliertheit nicht notwendig die Unabhängigkeit folgen muss. Für gemeinsam normalverteilte Zufallsvariablen ist das jedoch anders. Satz 7.4 Die Zufallsvariablen X1 , X2 , . . . , Xp seien gemeinsam normalverteilt und unkorreliert. Dann sind X1 , X2 , . . . , Xp auch unabhängig verteilt. Beweis: Da die Kovarianzmatrix eine Diagonalmatrix ist, folgt nach Gleichung (7.1) det(Σ) = σ11 σ22 ...σpp . Damit ist die gemeinsame Dichtefunktion fX1 ,...,Xp (x1 , x2 , . . . , xp ) = (2π) p/2 √ P−1 1 t (x−µ)/2 e−(x−µ) σ11 σ22 ...σpp Nun ist die Inverse der Kovarianzmatrix Σ−1 = 1 σ11 0 .. . .. . 0 ··· ··· 1 0 ··· σ22 . · · · .. · · · .. . ··· 0 ··· ··· 0 0 0 .. . 0 1 σpp und damit (x − µ)t Σ−1 (x − µ) = (x1 − µ1 )2 (x2 − µ2 )2 (xp − µp )2 + +...+ . σ11 σ22 σpp Daraus folgt (x −µ )2 (x −µ )2 (x −µ )2 1 1 1 − 21 pσ p − 21 1σ 1 − 21 2σ 2 pp 11 22 √ fX1 ,...,Xp (x1 , x2 , . . . , xp ) = √ e e ... √ e 2πσpp 2πσ11 2πσ22 = fX1 (x1 )fX2 (x2 ), ..., fXp (xp ) , 132 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN ♦ d.h. X1 , X2 , . . . , Xp sind unabhängig verteilt. Wir geben jetzt die Schätzer der Parameter einer multivariaten Normalverteilung an. Wir gehen davon aus, dass n unabhängige Wiederholungen eines p-dimensionalen normalverteilten Vektors beobachtet werden. Wir haben also eine Matrix von Zufallsvariablen: X11 X21 X12 X22 X13 X23 .. .. . . X1n X2n . . . Xp1 . . . Xp2 . . . Xp3 .. .. . . . . . Xpn Jede Zeile besitzt eine p-dimensionale Normalverteilung. Die Zeilenvektoren sind unabhängig. Man kann sich das so vorstellen, dass man an n Objekten (Personen, Merkmalsträgern) je p Merkmale beobachtet hat. Die Beobachtungen der p Merkmale für das i-te Objekt stehen in der i-ten Zeile. In der j-ten Spalte stehen alle Beobachtungen für die j-te Zufallsvariable. Etwas unüblich ist also Xji die i-te Beobachtung der j-ten Variable und steht in der i-ten Zeile und j-ten Spalte. Die Schätzer der Erwartungswerte sind dann µ̂1 = n X X1j /n = X̄1 , µ̂2 = j=1 n X X2j /n = X̄2 , . . . , µ̂p = j=1 n X Xpj /n = X̄p . j=1 Die Maximum-Likelihood-Schätzer der Kovarianzen sind Sij = σ̂ij = n n 1X 1X (Xik − µ̂i )(Xjk − µ̂j ) = (Xik − X̄i )(Xjk − X̄j ) i, j = 1, 2, ..., p . n k=1 n k=1 Diese Schätzer sind nicht erwartungstreu. Erwartungstreue Schätzer sind Sij∗ = σ̂ij = n n 1 X 1 X (Xik −µ̂i )(Xjk −µ̂j ) = (Xik −X̄i )(Xjk −X̄j ) i, j = 1, 2, ..., p . n − 1 k=1 n − 1 k=1 Die geschätzte Kovarianzmatrix ist dann Σ̂ = S = S11 S12 . . . S1p S21 S22 . . . S2p .. . Sp1 Sp2 . . . Spp oder Σ̂ = S ∗ = ∗ ∗ ∗ S11 S12 . . . S1p ∗ ∗ ∗ S21 S22 . . . S2p .. . ∗ ∗ ∗ Sp1 Sp2 . . . Spp Schätzer der Korrelationskoeffizienten ρij erhält man durch σ̂ij ρ̂ij = rij = q σ̂ii σ̂jj i, j = 1, 2, ..., p . 7.2. DIE P-DIMENSIONALE NORMALVERTEILUNG 133 Die geschätzte Korrelationsmatrix ist dann P̂ = R = 1 r12 . . . r1p r21 1 . . . r2p .. . rp1 rp2 . . . 1 Von den zahlreichen Anwendungen der multivariaten Normalverteilung wollen wir hier nur die einfache Regressionsanalyse betrachten. Wir gehen von der Annahme µ1 µ2 X∼N ! , σ11 ρσ1 σ2 ρσ2 σ1 σ22 !! aus. Es seien Beobachtungen (x11 , x21 ), (x12 , x22 ), . . . , (x1n , x2n ) gegeben. Als Datenmatrix würde man das so schreiben: x11 x21 x12 x22 .. . x1n x2n 3 2 1 0 −1 −2 −3 −3 −2 −1 0 1 2 3 Abbildung 7.1: Zur einfachen linearen Regression: Höhenlinien der bivariaten Normalverteilung und simulierte Daten In diesem Zusammenhang sind folgende Aufgaben von Interesse. Man will z.B. • den Zusammenhang zwischen X1 und X2 beschreiben, • ρ schätzen, • Hypothesen über ρ testen, z.B. H0 : ρ = 0, 134 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN • X2 anhand einer Beobachtung von X1 vorhersagen, • die bedingte Erwartung von X2 gegeben X1 = 2 berechnen, • den 95%-Punkt der bedingten Verteilung von X2 , gegeben X1 schätzen. 7.3 Summen und Linearkombinationen von Zufallsvariablen Eine Linearkombination von n Zufallsvariablen X1 , X2 , . . . , Xn ist definiert durch: L = a 1 X1 + a 2 X2 + . . . a n Xn ai ∈ IR Wir wollen dieselbe Gleichung mit Vektoren schreiben. Dazu sei X t = (X1 , X2 , . . . , Xn ) und at = (a1 , a2 , . . . , an ). Dann ist L = at X Eine Linearkombination von Zufallsvariablen ist selbst wieder eine Zufallsvariable, die sehr häufig in Anwendungen erscheint (z.B. Mittelwerte, gewichtete Durchschnitte, Summen usw.). Schaut man sich die Vektorschreibweise an, so wird durch die Bildung einer Linearkombination aus dem zufälligen Vektor X mit einer multivariaten Verteilung ein zufälliger Skalar L mit einer univariaten Verteilung. Wir wollen die Eigenschaften der Verteilung einer Linearkombination, insbesondere Erwartungswert und Varianz untersuchen. Wir verwenden die folgenden Bezeichnungen: EXi = µi µt = (µ1 , µ2 , . . . , µn ) V arXi = E(Xi − µi )2 = σi2 = σii Kov(Xi , Xj ) = E(Xi − µi )(Xj − µj ) = σij Σ bezeichnet die Varianz-Kovarianzmatrix von X. Bei identisch verteilten Zufallsvariablen verwenden wir die Bezeichnungen µ, σ 2 statt µi , σi2 . Wir betrachten zunächst nur Summen: S = X1 + X2 + . . . Xn = 1t X , wobei 1t = (1, 1, . . . , 1) sei. Es ist: ES = E(X1 + X2 + . . . + Xn ) = EX1 + EX2 + . . . + EXn = µ1 + µ2 + . . . + µ n = nµ falls Xi identisch verteilt V arS = E(S − ES)2 = E( = E n X n X n X i=1 Xi − n X i=1 (Xi − µi )(Xj − µj ) = i=1 j=1 = n X i=1 E(Xi − µi )2 + n n X X i=1 j=1 i6=j µi )2 = E( n X i=1 n X n X i=1 j=1 (Xi − µi ))2 E(Xi − µi )(Xj − µj ) E(Xi − µi )(Xj − µj ) 7.3. SUMMEN UND LINEARKOMBINATIONEN VON ZUFALLSVARIABLEN = n X σi2 n X σi2 + i=1 = n n X X 135 σij j=1 i=1 i6=j falls Xi unabhängig i=1 = nσ 2 falls Xi unabhängig und identisch verteilt Jetzt betrachten wir Linearkombinationen L = a t X = a 1 X1 + a 2 X2 + . . . a n Xn ai ∈ IR Die entsprechenden Formeln sind dann: EL = E(a1 X1 + a2 X2 + . . . + an Xn ) = Ea1 X1 + Ea2 X2 + . . . + Ean Xn = a1 EX1 + a2 EX2 + . . . + an EXn = a1 µ1 + a2 µ2 + . . . + an µn = n X a i µi i=1 n X = µ ai falls Xi identisch verteilt i=1 In vektorieller Notation haben wir E(L) = E(at X) = at µ Var(L) = E(L − EL)2 = E( = E n X n X i=1 j=1 = = i=1 a i Xi − n X ai µi )2 = E( i=1 ai aj (Xi − µi )(Xj − µj ) = n X i=1 a2i E(Xi − µi )2 + n X a2i σi2 + n n X X n X a2i σi2 n n X X i=1 j=1 n X i=1 n X n X i=1 j=1 ai (Xi − µi ))2 ai aj E(Xi − µi )(Xj − µj ) ai aj E(Xi − µi )(Xj − µj ) i6=j i=1 = n X i=1 ai aj σij j=1 i6=j falls Xi unabhängig i=1 = σ2 n X a2i falls Xi unabhängig und identisch verteilt i=1 In vektorieller Notation haben wir das allgemeine Resultat: Var(L) = Var(at X) = at Σa Eine spezielle, besonders wichtige Linearkombination ist der Durchschnitt, d.h. das arithmetische Mittel: X̄n = n 1 1 1 1 1X Xi = X1 + X2 + . . . + Xn = 1 t X n i=1 n n n n 136 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN Es ist also ai = 1/n für i = 1, 2, . . . , n. Damit folgt aus den allgemeinen Formeln für diesen Spezialfall: n 1X µi n i=1 = µ falls Xi identisch verteilt E X̄n = V ar X̄n = E(X̄n − E X̄n )2 n n n X 1 X 1 X 2 = σ + σij n2 i=1 i n2 i=1 j=1 i6=j n 1 X = σ2 n2 i=1 i = σ 2 /n falls Xi unabhängig falls Xi unabh. und identisch verteilt Die Verteilung einer Summe oder einer Linearkombination von Zufallsvariablen ist oft schwer zu bestimmen, auch wenn die Zufallsvariablen unabhängig sind. Einige Ausnahmen haben wir im Laufe der Vorlesung bzw. in den Übungen kennengelernt. So wissen wir, dass die Summe von unabhängig und identisch Bernoulli-verteilten Zufallsvariablen binomialverteilt, die Summe von unabhängig und identisch geometrisch verteilten Zufallsvariablen negativ binomialverteilt, die Summe von unabhängig poissonverteilten Zufallsvariablen wieder Poissonverteilt ist, wobei sich die Parameter addieren. Die Summe von unabhängig und identisch exponentialverteilten Zufallsvariablen ist gammaverteilt. Die Summe von unabhängigen gammaverteilten Zufallsvariablen ist (bei gleichem Parameter λ) wieder gammaverteilt, wobei die Parameter ν zu addieren sind. Die Summe von unabhängigen χ 2 -verteilten Zufallsvariablen ist wieder χ2 -verteilt. Die Freiheitsgrade addieren sich. Schließlich ist jede Linearkombination von normalverteilten Zufallsvariablen wieder normalverteilt. Die Parameter µ und σ 2 bestimmen sich aus den Formeln für den Erwartungswert und die Varianz, die in diesem Kapitel hergeleitet wurden. Für den Durchschnitt nützlich ist oft der zentrale Grenzwertsatz, der Aussagen über die asymptotische Verteilung von X̄n macht. Satz 7.5 (Zentraler Grenzwertsatz) Die Zufallsvariablen X1 , X2 , . . . , Xn seien unabhängig und identisch verteilt mit V arXi = σ 2 < ∞. Dann besitzt √ n(X̄n − µ)/σ asymptotisch eine N (0, 1)-Verteilung. Man kann dann die Verteilung von X̄n durch eine N (µ, σ 2 /n)-Verteilung approximieren. 7.4 Weiteres zur multivariaten Normalverteilung Wir haben weiter oben gesagt, dass jede Linearkombination normalverteilter Zufallsvariablen wieder normalverteilt ist. Nun besagt ein Resultat von Cramer und Wold, dass die 7.4. WEITERES ZUR MULTIVARIATEN NORMALVERTEILUNG 137 Verteilung eines p-dimensionalen zufälligen Vektors X vollständig bestimmt ist durch die univariaten Verteilungen aller Linearkombinationen. Damit ist es möglich die multivariate Normalverteilung auf die folgende Weise zu definieren. Definition 7.9 Eine p-dimensionale Zufallsvariable X hat eine multivariate Normalverteilung, wenn alle Linearkombinationen von X eine univariate Normalverteilung besitzen. Jede Komponente des Vektors X ist eine Linearkombination von X und somit normalverteilt. Eine Linearkombination at X ist eine univariate Zufallsvariable und die Varianz einer univariaten Zufallsvariablen ist größer oder gleich 0, d.h. Var(a t X) ≥ 0. Andererseits gilt Var(at X) = at Σa, wenn Σ die Varianz-Kovarianzmatrix von X bezeichnet. Damit haben wir at Σa ≥ 0 ∀a Dieses Resultat bedeutet, dass die Varianz-Kovarianzmatrix Σ positiv semidefinit ist. In der früheren Definition der multivariaten Normalverteilung mithilfe der gemeinsamen Dichtefunktion hatten wir verlangt, dass die Kovarianzmatrix Σ positiv definit und invertierbar ist. Die Kovarianzmatrix ist positiv definit, wenn at Σa > 0 für alle a 6= 0. Eine multivariate Normalverteilung, für die Σ−1 nicht existiert, heißt singuläre oder degenerierte Normalverteilung und besitzt keine Dichtefunktion. Nicht nur jede Linearkombination von normalverteilten Zufallsvariablen ist wieder normalverteilt. Die Normalverteilung bleibt auch bei linearen Transformationen erhalten. Sei X ∼ N (µ, Σ) p-dimensional normalverteilt. Sei A eine p × m-Matrix. Dann ist W = A t X ein m-dimensionaler Vektor und es gilt W ∼ N (At µ; At ΣA) (7.2) Im univariaten Fall konnten wir jede beliebige Normalverteilung auf die Standardnormalverteilung transformieren. Wir geben jetzt eine äquivalente Transformation zwischen einem Zufallsvektor X ∼ N (µ; Σ) und einem zufälligen Vektor U , dessen Komponenten unabhängig und standardnormalverteilt sind, so dass U ∼ N (0; Ip ), wobei Ip eine p-dimensionale Einheitsmatrix ist. Wir beschränken uns auf den Fall, in dem Σ nichtsingulär ist. Dann gibt es eine nichtsinguläre Matrix p × p-Matrix B, so dass Σ = BB t . Betrachten wir jetzt die Transformation (X − µ) = BU . Wenn U ∼ Np (0; I), dann gilt nach Gleichung 7.2 (X − µ) ∼ N (0; BB t ) und daher X ∼ N (µ; Σ). Da B −1 existiert, ist die inverse Transformation gegeben durch: U = B −1 (X − µ). Wenn X ∼ N (µ; Σ), dann gilt E(U ) = 0 Var(U ) = B −1 Σ(B −1 )t nach Gleichung 7.2 −1 t t −1 = B (BB )(B ) = Ip Damit gilt U ∼ N (0; Ip ). Es sei angemerkt, dass die Matrix B nicht eindeutig ist, so dass es viele solche Transformationen gibt. Eine Möglichkeit, die Matrix B zu bestimmen ist: 138 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN B = CΛ1/2 . Dabei ist C die Matrix der Eigenvektoren von Σ (in jeder Spalte steht ein Eigenvektor) und Λ ist die Diagonalmatrix der Eigenwerte. Wir schieben kurz einige Bemerkungen zu Eigenwerten und Eigenvektoren ein. Sei Σ eine p × p-Matrix. Die Eigenwerte (charakteristischen Wurzeln) sind die Lösungen der Gleichung det(Σ − λI) = 0 (7.3) Diese Gleichung ist ein Polynom der Ordnung p in λ. Die der Größe nach geordneten Eigenwerte werden mit λ1 , λ2 , . . . , λp (λ1 ≥ λ2 ≥ . . . ≥ λp ) bezeichnet. Wir betrachten die Matrix Σ = 1 1/2 1/2 1 ! Dann gilt det(Σ − λI) = det 1 − λ 1/2 1/2 1 − λ ! = (1 − λ)2 − 1/4 = λ2 − 2λ + 3/4 q Diese Gleichung hat die beiden Lösungen λ1,2 = 1± 1 − 3/4, d.h. λ1 = 3/2 und λ2 = 1/2. Zu jedem Eigenwert λi gehört ein Vektor ci , der Eigenvektor genannt wird, für den gilt: Σci = λi ci (7.4) In unserem Beispiel ist also für λ1 = 3/2 das Gleichungssystem (Σ − 3/2I)c = 0 zu lösen, d.h. −0.5c11 + 0.5c12 = 0 0.5c11 − 0.5c12 = 0 Das bedeutet c11 = c12 , d.h jeder Vektor ct1 = (c11 , c11 ) ist eine Lösung. Für λ2 = 1/2 das Gleichungssystem Σ − 1/2I = 0 zu lösen, d.h. 0.5c21 + 0.5c22 = 0 0.5c21 + 0.5c22 = 0 Das bedeutet c21 = −c22 , d.h jeder Vektor ct2 = (c21 , −c21 ) ist eine Lösung. Die Eigenvektoren sind nur bis auf einen konstanten Faktor eindeutig bestimmt. Daher wert t den√sie gewöhnlich so normiert, √ √ dass√ci ci = 1 gilt. In unserem Beispiel wären also c1 = t (1/ 2, 1/ 2) und c2 = (1/ 2, −1/ 2) normierte Lösungen. Wenn es gleiche Eigenwerte gibt, können die Eigenvektoren so gewählt werden, dass sie orthonormiert sind (orthogonal und normiert). In R können die Eigenwerte mit der Funktion eigen bestimmt werden. Sigma<-matrix(c(1,0.5,0.5,1),nrow=2) eigen(Sigma) 7.4. WEITERES ZUR MULTIVARIATEN NORMALVERTEILUNG 139 $values 1.5 0.5 $vectors 0.7071068 0.7071068 0.7071068 -0.7071068 Die Matrix C der Eigenvektoren ist also: √ ! √ 1/√2 1/√2 = 1/ 2 −1/ 2 C= 0.7071 0.7071 0.7071 −0.7071 ! Die Diagonalmatrix der Eigenwerte ist Λ= Damit ist Λ und schließlich 1/2 q = B = CΛ 1/2 = 3/2 0 ! 3/2 0 0 1/2 0 q 1/2 = 1.2247 0 0 0.7071 ! √ 3/2 1/2 √ = 3/2 −1/2 ! 0.8660 0.5 0.8660 −0.5 ! Die Inverse einer quadratischen Matrix B bestimmt man in R mit dem Befehl solve(B). In diesem Fall ist ! 0.5774 0.5774 −1 B = 1.0000 −1.0000 Wir fassen das Ergebnis in folgendem Satz zusammen: Satz 7.6 Sei Σ nichtsingulär. Dann gilt X ∼ N (µ; Σ) genau dann, wenn X = µ+ BU , wobei U ∼ N (0; I), BB t = Σ und B ist eine p × p-Matrix vom Rang p und es gilt dann U = B −1 (X − µ). Wir hatten vorhin von einer degenerierten oder auch ausgearteten Verteilung gesprochen und wollen jetzt dafür ein Beispiel bringen: Betrachten Sie einen Vektor X, dessen Komponenten aus der Länge, Breite und dem Umfang eines zufälligen Rechtecks bestehen. Dann gilt zwischen den drei Komponenten dieses Vektors die lineare Beziehung 2X 1 + 2X2 − X3 = 0. Obwohl wir einen dreidimensionalen Vektor haben, ist die Variation in Wirklichkeit zweidimensional und Rang(Σ) = 2. Hätten wir Radius, Durchmesser und Umfang eines zufälligen Kreises, so gäbe es zwei lineare Beziehungen zwischen den Komponenten und die effektive Dimension dieses dreidimensionalen Vektors wäre 1. 140 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN Eigenschaften der multivariaten Normalverteilung: a) Wenn X ∼ N (µ, Σ) mit nichtsingulärem Σ, so gilt: (X − µ)t Σ−1 (X − µ) ∼ χ2p (7.5) Dies ist eine Verallgemeinerung der bekannten Tatsache, dass das Quadrat einer standardnormalverteilten Zufallsvariablen χ21 -verteilt ist. Insbesondere gilt für p = 1, dass [(Y − µ)/σ]2 ∼ χ21 . Nach Satz 7.6 können wir schreiben: U = B −1 (X − µ) mit BB t = Σ und U ∼ N (0; I). Dann ist U t U = p P j=1 Uj2 , wobei die Uj unabhängige standardnormalverteilte Zufallsvariablen sind. Folglich ist U t U ∼ χ2p -verteilt. Andererseits gilt aber: U t U = (X − µ)t (B −1 )t B −1 (X − µ) = (X − µ)t Σ−1 (X − µ) Damit folgt das obige Resultat. Subtrahiert man in Gleichung 7.5 nicht den Erwartungswertvektor µ, sondern z.B. µ0 6= µ, so erhält man anstelle der zentralen χ2 -Verteilung eine nichtzentrale χ2 Verteilung mit Nichtzentralitätsparameter δ 2 = (µ − µ0 )t Σ−1 (µ − µ0 ). Wir werden jetzt zeigen, dass die Randverteilungen und die bedingten Verteilungen einer multivariaten Normalverteilung wieder Normalverteilungen sind. Zur Vereinfachung nehmen wir an, dass X folgendermaßen aufgeteilt ist (evtl. muß man vorher die Variablen umordnen): X= X1 X2 ! mit X 1 ein (q × 1) − Vektor q < p Entsprechende Aufteilungen gelten für den Erwartungswertvektor und die Kovarianzmatrix: µ= µ1 µ2 ! Σ= Σ11 Σ12 Σ21 Σ22 ! Dabei sind Σ11 und Σ22 symmetrische positiv semidefinite q × q bzw. (p − q) × (p − q)Matrizen und Σ12 = Σt21 sind q × (p − q)-Matrizen. b) Die Randverteilung von X1 ist Nq (µ1 ; Σ11 ). Die multivariate Normalverteilung von X 1 folgt aus der Tatsache, dass Linearkombinationen von X 1 auch Linearkombinationen von X sind und damit univariate Normalverteilungen haben. c) X 1 und X 2 sind genau dann unabhängig verteilt, wenn Σ12 = 0. d) Wenn Σ22 vollen Rang hat, so dass Σ−1 22 existiert, ist die bedingte Verteilung von X 1 , gegeben X 2 = x2 eine multivariate Normalverteilung mit: E(X 1 |X 2 = x2 ) = µ1 + Σ12 Σ−1 22 (x2 − µ2 ) Var(X 1 |X 2 = x2 ) = Σ11 − Σ12 Σ−1 22 Σ21 7.4. WEITERES ZUR MULTIVARIATEN NORMALVERTEILUNG 141 Wir betrachten den Spezialfall q = 1. Dann ist X 1 = X1 die erste Komponente von X, also eine univariate Zufallsvariable. Dann ist E(X1 |X 2 = x2 ) = µ1 + Σ12 Σ−1 22 (x2 − µ2 ) (7.6) Nun ist aber Σ12 Σ−1 22 eine 1 × (p − 1)-Matrix, also ein Zeilenvektor, d.h. Gleichung 7.6 hat die Gestalt E(X1 |X 2 = x2 ) = µ1 + β2 (x2 − µ2 ) + . . . + βm (xp − µp ) (7.7) wenn wir die Elemente dieses Vektors mit β2 , . . . , βp bezeichnen. Gleichung 7.7 ist die Regressionsfunktion von X1 auf X2 , . . . , Xm . Für die bedingte Varianz haben wir dann Var(X1 |X 2 = x2 ) = σ11 − Σ12 Σ−1 22 Σ21 Für die bedingte Varianz kann man zeigen, dass Var(X1 |X 2 = x2 ) = 1 σ 11 gilt. Dabei ist σ 11 das (1, 1)-te Element der Inversen Σ−1 . Das bedeutet: die bedingte Varianz ist eine Konstante, die nicht von x2 abhängt. Kapitel 8 Sch¨ atzung von Parametern 8.1 Sch¨ atzmethoden Gegeben seien Beobachtungen x1 , x2 , . . . , x n , die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen X1 , X 2 , . . . , X n auffassen. Die Verteilung der Xi hänge von einem oder mehreren unbekannten Parametern ab. Die Parameter sollen aufgrund der vorliegenden Beobachtungen geschätzt werden. Wir werden zwei allgemeine Schätzmethoden besprechen. 8.1.1 Die Methode der Momente Definition 8.1 Das k-te Stichprobenmoment ist definiert als m0k n 1X xki . = n i=1 Das erste Stichprobenmoment ist z.B. m01 = n 1X xi = x̄ . n i=1 Die Methode der Momente beruht darauf, dass man a) zunächst die Parameter einer Verteilung durch die Momente µ0k der Verteilung ausdrückt. b) anschließend in dem in a) entstandenen Ausdruck die Momente µ 0k durch die entsprechenden Stichprobenmomente m0k ersetzt. 142 8.1. SCHÄTZMETHODEN 143 Beispiel 8.1 Die Exponentialverteilung hat einen Parameter λ und es gilt µ01 = 1/λ λ = 1/µ01 . oder Daher sch¨atzt man λ durch λ̂ = 1/m01 = 1/x̄ . Beispiel 8.2 Für eine normalverteilte Zufallsvariable X ∼ N (µ; σ 2 ) gilt EX = µ = µ01 . Daher verwendet man µ̂ = m01 = x̄ = als Sch¨atzer von µ. Für die Varianz von X gilt n 1X xi n i=1 VarX = σ 2 = EX 2 − (EX)2 = µ02 − (µ01 )2 . Daher sch¨atzt man σ2 durch σ̂ 2 = m02 − (m01 )2 . Es gilt σ̂ 2 = m02 − (m01 )2 = = n 1X x2 − (x̄)2 n i=1 i n 1X (xi − x̄)2 = s2 . n i=1 Beispiel 8.3 Die Gammaverteilung hat zwei Parameter ν und λ, und es gilt EX = ν/λ und Daraus folgt VarX = ν/λ2 . EX µ01 = 0 VarX µ2 − (µ01 )2 λ= und ν = λEX = (EX)2 (µ0 )2 = 0 1 0 2 . VarX µ2 − (µ1 ) Daher sind die Sch¨atzer von ν und λ nach der Methode der Momente ν̂ = (m01 )2 x̄2 = m02 − (m01 )2 s2 λ̂ = m01 x̄ = 2 . 0 0 2 m2 − (m1 ) s und Beispiel 8.4 Die Poissonverteilung hat einen Parameter λ und es gilt µ01 = EX = λ . Daher sch¨atzt man λ durch λ̂ = m01 = x̄ . 144 KAPITEL 8. SCHÄTZUNG VON PARAMETERN Beispiel 8.5 Die Bernoulli-Verteilung hat einen Parameter π und es gilt µ01 = EX = π . Daher sch¨atzt man π durch π̂ = m01 = x̄ . 8.1.2 Die Maximum-Likelihood-Methode Von dem Philosophen Rudolph Hermann Lotze (1817 - 1881), der von 1844 - 1880 in Göttingen lebte und nach dem die Lotzestraße benannt ist, stammt das folgende Zitat: Wenn gegebene Thatsachen aus mehreren verschiedenen Ursachen ableitbar sind, so ist diejenige Ursache die wahrscheinlichste, unter deren Voraussetzung die aus ihr berechnete Wahrscheinlichkeit der gegebenen Thatsachen die größte ist. Das ist eine sehr treffende Beschreibung der Maximum-Likelihood-Schätzmethode, die allgemein Fisher (1912) zugeschrieben wird, obwohl es sogar Quellen aus dem 18. Jahrhundert für diese Methode gibt. Definition 8.2 Der Maximum-Likelihood-Schätzer eines Parameters ist der Wert des Parameters, der den Beobachtungen die größte Wahrscheinlichkeit zuordnet. Beispiel 8.6 Es soll die Wahrscheinlichkeit π = P ({Kopf }) , mit der eine Münze mit ,,Kopf” auftrifft, gesch¨atzt werden. Dazu werde die Münze sechsmal geworfen. Sei Xi = ( 1 0 wenn das Ergebnis im i-ten Wurf ,,Kopf” ist, wenn das Ergebnis im i-ten Wurf ,,Zahl” ist. Die gemeinsame Wahrscheinlichkeitsfunktion von X 1 , X2 , . . . , X6 ist PX1 X2 ...X6 (x1 , x2 , . . . , x6 ; π) = P ({X1 = x1 , X2 = x2 , . . . , X6 = x6 }) . Wenn man annimmt, dass die Versuche unabh¨angig sind, gilt PX1 X2 ...X6 (x1 , x2 , . . . , x6 ; π) = P ({X1 = x1 }) · P ({X2 = x2 }) · . . . · P ({X6 = x6 }) . Die Beobachtungen in 6 Würfen seien 1 1 0 1 0 1. Die Wahrscheinlichkeit dieser Beobachtungen ist PX1 X2 ...X6 (1, 1, 0, 1, 0, 1) = π · π · (1 − π) · π · (1 − π) · π = π 4 (1 − π)2 . 8.1. SCHÄTZMETHODEN 145 Sie h¨angt vom Parameter π ab. Deshalb sollte man schreiben PX1 X2 ...X6 (1, 1, 0, 1, 0, 1; π) . Die Likelihoodfunktion ist die gemeinsame Wahrscheinlichkeitsfunktion an der Stelle der Beobachtungen x1 , x2 , . . . , xn . Sie wird jedoch als Funktion des Parameters betrachtet. Um das zu betonen, schreibt man L(π; 1, 1, 0, 1, 0, 1) statt PX1 X2 ...X6 (1, 1, 0, 1, 0, 1; π) . Wir können die Likelihoodfunktion für verschiedene Werte von π bestimmen. L(π; 1, 1, 0, 1, 0, 1) = π 4 (1 − π)2 0.000081 0.001024 0.003969 0.009216 0.015625 0.020736 0.021609 0.016384 0.006561 π 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Das Maximum liegt zwischen 0.6 und 0.7. Abbildung 8.1 zeigt die Likelihoodfunktion als Funktion von π . Der Wert π = 4/6 = 0.666 maximiert die Wahrscheinlichkeit dieser Beobachtungen. Wir können die Likelhoodfunktion analytisch maximieren. Dabei benutzen wir den folgenden Satz: Likelihood * 1000 25 20 15 10 5 0 0.0 0.2 0.4 0.6 0.8 1.0 π Abbildung 8.1: Graphische Darstellung der Likelihoodfunktion Satz 8.1 Der Wert π0 maximiert die Funktion L(π) genau dann, wenn er die Funktion log(L(π)) maximiert. 146 KAPITEL 8. SCHÄTZUNG VON PARAMETERN Abbildung 8.2 zeigt für das obige Beispiel die Likelihoodfunktion und die Loglikelihoodfunktion. -2 25 -4 -6 -8 Loglikelihood Likelihood * 1000 20 15 10 -10 -12 -14 -16 -18 5 -20 0 -22 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 π 0.6 0.8 1.0 π Abbildung 8.2: Likelihoodfunktion und Loglikelihoodfunktion Es ist oft einfacher den Logarithmus der Likelihoodfunktion zu maximieren. In unserem Beispiel ist log(L(π; 1, 1, 0, 1, 0, 1) = 4 log(π) + 2 log(1 − π) . Um das Maximum der Loglikelihoodfunktion zu bestimmen, bilden wir die Ableitung nach π . d log(L(π)) 4 2 = − ;. dπ π 1−π Diese Ableitung ist gleich null zu setzen. 4 2 − =0 π̂ 1 − π̂ ⇐⇒ 4(1 − π̂) = 2π̂ ⇐⇒ 4 = 6π̂ ⇐⇒ π̂ = 2 . 3 Der Maximum-Likelihood-Sch¨atzer von π ist also π̂ = 2 . 3 Streng genommen, müsste jetzt noch überprüft werden, ob die zweite Ableitung der Loglikelihoodfunktion nach π an der Stelle π̂ negativ ist, um sicher zu gehen, dass tats¨achlich ein Maximum und kein Minimum vorliegt. Beispiel 8.7 An die folgenden 10 Beobachtungen soll eine Poissonverteilung angepasst werden. 15 14 19 20 23 25 24 11 15 Für die Poissonverteilung gilt P (x) = λx e−λ x! x = 0, 1, 2, . . . . 18 8.1. SCHÄTZMETHODEN 147 Die Likelihoodfunktion ist L(λ; 15, 14, 19, 20, 23, 25, 24, 11, 15, 18) = P X1 X2 ...X10 (15, 14, . . . , 18; λ) 10 Y = PXi (xi ) i=1 λ15 e−λ λ14 e−λ = · 15! 14! · ... · λ18 e−λ . 18! -25 Loglikelihood -30 -35 -40 -45 -50 -55 -60 10 15 20 25 30 λ Abbildung 8.3: Loglikelihoodfunktion Abbildung 8.3 zeigt den Graphen der Loglikelihoodfunktion.Die Loglikelihoodfunktion hat ihr Maximum an der Stelle 18.4. Die Loglikelihoodfunktion ist: log(L(λ; 15, 14, . . . , 18)) = 15 log(λ) − λ − log(15!) + 14 log(λ) − λ − log(14!) + . . . + 18 log(λ) − λ − log(18!) = (15 + 14 + . . . + 18) log(λ) − 10λ − (log(15!) + log(14!) + . . . + log(18!)) = 184 log(λ) − 10λ − c . Dabei steht c für eine Konstante, die nicht vom Parameter λ abh¨angt. Durch Differenzieren nach λ und Nullsetzen der Ableitung ergibt sich 184/λ̂ − 10 = 0 . Daraus folgt λ̂ = 184/10 = 18.4 . Allgemein gilt bei gegebenen Beobachtungen x1 , x 2 , . . . , x n für die Likelihoodfunktion L(λ; x1 , x2 , . . . , xn ) = n Y λxi e−λ i=1 Die Loglikelihoodfunktion ist dann log(L(λ; x1 , x2 , . . . , xn )) = n X i=1 xi ! . (xi log(λ) − λ − log(xi !)) = log(λ) · n X i=1 xi − nλ − n X i=1 log(xi !) . 148 KAPITEL 8. SCHÄTZUNG VON PARAMETERN Die Ableitung der Loglikelihoodfunktion nach λ ist d log(L(λ; . . .)) = dλ Nullsetzen ergibt n P i=1 n P i=1 xi λ −n. xi =n. λ̂ Daraus folgt als Maximum-Likelihood-Sch¨atzer des Parameters λ der Poissonverteilung λ̂ = n P i=1 xi = x̄ . n Beispiel 8.8 Die Zufallsvariable X sei normalverteilt mit dem Parameter µ und σ 2 d.h. (x − µ)2 f (x) = √ exp − 2σ 2 2πσ 2 1 ! −∞<x<∞. Dann ist die Likelihoodfunktion n Y (xi − µ)2 √ L(µ, σ ) = exp − 2σ 2 2πσ 2 i=1 2 = (2π) 1 −n/2 2 −n/2 (σ ) ! n 1 X exp − 2 (xi − µ)2 2σ i=1 ! , und die Loglikelihoodfunktion ist log L(µ, σ 2 ) = −(n/2) log(2π) − (n/2) log σ 2 − n 1 X (xi − µ)2 . 2σ 2 i=1 Die partiellen Ableitungen sind n ∂ log L(µ, σ 2 ) 1 X = 2 (xi − µ) ∂µ σ i=1 und n ∂ log L(µ, σ 2 ) n 1 X = − + (xi − µ)2 . ∂σ 2 2σ 2 2(σ 2 )2 i=1 Nullsetzen der partiellen Ableitungen und Multiplikation mit σˆ2 bzw. 2σˆ2 ergibt n X i=1 und −n + (xi − µ̂) = 0 n 1 X (xi − µ̂)2 = 0 . ˆ 2 σ i=1 Die Lösungen der beiden Gleichungen sind µ̂ = x̄ 8.1. SCHÄTZMETHODEN und 149 n n 1X 1X σˆ2 = (xi − µ̂)2 = (xi − x̄)2 = s2 . n i=1 n i=1 An die folgenden Beobachtungen soll eine Normalverteilung angepasst werden: 87.8 94.4 85.8 87.3 91.1 111.5 67.5 96.4 123.2 104.4 73.8 110.4 112.8 106.8 100.1 107.8 81.5 121.2 103.1 96.4 97.0 100.7 89.8 120.3 98.0 107.0 100.0 109.6 119.5 113.1 94.0 81.0 109.2 111.4 85.5 101.5 83.3 105.8 92.2 90.6 101.4 114.5 113.2 101.3 102.0 80.6 101.0 80.7 93.8 106.8 log(L) -210 -205 -200 Abbildung 8.4 zeigt die Loglikelihoodfunktion als Funktion von µ und σ 2 . 30 0 105 20 σ2 0 10 0 100 µ 95 Abbildung 8.4: Loglikelihoodfunktion für anzupassende Normalverteilung Es ergeben sich als Sch¨atzer σ̂ 2 = 159.5 . µ̂ = 99.36 Beispiel 8.9 Wir wollen die Maximum-Likelihood-Sch¨atzer für eine Rechteckverteilung (X ∼ U (a; b)) bestimmen. Gegeben seien die drei Beobachtungen 21.4 3.7 28.9 . Die Likelihoodfunktion ist allgemein bei Beobachtungen x1 , x 2 , . . . , x n L(a, b; x1 , x2 , . . . , xn ) = 1 b−a n für a ≤ x1 , x2 , . . . , xn ≤ b . Um L zu maximieren, muss (b − a) minimiert werden, d.h. b muss so klein wie möglich (bei den obigen Beobachtungen b̂ = 28.9) und a so groß wie möglich sein (â = 3.7). Allgemein ist â = min(x1 , x2 , . . . , xn ) und b̂ = max(x1 , x2 , . . . , xn ) . 150 KAPITEL 8. SCHÄTZUNG VON PARAMETERN 8.2 Einige Eigenschaften von Sch¨ atzern Meistens gibt es mehrere Möglichkeiten, um einen Parameter zu schätzen, und man muss sich zwischen verschiedenen Schätzern (oder auch Schätzfunktionen) entscheiden. Um die Wahl zu erleichtern, geben wir einige Eigenschaften von Schätzern an, die wir zur Beurteilung ihrer Qualität heranziehen werden. Man wählt dann den Schätzer aus, der die besten“ ” Eigenschaften hat oder der die Eigenschaften hat, die in der jeweiligen praktischen Situation von Bedeutung sind. Zunächst ist festzustellen, dass ein Schätzer eine Zufallsvariable ist, also eine Verteilung hat und insbesondere Momente, die wir gleich zur Beurteilung der Güte des Schätzers heranziehen werden. Mit θ wollen wir den zu schätzenden Parameter bezeichnen, mit θ̂ den Schätzer (oder die Schätzfunktion). 8.2.1 Erwartungstreue, Bias Die Abbildungen 8.5 - 8.7 sollen jeweils zehn Realisationen von verschiedenen Schätzern θ̂1 , θ̂2 und θ̂3 zeigen. Der Schätzer θ̂1 überschätzt in den meisten Fällen, θ̂2 unterschätzt den zu schätzenden Parameter θ, während θ̂3 im Mittel θ weder überschätzt noch unterschätzt. Solch ein Schätzer heißt erwartungstreu. × × × ×× ×× ×× θ × Abbildung 8.5: Typische Realisationen des Schätzers θ̂1 ×× ××× ×× ×× × θ Abbildung 8.6: Typische Realisationen des Schätzers θ̂2 ×× ×× × × ×× × × θ Abbildung 8.7: Typische Realisationen des Schätzers θ̂3 Definition 8.3 Ein Schätzer θ̂ heißt erwartungstreu, wenn gilt E θ̂ = θ . 8.2. EINIGE EIGENSCHAFTEN VON SCHÄTZERN 151 Definition 8.4 Der Bias eines Schätzers θ̂ ist definiert als Bias(θ̂) = E θ̂ − θ . Offensichtlich ist ein Schätzer θ̂ genau dann erwartungstreu, wenn Bias(θ̂) = 0 gilt. Beispiel 8.10 Die Beobachtungen x1 , x 2 , . . . , x n seien Realisierungen von unabh¨angigen N (µ; σ2 )-verteilten Zufallsvariablen. Als Sch¨atzer von µ betrachten wir n 1X µ̂ = Xi . n i=1 Es ist E µ̂ = E n n 1X 1X Xi = EXi = µ , n i=1 n i=1 d.h. µ̂ ist ein erwartungstreuer Sch¨atzer von µ. Eine abgeschwächte Forderung an den Schätzer ist die asymptotische Erwartungstreue: Definition 8.5 Ein Schätzer θ̂ heißt asymptotisch erwartungstreu, wenn gilt lim E θ̂ = θ . n→∞ Asymptotische Erwartungstreue ist gleichbedeutend damit, dass der Bias (auch Verzerrung genannt), mit wachsendem Stichprobenumfang n → ∞ verschwindet. Beispiel 8.11 Die Beobachtungen x1 , x 2 , . . . , x n seien wieder Realisierungen von unabh¨angigen N (µ; σ2 )-verteilten Zufallsvariablen. Wir betrachten den Sch¨atzer der Varianz σ2 , n 1X σ̂ 2 = S 2 = (Xi − X̄)2 . n i=1 Es ist bekannt, dass nS 2 ∼ χ2 (n − 1) . σ2 Dann gilt nach Satz 3.13 ES 2 = σ2 σ2 E(χ2 (n − 1)) = (n − 1) . n n 152 KAPITEL 8. SCHÄTZUNG VON PARAMETERN Somit ist S 2 kein erwartungstreuer Sch¨atzer von σ2 . Für den Bias gilt Bias(S 2 ) = σ2 (n − 1) − σ 2 = −σ 2 /n . n Würde man anstelle S2 den Sch¨atzer S∗2 n n 1 X 2 = (Xi − X̄)2 S = n−1 n − 1 i=1 verwenden, so h¨atte man wegen ES∗2 = n ES 2 = σ 2 n−1 einen erwartungstreuen Sch¨atzer. Das ist der Grund, weshalb S∗2 h¨aufig als Sch¨atzer der Varianz 2σ verwendet wird. Für den Bias von S2 gilt −→ 0 Bias(S 2 ) = −σ 2 /n n→∞ Damit ist S 2 asymptotisch erwartungstreu. Asymptotische Erwartungstreue ist eine Eigenschaft des Schätzers für große Stichprobenumfänge n. Ein asymptotisch erwartungstreuer Schätzer kann für kleine Stichprobenumfänge erhebliche Verzerrungen liefern. So gilt z.B. für n = 2 für den Schätzer S 2 : E(S 2 ) = σ 2 /2, d.h. σ 2 wird im Durchschnitt erheblich unterschätzt. 8.2.2 Standardfehler Definition 8.6 Der Fehler eines Schätzers θ̂ ist definiert als θ̂ − θ . Die Abbildungen 8.8 und 8.9 zeigen typische Realisationen von zwei jeweils erwartungstreuen Schätzern. Der Schätzer θ̂1 zeichnet sich durch eine kleinere Streuung aus und ist deshalb vorzuziehen. Das entsprechende Maß für die Streuung eines Schätzers ist seine Standardabweichung, d.h. die Wurzel aus seiner Varianz. Definition 8.7 Der Standardfehler eines Schätzers θ̂ ist seine Standardabweichung, d.h. SF(θ̂) = q Var(θ̂) . 8.2. EINIGE EIGENSCHAFTEN VON SCHÄTZERN 153 × ××××× ×× θ Abbildung 8.8: Typische Realisationen des Schätzers θˆ1 × × × × × θ × × × Abbildung 8.9: Typische Realisationen des Schätzers θˆ2 Beispiel 8.12 Wie in Beispiel 8.10 seien die Beobachtungen x1 , x 2 , . . . , x n Realisierungen von unabh¨angigen N (µ; σ2 )-verteilten Zufallsvariablen, und wir betrachten wieder den Sch¨atzer n 1X µ̂ = Xi . n i=1 Es ist Var(µ̂) = Var und damit n 1X Xi n i=1 ! = σ 2 /n √ SF(µ̂) = σ/ n . Beispiel 8.13 Wir beziehen uns auf Beispiel 8.11 und die dort betrachteten Sch¨atzer S2 und S∗2 . Der Sch¨atzer S2 war nicht erwartungstreu, sondern nur asymptotisch erwartungstreu, w¨ahrend S∗2 erwartungstreu ist. Es ist die Frage offen, was für die Verwendung von S2 , also eines nicht erwartungstreuen Sch¨atzers spricht. Aus diesem Grunde untersuchen wir jetzt, wie sich beide Sch¨atzer hinsichtlich ihres Standardfehlers verhalten. Es gilt 2 VarS = Var σ2 2 χ (n − 1) n ! = σ4 2(n − 1) n2 und damit SF (S 2 ) = Für S∗2 gilt VarS∗2 n = Var S2 n−1 und damit SF (S∗2 ) = σ 2 s σ2 q 2(n − 1) . n = n2 σ4 2 VarS = 2 · (n − 1)2 n−1 2 n = SF (S 2 ) > SF (S 2 ) . n−1 n−1 Die Erwartungstreue wird also mit einem größeren Standardfehler erkauft. 154 KAPITEL 8. SCHÄTZUNG VON PARAMETERN 8.2.3 Mittlerer quadratischer Fehler Zur Beurteilung der Güte eines Schätzers muss man sowohl den Bias als auch den Standardfehler berücksichtigen. Wir definieren jetzt ein Maß, das beide Größen zusammenfasst. Definition 8.8 Der mittlere quadratische Fehler eines Schätzers θ̂ ist definiert als MQF(θ̂) = E(θ̂ − θ)2 . Der mittlere quadratische Fehler misst also die zu erwartende quadratische Abweichung zwischen dem Schätzer und dem zu schätzenden Parameter. Satz 8.2 Für den mittleren quadratischen Fehler eines Schätzers θ̂ gilt MQF(θ̂) = Var(θ̂) + (Bias(θ̂))2 . Beweis: MQF(θ̂) = = = = = E(θ̂ − θ)2 = E(θ̂ − E θ̂ + E θ̂ − θ)2 E((θ̂ − E θ̂) + (E θ̂ − θ))2 E((θ̂ − E θ̂)2 + 2(θ̂ − E θ̂)(E θ̂ − θ) + (E θ̂ − θ)2 ) E(θ̂ − E θ̂)2 + 2E(θ̂ − E θ̂)(E θ̂ − θ) + E(E θ̂ − θ)2 V ar(θ̂) + 2(E θ̂ − E θ̂ )(E θ̂ − θ) + (E θ̂ − θ)2 | {z } =0 = Var(θ̂) + (Bias(θ̂))2 | {z } =(Bias(θ̂))2 ♦ Die zu erwartende quadratische Abweichung ist somit die Summe aus der Varianz von θ̂ und dem quadrierten Bias von θ̂. Beispiel 8.14 Wie in den früheren Beispielen seien die Beobachtungen x1 , x 2 , . . . , x n Realisierungen von unabh¨angigen N (µ; σ2 )-verteilten Zufallsvariablen. Wir betrachten zun¨achst den Sch¨atzer n 1X µ̂ = Xi . n i=1 8.2. EINIGE EIGENSCHAFTEN VON SCHÄTZERN 155 Da µ̂ erwartungstreu ist, gilt MQF(µ̂) = Var(µ̂) = σ 2 /n . Für den Sch¨atzer S2 gilt σ4 σ2 MQF(S ) = Var(S ) + (Bias(S )) = 2 2(n − 1) + − n n 2 2 2 2 !2 = σ4 (2n − 1) . n2 Der Sch¨atzer S∗2 ist erwartungstreu. Daher gilt MQF(S∗2 ) = Var(S∗2 ) = σ 4 Es ist MQF(S 2 ) = σ 4 2 1 − n n2 < σ4 2 . n−1 2 2 < σ4 = M QF (S∗2 ) . n n−1 Beurteilt man also einen Sch¨atzer nach dem mittleren quadratischen Fehler, so ist S2 gegenüber S∗2 vorzuziehen. Satz 8.3 Für einen erwartungstreuen Schätzer θ̂ gilt MQF(θ̂) = Var(θ̂) . Beweis: Für einen erwartungstreuen Schätzer θ̂ gilt Bias(θ̂) = 0 und daher MQF(θ̂) = Var(θ̂) + (Bias(θ̂))2 = Var(θ̂) . ♦ 8.2.4 Konsistenz Die Varianz eines Schätzers als alleiniges Kriterium ist also nur für erwartungstreue Schätzer sinnvoll. Bei asymptotisch erwartungstreuen Schätzern geht mit wachsendem Stichprobenumfang der Bias gegen Null. Geht gleichzeitig auch die Varianz gegen Null, so konvergiert auch der mittlere quadratische Fehler gegen Null. Man spricht dann von Konsistenz, genauer: Konsistenz im quadratischen Mittel. Definition 8.9 Ein Schätzer θ̂ heißt konsistent im quadratischen Mittel, wenn gilt lim M QF (θ̂) = 0 n→∞ 156 KAPITEL 8. SCHÄTZUNG VON PARAMETERN Die Konsistenz ist eine asymptotische Eigenschaft, die nur für große Stichprobenumfänge gilt. Eine konsistente Schätzfunktion kann für endliche Stichprobenumfänge eine große Varianz und eine erhebliche Verzerrung besitzen. Die Konsistenz im quadratischen Mittel wird auch als starke Konsistenz bezeichnet. Eine alternative Form der Konsistenz ist die schwache Konsistenz, bei der verlangt wird, dass die Wahrscheinlichkeit, mit der die Schätzfunktion Werte in einem beliebig kleinen Intervall um den wahren Parameter annimmt, mit wachsendem Stichprobenumfang gegen Eins konvergiert. Anschaulich bedeutet dies, dass der Schätzwert für große n in unmittelbarer Nähe des wahren Parameters liegt. Definition 8.10 Ein Schätzer θ̂ heißt schwach konsistent, wenn für beliebiges > 0 gilt lim P (|θ̂ − θ| < ) = 1 n→∞ oder gleichbedeutend lim P (|θ̂ − θ| ≥ ) = 0 n→∞ Aus der Konsistenz im quadratischen Mittel (oder der starken Konsistenz) folgt die schwache Konsistenz. Beispiel 8.15 Wie im vorigen Beispiel seien die Beobachtungen x1 , x 2 , . . . , x n Realisierungen von unabh¨angigen N (µ; σ2 )-verteilten Zufallsvariablen. Wir wissen, dass der Sch¨atzer n 1X µ̂ = Xi n i=1 erwartungstreu ist und den folgenden mittleren quadratischen Fehler besitzt: MQF(µ̂) = Var(µ̂) = σ 2 /n Der mittlere quadratische Fehler konvergiert offensichtlich gegen Null, d.h. der Sch¨atzer ist konsistent im quadratischen Mittel. Die schwache Konsistenz folgt aus der starken. Man könnte sie auch so beweisen: P (|X̄ − µ| ≤ ) ! X̄ − µ = P √ ≤ √ σ/ n σ n = Φ √ √ n −Φ − n σ σ n→∞ −→ 1 − 0 = 1 Diese Wahrscheinlichkeit ist in Abbildung 8.10 grafisch dargestellt. Mit wachsendem Stichprobenumfang liegt die gesamte Verteilung innerhalb der senkrechten Striche bei µ − und µ + . 8.2. EINIGE EIGENSCHAFTEN VON SCHÄTZERN 157 n3 = 20 n2 = 10 n1 = 2 µ−ε µ µ+ε Abbildung 8.10: Wahrscheinlichkeiten P (|X̄ − µ| ≤ ) für = 3/4, σ = 1 bei Stichprobenumfängen n1 = 2, n2 = 10, n3 = 20 Ein erwartungstreuer Schätzer ist offensichtlich genau dann konsistent im quadratischen Mittel, wenn die Varianz gegen Null konvergiert. Dasselbe läßt sich auch für die schwache Konsistenz zeigen. Dazu brauchen wir die Tschebyscheffsche Ungleichung: Satz 8.4 (Ungleichung von Tschebyscheff) Sei X eine Zufallsvariable mit E(X) = µ und Var(X) = σ 2 . Dann gilt die folgende Ungleichung für beliebiges c > 0: σ2 P (|X − µ| ≥ c) ≤ 2 c Diese Ungleichung besagt, dass bei festem c die Wahrscheinlichkeit, dass X um mindestens c von µ abweicht desto geringer ist, je kleiner die Varianz ist. Da P (|X − µ| < c) = 1 − P (|X − µ| ≥ c) folgt daraus sofort eine zweite Ungleichung: P (|X − µ| < c) ≥ 1 − σ2 c2 Die Tschebyscheffsche Ungleichung lässt sich so beweisen: Wir definieren eine diskrete Zufallsvariable Y durch Y = ( 0 c2 falls falls |X − µ| < c |X − µ| ≥ c Dann gilt: P (Y = 0) = P (|X − µ| < c) und P (Y = c2 ) = P (|X − µ| ≥ c). Also ist: E(Y ) = c2 P (|X − µ| ≥ c) Nach Definition von Y gilt immer Y ≤ |X − µ|2 und somit E(Y ) ≤ E(X − µ)2 = Var(X) = σ 2 158 KAPITEL 8. SCHÄTZUNG VON PARAMETERN Also haben wir und damit P (|X − µ| ≥ c) ≤ σ2 . c2 c2 P (|X − µ| ≥ c) ≤ σ 2 Für einen Schätzer θ̂ folgt aus der Tschebyscheffschen Ungleichung P (|θ̂ − θ| ≥ ) ≤ Var(θ̂) 2 n→∞ Daraus folgt, dass jeder erwartungstreue Schätzer schwach konsistent ist, wenn Var( θ̂) −→ 0. Beispiel 8.16 Der Erwartungswert µ = E(X) einer Zufallsvariablen X mit Var(X) = σ 2 wird durch das arithmetische Mittel X̄ gesch¨atzt. Da E(X̄) = E(X) ist X̄ ein erwartungstreuer Sch¨atzer. 2 n→∞ Für die Varianz vonX̄ gilt Var(X̄) = σn −→ 0. Demnach ist X̄ konsistent im quadratischen Mittel und auch schwach konsistent. 8.2.5 Effizienz Der mittlere quadratische Fehler (MQF) ist ein Maß für die Güte eines Schätzers, das sowohl die Verzerrung als auch die Varianz des Schätzers berücksichtigt. Demnach ist von zwei Schätzern θ̂1 und θ̂2 derjenige vorzuziehen, der den kleineren mittleren quadratischen Fehler besitzt. Man sagt dann, dass θ̂1 MQF-wirksamer ist als θ̂2 , wenn M QF (θ̂1 ) ≤ M QF (θ̂2 ) Hierbei muss man jedoch den Bereich der zugelassenen Verteilungen einschränken, z.B. auf alle Poissonverteilungen, wenn es um die Schätzung des Parameters λ der Poissonverteilung geht oder auf alle Verteilungen mit endlicher Varianz, wenn es um die Schätzung des Erwartungswertes geht. Betrachtet man nur erwartungstreue Schätzer, d.h. Schätzer ohne Bias, so reduziert sich die Betrachtung der Wirksamkeit auf den Vergleich der Varianzen: Definition 8.11 Ein erwartungstreuer Schätzer θ̂1 heißt wirksamer oder effizienter als der ebenfalls erwartungstreue Schätzer θ̂2 , wenn Var(θ̂1 ) ≤ Var(θ̂2 ) für alle zugelassenen Verteilungen gilt. Ein erwartungstreuer Schätzer θ̂ heißt wirksamst oder effizient, wenn seine Varianz für alle zugelassenen Verteilungen den kleinsten möglichen Wert annimmt, d.h. wenn für alle anderen erwartungstreuen Schätzer θ̂∗ gilt: Var(θ̂) ≤ Var(θ̂∗ ) 8.2. EINIGE EIGENSCHAFTEN VON SCHÄTZERN 159 Es gibt eine untere Schranke für die Varianz einer erwartungstreuen Schätzfunktion, die sogenannte Cramér-Rao-Schranke, die wir jedoch im Rahmen dieser Vorlesung nicht angeben können. Diese Schranke wird von wirksamsten Schätzern angenommen. Effiziente Schätzfunktionen sind u.a. • X̄ für den Erwartungswert, wenn alle Verteilungen mit endlicher Varianz zugelassen sind, • X̄ für den Erwartungswert, wenn alle Normalverteilungen zugelassen sind, • X̄ für den Anteilswert π, wenn alle Bernoulli-Verteilungen zugelassen sind, • X̄ für den Parameter λ, wenn alle Poisson-Verteilungen P o(λ) zugelassen sind, • X̄ für g(λ) = 1/λ, wenn alle Exponentialverteilungen Exp(λ) zugelassen sind, • die mittlere quadratische Abweichung bzgl. µ, d.h. 1 n n P i=1 (Xi − µ)2 für die Varianz σ 2 , wenn alle Normalverteilungen mit Erwartungswert µ zugelassen sind, • die Stichprobenvarianz S∗2 = 1 n−1 n P i=1 (Xi − X̄)2 für die Varianz σ 2 einer N (µ, σ 2 )- verteilten Grundgesamtheit, wenn µ unbekannt ist. Als Literatur zu diesem Kapitel sei Fahrmeir u.a. (1997), Bamberg und Baur (1996), Schlittgen (1996a, 1996b) genannt. Kapitel 9 Mischverteilungen Bei der Modellanpassung versucht man in der Regel ein einfaches Modell (beispielsweise die Poissonverteilung) zur Beschreibung der Daten zu verwenden. Häufig zeigt sich jedoch, dass ein vermutetes Modell dazu nicht in der Lage ist. Beispielsweise kann die grafische Darstellung der Häufigkeiten einer Stichprobe multimodal sein, was nicht zur unimodalen Gestalt der Poissonverteilung passt. Eine mögliche Erklärung für die Multimodalität ist, dass die Population, aus der die Daten stammen, heterogen ist. Damit ist gemeint, dass die Population aus verschiedenen Gruppen (Subpopulationen) besteht, bei denen sich die Verteilung des betrachteten Merkmals unterscheidet und so zu der Multimodaltät führt. Betrachtet man beispielsweise die Anzahl von Zigarettenpackungen, die von einzelnen Kunden eines Supermarkts gekauft werden, so wäre ein Histogramm der Daten wahrscheinlich nicht unimodal und somit das zugehörige Modell keine Poissonverteilung. Es ist offensichtlich, dass die betrachtete Grundgesamtheit aus zwei Gruppen besteht, den Rauchern und den Nichtrauchern und es ist auch offensichtlich, dass sich die Verteilung des Merkmals in den beiden Gruppen unterscheidet. Es ist gut möglich, dass die (bedingte, d.h. gegeben Raucher bzw. Nichtraucher) Verteilung jeweils vom Typ Poisson ist, die unbedingte Verteilung des Merkmals ist jedoch eine Mischverteilung. Wir wollen in diesem Kapitel die grundlegenden Eigenschaften von Mischverteilungen besprechen, die Sie in der englischen Literatur unter den Begriffen ,,Mixture Models”, ,,Mixture Distributions” (siehe z.B. Kotz und Johnson (1985), Band 5, wo Sie viele interessante Anwendungsbeispiele finden) oder ,,Compound Distributions” finden (siehe auch Everitt und Hand (1981)). Als wesentliche Literaturquelle sei das Buch ,,Computer–Assisted Analysis of Mixtures and Applications” (Böhning D., 1999) erwähnt. Die in diesem Buch beschriebene Software C.A.MAN kann kostenlos von der Hompage des Autors (http://www.medizin.fuberlin.de/sozmed/bo1.html) heruntergeladen werden. 9.1 Diskrete Mischung diskreter Verteilungen Definition 9.1 Seien P1 (x) und P2 (x) Wahrscheinlichkeitsfunktionen und sei 0 ≤ r ≤ 1 . Dann heißt P (x) = r · P1 (x) + (1 − r)P2 (x) die Mischverteilung von P1 und P2 . 160 9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN 161 Abbildung 9.1 zeigt zwei diskrete Verteilungen P1 und P2 und dazu in der dritten Zeile die Mischung P = 0.3P1 + 0.7P2 . P1 0.6 0.4 0.2 0.0 1 2 3 4 5 6 5 6 P2 0.6 0.4 0.2 0.0 1 2 3 4 0.3 P1 + 0.7 P2 0.6 0.4 0.2 0.0 1 2 3 4 5 6 Abbildung 9.1: Diskrete Mischung zweier Verteilungen, r = 0.3 Beispiel 9.1 Wir betrachten zwei Münzen, für die gelten möge • P ({,,Kopf”}) = 0.1 für Münze 1. • P ({,,Kopf”}) = 0.8 für Münze 2. Man w¨ahlt zuf¨allig eine der Münzen und wirft sie viermal. Sei X die Anzahl der ,,Köpfe”. Die Münze 1 werde mit Wahrscheinlichkeit r ausgew¨ahlt, d.h. P ({Münze 1 gew¨ahlt}) = r . Dann gilt für die Wahrscheinlichkeitsfunktion von X P ({X = x}) = P ({X = x, Münze 1 gew¨ahlt} ∪ {X = x, Münze 2 gew¨ahlt}) = P ({X = x}|{Münze 1})P ({Münze 1}) + P ({X = x}|{Münze 2})P ({Münze 2}) = ! ! 4 4 0.1x (1 − 0.1)4−x r + 0.8x (1 − 0.8)4−x (1 − r) . x x Abbildung 9.2 zeigt die beiden Wahrscheinlichkeitsfunktionen zusammen mit ihrer Mischung für r = 0.5. 162 KAPITEL 9. MISCHVERTEILUNGEN P1 0.8 0.6 0.4 0.2 0.0 0 1 2 3 4 3 4 P2 0.8 0.6 0.4 0.2 0.0 0 1 2 0.5 P1 + 0.5 P2 0.8 0.6 0.4 0.2 0.0 0 1 2 3 4 Abbildung 9.2: Diskrete Mischung zweier Binomialverteilungen, r = 0.5 Satz 9.1 Die Mischung P (x) = r · P1 (x) + (1 − r)P2 (x) ist wieder eine Wahrscheinlichkeitsfunktion. Beweis: a) P (x) ≥ 0 für alle x, da P1 (x) ≥ 0, P2 (x) ≥ 0 für alle x, r ≥ 0 und 1 − r ≥ 0. b) P (x) > 0 für höchstens abzählbar unendlich viele x, da P1 (x) > 0 und P2 (x) > 0 für jeweils höchstens abzählbar unendliche viele x. c) X x P (x) = X x = r (rP1 (x) + (1 − r)P2 (x)) X | x P1 (x) +(1 − r) {z 1 } = r + (1 − r) = 1 . X | x P2 (x) {z 1 } 9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN 163 Beispiel 9.2 Die Verteilung des Geschlechts von Zwillingen ist eine Mischverteilung (siehe Blischke (1978)). Es gibt drei Klassen von Zwillingen: WW WM MM . Das führt zu einer Trinomialverteilung. Dabei steht W für weiblich und M für m¨annlich. Ferner gibt es zweieiige und eineiige Zwillinge. Die Geschlechter zweieiiger Zwillinge sind unabh¨angig voneinander. Daher ist die Verteilung: π2 2 · π · (1 − π) (1 − π)2 . Eineiige Zwillinge haben jedoch das gleiche Geschlecht. Daher ist die Verteilung des Geschlechts für eineiige Zwillinge: π 0 (1 − π) , wobei π die Wahrscheinlichkeit einer M¨adchengeburt ist. Das Geschlecht von Zwillingen ist eine Mischung dieser beiden Verteilungen, wobei der Mischungsparameter r bzw. 1 − r durch den Anteil der zweieiigen Zwillinge bzw. eineiigen Zwillinge bestimmt wird. Definition 9.2 (Diskrete Mischung mit I Komponenten) Seien P1 (x), P2 (x), . . . , PI (x) jeweils Wahrscheinlichkeitsfunktionen. Eine diskrete Mischung dieser Wahrscheinlichkeitsfunktionen ist dann definiert durch P (x) = r1 P1 (x) + r2 P2 (x) + · · · + rI PI (x) I X = ri Pi (x) , i=1 wobei 0 ≤ ri ≤ 1 für alle i und I P i=1 ri = 1 . Satz 9.2 Seien P1 (x), P2 (x), . . . , PI (x) jeweils Wahrscheinlichkeitsfunktionen und sei P (x) die Mischverteilung bezüglich der Mischungsparameter r1 , r2 , . . . , rI . Das k-te Moment der i-ten Verteilung sei mit µ0k (i) bezeichnet. Dann gilt für das k-te Moment der Mischverteilung µ0k = r1 µ0k (1) + r2 µ0k (2) + · · · + rI µ0k (I) = I X ri µ0k (i) . i=1 Insbesondere gilt für den Erwartungswert bezüglich einer Mischverteilung E(X) = r1 µ(1) + r2 µ(2) + · · · rI µ(I) , 164 KAPITEL 9. MISCHVERTEILUNGEN wobei µ(i) der Erwartungswert bezüglich der i-ten Komponente ist. Auch für die Varianzen kann man ein ähnliches Resultat herleiten, das jedoch komplizierter wird. Wir formulieren es nur für die Mischung mit zwei Komponenten. Satz 9.3 Seien P1 und P2 zwei Wahrscheinlichkeitsfunktionen mit Erwartungswerten µ(1) und µ(2) und Varianzen σ 2 (1) und σ 2 (2). Dann gilt für die Varianz σ 2 der Mischverteilung mit den Mischungsparametern r1 und r2 σ 2 = r1 σ 2 (1) + r2 σ 2 (2) + r1 r2 (µ(1) − µ(2))2 . Beweis: Wenn man im folgenden beachtet, dass µ02 = EX 2 = Var(X) + (E(X))2 = σ 2 + (µ01 )2 und r2 = 1 − r1 gilt, so folgt: σ2 = = = = = = µ02 − (µ01 )2 = r1 µ02 (1) + r2 µ02 (2) − (µ01 )2 r1 (σ 2 (1) + µ(1)2 ) + r2 (σ 2 (2) + µ(2)2 ) − (r1 µ(1) + r2 µ(2))2 r1 σ 2 (1) + r2 σ 2 (2) + r1 µ(1)2 + r2 µ(2)2 − r12 µ(1)2 − 2r1 r2 µ(1)µ(2) − r22 µ(2)2 r1 σ 2 (1) + r2 σ 2 (2) + r1 (1 − r1 )µ(1)2 + r2 (1 − r2 )µ(2)2 − 2r1 r2 µ(1)µ(2) r1 σ 2 (1) + r2 σ 2 (2) + r1 r2 (µ(1)2 − 2µ(1)µ(2) + µ(2)2 ) r1 σ 2 (1) + r2 σ 2 (2) + r1 r2 (µ(1) − µ(2))2 Beispiel 9.3 Das folgende Beispiel ist von Böhning, D. (1999, S. 3–5) übernommen. Untersucht wird die Einführung eines neuen Süßwarenprodukts. Im Rahmen der Markteinführung wird die Anzahl verkaufter Packungen (im folgenden mit X bezeichnet) in verschiedenen Gesch¨aften erhoben. Die nachfolgende Tabelle zeigt die Ergebnisse der Datenerhebung. Anzahl verkaufter Packungen Häufigkeit 0 1 2 102 54 49 Anzahl verkaufter Packungen Häufigkeit 10 10 3 4 5 6 62 44 25 26 11 12 13 14 15 16 10 10 3 3 5 5 7 8 9 15 15 10 17 18 19 20 4 1 2 1 Typischerweise verwendet man zur Beschreibung von Z¨ahldaten unter homogenen Bedingungen in der Population die Poissonverteilung, d.h. P (x) = e −λ λx /x!. Abbildung 9.3 zeigt jedoch eine bimodale Verteilung der Daten. Mit anderen Worten ist die Population heterogen, sie besteht aus unterschiedlichen Subpopulationen. Sch¨atzt man die Anzahl der Komponenten, die Parameter der einzelnen Poissonverteilungen sowie die Mischungsparameter mit Hilfe des Programms C.A.MAN (zur Parametersch¨atzung siehe Abschnitt 9.4.3), erh¨alt man fünf Komponenten: r1 = 0.01 λ1 = 0.00 r2 = 0.24 λ2 = 0.21 r3 = 0.50 λ3 = 3.00 r4 = 0.15 λ4 = 7.39 r5 = 0.10 λ5 = 12.86 165 60 40 0 20 Häufigkeit 80 100 9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN 0 1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 Anzahl verkaufter Packungen Abbildung 9.3: Verteilung der verkauften Packungen 0.20 Abbildung 9.4 zeigt die relativen H¨aufigkeiten der empirischen Daten gemeinsam mit einer angepassten Poissonverteilung sowie der angepassten Mischverteilung. Wie zu erkennen ist, liefert die Mischverteilung eine wesentlich bessere Beschreibung der Daten. 0.00 0.05 0.10 0.15 Daten Mischung von Poissonverteilungen Poissonverteilung 0 1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 Anzahl verkaufter Packungen Abbildung 9.4: Verteilung der verkauften Packungen Man kann die Ergebnisse der Analyse auch anders interpretieren: Es gibt ein weiteres Merkmal, das die Gesch¨afte beschreibt, die ,,Verkaufsf¨ahigkeit”. Man kann diese als kategoriales Merkmal interpretieren, das die F¨ahigkeit der Gesch¨afte beschreibt, das neue Produkt zu verkaufen. H¨atte man vor der Untersuchung gewusst, wie die einzelnen Gesch¨afte hinsichtlich dieses Merkmals zu beurteilen w¨aren, h¨atte man für die einzelnen Kategorien jeweils Poissonverteilungen anpassen können. Somit kann man sagen, dass die Vernachl¨assigung einer erkl¨arenden Variable zu einer Mischung von Poissonverteilungen führt. 166 KAPITEL 9. MISCHVERTEILUNGEN 9.2 Diskrete Mischung stetiger Verteilungen Definition 9.3 Seien f1 (x) und f2 (x) zwei Dichtefunktionen und sei 0 ≤ r ≤ 1. Dann heißt f (x) = rf1 (x) + (1 − r)f2 (x) die Dichtefunktion der Mischverteilung. Satz 9.4 Die Mischung f (x) = rf1 (x) + (1 − r)f2 (x) ist wieder eine Dichtefunktion. Beweis: Da f1 und f2 Dichtefunktionen sind, gilt a) f (x) = rf1 (x) + (1 − r)f2 (x) ≥ 0 für alle x, da f1 (x) ≥ 0, f2 (x) ≥ 0 für alle x und r ≥ 0. b) ∞ R −∞ f (x)dx = r Z∞ −∞ | f1 (x)dx +(1 − r) {z =1 } Z∞ −∞ | f2 (x)dx = r + (1 − r) = 1. {z =1 } c) Da f1 (x) und f2 (x) bis auf endlich viele Stellen stetig sind, ist f (x) auch stetig bis auf endlich viele Stellen. ♦ Mischverteilungen kommen oft vor, wenn man ein unbeobachtetes Merkmal hat. Stellen Sie sich vor, Sie haben eine zufällige Stichprobe aus der Grundgesamtheit aller Göttinger Studenten genommen und deren Körpergöße gemessen. Wie wird ein vernünftiges Modell für die Körpergröße der Göttinger Studenten aussehen? Zunächst gibt es unter den Studierenden in Göttingen Frauen und Männer. Es ist allgemein bekannt, dass die Körpergröße der Frauen im Durchschnitt kleiner ist als die Körpergröße der Männer. Weiterhin ist es vernünftig anzunehmen, dass die Körpergröße von Frauen und von Männern, jeweils für sich allein genommen, normalverteilt ist. Dies führt zu dem folgenden Modell 2 f (x) = rf1 (x; µF , σF2 ) + (1 − r)f2 (x; µM , σM ), wobei r der Anteil der Frauen in der Grundgesamtheit der Studierenden in Göttingen ist und f1 bzw. f2 Dichten der Normalverteilung mit den Parametern µF und σF2 bzw. µM und 2 σM für Frauen bzw. Männer sind. (Dieses Beispiel wurde nach einem Beispiel von Everitt in Johnson und Kotz (1985) abgeändert.) In diesem Beispiel hätte man das Geschlecht der 9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN 167 f1 0.4 0.3 0.2 0.1 0.0 0 5 10 f2 0.4 0.3 0.2 0.1 0.0 0 5 10 0.4 f1 + 0.6 f2 0.4 0.3 0.2 0.1 0.0 0 5 10 Abbildung 9.5: Diskrete Mischung zweier stetiger Verteilungen, r = 0.4 Studierenden erfassen können und die beiden Normalverteilungen separat anpassen können. Es gibt jedoch Situationen, in denen es nicht möglich ist, das Geschlecht festzustellen, z.B. bei wild lebenden Tieren. Ein anderes bei wild lebenden Tieren nicht beobachtbares Merkmal ist das Alter, das Einfluss hat auf die Größe der Tiere oder z.B. die Länge von Fischen. Ein anderer Bereich, in dem Mischverteilungen angewendet werden, ist die Analyse von Ausfallzeiten, z.B. von elektronischen Bauteilen. Hier gibt es Ausfälle aufgrund verschiedener Ursachen, z.B. plötzliche Ausfälle (meist in einem frühen Stadium) oder natürliche Ausfälle (Altersausfälle). Die resultierende Verteilung wird eine Mischverteilung sein. Als mögliches Modell wurde hier die diskrete Mischung von zwei Exponentialverteilungen betrachtet. Beispiel 9.4 Die Zufallsvariable X messe eine L¨ange bei Tieren. Die Zufallsvariable Y sei das Geschlecht, das nicht beobachtet werden kann. Sei f1 (x) die Dichtefunktion der L¨ange für m¨annliche Tiere, f2 (x) die Dichtefunktion der L¨ange für weibliche Tiere, r = P ({M¨annliches Tier}), 1 − r = P ({Weibliches Tier}). Dann ist die Dichtefunktion der Mischverteilung f (x) = P ({M¨annliches Tier})f1 (x) + P ({Weibliches Tier})f2 (x) = rf1 (x) + (1 − r)f2 (x) . 168 KAPITEL 9. MISCHVERTEILUNGEN Nur weibliche Tiere 0.15 0.10 0.05 0.0 100 105 110 115 120 Nur maennliche Tiere 0.15 0.10 0.05 0.0 100 105 110 115 120 115 120 Alle 0.15 0.10 0.05 0.0 100 105 110 Abbildung 9.6: Histogramme der Kieferlängen Abbildung 9.6 zeigt unten ein Histogramm mit 20 Beobachtungen der Kieferl¨angen pr¨ahistorischer Schakale. In diesem Fall weiß man, dass 10 der Schakale m¨annlich und 10 weiblich waren. Die jeweiligen Histogramme sind ebenfalls in Abbildung 9.6 dargestellt. An beide Stichproben wurden separat zwei Normalverteilungen angepasst. Abbildung 9.7 zeigt die angepassten Verteilungen und die Mischung dieser beiden Verteilungen. In diesem Fall ist r = 1/2. Definition 9.4 Eine diskrete Mischung mit I stetigen Komponenten hat die Dichtefunktion f (x) = I X ri fi (x) , i=1 wobei f1 (x), f2 (x), · · · , fI (x) Dichtefunktionen sind und r1 + r 2 + · · · + r I = 1 (0 ≤ ri ≤ 1). Für die Momente µ0k einer diskreten Mischung stetiger Verteilungen gilt Satz 9.2 entsprechend. Beispiel 9.5 Abbildung 9.8 zeigt ein Histogramm des Benzinverbrauchs. Es handelt sich um einen bei S-PLUS mitgelieferten Datensatz. Bei jeder neuen Tankfüllung, beginnend mit dem Neukauf des 9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN 169 Nur weibliche Tiere 0.10 0.05 0.0 90 100 110 120 130 Nur maennliche Tiere 0.10 0.05 0.0 90 100 110 120 130 120 130 Alle 0.10 0.05 0.0 90 100 110 Abbildung 9.7: Angepasste Dichtefunktionen und Mischung dieser Verteilungen Wagens wurden die gefahrenen Meilen und die verbrauchten Gallonen notiert. Anders als in Deutschland wird in den USA der Benzinverbrauch in Meilen pro Gallone gemessen. Der Benzinverbrauch gibt also an, wieviel Meilen mit einer Gallone gefahren wurden. 0.4 0.3 0.2 0.1 0.0 10 12 14 16 18 20 22 24 Benzinverbrauch (Meilen/Gallone) Abbildung 9.8: Histogramm des Benzinverbrauchs Die R-Befehle sind: Verbrauch<-car.miles/car.gals # Berechnet Verbrauch hist(Verbrauch, probability=T, xlab="Benzinverbrauch (Meilen/Gallone)") Abbildung 9.9 zeigt eine mit nichtparametrischen Methoden gesch¨atzte Dichtefunktion. Man kann diese Dichtefunktion als eine Gl¨attung des Histogramms auffassen. Die R-Befehle sind: 170 KAPITEL 9. MISCHVERTEILUNGEN 0.4 Dichte 0.3 0.2 0.1 0.0 10 12 14 16 18 20 22 24 Benzinverbrauch (Meilen/Gallone) Abbildung 9.9: Geschätzte Dichtefunktionen des Benzinverbrauchs Verbrauch<-car.miles/car.gals # Berechnet Verbrauch plot(density(Verbrauch, width=2.5), xlab="Benzinverbrauch (Meilen/Gallone)", ylab="Dichte ") # density schätzt Dichte Diese Darstellung legt die Vermutung nahe, dass es sich hier um eine Mischung von zwei Verteilungen handelt, vermutlich zwei Normalverteilungen. Links die Füllungen mit großem Verbrauch, die vermutlich auf Fahrten im Stadtverkehr zurückzuführen sind, rechts die Füllungen mit geringem Verbrauch, vermutlich Fahrten auf Autobahnen. Abbildung 9.10 zeigt das Histogramm zusammen mit der gesch¨atzten Dichtefunktion. 0.4 0.3 0.2 0.1 0.0 10 12 14 16 18 20 22 24 Benzinverbrauch (Meilen/Gallone) Abbildung 9.10: Histogramm und geschätzte Dichtefunktion Die R-Befehle sind: Verbrauch<-car.miles/car.gals # Berechnet Verbrauch hist(Verbrauch, probability=T, xlab="Benzinverbrauch (Meilen/Gallone)") lines(density(Verbrauch, width=2)) Beispiel 9.6 Abbildung 9.11 zeigt mögliche Dichtefunktionen für Mietpreise für 1−, 2−, 3− und 4-Zimmerwohnungen und die daraus resultierende Mischverteilung. Dabei wurde r1 = r2 = r3 = r4 = 1/4 angenommen. Es sei angemerkt, dass es sich um rein fiktive Dichtefunktionen handelt. 9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN 171 Dichte * 1000 4 1-Zimmer 2-Zimmer 3-Zimmer 4-Zimmer 3 2 1 Mischung 0 0 500 1000 1500 2000 Mieten Abbildung 9.11: Mögliche Dichtefunktionen für Mietpreise Die folgenden Ausführungen beziehen sich auf die Mischung von zwei Normalverteilungen. Es geht unter anderem um die Gestalt der Mischverteilung, inbesondere ob diese bimodal oder unimodal ist. 0.4 f(x) 0.3 0.2 0.1 0.0 -4 -2 0 2 4 6 x Abbildung 9.12: Mischung zweier Normalverteilungen mit r = 0.3, µ 1 = 0, σ12 = 1, µ2 = 1.5 und σ22 = 1 Die Dichtefunktion der Mischung zweier Normalverteilungen ist: 1 f (x) = √ 2π r1 −(x−µ1 )2 /2σ12 r2 −(x−µ2 )2 /2σ22 e + e σ1 σ2 −∞<x<∞. Dabei ist 0 < r1 , r2 < 1 und r1 + r2 = 1, und µ1 , µ2 und σ12 , σ22 sind die Erwartungswerte bzw. Varianzen der einzelnen Komponenten. Die Abbildungen 9.12 und 9.13 zeigen Mischungen von zwei Normalverteilungen. Die Dichtefunktion in Abbildung 9.12 ist unimodal (d.h. hat nur ein Maximum), während die Dichtefunktion in Abbildung 9.13 bimodal ist. Bei Everitt und Hand (1981) finden Sie verschiedene hinreichende Kriterien für die Unimodalität der Mischung zweier Normalverteilungen. Dort wird auch die Schätzung der Parameter nach der Methode der Momente und auch nach der Maximum-Likelihood-Methode beschrieben. 172 KAPITEL 9. MISCHVERTEILUNGEN 0.6 f(x) 0.4 0.2 0.0 -4 -2 0 2 4 6 x Abbildung 9.13: Mischung zweier Normalverteilungen mit r = 0.4, µ 1 = 0, σ12 = 1, µ2 = 2 und σ22 = 0.25 Beispiel 9.7 Abbildung 9.14 zeigt die t¨aglichen Werte des New York Stock Exchange, ein Aktienindex. 5 1990 1991 1992 1993 1994 1995 1996 Index/100 4 3 2 1 0 500 1000 1500 2000 Handelstag Abbildung 9.14: New York Stock Exchange Composite Index vom 02.01.1990 - 29.11.1996 Bezeichnen wir den Wert zum Zeitpunkt t mit p t , so ist die t¨agliche prozentuale Rendite gegeben durch pt − pt−1 rt = · 100 . pt−1 Diese Werte sind in Abbildung 9.15 dargestellt. Man erkennt in dieser Abbildung ruhige Phasen mit kleinen t¨aglichen Schwankungen und unruhige Phasen mit großen Schwankungen. Abbildung 9.16 zeigt ein Histogramm der prozentualen Renditen mit einer angepassten Normalverteilung. Die Anpassung ist schlecht. Die Dichtefunktion ist zu breit und im Zentrum zu niedrig. In Abbildung 9.17 wurde daher eine Mischung von zwei Normalverteilungen angepasst. Diese Anpassung ist wesentlich besser. 9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN 1990 Prozentuale Rendite 4 1991 1992 1993 173 1994 1995 1996 2 0 -2 -4 0 500 1000 1500 2000 Handelstag Abbildung 9.15: Prozentuale Rendite des New York Stock Exchange Composite Index vom 02.01.1990 - 29.11.1996 1.0 0.8 0.6 0.4 0.2 0.0 -4 -3 -2 -1 0 1 2 3 4 Rendite Abbildung 9.16: Histogramm der Renditen und angepasste Normalverteilung Abbildung 9.18 zeigt die beiden Komponenten. Die Kurve (A) ist schmal und hoch, hat also eine kleine Varianz, sie entspricht den t¨aglichen Renditen in den ruhigen Phasen. Die Kurve (B) ist flacher und breiter, hat also eine größere Varianz. Sie entspricht den unruhigen Phasen. Die beiden Verteilungen wurden im Verh¨altnis 3:1 gemischt. 9.3 Stetige Mischungen diskreter Verteilungen 9.3.1 Die Beta-Binomialverteilung Bei Fisher (Statistical Methods for Research Workers, 1925) findet man das folgende Beispiel: 174 KAPITEL 9. MISCHVERTEILUNGEN 1.0 0.8 0.6 0.4 0.2 0.0 -4 -3 -2 -1 0 1 2 3 4 Rendite Abbildung 9.17: Histogramm der Renditen mit angepasster Mischverteilung 1.0 (A) N(0.08;0.16) 0.8 0.6 Mischverteilung 0.75 (A) + 0.25 (B) 0.4 (B) N(-0.03;1.21) 0.2 0.0 -4 -2 0 2 4 Rendite Abbildung 9.18: Die angepasste Mischverteilung und ihre Komponenten Beispiel 9.8 Es wird die Anzahl der Jungen in 53 680 deutschen Familien mit 8 Kindern betrachtet. Die Anzahl der Jungen insgesamt ist 221 023. Damit ist der Anteil der Jungen π̂ = 221 023/(53 680 · 8) ≈ 0.5147 . Wenn die Ereignisse ‘Jungen-’ und ‘M¨adchengeburt’ unabh¨angig sind, dann sollte die Anzahl der Jungen in einer Familie mit 8 Kindern binomialverteilt sein mit den Parametern n = 8 und π = 0.5147. In der Tabelle wird die χ2 -Prüfgröße berechnet. Das Ergebnis zeigt, dass die Anzahl der Jungen nicht binomialverteilt ist. Der kritische Wert der χ 2 -Prüfgröße bei 7 Freiheitsgraden für das Signifikanzniveau α = 0.01 = 10−2 ist 18.475, also kleiner als der Wert der Prüfgröße 91.873. Auch der kritische Wert für α = 10−15 , n¨amlich 85.338 ist noch kleiner als 91.873. Abbildung 9.19 zeigt die Wahrscheinlichkeitsfunktion der Binomialverteilung und die tats¨achlich beobachteten Anteile. Die Vermutung liegt nahe, dass die Wahrscheinlichkeit für eine Jungengeburt von Familie zu Familie verschieden ist und um einen Mittelwert von 0.5147 variiert. Wir betrachten daher das folgende Modell: • Sei Xi die Anzahl der Jungen in Familie i (mit n Kindern), i = 1, 2, . . . , I . 9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN 175 Erwartet Abweichung Beitrag zu χ 2 165.22 +49.78 15.000 1 401.69 +83.31 4.952 5 202.65 +128.35 3.167 11 034.65 -385.65 13.478 14 627.60 +331.40 7.508 12 409.87 -480.87 18.633 6 580.24 +97.76 1.452 1 993.78 +98.22 4.839 264.30 +77.70 22.845 53 680.00 91.873 Anzahl Jungen Anzahl Familien 0 215 1 1 485 2 5 331 3 10 649 4 14 959 5 11 929 6 6 678 7 2 092 8 342 Summe: 53 680 • Die Zufallsvariable Xi ist binomialverteilt mit den Parametern n und π i , d.h. Xi ∼ b(n; πi ) i = 1, 2, . . . , I . • Der Parameter πi ist die Realisation einer Zufallsvariablen π . • Die Zufallsvariable π ist betaverteilt, d.h. 0.25 π ∼ Be(α; β) . 0.00 0.05 0.10 0.15 0.20 Beobachtet Binomial 0 1 2 3 4 5 6 7 8 Abbildung 9.19: Beobachtete Anteile und angepasste Binomialverteilung Die obigen Annahmen besagen, dass die bedingte Verteilung von X , gegeben π , eine Binomialverteilung mit den Parametern n und π ist, d.h. P ({X = x}|π) = ! n x π (1 − π)n−x x x = 0, 1, 2, . . . , n . Die Randverteilung von π ist eine Betaverteilung, d.h. f (π) = 1 π α−1 (1 − π)β−1 B(α, β) 0≤π≤1 Die Randverteilung von X erh¨alt man auf die folgende Weise (α > 0, β > 0) . 176 KAPITEL 9. MISCHVERTEILUNGEN P ({X = x}) = Z1 = Z1 P ({X = x}|π)f (π)dπ 0 ! n x π α−1 (1 − π)β−1 π (1 − π)n−x dπ x B(α, β) 0 ! n 1 x B(α, β) = Z1 0 π x+α−1 (1 − π)n−x+β−1 dπ ! n B(x + α, n + β − x) x B(α, β) = x = 0, 1, . . . , n . Die Verteilung von X heißt Beta-Binomialverteilung. 0.25 Abbildung 9.20 zeigt die beobachteten Anteile und die angepasste Beta-Binomialverteilung. 0.00 0.05 0.10 0.15 0.20 Beobachtet Beta−Binomial 0 1 2 3 4 5 6 7 8 Abbildung 9.20: Beobachtete Anteile und angepasste Beta-Binomialverteilung Anzahl Jungen Anzahl Familien 0 215 1 1 485 2 5 331 3 10 649 14 959 4 5 11 929 6 6 678 7 2 092 8 342 Summe: 53 680 Erwartet Abweichung Beitrag zu χ 2 190.62 +24.38 3.118 1 508.44 -23.44 0.364 5 324.13 +6.87 0.009 10 947.79 -298.79 8.155 14 344.28 +614.72 26.344 12 263.39 -334.39 9.118 6 680.77 -2.77 0.001 2 120.39 -28.39 0.380 300.19 +41.81 5.823 53 680.00 53.312 Die Anpassung ist nur geringfügig besser geworden. Ein Blick auf die Tabelle mit den beobachteten und erwarteten H¨aufigkeiten zeigt, dass die Anpassung in der Mitte (x = 3, 4, 5) sogar schlechter geworden ist, w¨ahrend sie im übrigen Bereich besser geworden ist. Der χ2 -Wert ist von 91.873 gefallen auf 53.312 gefallen. Dieser Wert ist immer noch so groß, dass die Hypothese, dass die Daten einer 9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN 177 Betabinomialverteilung genügen, abzulehnen ist. Der kritische Wert der χ2 -Verteilung bei 6 Freiheitsgraden für α = 0.01 ist 10.645. Die Parameter α und beta der Betabinomialverteilung wurden nach der Maximum-Likelihood-Methode gesch¨atzt zu α̂ = 102.935 und β̂ = 97.064. Es w¨are also eine weitere Analyse dieser Daten nötig. Definition 9.5 Die Wahrscheinlichkeitsfunktion der Beta-Binomialverteilung ist definiert durch P ({X = x}) = ( n B(x+α,n+β−x) x B(α,β) 0 x = 0, 1, . . . , n sonst . Die Beta-Binomialverteilung hat drei Parameter, für die gelten muss n ∈ IN, α > 0, und β > 0 . Nach dem vorangehenden Beispiel kann die Beta-Binomialverteilung als stetige Mischung der Binomialverteilung aufgefasst werden, wenn der Parameter π eine Betaverteilung besitzt. Für die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion der Beta-Binomialverteilung kann man auf die folgende Weise R-Funktionen schreiben. dbbinom<-function(x, n, a, b) { # Wahrscheinlichkeitsfunktion der Beta-Binomialverteilung # Parameter n, a, b; x Vektor # Verwendete Funktion beta siehe Seite 53 f1<-gamma(n+1)/(gamma(x+1)*gamma(n-x+1)) # Binomialkoeffizient f2<-beta(x+a,n+b-x) # Betafunktion im Zähler f3<-beta(a,b) # Betafunktion im Nenner f1*f2/f3 } pbbinom<-function(x, n, a, b) { # Verteilungsfunktion der Beta-Binomialverteilung # Parameter n, a, b; x Zahl sum(dbbinom(0:x, n, a, b) } 9.3.2 Die negative Binomialverteilung Die negative Binomialverteilung kann als stetige Mischung der Poissonverteilung aufgefasst werden, wenn man annimmt, dass der Parameter µ der Poissonverteilung eine Zufallsvariable mit einer Gammaverteilung ist. (Entgegen der sonst verwendeten Notation bezeichnen wir den Parameter der Poissonverteilung hier mit µ, da λ auch in der Gammaverteilung auftaucht.) Wir nehmen also an: 178 KAPITEL 9. MISCHVERTEILUNGEN • Die bedingte Verteilung von X, gegeben µ, ist eine Poissonverteilung mit dem Parameter µ. • Die Zufallsvariable µ besitzt eine Gammaverteilung mit den Parametern ν und λ. Die obigen Annahmen besagen, dass die bedingte Verteilung von X, gegeben µ, eine Poissonverteilung mit dem Parameter µ ist, d.h. P ({X = x}|µ) = µx −µ e x! x = 0, 1, 2, . . . . Die Randverteilung von µ ist eine Gammaverteilung, d.h. f (µ) = ( λν µν−1 e−λµ Γ(ν) µ≥0 sonst . 0 Die Randverteilung von X erhält man auf die folgende Weise P ({X = x}) = Z∞ P ({X = x}|µ)f (µ)dµ = 0 0 ν = Z∞ λ x!Γ(ν) Z∞ µx −µ λν µν−1 e−λµ e dµ x! Γ(ν) µx+ν−1 e−µ(1+λ) dµ 0 Wir verwenden die Substitution z = µ(1 + λ) . Dann ist dz =1+λ dµ oder z 1+λ Die Grenzen ändern sich wie folgt: µ= dµ = und dz . (1 + λ) • Wenn µ = 0, ist z = 0. • Wenn µ → ∞, dann auch z → ∞. Damit erhalten wir λν P ({X = x}) = x!Γ(ν) Z∞ 0 z x+ν−1 dz e−z x+ν−1 (1 + λ) (1 + λ) λν = x!Γ(ν)(1 + λ)x+ν Z∞ z x+ν−1 e−z dz 0 λν (x + ν − 1)! λν = Γ(x + ν) = x!Γ(ν)(1 + λ)x+ν x!(ν − 1)! (1 + λ)x+ν ! !ν x x+ν−1 λ 1 = ν−1 1+λ 1+λ 9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN 179 Im vorletzten Schritt wurde Γ(ν) = (ν − 1)! und Γ(x + ν) = (x + ν − 1)! verwendet (siehe Satz 3.9) und schließlich ! x+ν −1 (x + ν − 1)! = . ν−1 x!(ν − 1)! Wir haben also die Wahrscheinlichkeitsfunktion der negativen Binomialverteilung mit den Parametern r = ν und π = λ/(1 + λ) erhalten. Die negative Binomialverteilung mit den Parametern r und π hatte die Wahrscheinlichkeitsfunktion ! x+r−1 r P (x) = π (1 − π)x , x = 0, 1, 2, . . . . r−1 In Analogie zum Namen Beta-Binomialverteilung findet man für die negative Binomialverteilung auch den Namen Gamma-Poissonverteilung. Die negative Bimomialverteilung hat gegenüber der Beta-Binomialverteilung den Vorteil, dass sie nur zwei statt drei Parameter hat. 9.4 ML–Sch¨ atzung bei Mischverteilungen 9.4.1 Einführung Bei den nachfolgenden Erläuterungen zur Parameterschätzung werden zwei Fälle unterschieden. Zum einen wird der Fall betrachtet, in dem die Anzahl der Mischungskomponenten bekannt ist und zum anderen der Fall, in dem die Anzahl der Subpopulationen unbekannt ist. Die Fälle unterscheiden sich nur unwesentlich, wenn man die Likelihoodfunktionen betrachtet. Inhaltlich sind die Fälle aber unterschiedlich zu interpretieren. Im ersten Fall hat man eine klare Vorstellung aus welchen unterschiedlichen Gruppen die Population besteht. Im zweiten Fall hingegen ist die Anzahl der Subpopulationen ein Ergebnis der Datenanalyse. Erst nach der Parameterschätzung erhält man Informationen darüber, aus welchen Gruppen sich die Population zusammensetzen könnte. Alle folgenden Ausführungen beziehen sich auf diskrete Mischungen. 9.4.2 Die Likelihoodfunktion für Mischverteilungen Zunächst wird der Fall betrachtet, bei der die Anzahl der Mischungskomponenten als gegeP ben betrachtet wird. Sei P (x; θ) = Ii=1 ri Pi (x; θi ) die Wahrscheinlichkeitsfunktion einer diskreten Mischung von einparametrigen diskreten Zufallsvariablen mit den Parametern θ i und seien x = (x1 , x2 , . . . , xn ) die Beobachtungen, an die die Mischverteilung angepasst werden soll. Dann gilt: 180 KAPITEL 9. MISCHVERTEILUNGEN Satz 9.5 L(θ1 , . . . , θI , r1 , . . . , rI ; x) = n X I Y ri Pi (xj ; θi ) j=1 i=1 ist die Likelihoodfunktion der Mischverteilung. Um die die Likelihoodfunktion über die Parameter der einzelnen Mischungskomponenten θi , i = 1, . . . , I, sowie über die Mischungsparameter ri , i = 1, . . . , I, zu maximieren. Insgesamt sind also 2I − 1 Parameter zu schätzenSchätzer zu erhalten, ist . (Der letzte Mischungsparameter ergibt sich aus den übrigen, da die Summe eins betragen muss.) Leider ist es nicht möglich, das Problem analytisch zu lösen, d.h. das gewohnte Vorgehen (Ableiten und Nullsetzen) versagt. In diesem Fall muss die Maximierung numerisch mit entsprechender Software durchgeführt werden (siehe übernächster Abschnitt). Die vorgestellte Likelihoodfunktion gilt für diskrete Zufallsvariablen. Das analoge Ergebnis für stetige Zufallsvariablen erhält man, wenn man in der Likelihoodfunktion die WahrscheinP lichkeitsfunktionen durch Dichtefunktionen ersetzt: Ii=1 ri fi (xj , θi ). Beispiel 9.9 Im folgenden Beispiel wird gezeigt, wie die Likelihoodfunktion aufzustellen ist, wenn an gegebene Daten eine Mischverteilung angepasst werden soll und die Anzahl der Mischungskomponenten bekannt ist. An die folgenden zehn Beobachtungen soll eine aus zwei Exponentialverteilungen bestehende Mischverteilung angepasst werden: 2.65 11.67 9.59 0.30 21.03 0.45 1.45 0.17 1.27 0.13 Die anzupassende Dichtefunktion lautet f (x) = rλ1 e−λ1 x + (1 − r)λ2 e−λ2 x und man erh¨alt für die gemeinsame Verteilung der Beobachtungen als Funktion der Parameter, also für die Likelihoodfunktion: L(λ1 , λ2 , r) = 10 Y j=1 rλ1 e−λ1 xj + (1 − r)λ2 e−λ2 xj Um die Parametersch¨atzer zu erhalten, ist die Funktion über λ 1 , λ2 und r zu maximieren. Das Maximierungsproblem ist analytisch nicht zu lösen. Die numerische Lösung erh¨alt man beispielsweise mit dem Programm C.A.MAN. Die Sch¨atzwerte sind: r̂ = 0.56, λ̂1 = 1/0.71 und λ̂2 = 1/10.07. Tats¨achlich sind die Daten aus einer Mischverteilung mit r = 0.5, λ1 = 1 und λ2 = 1/10 simuliert worden. Wenn die Anzahl der Mischungskomponenten unbekannt ist, erfolgt die Konstruktion der Likelihoodfunktion analog zum oben dargestellten Vorgehen. Der Unterschied zwischen den Fällen liegt darin, dass die Funktion über einen weiteren Parameter, nämlich I, zu maximieren ist. Man könnte zunächst vermuten, dass die Likelihoodfunktion ein Maximum annimmt, wenn für jede (unterschiedliche) Beobachtung eine Mischungskomponente verwendet wird. Dies ist jedoch nicht der Fall, was anhand des nachfolgenden Beispiels verdeutlicht wird. 9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN 181 Beispiel 9.10 Das folgende Beispiel ist so konstruiert, dass angedeutet wird, welche Anzahl von Komponenten zu einer maximalen Likelihood führt. Betrachtet werden zwei Beobachtungen, x1 = 1 und x2 = 2, an die eine Mischverteilung angepasst werden soll, die aus Poissonverteilungen besteht. Zun¨achst wird davon ausgegangen, dass ein Parameter λ ausreicht, um eine maximale Likelihood zu erhalten. Dass dies tats¨achlich so ist, verdeutlicht Abbildung 9.21. Die Abbildung ist wie folgt zu interpretieren. An den Achsen sind die Wahrscheinlichkeiten der Beobachtungen (P (x 1 = 1) und P (x2 = 2)) zu sehen. Diese Wahrscheinlichkeiten nehmen je nach Parameter unterschiedliche Werte an. Plottet man P (1; λ) gegen P (2; λ) für alle möglichen Werte von λ, d.h. λ ∈ [0, ∞], so erh¨alt man die fett gezeichnete ”Blase”. Sie beschreibt alle möglichen Kombinationen von P (1; λ) und P (2; λ) bei Verwendung eines Parameters, d.h. einer Mischungskomponente. 0.6 Auf den eingezeichneten Hyperbeln gilt P (1; λ) · P (2; λ) ist konstant und je weiter außen die Hyperbel liegt, desto größer ist der Wert der Konstanten. Beispielsweise gilt auf der höchsten Hyperbel in Abbildung 9.21 P (1; λ) · P (2; λ) = 0.13. Allgemein ist das Produkt P (1; λ) · P (2; λ) die gemeinsame Wahrscheinlichkeit der Beobachtungen, also die Likelihood. Graphisch ist der ML–Sch¨atzer demnach zu bestimmen, indem man die Hyperbel findet, die die ”Blase” tangiert, weil man für weiter am Ursprung liegende Hyperbeln die Likelihood noch erhöhen kann und weiter oben liegende Hyperbeln nicht zul¨assig sind. 0.3 L=0.03 Lmax=0.08 0.0 0.1 0.2 P(2) 0.4 0.5 L=0.13 0.0 0.1 0.2 0.3 0.4 0.5 0.6 P(1) Abbildung 9.21: Parameterschätzung bei Mischverteilungen I. Die Frage, ob durch die Einführung zweier weiterer Parameter, d.h. die Verwendung einer Mischung aus zwei Poissonverteilungen die Likelihood erhöht werden kann, muss mit nein beantwortet werden. Dies liegt daran, dass alle möglichen Kombinationen P (1; λ1 , λ2 , r) und P (2; λ1 , λ2 , r) innerhalb der Blase liegen. Eine höhere Likelihood (eine weiter außen liegende Hyperbel) kann also nicht erreicht werden. Dies ¨andert sich, wenn andere Beobachtungen vorliegen. Angenommen, die Beobachtungen seien x1 = 2 und x2 = 8. In diesem Fall ver¨andert sich die Gestalt der ”Blase”. Sie ist nicht mehr konvex (vgl. Abbildung 9.22). Es ist jetzt möglich, die Likelihood durch Verwendung von zwei Mischungskomponenten zu erhöhen. Die eingezeichnete Gerade zeigt alle Kombinationen von P (1; λ1 , λ2 , r) und P (2; λ1 , λ2 , r) für r ∈ [0, 1]. Die Hyperbel, die die maximale Likelihood charakterisiert tangiert jetzt diese Gerade und nicht mehr einen Punkt der ”Blase”. Mit anderen Worten wird die maximale Likelihood durch eine Mischung aus zwei Komponenten erreicht. Das Beispiel zeigt, dass es von der Datenkonstellation abhängt, ob die Aufnahme einer weiteren Komponente zu einer Erhöhung der Likelihood führt. Im ersten Fall lagen die Beobachtungen dicht beieinander. Es macht in diesem Fall keinen Sinn, die Daten durch zwei 0.00 0.05 0.10 0.15 0.20 0.25 0.30 KAPITEL 9. MISCHVERTEILUNGEN P(8) 182 (rP(1;λ1),(1−r)P(2;λ2)) λ2 Lmax=0.01 λ1 0.00 0.05 0.10 0.15 0.20 0.25 0.30 P(2) Abbildung 9.22: Parameterschätzung bei Mischverteilungen II Mischungskomponenten zu beschreiben. Im zweiten Fall lagen die Beobachtungen weiter auseinander, so dass ein Modell mit zwei Komponenten den Beobachtungen eine größere Wahrscheinlichkeit zuordnet (höhere Likelihood). Ein weiterer Aspekt ist intuitiv einleuchtend: Satz 9.6 Wenn an n Beobachtungen mit k unterschiedlichen Ausprägungen eine Mischverteilung angepasst wird, ist die maximale Anzahl der Mischungskomponenten k. Die Aufnahme weiterer Komponenten kann die Likelihood nicht erh öhen. Das folgende Beispiel verdeutlicht dies. Beispiel 9.11 An die folgenden Daten soll eine Mischverteilung angepasst werden: 0 1 0 2 0 0 1 1 Der Datensatz besteht aus k = 3 unterschiedlichen Auspr¨agungen: 0, 1 und 2. Die maximale Anzahl der Mischungskomponenten betr¨agt daher I = 3, d.h. eine Mischung aus 4 oder mehr Komponenten kann nicht zu einer höheren Likelihood führen. 9.4.3 Parameterschätzung mit C.A.MAN Es ist eine erfreuliche Entwicklung, dass die Möglichkeiten des Internets auch im Rahmen der Statistik eine immer breitere Verwendung finden. Ein Aspekt ist die Bereitstellung von Software. Die Software C.A.MAN wurde von Dankmar Böhning entwickelt und steht kostenlos zum Download unter http://www.medizin.fu-berlin.de/sozmed/bo1.html bereit. Es wird in diesem Abschnitt an einem Beispiel gezeigt, wie die Parameterschätzung für Mischverteilungen mit dem Programm erfolgt. 9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN Anzahl verkaufter Packungen Häufigkeit 0 1 2 102 54 49 Anzahl verkaufter Packungen Häufigkeit 10 10 3 4 5 6 62 44 25 26 11 12 13 14 15 16 10 10 3 3 5 5 183 7 8 9 15 15 10 17 18 19 20 4 1 2 1 Beispiel 9.12 Betrachtet werden noch einmal die Daten zur Einführung des Süßwarenprodukts, die bereits in Beispiel 9.3 betrachtet worden sind. Diese sind in der folgenden Tabelle nochmals dargestellt. Es wird im folgenden an einem Beispiel dargestellt, welche Schritte durchzuführen sind, um den Parametersch¨atzer zu erhalten. Eine allgemeine Beschreibung der Anwendung findet sich bei Böhning, D. (1999, S. 201–209). a) Erstellung der Inputdatei: Zun¨achst ist eine Datei zu erstellen, die die Daten enth¨alt. Dazu werden in eine Textdatei die Auspr¨agungen und die H¨aufigkeiten der Auspr¨agungen geschrieben. Auspr¨agungen und H¨aufigkeiten werden durch ein Leerzeichen getrennt, und verschiedene Auspr¨agungen werden durch einen Absatz getrennt. Für das Beispiel also: 0 102 1 54 2 49 ... Anschließend ist die Datei (zum Beispiel unter der Bezeichnung candy.dat) in dem Verzeichnis zu speichern, in dem das Programm liegt. b) Start des Programms: Als n¨achstes ist das Programm (Caman.exe) zu starten und so lange Return zu drücken, bis man im Hauptmenü angekommen ist. c) Bestimmung von Inputdatei und Outputdatei: Im Hauptmenü ist der Punkt ”INPUT DATA” zu w¨ahlen, indem eine 1 eingetippt wird und anschließend Return gedrückt wird. Im erscheinenden Untermenü erneut der Punkt 1 (Specify data–file) zu w¨ahlen. Anschließend ist der Name der Datei einzutippen, in der die Beobachtungen stehen, also candy.dat. Danach kann die Bezeichnung der Ausgabedatei (candy.out) best¨atigt werden oder eine selbsgew¨ahlte Bezeichnung eingegeben werden. Die Ausgabedatei enth¨alt die Ergebnisse der Parametersch¨atzung. d) Bestimmung des Datenformats: Nach Best¨atigung der Ausgabedatei befindet man sich weiterhim im Untermenü ”INPUT DATA”. Jetzt ist das Datenformat anzugeben. Da die Daten in der Form [Auspr¨agung, H¨aufigkeit der Auspr¨agung] vorliegen, ist die Alternative 3 (”VARIABLE REPLICATION FACTOR”) zu w¨ahlen. Daraufhin wird angezeigt, wieviele unterschiedliche Beobachtungen in den Daten enthalten sind, und durch erneutes Drücken der Returntaste gelangt man wieder in das Hauptmenü. 184 KAPITEL 9. MISCHVERTEILUNGEN e) Wahl der Verteilung: Als n¨achstes ist der Punkt 3 ”CHOISE OF DISTRIBUTION” zu w¨ahlen. Da die Mischungskomponenten hier vom Typ Poisson sind, ist in diesem Untermenü der Punkt 2 ”Poissondistribution” zu best¨atigen. f) Durchführung der Schätzung: Mit dem Schritt d sind die minimal notwendigen Daten eingegeben, so dass mit der Parametersch¨atzung begonnen werden kann. Diese beginnt mit der Wahl des Menüpunktes 7 ”COMPUTE NPMLE” (NPMLE steht für Nonparametric Maximum–Likelihood–Estimator). Nach Auswahl dieser Option fasst das Programm noch einmal die Voraussetzungen der Optimierung zusammen und fragt, ob noch Änderungen vorgenommen werden sollen. Durch Eingabe von N(o) beginnt die Parametersch¨atzung. Jetzt ist die Returntaste so h¨aufig zu bet¨atigen, bis der folgende Output erscheint: The NPMLE consists of 5 support points Result after combining equal estimates: weight: .0068 parameter: .000000 weight: .2373 parameter: .211226 weight: .5019 parameter: 2.998342 weight: .1516 parameter: 7.388325 weight: .1024 parameter: 12.858300 Log-Likelihood at iterate: -1130.13700 Dies ist das Ergebnis der Parametersch¨atzung. Eine Mischverteilung mit fünf Komponenten besitzt die höchste Likelihood. Diese Werte der Sch¨atzer sind bereits weiter oben (bei der erstmaligen Betrachtung der Daten) angegeben worden. Ferner ist die Likelihood der Lösung angegeben. Das letzte Beispiel betrachtet einen Fall, bei dem die Anzahl der Komponenten nicht bekannt ist. Man erhält als Resultat das Modell das zu der höchstmöglichen Likelihood führt. Es ist jedoch denkbar, dass ein Modell mit weniger Komponenten (und somit weniger Parameteren) die Daten ebenfalls angemessen beschreibt. Möchte man ein Modell mit weniger Parametern anpassen, so ist die Parameterschätzung für eine bekannte Anzahl von Komponenten durchzuführen. Beispiel 9.13 Es wird jetzt gezeigt, wie man mit C.A.MAN an die Daten des vorangegangenen Beispiels ein Modell mit einer bekannten Anzahl von Komponenten anpassen kann. a) Es sind die Schritte a) bis e) aus dem letzten Beispiel durchzuführen. b) Bestimmung der Anzahl von Komponenten und der Startwerte: Es ist jetzt das Untermenü 2 ”CHOICE OF PARAMETER GRID” aufzurufen und der Punkt 3 (If you want to use fixed support size and if you want to enter starting values) zu w¨ahlen. Anschließend wird man aufgefordert, die Anzahl der Komponenten einzugeben. Dies könnte beispielsweise der Wert 4 sein. Danach ist es notwendig, die Startwerte für die numerische Maximierung anzugeben. Beispielsweise könnte man einfach die Komponente mit dem kleinsten Mischungsparameter aus der vorangegangenen Sch¨atzung entfernen und die übrigen vier (evtl. gerundet) als Startwerte verwenden. Eine mögliche Eingabe w¨are also (der jeweils erste Wert steht für den Parameter und der jeweils zweite Wert für das entsprechende Gewicht): 0.2 0.25 3 0.5 7.4 0.15 12.9 0.1 9.4. ML–SCHÄTZUNG BEI MISCHVERTEILUNGEN 185 c) Wahl des Algorithmus: Als n¨achstes ist im Untermenü ”CHOICE OF ALGORITHM” (Menüpunkt 4) die Option 5 (Fixed support size) zu setzen. Die anschließend angeforderten Eingaben sind nicht unbedingt notwendig, d.h. man kann durch die Wahl von Punkt 6 (Back to Main Menu) zum Hauptmenü zurückkehren. d) Durchführung der Parameterschätzung: Dieser Schritt entspricht dem Schritt 6 aus dem letzten Beispiel. Man erh¨alt jetzt die folgenden Ergebnisse: The NPMLE consists of 5 support points Result after combining equal estimates: weight: .244 parameter: .204273 weight: .5022 parameter: 2.998540 weight: .1515 parameter: 7.391778 weight: .1023 parameter: 12.859990 Log-Likelihood at iterate: -1130.13100 Man sieht, dass die Likelihood des Modell mit vier Komponenten nur um 0.006 kleiner ist als für das Modell mit fünf Komponenten. Eine weitergehende Frage ist jetzt, welches Modell man zur Beschreibung der Daten verwenden sollte: Sollte man das Modell mit fünf Komponenten verwenden, weil die Beobachtungen unter diesem Modell eine höhere Wahrscheinlichkeit besitzen oder sollte man das Modell mit vier Komponenten wählen, weil man dadurch den Fehler durch Schätzung verringern könnte? Böhning verwendet in praktischen Situationen einen Signifikanztest zur Modellauswahl. Er weist aber gleichzeitig darauf hin, dass die Voraussetzungen zur Durchführung des Tests nur approximativ erfüllt sind (Böhning, D., 1999, S. 77). Eine weitere Möglichkeit wäre eine Analyse der Modelle mit Hilfe von Pseudo–Residuen (vgl. Verallgemeinerte Lineare Modelle, 1999, S. 54–63). Kapitel 10 Bayes’sche Verfahren 10.1 Einf ¨uhrung Alle bislang besprochenen Konzepte und Methoden (einschließlich der Grundstudiumsinhalte), können unter der Überschrift ”Klassische Methoden” eingeordnet werden. Es existiert ferner eine alternative Idee statistische Analysen durchzuführen. Diese Idee ist in den sogenannten ”Bayes’schen Methoden” verankert, die eine andere Art des Denkens verfolgen, wenn es um die Gewinnung von Informationen aus Daten geht. Insbesondere ist mit den Bayes’schen Methoden das Konzept der Apriori–Informationen verbunden, d.h. in die Datenanalyse werden Informationen einbezogen, die bereits vor der Erhebung von Daten vorliegen. Das Ziel der Bayes’schen Methoden ist die Kombination der beiden Informationsquellen, d.h. der Apriori–Informationen und der Daten. Ziel dieses Abschnitts ist es, einen Einblick in die elementaren Konzepte und Vorgehensweisen der Bayes’schen Verfahren zu geben. Ein unter praktischen Gesichtspunkten bedeutender Aspekt der Verfahren ist die Notwendigkeit der Anwendung anspruchsvoller numerischer Verfahren. Es gibt jedoch auch einige einfache Beispiele, in denen auf rechenintensive Verfahren verzichtet werden kann, weil einfache Lösungen vorliegen. Die folgenden Ausführungen konzentrieren sich in erster Linie auf diese einfachen Fälle. Auf die komplizierteren Fälle werden im letzten Abschnitt des Kapitel kurz angesprochen. Eine tiefere Diskussion der Bayes’schen Idee findet man bei Lee (1997), Gelman et al. (1995) oder Wickmann (1990). French and Smith (1997) zeigen eine Auswahl umfangreicher Fallstudien, in denen die Bayes’schen Verfahren angewendet werden. 10.2 Das Theorem von Bayes Definition 10.1 Die Ereignisse B1 , B2 , . . . , Bk heißen eine Zerlegung der Ergebnismenge Ω, wenn sie a) disjunkt sind, d.h. B i ∩ Bj = ∅ für alle i 6= j, b) die ganze Ergebnismenge ausschöpfen, d.h. 186 B1 ∪ B2 ∪ . . . ∪ Bk = Ω. 10.2. DAS THEOREM VON BAYES 187 Beispiel 10.1 Sei Ω = {1, 2, . . . , 6} die Ergebnismenge beim Würfel. a) B1 = {1} B2 = {2, 3, 4} B3 = {5, 6} b) B1 = {1, 2, 3} B2 = {4, 5} c) B1 = {1, 2, 3} B2 = {3, 4, 5, 6} ist eine Zerlegung. ist keine Zerlegung, da B1 ∪ B2 6= Ω . ist keine Zerlegung, da B 1 ∩ B2 6= ∅ . Satz 10.1 (Formel der totalen Wahrscheinlichkeit) Sei A ⊂ Ω ein Ereignis und B1 , B2 , . . . , Bk eine Zerlegung der Ergebnismenge Ω mit P (Bi ) > 0 für i = 1, 2, . . . k. Dann gilt P (A) = k X i=1 P (A|Bi ) · P (Bi ) . Beweis: Es gilt A = A∩Ω = A ∩ (B1 ∪ B2 ∪ . . . ∪ Bk ) = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ . . . ∪ (A ∩ Bk ) . Da die Ereignisse Bi ; i = 1, 2, . . . , k disjunkt sind, sind auch die Ereignisse A ∩ Bi ; i = 1, 2, . . . , k disjunkt. Damit gilt P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) + . . . + P (A ∩ Bk ) = P (A|B1 )P (B1 ) + P (A|B2 )P (B2 ) + . . . + P (A|Bk )P (Bk ) = k X i=1 P (A|Bi ) · P (Bi ) . Dabei wurde die Definition der bedingten Wahrscheinlichkeiten P (A|Bi ) = P (A ∩ Bi ) P (Bi ) und die Folgerung benutzt. P (A ∩ Bi ) = P (A|Bi )P (Bi ) ♦ Satz 10.2 (Theorem von Bayes) Sei A ⊂ Ω ein Ereignis und B1 , B2 , . . . , Bk eine Zerlegung der Ergebnismenge Ω mit P (Bi ) > 0 für i = 1, 2, . . . k. Dann gilt P (Bj |A) = P (A|Bj )P (Bj ) k P i=1 P (A|Bi )P (Bi ) . 188 KAPITEL 10. BAYES’SCHE VERFAHREN Beweis: Durch zweimalige Anwendung der Definition der bedingten Wahrscheinlichkeit und des Satzes der totalen Wahrscheinlichkeit erhält man P (Bj |A) = = P (Bj ∩ A) P (A) P (A|Bj )P (Bj ) k P i=1 . P (A|Bi )P (Bi ) ♦ Beispiel 10.2 (Aus Hartung u.a., 1993) Durch einen zu sp¨at erkannten Fabrikationsfehler sind in einer Automobilproduktion genau 20 defekte Lenkgetriebe eingebaut worden. In einer Rückrufaktion wurden 200 000 Wagen dieser Serie überprüft und alle als fehlerhaft identifizierten Lenkgetriebe wurden ausgetauscht. Dabei wird die Überprüfung mit 99%-iger Sicherheit zu einem korrekten Ergebnis führen. Wie groß ist die Wahrscheinlichkeit, dass ein ausgewechseltes Lenkgetriebe auch defekt war? Wir verwenden die folgenden Bezeichnungen: B1 sei das Ereignis eines defekten Lenkgetriebes. B2 sei das Ereignis eines nicht defekten Lenkgetriebes. A sei das Ereignis eines ausgewechselten Lenkgetriebes. Die folgenden Informationen sind uns gegeben: P (B1 ) = 20 = 0.0001 200 000 P (A|B1 ) = 0.99 P (A|B2 ) = 0.01 Gesucht ist die Wahrscheinlichkeit P (B1 |A) = P ({Lenkgetriebe defekt}|{Lenkgetriebe ausgewechselt }) . Mit dem Theorem von Bayes folgt P (B1 |A) = P (A|B1 )P (B1 ) 2 P i=1 = P (A|Bi )P (Bi ) 0.99 · 0.0001 ≈ 0.0098 . 0.99 · 0.0001 + 0.01 · 0.9999 Fast alle ausgewechselten Lenkgetriebe waren demnach nicht defekt. Beispiel 10.3 Es sei bekannt, dass in einer Familie die Großmutter und ein Sohn der Großmutter die Bluterkrankheit (H¨amophilie) haben. Die Großmutter habe auch eine Tochter, von der es unbekannt ist, ob sie die Bluterkrankheit hat. Wir betrachten dann die Ereignisse B1 = {Tochter hat H¨amophilie}, B2 = {Tochter hat nicht H¨amophilie }. 10.2. DAS THEOREM VON BAYES 189 Es gilt dann P (B1 ) = 0.5 und P (B2 ) = 0.5 . Nun gebe es die zus¨atzliche Information, dass die Tochter zwei Söhne hat, die nicht eineiige Zwillinge sind. Beide Söhne haben keine H¨amophilie. Wir betrachten die Ereignisse a) A1 = {Sohn 1 hat nicht H¨amopholie }, b) A2 = {Sohn 2 hat nicht H¨amopholie }, c) A = A1 ∩ A2 = {Kein Sohn hat H¨amopholie}. Es gilt P (A1 |B1 ) = 0.5 , P (A2 |B1 ) = 0.5 . Da die Söhne nicht eineiige Zwillinge sind, gilt P (A|B1 ) = P (A1 |B1 ) · P (A2 |B1 ) = 0.5 · 0.5 = 0.25 und P (A|B2 ) = 1 . Wie hoch ist die Wahrscheinlichkeit, dass die Tochter (die Mutter der beiden Söhne) H¨amophilie hat (gegeben, dass beide Söhne keine H¨amophilie haben)? Gesucht ist die Wahrscheinlichkeit P (B1 |A) . Nach dem Theorem von Bayes gilt P (B1 |A) = = = P (A|B1 )P (B1 ) P (A|B1 )P (B1 ) + P (A|B2 )P (B2 ) (0.25)(0.5) (0.25)(0.5) + 1 · (0.5) 0.125 = 0.2 . 0.625 Für Dichtefunktion gibt es eine zum Bayes-Theorem analoge Formel. Man kann dabei an eine stetige Zerlegung des Ergebnisraums denken. Satz 10.3 Die gemeinsame Dichtefunktion der Zufallsvariablen X und Y sei f (x, y). Dann gilt f (x|y)f (y) f (y|x) = R∞ . f (x|y)f (y)dy −∞ 190 KAPITEL 10. BAYES’SCHE VERFAHREN Beweis: Durch zweimalige Anwendung der Definition einer bedingten Dichtefunktion (siehe Definition 6.13) erhält man f (x, y) f (x|y)f (y) f (y|x) = = . f (x) f (x) Nun gilt für die Randdichtefunktion im Nenner f (x) = Z∞ f (x, y)dy = −∞ Z∞ f (x|y)f (y)dy . −∞ ♦ Damit hat man das gewünschte Ergebnis. Wir werden das Bayes-Theorem auch in dem Fall benutzen, in dem eine Zufallsvariable, z.B. Y , stetig und die andere diskret ist. Es gilt dann f (y|X = x) = R∞ P ({X = x}|y)f (y) . (10.1) P ({X = x}|y)f (y)dy −∞ 10.3 Bayes’sche Verfahren Beispiel 10.4 Man möchte für eine Münze die Wahrscheinlichkeit sch¨atzen, mit der sie beim Wurf mit ,,Kopf” auftrifft, d.h. π = P ({,,Kopf”}) . FRAGE: Wie interpretiert man diese Wahrscheinlichkeit π ? Wir betrachten zwei mögliche Interpretationen. a) Das klassische Verfahren interpretiert diese Wahrscheinlichkeit als relative H äufigkeit. Die Wahrscheinlichkeit eines Ereignisses ist der Wert, gegen den die relative Häufigkeit des Ereignisses konvergiert, wenn man das Experiment unendlich oft unter gleichen Bedingungen ausführte. Diese Interpretation wird nicht von allen akzeptiert. An dieser Vorstellung wird kritisiert, dass man solche Experimente nicht unendlich oft durchführen kann. b) Bei der subjektiven Interpretation von Wahrscheinlichkeiten wird ,,Wahrscheinlichkeit” als ein subjektiver Begriff aufgefasst. Er beschreibt quantitativ unsere Vorstellung, dass ein Ereignis vorkommen wird. Man kann die Ergebnisse eines Experiments verwenden, um die bisherige Vorstellung der Wahrscheinlichkeit eines gegebenen Ereignisses zu ändern oder zu präzisieren. Wir betrachten das folgende EXPERIMENT: Wir werfen dreimal eine Münze. Sei X die Anzahl der ,,Köpfe”. Wenn die drei Versuche unabh¨angig sind, ist die Wahrscheinlichkeitsfunktion von X (gegeben π ) P (x|π) = ( 3 x x π (1 − π)3−x 0 x = 0, 1, 2, 3 sonst . 10.3. BAYES’SCHE VERFAHREN 191 Wir nehmen an, dass X = 2 beobachtet wurde. Wir wollen die klassische Vorgehensweise der Bayes’schen Vorgehensweise gegenüberstellen. a) In der typisch klassischen Vorgehensweise betrachtet man π als Konstante, und X = 2 ist die Realisation einer Zufallsvariablen. Man kann z.B. die Maximum-Likelihood-Methode verwenden, um π zu sch¨atzen, d.h. es ist ! 3 2 π (1 − π)3−2 2 L(π; X = 2) = zu maximieren. Dies führt zum Sch¨atzer π̂ = 2 . 3 Würden Sie diesem Wert glauben? Oder etwa dem noch extremeren Wert π̂ = 1 X=3? falls b) In der typischen Bayes’schen Vorgehensweise ist π wohl eine Konstante, aber sie ist unbekannt. Das Ergebnis X = 2 ist bekannt. Bevor man das Experiment durchführt, hat man eine Vorstellung des Wertes von π . Diese Vorstellung kann man als Apriori-Dichtefunktion darstellen, etwa wie in Abbildung 10.1. 2.0 f(π) 1.5 1.0 0.5 0.0 0.0 0.5 1.0 π Abbildung 10.1: Apriori-Verteilung von π (subjektive Vorstellung) Dabei wird π als Zufallsvariable betrachtet. Wir wissen, dass X , gegeben π , binomialverteilt ist, d.h. ! 3 2 P ({X = 2}|π) = π (1 − π)3−2 . 2 Wir können jetzt das Theorem von Bayes verwenden, um unsere Apriori-Vorstellung (d.h. unsere Vorstellung vor der Durchführung des Experiments) von der Verteilung von π zu pr¨azisieren. Jetzt haben wir den Fall, dass eine Zufallsvariable (X ) diskret ist, w¨ahrend die andere (π ) stetig ist. Nach Formel (10.1) gilt, wenn f (π) die Dichtefunktion der Apriori-Verteilung von π bezeichne, P ({X = 2}|π)f (π) f (π|X = 2) = 1 . R P ({X = 2}|π)f (π)dπ 0 192 KAPITEL 10. BAYES’SCHE VERFAHREN Das ist die bedingte Dichtefunktion von π , gegeben X = 2. Sie enth¨alt also unser korrigiertes Wissen über die Verteilung von π nach Durchführung des Experiments. Sie heißt die Posteriori-Verteilung von π (gegeben die Beobachtungen). Abbildung 10.2 verdeutlicht den Zusammenhang zwischen Apriori- und Posteriori-Verteilung. Vor der Beobachtung haben wir nur eine vage Vorstellung über die Verteilung des Parameters π . Mit Hilfe eines Modells (hier die Binomialverteilung) und der Beobachtungen wird diese vage Vorstellung zu einer genaueren Posteriori-Vorstellung über den Parameter pr¨azisiert. Diese Vorstellung soll durch die St¨arke des Grautons in den Abbildungen unterstrichen werden. Apriori Posteriori 8 8 6 Beobachtungen f(π) f(π) 6 4 Modell 2 0 4 2 0 0.0 0.2 0.4 π 0.6 0.8 1.0 0.0 0.2 0.4 π 0.6 0.8 1.0 Abbildung 10.2: Apriori-Verteilung und Posteriori-Verteilung von π Die eben geschilderte Vorgehensweise bei den Bayes’schen Verfahren wirft die beiden folgenden Probleme auf: 1.) Wie soll man die Apriori-Verteilung bestimmen? 2.) Wie berechnet man die Posteriori-Verteilung? Das erste Problem ist ein Hauptkritikpunkt an den Bayes’schen Verfahren. Die subjektive Bestimmung der Apriori-Verteilung gilt als unwissenschaftlich. Das zweite Problem kann sehr kompliziert sein. Es geht darum, das Integral Z1 P ({X = 2}|π)f (π)dπ 0 zu bestimmen. Das Problem ist jedoch leicht zu lösen, wenn man für die Apriori-Verteilung eine Verteilung verwendet die zu einer leicht integrierbaren Funktion führt, wenn man sie mit P ({X = 2}|π) multipliziert, d.h. die Apriori-Verteilung muss in geeigneter Weise zu der Binomialverteilung passen. Das Problem ist dann leicht zu lösen, wenn man eine konjugierte Verteilung für f (π) verwendet. Die Definition einer konjugierten Verteilung werden wir später betrachten. Jetzt sei gesagt, dass die Beta-Verteilung die konjugierte Verteilung einer Binomialverteilung ist, d.h. das zweite Problem ist einfach zu lösen, wenn wir für die Apriori-Verteilung von π eine Betaverteilung verwenden. Wir nehmen also an, dass π ∼ Be(α; β) , 10.3. BAYES’SCHE VERFAHREN d.h. f (π) = ( 193 1 π α−1 (1 B(α,β) 0 − π)β−1 0 < π < 1 sonst . Abbildung 10.3 zeigt einige Beta-Apriori-Verteilungen. 12 Be(100,100) 10 f(π) 8 Be(50,20) 6 4 2 Be(10,10) 0 0.0 0.2 0.4 0.6 0.8 1.0 π Abbildung 10.3: Einige Beta-Apriori-Verteilungen Wir nehmen auch weiterhin an, dass X|π ∼ b(n; π) . Dann ist f (π|X = x) = P ({X = x}|π)f (π) R1 . P ({X = x}|π)f (π)dπ 0 Das Integral im Nenner ist Z1 P ({X = x}|π)f (π)dπ = 0 Z1 0 = = ! n x π α−1 (1 − π)β−1 dπ π (1 − π)n−x x B(α, β) ! n 1 x B(α, β) ! Z1 0 π x+α−1 (1 − π)n−x+β−1 dπ | {z B(α+x; β+n−x) n B(α + x; β + n − x) . x B(α, β) } (Beachten Sie, dass wir dieses Integral schon in Kapitel 12 bei der Herleitung der BetaBinomial-Verteilung berechnet haben. Es handelt sich um die Bestimmung einer Mischverteilung. Die Binomialverteilung wird gemäß einer Betaverteilung gemischt.) Damit ist die Posteriori-Dichte f (π|X = x) = n x π x (1 − π)n−x π α−1 (1 − π)β−1 /B(α; β) n B(α x x+α−1 + x; β + n − x)/B(α; β) π (1 − π)n−x+β−1 = , B(α + x; β + n − x) 194 KAPITEL 10. BAYES’SCHE VERFAHREN d.h. die Posteriori-Verteilung von π gegeben X = x ist eine Betaverteilung mit den Parametern α + x und β + n − x, d.h. π|X ∼ Be(α + x; β + n − x) . (10.2) Wir haben gesehen, dass die Posteriori-Verteilung zu der gleichen Familie von Verteilungen gehört wie die Apriori-Verteilung. Beispiel 10.5 Nehmen wir Be(10; 10) als Apriori-Verteilung an und, dass wie in Beispiel 10.4 n = 3 und X = 2 beobachtet wurde. Die Posteriori-Verteilung ist dann Be(10 + 2; 10 + 3 − 2) = Be(12; 11) . Abbildung 10.4 zeigt die Apriori und Posteriori Verteilung. 4 Posteriori: B(12,11) f(π) 3 Apriori: B(10,10) 2 n=3; x=2 1 0 0.0 0.2 0.4 0.6 0.8 1.0 π Abbildung 10.4: Apriori-Verteilung (Be(10;10)) und Posteriori-Verteilung (Be(12;11)) H¨atten wir Be(100; 100) als Apriori-Verteilung verwendet, so w¨are die Posteriori-Verteilung Be(102; 101). Die beiden Verteilungen sind kaum zu unterscheiden. Beispiel 10.6 Nehmen wir an, dass n = 100 und X = 30 beobachtet wurde. Die Apriori-Verteilung sei Be(100; 100). Die Posteriori-Verteilung w¨are dann Be(130; 170). Abbildung 10.5 zeigt diese beiden Verteilungen, w¨ahrend Abbildung 10.6 die Apriori- und Posteriori-Verteilungen für den Fall n = 1 000 und x = 300 zeigt. Besonders die Abbildung 10.6 zeigt, dass die Apriori-Vorstellung durch die Beobachtungen sehr stark korrigiert wird. Zusammenfassend lässt sich sagen: a) Die Posteriori-Verteilung hängt von i) der Apriori-Verteilung und ii) dem Ergebnis x ab. b) Mit zunehmender Stichprobeninformation (hier n) wird der Einfluss der Apriori-Verteilung immer geringer. 10.3. BAYES’SCHE VERFAHREN 195 14 Posteriori: B(130,170) 12 f(π) 10 Apriori: B(100,100) 8 6 4 n=100; x=30 2 0 0.0 0.2 0.4 0.6 0.8 1.0 π Abbildung 10.5: Apriori-Verteilung (Be(100;100)) und Posteriori-Verteilung (Be(130;170)) 30 Posteriori: B(400,800) 25 f(π) 20 n=1000; x=300 15 10 Apriori: B(100,100) 5 0 0.0 0.2 0.4 0.6 0.8 1.0 π Abbildung 10.6: Apriori-Verteilung (Be(100;100)) und Posteriori-Verteilung (Be(400;800)) Bei den Bayes’schen Verfahren setzt man die Beobachtungen X = x ( z.B. X = 2 in Beispiel 10.4) als bekannt voraus. Unbekannt sind die oder der Parameter θ (π in Beispiel 10.4). Die gemeinsame Verteilung der Beobachtungen und der unbekannten Parameter wird in der folgenden Weise angegeben f (θ; x) = f (x|θ)f (θ) falls X stetig ist. Dabei ist f (x|θ) die Verteilung der Beobachtungen bei gegebenem θ. Man berechnet dann die bedingte Verteilung der unbekannten Parameter, gegeben die bekannten Beobachtungen. Dafür verwendet man das Theorem von Bayes. f (θ|X = x) = ∞ R f (x|θ)f (θ) . f (x|θ)f (θ)dθ −∞ Ist X eine diskrete Zufallsvariable, so ist die folgende Gleichung zu verwenden. (10.3) 196 KAPITEL 10. BAYES’SCHE VERFAHREN f (θ|X = x) = R∞ P (x|θ)f (θ) . (10.4) P (x|θ)f (θ)dθ −∞ Definition 10.2 Sei f (x|θ) die bedingte Dichtefunktion der Zufallsvariablen X bei gegebenem Parameter θ und f (θ) die Apriori-Verteilung des Parameters θ. Die PosterioriVerteilung von θ, gegeben X = x ist dann durch Gleichung (10.3) gegeben. Ist X eine diskrete Zufallsvariable mit der Wahrscheinlichkeitsfunktion P (x|θ), so ist die PosterioriVerteilung von θ, gegeben X = x durch Gleichung (10.4) gegeben. Wir wollen jetzt besprechen, wie man die Posteriori-Verteilung einfach bestimmen kann, wenn man konjugierte Verteilungen verwendet. Definition 10.3 Die Verteilung f (θ) heißt die (natürliche) konjugierte Verteilung für f (x|θ), wenn f (θ|x) und f (θ) dieselbe Form haben, d.h. wenn die Apriori- und Posteriori-Verteilung zu derselben Familie von Verteilungen geh ören. Beispiel 10.7 Die Betaverteilung ist die konjugierte Verteilung für den Parameter θ = π einer Binomialverteilung. Wir hatten weiter oben angenommen, dass die bedingte Verteilung von X gegeben π eine Binomialverteilung ist, d.h. X|π ∼ b(n; π) . Als Apriori-Verteilung von π hatten wir eine Betaverteilung angenommen, d.h. π ∼ Be(α; β) . Wir konnten zeigen, dass die bedingte Verteilung von π gegeben X eine Betaverteilung ist, genauer (siehe Gleichung (10.2) π|X = x ∼ Be(α + x; β + n − x) . Die Apriori-Dichte f (π) und die Posteriori-Dichte f (π|X = x) sind jeweils Betaverteilungen. Wie verwendet man die Posteriori-Verteilung? Der Modalwert kann als Schätzer des Parameters aufgefasst werden. Mit Hilfe der Verteilung kann ein Vertrauensbereich für den Parameter angegeben werden. Betrachten wir die Situation in Abbildung 10.5. Die Posteriori-Verteilung ist die Betaverteilung mit den Parametern 130 und 170. Sie hat den Modalwert an der Stelle (130 − 1)/(300 − 2) = 0.43, d.h. man würde π durch π̂ = 0.43 sch¨atzen. Um einen 90%-Vertrauensbereich zu bestimmen, berechnet man mit Hilfe der Umkehrfunktion der Verteilungsfunktion den 5%- und 95%-Punkt der Betaverteilung. In diesem Fall ergibt sich das Intervall (0.387, 0.481). 10.3. BAYES’SCHE VERFAHREN 197 Beispiel 10.8 Die Gammaverteilung ist die konjugierte Verteilung für den Parameter einer Poissonverteilung. Sei X|µ poissonverteilt mit dem Parameter µ, d.h. P ({X = x}|µ) = ( µx e−µ x! 0 für x = 0, 1, 2, . . . sonst . Die Apriori-Verteilung von µ sei eine Gammaverteilung, d.h. µ ∼ G(ν; λ) , d.h. f (µ) = ν ν−1 −λµ λ µ e Γ(ν) 0 µ≥0 sonst . Dann ist die Posteriori-Verteilung von µ, gegeben X = x f (µ|X = x) = R∞ P ({X = x}|µ)f (µ) . P ({X = x}|µ)f (µ)dµ 0 Wir bestimmen zun¨achst den Z¨ahler dieses Ausdrucks und bemerken, dass der Nenner das Integral über den Ausdruck im Z¨ahler ist. P ({X = x}|µ)f (µ) = µx e−µ λν µν−1 e−λµ λν · = µx+ν−1 e−µ(1+λ) x! Γ(ν) x!Γ(ν) (10.5) Den Nenner hatten wir bereits in Kapitel 9 bestimmt, als wir die Mischung der Poissonverteilung bezüglich der Gammaverteilung betrachtet haben (siehe Seite 178). Als Zwischenergebnis hatten wir dort erhalten: Z∞ P (X = x|µ)f (µ)dµ = 0 Γ(x + ν)λν . x!Γ(ν)(1 + λ)x+ν (10.6) Dividieren wir Gleichung (10.5) durch Gleichung 10.6, so erhalten wir: f (µ|X = x) = (λ + 1)ν+x µν+x−1 e−(λ+1)µ , Γ(ν + x) d.h. die Dichtefunktion einer Gammaverteilung mit den Parametern ν + x und λ + 1. Wir fassen das Ergebnis des letzten Beispiels in folgendem Satz zusammen. Satz 10.4 Die Zufallsvariable X sei bei gegebenem µ poissonverteilt mit dem Parameter µ (d.h. X|µ ∼ P o(µ)). Die Aprioriverteilung von µ sei G(ν; λ). Dann ist die PosterioriVerteilung von µ, gegeben die Beobachtung x µ ∼ G(ν + x; λ + 1) . 198 KAPITEL 10. BAYES’SCHE VERFAHREN Wir können dieses Verfahren auf die folgende Weise verallgemeinern: • Wenn man zwei Beobachtungen hat, wird die Posteriori-Verteilung nach Betrachtung der ersten Beobachtung als Apriori-Verteilung für den zweiten Schritt verwendet (siehe Abbildung 10.7). Apriori Posteriori 0.30 0.30 0.25 0.25 Beobachtung: 0.20 0.15 0.20 0.15 0.10 x1=6 0.05 0.10 0.05 0.0 0.0 0 5 10 15 µ 20 25 30 0 Apriori 5 10 15 µ 20 25 30 Posteriori 0.30 0.30 0.25 0.25 Beobachtung: 0.20 0.15 0.20 0.15 0.10 x2=4 0.05 0.10 0.05 0.0 0.0 0 5 10 15 µ 20 25 30 0 Apriori 5 10 15 µ 20 25 30 Posteriori 0.30 0.30 0.25 0.25 Beobachtung: 0.20 0.15 0.20 0.15 0.10 x3=8 0.05 0.10 0.05 0.0 0.0 0 5 10 15 µ 20 25 30 0 5 10 15 µ 20 25 30 Abbildung 10.7: Apriori und Posteriori-Verteilungen nach Eingang von neuen Beobachtungen • Wenn man drei oder mehr Beobachtungen hat, führt man das einfach weiter. Seien x1 , x2 , · · · , xn unabhängige Beobachtungen aus einer Poissonverteilung mit unbekanntem Parameter µ. Sei µ ∼ G(ν; λ). Apriori-Verteilung G(ν; λ) G(ν + x1 ; λ + 1) .. . Beobachtung x1 x2 .. . G(ν + x1 + · · · + xn−1 ; λ + n − 1) xn Posteriori-Verteilung G(ν + x1 ; λ + 1) G(ν + x1 + x2 ; λ + 2) .. . G(ν + n P i=1 xi , λ + n) 10.3. BAYES’SCHE VERFAHREN 199 Beispiel 10.9 Wie bisher sei die Zufallsvariable bei bekanntem µ poissonverteilt mit dem Parameter µ. Die Apriori-Verteilung von µ sei G(1, 0.1) . Es seien die folgenden Beobachtungen gegeben: 9, 7, 13, 10, 6 Die Anzahl der Beobachtungen ist 5, die Summe der Beobachtungen ist 45. Dann ist die PosterioriVerteilung G(1 + 45, 0.1 + 5) . Abbildung 10.8 zeigt die Apriori- und die Posteriori-Verteilung. Apriori 0.35 Posteriori 0.35 0.30 0.30 0.25 0.25 Beobachtungen: f(µ ) 0.20 f(µ ) 0.20 0.15 0.15 x1+x2+x3+x4+x5=45 0.10 0.10 0.05 0.05 0.0 0.0 0 10 20 µ 30 40 0 10 20 µ 30 40 Abbildung 10.8: Apriori- (G(1, 0.1)) und Posteriori-Verteilung (G(46; 5.1)) Bei n unabh¨angigen Beobachtungen x1 , x2 , · · · , xn hat man die Posteriori-Verteilung µ ∼ G(ν + n X xi ; λ + n) . i=1 Beispiel 10.10 Die Zufallsvariable X sei exponentialverteilt mit dem Parameter θ , d.h. f (x|θ) = ( θe−θx 0 x≥0 sonst . Der Parameter θ besitze eine Gammaverteilung mit den Parametern ν und λ, d.h. θ ∼ G(ν; λ) , d.h. f (θ) = λν θ ν−1 e−λθ Γ(ν) 0 θ≥0 sonst . Man kann dann zeigen (es sei Ihnen als Übung empfohlen), dass die Posteriori-Verteilung von θ gegeben die Beobachtung X = x wieder eine Gammaverteilung ist, und zwar θ|x ∼ G(ν + 1; λ + x) . 200 KAPITEL 10. BAYES’SCHE VERFAHREN Die Gammaverteilung ist also die konjugierte Verteilung für die Exponentialverteilung. Nach Eingang der Beobachtungen x1 , x2 , . . . , xn ist die Posterioriverteilung G(ν + n; λ + n X xi ) . i=1 In der Zuverl¨assigkeitstheorie bezeichnet man den Parameter θ als Hazardrate und T = n P i=1 xi als total time on test. Die Dichtefunktion von θ , gegeben die Beobachtungen x 1 , x2 , . . . , xn ist dann f (θ|x1 , x2 , ..., xn ) = ( 1 Γ(ν) (λ + T )ν+n θ ν+n−1 e−(λ+T )θ 0 θ≥0 sonst . Man kann θ dann sch¨atzen durch den Erwartungswert dieser Verteilung, d.h durch (ν + n)/(λ + T ) . In der Zuverl¨assigkeitstheorie wird es h¨aufig als gef¨ahrlich angesehen, wenn die Hazardrate einen bestimmten Wert θ0 übersteigt. Diese Wahrscheinlichkeit kann durch Integation der Posteriori-Dichtefunktion von θ bestimmt werden. Unsere bisherigen Resultate können wir so zusammenfassen: a) Die Betaverteilung ist die konjugierte Verteilung für die Binomialverteilung. Apriori-Vert. Modell π ∼ Be(α; β) X|π ∼ b(n; π) Beobacht. X=x Posteriori-Vert. π|X = x ∼ Be(α + x; β + n − x) b) Die Gammaverteilung ist die konjugierte Verteilung für die Poisson-Verteilung. Apriori-Vert. Modell Beobacht. µ ∼ G(ν; λ) X|µ ∼ P0 (µ) X =x Posteriori-Vert. µ|X ∼ G(ν + x; λ + 1) c) Die Gammaverteilung ist die konjugierte Verteilung für die Exponentialverteilung. Apriori-Vert. Modell Beobacht. θ ∼ G(ν; λ) X|θ ∼ Exp(θ) X =x Posteriori-Vert. θ|X ∼ G(ν + 1; λ + x) Nachdem wir unsere Verteilung über den Parameter θ durch die Posteriori-Verteilung korrigiert haben, wollen wir uns fragen: Wie sind weitere zukünftige Werte der Zufallsvariablen X verteilt? Definition 10.4 Die prädiktive Verteilung von X ist die Randverteilung eines zukünftigen Wertes von X. 10.3. BAYES’SCHE VERFAHREN 201 Satz 10.5 Die prädiktive Verteilung einer binomialverteilten Zufallsvariablen (X ∼ b(n; π)), deren Parameter betaverteilt (Be(α; β)) ist, ist die Beta-Binomialverteilung mit den Parametern ñ, α + x und β + n − x. Dabei ist x der zuvor beobachtete Wert von X und ñ ist die Anzahl der weiteren Bernoulli-Experimente. Bevor wir diesen Satz beweisen, wollen wir die Situation in der folgenden Übersicht zusammenfassen: Apriori π ∼ Be(α; β) Modell X|π ∼ b(n; π) Posteriori π|X ∼ Be(α + x; β + n − x) Die Apriori-Vorstellungen über den Parameter π seien in einer Betaverteilung ausgedrückt. Das Modell für die Beobachtungen bei gegebenem Parameter sei eine Binomialverteilung. Nach Eingang von Beobachtungen wird die Apriori-Vorstellung über π in eine PosterioriVorstellung über π modifiziert. Dies ist wieder eine Betaverteilung. Die Frage, die Satz 10.5 beantwortet, ist die nach der Verteilung weiterer zukünftiger Werte unter Berücksichtigung der bisher gewonnenen Erkenntnisse. Es werden weitere ñ Bernoulli-Versuche durchgeführt. Sei X̃ die Anzahl der Erfolge in diesen weiteren Versuchen. Die Behauptung des Satzes ist X̃ ∼ Beta-Binomial(ñ; α + x; β + n − x) . Beispiel 10.11 Wir betrachten das Münzwurfexperiment aus Beispiel 10.4. Apriori-Verteilung Modell Posteriori-Verteilung π ∼ Be(α; β) X|π ∼ b(n; π) π|X ∼ Be(α + x; n − x + β) z.B. Be(5; 5) z.B. b(3; π) Be(7; 6) (falls x = 2) Wir werfen die Münze noch ñ-mal. SeiX̃ die Anzahl der ,,Köpfe” in diesen weiteren Versuchen. Gesucht ist die Verteilung von X̃ . Sie heißt die pr¨adiktive Verteilung. Wie groß ist z.B. P ({X̃ = x̃}|x = 2) ? Es ist X̃|π ∼ b(ñ; π) . Aber π ist nicht bekannt. Beweis des Satzes: P ({X̃ = x̃}|X = x) = Z1 = Z1 P ({X̃ = x̃}|X = x; π)f (π|x)dπ 0 0 ! π α+x−1 (1 − π)β+n−x−1 ñ x̃ π (1 − π)ñ−x̃ dπ x̃ B(α + x; β + n − x) 202 KAPITEL 10. BAYES’SCHE VERFAHREN ! Z1 = ñ 1 x̃ B(α + x; β + n − x) = ñ B(α + x + x̃; β + (n − x) + (ñ − x̃)) x̃ B(α + x; β + n − x) ! 0 π α+x+x̃−1 (1 − π)β+n−x−1+ñ−x̃ dπ Das ist die Beta-Binomialverteilung mit den Parametern ñ, α + x und β + n − x. ♦ Beachten Sie, dass wir wieder die Mischverteilung einer Binomialverteilung bezüglich einer Betaverteilung berechnet haben (siehe Herleitung der Beta-Binomialverteilung auf Seite 175). Beispiel 10.12 Wir betrachten folgende Situation: • Die Apriori-Verteilung des Parameters π einer Binomialverteilung sei eine Be(5, 5)-Verteilung. • In n = 3 Versuchen wurden X = 2 Erfolge beobachtet, d.h. x = 2. • Die Posteriori-Verteilung des Parameters π ist dann eine Be(7, 6)-Verteilung. • Es werden ñ = 5 weitere Bernoulli-Versuche durchgeführt. Gesucht ist die pr¨adiktive Verteilung von X̃ , der Anzahl der Erfolge in diesen fünf weiteren Versuchen. Nach Satz 10.5 ist X̃ Beta-Binomial-verteilt mit den Parametern (ñ; α + x; β + n − x) = (5; 5 + 2; 5 + 3 − 2) . 0.30 0.25 0.20 0.15 0.10 0.05 0.0 0 1 2 3 4 5 Abbildung 10.9: Prädiktive Verteilung: Beta-Binomial (5; 7; 6) Abbildung 10.9 zeigt die Wahrscheinlichkeitsfunktion der pr¨adiktiven Verteilung von X̃ . Beispiel 10.13 Wir wollen jetzt die pr¨adiktive Verteilung einer poissonverteilten Zufallsvariablen, deren Parameter gammaverteilt ist, bestimmen, d.h. wir gehen von der folgenden Situation aus: • Die Apriori-Verteilung des Parameters µ einer Poissonverteilung sei G(ν; λ). • Die bedingte Verteilung von X , gegeben µ, sei P o(µ). 10.3. BAYES’SCHE VERFAHREN 203 • Es liegen die Beobachtungen x1 , x2 , ..., xn vor. • Die Posteriori-Verteilung des Parameters µ nach den Beobachtungen ist G(ν + n X xi ; λ + n) . i=1 Abbildung 10.10 zeigt eine mögliche Posteriori-Verteilung. 0.4 0.3 0.2 0.1 0.0 0 5 10 15 20 Abbildung 10.10: Dichte f (µ|x) der Posteriori-Verteilung von µ. FRAGE: Welche Verteilung besitzt die n¨achste Beobachtung, d.h. welches ist die pr¨adiktive Verteilung? Sei X̃ die n¨achste Beobachtung. Die bedingte Verteilung von X̃ gegeben µ ist die Poissonverteilung mit dem Parameter µ, d.h. P ({X̃ = x̃}|µ) = µx̃ e−µ , x̃! x̃ = 0, 1, 2, . . . . Die (aktuelle) Verteilung von µ ist 0 0 0 (λ0 )ν µν −1 e−λ µ f (µ|x) = , Γ(ν 0 ) wobei zur Vereinfachung der Schreibweise ν0 = ν + n X xi und λ0 = λ + n i=1 gesetzt wurde. Es ist folgendes Integral zu bestimmen: P ({X̃ = x̃}) = Z∞ P ({X̃ = x̃}|µ)f (µ|x)dµ , 0 d.h. es ist die Mischung einer Poissonverteilung bezüglich einer Gammaverteilung zu bestimmen. Als Lösung erhalten wir die Wahrscheinlichkeitsfunktion der negativen Binomialverteilung (siehe Seite 178) mit den Parametern (ν 0 , λ0 /(λ0 + 1)). Wir formulieren das Ergebnis als Satz 204 KAPITEL 10. BAYES’SCHE VERFAHREN Satz 10.6 Die prädiktive Verteilung der Poissonverteilung, deren Parameter µ gammaverteilt ist, ist eine negative Binomialverteilung. Wir betrachten abschließend in diesem Abschnitt die Normalverteilung für den Fall, dass die Varianz σ 2 bekannt ist. Der unbekannte Parameter ist der Erwartungswert µ, so dass ein Modell für die Beobachtungen durch X|µ ∼ N (µ; σ 2 ) . beschrieben werden kann. Es gilt dann: Satz 10.7 Die konjugierte Verteilung für den Parameter µ der Normalverteilung ist die Normalverteilung. Zunächst wird der Fall betrachtet, bei dem eine Apriori–Verteilung durch eine Beobachtung präzisiert wird. Sei µ ∼ N (µ0 ; τ02 ) die Apriori–Verteilung und x die Beobachtung, dann ist die Posteriori–Verteilung durch µ|x ∼ N (µ1 ; τ12 ) mit µ1 = µ0 + (x − µ0 ) τ02 σ 2 + τ02 und 1 1 1 = 2+ 2 2 τ1 τ0 σ gegeben. Zunächst wird der Erwartungswert µ1 der Posteriori–Verteilung betrachtet. Dieser stellt einen Kompromiss zwischen dem Erwartungswert der Apriori–Verteilung und der Beobachtung dar: Das Ausmaß der Aktualisierung hängt davon ab, wie weit der ursprünglich angenommene Erwartungswert und die Beobachtung auseinander liegen. Ferner ist zu erkennen, dass die Varianz der Posteriori–Verteilung in jedem Fall kleiner ist als die der Apriori–Verteilung. In der oben gegebenen Formel wird der Kehrwert der Varianz verwendet, der als Präzision der Verteilung interpretiert werden kann. Wie zu sehen ist, steigt die Präzision um den Summanden 1/σ 2 Beispiel 10.14 Angenommen es liegt eine Apriori–Verteilung µ ∼ N (1; 4) vor und es wird eine Beobachtung x = 10 gemacht. Sei ferner σ 2 = 8, dann erh¨alt man durch Anwendung der oben gegebenen Formeln für die Posteriori–Verteilung: µ|x ∼ N (4; 8/3) Vergleicht man dieses Ergebnis mit dem Fall, in dem eine Beobachtung gemacht wird, die n¨aher am Erwartungswert der Apriori–Verteilung liegt, erkennt man dass die Posteriori– Verteilung im ersten Fall st¨arker von der Apriori–Verteilung abweicht. W¨are beispielsweise x = 2 beobachtet worden, so lautete die Posterioriverteilung µ|x ∼ N (4/3; 8/3). Bemerkenswert ist auch, dass die Verringerung der Varianz unabh¨angig von der Beobachtung ist. Dies gilt allerdings nur für den hier betrachteten Fall einer bekannten Varianz. 10.4. BEMERKUNGEN ZU KONJUGIERTEN VERTEILUNGEN 205 Es wird jetzt der Fall betrachtet, bei dem eine Apriori–Verteilung durch n Beobachtungen präzisiert wird. Sei µ ∼ N (µ0 ; τ02 ) die Apriori–Verteilung und x1 , . . . , xn die Beobachtungen, dann ist Posteriori–Verteilung durch µ|x1 , . . . , xn ∼ N (µn ; τn2 ) mit µn = µ0 + (x̄ − µ0 ) τ02 σ 2 /n + τ02 und 1 1 n = 2+ 2 2 τn τ0 σ gegeben. Der Erwartungswert der Posteriori–Verteilung ist jetzt ein Kompromiss zwischen dem Erwartungswert der Apriori–Verteilung und dem Mittelwert der Beobachtungen. Ferner ist zu sehen, dass die Varianz mit zunehmender Anzahl von Beobachtungen kleiner wird. Mit Hilfe der Posteriori–Verteilung kann jetzt die prädiktive Verteilung beschrieben werden: Satz 10.8 Die prädiktive Verteilung einer Normalverteilung, deren Parameter µ ebenfalls normalverteilt ist, lautet: X̃ ∼ N (µn ; σ 2 + τn2 ) . Beispiel 10.15 Angenommen es liegt eine Apriori–Verteilung µ ∼ N (1; 4) vor und es werden zwei Beobachtungen gemacht: Beobachtung x 1 = 11 und x2 = −1. Sei ferner σ 2 = 8, dann erh¨alt man durch Berechnung der oben gegebenen Formeln für die Posteriori–Verteilung: µ|x ∼ N (3; 2) und die pr¨adiktive Verteilung ist: X̃ ∼ N (3; 10) . Im Fall der Normalverteilung ist es auch denkbar, dass der Parameter µ bekannt ist und die Varianz durch eine Verteilung beschrieben wird. Die konjugierte Verteilung der Varianz einer Normalverteilung (bei bekanntem Erwartungswert) ist die inverse χ 2 –Verteilung (siehe dazu Lee, 1997, Appendix A.5). Der Fall unbekannter Varianz ist kompliziert und wird daher im Rahmen dieser Veranstaltung nicht näher diskutiert. Für Interessierte sei auf Lee (1997, Kap. 2.7) oder Gelman et al. (1996, S. 46–48) verwiesen. 10.4 Bemerkungen zu konjugierten Verteilungen Bei den Bayes’schen Verfahren beschreibt die Apriori–Verteilung das Wissen eines ”Experten” über den Parameter. Die Verwendung der konjugierten Verteilung (wegen der einfachen mathematischen Handhabbarkeit) schränkt die Freiheit, seine Vorstellungen über den Parameter zu quantifizieren, ein. Somit ist es beispielsweise möglich, dass man weiß, dass ein Anteil π einer Grundgesamtheit größer ist als 0.1. Die konjugierte Verteilung für die Binomialverteilung ist die Betaverteilung, für die aber in jedem Fall P (π < 0.1) > 0 gilt. Mit anderen Worten gibt es keine Betaverteilung, die in der Lage ist, das Wissen über den Parameter korrekt wiederzugeben. 206 KAPITEL 10. BAYES’SCHE VERFAHREN Auf der anderen Seite sind die in der Praxis verwendeten konjugierten Verteilungen flexibel genug um eine Verteilung zu bestimmen, die sehr nah an den Apriori–Vorstellungen liegt. Findet man aber keine Verteilung zur Beschreibung des Parameterwissens, kann man die Bayes’schen Verfahren trotzdem anwenden, wenngleich damit ein höherer Rechenaufwand (Einsatz numerischer Verfahren) erforderlich wird. Im folgenden Beispiel wird das Vorgehen für diesen Fall erläutert. Beispiel 10.16 Betrachtet wird eine Binomialverteilung mit unbekannter Erfolgswahrscheinlichkeit π (beispielsweise ”Kauft ein Produkt”, ”besitzt ein Auto”,. . . ). Sei die Apriori–Verteilung durch f (π) = 100(π − 0.4) 0.4 ≤ π < 0.5 100(0.6 − π) 0.5 ≤ π ≤ 0.6 0 sonst 0 2 4 f(π) 6 8 10 gegeben. Die Dichte ist in Abbildung 10.11 dargestellt. 0.40 0.45 0.50 0.55 0.60 π Abbildung 10.11: Apriori-Verteilung von π (subjektive Vorstellung) Zur Pr¨azisierung der Apriorivorstellung wird nun eine Stichprobe der Größe n gezogen und die Anzahl der Erfolge sei mit x bezeichnet. (Die Stichprobe wurde mit Zurücklegen gezogen, so dass x als binomialverteilt betrachtet werden kann.) Unter diesen Bedingungen ist die Posteriori–Verteilung durch ! n x f (π|x) = c · π (1 − π)n−x f (π) x gegeben, wobei c eine Normierungskonstante darstellt, die gew¨ahrleistet, das die Fl¨ache unter der Posteriori–Verteilung eins ist. Man erh¨alt die Konstante durch Berechnung des Integrals 1/c = + 0.5 R 0.4 0.6 R 0.5 n x x π (1 n x x π (1 − π)n−x 100(π − 0.4)dπ − π)n−x 100(0.6 − π)dπ Die Berechnung des komplizierten Ausdrucks mit Hilfe der Standardregeln ist sehr aufwendig. Es gibt auch Situationen, in denen das entsprechende Integral gar nicht analytisch zu lösen ist. Man kann aber die Lösung mit Hilfe numerischer Methoden immer approximieren und somit die Posteriori– Verteilung bestimmen. Abbildung 10.12 zeigt die Posteriori–Verteilung für n = 100 und verschiedene 10.4. BEMERKUNGEN ZU KONJUGIERTEN VERTEILUNGEN 207 Beobachtungen: x = 50 (links), x = 40 (Mitte) und x = 20 (rechts). Zum Vergleich ist jeweils die Apriori–Verteilung gezeichnet. Zu beachten ist, dass die Posteriori–Verteilung nur den Bereich beschreibt, in dem auch die Aprioriverteilung definiert ist. Im Beispiels ist dies das Intervall [0.4,0.6]. Auch für x = 20 nimmt die Posteriori–Verteilung nur für diesen Bereich Werte größer null an. x=40 x=20 0.40 0.45 0.50 π 0.55 0.60 10 5 0 0 0 2 2 4 4 15 6 6 20 8 8 25 10 10 30 12 12 35 x=50 0.40 0.45 0.50 π 0.55 0.60 0.40 0.45 0.50 0.55 0.60 π Abbildung 10.12: Apriori-Verteilung und Posteriori–Verteilungen im Vergleich Komplizierter wird der Fall, wenn mehrere Parameter unbekannt sind (beispielsweise die Elemente der Kovarianzmatrix einer multivariaten Normalverteilung). Es ist dann notwendig Simulationen (sogenannte Monte Carlo–Methoden) anzuwenden, um die Normierungskonstante zu bestimmen. Ein kurzer Einblick hierzu findet sich bei Lee (1997, Kapitel 9). Eine detailliertere Beschreibung von Simulationsmethoden im Rahmen der Bayes’schen Verfahren ist beispielsweise bei Gamerman (1997) gegeben. Literatur BAMBERG , G. und BAUR , F. (1996): Statistik, 9. Auflage, Oldenbourg Verlag, München. B LISCHKE , W. R. (1978): Mixtures of Distributions. International Encyclopedia of Statistics. Herausgeber Kruskal und Tanur. The Free Press, New York. B ÖHNING , D. (1999:) Computer–Assisted Assisted Analysis of Mixtures and Applications, Chapman & Hall, Boca Raton et al. B ÖKER , F. (1998): P-values and Power of Tests. Erscheint im Erg¨anzungsband der Enyclopedia of Statistical Sciences, Herausgeber Johnson und Kotz. B ÖKER , F. und DANNENBERG , O. (1995): Was könnnen P-Werte über die Güte von Prüfgrößen in vergleichenden Simulationsstudien aussagen? Allg. Statistisches Archiv 79, 233-251. B ÖKER , F. und DANNENBERG , O. (1996): Explorative Data Analysis for a Comparison of Statistical Test Procedures. In SoftStat’95, Advances in Statistical Software 5, Herausgeber F. Faulbaum und W. Bandilla, Lucius & Lucius, Stuttgart, 97-104. B ÖKER , F. (1997): S-PLUS, Learning by Doing, Eine Anleitung zum Arbeiten mit S-PLUS. Lucius & Lucius, Stuttgart. E VERITT, B. S. und H AND , D. J. (1981): Finite Mixture Distribution. Chapman and Hall, London. FAHRMEIR , L., K ÜNSTLER , R., P IGEOT, I. und T UTZ , G. (1997): Statistik, Der Weg zur Datenanalyse, Springer, Berlin, Heidelberg. F RENCH , S. und S MITH , J.Q. (1997): The Practice of Bayesian Analysis, Arnold, London. G AMERMAN D. (1997): Markov Chain Monte Carlo, Chapman & Hall, London. G ELMAN A. et al. (1995): Bayesian Data Analysis, Chapman & Hall, London. H ARTUNG , J. (1993): Statistik, 9. Auflage, Oldenbourg Verlag, München. J OBSON , J. D. (1992): Applied Multivariate Data Analysis, Volume II: Categorical and Multivariate Methods, Springer Verlag, New York. J OHNSON , N. L., KOTZ , S. und K EMP, A. W. (1992): Univariate Discrete Distributions, Second Edition, Wiley, New York. J OHNSON , N. L., KOTZ , S. und BALAKRISHNAN , N. (1994): Continuous Univariate Distributions, Volume 1, Second Edition, Wiley, New York. J OHNSON , N. L., KOTZ , S. und BALAKRISHNAN , N. (1995): Continuous Univariate Distributions, Volume 2, Second Edition, Wiley, New York. 208 Literatur 209 KOTZ , S. und J OHNSON , N. L. (1982-88): Encyclopedia of Statistical Sciences, Volumes 1-9, Wiley, New York. K RAUSE , A. (1997): Einführung in S und S-PLUS, Springer Verlag, Berlin. L EE , M.L.. (1997): Bayesian Statistics — An Introduction, second edition, Arnold, London. S CHLITTGEN , R. (1996a): Einführung in die Statistik, Analyse und Modellierung von Daten, 6. Auflage, Oldenbourg, München. S CHLITTGEN , R. (1996b): Statistische Inferenz, Oldenbourg, München. S PECTOR , P. (1994): An Introduction to S and S-Plus. Duxberry-Press, Belmont. S TUART, A. und O RD , J. K. (1994): Kendalls Advanced Theory of Statistics, Volume 1, Sixth Edition, Arnold, London. S ÜSELBECK , B. (1993): S und S-PLUS, Gustav Fischer, Stuttgart. S YDSÆTER , K. und H AMMOND , P. (2003): Mathematik für Wirtschaftswissenschaftler, Basiswissen mit Praxisbezug, Pearson Studium, München. V ENABLES , W. N. und R IPLEY, B. D. (1994): Modern Applied Statistics with S-Plus. Springer Verlag, New York W ICKMANN D. (1990): Bayes–Statistik — Einsicht gewinnen und Entscheiden bei Unsicherheit, B I Wissenschaftsverlag, Mannheim. Z UCCHINI , W., N EUMANN , K. und S TADIE , A. (2000): Einführung in R, Institut für Statistik und Ökonometrie, Göttingen. Z UCCHINI , W. und S TADIE , A. (1999): Verallgemeinerte Lineare Modelle, Skript zur Vorlesung ”Einige Methoden der angewandten Statistik”, Institut für Statistik und Ökonometrie, Göttingen. Index B(α, β), 53 Be(α; β), 53 Ber(π), 60 Exp(λ), 48 F (ν1 , ν2 ), 85 G(ν; λ), 39 Ge(π), 64 N (0, 1), 30 N (µ; σ 2 ), 30 N B(r; π), 66 P o(λ), 70 U (a; b), 23 Γ(ν), 38 Λ(µ; σ 2 ), 87 χ2n , 45 ∼, ˙ 36 ∼, 23 b(n; π), 61 tν , 82 Parameter, 176 Verteilungsfunktion, 177 Wahrscheinlichkeitsfunktion, 176, 177 Betafunktion, 53 Betaverteilung, 53, 192, 201 Anwendungen, 58 Dichtefunktion, 53 Erwartungswert, 54 Parameter, 53 R-Befehle, 58 Varianz, 54 Bias, 151 Binomialkoeffizient, 64 Binomialverteilung, 58, 61, 74, 76, 77, 201 Erwartungswert, 61 Parameter, 61 R-Befehle, 63 Varianz, 61 Wahrscheinlichkeitsfunktion, 61 Black-Scholes-Formel, 37 Brownsche Bewegung, 37 Anpassungstest, 46 Anzahl der Erfolge, 63 Apriori-Dichtefunktion, 191 Apriori-Verteilung, 58, 191 Arcus-Sinus-Verteilung, 58 verallgemeinerte, 58 Ausfallzeit, 167 Chiquadratverteilung, 44, 80, 81, 86 Anwendungen, 45 Dichtefunktion, 45 Erwartungswert, 45 Freiheitsgrade, 45 Gestalt, 45 Parameter, 45 R-Befehle, 47 Varianz, 45 zentrale, 47 Cramér-rao-Schranke, 159 Bayes Theorem von, 186, 187 Bayes’sche Verfahren, 69, 186, 190 bedingte Verteilung, 110 bedingte Wahrscheinlichkeit, 187 Bernoulli-Verteilung, 60, 74, 75 Anwendungen, 61 Erwartungswert, 61 Parameter, 60 Schätzung, 144 Varianz, 61 Wahrscheinlichkeitsfunktion, 60 Beta-Binomialverteilung, 58, 173, 201 Dichtefunktion, 3, 9 bedingte, 111, 128 gemeinsame, 92, 111, 125 diskret, 1, 90 diskrete Mischung diskreter Verteilungen, 160 stetiger Verteilungen, 166 210 Index effizient, 158 effizienter, 158 Effizienz, 158 Eigenvektor, 138 Eigenwert, 138 Erfolg, 60, 74 Erfolgswahrscheinlichkeit, 61 Ergebnismenge Zerlegung, 186 Erlangverteilung, 44 erwartungstreu, 132, 150 asymptotisch, 151 Erwartungswert, 12, 102, 126 als endgültiger Mittelwert, 14, 17 als Schwerpunkt, 13, 16 bedingter, 114 einer diskreten ZV, 12 einer Funktion der ZV, 17, 18 einer Konstanten, 19 einer stetigen ZV, 15 einer Summe, 19 Interpretation, 13 Rechenregeln, 19, 102 Exponentialverteilung, 7, 9, 11, 40, 47, 79 Anwendungen, 50 Dichtefunktion, 47 alternative Darstellung, 48 Erwartungswert, 49 Parameter, 47 Schätzung, 143 R-Befehle, 52 Varianz, 49 Verteilungsfunktion, 28, 49 Umkehrfunktion, 29 F-Test, 86 Prüfgröße, 47, 86 F-Verteilung, 47, 85, 86 Dichtefunktion, 85 Parameter, 85 R-Befehle, 86 zentrale, 86 fair, 1 Fehler, 152 Fisher, 144 Formel der totalen Wahrscheinlichkeit, 187 Freiheitsgrade, 82, 85 211 Gammafunktion, 38, 39 Gammaverteilung, 38, 79, 80, 197, 202 Anwendungen, 42 Dichtefunktion, 39 Erwartungswert, 40 Gestalt, 41 Parameter, 39 Schätzung, 143 R-Befehle, 41 Varianz, 40 Gemeinsame Verteilung, 90 2 Zufallsvariablen , 90 Geometrische Verteilung, 64, 75 Parameter, 64 R-Befehle, 66 Varianz, 64 Wahrscheinlichkeitsfunktion, 64 Glättung, 169 Gleichverteilung, 23 Häufigkeitstabellen, 70 Höhenlinien, 105 Hypothese über Erwartungswert, 84 über Erwartungswerte in Gruppen, 86 über Varianz, 45, 82 Hypothesentest, 27 Jungengeburten, 174 Konfidenzintervall, 84 konjugierte Verteilung, 58, 192, 196, 205 Konsistenz, 155 im quadratischen Mittel, 155 schwache, 156 starke, 156 Kontingenztafeln, 46 Korrelationskoeffizient, 105, 119 Korrelationsmatrix, 129 Kovarianz, 104 Interpretation, 105 Rechenregel, 104 Kovarianzmatrix, 128, 131 Lageparameter, 30 Lebensdauer, 50 Likelihoodfunktion, 145 für Mischverteilungen, 179 212 Lineare Kongruenz-Methode, 28 Lineare Modelle, 47 Linearkombinationen, 134 Loglikelihoodfunktion, 146 Maximum, 146 Lognormalverteilung, 87 Anwendungen, 89 Dichtefunktion, 87 Erwartungswert, 89 R-Befehle, 89 Varianz, 89 Verteilungsfunktion, 87 Lotze, R. H., 144 Münzwurf, 1, 12, 144 Wahrscheinlichkeitsfunktion, 1 Markoffsche Eigenschaft, 50, 66 Maximum-Likelihood-Methode, 144 Maximum-Likelihood-Schätzer, 37, 144 Methode der Momente, 142 Mischverteilungen, 69, 160 Erwartungswert, 163 Momente, 163 Negative Binomialverteilung, 177 Varianz, 164 Misserfolg, 60, 74 Mittelwertpfad, 14 mittlerer quadratischer Fehler, 154 Moment um den Erwartungswert, 20 gemeinsames, 102, 103 um Erwartungswert, 103 k-tes, 19 zentrales, 20 zentriertes, 20 Momente, 19 gemeinsame, 127 MQF-wiksamer, 158 negative Binomialverteilung, 66, 75, 77, 203 Erwartungswert, 68 Parameter, 66 R-Befehle, 69 Varianz, 68 Wahrscheinlichkeitsfunktion, 66 Nichtzentralitätsparameter, 47, 84, 86 Normalverteilung, 29, 77–80, 82, 85, 87, 204 Bedeutung, 35 Index bivariate, 105, 119, 130 bedingte Verteilungen, 121 Dichtefunktion, 119 Höhenlinien, 120 Parameter, 119 R-Befehle, 122 Randverteilungen, 121 Standardform, 120 Dichtefunktion, 29 Erwartungswert, 33 Likelihoodfunktion, 148 Loglikelihoodfunktion, 148 multivariate bedingte Vert., 140 Randverteilungen, 140 p-dimensionale, 130 Definition, 137 Dichtefunktion, 130 Parameter, 130 Schätzer, 132 Parameter, 29 Schätzung, 143, 148 R-Befehle, 37 singuläre, 137 Standard, 30, 137 Varianz, 33 Verteilungsfunktion, 32 Ökonometrie, 47 orthonormiert, 138 P-Wert, 27 Verteilung unter der Nullhypothese, 27 Parameter scale, 41 Schätzung, 142 Schätzung für Mischungen, 179 Schätzung mit C.A.MAN, 182 shape, 41 partielle Integration, 35 Poissonprozess, 42, 51, 70, 72 Definition, 51 Intensität, 73 räumlicher, 70 Wartezeit, 42 Zeit zwischen Ereignissen, 51 Poissonverteilung, 69, 70, 76, 78, 197, 202 Anwendungen, 70 Approximation Index der Binomialverteilung, 70 durch Normalverteilung, 70 Erwartungswert, 70 Likelihoodfunktion, 147 Loglikelihoodfunktion, 147 Parameter, 70 Schätzung, 143, 146 R-Befehle, 73 Varianz, 70 Wahrscheinlichkeitsfunktion, 70 positiv definit, 137 Posteriori-Verteilung, 192 prädiktive Verteilung, 69, 200 Prüfgröße, 27 asymptotische Verteilung, 27 Pseudo-Zufallszahlen, 28 R-Befehl beta, 53 choose, 64 contour, 105, 123 dbbinom, 177 dbeta, 59 dbinom, 63 dbnorm, 122 dchisq, 47 density, 170 dexp, 52 df, 86 dgamma, 41 dgeom, 66 dlnorm, 89 dnbinom, 69 dnorm, 37 dpois, 73 dt, 84 dunif, 29 gamma, 39 image, 105, 123 pbbinom, 177 pbeta, 59 pbinom, 64 pchisq, 47 persp, 122 pexp, 53 pf, 86 pgamma, 42, 44 pgeom, 66 213 plnorm, 89 pnbinom, 69 pnorm, 37 ppois, 73 pt, 84 punif, 29 qbeta, 59 qbinom, 64 qchisq, 47 qexp, 53 qf, 87 qgamma, 42 qgeom, 66 qlnorm, 89 qnbinom, 69 qnorm, 38 qpois, 73 qt, 84 qunif, 29 rbeta, 59 rbinom, 64 rbnorm, 122 rchisq, 47 rexp, 53 rf, 87 rgamma, 42 rgeom, 66 rlnorm, 89 rnbinom, 69 rnorm, 38 rpois, 73 rt, 84 runif, 29 s3bnormpersp.fun, 122 s3bormcon.fun, 123 Randdichtefunktion, 97, 108, 112, 127 random walk, 58 Randverteilungsfunktion, 127 Randwahrscheinlichkeitsfunktion, 92, 127 Rechenregeln für Erwartungswerte, 19 Rechteckverteilung, 23 Dichtefunktion, 23 empirische Verteilungsfunktion, 26 Erwartungswert, 24 Histogramm, 26 Likelihoodfunktion, 149 Parameter, 23 214 Schätzung, 149 R-Befehle, 29 Standardform, 23 Varianz, 24 Verteilungsfunktion, 23 Regressionsanalyse, 86, 133 relative Häufigkeit, 190 Rendite, 172 robust, 37 scale-Parameter, 41 Schätzer Bias, 151 Eigenschaften, 150 erwartungstreuer, 150 Fehler, 152 Standardabweichung, 152 Standardfehler, 152 Streuung, 152 Schätzfunktion, 150 Schätzmethoden, 142 shape-Parameter, 41 Siginifikanzniveau Einhaltung des, 27 Standardabweichung, 22, 152 Standardfehler, 152 Standardnormalverteilung, 30 Verteilungsfunktion, 31 Standardrechteckverteilung, 23 stetig, 3, 90 stetige Mischung, 177 diskreter Verteilungen, 173 Stichprobenmoment, 142 Stochastischer Prozess, 37 Streuung, 22 einer Konstanten, 22 Streuungsmaß, 22 Streuungsparameter, 31 Substitution, 32, 34 Summe der Quadrate, 82, 86 Summe der Quadrate Gruppen, 86 Summe der Quadrate Rest, 86 Summe von Quadraten, 46 Summen und Linearkombinationen, 134 t-Test Prüfgröße, 84 t-Verteilung, 82 Dichtefunktion, 82 Index Erwartungswert, 82 Parameter, 82 R-Befehle, 84 zentrale, 84 totale Wahrscheinlichkeit, 187 Tschebyscheffsche Ungleichung, 157 Überlebenszeitfunktion, 52 überschätzen, 150 unabhängig, 127 Unabhängigkeit, 98, 110, 116, 131 Unabhängigkeitstest, 46 Uniform, 23 unkorreliert, 105 Unkorreliertheit, 131 unterschätzen, 150 Varianz, 20, 103 bedingte, 115 Berechnung, 20 Rechenregeln, 21 Schätzer, 46 Varianzanalyse, 46, 82, 86 Verteilung χ2 nichtzentrale, 140 identische, 23 konjugierte, 192, 196, 205 ohne Gedächtnis, 51, 65 prädiktive, 200 seltener Ereignisse, 77 Verteilungen diskrete, 60 stetige, 23 Verteilungsfunktion, 6 Eigenschaften, 9 einer diskreten ZV, 6, 8 einer stetigenm ZV, 6 gemeinsame, 99, 126 Wahrscheinlichkeit, 3 bedingte, 187 Interpretation klassisch, 190 subjektive, 190 totale, 187 Wahrscheinlichkeitsfunktion, 1, 9 bedingte, 110, 128 Eigenschaften, 3 Index gemeinsame, 91, 110, 125 Eigenschaften, 91 Wiener-Prozess, 37 wirksamer, 158 wirksamst, 158 Zähldaten, 70 Zentraler Grenzwertsatz, 36, 77, 79, 80 zentrales Moment, 20 zentriertes Moment, 20 Zerlegung, 186 Zufallsvariable diskrete, 1 Erwartungswert, 12 Standardabweichung, 22 stetige, 3, 125 Streuung, 22 Varianz, 20 Verteilung, 1 Verteilungsfunktion, 6 Zufallsvariablen p-dimensionale, 125 Zufallszahlen Erzeugung, 28 exponentialverteilter, 28 Erzeugung von, 23 215 Formeln Kapitel 1: Zufallsvariablen und ihre Verteilung Diskret: PX (x) = P ({X = x}) FX (t) = P ({X ≤ t}) t ∈ IR P Diskret: FX (t) = x≤t PX (x) Stetig: P ({a ≤ X ≤ b}) = Stetig: FX (t) = Rt −∞ Rb a fX (x)dx a≤b fX (x)dx Stetig: fX (x) = FX0 (x) Diskret: PX (x) = FX (x) − lim h→0 FX (x − h) h>0 P ({a < X ≤ b}) = FX (b) − FX (a) Kapitel 2: Erwartungswert Diskret: EX = P x xPX (x) Diskret: EH(X) = P x Stetig EX = ∞ R −∞ H(x)PX (x) xfX (x)dx Stetig: EH(X) = ∞ R −∞ H(x)fX (x)dx Ec = c EcH(X) = cEH(X) E(H(X) + G(X)) = EH(X) + EG(X) µ0k = EX k µk = E(X − µ)k 2 µ2 = σ X = E(X − EX)2 = V ar(X) = EX 2 − (EX)2 V ar(c) = 0 V ar(cX) = c2 V arX V ar(X + c) = V arX Kapitel 3: Stetige Verteilungen Rechteckverteilung: X ∼ U (a; b) fX (x) = ( 1 b−a 0 für a ≤ x ≤ b FX (t) = sonst . 0 für für für t−a b−a 1 t<a a≤t≤b t>b. (b−a)2 12 b+a 2 EX = V ar(X) = dunif(x, min=0, max=1) punif(q, min=0, max=1) qunif(p, min=0, max=1) runif(n, min=0, max=1) Normalverteilung: X ∼ N (µ; σ 2 ) −∞<µ<∞ σ2 > 0 2 2 1 fX (x) = √2πσ2 e−(x−µ) /2σ −∞<x<∞ X ∼ N (0; 1) FX (x) = Φ(x) = f (z)dz = −∞ Rx −∞ 2 √1 e−z /2 dz 2π X ∼ N (µ; σ ) =⇒ Z = ∼ N (0, 1) FX (x) = Φ x−µ −∞<x<∞ σ EX = µ V ar(X) = σ X̄n√ −µ ∼N ˙ (0; 1) E X̄n = µ und V ar X̄n = σ 2 /n σ/ n dnorm(x, mean=0, sd=1) pnorm(q, mean=0, sd=1) qnorm(p, mean=0, sd=1) rnorm(n, mean=0, sd=1)] R∞ ν−1 −t Gammaverteilung: Γ(ν) = t e dt Γ(1) = 1 Γ(n) = (n − 1)! 2 X−µ σ 2 Rx 0 216 Formeln 217 X ∼ G(ν;λ) ν > 0 und λ > 0 G(1; λ) ≡ Exp(λ) ν ν−1 −λx e λ x x≥0 Γ(ν) fX (x) = EX = ν/λ V ar(X) = ν/λ2 0 sonst . dgamma(x, shape,scale=1) pgamma(q, shape,scale=1) qgamma(p, shape,scale=1) rgamma(n, shape,scale=1) scale = 1/λ Xi ∼ Exp(λ) =⇒ ν P i=1 Xi ∼ G(ν; λ) Chiquadratverteilung: X ∼ χ2n EX = n V ar(X) = 2n Xi ∼ N (µ; σ 2 ) S2 = 1 n n P i=1 n ∈ IN (Xi − X̄)2 χ2n ≡ G(n/2; 1/2) =⇒ nS 2 σ2 ∼ χ2n−1 dchisq(x, df) pchisq(q, df, ncp=0) qchisq(p, df) rchisq(n, df) Exponentialverteilung: X ∼ Exp(λ) λ > (0 Exp(λ) ≡ G(1; λ) ( −λx λe 0≤x<∞ 0 für t<0 f (x) = F (t) = 0 sonst 1 − e−λt für t≥0. 1 1 EX = λ V ar(X) = λ2 dexp(x, rate=1) pexp(q, rate=1) qexp(p, rate=1) rexp(n, rate=1) Betaverteilung: X ∼ Be(α; β) α>0 und β>0 ( xα−1 (1−x)β−1 R1 0≤x≤1 B(α,β) B(α, β) = tα−1 (1 − t)β−1 dt = Γ(α)Γ(β) fX (x) = Γ(α+β) 0 sonst 0 α E(X) = α+β V arX = (α+β)2αβ (α+β+1) dbeta(x, shape1, shape2) pbeta(q, shape1, shape2) qbeta(p, shape1, shape2) rbeta(n, shape1, shape2) Kapitel 4: Diskrete Verteilungen Bernoulli-Verteilung: X ∼ Ber(π) 0<π<1 1 − π für x = 0 π für x = 1 PX (x) = EX = π V ar(X) = π(1 − π) 0 sonst . Binomialverteilung: X ∼ b(n; π) n ∈ IN 0<π<1 ( n x n−x π (1 − π) x = 0, 1, 2, ..., n x PX (x) = EX = nπ V ar(X) = nπ(1 − π) 0 sonst dbinom(x, size, prob) pbinom(q, size, prob) qbinom(p, size, prob) rbinom(n, size, prob) Geometrische Verteilung: X ∼ Ge(π) 0<π<1 ( x (1 − π) π x = 0, 1, 2, ... PX (x) = EX = 1−π V arX = 1−π π π2 0 sonst dgeom(x, prob) pgeom(q, prob) qgeom(p, prob) rgeom(n, prob) Negative ( Binomialverteilung: X ∼ N B(r; π) r ∈ IN 0<π<1 x+r−1 r x π (1 − π) x = 0, 1, 2, . . . r−1 PX (x) = EX = r 1−π V ar(X) = r 1−π π π2 0 sonst dnbinom(x, size, prob) pnbinom(q, size, prob) qnbinom(p, size, prob) rnbinom(n, size, prob) Poissonverteilung: λ>0 ( x −λ X ∼ P o(λ) λ e x = 0, 1, 2, ... x! PX (x) = EX = λ V arX = λ 0 sonst. 218 Formeln dpois(x, lambda) ppois(q, lambda) qpois(p, lambda) rpois(n, lambda) Kapitel 5: Beziehungen zwischen Verteilungen Xi ∼ Ber(π) unabhängig =⇒ X = n P Xi ∼ b(n; π) i=1 Xi ∼ b(ni ; π) i = 1, 2 unabhängig =⇒ X1 + X2 ∼ b(n1 + n2 ; π) Ge(π) ≡ N B(1; π) Xi ∼ Ge(π) unabhängig =⇒ X = r P i=1 Xi ∼ N B(r; π) Xi ∼ N B(ri ; π) i = 1, 2 unabhängig =⇒ X1 + X2 ∼ N B(r1 + r2 ; π) X ∼ b(n; π) mit π ,,klein” und n ,,groß” =⇒ X ∼P ˙ o(λ) mit λ = nπ 2 X ∼ b(n; π) mit n ,,groß” =⇒ X ∼N ˙ (µ; σ ) mit µ = nπ σ 2 = nπ(1 − π) X ∼ N B(r; π) mit r ,,groß” =⇒ X ∼N ˙ (µ; σ 2 ) mit µ = r(1 − π)/π σ 2 = r(1 − π)/π 2 Xi ∼ P o(λi ) unabhängig =⇒ X1 + X2 ∼ P o(λ1 + λ2 ) X ∼ P o(λ) mit λ ,,groß” =⇒ X ∼N ˙ (µ; σ 2 ) mit µ = λ σ 2 = λ Xi ∼ Exp(λ) =⇒ ν P i=1 Xi ∼ G(ν; λ) X ∼ G(ν; λ) mit ν ,,groß” =⇒ X ∼N ˙ (µ; σ 2 ) mit µ = ν/λ σ 2 = ν/λ2 Xi ∼ G(νi ; λ) unabhängig =⇒ X1 + X2 ∼ G(ν1 + ν2 ; λ) Xi ∼ χ2ni unabhängig =⇒ X1 + X2 ∼ χ2n1 +n2 X ∼ χ2n mit n ,,groß” =⇒ X ∼N ˙ (µ; σ 2 ) mit µ = n σ 2 = 2n Xi ∼ N (µ; σ 2 ) unabhängig =⇒ X = n P Xi ∼ N (µi ; σi2 ) unabhängig =⇒ X = Xi ∼ N (0, 1) unabhängig =⇒ X = 2 Xi ∼ N (µ; σ ) unabhängig X̄ = 1 n n P i=1 n P Xi ∼ N ( Xi2 ∼ χ2n i=1 i=1 Xi ∼ N (nµ; nσ 2 ) i=1 n P Xi S2 = 1 n n P i=1 n P i=1 t-Verteilung: X ∼ tν ν ∈ IN EX = 0 X1 ∼ N (0; 1), X2 ∼ χ2 (ν) unabhängig =⇒ √X1 1 n−1 n P i=1 n P i=1 =⇒ nS 2 σ2 ∼ χ2 (n−1) ∼ t(ν) X̄−µ √ S∗ / n (Xi − X̄)2 σi2 ) (Xi − X̄)2 X2 /ν Xi ∼ N (µ; σ 2 ) unabhängig S∗2 = µi ; ∼ tn−1 dt(x, df) pt(q, df, ncp=0) qt(p, df) rt(n, df) F-Verteilung: X ∼ F (ν1 ; ν2 ) νi ∈ IN, i = 1, 2 1 /ν1 Xi ∼ χ2νi =⇒ X ∼ F (ν1 ; ν2 ) X2 /ν2 df(x, df1, df2) pf(q, df1, df2, ncp=0) qf(p, df1, df2) rf(n, df1, df2) Lognormalverteilung:: X ∼ Λ(µ; σ 2 ) ∞ < µ < ∞ σ 2 > 0 2 2 √1 e−(log x−µ) /2σ x > 0 2 f (x) = x 2πσ FX (x) = Φ log σx−µ 0 sonst 2 X ∼ Λ(µ; σ ) =⇒ log X ∼ N (µ; σ 2 ) Y ∼ N (µ; σ 2 ) =⇒ eY ∼ Λ(µ; σ 2 ) µ+σ 2 /2 2µ σ 2 σ 2 EX = e V ar(X) = e e (e − 1) dlnorm(x, meanlog=0, sdlog=1) plnorm(q, meanlog=0, sdlog=1) qlnorm(p, meanlog=0, sdlog=1) rlnorm(n, meanlog=0, sdlog=1) Kapitel 6: Gemeinsame Verteilung von Zufallsvariablen PXY (x, y) = P ({X = x, Y = y}) PX (x) = P y PXY (x, y) PY (y) = P x PXY (x, y) Formeln 219 P ({a ≤ X ≤ b; c ≤ Y ≤ d}) = fX (x) = ∞ R −∞ fXY (x, y)dy Diskret: FXY (x, y) = fXY (x, y) = ∂2 F ∂x∂y XY Rb Rd a c fY (y) = P P s≤x t≤y ∞ R −∞ c≤d fXY (x, y)dx FXY (x, y) = P ({X ≤ x; Y ≤ y}) PXY (s, t) Stetig: FXY (x, y) = (x, y) PP x y H(x, y)PXY (x, y) R∞ R∞ H(x, y)fXY (x, y)dydx EH(X, Y ) = a≤b fXY (x, y)dy dx Rx Ry −∞ −∞ fXY (s, t)dt ds X und Y diskret Xund Y stetig −∞ −∞ E(cH(X, Y )) = cEH(X, Y ) E[(H(X, Y ) + G(X, Y )] = EH(X, Y ) + EG(X, Y ) µ0rs = EX r Y s µrs = E(X − µX )r (Y − µY )s µ11 = Cov(X, Y ) = σXY = E(X − µX )(Y − µY ) = EXY − EX · EY ρXY = σσXXY = √ cov(X,Y ) −1 ≤ ρXY ≤ 1 σY V ar(X)V ar(Y ) PXY (x,y) PX|Y (x|y) PX (x) (x,y) (x,y) (x,y) = PXY fY |X (y|x) = fXY fX|Y (x|y) = fXY PY |X (y|x) = PY (y) fX (x) fY (y) Unabhängigkeit: PXY (x, y) = PX (x)PY (y) fXY (x, y) = fX (x)fY (y) Bivariate Normalverteilung: (X1, X2 ) ∼ N(µ1 , µ2 , σ12 , σ22 , ρ) x1 −µ1 2 x1 −µ1 x2 −µ2 x2 −µ2 2 1√ 1 fX1 X2 (x1 , x2 ) = exp − 2(1−ρ2 ) − 2ρ σ + σ σ σ 1−ρ2 2πσ1 σ2 N (µ1 ; σ12 ) 1 1 2 2 N (µ2 ; σ22 ) X1 ∼ X2 ∼ X1 |X2 = x2 ∼ N (µ1 + ρσ1 (x2 − µ2 )/σ2 ; σ12 (1 − ρ2 )) X2 |X1 = x1 ∼ N (µ2 + ρσ2 (x1 − µ1 )/σ1 ; σ22 (1 − ρ2 )) Kapitel 7: P-dimensionale Zufallsvariablen Die p-dimensionale Normalverteilung: X ∼ N (µ; Σ) t −1 1 √ fX1 X2 ...Xp (x1 , x2 , . . . , xp ) = e−(x−µ) Σ (x−µ)/2 p/2 (2π) det (Σ) Summen und Linearkombinationen von Zufallsvariablen: S = X1 + X2 + . . . Xn = 1t X L = a 1 X1 + a 2 X2 + . . . a n Xn = a t X n n n P n P P P E(S) = µi V ar(S) = σi2 + σij i=1 E(L) = X̄n = 1 n n P i=1 n P i=1 V ar X̄n = = σ 2 /n i=1 i=1j=1 i6=j a i µi = a t µ V ar(L) = Xi = n1 1t X E X̄n = 1 n2 n P i=1 σi2 + 1 n2 n P n P i=1j=1 i6=j ai ∈ IR 1 n σij = n P i=1 a2i σi2 + n P µi = i=1 n 1 P 2 σi n2 i=1 n P n P i=1j=1 i6=j ai aj σij = at Σa µ falls Xi identisch verteilt falls Xi unabhängig falls Xi unabh. und identisch verteilt Kapitel 8: Sch¨ atzung von Parametern m0k = 1 n n P i=1 xki L(θ) = n Q i=1 f (xi ; θ) bzw. = q n Q i=1 P (xi ; θ) Bias(θ̂) = E θ̂ − θ SF(θ̂) = Var(θ̂) MQF(θ̂) = E(θ̂ − θ)2 = Var(θ̂) + (Bias(θ̂))2 Konsistenz im quadratischen Mittel: lim M QF (θ̂) = 0 n→∞ Schwache Konsistenz: lim P (|θ̂ − θ| < ) = 1 n→∞ Ungleichung von Tschebyscheff: P (|X − µ| ≥ c) ≤ Kapitel 9: Mischverteilungen σ2 c2 220 Formeln P (x) = I P i=1 µ0k = I P i=1 ri Pi (x) ri µ0k (i) 0 ≤ ri ≤ 1 I P i=1 ri = 1 f (x) = I P i=1 ri fi (x) I = 2 : σ 2 = r1 σ 2 (1) + r2 σ 2 (2) + r1 r2 (µ(1) − µ(2))2 Beta-Binomialverteilung: n ∈ IN α > 0 β > 0 ( n B(x+α,n+β−x) x = 0, 1, . . . , n x B(α,β) P ({X = x}) = 0 sonst . Kapitel 10: Bayes’sche Verfahren P (A) = k P i=1 P (A|Bi ) · P (Bi ) P (A|Bj )P (Bj ) P (Bj |A) = P k f (y|x) = R∞ f (x|y)f (y) f (x|y)f (y)dy P (A|Bi )P (Bi ) −∞ i=1 f (θ; x) = f (x|θ)f (θ) f (θ|X = x) = R∞ f (x|θ)f (θ) f (y|X = x) = R∞ P ({X=x}|y)f (y) f (x|θ)f (θ)dθ −∞ f (θ|X = x) = R∞ P (x|θ)f (θ) P (x|θ)f (θ)dθ −∞ (X diskret) P ({X=x}|y)f (y)dy −∞ (X stetig)