§23 Die Normalverteilung ô Unter aller Verteilung tritt die Normalverteilung in den Anwendungen am häufigsten auf. Der Grund dafür ist der zentrale Grenzverteilungssatz. Wir werden diesen zentralen Grenzverteilungssatz und seine Auswirkungen im Detail diskutieren und uns anschließend ausführlich mit der Normalverteilung und ihren zahlreichen Anwendungen befassen. Mit der Normalverteilung sind eine Reihe von Verteilungen eng verbunden, welche vor allem in der Statistik eine große Rolle spielen. Es handelt sich dabei um die Chi-Quadrat Verteilung, die Student T Verteilung und die Fisher F Verteilung. Wir werden diese Verteilungen sowie die zu diesen Verteilungen führenden Transformationen ausführlich besprechen und damit bereits viel Vorarbeit für im Rahmen der Statistik durchzuführende Berechnungen leisten. Darüber hinaus befassen wir uns in diesem Kapitel auch mit der Multinormalverteilung, welche ein natürliches mehrdimensionales Analogon zur Normalverteilung darstellt. 23.1 Der zentrale Grenzverteilungssatz Der zentrale Grenzverteilungssatz besagt, dass die Summe einer großen Anzahl von vollständig unabhängigen und identisch verteilten, quadratisch integrierbaren Zufallsvariablen annähernd normalverteilt ist. Bevor wir diesen Satz exakt formulieren, wollen wir ihn an einigen Spezialfällen veranschaulichen: 23.1.1 Bemerkung: In Beispiel 20.4.8 haben wir gezeigt, dass sich die @n, pD-Verteilung für große n durch n p H1 - pL approximieren lässt. Dieses Ergebnis lässt sich auch folgendermaßen interpretieren: Sind die Zufallsvariablen X1 , X2 , …, Xn vollständig unabhängig und identisch @1, pD-verteilt, so ist ihre bekanntlich @n, pD-verteilte Summe Zn = X1 + X2 + … + Xn die Normalverteilung mit den Parametern m = n p und s = annähernd @n p, n p H1 - pL D-verteilt. Wir erläutern die Auswirkungen dieser Erkenntnis an einigen Beispielen: 23.1.2 Beispiel: Eine homogene Münze wird n mal geworfen. Man bestimme die asymptotische Verteilung der Anzahl der Runs und berechne damit näherungsweise die Wahrscheinlichkeit dafür, dass bei n = 100 Würfen mehr als r = 55 Runs auftreten. ô Lösung: Die Zufallsvariable Xi sei gleich 1 bzw 0 je nachdem, ob beim i-ten Wurf ein Adler bzw eine Zahl erscheint. Ist g@x, yD = 1 - d x,y (wobei d x,y das Kroneckersymbol bezeichnet), so gilt für die Anzahl Zn der Runs Zn = 1 + g@X1 , X2 D + g@X2 , X3 D + … + g@Xn-1 , Xn D Nun sind aber die Zufallsvariablen g@X1 , X2 D, g@X2 , X3 D, …, g@Xn-1 , Xn D offensichtlich vollständig unabhängig und wegen @8g@Xk-1 , Xk D = 1<D = @8Xk-1 ∫ Xk <D = 1 ê2 identisch @1, 1 ê2D-verteilt. Ihre Summe ist daher @n - 1, 1 ê 2D-verteilt. Wegen Bemerkung 23.1.1 ist Zn für große n somit näherungsweise @m, sD-verteilt mit m = @Zn D = 1 + Hn - 1L ê 2 = Hn + 1L ê2 und s= @Zn D = Für die gesuchte Wahrscheinlichkeit @8Zn > r<D gilt damit näherungsweise Hn - 1L ê4 23_Die_Normalverteilung.nb 132 n = 100; r = 55; 1 - CDF@NormalDistribution@Hn + 1L ê 2, Sqrt@Hn - 1L ê 4DD, rD êê N Clear@n, rD 0.182856 23.1.3 Beispiel: An einer Wahl zwischen zwei Kandidaten A und B nehmen n = 1 000 000 Wähler teil. Davon kennen a = 2000 Wähler den Kandidaten A aus Wahlkampfveranstaltungen und stimmen geschlossen für ihn. Die übrigen Wähler sind mehr oder weniger unentschlossen und treffen ihre Entscheidung unabhängig voneinander durch Werfen einer Münze. Wie groß ist die Wahrscheinlichkeit p für einen Sieg von Kandidat A? ô Lösung: Die Zufallsvariable Xi sei gleich 1 bzw 0 je nachdem, ob der i-te unentschlossene Wähler Kandidat A bzw Kandidat B wählt. Die Anzahl Zn-a = X1 + X2 + … + Xn-a der unentschlossenen Wähler, welche für Kandidat A stimmen ist daher @Hn - aL, 1 ê2D-verteilt und damit annähernd @Hn - aL ê2, Hn - aL ê4 D-verteilt. Für die von uns gesuchte Wahrscheinlichkeit p = @8Zn-a > 498 000<D gilt somit näherungsweise n = 1 000 000; a = 2000; s = 498 000; 1 - CDF@NormalDistribution@Hn - aL ê 2, Sqrt@Hn - aL ê 4DD, sD êê N Clear@n, a, sD 0.977358 23.1.4 Beispiel: Die Wahrscheinlichkeit @AD eines Ereignisses A lässt sich bekanntlich durch die relative Häufigkeit @AD approximieren, wobei die folgende Faustregel gilt: "Soll der Fehler kleiner als 10-k sein, so sind dazu etwa n = 10 2 k Wiederholungen erforderlich." Wir wollen diese Faustregel nun wahrscheinlichkeitstheoretisch begründen und fragen dazu: "Wie oft muss ein Zufallsexperiment unabhängig wiederholt werden, um mit einer vorgegebenen Wahrscheinlichkeit p sicher zu stellen, dass sich die relative Häufigkeit @AD eines Ereignisses von der Wahrscheinlichkeit @AD dieses Ereignisses um weniger als ¶ unterscheidet?" ô Lösung: Die Zufallsvariable Xi sei gleich 1 bzw 0 je nachdem, ob beim i-ten Versuch das Ereignis A eintritt bzw nicht eintritt. Ihre Summe X1 + X2 + … + Xn ist daher @n, @ADD-verteilt und somit für große n näherungsweise @n @AD, n @AD H1 - @ADL D-verteilt. Aus dem Satz über die affine Transformation von Normalverteilungen folgt damit @8 @AD - @AD ¶<D = @8 ¥ @8 X1 + X2 + … + Xn - n @AD X1 + X2 + … + Xn - n @AD n @AD H1 - @ADL n @AD H1 - @ADL 2 n ¶<D > @0, 1D @@-2 n @AD H1 - @ADL n ¶, 2 ¶<D ¥ n ¶DD wobei bei der Ungleichung "¥" die Tatsache verwendet wurde, dass stets @AD H1 - @ADL 1 ê4 gilt. Wählt man nun n so, dass 2 n ¶ ¥ H1+ pLê2 ist, wobei wir mit q das q-Quantil der @0, 1D-Verteilung bezeichnen, so gilt offenbar @8 @AD - @AD ¶<D ¥ @0, 1D @@-2 n ¶, 2 n ¶DD = @0, 1D @@-H1+ pLê2 , H1+ pLê2 DD ¥ p An Hand der folgenden Zeichnung wird dieser Sachverhalt sofort klar: 23_Die_Normalverteilung.nb 133 Um mit einer vorgegebenen Wahrscheinlichkeit p sicher zu stellen, dass sich die relative Häufigkeit @AD eines Ereignisses von der Wahrscheinlichkeit @AD dieses Ereignisses um weniger als ¶ unterscheidet, muss somit n¥ 1 I M2 ¶-2 4 H1+ pLê2 gelten. Wir tabellieren den Faktor a = HH1+ pLê2 L2 ê4 für verschiedene Werte von p mit Mathematica und erkennen dabei, wie unsere Faustregel zu verstehen ist: Soll etwa mit einer Wahrscheinlichkeit von p = 0.95 sicher gestellt werden, dass sich die relative Häufigkeit @AD eines Ereignisses von der Wahrscheinlichkeit @AD dieses Ereignisses um weniger als 10-k unterscheidet, so sind dazu n = 0.960365 µ 102 k Wiederholungen erforderlich. TableForm@Table@8p, Quantile@NormalDistribution@0, 1D, H1 + pL ê 2D2 ê 4 <, 8p, 0.9, 0.99, 0.01<D, TableSpacing Æ 81, 5<, TableHeadings Æ 8None, 8" p", "a"<<D p 0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 α 0.676386 0.718593 0.766225 0.820755 0.884346 0.960365 1.05447 1.17732 1.35297 1.65872 Nach diesem Spezialfall des zentralen Grenzverteilungssatzes, mit dem gezeigt wurde, dass die Summe von vielen vollständig unabhängigen, identisch @1, pD-verteilten Zufallsvariablen annähernd normalverteilt ist, wollen wir nun zeigen, dass auch die Summe von vielen vollständig unabhängigen, identisch verteilten, quadratisch integrierbaren Zufallsvariablen annähernd normalverteilt ist, wobei über die Verteilung dieser Zufallsvariablen keine weiteren Aussagen gemacht werden: Mit dem Befehl Approximation@distr, nD wird graphisch gezeigt, wie gut sich die (durch Simulation auf der Basis von 10 000 Wiederholungen gewonnene empirische) Verteilungsfunktion der Summe von n vollständig unabhängigen, identisch gemäß der (in Mathematica implementierten) Verteilung distr verteilten Zufallsvariablen durch die Verteilungsfunktion einer Normalverteilung, deren Erwartungswert und Streuung mit dem Erwartungswert und der Streuung der Summe dieser n Zufallsvariablen überein stimmt, approximieren lässt: Approximation@DiscreteUniformDistribution@80, 1<D, 50D @zD 1.0 0.8 0.6 0.4 0.2 15 20 25 30 35 z 23_Die_Normalverteilung.nb 134 Approximation@UniformDistribution@80, 1<D, 12D @zD 1.0 0.8 0.6 0.4 0.2 3 4 5 6 7 8 9 z Durch Experimentieren mit verschiedenen (diskreten und stetigen) Verteilungen gewinnt man also die Erkenntnis: 23.1.5 Bemerkung: Für großes n lässt sich die Verteilung der Summe Zn = X1 + X2 + … + Xn von n vollständig unabhängigen, identisch X -verteilten, quadratisch integrierbaren Zufallsvariablen durch eine Nor- malverteilung mit den Parametern m = n @X D und s = ist jeweils im Einzelfall zu überprüfen. n @X D approximieren. Wie groß dabei n sein soll, Wir erläutern diese Erkenntnis wieder an Hand von Beispielen: 23.1.6 Beispiel: Aus dem Intervall @0, 1D wird zufällig eine Zahl ausgewählt. Man bestimme die Verteilung der Summe der ersten n (n groß) Ziffern ihrer Dezimalbruchentwicklung und berechne damit näherungsweise die Wahrscheinlichkeit dafür, dass die Summe der ersten n = 100 Ziffern der Dezimalbruchentwicklung einer zufällig aus dem Intervall @0, 1D ausgewählten Zahl größer als s = 500 ist. ô Lösung: Wir bezeichnen mit Xi die i-te Ziffer der Dezimalbruchentwicklung einer zufällig aus dem Intervall @0, 1D ausgewählten Zahl. Die Zufallsvariablen X1 , X2 , …, Xn sind offenbar vollständig unabhängig und auf der Menge 80, 1, 2, …, 9< gleichverteilt. Wegen Bemerkung 23.1.5 (man vergleiche auch die folgende Graphik) Approximation@DiscreteUniformDistribution@80, 9<D, 100D @zD 1.0 0.8 0.6 0.4 0.2 450 500 z ist ihre Summe Zn = X1 + X2 + … + Xn damit annähernd @m, sD-verteilt mit m = 9 n ê2 und s = 33 n ê 2. 8m = n Mean@DiscreteUniformDistribution@80, 9<DD, s = Sqrt@nD StandardDeviation@DiscreteUniformDistribution@80, 9<DD< : 9n 33 , 2 2 n > Für die gesuchte Wahrscheinlichkeit @8Zn > s<D gilt somit näherungsweise n = 100; s = 500; 1 - CDF@NormalDistribution@m, sD, sD êê N Clear@m, s, n, sD 0.0408614 23.1.7 Beispiel: Sei f : @0, 1D Ø eine quadratisch integrierbare Funktion und X1 , X2 , …, Xn vollständig 23_Die_Normalverteilung.nb 135 unabhängige, auf dem Intervall @0, 1D gleichverteilte Zufallsvariable. Wie groß muß n mindestens sein, um mit der Wahrscheinlichkeit p sicher zu stellen, dass 1 1 Jn = ⁄ni=1 f @Xi D von J = Ÿ f @zD „ z = @ f @X1 DD 0 n um weniger als ¶ abweicht? (Diese Überlegung ist wesentlich für die Monte-Carlo-Methode zur näherungsweisen Berechnung von Integralen, da damit eine Aussage über den Fehler gemacht werden kann.) ô Lösung: Wegen Bemerkung 23.1.5 ist die Summe f @X1 D + f @X2 D + … + f @Xn D für große n annähernd normalverteilt mit den Parametern m = n @ f @X1 DD und s = n @ f @X1 DD . Aus dem Satz über die affine Transforma- tion von Normalverteilungen folgt damit f @X1 D + f @X2 D + … + f @Xn D - n @ f @X1 DD @8 Jn - J ¶<D = @8 n @ f @X1 DD n > @0, 1D @@- @ f @X1 DD ¶, n n @ f @X1 DD ¶<D > ¶DD @ f @X1 DD Wählt man also n so, dass n @ f @X1 DD ¶ ¥ H1+ pLê2 ist, wobei wir mit q wieder das q-Quantil der @0, 1D-Verteilung bezeichnen, so gilt (an Hand einer Zeichnung wird dieser Sachverhalt unmittelbar klar) @8 Jn - J ¶<D > @0, 1D @@- n @ f @X1 DD ¶, n @ f @X1 DD ¶DD ¥ p Um mit der vorgegebenen Wahrscheinlichkeit p sicher zu stellen, dass sich die Summe Jn vom Integral J um weniger als ¶ unterscheidet, muss daher n ¥ HH1+ pLê2 L2 @ f @X1 DD ¶-2 = HH1+ pLê2 L2 HŸ 1 f @zD2 „ z - HŸ 1 f @zD „ zL2 L ¶-2 0 0 sein. Ist man in der Lage, den Ausdruck Ÿ 1 f @zD2 „ z - HŸ 1 f @zD „ zL2 zu berechnen (oder abzuschätzen), so lässt 0 0 sich aus dieser Beziehung die Größe n leicht ermitteln. 1 2 23.1.8 Beispiel: In Beispiel 16.6.3 haben wir das Integral Ÿ ‰-z „ z mit Hilfe der Monte-Carlo-Methode 0 näherungsweise berechnet und ohne zu überlegen n = 104 gesetzt. Wie groß muss n aber tatsächlich sein, um mit einer Wahrscheinlichkeit von p = 0.99 sicher zu stellen, dass der mit der Monte-Carlo-Methode ermittelte Wert vom tatsächlichen Wert des Integrals um weniger als ¶ = 10-2 abweicht? ô Lösung: In Beispiel 23.1.7 haben wir gezeigt, dass 1 0 2 1 0 2 n ¥ HH1+ pLê2 L2 HŸ ‰-2 z „ z - HŸ ‰-z „ zL2 L ¶-2 sein muss, um mit einer Wahrscheinlichkeit von p = 0.99 sicher zu stellen, dass der mit der Monte-Carlo-Methode ermittelt Wert vom tatsächlichen Wert des Integrals um weniger als ¶ = 10-2 abweicht. Wegen 23_Die_Normalverteilung.nb 136 p = 0.99; ¶ = 10-2 ; quantil = Quantile@NormalDistribution@0, 1D, H1 + pL ê 2D ; var = Integrate@Exp@-2 z2 D, 8z, 0, 1<D - HIntegrate@Exp@-z2 D, 8z, 0, 1<DL2 ; quantil2 var ¶-2 Clear@p, ¶, quantil, varD 2680.35 muss daher n ¥ 2681 sein. In diesem Fall ist sicher gestellt, dass der mit der Monte-Carlo-Methode ermittelte Wert vom tatsächlichen Wert des Integrals in höchstens einem von 100 Fällen um mehr als 10-2 abweicht. 23.1.9 Beispiel: Aus Bemerkung 23.1.5 folgt: Sind die Zufallsvariablen X1 , X2 , …, X12 vollständig unabhängig und im Intervall @0, 1D gleichverteilt, so ist die Zufallsvariable Z = X1 + X2 + … + X12 annähernd @6, 1D-verteilt (diese Tatsache wird dazu verwendet, um aus im Intervall @0, 1D gleichverteilten Zufallszahlen @0, 1D-verteilte Zufallszahlen zu erzeugen). Man berechne den maximalen Unterschied zwischen der Verteilungsfunktion Z der Zufallsvariablen Z und der Verteilungsfunktion f der @0, 1DVerteilung. ô Lösung: Für die Berechnung der Verteilungsfunktion Z der Zufallsvariablen Z = X1 + X2 + … + X12 verwenden wir die Laplace-Transformation: Da die Zufallsvariablen X1 , X2 , …, X12 im Intervall @0, 1D gleichverteilt und vollständig unabhängig sind, gilt für die Laplace-Transformierte Z wegen Satz 20.2.12 und Beispiel 20.2.3 Z @sD = @80,1<D @sD12 = H 1 - ‰-s 12 L s Die Verteilungsfunktion Z von Z erhält man, indem man auf diese Laplace-Transformierte Z @sD den Befehl InverseLaplaceTransform anwendet und von diesem Ergebnis die Stammfunktion bildet. fZ@x_D = InverseLaplaceTransform@H1 - „-s L12 ê s12 , s, xD; FZ@z_D = Integrate@fZ@xD, 8x, 0, z<, Assumptions Æ 8z Œ Reals<D; Wir vergleichen nun die auf diese Weise ermittelte Verteilungsfunktion Z von Z mit der Verteilungsfunktion der @6, 1D-Verteilung und erhalten als maximalen Unterschied dieser beiden Verteilungsfunktionen den Wert Max@Table@Abs@FZ@zD - CDF@NormalDistribution@6, 1D, zDD, 8z, 0, 12, 1 ê 1000<D êê ND 0.00233593 Nach diesen Vorbereitungen wenden wir uns nun direkt dem zentralen Grenzverteilungssatz zu, wobei wir auf den Beweis dieses tiefliegenden Satzes nicht näher eingehen: 23.1.10 Satz (Der zentrale Grenzverteilungssatz): Sind die Zufallsvariablen X1 , X2 , … vollständig unabhängig, identisch verteilt und quadratisch integrierbar, so gilt für alle z œ HX1 + X2 + … + Xn L - @X1 + X2 + … + Xn D lim @8 z<D = f@zD nض @X1 + X2 + … + Xn D wobei wir mit f die Verteilungsfunktion der @0, 1D-Verteilung bezeichnen. Dieser Satz drückt die bereits mehrfach angesprochene Tatsache aus, dass die Summe einer großen Anzahl von vollständig unabhängigen, identisch verteilten, quadratisch integrierbaren Zufallsvariablen annähernd normalverteilt ist. Zu diesem Satz sind einige Ergänzungen angebracht: † In der Sprechweise von Definition 20.4.5 besagt der zentrale Grenzverteilungssatz: Sind die Zufallsvariablen X1 , X2 , … vollständig unabhängig, identisch verteilt und quadratisch integrierbar und bezeichnet für jedes n œ 23_Die_Normalverteilung.nb Zn = 137 HX1 + X2 + … + Xn L - @X1 + X2 + … + Xn D @X1 + X2 + … + Xn D so konvergiert die Folge HZn Lnœ in Verteilung gegen eine @0, 1D-verteilte Zufallsvariable Z. † Wie sich an Hand von Gegenbeispielen zeigen lässt, reichen die paarweise Unabhängigkeit der Zufallsvariablen X1 , X2 , … bzw die einfache Integrierbarkeit für die Gültigkeit des zentralen Grenzverteilungssatzes nicht! aus. † Besitzen die vollständig unabhängigen und identisch verteilten Zufallsvariablen X1 , X2 , … sogar ein drittes Moment, so lässt sich die Konvergenzgeschwindigkeit durch die Ungleichung von BERRY-ESSÉEN abschätzen: sup @8 zœ HX1 + X2 + … + Xn L - @X1 + X2 + … + Xn D @X1 + X2 + … + Xn D z<D - f@zD 0.8 @ X1 - @X1 D 3 D n @X1 D3ê2 1 † Bei der Ungleichung von BERRY-ESSÉEN handelt es sich um eine relativ schwache Abschätzung; die tatsächlichen Unterschiede sind meist wesentlich kleiner, wie eine mit Hilfe von Approximation@distr, nD ermittelte Graphik zeigt. † Der zentrale Grenzverteilungssatz erfuhr im Laufe der Zeit eine Reihe von Verallgemeinerungen. Vor allem die Voraussetzung, dass die quadratisch integrierbaren Zufallsvariablen X1 , X2 , … identisch verteilt sind, konnte durch wesentlich schwächere Voraussetzungen ersetzt werden. Die schwächste dieser Voraussetzungen stammt von LINDEBERG-FELLER. Etwas schlampig ausgedrückt besagt diese Voraussetzung von LINDEBERG-FELLER, dass die Zufallsvariablen X1 , X2 , … etwa "gleich groß" sein müssen, also keine dieser Zufallsvariablen die anderen Zufallsvariablen dominieren darf. Auch die Voraussetzung der vollständigen Unabhängigkeit konnte durch etwas schwächere Voraussetzungen ersetzt werden, worauf wir aber nicht näher eingehen wollen. 23_Die_Normalverteilung.nb 138 † Natürlich existiert auch ein mehrdimensionales Analogon des zentralen Grenzverteilungssatzes. Dieses besagt, dass die Summe einer großen Anzahl von vollständig unabhängigen, identisch verteilten, quadratisch integrierbaren Zufallsvektoren annähernd multinormalverteilt ist. 23.1.11 Beispiel: Man entwickle einen Befehl, mit dem sich für beliebige n œ und eine beliebige in Mathematica implementierte Verteilung distr die rechte Seite der Ungleichung von BERRY-ESSÉEN berechnen lässt. Für die Gleichverteilung auf dem Intervall @0, 1D vergleiche man die damit erzielte Abschätzung mit dem in Beispiel 23.1.9 ermittelten maximalen Unterschied. ô Lösung: Der Befehl BerryEsseen@n_, distr_D := 0.8 ExpectedValue@Abs@x - Mean@distrDD3 , distr, xD ê Sqrt@n Variance@distrD3 D êê N liefert offensichtlich den gewünschten Wert. Verglichen mit dem in Beispiel 23.1.9 ermittelten maximalen Unterschied von 0.00233593 ist die damit erzielte Abschätzung BerryEsseen@12, UniformDistribution@80, 1<DD 0.3 aber ziemlich schlecht. Messgrößen setzen sich üblicherweise aus vielen vollständig unabhängigen Einflussgrößen additiv zusammen und sind wegen des zentralen Grenzverteilungssatzes somit in der Regel @m, sD-verteilt. Diese Tatsache war bereits lange vor der Entdeckung des zentralen Grenzverteilungssatzes bekannt. Man glaubte damals, dass es eben normal sei, dass Messgrößen normal-verteilt sind. Im Zusammenhang mit einer @m, sD-verteilten Messgrößen Z nennt man @ZD = m den systematischen Fehler und @ Z - m D = 2 êp s den mittleren Fehler. 23.1.12 Beispiel: Ein Messgerät ohne systematischen Fehler besitze einen mittleren Fehler von m = 40. Wieviele Messungen müssen mit diesem Gerät durchgeführt werden, um mit der Wahrscheinlichkeit von p = 0.9 sicher zu stellen, dass der absolute Fehler in mindestens einer dieser Messungen den Wert f = 7.5 nicht überschreitet. ô Lösung: Die Zufallsvariable Xi beschreibe den Fehler der i-ten Messung. Aus der Angabe entnimmt man, dass die Zufallsvariablen X1 , X2 , … vollständig unabhängig und @0, pê2 mD-verteilt sind. Gesucht ist nun die kleinste Zahl n œ mit der Eigenschaft p @8Min@†X1 §, †X2 §, …, †Xn §D f <D = 1 - @8Min@†X1 §, †X2 §, …, †Xn §D > f <D = = 1 - @8†X1 § > f <D @8†X2 § > f <D … @8†Xn § > f <D = 1 - H2 @8X1 - f <DLn Mit Hilfe von Mathematica lässt sich leicht zeigen, dass dazu mindestens n = 19 Messungen durchgeführt werden müssen: m = 40; f = 7.5; s = Sqrt@p ê 2D m; TableA9n, 1 - H2 CDF@NormalDistribution@0, sD, -fDLn =, 8n, 10, 20<E Clear@m, f, sD 8810, 0.71807<, 811, 0.751598<, 812, 0.781138<, 813, 0.807166<, 814, 0.830098<, 815, 0.850303<, 816, 0.868106<, 817, 0.883791<, 818, 0.897611<, 819, 0.909787<, 820, 0.920515<< 23_Die_Normalverteilung.nb 23.2 Die Normalverteilung @m, sD Wir fassen die bereits bekannten Eigenschaften der Normalverteilung @m, sD zusammen: 23.2.1 Bemerkung: Die Normalverteilung @m, sD besitzt den Träger = die Verteilungsdichte 1 2 2 @zD = ‰- Hz-mL êH2 s L 2p s und die Verteilungsfunktion 1 1 z-m z -Ht-mL2 êH2 s2 L @zD = „ t = H1 + Erf @ DL Ÿ-¶ ‰ 2 2p s 2 s Eine @m, sD-verteilte Zufallsvariable Z besitzt den Erwartungswert @ZD = m und die Varianz @ZD = s2 Für Normalverteilungen gilt die Faltungsformel @m, sD * @n, tD = @m + n, Sqrt@s2 + t2 DD Weiters besagt der Satz über die affine Transformation von Normalverteilungen: Ist die Zufallsvariable Z normalverteilt mit den Parametern m und s, so ist die Zufallsvariable Y = x Z + h normalverteilt mit den Parametern x m + h und s †x§. Daraus folgt speziell: Ist die Zufallsvariable Z normalverteilt mit den Parametern m und s, so ist die Zufallsvariable Y = HZ - mL ê s normalverteilt mit den Parametern 0 und 1 (man spricht in diesem Zusammenhang von der Standardisierung der Normalverteilung). 139 23_Die_Normalverteilung.nb 140 Es folgen wieder einige Beispiele, mit denen gezeigt werden soll, wie mit der Normalverteilung gearbeitet wird: 23.2.2 Beispiel: Eine Walze wird zugelassen, wenn ihr Durchmesser X der Bedingung 0.96 X 1.04 genügt. Erfahrungsgemäß sind 3.5 % der Walzen zu dick und 1.5 % der Walzen zu dünn. Unter der Annahme, dass X normalverteilt ist, berechne man den Erwartungswert m und die Streuung s von X . ô Lösung: Wir haben die beiden Parameter m und s der Verteilung X = @m, sD von X so zu bestimmen, dass die beiden Bedingungen @8X > 1.04<D = 0.035 und @8X 0.96<D = 0.015 erfüllt sind. Diese Aufgabe lässt sich mühelos mit Hilfe des Befehls FindRoot mit den nahliegenden Startwerten m0 = 1 und s0 = 0.01 lösen: FindRoot@81 - CDF@NormalDistribution@m, sD, 1.04D ä 0.035, CDF@NormalDistribution@m, sD, 0.96D ä 0.015<, 88m, 1< 8µ → 1.0036, σ → 0.0200904< 23.2.3 Beispiel: Ein Sender sendet die Signale 0 und 1 aus, die bei der Übermittlung verrauscht werden und beim Empfänger als @0, s0 D- bzw @1, s1 D-verteilte Signale eintreffen. Der Empfänger identifiziert ein Signal als 0, wenn das eintreffende Signal kleiner als eine gewisse Schranke c ist und als 1, wenn das eintreffende Signal größer als diese Schranke c ist. Wie groß soll c gewählt werden, damit die Fehlerwahrscheinlichkeit minimal wird. 0 1 0 1 c 23.2.4 Beispiel: Ist die Zufallsvariable Z normalverteilt mit den Parametern m und s, so nennt man das Intervall @m - k s, m + k sD den k-Sigma-Bereich. Man berechne für beliebige k œ die Wahrscheinlichkeit w@kD des k-Sigma-Bereichs. ô Lösung: Wegen des Satzes über die affine Transformation von Normalverteilungen gilt für alle k œ w@kD = @8Z œ @m - k s, m + k sD<D = @8HZ - mL ês œ @-k, kD<D = f@kD - f@-k D wobei wir mit f die Verteilungsfunktion der @0, 1D-Verteilung bezeichnen. (Wir erkennen dabei, dass die Wahrscheinlichkeit w@kD des k-Sigma-Bereiches nicht! von den Parametern m und s abhängt). Diese Wahrscheinlichkeit lässt sich leicht tabellieren (für die Praxis ist in erster Linie die Wahrscheinlichkeit des Ein-, Zwei- und Drei-Sigma-Bereichs von Bedeutung): w@k_D := N@CDF@NormalDistribution@0, 1D, kD - CDF@NormalDistribution@0, 1D, -kD, 10D TableForm@Table@8k, w@kD<, 8k, 1, 6<D, TableHeadings Æ 8None, 8"k", "w@kD"<<, TableSpacing Æ 81, 5<D k 1 2 3 4 5 6 w@kD 0.6826894921 0.9544997361 0.9973002039 0.9999366575 0.9999994267 0.9999999980 23_Die_Normalverteilung.nb 141 Die folgende Skizze veranschaulicht den Ein-, Zwei- und Drei-Sigma-Bereich zusammen mit den zugehörigen Wahrscheinlichkeiten w@kD (dabei handelt es sich um die entsprechenden Flächen unter der Verteilungsdichte): 0.4 0.3 0.2 0.1 m-3s m-2s m-s m m+s m+2s m+3s 23.2.5 Beispiel: Ein Schiff passiert eine 10 km breite Meerenge. An den beiden Ufern dieser Meerenge befinden sich Leuchttürme, deren Leuchtfeuer man X bzw Y km weit sehen kann. Unter der Annahme, dass die beiden Zufallsvariablen X und Y unabhängig und @7, 1D-verteilt sind, berechne man die Wahrscheinlichkeit p dafür, dass von einem Schiff, das die Meerenge Z km vom linken Ufer entfernt passiert, beide Leuchtfeuer gesehen werden können, wenn man annimmt, dass Z im Intervall @0, 10D gleichverteilt ist? ô Lösung: Unter Verwendung des Satzes von der totalen Wahrscheinlichkeit in differenzieller Form und der Tatsache, dass die drei Zufallsvariablen X, Y und Z vollständig unabhängig sind, ergibt sich für die von uns gesuchte Wahrscheinlichkeit ¶ p = @8X > Z< › 8Y > 10 - Z<D = Ÿ-¶ @8X > Z< › 8Y > 10 - Z< 8Z = z<D Z @zD „ z = ¶ = Ÿ-¶ @8X > z<D @8Y > 10 - z<D Z @zD „ z = Ÿ 10 H1 - X @zDL H1 - Y @10 - zDL 10-1 „ z 0 Wir werten dieses Integral mit Hilfe von NIntegrate aus und erhalten NIntegrate@H1 - CDF@NormalDistribution@7, 1D, zDL H1 - CDF@NormalDistribution@7, 1D, 10 - zDL, 8z, 0, 10<D ê 10 0.400021 23.2.6 Beispiel: Bei einer Werbeaktion eines Versandhauses sollen die ersten 1000 Einsender einer Bestellung eine Damen- bzw Herrenarmbanduhr als Geschenk erhalten. Wir nehmen an, dass sich beide Geschlechter gleichermaßen von dem Angebot angesprochen fühlen. Wieviele Damen- bzw Herrenarmbanduhren sollte das Versandhaus vorrätig haben, damit mit einer Wahrscheinlichkeit von mindestens 98 % alle 1000 Einsender eine passende Uhr erhalten? ô Lösung: Wir bezeichnen mit X die Anzahl der Damen unter den ersten 1000 Einsendern. Die Zufallsvariable X ist offenbar @1000, 1 ê2D-verteilt und damit wegen Bemerkung 23.1.1 annähernd @500, 250 D-verteilt. Falls das Versandhaus a Damen- bzw Herrenarmbanduhren vorrätig hat, so werden mit einer Wahrscheinlichkeit von @8X a< › 81000 - X a<D = @81000 - a X a<D = X @aD - X @1000 - aD alle 1000 Einsender eine passende Uhr erhalten. Wir berechnen mit Hilfe von Mathematica diese Wahrscheinlichkeit für einige Werte von a und erkennen, dass a ¥ 537 sein muss, damit alle 1000 Einsender mit einer Wahrscheinlichkeit von mindestens 98 % eine passende Uhr bekommen. Table@8a, CDF@NormalDistribution@500, Sqrt@250DD, aD - CDF@NormalDistribution@500, Sqrt@250DD, 1000 - aD êê N<, 8 88530, 0.94222<, 8531, 0.950076<, 8532, 0.957015<, 8533, 0.963121<, 8534, 0.968472<, 8535, 0.973143<, 8536, 0.977204<, 8537, 0.980721<, 8538, 0.983754<, 8539, 0.986359<, 8540, 0.988588<< 23_Die_Normalverteilung.nb 142 23.2.7 Beispiel: Ein Unternehmen hat insgesamt n = 1000 Aktien ausgegeben. Ihre Besitzer entscheiden sich bei jeder Aktie mit einer Wahrscheinlichkeit von 0 p 1 zum Verkauf. Diese Entscheidungen finden unabhängig voneinander statt. Der Markt kann s = 50 Aktien aufnehmen, ohne dass der Kurs fällt. Wie groß darf p höchstens sein, damit der Kurs mit einer Wahrscheinlichkeit von 90 % nicht fällt. ô Lösung: Wir bezeichnen mit X die Anzahl der Aktien, die zum Verkauf angeboten werden. Die Zufallsvariable X ist offenbar @n, pD-verteilt und damit wegen Bemerkung 32.1.1 annähernd @n p, n p H1 - pL D-verteilt. Um mit einer Wahrscheinlichkeit von 90 % sicher zu stellen, dass der Kurs der Aktie nicht fällt, darf p höchstens so groß sein, dass @8X s<D = 0.90 ist. Wir werten diese Beziehung unter Verwendung von Solve aus: n = 1000; s = 50; Solve@CDF@NormalDistribution@n p, Sqrt@n p H1 - pLDD, sD ä 0.90, pD Clear@n, sD 88p → 0.0418818<< 23.2.8 Beispiel: Die Zufallsvariable Z sei @0, sD-verteilt. Man bestimme die Streuung s so, dass die Wahrscheinlichkeit des Ereignisses 8a Z b< mit 0 a b maximal ist. ô Lösung: Wir haben die Streuung s so zu bestimmen, dass p@sD = @8a Z b<D = Z @bD - Z @aD maximal ist. Wir differenzieren dazu p@sD nach s, ermitteln mit Hilfe von Solve jenen Wert von s, für den diese Ableitung gleich Null ist und berücksichtigen außerdem mit Hilfe von FullSimplify die Tatsache, dass 0 a b vorausgesetzt wurde: FullSimplify@Solve@D@CDF@NormalDistribution@0, sD, bD - CDF@NormalDistribution@0, sD, aD, sD ä 0, sD, 0 < a < bD ::σ → − 1 2 a2 − 2 b2 2 a LogB F b >, :σ → 1 2 a2 − 2 b2 2 a LogB F b >> Für den gesuchten Wert von s (s muss positiv sein) gilt damit s= 2 b2 - 2 a2 L êHLog@bD - Log@aDL 23.2.9 Beispiel: Wie stark darf eine @0, sD-verteilte Zufallsvariable Z maximal streuen, wenn sie mit einer Wahrscheinlichkeit von mindestens 0.999 innerhalb des Toleranzbereiches @-a, aD liegen soll? ô Lösung: Wir haben die Streuung s so zu bestimmen, dass p@sD = @8-a Z a<D = Z @aD - Z @-aD = 0.999 gilt. Mit Hilfe von Solve 23_Die_Normalverteilung.nb Solve@CDF@NormalDistribution@0, sD, aD - CDF@NormalDistribution@0, sD, -aD ä 0.999, sD 88σ → 0.303903 a<< ergibt sich für s der Wert s = 0.303903 a. 143 23_Die_Normalverteilung.nb 144 23.2.10 Beispiel: Ein zufälliger Punkt der Ebene besitze unabhängige, @0, 1D-verteilte Koordinaten X und Y. Man ermittle die Verteilung seiner Polarkoordinaten R und F und zeige, dass R und F unabhängig sind. ô Lösung: Da X und Y unabhängig und @0, 1D-verteilt sind, gilt für alle x, y œ offenbar X ,Y @x, yD = 1 -Hx2 +y2 Lê2 ‰ 2p Bezeichnet nun für alle r ¥ 0 Kr = 88x, y< œ 2 ˝ x2 + y2 r< einen Kreis mit Radius r und für alle j œ @0, 2 p@ Sj = 88x, y< œ 2 ˝ Arg@x + y ÂD j< einen Sektor mit Winkel j, so erhält man (Übergang zu Polarkoordinaten) r 2p 1 R @rD = @88X , Y < œ Kr <D = Ÿ Ÿ X ,Y @x, yD „ x „ y = Ÿ HŸ 0 0 Kr 2p 2 2 ‰-r ê2 r „ yL „ r = 1 - ‰-r ê2 sowie j j ¶ 1 -r2 ê2 ‰ r „ rL „ y = 0 0 2p 2p F @jD = @88X , Y < œ Sj <D = Ÿ Ÿ X ,Y @x, yD „ x „ y = Ÿ HŸ Sj und damit R,F @r, jD = @88X , Y < œ Kr › Sj <D = ŸŸ Kr ›Sj X ,Y @x, yD „ x „ y = j 2 r j 1 -r2 ê2 = Ÿ HŸ ‰ r „ yL „ r = H1 - ‰-r ê2 L = R @rD F @jD 0 0 2p 2p Die Tatsache, dass die beiden Zufallsvariablen R und F unabhängig sind und F im Intervall @0, 2 pD gleichverteilt ist, lässt sich auch graphisch veranschaulichen: Simuliert man n derartige Punkte, so ergibt sich ein annähernd kreisförmiger Punktschwarm. Die dabei in den (schmalen) Kreisring mit den Radien r1 r2 fallenden Punkte sind unabhängig von diesen Radien innerhalb dieses Kreisrings gleichverteilt: n = 200; r1 = 1.3; r2 = 1.5; p1 = Graphics@Table@[email protected], Point@RandomReal@NormalDistribution@0, 1D, 2DD<, 8n<DD; c1 = Graphics@8Red, [email protected], Circle@80, 0<, r1D<D; c2 = Graphics@8Blue, [email protected], Circle@80, 0<, r2D<D; Show@8c1, c2, p1<, Axes Æ True, PlotRange Æ 88-3, 3<, 8-3, 3<<, AspectRatio Æ AutomaticD Clear@n, r1, r2, p1, c1, c2D 3 2 1 -3 -2 -1 1 2 3 -1 -2 -3 23.2.11 Beispiel: Wir betrachten ein in einem Gefäß eingeschlossenes Gas der Temperatur T, dessen Moleküle die Masse m besitzen. Unter der Annahme, dass die Komponenten V1 , V2 , V3 des 23_Die_Normalverteilung.nb 145 Moleküle die Masse m besitzen. Unter der Annahme, dass die Komponenten V1 , V2 , V3 des Geschwindigkeitsvektors V eines zufällig ausgewählten Moleküls vollständig unabhängig und @0, sDverteilt sind, wobei s = k T êm ist, zeige man die Gültigkeit des Gesetzes P V = R T. Dabei bezeichnet P den Druck, V das Volumen eines Mols dieses Gases, T die absolute Temperatur, k die Boltzmann Konstante und R = N k die universelle Gaskonstante, wobei N die Loschmidt'sche Zahl (also die Anzahl der Moleküle in einem Mol) bezeichnet. ô Lösung: Der Druck P des Gases ist gleich dem Erwartungswert der Impulse, die einem Flächenstück der Wand des Gefäßes vom Flächeninhalt Eins während eines Zeitintervalls der Länge Eins übermittelt werden. Wir nehmen an, dass die Zusammenstöße ideal elastisch sind. Stößt ein Molekül mit der Masse m und der Geschwindigkeit †V § = v unter dem Winkel Q = J (mit der Normalen der Wand) an die Wand des Gefäßes, so übermittelt dieses Molekül einen Impuls von der Größe 2 m v Cos@JD. Ein Molekül mit der Geschwindigkeit †V § = v und einer Richtung, die mit der Normalen der Wand den Winkel Q = J einschließt, stößt während der Zeit @t, t + 1D genau dann auf einen Bereich K der Wand, welcher den Flächeninhalt Eins besitzt, wenn sich dieses Teilchen im Zeitpunkt t in einem schiefen Zylinder befindet, dessen Grundfläche der Bereich K und dessen Höhe gleich v Cos@JD ist. Nimmt man an, dass die Moleküle gleichmäßig im Gefäß verteilt sind, so ist die Wahrscheinlichkeit für dieses Ereignis gleich v Cos@JD êW , wobei W das Volumen des Gefäßes bezeichnet. Damit ergibt sich für den bedingten Erwartungswert @I 8†V § = v< › 8Q = J<D jenes Impulses I, den ein Molekül mit der Geschwindigkeit †V § = v und dem Winkel Q = J (mit 0 J pê 2), der Wand des Gefäßes übermittelt @I 8†V § = v< › 8Q = J<D = 2 m v2 Cos@JD2 4 m v2 = Cos@JD2 W W 2 Analog zu Beispiel 23.2.11 lässt sich zeigen, dass die Geschwindigkeit †V § und die Flugrichtung eines zufällig herausgegriffenen Moleküls unabhängig sind und dass diese Flugrichtung im Raum gleichverteilt ist. In Beispiel 15.3.11 haben wir die Verteilungsfunktion des Winkels Q, den diese Flugrichtung mit einer vorgegebenen Richtung (in unserem Fall mit der Normalen auf die Wand) einschließt, ermittelt und dabei für alle J œ Q = @0, pD die Formel Q @JD = H1 - Cos@JDL ê 2 erhalten. Für den Erwartungswert der Zufallsvariablen Z = 1@0,pê2D Cos@QD2 ergibt sich damit Integrate@Cos@ϑD2 D@H1 − Cos@ϑDL ê 2, ϑD, 8ϑ, 0, π ê 2<D 1 6 Wegen Beispiel 19.3.9 und Bemerkung 18.2.2 erhalten wir damit für den mittleren Impuls, den ein zufällig herausgegriffenes Molekül der Wand übermittelt @ID = @@I 8†V § = ä1 < › 8Q = ä2 <D ë 8†V §, Q<D = @ = 4 m †V §2 Cos@QD2 D = W 2 4 4 3kT 1 kT m †V §2 @ D @Cos@QD2 D = = W W 2 6 W 2 Da in einem Mol Gas N Moleküle vorhanden sind, übt eine Gasmenge von n Molen auf die Wand des Gefäßes damit den Druck P = n N @ID = nN kT N kT RT = = W V V aus, wobei V = W ê n das Molvolumen bezeichnet. 23.2.12 Beispiel: Die beiden Zufallsvariablen X und Y seien unabhängig und @0, 1D-verteilt. Man ermittle die Verteilungsdichte ihres Produkts U = X Y sowie ihres Quotienten V = X êY . ô 23_Die_Normalverteilung.nb 146 Lösung: Wegen des Satzes von der totalen Wahrscheinlichkeit in differenzieller Form sowie der Regel über das Einsetzen einer Bedingung gilt für alle u, v œ 1 1 ¶ u u + „u @8X Y œ @u, u + „ uD<D = Ÿ-¶ @8X œ @ y , y D<D @8Y œ @y, y + „ yD<D = „u „u U @uD = u ¶ @ D -¶ X y =Ÿ 1 @yD „ y y Y und V @vD = 1 1 ¶ @8X œ @v y, Hv + „ vL yD<D @8Y œ @y, y + „ yD<D = @8X êY œ @v, v + „ vD<D = Ÿ „v „ v -¶ ¶ @v yD y Y @yD „ y -¶ X =Ÿ Wertet man diese Integrale mit Hilfe von Mathematica aus, so erhält man die beiden gesuchten Verteilungsdichten (BesselK bezeichnet dabei die modifizierte Besselfunktion zweiter Ordnung): FullSimplify@Integrate@PDF@NormalDistribution@0, 1D, u ê yD ê Abs@yD PDF@NormalDistribution@0, 1D, yD, 8y, -•, •<D, BesselK@0, Abs@uDD π FullSimplify@Integrate@PDF@NormalDistribution@0, 1D, v yD Abs@yD PDF@NormalDistribution@0, 1D, yD, 8y, -•, •<D, v 1 π + π v2 Wir zeichnen abschließend diese beiden (offenbar symmetrischen) Verteilungsdichten (bei der roten Kurve handelt es sich um die Verteilungsdichte von U = X Y , bei der blauen Kurve handelt es sich um die Verteilungsdichte von V = X êY ): Plot@8BesselK@0, Abs@zDD ê p, 1 ê Hp + p z2 L<, 8z, -3, 3<, PlotStyle Æ [email protected], Red<, [email protected], Blue<<, PlotRange Æ 80, 2<D 2.0 1.5 1.0 0.5 -3 -2 -1 0 1 2 3 23.3 Die Chi-Quadrat Verteilung hi@nD Wir beginnen mit einem für die Chi-Quadrat Verteilung zentralen Satz: 23_Die_Normalverteilung.nb 147 23.3.1 Satz: Sind die Zufallsvariablen X1 , X2 , …, Xn vollständig unabhängig und identisch @0, 1D-verteilt, so ist die Zufallsvariable Z HnL = X1 2 + X2 2 + … + Xn 2 hi@nD-verteilt. Den Parameter n nennt man den Freiheitsgrad der hi@nD-Verteilung. ô Beweis: Aus dem Satz über die Quadrateigenschaft zusammen mit der Faltungsformel für Chi-Quadrat Verteilungen folgt unmittelbar, dass die Zufallsvariable Z HnL = X1 2 + X2 2 + … + Xn 2 hi@nD-verteilt ist. Wir fassen die bereits bekannten Eigenschaften der Chi-Quadrat Verteilung hi@nD zusammen, wobei wir die Beziehung hi@nD = amma@n ê2, 2D verwenden (man vergleiche dazu Satz 22.3.8): 23.3.2 Bemerkung: Die Chi-Quadrat Verteilung hi@nD besitzt den Träger = @0, ¶@ die Verteilungsdichte 1 2-nê2 ‰-zê2 z nê2-1 für z ¥ 0 @zD = G@n ê2D sonst 0 und die Verteilungsfunktion 0 @zD = 1 z -nê2 -tê2 nê2-1 ‰ t „ t = Gr @n ê2, 0, zê 2D Ÿ0 2 G@n ê2D Eine hi@nD-verteilte Zufallsvariable Z besitzt den Erwartungswert @ZD = n und die Varianz @ZD = 2 n Für Chi-Quadrat Verteilungen gilt die Faltungsformel hi@mD * hi@nD = hi@m + nD für z 0 für z ¥ 0 23_Die_Normalverteilung.nb 148 Beispiel 19.3.6 und Beispiel 19.3.9 sind typische Anwendungen der Chi-Quadrat Verteilung. In den beiden folgenden Beispielen werden Beziehungen zwischen der Chi-Quadrat Verteilung und anderen Verteilungen aufgezeigt: 23.3.3 Beispiel: Aus dem zentralen Grenzverteilungssatz folgt, dass sich für großes n œ die hi@nDVerteilung durch die @n, 2 n D-Verteilung approximieren lässt. Man ermittle, wie groß n dabei sein muss, damit der maximale Unterschied zwischen diesen beiden Verteilungsfunktionen kleiner als 0.01 ist. ô Lösung: Wir plotten zuerst die Differenz dieser beiden Verteilungsfunktionen im Bereich 0 z 2 n Manipulate@Plot@CDF@ChiSquareDistribution@nD, zD - CDF@NormalDistribution@n, Sqrt@2 nDD, zD, 8z, 0, 2 n<, PlotStyle Æ [email protected], ImageSize Æ 8200, 100<, PlotRange Æ AllD, 8n, 10, 100, 1, Appearance Æ "Labeled"<D n 95 0.020 0.015 0.010 0.005 -0.005 50 100 150 -0.010 und erkennen, dass der maximale Unterschied dieser beiden Verteilungsfunktionen in der Nähe von z = n liegt. Mit Hilfe von FindMaximum und z = n als Startwert lässt sich diese maximale Differenz leicht ermitteln. Durch Experimentieren mit verschiedenen Werten von n zeigt sich, dass für n ¥ 354 der maximale Unterschied dieser beiden Verteilungsfunktionen kleiner als 0.01 ist. n = 354; FindMaximum@CDF@ChiSquareDistribution@nD, zD - CDF@NormalDistribution@n, Sqrt@2 nDD, zD, 8z, n<D Clear@nD 80.00999634, 8z → 353.833<< 23.3.4 Beispiel: Man zeige: Bezeichnet Gm die Verteilungsfunktion der Chi-Quadrat Verteilung mit m Freiheitsgraden und Fl die Verteilungsfunktion der Poissonverteilung mit Parameter l, so gilt für alle z > 0 und alle n œ die Beziehung 1 - G2 n @zD = Fzê2 @n - 1D. ô Lösung: Wir beweisen für alle n œ die Gültigkeit dieser Beziehung mit Hilfe von Mathematica FullSimplify@1 - CDF@ChiSquareDistribution@2 nD, zD == CDF@PoissonDistribution@z ê 2D, n - 1D, 8n Œ Integers, n > 0<D True Die Chi-Quadrat Verteilung findet in der Statistik bei den sogenannten Chi-Quadrat-Tests Verwendung. Man kann nämlich zeigen, dass gewisse Testgrößen näherungsweise einer Chi-Quadrat Verteilung genügen. Ohne auf den 23_Die_Normalverteilung.nb 149 nämlich zeigen, dass gewisse Testgrößen näherungsweise einer Chi-Quadrat Verteilung genügen. Ohne auf den Beweis näher einzugehen, erwähnen wir in diesem Zusammenhang den folgenden Satz, den wir beim Chi-Quadrat Anpassungstest verwenden werden. 23.3.5 Satz: Sind die Zufallsvariablen X1 , X2 , …, Xn vollständig unabhängig und identisch X verteilt und ist 8A1 A2 , …, Ar < eine Partition des Trägers X , so ist die Zufallsvariable r n IH - p M2 k k Z= ⁄ pk k=1 welche ein Maß für die Abweichung der relativen Häufigkeiten Hk = † 8i ˝ 1 i n , Xi œ Ak = • ên von den theoretischen Wahrscheinlichkeiten pk = X AAk E der Ereignisse Ak darstellt, asymptotisch (also für n Ø ¶) Chi-Quadrat verteilt mit r - 1 Freiheitsgraden. Wir veranschaulichen die Aussage dieses Satzes an einem Beispiel: 23.3.6 Beispiel: Wird mit einem homogenen Würfel n mal gewürfelt und für jedes k œ 81, 2, …, 6< die relative Häufigkeit Hk für das Auftreten der Augenzahl k mit der theoretischen Wahrscheinlichkeit pk = 1 ê 6 vergleichen, so ist die Zufallsvariable 6 n IH - p M2 k k Z= ⁄ pk k=1 wegen Satz 23.3.5 für große Werte von n annähernd hi@5D-verteilt. Man ermittle mittels Simulation für einen ` Stichprobenumfang von n = 50 den maximalen Unterschied zwischen der empirischen Verteilungsfunktion Z von Z und der Verteilungsfunktion der Chi-Quadrat Verteilung mit 5 Freiheitsgraden. ô Lösung: Wir ermitteln durch Simulation zusammen mit dem Befehl EmpiricalCDF die empirische Verteilungsfunk` tion Z der Zufallsvariablen Z und berechnen für alle Stellen z, in denen diese empirische Verteilungsfunktion eine ` ` Sprungstelle aufweist, die Differenzen † Z @zD - @zD § und † Z @z -D - @zD § zwischen dieser empirischen Verteilungsfunktion und der Verteilungsfunktion der hi@5D-Verteilung. Von allen so ermittelten Differenzen bestimmen wir das Maximum. Zur Veranschaulichung zeichnen wir außerdem diese empirische Verteilungsfunktion zusammen mit der Verteilungsfunktion der hi@5D-Verteilung in eine gemeinsame Zeichnung: n = 50; m = 10 000; daten = Table@Apply@Plus, 6 n HRest@BinCounts@RandomInteger@81, 6<, nDDD ê n - 1 ê 6L2 D, 8m<D; z = Union@datenD; Max@Join@Table@Abs@EmpiricalCDF@daten, z@@iDDD - CDF@ChiSquareDistribution@5D, z@@iDDDD, 8i, 1, Length@zD<D, Table@Abs@EmpiricalCDF@daten, z@@i - 1DDD - CDF@ChiSquareDistribution@5D, z@@iDDDD, 8i, 1, Length@zD<DDD Plot@8EmpiricalCDF@daten, zD, CDF@ChiSquareDistribution@5D, zD<, 8z, 0, 15<, PlotStyle Æ [email protected], Magenta<, [email protected], Blue<<, AspectRatio Æ 0.5D Clear@n, m, daten, zD 0.027495 1.0 0.8 0.6 0.4 0.2 2 4 6 8 10 12 14 Der folgende tiefliegende Satz ist Grundlage für viele Anwendungen der Statistik. Zu seiner Formulierung ist die Schreibweise der Matrizenrechnung erforderlich: Matrizen werden mit großen, fetten Buchstaben bezeichnet; für 23_Die_Normalverteilung.nb 150 Schreibweise der Matrizenrechnung erforderlich: Matrizen werden mit großen, fetten Buchstaben bezeichnet; für die Einheitsmatrix verwenden wir den Buchstaben E; Zeilenvektoren bezeichnen wir mit x = 8x1 , x2 , …, xn <, den zugehörigen Spaltenvektor bezeichnen wir mit xt = 8x1 , x2 , …, xn <t ; das skalare Produkt von Vektoren bzw Matrizen bezeichnen wir mit "·"; unter dem Rang Rg@AD einer Matrix A versteht man die Anzahl der linear unabhängigen Zeilenvektoren dieser Matrix. 23.3.7 Satz von COCHRAN: Sind die Zufallsvariablen X1 , X2 , …, Xn vollständig unabhängig und identisch @0, 1D-verteilt und sind G1 , G2 , …, Gk symmetrische n µn Matrizen mit den beiden Eigenschaften G1 + G2 + … + Gk = E und Rg@G1 D + Rg@G2 D + … + RgAGk E = n so sind die Zufallsvariablen Z1 , Z2 , …, Zk mit Zi = 8X1 , X2 , …, Xn <ÿ Gi ÿ 8X1 , X2 , …, Xn <t vollständig unabhängig. Außerdem genügt für alle i œ 81, 2, …, k< die Zufallsvariable Zi einer Chi-Quadrat Verteilung mit Rg@Gi D Freiheitsgraden. ô Beweis: Wir beschränken uns der Einfachheit halber auf einen Beweis dieses Satzes für den Fall k = 2: a) Ist G1 eine symmetrische n µn Matrix mit Rang Rg@G1 D = r, so existiert bekanntlich eine orthogonale n µn Matrix P (eine Matrix P heißt orthogonal, wenn Pt ÿP = E gilt) mit der Eigenschaft Pt ÿG1 ÿP = diag@l1 , l2 , …, lr , 0, …, 0D wobei l1 , l2 , …, lr die von 0 verschiedenen Eigenwerte der Matrix G1 bezeichnen. Damit gilt aber Pt ÿG2 ÿP = Pt ÿHE - G1 L ÿP = E -Pt ÿ G1 ÿP = diag@1 -l1 , 1 - l2 , …, 1 - lr , 1, …, 1D Nun hat aber die Matrix G2 und damit auch die Matrix Pt ÿG2 ÿP voraussetzungsgemäß den Rang n - r, also muss l1 = l2 = … = lr = 1 sein. b) Die Zufallsvariablen Y1 , Y2 , …, Yn mit 8Y1 , Y2 , …, Yn < = 8X1 , X2 , …, Xn <ÿP sind wegen Bemerkung 23.6.6 vollständig unabhängig und identisch @0, 1D-verteilt. Auf Grund der Familieneigenschaft sind damit die beiden Zufallsvariablen Z1 = 8X1 , X2 , …, Xn < ÿG1 ÿ8X1 , X2 , …, Xn <t = = 8Y1 , Y2 , …, Yn < ÿPt ÿ G1 ÿ P ÿ8Y1 , Y2 , …, Yn <t = Y1 2 + Y2 2 + … + Yr 2 und Z2 = 8X1 , X2 , …, Xn < ÿG2 ÿ8X1 , X2 , …, Xn <t = = 8Y1 , Y2 , …, Yn < ÿPt ÿ G2 ÿ P ÿ8Y1 , Y2 , …, Yn <t = Yr+1 2 + Yr+2 2 + … + Yn 2 unabhängig und genügen wegen Satz 23.3.1 einer Chi-Quadrat-Verteilung mit r bzw n - r Freiheitsgraden. Mit dem folgenden Satz wird exemplarisch gezeigt, wie sich der Satz von Cochran anwenden lässt. Im Rahmen der Statistik werden wir das hier vorgestellte Ergebnis oft verwenden: 23.3.8 Satz: Sind die Zufallsvariablen X1 , X2 , …, Xn vollständig unabhängig und identisch @0, 1D-verteilt und bezeichnet X HnL = HX1 + X2 + … + Xn L ê n ihren empirischen Mittelwert, so ist die Zufallsvariable HnL n Q X = ⁄ HXi - X HnL L2 i=1 HnL hi[n - 1]-verteilt. Außerdem sind die beiden Zufallsvariablen X HnL und Q X unabhängig. ô 23_Die_Normalverteilung.nb 151 Beweis: Wir verwenden zum Nachweis dieser Aussage den Satz von Cochran und setzen G1 = 1 ê n 1 ên … 1 ê n 1 ê n 1 ên … 1 ê n ª ª ∏ ª 1 ê n 1 ên … 1 ê n und G2 = E - G1 Die beiden Matrizen G1 und G2 sind offensichtlich symmetrisch. Außerdem gilt Rg@G1 D = 1 (alle Zeilen von G1 sind gleich) und Rg@G2 D = n - 1 (subtrahiert man von den ersten n - 1 Spalten der Matrix G2 die letzte Spalte (diese Operation ändert den Rang einer Matrix bekanntlich nicht) so erhält man eine Matrix, bei der links oben die Hn - 1L µHn - 1L Einheitsmatrix steht und deren Zeilen sich zur Nullzeile addieren). Nun ist aber 8X1 , X2 , …, Xn <ÿ G1 ÿ8X1 , X2 , …, Xn <t = n HX HnL L2 und n n i=1 i=1 HnL 8X1 , X2 , …, Xn <ÿ G2 ÿ8X1 , X2 , …, Xn <t = ⁄ Xi 2 - n HX HnL L2 = ⁄ HXi - X HnL L2 = Q X HnL womit gezeigt ist, dass Q X einer hi[n - 1]-Verteilung genügt und die beiden Zufallsvariablen n HX HnL L2 und HnL HnL Q X und damit auch die beiden Zufallsvariablen X HnL und Q X unabhängig sind. 23.4 Die Student T Verteilung @nD Wir beginnen wieder mit einem für die Student T Verteilung zentralen Satz: 23.4.1 Satz: Sind die beiden Zufallsvariablen X und Y unabhängig und gilt X º @0, 1D und Y º hi@nD, so ist die Zufallsvariable X Z= n Y @nD-verteilt. Den Parameter n nennt man dabei den Freiheitsgrad der @nD-Verteilung. ô Beweis: Aus dem Satz von der totalen Wahrscheinlichkeit in differenzieller Form zusammen mit der Eigenschaft über das Einsetzen einer Bedingung ergibt sich für alle z œ Z @zD = 1 @8Z œ @z, z + „ zD<D = „z = 1 ¶ X Ÿ 0 @8 „z Y n œ @z, z + „ zD< 8Y = y<D @8Y œ @y, y + „ yD<D = = 1 ¶ Ÿ @8X œ @ „z 0 yê n z, =Ÿ ¶ @ 0 X y ên zD yên Hz + „ zLD<D @8Y œ @y, y + „ yD<D = y ên Y @yD „ y Wir werten dieses Integral mit Hilfe von Mathematica aus und zeigen gleichzeitig, dass es sich bei Z @zD um die Verteilungsdichte der Student T Verteilung mit n Freiheitsgraden handelt: 23_Die_Normalverteilung.nb 152 FullSimplify@Integrate@PDF@NormalDistribution@0, 1D, Sqrt@y ê nD z D Sqrt@y ê nD PDF@ChiSquareDistribution@nD, yD, 8y, PDF@StudentTDistribution@nD, zD, 8n > 0, z Œ Reals<D True Zusammen mit Satz 23.3.8 folgt daraus der für die Statistik wichtige 23.4.2 Satz: Sind die Zufallsvariablen X1 , X2 , …, Xn vollständig unabhängig und identisch @0, 1D- verteilt und bezeichnet 1 1 HnL 2 X HnL = HX1 + X2 + … + Xn L bzw V X = ⁄n HX - X HnL L n n - 1 i=1 i ihren empirischen Mittelwert bzw ihre empirische Varianz, so ist die Zufallsvariable X HnL HnL n TX = HnL VX [n - 1]-verteilt. ô Beweis: Wegen der Faltungsformel zusammen mit dem Satz über die affine Transformation von Normalverteilungen ist die Zufallsvariable n X HnL offenbar @0, 1D-verteilt. Wegen Satz 23.3.8 genügt die Zufallsvariable HnL HnL Q X = Hn - 1L V X einer hi@n - 1D-Verteilung. Außerdem sind die beiden Zufallsvariablen die Zufallsvariable HnL TX = X HnL HnL VX n X HnL n = HnL QX wegen Satz 23.4.1 [n - 1]-verteilt. n-1 HnL n X HnL und Q X unabhängig. Damit ist 23_Die_Normalverteilung.nb 153 Wir fassen wieder die bereits bekannten Eigenschaften der Student T Verteilung @nD zusammen: 23.4.3 Bemerkung: Die Student T Verteilung @nD besitzt den Träger = die Verteilungsdichte n Hn+1Lê2 2M n + z n B@n ê2, 1 ê2D und die Verteilungsfunktion @zD = @zD = 1 I n Hn+1Lê2 z M „t = Ÿ-¶ I 2 n+z n B@n ê2, 1 ê2D 1 n 1 n , 1, 2 , 2 DL ê2 n + z2 n 1 n H1 + Br @ , 1, 2 , 2 DL ê2 n + z2 H1 - Br @ für z 0 für z ¥ 0 Eine @nD-verteilte Zufallsvariable Z besitzt im Fall n ¥ 2 den Erwartungswert @ZD = 0 und im Fall n ¥ 3 die Varianz @ZD = n êHn - 2L 23.4.4 Beispiel: Wie man an Hand einer Zeichnung leicht erkennt, unterscheidet sich für große n die Verteilungsdichte der @nD-Verteilung nur wenig von der Verteilungsdichte der @0, 1D-Verteilung. Man ermittle, wie groß n sein muss, damit der maximale Unterschied zwischen den Verteilungsdichten dieser beiden Verteilungen kleiner als 0.01 ist. ô Lösung: Wir plotten zuerst die Differenz dieser beiden Verteilungsdichten im Bereich -4 z 4 Manipulate@Plot@PDF@StudentTDistribution@nD, zD - PDF@NormalDistribution@0, 1D, zD, 8z, -4, 4<, PlotStyle Æ [email protected], ImageSize Æ 8200, 100<, PlotRange Æ 8-0.06, 0.03<D, 8n, 2, 15, 1, Appearance Æ "Labeled"<D n 9 0.02 -4 -2 2 4 -0.02 -0.04 -0.06 und erkennen, dass der größte Unterschied dieser beiden Verteilungsdichten in der Nähe von z = 1 liegt. Mittels FindMinimum und z = 1 als Startwert lässt sich der maximale Unterschied leicht ermitteln. Durch Experimentieren mit verschiedenen Werten von n zeigt sich, dass bereits ab n = 14 der maximale Unterschied dieser beiden Verteilungsdichten kleiner als 0.01 ist. 23_Die_Normalverteilung.nb 154 n = 14; FindMinimum@PDF@StudentTDistribution@nD, zD - PDF@NormalDistribution@0, 1D, zD, 8z, -1<D Clear@nD 8−0.0094994, 8z → −0.730486<< 23.5 Die Fisher F Verteilung @m, nD Wir beginnen ebenfalls mit einem für die Fisher F Verteilung zentralen Satz: 23.5.1 Satz: Sind die beiden Zufallsvariablen X und Y unabhängig und gilt X º hi@mD und Y º hi@nD, so ist die Zufallsvariable X êm Z= Y ên @m, nD-verteilt. Die Parameter m und n heißen Freiheitsgrade der @m, nD-Verteilung. ô Beweis: Aus dem Satz von der totalen Wahrscheinlichkeit in differenzieller Form zusammen mit der Eigenschaft über das Einsetzen einer Bedingung ergibt sich für alle z > 0 Z @zD = 1 @8Z œ @z, z + „ zD<D = „z = X êm 1 ¶ œ @z, z + „ zD< 8Y = y<D @8Y œ @y, y + „ yD<D = Ÿ 0 @8 „z Y ên = 1 ¶ Ÿ @8X œ @Hy mênL z, Hy m ênL Hz + „ zLD<D @8Y œ @y, y + „ yD<D = „z 0 =Ÿ ¶ @Hy mê nL zD Hy mênL Y @yD „ y 0 X Wir werten dieses Integral mit Hilfe von Mathematica aus und zeigen gleichzeitig, dass es sich bei Z @zD um die Verteilungsdichte der Fisher F Verteilung mit m und n Freiheitsgraden handelt: FullSimplify@Integrate@PDF@ChiSquareDistribution@mD, Hy m ê nL z D Hy mê nL PDF@ChiSquareDistribution@nD, yD, 8y, 0, PDF@FRatioDistribution@m, nD, zD, 8m > 0, n > 0, z > 0<D True Dieser Satz hat die folgende für die Statistik wichtige Konsequenz: 23.5.2 Satz: Sind die Zufallsvariablen X1 , X2 , …, Xm und tisch @0, 1D-verteilt und bezeichnen m 1 1 HmL HnL VX = ⁄ HXi - X HmL L2 bzw VY = m - 1 i=1 n-1 Y1 , Y2 , …, Yn vollständig unabhängig und idenn ⁄ HYi - Y HnL L2 i=1 die empirischen Varianzen der Zufallsvariablen X1 , X2 , …, Xm bzw Y1 , Y2 , …, Yn , so ist ihr Quotient Hm,nL HmL HnL F X ,Y = V X êVY @m - 1, n - 1D-verteilt. ô 23_Die_Normalverteilung.nb 155 HmL HmL HnL HnL Beweis: Wegen Satz 23.3.8 sind die beiden Zufallsvariablen Q X = Hm - 1 V X L bzw QY = Hn - 1L VY ChiQuadrat verteilt mit m - 1 bzw n - 1 Freiheitsgraden. Außerdem sind diese beiden Zufallsvariablen auf Grund der Familieneigenschaft unabhängig. Wegen Satz 23.5.1 ist der Quotient HmL HmL Q X êHm - 1L Hm,nL V X F X ,Y = HnL = HnL VY QY êHn - 1L der beiden empirischen Varianzen somit @m - 1, n - 1D-verteilt. 23_Die_Normalverteilung.nb 156 Wir fassen die bereits bekannten Eigenschaften der Fisher F Verteilung @m, nD wieder zusammen: 23.5.3 Bemerkung: Die Fisher F Verteilung @m, nD besitzt den Träger = @0, ¶@ die Verteilungsdichte @zD = 1 m mê2 n nê2 z mê2-1 Hn + m zL -Hm+nLê2 B@mê 2, n ê2D für z ¥ 0 0 sonst und die Verteilungsfunktion 0 mz m n @zD = m mê2 n nê2 z mê2-1 Hn + m tL -Hm+nLê2 „ t = Br @ , , D Ÿ0 t n + m z 2 2 B@mê2, n ê2D für z 0 für z ¥ 0 Eine @m, nD-verteilte Zufallsvariable Z besitzt im Fall n ¥ 3 den Erwartungswert @ZD = n êHn - 2L und im Fall n ¥ 5 die Varianz @ZD = 2 n2 Hm + n - 2L m Hn - 2L2 Hn - 4L Weiters folgt unmittelbar aus Satz 23.5.1: Ist die Zufallsvariable Z @m, nD-verteilt, so genügt ihr reziproker Wert Y = 1 êZ einer @n, mD-Verteilung. Abschließend erwähnen wir noch einige Beziehungen zwischen der Fisher F Verteilung und anderen Verteilungen: 23.5.4 Satz: Ist die Zufallsvariable Z @nD-verteilt, so ist die Zufallsvariable Y = Z 2 @1, nD-verteilt. ô Beweis: Genügt die Zufallsvariable Z einer @nD-Verteilung, so gilt für alle y > 0 Y @yD = 1 @8Z 2 œ @y, y + „ yD<D = „y 1 = „ y @8Z œ @ wobei wir die Tatsache y, y + y+„y > „y 2 y D< ‹ 8Z œ @- y + „ y êH2 y - „y 2 y ,- y xD<D = Z @ y Dê y y L verwendet haben (Taylorentwicklung) und außerdem berücksichtigt haben, dass die Verteilungsdichte der Student T Verteilung eine gerade Funktion ist. Mit Hilfe von Mathematica zeigen wir nun, dass Y = Z 2 einer @1, nD-Verteilung genügt: FullSimplify@PDF@StudentTDistribution@nD, Sqrt@yDD ê Sqrt@yD ä PDF@FRatioDistribution@1, nD, yD, 8y > 0, n > 0<D True 23.5.5 Satz: Ist die Zufallsvariable Z eta@m ê2, n ê 2D-verteilt, so ist die Zufallsvariable Y = n Z êHm - m ZL @m, nD-verteilt. ô Beweis: Genügt die Zufallsvariable Z einer eta@mê2, n ê2D-Verteilung, so gilt für alle y > 0 23_Die_Normalverteilung.nb Y @yD = 157 1 nZ @8 œ @y, y + „ yD<D = „y m-mZ mn 1 my mn„y my my = „ y @8Z œ @ D<D = Z @ n + m y D , + 2 n + m y n + m y Hn + m yL Hn + m yL2 wobei wir verwendet haben (Taylorentwicklung), dass offenbar mn„y m Hy + „ yL my > + n + m y n + m Hy + „ yL Hn + m yL2 gilt. Mit Hilfe von Mathematica zeigen wir nun, dass Y = n Z ê Hm - m ZL einer @1, nD-Verteilung genügt: FullSimplify@PDF@BetaDistribution@m ê 2, n ê 2D, m y ê Hn + m yLD m n ê Hn + m yL2 == PDF@FRatioDistribution@m, nD, yD 8y > 0, n > 0, m > 0<D True 23.6 Die Multinormalverteilung Am, SE Das mehrdimensionale Analogon des zentralen Grenzverteilungssatzes besagt, dass die Summe einer großen Anzahl von vollständig unabhängigen, identisch verteilten, quadratisch integrierbaren Zufallsvektoren annähernd multinormalverteilt ist. Wir fassen die bereits bekannten Eigenschaften der Multinormalverteilung Am, SE wieder zusammen: :23.6.1 Bemerkung: Sei m = 8m1 , m2 , …, mr < œ r und sei S = 88sik << œ rr eine symmetrische, positiv definite Matrix. Die Multinormalverteilung @m, SD besitzt den Träger = r die Verteilungsdichte 1 1 ” ” ” @zD = Exp@- Hz - mL ÿS-1 ÿHz - mLt D 2 H2 pLrê2 Det@SD und die Verteilungsfunktion 1 1 ” z -1 t @zD = Ÿ z1 Ÿ z2 … Ÿ r Exp@- Hx - mL ÿS ÿ Hx - mL D „ x1 „ x2 … „ xr rê2 2 H2 pL Det@SD -¶ -¶ -¶ Ein @m, SD-verteilter Zufallsvektor Z = 8Z1 , Z2 , …, Zr < besitzt den Erwartungswertvektor @ZD = 8@Zi D<iœ81,2,…,r< = m und die Kovarianzmatrix @ZD = 8 @Zi , Zk D<i,kœ81,2,…,r< = S ô Achtung! Ist r = 1, so stimmt die Multinormalverteilung @m, SD mit m = 8m< und S = 88s2 << mit der Normalverteilung @m, sD überein. Man beachte, dass bei der Multinormalverteilung der Parameter S der Kovarianzmatrix entspricht, während bei der Normalverteilung der Parameter s der Streuung (also der Wurzel der Varianz) entspricht. 23_Die_Normalverteilung.nb 158 FullSimplify@CDF@MultinormalDistribution@8m<, 88s2 <<D, 8z<D ä CDF@NormalDistribution@m, sD, zD, 8s > 0<D True Analog zum Satz über die affine Transformation von eindimensionalen Normalverteilungen gilt auch für Multinormalverteilungen ein entsprechender Satz: 23.6.2 Satz (Affine Transformation von Multinormalverteilungen): Ist der Zufallsvektor Z multinor” malverteilt mit dem Mittelwertsvektor m und der Kovarianzmatrix S, so ist für alle k œ 81, 2, …, r<, alle n œ k ” und alle Matrizen G œ kr mit vollem Rang der Zufallsvektor Y = n + Z ÿ G multinormalverteilt mit dem Mittelw” ertsvektor n + mÿG und der Kovarianzmatrix Gt ÿS ÿ G. ô Beweis: Wir beschränken uns auf den Fall k = r (da G vollen Rang besitzen soll, ist die Matrix G invertierbar). Für ” alle y œ r gilt dann unter Verwendung der Transformation x = Hu - nL ÿG-1 (für die Funktionalmatrix dieser Transformation gilt offenbar ∑ xê ∑ u = G-1 ) ” ” @yD = @8Y y<D = @8n + Z ÿG y<D = @8Z Hy - nL ÿ G-1 <D = Y = = = ” Hy-nLÿG-1 1 Ÿ-¶ 1 Exp@- Hx - mL ÿS-1 ÿHx - mLt D †„ x§ = 2 H2 pLrê2 Det@SD H2 pLrê2 1 y ” -1 ” -1 -1 t Ÿ-¶ Exp@- HHu - nL ÿ G - mL ÿ S ÿ HHu - nL ÿ G - mL D †„ u§ = 2 Det@SD Det@GD 1 1 y ” ” t -1 t Ÿ-¶ Exp@- Hu - Hn + mÿ GLL ÿHG ◊S ◊ GL ÿ Hu - Hn + m ÿGLL D †„ u§ 2 1 H2 pLrê2 Det@Gt ÿ S ÿGD ” ” Damit ist gezeigt, dass der Zufallsvektor Y = n + Z ÿG mit dem Mittelwertsvektor n + mÿG und der Kovarianzmatrix t G ÿS ÿG multinormalverteilt ist. Aus diesem Satz folgt unmittelbar 23.6.3 Bemerkung: Ist der Zufallsvektor 8Z1 , Z2 , …, Zr < multinormalverteilt mit dem Mittelwertsvektor 8m1 , m2 , …, mr < und der Kovarianzmatrix 88sik <<i,kœ81,2,…,n< , so ist für alle 1 i1 i2 … is r der Zufallsvektor 8Zi , Zi , …, Zi < multinormalverteilt mit dem Mittelwertsvektor 8mi , mi , …, mi < und der 1 2 s 1 Kovarianzmatrix 88sik <<i,kœ8i ,i ,…,i < . 1 2 s 2 s ô Beweis: Diese Bemerkung folgt unmittelbar aus dem Satz über die affine Transformation von Multinormalverteilungen mit der r µs-Matrix 0 0 G= ª 0 … 0 … 0 … ª … 0 1 0 ª 0 0 … 0 0 … 0 ª ∏ ª 0 … 0 Æ i1 -te Spalte 0 1 ª 0 Æ i2 -te Spalte 0 … 0 0 … 0 ª ∏ ª 0 … 0 0 0 ª 1 Æ is -te Spalte 0 … 0 t 0 … 0 ª ∏ ª 0 … 0 23_Die_Normalverteilung.nb 159 Ein wichtiger Spezialfall dieser Bemerkung besagt 23.6.4 Bemerkung: Ist der Zufallsvektor 8Z1 , Z2 , …, Zr < multinormalverteilt mit dem Mittelwertsvektor 8m1 , m2 , …, mr < und der Kovarianzmatrix 88sik <<i,kœ81,2,…,n< , so ist dessen i-te Komponente Zi normalverteilt mit den Parametern mi und sii . Wir wissen bereits, dass unabhängige Zufallsvariable stets unkorreliert sind, umgekehrt aber unkorrelierte Zufallsvariable nicht notwendig unabhängig sein müssen. Weiß man aber, dass die gemeinsame Verteilung dieser Zufallsvariablen eine Multinormalverteilung ist, so gilt diese Umkehrung sehr wohl: 23.6.5 Bemerkung: Genügt der Zufallsvektor Z = 8Z1 , Z2 , …, Zr < einer @m, SD-Verteilung, so gilt: Die Zufallsvariablen Z1 , Z2 , …, Zr sind genau dann vollständig unabhängig, wenn die Kovarianzmatrix S eine Diagonalmatrix ist, die Zufallsvariablen Z1 , Z2 , …, Zr also paarweise unkorreliert sind. ô Beweis: Ist m = 8m1 , m2 , …, mr < œ r und ist S = Diag@s11 , s22 , …, srr D eine Diagonalmatrix mit lauter positiven ” Einträgen in der Diagonale, so gilt für alle Vektoren z = 8z1 , z2 , …, zr < œ r ” @zD = Z = 1 ” ” Exp@- Hz - mL ÿS-1 ÿ Hz - mLt D = 2 1 H2 pLrê2 Det@SD 1 2 p s11 2 p s22 … 2 p srr 2 2 2 ‰-Hz1 -m1 L êH2 s11 L ‰-Hz2 -m2 L êH2 s22 L … ‰-Hzr -mr L êH2 srr L Die gemeinsame Verteilungsdichte der Zufallsvariablen Z1 , Z2 , …, Zr ist damit wegen Bemerkung 23.6.4 gleich dem Produkt ihrer Marginalverteilungsdichten, womit wegen Bemerkung 19.1.2 gezeigt ist, dass die Zufallsvariablen Z1 , Z2 , …, Zr vollständig unabhängig sind. Von theoretischem Interesse ist die folgende Bemerkung 23.6.6 Bemerkung: Sind die Zufallsvariablen Z1 , Z2 , …, Zr vollständig unabhängig und @0, 1D-verteilt und ist P œ rr eine orthogonale Matrix (eine Matrix P œ rr heißt bekanntlich orthogonal, wenn Pt ÿP = E gilt), so sind auch die Zufallsvariablen Y1 , Y2 , …, Yr mit 8Y1 , Y2 , …, Yr < = 8Z1 , Z2 , …, Zr <ÿ P vollständig unabhängig und @0, 1D-verteilt. ô Beweis: Der Zufallsvektor Z = 8Z1 , Z2 , …, Zr < ist wegen Bemerkung 23.6.5 @0, ED-verteilt. Auf Grund des Satz über die affine Transformation von Multinormalverteilungen sowie der Tatsache, dass die Matrix P orthogonal ist, genügt auch der Zufallsvektor Y = 8Y1 , Y2 , …, Yr < = Z ÿ P einer @0, ED-Verteilung, also sind wegen Bemerkung 23.6.5 auch die Zufallsvariablen Y1 , Y2 , …, Yr vollständig unabhängig und @0, 1D-verteilt. Von besonderem Interesse ist der Fall r = 2, also der zweidimensionalen Normalverteilung: 23_Die_Normalverteilung.nb 160 23.6.7 Bemerkung: Ist der Zufallsvektor Z = 8Z1 , Z2 < zweidimensional normalverteilt mit dem Mittelwertsvektor m = 8m1 , m2 < und der Kovarianzmatrix S, so gilt a) Die Kovarianzmatrix S hat die Gestalt s1 2 · s1 s2 S= · s1 s2 s2 2 wobei s1 2 bzw s2 2 den Varianzen und · dem Korrelationskoeffizient der beiden Zufallsvariablen Z1 und Z2 entsprechen. b) Für die gemeinsame Verteilungsdichte der beiden Zufallsvariablen Z1 und Z2 gilt offenbar Z 1 1 Hz - m L2 z - m z - m2 Hz2 - m2 L2 ” @zD = Exp@I 1 1 -2r 1 1 2 + MD Z s1 s2 2H1 - r2L s12 s22 2p s1 s2 1 - r2 Wie bereits in Beispiel 17.6.3 festgestellt wurde, liefern Schnitte mit vertikalen Ebenen nicht normierte Gauß'sche Glockenkurven und Schnitte mit horizontalen Ebenen gedrehte Ellipsen mit dem Mittelpunkt m. c) Für die bedingte Verteilungsdichte Z 8Z =z < gilt wegen Bemerkung 18.2.3 2 1 1 1 1 r s2 Z 8Z =z < @z2 D = Exp@Iz2 - Hm2 + Hz1 - m1 LLM2 D 2 1 1 2 2 s1 2s2 H1 - r L 2p s2 1 - r2 Damit ist gezeigt, dass die Zufallsvariable Z2 unter der Bedingung 8Z1 = z1 < normalverteilt ist mit dem Erwartungswert m2 + r s2 Hz1 - m1 L ês1 und der Streuung s2 1 - r2 . Geometrisch erhält man diese bedingte Verteilungsdichte von Z2 unter der Bedingung 8Z1 = z1 <, indem man die gemeinsame Verteilungsdichte von Z1 und Z2 mit der vertikalen Ebene x = z1 schneidet und die dabei entstehende Schnittkurve normiert. d) Für den bedingten Erwartungswert @Z2 8Z1 = z1 <D gilt damit r s2 @Z2 8Z1 = z1 <D = m2 + Hz1 - m1 L s1 ô Beweis: a) Diese Bedeutung der Parameter der Kovarianzmatrix S folgt unmittelbar aus Bemerkung 23.6.4 und der Definition des Korrelationskoeffizienten r. c) Die bedingte Verteilungsdichte Z @z D = Z ,Z @z1 , z2 D ê Z @z1 D ermitteln wir mit Hilfe von Mathemat1 2 1 2 8Z1 =z1 < 2 ica: m = 8m1, m2<; S = 88s12 , r s1 s2<, 8r s1 s2, s22 <<; FullSimplify@PDF@MultinormalDistribution@m, SD, 8z1, z2<D ê PDF@NormalDistribution@m1, s1D, z1D, 8-1 < r < 1, s1 > Clear@m, SD Hz2 σ1−µ2 σ1+H−z1+µ1L ρ σ2L2 2 I−1+ρ2 M σ12 σ22 2π 1 − ρ2 σ2 Die Eigenschaft c) kann zur Simulation von @8m1 , m2 <, 88s1 2 , r s1 s2 <, 8r s1 s2 , s2 2 <<D-verteilten Zufallspunkten 8z1 , z2 < œ 2 herangezogen werden: Man erzeugt dazu zuerst die @m1 , s1 D-verteilte Zufallszahl z1 und anschließend die @m2 + r s2 Hz1 - m1 L ês1 , s2 1 - r2 D-verteilte Zufallszahl z2 . Eine allgemeine Möglichkeit ” zur Simulation von multinormalverteilten Zufallspunkten z œ r wird in Beispiel 23.6.9 besprochen. Es folgen wieder einige Beispiele, mit denen gezeigt wird, wie mit der Multinormalverteilung gearbeitet wird: 23_Die_Normalverteilung.nb 161 23.6.8 Beispiel (Der Log-Trig-Algorithmus): Man zeige: Sind die beiden Zufallsvariablen X1 und X2 unabhängig und im Intervall @0, 1D gleichverteilt, so sind die beiden Zufallsvariablen Z1 = -2 Log@X1 D Cos@2 p X2 D und Z2 = -2 Log@X1 D Sin@2 p X2 D unabhängig und @0, 1D-verteilt. Dieses Ergebnis liefert einen Algorithmus, mit dem im Intervall @0, 1D gleichverteilte Zufallszahlen in normalverteilte Zufallszahlen transformiert werden können. (Dieser Algorithmus ist aber für praktische Zwecke nicht geeignet, da die Berechnung der dabei auftretenden Funktionen sehr zeitaufwändig ist.) ô Lösung: Die Abbildung g : @0, 1D2 Ø 2 mit ” z = g@xD = g@8x1 , x2 <D = 8 -2 Log@x1 D Cos@2 p x2 D, -2 Log@x1 D Sin@2 p x2 D< ist bijektiv und besitzt die Umkehrabbildung g -1 : 2 Ø @0, 1D2 mit ” x = g -1 @zD = g -1 @8z1 , z2 <D = 8Exp@-Hz1 2 + z2 2 L ê 2D, ArcTan@z2 ê z1 D ê2 p< ” ” ” Berücksichtigt man die bekannte Tatsache, dass der infinitesimale Bereich g -1 @@z, z + „ zDD den Flächeninhalt ” ” ” ” ” †Det@ ∑ xê∑ zD§ †„ z§ besitzt, wobei wir mit ∑ xê∑ z die Funktionalmatrix der Funktion x = g -1 @zD an der Stelle z ” bezeichnen, sowie die Tatsache, dass X im Bereich @0, 1D2 gleichverteilt ist, so gilt für alle z œ 2 1 1 ” ” ” ” ” ” ” @zD = ” @8Z œ @z, z + „ zD<D = ” @8g -1 @ZD œ g -1 @@z, z + „ zDD<D = Z †„ z§ †„ z§ = 23.6.9 1 1 ” ” ” Exp@-Hz1 2 + z2 2 L ê 2D ” @g -1 @zDD †Det@ ∑ xê∑ zD§ †„ z§ = †„ z§ X 2p Beispiel: Man entwickle einen auf dem Satz über die affine Transformation von Multinormalverteilungen beruhenden Algorithmus, mit dem sich @0, ED-verteilte Zufallspunkte x œ r in ” @m, SD-verteilte Zufallspunkte z œ r transformieren lassen. Da sich @0, ED-verteilte Zufallspunkte leicht erzeugen lassen (man muss dazu nur entsprechend viele @0, 1D-verteilte Zufallszahlen erzeugen), verwendet man diesen Algorithmus häufig zu Erzeugung von @m, SD-verteilten Zufallspunkten. ô Lösung: Die Matrix S ist symmetrisch und positiv definit. Sie ist damit diagonalisierbar, wobei alle Eigenwerte ” ” ” l1 , l2 , …, lr positiv sind und die zugehörigen Eigenvektoren v1 , v2 , … vr paarweise orthonormiert gewählt t werden können. Bezeichnet man mit P jene orthogonale Matrix, deren Spalten aus diesen orthonormierten Eigen” ” ” vektoren v1 , v2 , … vr der Matrix S bestehen, so gilt bekanntlich P ÿ S ÿPt = Diag@l1 , l2 , …, lr D. Ist G = Diag@ l1 , l2 , …, lr D ÿP und X ein @0, ED-verteilter Zufallsvektor, so ist der Zufallsvektor Z = m + X ÿG wegen des Satzes über die affine Transformation multinormalverteilt mit dem Mittelwertsvektor m + 0 ÿ G = m und der Kovarianzmatrix Gt ÿ EÿG = Pt ÿDiag@l1 , l2 , …, lr D ÿ P = S. Dieser Vorgang lässt sich in Mathematica leicht implementieren: Man berechnet dazu zuerst mit Hilfe von Eigensystem die Eigenwerte und zugehörigen Eigenvektoren der symmetrischen und positiv definiten Matrix S, orthonormiert diese Eigenvektoren mit dem Befehl Orthogonalize und berechnet anschließend unter Verwendung des Befehls DiagonalMatrix die Matrix G. Schließlich wendet man die Transformation m + x ÿG auf eine Liste x von r @0, 1D-verteilten Zufallszahlen an (bei dem folgenden Algorithmus wird zusätzlich noch geprüft, ob die Matrix S tatsächlich symmetrisch und positiv definit ist, wobei gegebenenfalls eine Fehlermeldung ausgegeben wird): 23_Die_Normalverteilung.nb 162 NormalverteilterZufallspunkt@m_, S_D := Module@8r = Length@SD, e = N@Eigensystem@SDD, G<, G = DiagonalMatrix@[email protected]@eP2TD; If@S =!= Transpose@SD, Print@"S nicht symmetrisch"D, If@Positive@eP1TD =!= Table@True, 8r<D, Print@"S nicht positiv m + Table@RandomReal@NormalDistribution@0, 1DD, 8r<D.GDDD Beispielsweise gilt m = 82, 3, 1, 3<; S = 881, 1, 1, 2<, 81, 3, 1, 2<, 81, 1, 4, 1<, 82, 2, 1, 5<<; NormalverteilterZufallspunkt@m, SD Clear@m, SD 81.13126, 3.88876, −2.23091, 2.93927< Es sei erwähnt, dass Mathematica beim Aufruf von RandomReal@MultinormalDistribution@m, SDD genau diesen Algorithmus verwendet. 23.6.10 Beispiel (Der k-Sigma-Bereich): Für den mit dem Mittelwertsvektor m und der Kovarianzmatrix S multinormalverteilten Zufallsvektor Z = 8Z1 , Z2 , …, Zr < berechne man die Wahrscheinlichkeit dafür, dass Z ” ” ” im Ellipsoid Bk = 8z œ r ˝ Hz - mL ÿS-1 ÿHz - mLt k 2 < liegt. Man nennt dieses Ellipsoid Bk den rdimensionalen k-Sigma-Bereich der @m, SD-Verteilung. ô ” Lösung: Wir verwenden die Bezeichnungen von Beispiel 23.6.9 sowie die Transformation x = Hz - mL ÿ G-1 . Für die ” t Funktionaldeterminante Det@∑ z ê ∑ xD der dazu inversen Transformation gilt wegen G ÿ G = S ” Det@∑ z ê∑ xD = Det@GD = Det@SD und damit @8Z œ Bk <D = Ÿ … Ÿ Bk = = 1 H2 pLrê2 Ÿ…Ÿ Det@SD H2 pLrê2 8x ˝ xÿxt k 2 < 1 ” ” ” Exp@- Hz - mL ÿ S-1 ÿ Hz - mLt D †„ z§ = 2 1 Exp@Det@SD 1 xÿ xt D 2 Det@SD †„ x§ = 1 2 k k r-1 2 Exp@-r2 ê2D „ r Ÿ HExp@-r ê2D Ÿ∑K @rD „ OL „ r = rê2 Ÿ r 2 G@rê2D 0 H2 pLrê2 0 r wobei wir mit Ÿ∑K @rD „ O = H-1L r ∑ 8y1 , `rê2p 2r pê2 pê2 … pê2 Ÿ0 Ÿ0 Ÿ 0 ∑ 8r, j , 1 y2 , …, j2 , …, rê2 r-1 yr < „ j1 „ j2 … „ jr-1 = 2 p r jr-1 < G@r ê2D die Oberfläche einer r-dimensionalen Kugel Kr @rD mit Radius r bezeichnet haben. Die Berechnung dieses rdimensionalen Oberflächenintegrals kann dabei unter Verwendung der r-dimensionalen Kugelkoordinaten yr = r Cos@j1 D Cos@j2 D Cos@j3 D Cos@j4 D … Cos@jr-3 D yr-1 = r Sin@j1 D Cos@j2 D Cos@j3 D Cos@j4 D … Cos@jr-3 D yr-2 = r Sin@j2 D Cos@j3 D Cos@j4 D … Cos@jr-3 D … Sin@jr-3 D y3 = r y2 = r y1 = r Cos@jr-2 D Cos@jr-1 D Cos@jr-2 D Cos@jr-1 D Cos@jr-2 D Cos@jr-1 D Cos@jr-2 D Cos@jr-1 D Sin@jr-2 D Cos@jr-1 D Sin@jr-1 D 23_Die_Normalverteilung.nb 163 mit Hilfe der Mathematica-Prozedur y@2D = 8r Cos@j@1DD, r Sin@j@1DD<; x@2D = 8r, j@1D<; y@r_D := Append@y@r - 1D Cos@j@r - 1DD, r Sin@j@r - 1DDD; x@r_D := Append@x@r - 1D, j@r - 1DD; Oberfläche@r_D := 2r Integrate@Det@D@y@rD, 8x@rD<DD, Apply@Sequence, Table@8j@iD, 0, p ê 2<, 8i, 1, r - 1<DDD erfolgen. Damit gilt beispielsweise r = 5; Oberfläche@rD FullSimplify@Oberfläche@rD == 2 prê2 rr-1 ê Gamma@r ê 2DD Clear@rD 8 π2 ρ4 3 True Die Berechnung der Wahrscheinlichkeit des r-dimensionalen k-Sigma-Bereichs ist damit sehr einfach: Wahrscheinlichkeit@r_, k_D := 2 Integrate@rr-1 Exp@-r2 ê 2D, 8r, 0, k<D ê H2rê2 Gamma@r ê 2DL êê N r = 2; k = 2; Wahrscheinlichkeit@r, kD Clear@r, kD 0.864665 Die folgende Zeichnung zeigt einen zweidimensionalen @m, SD-verteilten Punktschwarm zusammen mit den Ein-, Zwei- und Drei-S-Bereichen. Bei den Rändern dieser Bereiche handelt es sich um Schnitte der Verteilungsdichte der @m, SD-Verteilung mit den horizontalen Ebenen z3 = ‰-k ê2 êH2 p Det@SD L mit k = 1, 2, 3. Weiters ist in diese Zeichnung auch der bedingte Erwartungswert z2 = @Z2 8Z1 = z1 <D als Funktion von z1 eingezeichnet. Es handelt sich dabei aber nicht! um die Achse dieser Schnittellipsen, sondern um eine Gerade, bei der die jeweiligen vertikalen Abstände zu den oberen und unteren Rändern dieser Schnittellipsen gleich sind. 2 z2 6 4 2 -4 -2 2 4 6 8 z1 23.6.11 Beispiel: Der @m, SD-verteilte zufällige Punkt Z = 8Z1 , Z2 < wird orthogonal auf die durch den Ursprung gehende Gerade y = k x projiziert. Man ermittle die Verteilungsdichte A @aD des Abstandes A des projizierten Punktes vom Ursprung. ô 23_Die_Normalverteilung.nb 164 Lösung: Es bezeichne g = 81 ê 1 + k2 , k ê 1 + k 2 < den Einheitsvektor in Richtung der Geraden y = k x. Auf Grund des Satzes über die affine Transformation von Multinormalverteilungen ist die Projektion Z ÿ g t von Z auf g normalverteilt mit dem Mittelwert n = mÿ g t = Hm1 + k m2 L ê 1 + k2 und der Streuung t= Is1 2 + 2 k r s1 s2 + k 2 s2 2 Më I1 + k 2 M g ÿ S ÿ gt = Der Abstand A = †Z ÿ g t § des projizierten Punktes vom Ursprung besitzt damit die Verteilungsdichte A @aD = : jn,t @aD + jn,t @-aD 0 für a ¥ 0 für a 0 wobei wir mit jn,t die Verteilungsdichte der Normalverteilung mit dem Mittelwert n und die Streuung t bezeichnen. Mit der folgenden Prozedur lässt sich diese Verteilungsdichte A für beliebige Werte von m, S und k graphisch darstellen (die Matrix S muss dabei natürlich symmetrisch und positiv definit sein): m = 82, 3<; S = 881, 1<, 81, 3<<; k = 3; g = 81, k< ê Sqrt@1 + k2 D; n = m.g; t = [email protected]; Plot@PDF@NormalDistribution@n, tD, aD + PDF@NormalDistribution@n, tD, -aD, 8a, 0, 10<, PlotStyle Æ [email protected], AspectRatio Æ 0.4, AxesLabel Æ 8a, A @aD<D Clear@m, S, k, g, n, tD A HaL 0.20 0.15 0.10 0.05 a 2 4 6 8 10 23.6.12 Beispiel: Zur Bestimmung des Standortes C eines Objekts wird dieses von den beiden c km voneinander entfernten Beobachtungspunkten A und B angepeilt und dabei die beiden Winkel U und V bestimmt. Da Winkelmessungen in der Regel mit Fehlern behaftet sind, können wir annehmen, dass es sich bei diesen beiden Winkeln U und V um Zufallsvariable handelt. Unter der Annahme, dass diese beiden Zufallsvariablen U und V unabhängig und mit den Mittelwerten a und b sowie der Streuung s normalverteilt sind, bestimme man die gemeinsame Verteilung der Koordinaten X und Y des Punktes C. ô Lösung: Wir veranschaulichen die Fragestellung an Hand einer Zeichnung: C Y U V A B X c Offenbar ist Y = X Tan@U D und Y = Hc - X L Tan@V D, was 23_Die_Normalverteilung.nb X= 165 c Cos@U D Sin@V D Sin@U + V D und Y= c Sin@U D Sin@V D Sin@U + V D zur Folge hat. Da s (als Maß für die Genauigkeit der Messung) üblicherweise klein ist und damit U und V nur wenig von ihren Mittelwerten a und b abweichen, gilt in erster Näherung (Entwicklung von X und Y in eine Taylorreihe, welche wir nach dem ersten Glied abbrechen - diesen Vorgang nennt man Linearisierung) X= c Sin@aD Cos@aD c Cos@aD Sin@ bD c Sin@ bD Cos@ bD HU - aL + HV - bL 2 Sin@a + bD Sin2 @a + bD Sin @a + bD Y= c Sin@aD Sin@ bD c Sin2 @ bD c Sin2 @aD + HU - aL + HV - bL Sin@a + bD Sin2 @a + bD Sin2 @a + bD ” oder in Matrixschreibweise 8X , Y < = n + 8U , V <ÿ G mit c Sin@ bD ” 8Cos@aD, Sin@aD< - 8a, b<ÿG n= Sin@a + bD G= c Sin2 @a + bD -Sin@ bD Cos@ bD Sin@aD Cos@aD Sin2 @ bD Sin2 @aD Bei der gemeinsamen Verteilung U,V der beiden Zufallsvariablen U und V handelt es sich um eine zweidimensionale Normalverteilung mit dem Mittelwertsvektor 8a, b< und der Kovarianzmatrix s2 E. Wegen des Satzes über die affine Transformation von Multinormalverteilungen handelt es sich daher bei der gemeinsamen Verteilung X ,Y der beiden Zufallsvariablen X und Y in erster Näherung um eine zweidimensionale Normalverteilung mit dem ” Mittelwertsvektor m = n + 8a, b<ÿ G und der Kovarianzmatrix S = s2 Gt ÿG. Bisher haben wir stets vorausgesetzt, dass die Kovarianzmatrix S einer Multinormalverteilung Am, SE symmetrisch und positiv definit ist. Ist S zwar symmetrisch aber nur positiv semidefinit (und nicht positiv definit), so spricht man von einer ausgearteten Multinormalverteilung. Experimentiert man mit den dynamischen Graphiken aus Beispiel 17.6.3, so erkennt man, dass es sich bei einer ausgearteten zweidimensionalen Normalverteilung um eine "eindimensionale Normalverteilung auf einer Geraden" handelt. Ohne auf den Beweis im Detail einzugehen erwähnen wir in diesem Zusammenhang: ” ” ” 23.6.13 Satz: Ist S œ rr eine symmetrische, positiv semidefinite Matrix mit Rang s r, sind v1 , v2 , …, vs die normierten und paarweise orthogonalen, zu den s positiven Eigenwerten der Matrix S gehörenden Eigenvek” ” ” toren und bezeichnet G = 8v1 , v2 , …, vs < œ sr jene Matrix, deren Spalten von diesen s Eigenvektoren gebildet werden, so gilt: a) Die ausgeartete Multinormalverteilung @m, SD besitzt als Träger m,S die lineare Mannigfaltigkeit ” ” ” m,S = 8m + l1 v1 t + l2 v2 t + … + ls vs t l1 , l2 , …, ls œ < b) Genügt der Zufallsvektor Z der r-dimensionalen, ausgearteten Multinormalverteilung @m, SD, so genügt der Zufallsvektor Y = Z ÿ G der s-dimensionalen, nicht ausgearteten Multinormalverteilung @m ÿG, Gt ÿ S ÿ GD ” (man beachte, dass es sich bei der Transformation y = z ÿ G um die orthogonale Projektion des r auf den von ” t ” t ” t den Vektoren v1 , v2 , …, vs aufgespannten Unterraum handelt). Wir veranschaulichen diesen Satz an einem Beispiel: 23.6.14 Beispiel: Der zweidimensionale Zufallsvektor Z genüge der ausgearteten Multinormalverteilung 1 -2 N @m, SD mit m = 83, 1< und S = J -2 4 Gesucht ist die Wahrscheinlichkeit @8Z œ R<D, wobei es sich bei der Menge R um ein Rechteck mit den Eckpunkten A = 81.5, 0.5<, B = 84.5, 0.5<, C = 84.5, 5.0< und D = 81.5, 5.0< handelt. 23_Die_Normalverteilung.nb 166 ô Lösung: Wir veranschaulichen die Fragestellung zuerst graphisch. In der folgenden Zeichnung ist das Rechteck R mit den Eckpunkten ABCD grün, der Träger der ausgearteten Multinormalverteilung als blaue Gerade und die Verteilungsdichte der Multinormalverteilung mit den Parametern m = 83, 1< und S ' = 881, -1.95<, 8-1.95, 4<< (es handelt sich dabei um eine nichtausgeartete Multinormalverteilung, deren Kovarianzmatrix S' mit der Kovarianzmatix S der zur Diskussion stehenden ausgearteten Multinormalverteilung fast übereinstimmt) auszugsweise als blaue Fläche dargestellt. Bei der ausgearteten zweidimensionalen Multinormalverteilung handelt es sich um eine eindimensionale Normalverteilung auf ihrem Träger - ihre Verteilungsdichte ist rot eingezeichnet. Die gesuchte Wahrscheinlichkeit @8Z œ R<D entspricht damit der gelb schraffierten Fläche unter dieser Verteilungsdichte, welche durch die beiden orangen Punkte P und Q begrenzt ist. Beim Intervall @P, QD handelt es sich dabei um den Durchschnitt des Rechecks R mit dem Träger der ausgearteten Multinormalverteilung. a) Man könnte die gesuchte Wahrscheinlichkeit @8Z œ R<D näherungsweise berechnen, indem man annimmt, dass der Zufallsvektor Z einer nichtausgearteten Multinormalverteilung mit dem Mittelwertsvektor m = 83, 1< und einer symmetrischen und positiv definiten Kovarianzmatrix S' genügt, welche sich von der Kovarianzmatix S nur geringfügig unterscheidet. Für zwei derartige Kovarianzmatrizen S1 und S2 erhält man beispielsweise m = 83, 1<; S1 = 881, -1.95<, 8-1.95, 4<<; S2 = 881, -2<, 8-2, 4.1<<; NIntegrate@PDF@MultinormalDistribution@m, S1D, 8x, y<D, 8x, 1.5, 4.5<, 8y, 0.5, 5<D NIntegrate@PDF@MultinormalDistribution@m, S2D, 8x, y<D, 8x, 1.5, 4.5<, 8y, 0.5, 5<D Clear@m, S1, S2D 0.531815 0.530708 b) Wir wollen nun die gesuchte Wahrscheinlichkeit @8Z œ R<D mit Hilfe von Satz 23.6.13 und den dort verwendeten Bezeichnungen berechnen: Dazu ermitteln wir zuerst mit Hilfe von Eigensystem die Eigenwerte und zugehörigen Eigenvektoren der Matrix S sowie die Matrix G (es handelt sich dabei um den Eigenvektor zum einzigen positiven Eigenwert der Matrix S) und berechnen den Mittelwert m ÿG und die Varianz Gt ÿ S ÿG der Zufallsvariablen Y = Z ÿG sowie die Projektionen p ÿ G und q ÿG der Schnittpunkte P und Q des Rechtecks R mit dem Träger unserer ausgearteten Multinormalverteilung. Die gesuchte Wahrscheinlichkeit @8Z œ R<D entspricht damit der Wahrscheinlichkeit @8Y œ @q ÿG, p ÿGD<D und lässt sich leicht berechnen: 23_Die_Normalverteilung.nb m = 83, 1<; S = 881, -2<, 8-2, 4<<; p = 81.5, 4<; q = 83.25, 0.5<; G = Eigensystem@SD@@2, 1DD; m.G; G.S.G; p.G; q.G; CDF@[email protected], [email protected], p.GD - CDF@[email protected], [email protected], q.GD Clear@m, S, p, q, GD 0.531899 167