§23 Die Normalverteilung

Werbung
§23 Die Normalverteilung
ô
Unter aller Verteilung tritt die Normalverteilung in den Anwendungen am häufigsten auf. Der Grund dafür ist der
zentrale Grenzverteilungssatz. Wir werden diesen zentralen Grenzverteilungssatz und seine Auswirkungen im
Detail diskutieren und uns anschließend ausführlich mit der Normalverteilung und ihren zahlreichen
Anwendungen befassen.
Mit der Normalverteilung sind eine Reihe von Verteilungen eng verbunden, welche vor allem in der Statistik eine
große Rolle spielen. Es handelt sich dabei um die Chi-Quadrat Verteilung, die Student T Verteilung und die
Fisher F Verteilung. Wir werden diese Verteilungen sowie die zu diesen Verteilungen führenden
Transformationen ausführlich besprechen und damit bereits viel Vorarbeit für im Rahmen der Statistik
durchzuführende Berechnungen leisten.
Darüber hinaus befassen wir uns in diesem Kapitel auch mit der Multinormalverteilung, welche ein natürliches
mehrdimensionales Analogon zur Normalverteilung darstellt.
23.1 Der zentrale Grenzverteilungssatz
Der zentrale Grenzverteilungssatz besagt, dass die Summe einer großen Anzahl von vollständig unabhängigen und
identisch verteilten, quadratisch integrierbaren Zufallsvariablen annähernd normalverteilt ist. Bevor wir diesen Satz
exakt formulieren, wollen wir ihn an einigen Spezialfällen veranschaulichen:
23.1.1 Bemerkung: In Beispiel 20.4.8 haben wir gezeigt, dass sich die @n, pD-Verteilung für große n durch
n p H1 - pL approximieren lässt. Dieses Ergebnis
lässt sich auch folgendermaßen interpretieren: Sind die Zufallsvariablen X1 , X2 , …, Xn vollständig unabhängig und identisch @1, pD-verteilt, so ist ihre bekanntlich @n, pD-verteilte Summe Zn = X1 + X2 + … + Xn
die Normalverteilung mit den Parametern m = n p und s =
annähernd @n p,
n p H1 - pL D-verteilt.
Wir erläutern die Auswirkungen dieser Erkenntnis an einigen Beispielen:
23.1.2 Beispiel: Eine homogene Münze wird n mal geworfen. Man bestimme die asymptotische Verteilung
der Anzahl der Runs und berechne damit näherungsweise die Wahrscheinlichkeit dafür, dass bei n = 100
Würfen mehr als r = 55 Runs auftreten.
ô
Lösung: Die Zufallsvariable Xi sei gleich 1 bzw 0 je nachdem, ob beim i-ten Wurf ein Adler bzw eine Zahl
erscheint. Ist g@x, yD = 1 - d x,y (wobei d x,y das Kroneckersymbol bezeichnet), so gilt für die Anzahl Zn der Runs
Zn = 1 + g@X1 , X2 D + g@X2 , X3 D + … + g@Xn-1 , Xn D
Nun sind aber die Zufallsvariablen g@X1 , X2 D, g@X2 , X3 D, …, g@Xn-1 , Xn D offensichtlich vollständig unabhängig
und wegen
@8g@Xk-1 , Xk D = 1<D = @8Xk-1 ∫ Xk <D = 1 ê2
identisch @1, 1 ê2D-verteilt. Ihre Summe ist daher @n - 1, 1 ê 2D-verteilt. Wegen Bemerkung 23.1.1 ist Zn für
große n somit näherungsweise @m, sD-verteilt mit
m = @Zn D = 1 + Hn - 1L ê 2 = Hn + 1L ê2
und
s=
@Zn D =
Für die gesuchte Wahrscheinlichkeit @8Zn > r<D gilt damit näherungsweise
Hn - 1L ê4
23_Die_Normalverteilung.nb
132
n = 100; r = 55;
1 - CDF@NormalDistribution@Hn + 1L ê 2, Sqrt@Hn - 1L ê 4DD, rD êê N
Clear@n, rD
0.182856
23.1.3 Beispiel: An einer Wahl zwischen zwei Kandidaten A und B nehmen n = 1 000 000 Wähler teil. Davon
kennen a = 2000 Wähler den Kandidaten A aus Wahlkampfveranstaltungen und stimmen geschlossen für ihn.
Die übrigen Wähler sind mehr oder weniger unentschlossen und treffen ihre Entscheidung unabhängig
voneinander durch Werfen einer Münze. Wie groß ist die Wahrscheinlichkeit p für einen Sieg von Kandidat A?
ô
Lösung: Die Zufallsvariable Xi sei gleich 1 bzw 0 je nachdem, ob der i-te unentschlossene Wähler Kandidat A bzw
Kandidat B wählt. Die Anzahl Zn-a = X1 + X2 + … + Xn-a der unentschlossenen Wähler, welche für Kandidat A
stimmen ist daher @Hn - aL, 1 ê2D-verteilt und damit annähernd @Hn - aL ê2, Hn - aL ê4 D-verteilt. Für die von uns
gesuchte Wahrscheinlichkeit p = @8Zn-a > 498 000<D gilt somit näherungsweise
n = 1 000 000; a = 2000; s = 498 000;
1 - CDF@NormalDistribution@Hn - aL ê 2, Sqrt@Hn - aL ê 4DD, sD êê N
Clear@n, a, sD
0.977358
23.1.4 Beispiel: Die Wahrscheinlichkeit @AD eines Ereignisses A lässt sich bekanntlich durch die relative
Häufigkeit @AD approximieren, wobei die folgende Faustregel gilt: "Soll der Fehler kleiner als 10-k sein, so
sind dazu etwa n = 10 2 k Wiederholungen erforderlich." Wir wollen diese Faustregel nun
wahrscheinlichkeitstheoretisch begründen und fragen dazu: "Wie oft muss ein Zufallsexperiment unabhängig
wiederholt werden, um mit einer vorgegebenen Wahrscheinlichkeit p sicher zu stellen, dass sich die relative
Häufigkeit @AD eines Ereignisses von der Wahrscheinlichkeit @AD dieses Ereignisses um weniger als ¶
unterscheidet?"
ô
Lösung: Die Zufallsvariable Xi sei gleich 1 bzw 0 je nachdem, ob beim i-ten Versuch das Ereignis A eintritt bzw
nicht eintritt. Ihre Summe X1 + X2 + … + Xn ist daher @n, @ADD-verteilt und somit für große n näherungsweise
@n @AD, n @AD H1 - @ADL D-verteilt. Aus dem Satz über die affine Transformation von Normalverteilungen
folgt damit
@8 @AD - @AD  ¶<D = @8
¥ @8
X1 + X2 + … + Xn - n @AD
X1 + X2 + … + Xn - n @AD
n @AD H1 - @ADL
n @AD H1 - @ADL
2

n ¶<D > @0, 1D @@-2
n
@AD H1 - @ADL
n ¶, 2
¶<D ¥
n ¶DD
wobei bei der Ungleichung "¥" die Tatsache verwendet wurde, dass stets @AD H1 - @ADL  1 ê4 gilt. Wählt man
nun n so, dass 2 n ¶ ¥ H1+ pLê2 ist, wobei wir mit q das q-Quantil der @0, 1D-Verteilung bezeichnen, so gilt
offenbar
@8 @AD - @AD  ¶<D ¥ @0, 1D @@-2
n ¶, 2
n ¶DD = @0, 1D @@-H1+ pLê2 , H1+ pLê2 DD ¥ p
An Hand der folgenden Zeichnung wird dieser Sachverhalt sofort klar:
23_Die_Normalverteilung.nb
133
Um mit einer vorgegebenen Wahrscheinlichkeit p sicher zu stellen, dass sich die relative Häufigkeit @AD eines
Ereignisses von der Wahrscheinlichkeit @AD dieses Ereignisses um weniger als ¶ unterscheidet, muss somit
n¥
1
I
M2 ¶-2
4 H1+ pLê2
gelten. Wir tabellieren den Faktor a = HH1+ pLê2 L2 ê4 für verschiedene Werte von p mit Mathematica und erkennen
dabei, wie unsere Faustregel zu verstehen ist: Soll etwa mit einer Wahrscheinlichkeit von p = 0.95 sicher gestellt
werden, dass sich die relative Häufigkeit @AD eines Ereignisses von der Wahrscheinlichkeit @AD dieses
Ereignisses um weniger als 10-k unterscheidet, so sind dazu n = 0.960365 µ 102 k Wiederholungen erforderlich.
TableForm@Table@8p, Quantile@NormalDistribution@0, 1D, H1 + pL ê 2D2 ê 4 <, 8p, 0.9, 0.99, 0.01<D,
TableSpacing Æ 81, 5<, TableHeadings Æ 8None, 8" p", "a"<<D
p
0.9
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
α
0.676386
0.718593
0.766225
0.820755
0.884346
0.960365
1.05447
1.17732
1.35297
1.65872
Nach diesem Spezialfall des zentralen Grenzverteilungssatzes, mit dem gezeigt wurde, dass die Summe von vielen
vollständig unabhängigen, identisch @1, pD-verteilten Zufallsvariablen annähernd normalverteilt ist, wollen wir
nun zeigen, dass auch die Summe von vielen vollständig unabhängigen, identisch verteilten, quadratisch integrierbaren Zufallsvariablen annähernd normalverteilt ist, wobei über die Verteilung dieser Zufallsvariablen keine
weiteren Aussagen gemacht werden:
Mit dem Befehl Approximation@distr, nD wird graphisch gezeigt, wie gut sich die (durch Simulation auf der Basis
von 10 000 Wiederholungen gewonnene empirische) Verteilungsfunktion der Summe von n vollständig unabhängigen, identisch gemäß der (in Mathematica implementierten) Verteilung distr verteilten Zufallsvariablen durch die
Verteilungsfunktion einer Normalverteilung, deren Erwartungswert und Streuung mit dem Erwartungswert und der
Streuung der Summe dieser n Zufallsvariablen überein stimmt, approximieren lässt:
Approximation@DiscreteUniformDistribution@80, 1<D, 50D
@zD
1.0
0.8
0.6
0.4
0.2
15
20
25
30
35
z
23_Die_Normalverteilung.nb
134
Approximation@UniformDistribution@80, 1<D, 12D
@zD
1.0
0.8
0.6
0.4
0.2
3
4
5
6
7
8
9
z
Durch Experimentieren mit verschiedenen (diskreten und stetigen) Verteilungen gewinnt man also die Erkenntnis:
23.1.5 Bemerkung: Für großes n lässt sich die Verteilung der Summe Zn = X1 + X2 + … + Xn von n vollständig unabhängigen, identisch X -verteilten, quadratisch integrierbaren Zufallsvariablen durch eine Nor-
malverteilung mit den Parametern m = n @X D und s =
ist jeweils im Einzelfall zu überprüfen.
n @X D approximieren. Wie groß dabei n sein soll,
Wir erläutern diese Erkenntnis wieder an Hand von Beispielen:
23.1.6 Beispiel: Aus dem Intervall @0, 1D wird zufällig eine Zahl ausgewählt. Man bestimme die Verteilung
der Summe der ersten n (n groß) Ziffern ihrer Dezimalbruchentwicklung und berechne damit näherungsweise
die Wahrscheinlichkeit dafür, dass die Summe der ersten n = 100 Ziffern der Dezimalbruchentwicklung einer
zufällig aus dem Intervall @0, 1D ausgewählten Zahl größer als s = 500 ist.
ô
Lösung: Wir bezeichnen mit Xi die i-te Ziffer der Dezimalbruchentwicklung einer zufällig aus dem Intervall @0, 1D
ausgewählten Zahl. Die Zufallsvariablen X1 , X2 , …, Xn sind offenbar vollständig unabhängig und auf der Menge
80, 1, 2, …, 9< gleichverteilt. Wegen Bemerkung 23.1.5 (man vergleiche auch die folgende Graphik)
Approximation@DiscreteUniformDistribution@80, 9<D, 100D
@zD
1.0
0.8
0.6
0.4
0.2
450
500
z
ist ihre Summe Zn = X1 + X2 + … + Xn damit annähernd @m, sD-verteilt mit m = 9 n ê2 und s =
33 n ê 2.
8m = n Mean@DiscreteUniformDistribution@80, 9<DD,
s = Sqrt@nD StandardDeviation@DiscreteUniformDistribution@80, 9<DD<
:
9n
33
,
2
2
n
>
Für die gesuchte Wahrscheinlichkeit @8Zn > s<D gilt somit näherungsweise
n = 100; s = 500;
1 - CDF@NormalDistribution@m, sD, sD êê N
Clear@m, s, n, sD
0.0408614
23.1.7 Beispiel: Sei f : @0, 1D Ø eine quadratisch integrierbare Funktion und X1 , X2 , …, Xn vollständig
23_Die_Normalverteilung.nb
135
unabhängige, auf dem Intervall @0, 1D gleichverteilte Zufallsvariable. Wie groß muß n mindestens sein, um mit
der Wahrscheinlichkeit p sicher zu stellen, dass
1
1
Jn = ⁄ni=1 f @Xi D von J = Ÿ f @zD „ z = @ f @X1 DD
0
n
um weniger als ¶ abweicht? (Diese Überlegung ist wesentlich für die Monte-Carlo-Methode zur
näherungsweisen Berechnung von Integralen, da damit eine Aussage über den Fehler gemacht werden kann.)
ô
Lösung: Wegen Bemerkung 23.1.5 ist die Summe f @X1 D + f @X2 D + … + f @Xn D für große n annähernd normalverteilt mit den Parametern m = n @ f @X1 DD und s =
n @ f @X1 DD . Aus dem Satz über die affine Transforma-
tion von Normalverteilungen folgt damit
f @X1 D + f @X2 D + … + f @Xn D - n @ f @X1 DD
@8 Jn - J  ¶<D = @8
n @ f @X1 DD
n
> @0, 1D @@-
@ f @X1 DD
¶,
n

n
@ f @X1 DD
¶<D >
¶DD
@ f @X1 DD
Wählt man also n so, dass
n
@ f @X1 DD
¶ ¥ H1+ pLê2
ist, wobei wir mit q wieder das q-Quantil der @0, 1D-Verteilung bezeichnen, so gilt (an Hand einer Zeichnung
wird dieser Sachverhalt unmittelbar klar)
@8 Jn - J  ¶<D > @0, 1D @@-
n
@ f @X1 DD
¶,
n
@ f @X1 DD
¶DD ¥ p
Um mit der vorgegebenen Wahrscheinlichkeit p sicher zu stellen, dass sich die Summe Jn vom Integral J um
weniger als ¶ unterscheidet, muss daher
n ¥ HH1+ pLê2 L2 @ f @X1 DD ¶-2 = HH1+ pLê2 L2 HŸ 1 f @zD2 „ z - HŸ 1 f @zD „ zL2 L ¶-2
0
0
sein. Ist man in der Lage, den Ausdruck Ÿ 1 f @zD2 „ z - HŸ 1 f @zD „ zL2 zu berechnen (oder abzuschätzen), so lässt
0
0
sich aus dieser Beziehung die Größe n leicht ermitteln.
1
2
23.1.8 Beispiel: In Beispiel 16.6.3 haben wir das Integral Ÿ ‰-z „ z mit Hilfe der Monte-Carlo-Methode
0
näherungsweise berechnet und ohne zu überlegen n = 104 gesetzt. Wie groß muss n aber tatsächlich sein, um
mit einer Wahrscheinlichkeit von p = 0.99 sicher zu stellen, dass der mit der Monte-Carlo-Methode ermittelte
Wert vom tatsächlichen Wert des Integrals um weniger als ¶ = 10-2 abweicht?
ô
Lösung: In Beispiel 23.1.7 haben wir gezeigt, dass
1
0
2
1
0
2
n ¥ HH1+ pLê2 L2 HŸ ‰-2 z „ z - HŸ ‰-z „ zL2 L ¶-2
sein muss, um mit einer Wahrscheinlichkeit von p = 0.99 sicher zu stellen, dass der mit der Monte-Carlo-Methode
ermittelt Wert vom tatsächlichen Wert des Integrals um weniger als ¶ = 10-2 abweicht. Wegen
23_Die_Normalverteilung.nb
136
p = 0.99; ¶ = 10-2 ; quantil = Quantile@NormalDistribution@0, 1D, H1 + pL ê 2D ;
var = Integrate@Exp@-2 z2 D, 8z, 0, 1<D - HIntegrate@Exp@-z2 D, 8z, 0, 1<DL2 ;
quantil2 var ¶-2
Clear@p, ¶, quantil, varD
2680.35
muss daher n ¥ 2681 sein. In diesem Fall ist sicher gestellt, dass der mit der Monte-Carlo-Methode ermittelte Wert
vom tatsächlichen Wert des Integrals in höchstens einem von 100 Fällen um mehr als 10-2 abweicht.
23.1.9 Beispiel: Aus Bemerkung 23.1.5 folgt: Sind die Zufallsvariablen X1 , X2 , …, X12 vollständig
unabhängig und im Intervall @0, 1D gleichverteilt, so ist die Zufallsvariable Z = X1 + X2 + … + X12 annähernd
@6, 1D-verteilt (diese Tatsache wird dazu verwendet, um aus im Intervall @0, 1D gleichverteilten
Zufallszahlen @0, 1D-verteilte Zufallszahlen zu erzeugen). Man berechne den maximalen Unterschied
zwischen der Verteilungsfunktion Z der Zufallsvariablen Z und der Verteilungsfunktion f der @0, 1DVerteilung.
ô
Lösung: Für die Berechnung der Verteilungsfunktion Z der Zufallsvariablen Z = X1 + X2 + … + X12 verwenden
wir die Laplace-Transformation: Da die Zufallsvariablen X1 , X2 , …, X12 im Intervall @0, 1D gleichverteilt und
vollständig unabhängig sind, gilt für die Laplace-Transformierte Z wegen Satz 20.2.12 und Beispiel 20.2.3
Z @sD = @80,1<D @sD12 = H
1 - ‰-s 12
L
s
Die Verteilungsfunktion Z von Z erhält man, indem man auf diese Laplace-Transformierte Z @sD den Befehl
InverseLaplaceTransform anwendet und von diesem Ergebnis die Stammfunktion bildet.
fZ@x_D = InverseLaplaceTransform@H1 - „-s L12 ê s12 , s, xD;
FZ@z_D = Integrate@fZ@xD, 8x, 0, z<, Assumptions Æ 8z Œ Reals<D;
Wir vergleichen nun die auf diese Weise ermittelte Verteilungsfunktion Z von Z mit der Verteilungsfunktion der
@6, 1D-Verteilung und erhalten als maximalen Unterschied dieser beiden Verteilungsfunktionen den Wert
Max@Table@Abs@FZ@zD - CDF@NormalDistribution@6, 1D, zDD, 8z, 0, 12, 1 ê 1000<D êê ND
0.00233593
Nach diesen Vorbereitungen wenden wir uns nun direkt dem zentralen Grenzverteilungssatz zu, wobei wir auf den
Beweis dieses tiefliegenden Satzes nicht näher eingehen:
23.1.10 Satz (Der zentrale Grenzverteilungssatz): Sind die Zufallsvariablen X1 , X2 , … vollständig unabhängig, identisch verteilt und quadratisch integrierbar, so gilt für alle z œ HX1 + X2 + … + Xn L - @X1 + X2 + … + Xn D
lim @8
 z<D = f@zD
nض
@X1 + X2 + … + Xn D
wobei wir mit f die Verteilungsfunktion der @0, 1D-Verteilung bezeichnen. Dieser Satz drückt die bereits
mehrfach angesprochene Tatsache aus, dass die Summe einer großen Anzahl von vollständig unabhängigen,
identisch verteilten, quadratisch integrierbaren Zufallsvariablen annähernd normalverteilt ist.
Zu diesem Satz sind einige Ergänzungen angebracht:
† In der Sprechweise von Definition 20.4.5 besagt der zentrale Grenzverteilungssatz: Sind die Zufallsvariablen
X1 , X2 , … vollständig unabhängig, identisch verteilt und quadratisch integrierbar und bezeichnet für jedes n œ 23_Die_Normalverteilung.nb
Zn =
137
HX1 + X2 + … + Xn L - @X1 + X2 + … + Xn D
@X1 + X2 + … + Xn D
so konvergiert die Folge HZn Lnœ in Verteilung gegen eine @0, 1D-verteilte Zufallsvariable Z.
† Wie sich an Hand von Gegenbeispielen zeigen lässt, reichen die paarweise Unabhängigkeit der Zufallsvariablen
X1 , X2 , … bzw die einfache Integrierbarkeit für die Gültigkeit des zentralen Grenzverteilungssatzes nicht! aus.
† Besitzen die vollständig unabhängigen und identisch verteilten Zufallsvariablen X1 , X2 , … sogar ein drittes
Moment, so lässt sich die Konvergenzgeschwindigkeit durch die Ungleichung von BERRY-ESSÉEN abschätzen:
sup @8
zœ
HX1 + X2 + … + Xn L - @X1 + X2 + … + Xn D
@X1 + X2 + … + Xn D
 z<D - f@zD  0.8
@ X1 - @X1 D 3 D
n
@X1 D3ê2
1
† Bei der Ungleichung von BERRY-ESSÉEN handelt es sich um eine relativ schwache Abschätzung; die tatsächlichen Unterschiede sind meist wesentlich kleiner, wie eine mit Hilfe von Approximation@distr, nD ermittelte
Graphik zeigt.
† Der zentrale Grenzverteilungssatz erfuhr im Laufe der Zeit eine Reihe von Verallgemeinerungen. Vor allem die
Voraussetzung, dass die quadratisch integrierbaren Zufallsvariablen X1 , X2 , … identisch verteilt sind, konnte
durch wesentlich schwächere Voraussetzungen ersetzt werden. Die schwächste dieser Voraussetzungen stammt von
LINDEBERG-FELLER. Etwas schlampig ausgedrückt besagt diese Voraussetzung von LINDEBERG-FELLER, dass
die Zufallsvariablen X1 , X2 , … etwa "gleich groß" sein müssen, also keine dieser Zufallsvariablen die anderen
Zufallsvariablen dominieren darf. Auch die Voraussetzung der vollständigen Unabhängigkeit konnte durch etwas
schwächere Voraussetzungen ersetzt werden, worauf wir aber nicht näher eingehen wollen.
23_Die_Normalverteilung.nb
138
† Natürlich existiert auch ein mehrdimensionales Analogon des zentralen Grenzverteilungssatzes. Dieses besagt,
dass die Summe einer großen Anzahl von vollständig unabhängigen, identisch verteilten, quadratisch integrierbaren
Zufallsvektoren annähernd multinormalverteilt ist.
23.1.11 Beispiel: Man entwickle einen Befehl, mit dem sich für beliebige n œ und eine beliebige in
Mathematica implementierte Verteilung distr die rechte Seite der Ungleichung von BERRY-ESSÉEN
berechnen lässt. Für die Gleichverteilung auf dem Intervall @0, 1D vergleiche man die damit erzielte
Abschätzung mit dem in Beispiel 23.1.9 ermittelten maximalen Unterschied.
ô
Lösung: Der Befehl
BerryEsseen@n_, distr_D := 0.8 ExpectedValue@Abs@x - Mean@distrDD3 , distr, xD ê Sqrt@n Variance@distrD3 D êê N
liefert offensichtlich den gewünschten Wert. Verglichen mit dem in Beispiel 23.1.9 ermittelten maximalen Unterschied von 0.00233593 ist die damit erzielte Abschätzung
BerryEsseen@12, UniformDistribution@80, 1<DD
0.3
aber ziemlich schlecht.
Messgrößen setzen sich üblicherweise aus vielen vollständig unabhängigen Einflussgrößen additiv zusammen und
sind wegen des zentralen Grenzverteilungssatzes somit in der Regel @m, sD-verteilt. Diese Tatsache war bereits
lange vor der Entdeckung des zentralen Grenzverteilungssatzes bekannt. Man glaubte damals, dass es eben normal
sei, dass Messgrößen normal-verteilt sind. Im Zusammenhang mit einer @m, sD-verteilten Messgrößen Z nennt
man @ZD = m den systematischen Fehler und @ Z - m D = 2 êp s den mittleren Fehler.
23.1.12 Beispiel: Ein Messgerät ohne systematischen Fehler besitze einen mittleren Fehler von m = 40.
Wieviele Messungen müssen mit diesem Gerät durchgeführt werden, um mit der Wahrscheinlichkeit von
p = 0.9 sicher zu stellen, dass der absolute Fehler in mindestens einer dieser Messungen den Wert f = 7.5
nicht überschreitet.
ô
Lösung: Die Zufallsvariable Xi beschreibe den Fehler der i-ten Messung. Aus der Angabe entnimmt man, dass die
Zufallsvariablen X1 , X2 , … vollständig unabhängig und @0, pê2 mD-verteilt sind. Gesucht ist nun die kleinste
Zahl n œ mit der Eigenschaft
p  @8Min@†X1 §, †X2 §, …, †Xn §D  f <D = 1 - @8Min@†X1 §, †X2 §, …, †Xn §D > f <D =
= 1 - @8†X1 § > f <D @8†X2 § > f <D … @8†Xn § > f <D = 1 - H2 @8X1  - f <DLn
Mit Hilfe von Mathematica lässt sich leicht zeigen, dass dazu mindestens n = 19 Messungen durchgeführt werden
müssen:
m = 40; f = 7.5; s = Sqrt@p ê 2D m;
TableA9n, 1 - H2 CDF@NormalDistribution@0, sD, -fDLn =, 8n, 10, 20<E
Clear@m, f, sD
8810, 0.71807<, 811, 0.751598<, 812, 0.781138<,
813, 0.807166<, 814, 0.830098<, 815, 0.850303<, 816, 0.868106<,
817, 0.883791<, 818, 0.897611<, 819, 0.909787<, 820, 0.920515<<
23_Die_Normalverteilung.nb
23.2 Die Normalverteilung @m, sD
Wir fassen die bereits bekannten Eigenschaften der Normalverteilung @m, sD zusammen:
23.2.1 Bemerkung: Die Normalverteilung @m, sD besitzt den Träger
=
die Verteilungsdichte
1
2
2
@zD =
‰- Hz-mL êH2 s L
2p s
und die Verteilungsfunktion
1
1
z-m
z -Ht-mL2 êH2 s2 L
@zD =
„ t = H1 + Erf @
DL
Ÿ-¶ ‰
2
2p s
2 s
Eine @m, sD-verteilte Zufallsvariable Z besitzt den Erwartungswert
@ZD = m
und die Varianz
@ZD = s2
Für Normalverteilungen gilt die Faltungsformel
@m, sD * @n, tD = @m + n, Sqrt@s2 + t2 DD
Weiters besagt der Satz über die affine Transformation von Normalverteilungen: Ist die Zufallsvariable Z
normalverteilt mit den Parametern m und s, so ist die Zufallsvariable Y = x Z + h normalverteilt mit den
Parametern x m + h und s †x§. Daraus folgt speziell: Ist die Zufallsvariable Z normalverteilt mit den Parametern
m und s, so ist die Zufallsvariable Y = HZ - mL ê s normalverteilt mit den Parametern 0 und 1 (man spricht in
diesem Zusammenhang von der Standardisierung der Normalverteilung).
139
23_Die_Normalverteilung.nb
140
Es folgen wieder einige Beispiele, mit denen gezeigt werden soll, wie mit der Normalverteilung gearbeitet wird:
23.2.2 Beispiel: Eine Walze wird zugelassen, wenn ihr Durchmesser X der Bedingung 0.96  X  1.04
genügt. Erfahrungsgemäß sind 3.5 % der Walzen zu dick und 1.5 % der Walzen zu dünn. Unter der Annahme,
dass X normalverteilt ist, berechne man den Erwartungswert m und die Streuung s von X .
ô
Lösung: Wir haben die beiden Parameter m und s der Verteilung X = @m, sD von X so zu bestimmen, dass die
beiden Bedingungen @8X > 1.04<D = 0.035 und @8X  0.96<D = 0.015 erfüllt sind. Diese Aufgabe lässt sich
mühelos mit Hilfe des Befehls FindRoot mit den nahliegenden Startwerten m0 = 1 und s0 = 0.01 lösen:
FindRoot@81 - CDF@NormalDistribution@m, sD, 1.04D ä 0.035, CDF@NormalDistribution@m, sD, 0.96D ä 0.015<, 88m, 1<
8µ → 1.0036, σ → 0.0200904<
23.2.3 Beispiel: Ein Sender sendet die Signale 0 und 1 aus, die bei der Übermittlung verrauscht werden und
beim Empfänger als @0, s0 D- bzw @1, s1 D-verteilte Signale eintreffen. Der Empfänger identifiziert ein
Signal als 0, wenn das eintreffende Signal kleiner als eine gewisse Schranke c ist und als 1, wenn das
eintreffende Signal größer als diese Schranke c ist. Wie groß soll c gewählt werden, damit die
Fehlerwahrscheinlichkeit minimal wird.
0
1
0
1
c
23.2.4 Beispiel: Ist die Zufallsvariable Z normalverteilt mit den Parametern m und s, so nennt man das
Intervall @m - k s, m + k sD den k-Sigma-Bereich. Man berechne für beliebige k œ die Wahrscheinlichkeit
w@kD des k-Sigma-Bereichs.
ô
Lösung: Wegen des Satzes über die affine Transformation von Normalverteilungen gilt für alle k œ w@kD = @8Z œ @m - k s, m + k sD<D = @8HZ - mL ês œ @-k, kD<D = f@kD - f@-k D
wobei wir mit f die Verteilungsfunktion der @0, 1D-Verteilung bezeichnen. (Wir erkennen dabei, dass die
Wahrscheinlichkeit w@kD des k-Sigma-Bereiches nicht! von den Parametern m und s abhängt). Diese Wahrscheinlichkeit lässt sich leicht tabellieren (für die Praxis ist in erster Linie die Wahrscheinlichkeit des Ein-, Zwei- und
Drei-Sigma-Bereichs von Bedeutung):
w@k_D := N@CDF@NormalDistribution@0, 1D, kD - CDF@NormalDistribution@0, 1D, -kD, 10D
TableForm@Table@8k, w@kD<, 8k, 1, 6<D, TableHeadings Æ 8None, 8"k", "w@kD"<<, TableSpacing Æ 81, 5<D
k
1
2
3
4
5
6
w@kD
0.6826894921
0.9544997361
0.9973002039
0.9999366575
0.9999994267
0.9999999980
23_Die_Normalverteilung.nb
141
Die folgende Skizze veranschaulicht den Ein-, Zwei- und Drei-Sigma-Bereich zusammen mit den zugehörigen
Wahrscheinlichkeiten w@kD (dabei handelt es sich um die entsprechenden Flächen unter der Verteilungsdichte):
0.4
0.3
0.2
0.1
m-3s
m-2s
m-s
m
m+s
m+2s
m+3s
23.2.5 Beispiel: Ein Schiff passiert eine 10 km breite Meerenge. An den beiden Ufern dieser Meerenge
befinden sich Leuchttürme, deren Leuchtfeuer man X bzw Y km weit sehen kann. Unter der Annahme, dass die
beiden Zufallsvariablen X und Y unabhängig und @7, 1D-verteilt sind, berechne man die Wahrscheinlichkeit p
dafür, dass von einem Schiff, das die Meerenge Z km vom linken Ufer entfernt passiert, beide Leuchtfeuer
gesehen werden können, wenn man annimmt, dass Z im Intervall @0, 10D gleichverteilt ist?
ô
Lösung: Unter Verwendung des Satzes von der totalen Wahrscheinlichkeit in differenzieller Form und der Tatsache, dass die drei Zufallsvariablen X, Y und Z vollständig unabhängig sind, ergibt sich für die von uns gesuchte
Wahrscheinlichkeit
¶
p = @8X > Z< › 8Y > 10 - Z<D = Ÿ-¶ @8X > Z< › 8Y > 10 - Z< 8Z = z<D Z @zD „ z =
¶
= Ÿ-¶ @8X > z<D @8Y > 10 - z<D Z @zD „ z = Ÿ 10 H1 - X @zDL H1 - Y @10 - zDL 10-1 „ z
0
Wir werten dieses Integral mit Hilfe von NIntegrate aus und erhalten
NIntegrate@H1 - CDF@NormalDistribution@7, 1D, zDL H1 - CDF@NormalDistribution@7, 1D, 10 - zDL, 8z, 0, 10<D ê
10
0.400021
23.2.6 Beispiel: Bei einer Werbeaktion eines Versandhauses sollen die ersten 1000 Einsender einer
Bestellung eine Damen- bzw Herrenarmbanduhr als Geschenk erhalten. Wir nehmen an, dass sich beide
Geschlechter gleichermaßen von dem Angebot angesprochen fühlen. Wieviele Damen- bzw
Herrenarmbanduhren sollte das Versandhaus vorrätig haben, damit mit einer Wahrscheinlichkeit von
mindestens 98 % alle 1000 Einsender eine passende Uhr erhalten?
ô
Lösung: Wir bezeichnen mit X die Anzahl der Damen unter den ersten 1000 Einsendern. Die Zufallsvariable X ist
offenbar @1000, 1 ê2D-verteilt und damit wegen Bemerkung 23.1.1 annähernd @500, 250 D-verteilt. Falls das
Versandhaus a Damen- bzw Herrenarmbanduhren vorrätig hat, so werden mit einer Wahrscheinlichkeit von
@8X  a< › 81000 - X  a<D = @81000 - a  X  a<D = X @aD - X @1000 - aD
alle 1000 Einsender eine passende Uhr erhalten. Wir berechnen mit Hilfe von Mathematica diese Wahrscheinlichkeit für einige Werte von a und erkennen, dass a ¥ 537 sein muss, damit alle 1000 Einsender mit einer
Wahrscheinlichkeit von mindestens 98 % eine passende Uhr bekommen.
Table@8a, CDF@NormalDistribution@500, Sqrt@250DD, aD - CDF@NormalDistribution@500, Sqrt@250DD, 1000 - aD êê N<, 8
88530, 0.94222<, 8531, 0.950076<, 8532, 0.957015<,
8533, 0.963121<, 8534, 0.968472<, 8535, 0.973143<, 8536, 0.977204<,
8537, 0.980721<, 8538, 0.983754<, 8539, 0.986359<, 8540, 0.988588<<
23_Die_Normalverteilung.nb
142
23.2.7 Beispiel: Ein Unternehmen hat insgesamt n = 1000 Aktien ausgegeben. Ihre Besitzer entscheiden sich
bei jeder Aktie mit einer Wahrscheinlichkeit von 0  p  1 zum Verkauf. Diese Entscheidungen finden
unabhängig voneinander statt. Der Markt kann s = 50 Aktien aufnehmen, ohne dass der Kurs fällt. Wie groß
darf p höchstens sein, damit der Kurs mit einer Wahrscheinlichkeit von 90 % nicht fällt.
ô
Lösung: Wir bezeichnen mit X die Anzahl der Aktien, die zum Verkauf angeboten werden. Die Zufallsvariable X
ist offenbar @n, pD-verteilt und damit wegen Bemerkung 32.1.1 annähernd @n p,
n p H1 - pL D-verteilt. Um mit
einer Wahrscheinlichkeit von 90 % sicher zu stellen, dass der Kurs der Aktie nicht fällt, darf p höchstens so groß
sein, dass @8X  s<D = 0.90 ist. Wir werten diese Beziehung unter Verwendung von Solve aus:
n = 1000; s = 50;
Solve@CDF@NormalDistribution@n p, Sqrt@n p H1 - pLDD, sD ä 0.90, pD
Clear@n, sD
88p → 0.0418818<<
23.2.8 Beispiel: Die Zufallsvariable Z sei @0, sD-verteilt. Man bestimme die Streuung s so, dass die
Wahrscheinlichkeit des Ereignisses 8a  Z  b< mit 0  a  b maximal ist.
ô
Lösung: Wir haben die Streuung s so zu bestimmen, dass
p@sD = @8a  Z  b<D = Z @bD - Z @aD
maximal ist. Wir differenzieren dazu p@sD nach s, ermitteln mit Hilfe von Solve jenen Wert von s, für den diese
Ableitung gleich Null ist und berücksichtigen außerdem mit Hilfe von FullSimplify die Tatsache, dass 0  a  b
vorausgesetzt wurde:
FullSimplify@Solve@D@CDF@NormalDistribution@0, sD, bD - CDF@NormalDistribution@0, sD, aD, sD ä 0, sD,
0 < a < bD
::σ → −
1
2 a2 − 2 b2
2
a
LogB F
b
>, :σ →
1
2 a2 − 2 b2
2
a
LogB F
b
>>
Für den gesuchten Wert von s (s muss positiv sein) gilt damit
s=
2 b2 - 2 a2 L êHLog@bD - Log@aDL
23.2.9 Beispiel: Wie stark darf eine @0, sD-verteilte Zufallsvariable Z maximal streuen, wenn sie mit einer
Wahrscheinlichkeit von mindestens 0.999 innerhalb des Toleranzbereiches @-a, aD liegen soll?
ô
Lösung: Wir haben die Streuung s so zu bestimmen, dass
p@sD = @8-a  Z  a<D = Z @aD - Z @-aD = 0.999
gilt. Mit Hilfe von Solve
23_Die_Normalverteilung.nb
Solve@CDF@NormalDistribution@0, sD, aD - CDF@NormalDistribution@0, sD, -aD ä 0.999, sD
88σ → 0.303903 a<<
ergibt sich für s der Wert s = 0.303903 a.
143
23_Die_Normalverteilung.nb
144
23.2.10 Beispiel: Ein zufälliger Punkt der Ebene besitze unabhängige, @0, 1D-verteilte Koordinaten X und Y.
Man ermittle die Verteilung seiner Polarkoordinaten R und F und zeige, dass R und F unabhängig sind.
ô
Lösung: Da X und Y unabhängig und @0, 1D-verteilt sind, gilt für alle x, y œ offenbar
X ,Y @x, yD =
1 -Hx2 +y2 Lê2
‰
2p
Bezeichnet nun für alle r ¥ 0 Kr = 88x, y< œ 2 ˝ x2 + y2  r< einen Kreis mit Radius r und für alle j œ @0, 2 p@
Sj = 88x, y< œ 2 ˝ Arg@x + y ÂD  j< einen Sektor mit Winkel j, so erhält man (Übergang zu Polarkoordinaten)
r
2p 1
R @rD = @88X , Y < œ Kr <D = Ÿ Ÿ X ,Y @x, yD „ x „ y = Ÿ HŸ
0 0
Kr
2p
2
2
‰-r ê2 r „ yL „ r = 1 - ‰-r ê2
sowie
j
j ¶ 1 -r2 ê2
‰
r „ rL „ y =
0 0 2p
2p
F @jD = @88X , Y < œ Sj <D = Ÿ Ÿ X ,Y @x, yD „ x „ y = Ÿ HŸ
Sj
und damit
R,F @r, jD = @88X , Y < œ Kr › Sj <D =
ŸŸ
Kr ›Sj
X ,Y @x, yD „ x „ y =
j
2
r j 1 -r2 ê2
= Ÿ HŸ
‰
r „ yL „ r = H1 - ‰-r ê2 L
= R @rD F @jD
0 0 2p
2p
Die Tatsache, dass die beiden Zufallsvariablen R und F unabhängig sind und F im Intervall @0, 2 pD gleichverteilt
ist, lässt sich auch graphisch veranschaulichen: Simuliert man n derartige Punkte, so ergibt sich ein annähernd
kreisförmiger Punktschwarm. Die dabei in den (schmalen) Kreisring mit den Radien r1  r2 fallenden Punkte sind
unabhängig von diesen Radien innerhalb dieses Kreisrings gleichverteilt:
n = 200; r1 = 1.3; r2 = 1.5;
p1 = Graphics@Table@[email protected], Point@RandomReal@NormalDistribution@0, 1D, 2DD<, 8n<DD;
c1 = Graphics@8Red, [email protected], Circle@80, 0<, r1D<D;
c2 = Graphics@8Blue, [email protected], Circle@80, 0<, r2D<D;
Show@8c1, c2, p1<, Axes Æ True, PlotRange Æ 88-3, 3<, 8-3, 3<<, AspectRatio Æ AutomaticD
Clear@n, r1, r2, p1, c1, c2D
3
2
1
-3
-2
-1
1
2
3
-1
-2
-3
23.2.11 Beispiel: Wir betrachten ein in einem Gefäß eingeschlossenes Gas der Temperatur T, dessen
Moleküle die Masse m besitzen. Unter der Annahme, dass die Komponenten V1 , V2 , V3 des
23_Die_Normalverteilung.nb
145
Moleküle die Masse m besitzen. Unter der Annahme, dass die Komponenten V1 , V2 , V3 des
Geschwindigkeitsvektors V eines zufällig ausgewählten Moleküls vollständig unabhängig und @0, sDverteilt sind, wobei s = k T êm ist, zeige man die Gültigkeit des Gesetzes P V = R T. Dabei bezeichnet P
den Druck, V das Volumen eines Mols dieses Gases, T die absolute Temperatur, k die Boltzmann Konstante
und R = N k die universelle Gaskonstante, wobei N die Loschmidt'sche Zahl (also die Anzahl der Moleküle in
einem Mol) bezeichnet.
ô
Lösung: Der Druck P des Gases ist gleich dem Erwartungswert der Impulse, die einem Flächenstück der Wand des
Gefäßes vom Flächeninhalt Eins während eines Zeitintervalls der Länge Eins übermittelt werden. Wir nehmen an,
dass die Zusammenstöße ideal elastisch sind. Stößt ein Molekül mit der Masse m und der Geschwindigkeit †V § = v
unter dem Winkel Q = J (mit der Normalen der Wand) an die Wand des Gefäßes, so übermittelt dieses Molekül
einen Impuls von der Größe 2 m v Cos@JD. Ein Molekül mit der Geschwindigkeit †V § = v und einer Richtung, die mit
der Normalen der Wand den Winkel Q = J einschließt, stößt während der Zeit @t, t + 1D genau dann auf einen
Bereich K der Wand, welcher den Flächeninhalt Eins besitzt, wenn sich dieses Teilchen im Zeitpunkt t in einem
schiefen Zylinder befindet, dessen Grundfläche der Bereich K und dessen Höhe gleich v Cos@JD ist. Nimmt man an,
dass die Moleküle gleichmäßig im Gefäß verteilt sind, so ist die Wahrscheinlichkeit für dieses Ereignis gleich
v Cos@JD êW , wobei W das Volumen des Gefäßes bezeichnet. Damit ergibt sich für den bedingten Erwartungswert
@I 8†V § = v< › 8Q = J<D jenes Impulses I, den ein Molekül mit der Geschwindigkeit †V § = v und dem Winkel Q = J
(mit 0  J  pê 2), der Wand des Gefäßes übermittelt
@I 8†V § = v< › 8Q = J<D =
2 m v2 Cos@JD2
4 m v2
=
Cos@JD2
W
W 2
Analog zu Beispiel 23.2.11 lässt sich zeigen, dass die Geschwindigkeit †V § und die Flugrichtung eines zufällig
herausgegriffenen Moleküls unabhängig sind und dass diese Flugrichtung im Raum gleichverteilt ist. In Beispiel
15.3.11 haben wir die Verteilungsfunktion des Winkels Q, den diese Flugrichtung mit einer vorgegebenen Richtung
(in unserem Fall mit der Normalen auf die Wand) einschließt, ermittelt und dabei für alle J œ Q = @0, pD die
Formel Q @JD = H1 - Cos@JDL ê 2 erhalten. Für den Erwartungswert der Zufallsvariablen Z = 1@0,pê2D Cos@QD2 ergibt
sich damit
Integrate@Cos@ϑD2 D@H1 − Cos@ϑDL ê 2, ϑD, 8ϑ, 0, π ê 2<D
1
6
Wegen Beispiel 19.3.9 und Bemerkung 18.2.2 erhalten wir damit für den mittleren Impuls, den ein zufällig herausgegriffenes Molekül der Wand übermittelt
@ID = @@I 8†V § = ä1 < › 8Q = ä2 <D ë 8†V §, Q<D = @
=
4 m †V §2
Cos@QD2 D =
W
2
4
4 3kT 1 kT
m †V §2
@
D @Cos@QD2 D =
=
W
W
2 6 W
2
Da in einem Mol Gas N Moleküle vorhanden sind, übt eine Gasmenge von n Molen auf die Wand des Gefäßes
damit den Druck
P = n N @ID =
nN kT
N kT
RT
=
=
W
V
V
aus, wobei V = W ê n das Molvolumen bezeichnet.
23.2.12 Beispiel: Die beiden Zufallsvariablen X und Y seien unabhängig und @0, 1D-verteilt. Man ermittle
die Verteilungsdichte ihres Produkts U = X Y sowie ihres Quotienten V = X êY .
ô
23_Die_Normalverteilung.nb
146
Lösung: Wegen des Satzes von der totalen Wahrscheinlichkeit in differenzieller Form sowie der Regel über das
Einsetzen einer Bedingung gilt für alle u, v œ 1
1 ¶
u u + „u
@8X Y œ @u, u + „ uD<D =
Ÿ-¶ @8X œ @ y ,
y D<D @8Y œ @y, y + „ yD<D =
„u
„u
U @uD =
u
¶
@ D
-¶ X y
=Ÿ
1
@yD „ y
y Y
und
V @vD =
1
1 ¶
@8X œ @v y, Hv + „ vL yD<D @8Y œ @y, y + „ yD<D =
@8X êY œ @v, v + „ vD<D =
Ÿ
„v
„ v -¶
¶
@v yD y Y @yD „ y
-¶ X
=Ÿ
Wertet man diese Integrale mit Hilfe von Mathematica aus, so erhält man die beiden gesuchten Verteilungsdichten
(BesselK bezeichnet dabei die modifizierte Besselfunktion zweiter Ordnung):
FullSimplify@Integrate@PDF@NormalDistribution@0, 1D, u ê yD ê Abs@yD PDF@NormalDistribution@0, 1D, yD, 8y, -•, •<D,
BesselK@0, Abs@uDD
π
FullSimplify@Integrate@PDF@NormalDistribution@0, 1D, v yD Abs@yD PDF@NormalDistribution@0, 1D, yD, 8y, -•, •<D, v
1
π + π v2
Wir zeichnen abschließend diese beiden (offenbar symmetrischen) Verteilungsdichten (bei der roten Kurve handelt
es sich um die Verteilungsdichte von U = X Y , bei der blauen Kurve handelt es sich um die Verteilungsdichte von
V = X êY ):
Plot@8BesselK@0, Abs@zDD ê p, 1 ê Hp + p z2 L<, 8z, -3, 3<,
PlotStyle Æ [email protected], Red<, [email protected], Blue<<, PlotRange Æ 80, 2<D
2.0
1.5
1.0
0.5
-3
-2
-1
0
1
2
3
23.3 Die Chi-Quadrat Verteilung hi@nD
Wir beginnen mit einem für die Chi-Quadrat Verteilung zentralen Satz:
23_Die_Normalverteilung.nb
147
23.3.1 Satz: Sind die Zufallsvariablen X1 , X2 , …, Xn vollständig unabhängig und identisch @0, 1D-verteilt,
so ist die Zufallsvariable
Z HnL = X1 2 + X2 2 + … + Xn 2
hi@nD-verteilt. Den Parameter n nennt man den Freiheitsgrad der hi@nD-Verteilung.
ô
Beweis: Aus dem Satz über die Quadrateigenschaft zusammen mit der Faltungsformel für Chi-Quadrat Verteilungen folgt unmittelbar, dass die Zufallsvariable Z HnL = X1 2 + X2 2 + … + Xn 2 hi@nD-verteilt ist.
Wir fassen die bereits bekannten Eigenschaften der Chi-Quadrat Verteilung hi@nD zusammen, wobei wir die
Beziehung hi@nD = amma@n ê2, 2D verwenden (man vergleiche dazu Satz 22.3.8):
23.3.2 Bemerkung: Die Chi-Quadrat Verteilung hi@nD besitzt den Träger
= @0, ¶@
die Verteilungsdichte
1
2-nê2 ‰-zê2 z nê2-1
für z ¥ 0
@zD = G@n ê2D
sonst
0
und die Verteilungsfunktion
0
@zD =
1
z -nê2 -tê2 nê2-1
‰
t
„ t = Gr @n ê2, 0, zê 2D
Ÿ0 2
G@n ê2D
Eine hi@nD-verteilte Zufallsvariable Z besitzt den Erwartungswert
@ZD = n
und die Varianz
@ZD = 2 n
Für Chi-Quadrat Verteilungen gilt die Faltungsformel
hi@mD * hi@nD = hi@m + nD
für z  0
für z ¥ 0
23_Die_Normalverteilung.nb
148
Beispiel 19.3.6 und Beispiel 19.3.9 sind typische Anwendungen der Chi-Quadrat Verteilung. In den beiden folgenden Beispielen werden Beziehungen zwischen der Chi-Quadrat Verteilung und anderen Verteilungen aufgezeigt:
23.3.3 Beispiel: Aus dem zentralen Grenzverteilungssatz folgt, dass sich für großes n œ die hi@nDVerteilung durch die @n, 2 n D-Verteilung approximieren lässt. Man ermittle, wie groß n dabei sein muss,
damit der maximale Unterschied zwischen diesen beiden Verteilungsfunktionen kleiner als 0.01 ist.
ô
Lösung: Wir plotten zuerst die Differenz dieser beiden Verteilungsfunktionen im Bereich 0  z  2 n
Manipulate@Plot@CDF@ChiSquareDistribution@nD, zD - CDF@NormalDistribution@n, Sqrt@2 nDD, zD,
8z, 0, 2 n<, PlotStyle Æ [email protected], ImageSize Æ 8200, 100<, PlotRange Æ AllD,
8n, 10, 100, 1, Appearance Æ "Labeled"<D
n
95
0.020
0.015
0.010
0.005
-0.005
50
100
150
-0.010
und erkennen, dass der maximale Unterschied dieser beiden Verteilungsfunktionen in der Nähe von z = n liegt. Mit
Hilfe von FindMaximum und z = n als Startwert lässt sich diese maximale Differenz leicht ermitteln. Durch Experimentieren mit verschiedenen Werten von n zeigt sich, dass für n ¥ 354 der maximale Unterschied dieser beiden
Verteilungsfunktionen kleiner als 0.01 ist.
n = 354;
FindMaximum@CDF@ChiSquareDistribution@nD, zD - CDF@NormalDistribution@n, Sqrt@2 nDD, zD, 8z, n<D
Clear@nD
80.00999634, 8z → 353.833<<
23.3.4 Beispiel: Man zeige: Bezeichnet Gm die Verteilungsfunktion der Chi-Quadrat Verteilung mit m
Freiheitsgraden und Fl die Verteilungsfunktion der Poissonverteilung mit Parameter l, so gilt für alle z > 0
und alle n œ die Beziehung 1 - G2 n @zD = Fzê2 @n - 1D.
ô
Lösung: Wir beweisen für alle n œ die Gültigkeit dieser Beziehung mit Hilfe von Mathematica
FullSimplify@1 - CDF@ChiSquareDistribution@2 nD, zD == CDF@PoissonDistribution@z ê 2D, n - 1D,
8n Œ Integers, n > 0<D
True
Die Chi-Quadrat Verteilung findet in der Statistik bei den sogenannten Chi-Quadrat-Tests Verwendung. Man kann
nämlich zeigen, dass gewisse Testgrößen näherungsweise einer Chi-Quadrat Verteilung genügen. Ohne auf den
23_Die_Normalverteilung.nb
149
nämlich zeigen, dass gewisse Testgrößen näherungsweise einer Chi-Quadrat Verteilung genügen. Ohne auf den
Beweis näher einzugehen, erwähnen wir in diesem Zusammenhang den folgenden Satz, den wir beim Chi-Quadrat
Anpassungstest verwenden werden.
23.3.5 Satz: Sind die Zufallsvariablen X1 , X2 , …, Xn vollständig unabhängig und identisch X verteilt und
ist 8A1 A2 , …, Ar < eine Partition des Trägers X , so ist die Zufallsvariable
r n IH - p M2
k
k
Z= ⁄
pk
k=1
welche ein Maß für die Abweichung der relativen Häufigkeiten Hk = † 8i ˝ 1  i  n , Xi œ Ak = • ên von den
theoretischen Wahrscheinlichkeiten pk = X AAk E der Ereignisse Ak darstellt, asymptotisch (also für n Ø ¶)
Chi-Quadrat verteilt mit r - 1 Freiheitsgraden.
Wir veranschaulichen die Aussage dieses Satzes an einem Beispiel:
23.3.6 Beispiel: Wird mit einem homogenen Würfel n mal gewürfelt und für jedes k œ 81, 2, …, 6< die
relative Häufigkeit Hk für das Auftreten der Augenzahl k mit der theoretischen Wahrscheinlichkeit pk = 1 ê 6
vergleichen, so ist die Zufallsvariable
6 n IH - p M2
k
k
Z= ⁄
pk
k=1
wegen Satz 23.3.5 für große Werte von n annähernd hi@5D-verteilt. Man ermittle mittels Simulation für einen
`
Stichprobenumfang von n = 50 den maximalen Unterschied zwischen der empirischen Verteilungsfunktion Z
von Z und der Verteilungsfunktion der Chi-Quadrat Verteilung mit 5 Freiheitsgraden.
ô
Lösung: Wir ermitteln durch Simulation zusammen mit dem Befehl EmpiricalCDF die empirische Verteilungsfunk`
tion Z der Zufallsvariablen Z und berechnen für alle Stellen z, in denen diese empirische Verteilungsfunktion eine
`
`
Sprungstelle aufweist, die Differenzen † Z @zD - @zD § und † Z @z -D - @zD § zwischen dieser empirischen
Verteilungsfunktion und der Verteilungsfunktion der hi@5D-Verteilung. Von allen so ermittelten Differenzen
bestimmen wir das Maximum. Zur Veranschaulichung zeichnen wir außerdem diese empirische Verteilungsfunktion zusammen mit der Verteilungsfunktion der hi@5D-Verteilung in eine gemeinsame Zeichnung:
n = 50; m = 10 000;
daten = Table@Apply@Plus, 6 n HRest@BinCounts@RandomInteger@81, 6<, nDDD ê n - 1 ê 6L2 D, 8m<D;
z = Union@datenD;
Max@Join@Table@Abs@EmpiricalCDF@daten, z@@iDDD - CDF@ChiSquareDistribution@5D, z@@iDDDD, 8i, 1, Length@zD<D,
Table@Abs@EmpiricalCDF@daten, z@@i - 1DDD - CDF@ChiSquareDistribution@5D, z@@iDDDD, 8i, 1, Length@zD<DDD
Plot@8EmpiricalCDF@daten, zD, CDF@ChiSquareDistribution@5D, zD<, 8z, 0, 15<,
PlotStyle Æ [email protected], Magenta<, [email protected], Blue<<, AspectRatio Æ 0.5D
Clear@n, m, daten, zD
0.027495
1.0
0.8
0.6
0.4
0.2
2
4
6
8
10
12
14
Der folgende tiefliegende Satz ist Grundlage für viele Anwendungen der Statistik. Zu seiner Formulierung ist die
Schreibweise der Matrizenrechnung erforderlich: Matrizen werden mit großen, fetten Buchstaben bezeichnet; für
23_Die_Normalverteilung.nb
150
Schreibweise der Matrizenrechnung erforderlich: Matrizen werden mit großen, fetten Buchstaben bezeichnet; für
die Einheitsmatrix verwenden wir den Buchstaben E; Zeilenvektoren bezeichnen wir mit x = 8x1 , x2 , …, xn <, den
zugehörigen Spaltenvektor bezeichnen wir mit xt = 8x1 , x2 , …, xn <t ; das skalare Produkt von Vektoren bzw
Matrizen bezeichnen wir mit "·"; unter dem Rang Rg@AD einer Matrix A versteht man die Anzahl der linear unabhängigen Zeilenvektoren dieser Matrix.
23.3.7 Satz von COCHRAN: Sind die Zufallsvariablen X1 , X2 , …, Xn vollständig unabhängig und identisch
@0, 1D-verteilt und sind G1 , G2 , …, Gk symmetrische n µn Matrizen mit den beiden Eigenschaften
G1 + G2 + … + Gk = E
und
Rg@G1 D + Rg@G2 D + … + RgAGk E = n
so sind die Zufallsvariablen Z1 , Z2 , …, Zk mit
Zi = 8X1 , X2 , …, Xn <ÿ Gi ÿ 8X1 , X2 , …, Xn <t
vollständig unabhängig. Außerdem genügt für alle i œ 81, 2, …, k< die Zufallsvariable Zi einer Chi-Quadrat
Verteilung mit Rg@Gi D Freiheitsgraden.
ô
Beweis: Wir beschränken uns der Einfachheit halber auf einen Beweis dieses Satzes für den Fall k = 2:
a) Ist G1 eine symmetrische n µn Matrix mit Rang Rg@G1 D = r, so existiert bekanntlich eine orthogonale n µn Matrix
P (eine Matrix P heißt orthogonal, wenn Pt ÿP = E gilt) mit der Eigenschaft
Pt ÿG1 ÿP = diag@l1 , l2 , …, lr , 0, …, 0D
wobei l1 , l2 , …, lr die von 0 verschiedenen Eigenwerte der Matrix G1 bezeichnen. Damit gilt aber
Pt ÿG2 ÿP = Pt ÿHE - G1 L ÿP = E -Pt ÿ G1 ÿP = diag@1 -l1 , 1 - l2 , …, 1 - lr , 1, …, 1D
Nun hat aber die Matrix G2 und damit auch die Matrix Pt ÿG2 ÿP voraussetzungsgemäß den Rang n - r, also muss
l1 = l2 = … = lr = 1 sein.
b) Die Zufallsvariablen Y1 , Y2 , …, Yn mit 8Y1 , Y2 , …, Yn < = 8X1 , X2 , …, Xn <ÿP sind wegen Bemerkung 23.6.6
vollständig unabhängig und identisch @0, 1D-verteilt. Auf Grund der Familieneigenschaft sind damit die beiden
Zufallsvariablen
Z1 = 8X1 , X2 , …, Xn < ÿG1 ÿ8X1 , X2 , …, Xn <t =
= 8Y1 , Y2 , …, Yn < ÿPt ÿ G1 ÿ P ÿ8Y1 , Y2 , …, Yn <t = Y1 2 + Y2 2 + … + Yr 2
und
Z2 = 8X1 , X2 , …, Xn < ÿG2 ÿ8X1 , X2 , …, Xn <t =
= 8Y1 , Y2 , …, Yn < ÿPt ÿ G2 ÿ P ÿ8Y1 , Y2 , …, Yn <t = Yr+1 2 + Yr+2 2 + … + Yn 2
unabhängig und genügen wegen Satz 23.3.1 einer Chi-Quadrat-Verteilung mit r bzw n - r Freiheitsgraden.
Mit dem folgenden Satz wird exemplarisch gezeigt, wie sich der Satz von Cochran anwenden lässt. Im Rahmen der
Statistik werden wir das hier vorgestellte Ergebnis oft verwenden:
23.3.8 Satz: Sind die Zufallsvariablen X1 , X2 , …, Xn vollständig unabhängig und identisch @0, 1D-verteilt
und bezeichnet X HnL = HX1 + X2 + … + Xn L ê n ihren empirischen Mittelwert, so ist die Zufallsvariable
HnL
n
Q X = ⁄ HXi - X HnL L2
i=1
HnL
hi[n - 1]-verteilt. Außerdem sind die beiden Zufallsvariablen X HnL und Q X unabhängig.
ô
23_Die_Normalverteilung.nb
151
Beweis: Wir verwenden zum Nachweis dieser Aussage den Satz von Cochran und setzen
G1 =
1 ê n 1 ên … 1 ê n
1 ê n 1 ên … 1 ê n
ª
ª
∏
ª
1 ê n 1 ên … 1 ê n
und
G2 = E - G1
Die beiden Matrizen G1 und G2 sind offensichtlich symmetrisch. Außerdem gilt Rg@G1 D = 1 (alle Zeilen von G1
sind gleich) und Rg@G2 D = n - 1 (subtrahiert man von den ersten n - 1 Spalten der Matrix G2 die letzte Spalte (diese
Operation ändert den Rang einer Matrix bekanntlich nicht) so erhält man eine Matrix, bei der links oben die
Hn - 1L µHn - 1L Einheitsmatrix steht und deren Zeilen sich zur Nullzeile addieren). Nun ist aber
8X1 , X2 , …, Xn <ÿ G1 ÿ8X1 , X2 , …, Xn <t = n HX HnL L2
und
n
n
i=1
i=1
HnL
8X1 , X2 , …, Xn <ÿ G2 ÿ8X1 , X2 , …, Xn <t = ⁄ Xi 2 - n HX HnL L2 = ⁄ HXi - X HnL L2 = Q X
HnL
womit gezeigt ist, dass Q X einer hi[n - 1]-Verteilung genügt und die beiden Zufallsvariablen n HX HnL L2 und
HnL
HnL
Q X und damit auch die beiden Zufallsvariablen X HnL und Q X unabhängig sind.
23.4 Die Student T Verteilung @nD
Wir beginnen wieder mit einem für die Student T Verteilung zentralen Satz:
23.4.1 Satz: Sind die beiden Zufallsvariablen X und Y unabhängig und gilt X º @0, 1D und Y º hi@nD, so ist
die Zufallsvariable
X
Z=
n
Y
@nD-verteilt. Den Parameter n nennt man dabei den Freiheitsgrad der @nD-Verteilung.
ô
Beweis: Aus dem Satz von der totalen Wahrscheinlichkeit in differenzieller Form zusammen mit der Eigenschaft
über das Einsetzen einer Bedingung ergibt sich für alle z œ Z @zD =
1
@8Z œ @z, z + „ zD<D =
„z
=
1 ¶
X
Ÿ 0 @8
„z
Y
n œ @z, z + „ zD< 8Y = y<D @8Y œ @y, y + „ yD<D =
=
1 ¶
Ÿ @8X œ @
„z 0
yê n z,
=Ÿ
¶
@
0 X
y ên zD
yên Hz + „ zLD<D @8Y œ @y, y + „ yD<D =
y ên Y @yD „ y
Wir werten dieses Integral mit Hilfe von Mathematica aus und zeigen gleichzeitig, dass es sich bei Z @zD um die
Verteilungsdichte der Student T Verteilung mit n Freiheitsgraden handelt:
23_Die_Normalverteilung.nb
152
FullSimplify@Integrate@PDF@NormalDistribution@0, 1D, Sqrt@y ê nD z D Sqrt@y ê nD PDF@ChiSquareDistribution@nD, yD, 8y,
PDF@StudentTDistribution@nD, zD, 8n > 0, z Œ Reals<D
True
Zusammen mit Satz 23.3.8 folgt daraus der für die Statistik wichtige
23.4.2 Satz: Sind die Zufallsvariablen X1 , X2 , …, Xn vollständig unabhängig und identisch @0, 1D- verteilt
und bezeichnet
1
1
HnL
2
X HnL = HX1 + X2 + … + Xn L bzw V X =
⁄n HX - X HnL L
n
n - 1 i=1 i
ihren empirischen Mittelwert bzw ihre empirische Varianz, so ist die Zufallsvariable
X HnL
HnL
n
TX =
HnL
VX
[n - 1]-verteilt.
ô
Beweis: Wegen der Faltungsformel zusammen mit dem Satz über die affine Transformation von Normalverteilungen ist die Zufallsvariable n X HnL offenbar @0, 1D-verteilt. Wegen Satz 23.3.8 genügt die Zufallsvariable
HnL
HnL
Q X = Hn - 1L V X
einer hi@n - 1D-Verteilung. Außerdem sind die beiden Zufallsvariablen
die Zufallsvariable
HnL
TX =
X HnL
HnL
VX
n X HnL
n =
HnL
QX
wegen Satz 23.4.1 [n - 1]-verteilt.
n-1
HnL
n X HnL und Q X unabhängig. Damit ist
23_Die_Normalverteilung.nb
153
Wir fassen wieder die bereits bekannten Eigenschaften der Student T Verteilung @nD zusammen:
23.4.3 Bemerkung: Die Student T Verteilung @nD besitzt den Träger
=
die Verteilungsdichte
n
Hn+1Lê2
2M
n
+
z
n B@n ê2, 1 ê2D
und die Verteilungsfunktion
@zD =
@zD =
1
I
n
Hn+1Lê2
z
M
„t =
Ÿ-¶ I
2
n+z
n B@n ê2, 1 ê2D
1
n 1
n
, 1, 2 , 2 DL ê2
n + z2
n 1
n
H1 + Br @
, 1, 2 , 2 DL ê2
n + z2
H1 - Br @
für z  0
für z ¥ 0
Eine @nD-verteilte Zufallsvariable Z besitzt im Fall n ¥ 2 den Erwartungswert
@ZD = 0
und im Fall n ¥ 3 die Varianz
@ZD = n êHn - 2L
23.4.4 Beispiel: Wie man an Hand einer Zeichnung leicht erkennt, unterscheidet sich für große n die
Verteilungsdichte der @nD-Verteilung nur wenig von der Verteilungsdichte der @0, 1D-Verteilung. Man
ermittle, wie groß n sein muss, damit der maximale Unterschied zwischen den Verteilungsdichten dieser
beiden Verteilungen kleiner als 0.01 ist.
ô
Lösung: Wir plotten zuerst die Differenz dieser beiden Verteilungsdichten im Bereich -4  z  4
Manipulate@Plot@PDF@StudentTDistribution@nD, zD - PDF@NormalDistribution@0, 1D, zD, 8z, -4, 4<,
PlotStyle Æ [email protected], ImageSize Æ 8200, 100<, PlotRange Æ 8-0.06, 0.03<D,
8n, 2, 15, 1, Appearance Æ "Labeled"<D
n
9
0.02
-4
-2
2
4
-0.02
-0.04
-0.06
und erkennen, dass der größte Unterschied dieser beiden Verteilungsdichten in der Nähe von z = 1 liegt. Mittels
FindMinimum und z = 1 als Startwert lässt sich der maximale Unterschied leicht ermitteln. Durch Experimentieren
mit verschiedenen Werten von n zeigt sich, dass bereits ab n = 14 der maximale Unterschied dieser beiden
Verteilungsdichten kleiner als 0.01 ist.
23_Die_Normalverteilung.nb
154
n = 14;
FindMinimum@PDF@StudentTDistribution@nD, zD - PDF@NormalDistribution@0, 1D, zD, 8z, -1<D
Clear@nD
8−0.0094994, 8z → −0.730486<<
23.5 Die Fisher F Verteilung @m, nD
Wir beginnen ebenfalls mit einem für die Fisher F Verteilung zentralen Satz:
23.5.1 Satz: Sind die beiden Zufallsvariablen X und Y unabhängig und gilt X º hi@mD und Y º hi@nD, so ist
die Zufallsvariable
X êm
Z=
Y ên
@m, nD-verteilt. Die Parameter m und n heißen Freiheitsgrade der @m, nD-Verteilung.
ô
Beweis: Aus dem Satz von der totalen Wahrscheinlichkeit in differenzieller Form zusammen mit der Eigenschaft
über das Einsetzen einer Bedingung ergibt sich für alle z > 0
Z @zD =
1
@8Z œ @z, z + „ zD<D =
„z
=
X êm
1 ¶
œ @z, z + „ zD< 8Y = y<D @8Y œ @y, y + „ yD<D =
Ÿ 0 @8
„z
Y ên
=
1 ¶
Ÿ @8X œ @Hy mênL z, Hy m ênL Hz + „ zLD<D @8Y œ @y, y + „ yD<D =
„z 0
=Ÿ
¶
@Hy mê nL zD Hy mênL Y @yD „ y
0 X
Wir werten dieses Integral mit Hilfe von Mathematica aus und zeigen gleichzeitig, dass es sich bei Z @zD um die
Verteilungsdichte der Fisher F Verteilung mit m und n Freiheitsgraden handelt:
FullSimplify@Integrate@PDF@ChiSquareDistribution@mD, Hy m ê nL z D Hy mê nL PDF@ChiSquareDistribution@nD, yD, 8y, 0,
PDF@FRatioDistribution@m, nD, zD, 8m > 0, n > 0, z > 0<D
True
Dieser Satz hat die folgende für die Statistik wichtige Konsequenz:
23.5.2 Satz: Sind die Zufallsvariablen X1 , X2 , …, Xm und
tisch @0, 1D-verteilt und bezeichnen
m
1
1
HmL
HnL
VX =
⁄ HXi - X HmL L2 bzw VY =
m - 1 i=1
n-1
Y1 , Y2 , …, Yn vollständig unabhängig und idenn
⁄ HYi - Y HnL L2
i=1
die empirischen Varianzen der Zufallsvariablen X1 , X2 , …, Xm bzw Y1 , Y2 , …, Yn , so ist ihr Quotient
Hm,nL
HmL HnL
F X ,Y = V X êVY
@m - 1, n - 1D-verteilt.
ô
23_Die_Normalverteilung.nb
155
HmL
HmL
HnL
HnL
Beweis: Wegen Satz 23.3.8 sind die beiden Zufallsvariablen Q X = Hm - 1 V X L bzw QY = Hn - 1L VY ChiQuadrat verteilt mit m - 1 bzw n - 1 Freiheitsgraden. Außerdem sind diese beiden Zufallsvariablen auf Grund der
Familieneigenschaft unabhängig. Wegen Satz 23.5.1 ist der Quotient
HmL
HmL
Q X êHm - 1L
Hm,nL V X
F X ,Y = HnL = HnL
VY
QY êHn - 1L
der beiden empirischen Varianzen somit @m - 1, n - 1D-verteilt.
23_Die_Normalverteilung.nb
156
Wir fassen die bereits bekannten Eigenschaften der Fisher F Verteilung @m, nD wieder zusammen:
23.5.3 Bemerkung: Die Fisher F Verteilung @m, nD besitzt den Träger
= @0, ¶@
die Verteilungsdichte
@zD =
1
m mê2 n nê2 z mê2-1 Hn + m zL -Hm+nLê2
B@mê 2, n ê2D
für z ¥ 0
0
sonst
und die Verteilungsfunktion
0
mz
m n
@zD =
m mê2 n nê2 z mê2-1
Hn + m tL -Hm+nLê2 „ t = Br @
,
, D
Ÿ0 t
n
+
m
z
2 2
B@mê2, n ê2D
für z  0
für z ¥ 0
Eine @m, nD-verteilte Zufallsvariable Z besitzt im Fall n ¥ 3 den Erwartungswert
@ZD = n êHn - 2L
und im Fall n ¥ 5 die Varianz
@ZD =
2 n2 Hm + n - 2L
m Hn - 2L2 Hn - 4L
Weiters folgt unmittelbar aus Satz 23.5.1: Ist die Zufallsvariable Z @m, nD-verteilt, so genügt ihr reziproker
Wert Y = 1 êZ einer @n, mD-Verteilung.
Abschließend erwähnen wir noch einige Beziehungen zwischen der Fisher F Verteilung und anderen Verteilungen:
23.5.4 Satz: Ist die Zufallsvariable Z @nD-verteilt, so ist die Zufallsvariable Y = Z 2 @1, nD-verteilt.
ô
Beweis: Genügt die Zufallsvariable Z einer @nD-Verteilung, so gilt für alle y > 0
Y @yD =
1
@8Z 2 œ @y, y + „ yD<D =
„y
1
= „ y @8Z œ @
wobei wir die Tatsache
y,
y +
y+„y >
„y
2
y
D< ‹ 8Z œ @-
y + „ y êH2
y -
„y
2
y
,-
y xD<D = Z @
y Dê
y
y L verwendet haben (Taylorentwicklung) und außerdem
berücksichtigt haben, dass die Verteilungsdichte der Student T Verteilung eine gerade Funktion ist. Mit Hilfe von
Mathematica zeigen wir nun, dass Y = Z 2 einer @1, nD-Verteilung genügt:
FullSimplify@PDF@StudentTDistribution@nD, Sqrt@yDD ê Sqrt@yD ä PDF@FRatioDistribution@1, nD, yD, 8y > 0, n > 0<D
True
23.5.5 Satz: Ist die Zufallsvariable Z eta@m ê2, n ê 2D-verteilt, so ist die Zufallsvariable Y = n Z êHm - m ZL
@m, nD-verteilt.
ô
Beweis: Genügt die Zufallsvariable Z einer eta@mê2, n ê2D-Verteilung, so gilt für alle y > 0
23_Die_Normalverteilung.nb
Y @yD =
157
1
nZ
@8
œ @y, y + „ yD<D =
„y
m-mZ
mn
1
my
mn„y
my
my
= „ y @8Z œ @
D<D = Z @ n + m y D
,
+
2
n + m y n + m y Hn + m yL
Hn + m yL2
wobei wir verwendet haben (Taylorentwicklung), dass offenbar
mn„y
m Hy + „ yL
my
>
+
n
+
m
y
n + m Hy + „ yL
Hn + m yL2
gilt. Mit Hilfe von Mathematica zeigen wir nun, dass Y = n Z ê Hm - m ZL einer @1, nD-Verteilung genügt:
FullSimplify@PDF@BetaDistribution@m ê 2, n ê 2D, m y ê Hn + m yLD m n ê Hn + m yL2 == PDF@FRatioDistribution@m, nD, yD
8y > 0, n > 0, m > 0<D
True
23.6 Die Multinormalverteilung Am, SE
Das mehrdimensionale Analogon des zentralen Grenzverteilungssatzes besagt, dass die Summe einer großen
Anzahl von vollständig unabhängigen, identisch verteilten, quadratisch integrierbaren Zufallsvektoren annähernd
multinormalverteilt ist. Wir fassen die bereits bekannten Eigenschaften der Multinormalverteilung Am, SE
wieder zusammen:
:23.6.1 Bemerkung: Sei m = 8m1 , m2 , …, mr < œ r und sei S = 88sik << œ rr eine symmetrische, positiv definite
Matrix. Die Multinormalverteilung @m, SD besitzt den Träger
= r
die Verteilungsdichte
1
1 ”
”
”
@zD =
Exp@- Hz - mL ÿS-1 ÿHz - mLt D
2
H2 pLrê2 Det@SD
und die Verteilungsfunktion
1
1
”
z
-1
t
@zD =
Ÿ z1 Ÿ z2 … Ÿ r Exp@- Hx - mL ÿS ÿ Hx - mL D „ x1 „ x2 … „ xr
rê2
2
H2 pL
Det@SD -¶ -¶
-¶
Ein @m, SD-verteilter Zufallsvektor Z = 8Z1 , Z2 , …, Zr < besitzt den Erwartungswertvektor
@ZD = 8@Zi D<iœ81,2,…,r< = m
und die Kovarianzmatrix
@ZD = 8
@Zi , Zk D<i,kœ81,2,…,r< = S
ô
Achtung! Ist r = 1, so stimmt die Multinormalverteilung @m, SD mit m = 8m< und S = 88s2 << mit der Normalverteilung @m, sD überein. Man beachte, dass bei der Multinormalverteilung der Parameter S der Kovarianzmatrix entspricht, während bei der Normalverteilung der Parameter s der Streuung (also der Wurzel der Varianz)
entspricht.
23_Die_Normalverteilung.nb
158
FullSimplify@CDF@MultinormalDistribution@8m<, 88s2 <<D, 8z<D ä CDF@NormalDistribution@m, sD, zD,
8s > 0<D
True
Analog zum Satz über die affine Transformation von eindimensionalen Normalverteilungen gilt auch für Multinormalverteilungen ein entsprechender Satz:
23.6.2 Satz (Affine Transformation von Multinormalverteilungen): Ist der Zufallsvektor Z multinor”
malverteilt mit dem Mittelwertsvektor m und der Kovarianzmatrix S, so ist für alle k œ 81, 2, …, r<, alle n œ k
”
und alle Matrizen G œ kr mit vollem Rang der Zufallsvektor Y = n + Z ÿ G multinormalverteilt mit dem Mittelw”
ertsvektor n + mÿG und der Kovarianzmatrix Gt ÿS ÿ G.
ô
Beweis: Wir beschränken uns auf den Fall k = r (da G vollen Rang besitzen soll, ist die Matrix G invertierbar). Für
”
alle y œ r gilt dann unter Verwendung der Transformation x = Hu - nL ÿG-1 (für die Funktionalmatrix dieser
Transformation gilt offenbar ∑ xê ∑ u = G-1 )
”
”
@yD = @8Y  y<D = @8n + Z ÿG  y<D = @8Z  Hy - nL ÿ G-1 <D =
Y
=
=
=
”
Hy-nLÿG-1
1
Ÿ-¶
1
Exp@- Hx - mL ÿS-1 ÿHx - mLt D †„ x§ =
2
H2 pLrê2
Det@SD
H2 pLrê2
1
y
” -1
” -1
-1
t
Ÿ-¶ Exp@- HHu - nL ÿ G - mL ÿ S ÿ HHu - nL ÿ G - mL D †„ u§ =
2
Det@SD Det@GD
1
1
y
”
”
t
-1
t
Ÿ-¶ Exp@- Hu - Hn + mÿ GLL ÿHG ◊S ◊ GL ÿ Hu - Hn + m ÿGLL D †„ u§
2
1
H2 pLrê2
Det@Gt ÿ S ÿGD
”
”
Damit ist gezeigt, dass der Zufallsvektor Y = n + Z ÿG mit dem Mittelwertsvektor n + mÿG und der Kovarianzmatrix
t
G ÿS ÿG multinormalverteilt ist.
Aus diesem Satz folgt unmittelbar
23.6.3 Bemerkung: Ist der Zufallsvektor 8Z1 , Z2 , …, Zr < multinormalverteilt mit dem Mittelwertsvektor
8m1 , m2 , …, mr < und der Kovarianzmatrix 88sik <<i,kœ81,2,…,n< , so ist für alle 1  i1  i2  …  is  r der
Zufallsvektor 8Zi , Zi , …, Zi < multinormalverteilt mit dem Mittelwertsvektor 8mi , mi , …, mi < und der
1
2
s
1
Kovarianzmatrix 88sik <<i,kœ8i ,i ,…,i < .
1 2
s
2
s
ô
Beweis: Diese Bemerkung folgt unmittelbar aus dem Satz über die affine Transformation von Multinormalverteilungen mit der r µs-Matrix
0
0
G=
ª
0
… 0
… 0
… ª
… 0
1
0
ª
0
0 … 0
0 … 0
ª ∏ ª
0 … 0
Æ
i1 -te
Spalte
0
1
ª
0
Æ
i2 -te
Spalte
0 … 0
0 … 0
ª ∏ ª
0 … 0
0
0
ª
1
Æ
is -te
Spalte
0 … 0 t
0 … 0
ª ∏ ª
0 … 0
23_Die_Normalverteilung.nb
159
Ein wichtiger Spezialfall dieser Bemerkung besagt
23.6.4 Bemerkung: Ist der Zufallsvektor 8Z1 , Z2 , …, Zr < multinormalverteilt mit dem Mittelwertsvektor
8m1 , m2 , …, mr < und der Kovarianzmatrix 88sik <<i,kœ81,2,…,n< , so ist dessen i-te Komponente Zi normalverteilt
mit den Parametern mi und
sii .
Wir wissen bereits, dass unabhängige Zufallsvariable stets unkorreliert sind, umgekehrt aber unkorrelierte
Zufallsvariable nicht notwendig unabhängig sein müssen. Weiß man aber, dass die gemeinsame Verteilung dieser
Zufallsvariablen eine Multinormalverteilung ist, so gilt diese Umkehrung sehr wohl:
23.6.5 Bemerkung: Genügt der Zufallsvektor Z = 8Z1 , Z2 , …, Zr < einer @m, SD-Verteilung, so gilt: Die
Zufallsvariablen Z1 , Z2 , …, Zr sind genau dann vollständig unabhängig, wenn die Kovarianzmatrix S eine
Diagonalmatrix ist, die Zufallsvariablen Z1 , Z2 , …, Zr also paarweise unkorreliert sind.
ô
Beweis: Ist m = 8m1 , m2 , …, mr < œ r und ist S = Diag@s11 , s22 , …, srr D eine Diagonalmatrix mit lauter positiven
”
Einträgen in der Diagonale, so gilt für alle Vektoren z = 8z1 , z2 , …, zr < œ r
”
@zD =
Z
=
1 ”
”
Exp@- Hz - mL ÿS-1 ÿ Hz - mLt D =
2
1
H2 pLrê2
Det@SD
1
2 p s11
2 p s22 …
2 p srr
2
2
2
‰-Hz1 -m1 L êH2 s11 L ‰-Hz2 -m2 L êH2 s22 L … ‰-Hzr -mr L êH2 srr L
Die gemeinsame Verteilungsdichte der Zufallsvariablen Z1 , Z2 , …, Zr ist damit wegen Bemerkung 23.6.4 gleich
dem Produkt ihrer Marginalverteilungsdichten, womit wegen Bemerkung 19.1.2 gezeigt ist, dass die Zufallsvariablen Z1 , Z2 , …, Zr vollständig unabhängig sind.
Von theoretischem Interesse ist die folgende Bemerkung
23.6.6 Bemerkung: Sind die Zufallsvariablen Z1 , Z2 , …, Zr vollständig unabhängig und @0, 1D-verteilt und
ist P œ rr eine orthogonale Matrix (eine Matrix P œ rr heißt bekanntlich orthogonal, wenn Pt ÿP = E gilt), so
sind auch die Zufallsvariablen Y1 , Y2 , …, Yr mit 8Y1 , Y2 , …, Yr < = 8Z1 , Z2 , …, Zr <ÿ P vollständig unabhängig
und @0, 1D-verteilt.
ô
Beweis: Der Zufallsvektor Z = 8Z1 , Z2 , …, Zr < ist wegen Bemerkung 23.6.5 @0, ED-verteilt. Auf Grund des
Satz über die affine Transformation von Multinormalverteilungen sowie der Tatsache, dass die Matrix P orthogonal
ist, genügt auch der Zufallsvektor Y = 8Y1 , Y2 , …, Yr < = Z ÿ P einer @0, ED-Verteilung, also sind wegen
Bemerkung 23.6.5 auch die Zufallsvariablen Y1 , Y2 , …, Yr vollständig unabhängig und @0, 1D-verteilt.
Von besonderem Interesse ist der Fall r = 2, also der zweidimensionalen Normalverteilung:
23_Die_Normalverteilung.nb
160
23.6.7 Bemerkung: Ist der Zufallsvektor Z = 8Z1 , Z2 < zweidimensional normalverteilt mit dem Mittelwertsvektor m = 8m1 , m2 < und der Kovarianzmatrix S, so gilt
a) Die Kovarianzmatrix S hat die Gestalt
s1 2 · s1 s2
S=
· s1 s2 s2 2
wobei s1 2 bzw s2 2 den Varianzen und · dem Korrelationskoeffizient der beiden Zufallsvariablen Z1 und Z2
entsprechen.
b) Für die gemeinsame Verteilungsdichte der beiden Zufallsvariablen Z1 und Z2 gilt offenbar
Z
1
1
Hz - m L2
z - m z - m2 Hz2 - m2 L2
”
@zD =
Exp@I 1 1 -2r 1 1 2
+
MD
Z
s1
s2
2H1 - r2L
s12
s22
2p s1 s2 1 - r2
Wie bereits in Beispiel 17.6.3 festgestellt wurde, liefern Schnitte mit vertikalen Ebenen nicht normierte Gauß'sche Glockenkurven und Schnitte mit horizontalen Ebenen gedrehte Ellipsen mit dem Mittelpunkt m.
c) Für die bedingte Verteilungsdichte Z 8Z =z < gilt wegen Bemerkung 18.2.3
2
1 1
1
1
r s2
Z 8Z =z < @z2 D =
Exp@Iz2 - Hm2 +
Hz1 - m1 LLM2 D
2
1 1
2
2
s1
2s2 H1 - r L
2p s2 1 - r2
Damit ist gezeigt, dass die Zufallsvariable Z2 unter der Bedingung 8Z1 = z1 < normalverteilt ist mit dem
Erwartungswert m2 + r s2 Hz1 - m1 L ês1 und der Streuung s2 1 - r2 . Geometrisch erhält man diese
bedingte Verteilungsdichte von Z2 unter der Bedingung 8Z1 = z1 <, indem man die gemeinsame Verteilungsdichte von Z1 und Z2 mit der vertikalen Ebene x = z1 schneidet und die dabei entstehende Schnittkurve
normiert.
d) Für den bedingten Erwartungswert @Z2 8Z1 = z1 <D gilt damit
r s2
@Z2 8Z1 = z1 <D = m2 +
Hz1 - m1 L
s1
ô
Beweis: a) Diese Bedeutung der Parameter der Kovarianzmatrix S folgt unmittelbar aus Bemerkung 23.6.4 und der
Definition des Korrelationskoeffizienten r.
c) Die bedingte Verteilungsdichte Z
@z D = Z ,Z @z1 , z2 D ê Z @z1 D ermitteln wir mit Hilfe von Mathemat1 2
1
2 8Z1 =z1 < 2
ica:
m = 8m1, m2<; S = 88s12 , r s1 s2<, 8r s1 s2, s22 <<;
FullSimplify@PDF@MultinormalDistribution@m, SD, 8z1, z2<D ê PDF@NormalDistribution@m1, s1D, z1D, 8-1 < r < 1, s1 >
Clear@m, SD
Hz2 σ1−µ2 σ1+H−z1+µ1L ρ σ2L2
2 I−1+ρ2 M σ12 σ22
2π
1 − ρ2 σ2
Die Eigenschaft c) kann zur Simulation von @8m1 , m2 <, 88s1 2 , r s1 s2 <, 8r s1 s2 , s2 2 <<D-verteilten Zufallspunkten 8z1 , z2 < œ 2 herangezogen werden: Man erzeugt dazu zuerst die @m1 , s1 D-verteilte Zufallszahl z1 und
anschließend die @m2 + r s2 Hz1 - m1 L ês1 , s2 1 - r2 D-verteilte Zufallszahl z2 . Eine allgemeine Möglichkeit
”
zur Simulation von multinormalverteilten Zufallspunkten z œ r wird in Beispiel 23.6.9 besprochen.
Es folgen wieder einige Beispiele, mit denen gezeigt wird, wie mit der Multinormalverteilung gearbeitet wird:
23_Die_Normalverteilung.nb
161
23.6.8 Beispiel (Der Log-Trig-Algorithmus): Man zeige: Sind die beiden Zufallsvariablen X1 und X2
unabhängig und im Intervall @0, 1D gleichverteilt, so sind die beiden Zufallsvariablen
Z1 =
-2 Log@X1 D Cos@2 p X2 D
und
Z2 =
-2 Log@X1 D Sin@2 p X2 D
unabhängig und @0, 1D-verteilt. Dieses Ergebnis liefert einen Algorithmus, mit dem im Intervall @0, 1D
gleichverteilte Zufallszahlen in normalverteilte Zufallszahlen transformiert werden können. (Dieser
Algorithmus ist aber für praktische Zwecke nicht geeignet, da die Berechnung der dabei auftretenden
Funktionen sehr zeitaufwändig ist.)
ô
Lösung: Die Abbildung g : @0, 1D2 Ø 2 mit
”
z = g@xD = g@8x1 , x2 <D = 8
-2 Log@x1 D Cos@2 p x2 D,
-2 Log@x1 D Sin@2 p x2 D<
ist bijektiv und besitzt die Umkehrabbildung g -1 : 2 Ø @0, 1D2 mit
”
x = g -1 @zD = g -1 @8z1 , z2 <D = 8Exp@-Hz1 2 + z2 2 L ê 2D, ArcTan@z2 ê z1 D ê2 p<
” ”
”
Berücksichtigt man die bekannte Tatsache, dass der infinitesimale Bereich g -1 @@z, z + „ zDD den Flächeninhalt
”
”
”
”
”
†Det@ ∑ xê∑ zD§ †„ z§ besitzt, wobei wir mit ∑ xê∑ z die Funktionalmatrix der Funktion x = g -1 @zD an der Stelle z
”
bezeichnen, sowie die Tatsache, dass X im Bereich @0, 1D2 gleichverteilt ist, so gilt für alle z œ 2
1
1
”
” ”
”
” ”
”
@zD = ” @8Z œ @z, z + „ zD<D = ” @8g -1 @ZD œ g -1 @@z, z + „ zDD<D =
Z
†„ z§
†„ z§
=
23.6.9
1
1
”
”
”
Exp@-Hz1 2 + z2 2 L ê 2D
” @g -1 @zDD †Det@ ∑ xê∑ zD§ †„ z§ =
†„ z§ X
2p
Beispiel:
Man
entwickle
einen
auf
dem
Satz
über
die
affine
Transformation
von
Multinormalverteilungen beruhenden Algorithmus, mit dem sich @0, ED-verteilte Zufallspunkte x œ r in
”
@m, SD-verteilte Zufallspunkte z œ r transformieren lassen. Da sich @0, ED-verteilte Zufallspunkte
leicht erzeugen lassen (man muss dazu nur entsprechend viele @0, 1D-verteilte Zufallszahlen erzeugen),
verwendet man diesen Algorithmus häufig zu Erzeugung von @m, SD-verteilten Zufallspunkten.
ô
Lösung: Die Matrix S ist symmetrisch und positiv definit. Sie ist damit diagonalisierbar, wobei alle Eigenwerte
” ”
”
l1 , l2 , …, lr positiv sind und die zugehörigen Eigenvektoren v1 , v2 , … vr paarweise orthonormiert gewählt
t
werden können. Bezeichnet man mit P jene orthogonale Matrix, deren Spalten aus diesen orthonormierten Eigen” ”
”
vektoren v1 , v2 , … vr der Matrix S bestehen, so gilt bekanntlich P ÿ S ÿPt = Diag@l1 , l2 , …, lr D.
Ist G = Diag@
l1 ,
l2 , …,
lr D ÿP und X ein @0, ED-verteilter Zufallsvektor, so ist der Zufallsvektor
Z = m + X ÿG wegen des Satzes über die affine Transformation multinormalverteilt mit dem Mittelwertsvektor
m + 0 ÿ G = m und der Kovarianzmatrix Gt ÿ EÿG = Pt ÿDiag@l1 , l2 , …, lr D ÿ P = S.
Dieser Vorgang lässt sich in Mathematica leicht implementieren: Man berechnet dazu zuerst mit Hilfe von Eigensystem die Eigenwerte und zugehörigen Eigenvektoren der symmetrischen und positiv definiten Matrix S,
orthonormiert diese Eigenvektoren mit dem Befehl Orthogonalize und berechnet anschließend unter Verwendung
des Befehls DiagonalMatrix die Matrix G. Schließlich wendet man die Transformation m + x ÿG auf eine Liste x von
r @0, 1D-verteilten Zufallszahlen an (bei dem folgenden Algorithmus wird zusätzlich noch geprüft, ob die Matrix
S tatsächlich symmetrisch und positiv definit ist, wobei gegebenenfalls eine Fehlermeldung ausgegeben wird):
23_Die_Normalverteilung.nb
162
NormalverteilterZufallspunkt@m_, S_D :=
Module@8r = Length@SD, e = N@Eigensystem@SDD, G<,
G = DiagonalMatrix@[email protected]@eP2TD;
If@S =!= Transpose@SD, Print@"S nicht symmetrisch"D, If@Positive@eP1TD =!= Table@True, 8r<D, Print@"S nicht positiv
m + Table@RandomReal@NormalDistribution@0, 1DD, 8r<D.GDDD
Beispielsweise gilt
m = 82, 3, 1, 3<; S = 881, 1, 1, 2<, 81, 3, 1, 2<, 81, 1, 4, 1<, 82, 2, 1, 5<<;
NormalverteilterZufallspunkt@m, SD
Clear@m, SD
81.13126, 3.88876, −2.23091, 2.93927<
Es sei erwähnt, dass Mathematica beim Aufruf von RandomReal@MultinormalDistribution@m, SDD genau diesen
Algorithmus verwendet.
23.6.10 Beispiel (Der k-Sigma-Bereich): Für den mit dem Mittelwertsvektor m und der Kovarianzmatrix S
multinormalverteilten Zufallsvektor Z = 8Z1 , Z2 , …, Zr < berechne man die Wahrscheinlichkeit dafür, dass Z
”
”
”
im Ellipsoid Bk = 8z œ r ˝ Hz - mL ÿS-1 ÿHz - mLt  k 2 < liegt. Man nennt dieses Ellipsoid Bk den rdimensionalen k-Sigma-Bereich der @m, SD-Verteilung.
ô
”
Lösung: Wir verwenden die Bezeichnungen von Beispiel 23.6.9 sowie die Transformation x = Hz - mL ÿ G-1 . Für die
”
t
Funktionaldeterminante Det@∑ z ê ∑ xD der dazu inversen Transformation gilt wegen G ÿ G = S
”
Det@∑ z ê∑ xD = Det@GD =
Det@SD
und damit
@8Z œ Bk <D = Ÿ … Ÿ
Bk
=
=
1
H2 pLrê2
Ÿ…Ÿ
Det@SD
H2 pLrê2
8x ˝ xÿxt k 2 <
1 ”
”
”
Exp@- Hz - mL ÿ S-1 ÿ Hz - mLt D †„ z§ =
2
1
Exp@Det@SD
1
xÿ xt D
2
Det@SD †„ x§ =
1
2
k
k r-1
2
Exp@-r2 ê2D „ r
Ÿ HExp@-r ê2D Ÿ∑K @rD „ OL „ r = rê2
Ÿ r
2 G@rê2D 0
H2 pLrê2 0
r
wobei wir mit
Ÿ∑K @rD „ O = H-1L
r
∑ 8y1 ,
`rê2p 2r pê2 pê2 … pê2
Ÿ0 Ÿ0
Ÿ 0 ∑ 8r, j ,
1
y2 , …,
j2 , …,
rê2 r-1
yr <
„ j1 „ j2 … „ jr-1 = 2 p
r
jr-1 <
G@r ê2D
die Oberfläche einer r-dimensionalen Kugel Kr @rD mit Radius r bezeichnet haben. Die Berechnung dieses rdimensionalen Oberflächenintegrals kann dabei unter Verwendung der r-dimensionalen Kugelkoordinaten
yr = r Cos@j1 D Cos@j2 D Cos@j3 D Cos@j4 D … Cos@jr-3 D
yr-1 = r Sin@j1 D Cos@j2 D Cos@j3 D Cos@j4 D … Cos@jr-3 D
yr-2 = r
Sin@j2 D Cos@j3 D Cos@j4 D … Cos@jr-3 D
…
Sin@jr-3 D
y3 = r
y2 = r
y1 = r
Cos@jr-2 D Cos@jr-1 D
Cos@jr-2 D Cos@jr-1 D
Cos@jr-2 D Cos@jr-1 D
Cos@jr-2 D Cos@jr-1 D
Sin@jr-2 D Cos@jr-1 D
Sin@jr-1 D
23_Die_Normalverteilung.nb
163
mit Hilfe der Mathematica-Prozedur
y@2D = 8r Cos@j@1DD, r Sin@j@1DD<;
x@2D = 8r, j@1D<;
y@r_D := Append@y@r - 1D Cos@j@r - 1DD, r Sin@j@r - 1DDD;
x@r_D := Append@x@r - 1D, j@r - 1DD;
Oberfläche@r_D := 2r Integrate@Det@D@y@rD, 8x@rD<DD, Apply@Sequence, Table@8j@iD, 0, p ê 2<, 8i, 1, r - 1<DDD
erfolgen. Damit gilt beispielsweise
r = 5;
Oberfläche@rD
FullSimplify@Oberfläche@rD == 2 prê2 rr-1 ê Gamma@r ê 2DD
Clear@rD
8 π2 ρ4
3
True
Die Berechnung der Wahrscheinlichkeit des r-dimensionalen k-Sigma-Bereichs ist damit sehr einfach:
Wahrscheinlichkeit@r_, k_D := 2 Integrate@rr-1 Exp@-r2 ê 2D, 8r, 0, k<D ê H2rê2 Gamma@r ê 2DL êê N
r = 2; k = 2;
Wahrscheinlichkeit@r, kD
Clear@r, kD
0.864665
Die folgende Zeichnung zeigt einen zweidimensionalen @m, SD-verteilten Punktschwarm zusammen mit den
Ein-, Zwei- und Drei-S-Bereichen. Bei den Rändern dieser Bereiche handelt es sich um Schnitte der Verteilungsdichte der @m, SD-Verteilung mit den horizontalen Ebenen z3 = ‰-k ê2 êH2 p Det@SD L mit k = 1, 2, 3. Weiters
ist in diese Zeichnung auch der bedingte Erwartungswert z2 = @Z2 8Z1 = z1 <D als Funktion von z1 eingezeichnet.
Es handelt sich dabei aber nicht! um die Achse dieser Schnittellipsen, sondern um eine Gerade, bei der die jeweiligen vertikalen Abstände zu den oberen und unteren Rändern dieser Schnittellipsen gleich sind.
2
z2
6
4
2
-4
-2
2
4
6
8
z1
23.6.11 Beispiel: Der @m, SD-verteilte zufällige Punkt Z = 8Z1 , Z2 < wird orthogonal auf die durch den
Ursprung gehende Gerade y = k x projiziert. Man ermittle die Verteilungsdichte A @aD des Abstandes A des
projizierten Punktes vom Ursprung.
ô
23_Die_Normalverteilung.nb
164
Lösung: Es bezeichne g = 81 ê
1 + k2 , k ê
1 + k 2 < den Einheitsvektor in Richtung der Geraden y = k x. Auf
Grund des Satzes über die affine Transformation von Multinormalverteilungen ist die Projektion Z ÿ g t von Z auf g
normalverteilt mit dem Mittelwert
n = mÿ g t = Hm1 + k m2 L ê
1 + k2
und der Streuung
t=
Is1 2 + 2 k r s1 s2 + k 2 s2 2 Më I1 + k 2 M
g ÿ S ÿ gt =
Der Abstand A = †Z ÿ g t § des projizierten Punktes vom Ursprung besitzt damit die Verteilungsdichte
A @aD = :
jn,t @aD + jn,t @-aD
0
für a ¥ 0
für a  0
wobei wir mit jn,t die Verteilungsdichte der Normalverteilung mit dem Mittelwert n und die Streuung t bezeichnen. Mit der folgenden Prozedur lässt sich diese Verteilungsdichte A für beliebige Werte von m, S und k graphisch
darstellen (die Matrix S muss dabei natürlich symmetrisch und positiv definit sein):
m = 82, 3<; S = 881, 1<, 81, 3<<; k = 3;
g = 81, k< ê Sqrt@1 + k2 D; n = m.g; t = [email protected];
Plot@PDF@NormalDistribution@n, tD, aD + PDF@NormalDistribution@n, tD, -aD, 8a, 0, 10<,
PlotStyle Æ [email protected], AspectRatio Æ 0.4, AxesLabel Æ 8a, A @aD<D
Clear@m, S, k, g, n, tD
A HaL
0.20
0.15
0.10
0.05
a
2
4
6
8
10
23.6.12 Beispiel: Zur Bestimmung des Standortes C eines Objekts wird dieses von den beiden c km
voneinander entfernten Beobachtungspunkten A und B angepeilt und dabei die beiden Winkel U und V
bestimmt. Da Winkelmessungen in der Regel mit Fehlern behaftet sind, können wir annehmen, dass es sich
bei diesen beiden Winkeln U und V um Zufallsvariable handelt. Unter der Annahme, dass diese beiden
Zufallsvariablen U und V unabhängig und mit den Mittelwerten a und b sowie der Streuung s normalverteilt
sind, bestimme man die gemeinsame Verteilung der Koordinaten X und Y des Punktes C.
ô
Lösung: Wir veranschaulichen die Fragestellung an Hand einer Zeichnung:
C
Y
U
V
A
B
X
c
Offenbar ist Y = X Tan@U D und Y = Hc - X L Tan@V D, was
23_Die_Normalverteilung.nb
X=
165
c Cos@U D Sin@V D
Sin@U + V D
und
Y=
c Sin@U D Sin@V D
Sin@U + V D
zur Folge hat. Da s (als Maß für die Genauigkeit der Messung) üblicherweise klein ist und damit U und V nur
wenig von ihren Mittelwerten a und b abweichen, gilt in erster Näherung (Entwicklung von X und Y in eine
Taylorreihe, welche wir nach dem ersten Glied abbrechen - diesen Vorgang nennt man Linearisierung)
X=
c Sin@aD Cos@aD
c Cos@aD Sin@ bD
c Sin@ bD Cos@ bD
HU - aL +
HV - bL
2
Sin@a + bD
Sin2 @a + bD
Sin @a + bD
Y=
c Sin@aD Sin@ bD
c Sin2 @ bD
c Sin2 @aD
+
HU - aL +
HV - bL
Sin@a + bD
Sin2 @a + bD
Sin2 @a + bD
”
oder in Matrixschreibweise 8X , Y < = n + 8U , V <ÿ G mit
c Sin@ bD
”
8Cos@aD, Sin@aD< - 8a, b<ÿG
n=
Sin@a + bD
G=
c
Sin2 @a + bD
-Sin@ bD Cos@ bD
Sin@aD Cos@aD
Sin2 @ bD
Sin2 @aD
Bei der gemeinsamen Verteilung U,V der beiden Zufallsvariablen U und V handelt es sich um eine zweidimensionale Normalverteilung mit dem Mittelwertsvektor 8a, b< und der Kovarianzmatrix s2 E. Wegen des Satzes über die
affine Transformation von Multinormalverteilungen handelt es sich daher bei der gemeinsamen Verteilung X ,Y
der beiden Zufallsvariablen X und Y in erster Näherung um eine zweidimensionale Normalverteilung mit dem
”
Mittelwertsvektor m = n + 8a, b<ÿ G und der Kovarianzmatrix S = s2 Gt ÿG.
Bisher haben wir stets vorausgesetzt, dass die Kovarianzmatrix S einer Multinormalverteilung Am, SE symmetrisch und positiv definit ist. Ist S zwar symmetrisch aber nur positiv semidefinit (und nicht positiv definit), so
spricht man von einer ausgearteten Multinormalverteilung.
Experimentiert man mit den dynamischen Graphiken aus Beispiel 17.6.3, so erkennt man, dass es sich bei einer
ausgearteten zweidimensionalen Normalverteilung um eine "eindimensionale Normalverteilung auf einer Geraden"
handelt. Ohne auf den Beweis im Detail einzugehen erwähnen wir in diesem Zusammenhang:
” ”
”
23.6.13 Satz: Ist S œ rr eine symmetrische, positiv semidefinite Matrix mit Rang s  r, sind v1 , v2 , …, vs die
normierten und paarweise orthogonalen, zu den s positiven Eigenwerten der Matrix S gehörenden Eigenvek” ”
”
toren und bezeichnet G = 8v1 , v2 , …, vs < œ sr jene Matrix, deren Spalten von diesen s Eigenvektoren gebildet
werden, so gilt:
a) Die ausgeartete Multinormalverteilung @m, SD besitzt als Träger m,S die lineare Mannigfaltigkeit
”
”
”
m,S = 8m + l1 v1 t + l2 v2 t + … + ls vs t l1 , l2 , …, ls œ <
b) Genügt der Zufallsvektor Z der r-dimensionalen, ausgearteten Multinormalverteilung @m, SD, so genügt
der Zufallsvektor Y = Z ÿ G der s-dimensionalen, nicht ausgearteten Multinormalverteilung @m ÿG, Gt ÿ S ÿ GD
”
(man beachte, dass es sich bei der Transformation y = z ÿ G um die orthogonale Projektion des r auf den von
” t ” t
” t
den Vektoren v1 , v2 , …, vs aufgespannten Unterraum handelt).
Wir veranschaulichen diesen Satz an einem Beispiel:
23.6.14 Beispiel: Der zweidimensionale Zufallsvektor Z genüge der ausgearteten Multinormalverteilung
1 -2
N
@m, SD mit m = 83, 1< und S = J
-2
4
Gesucht ist die Wahrscheinlichkeit @8Z œ R<D, wobei es sich bei der Menge R um ein Rechteck mit den
Eckpunkten A = 81.5, 0.5<, B = 84.5, 0.5<, C = 84.5, 5.0< und D = 81.5, 5.0< handelt.
23_Die_Normalverteilung.nb
166
ô
Lösung: Wir veranschaulichen die Fragestellung zuerst graphisch. In der folgenden Zeichnung ist das Rechteck R
mit den Eckpunkten ABCD grün, der Träger der ausgearteten Multinormalverteilung als blaue Gerade und die
Verteilungsdichte der Multinormalverteilung mit den Parametern m = 83, 1< und S ' = 881, -1.95<, 8-1.95, 4<< (es
handelt sich dabei um eine nichtausgeartete Multinormalverteilung, deren Kovarianzmatrix S' mit der Kovarianzmatix S der zur Diskussion stehenden ausgearteten Multinormalverteilung fast übereinstimmt) auszugsweise als
blaue Fläche dargestellt. Bei der ausgearteten zweidimensionalen Multinormalverteilung handelt es sich um eine
eindimensionale Normalverteilung auf ihrem Träger - ihre Verteilungsdichte ist rot eingezeichnet.
Die gesuchte Wahrscheinlichkeit @8Z œ R<D entspricht damit der gelb schraffierten Fläche unter dieser Verteilungsdichte, welche durch die beiden orangen Punkte P und Q begrenzt ist. Beim Intervall @P, QD handelt es sich dabei
um den Durchschnitt des Rechecks R mit dem Träger der ausgearteten Multinormalverteilung.
a) Man könnte die gesuchte Wahrscheinlichkeit @8Z œ R<D näherungsweise berechnen, indem man annimmt, dass
der Zufallsvektor Z einer nichtausgearteten Multinormalverteilung mit dem Mittelwertsvektor m = 83, 1< und einer
symmetrischen und positiv definiten Kovarianzmatrix S' genügt, welche sich von der Kovarianzmatix S nur geringfügig unterscheidet. Für zwei derartige Kovarianzmatrizen S1 und S2 erhält man beispielsweise
m = 83, 1<; S1 = 881, -1.95<, 8-1.95, 4<<; S2 = 881, -2<, 8-2, 4.1<<;
NIntegrate@PDF@MultinormalDistribution@m, S1D, 8x, y<D, 8x, 1.5, 4.5<, 8y, 0.5, 5<D
NIntegrate@PDF@MultinormalDistribution@m, S2D, 8x, y<D, 8x, 1.5, 4.5<, 8y, 0.5, 5<D
Clear@m, S1, S2D
0.531815
0.530708
b) Wir wollen nun die gesuchte Wahrscheinlichkeit @8Z œ R<D mit Hilfe von Satz 23.6.13 und den dort verwendeten Bezeichnungen berechnen: Dazu ermitteln wir zuerst mit Hilfe von Eigensystem die Eigenwerte und zugehörigen Eigenvektoren der Matrix S sowie die Matrix G (es handelt sich dabei um den Eigenvektor zum einzigen
positiven Eigenwert der Matrix S) und berechnen den Mittelwert m ÿG und die Varianz Gt ÿ S ÿG der Zufallsvariablen
Y = Z ÿG sowie die Projektionen p ÿ G und q ÿG der Schnittpunkte P und Q des Rechtecks R mit dem Träger unserer
ausgearteten Multinormalverteilung. Die gesuchte Wahrscheinlichkeit @8Z œ R<D entspricht damit der Wahrscheinlichkeit @8Y œ @q ÿG, p ÿGD<D und lässt sich leicht berechnen:
23_Die_Normalverteilung.nb
m = 83, 1<; S = 881, -2<, 8-2, 4<<; p = 81.5, 4<; q = 83.25, 0.5<;
G = Eigensystem@SD@@2, 1DD;
m.G; G.S.G;
p.G; q.G;
CDF@[email protected], [email protected], p.GD - CDF@[email protected], [email protected], q.GD
Clear@m, S, p, q, GD
0.531899
167
Herunterladen