Eine Auswahl des Sto es der Vorlesung Statistik für

Werbung
Eine Auswahl des Stoes der Vorlesung
Statistik für Wirtschaftswissenschaftler
Kurs 2008/09
10. Juli 2009
Inhaltsverzeichnis
5
Zeitreihenanalyse
5.1
Einführung der Zeitreihen
5.2
Komponenten einer Zeitreihe
5.3
Schätzung des Trends
5.4
6
7
4
. . . . . . . . . . . . . . . . . . . . . . . . . . .
4
. . . . . . . . . . . . . . . . . . . . . . . . .
5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
5.3.1
Die Methode der gleitenden Durchschnitte . . . . . . . . . . . . . .
6
5.3.2
Die Methode der exponentiellen Glättung
. . . . . . . . . . . . . .
6
5.3.3
Drei Funktionsansätze für die Trendschätzung . . . . . . . . . . . .
7
5.3.4
Die Freihandmethode
. . . . . . . . . . . . . . . . . . . . . . . . .
7
5.3.5
Die Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . .
7
Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
5.4.1
Ein Verfahren bei additiver Verknüpfung . . . . . . . . . . . . . . .
10
5.4.2
Ein Verfahren bei multiplikativer Verknüpfung
11
. . . . . . . . . . .
Lineare Regression
12
6.1
Einfache Regression
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
6.2
Zweifache Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
Wahrscheinlichkeitsrechnung
15
7.1
Kombinatorik
15
7.2
Grundlagen der Wahrscheinlichkeitsrechnung
7.3
Bedingte Wahrscheinlichkeit, stochastische Unabhängigkeit, Formel für die
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
17
totale Wahrscheinlichkeit, Formel von Bayes . . . . . . . . . . . . . . . . .
22
7.4
Zufallsvariable, Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . .
23
7.5
Erwartungswert, Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
7.6
Spezielle Verteilungen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
7.6.1
Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
7.6.2
Poisson-Verteilung
. . . . . . . . . . . . . . . . . . . . . . . . . . .
33
7.6.3
Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . .
35
7.6.4
Die gleichmäÿige Verteilung . . . . . . . . . . . . . . . . . . . . . .
37
7.6.5
Normalverteilung oder Gauÿ-Verteilung
38
2
. . . . . . . . . . . . . . .
INHALTSVERZEICHNIS
8
3
7.6.6
Die log-normale Verteilung
. . . . . . . . . . . . . . . . . . . . . .
44
7.6.7
Die Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . .
45
7.6.8
Die Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . .
45
7.6.9
Die
χ2 -Verteilung
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
7.6.10 Die Student-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . .
48
7.7
Gemeinsame Verteilung mehrerer Zufallsvariablen . . . . . . . . . . . . . .
49
7.8
Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
7.9
Gesetz der groÿen Zahlen und Grenzwertsätze . . . . . . . . . . . . . . . .
59
7.9.1
Das Gesetz der groÿen Zahlen und der Hauptsatz der Statistik
. .
59
7.9.2
Der zentrale Grenzwertsatz
. . . . . . . . . . . . . . . . . . . . . .
61
Parameterschätzung
63
8.1
Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
8.2
MaximumLikelihoodMethode . . . . . . . . . . . . . . . . . . . . . . . .
64
8.3
Eigenschaften von Schätzfunktionen
. . . . . . . . . . . . . . . . . . . . .
66
8.4
Kondenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
8.4.1
Bestimmung eines Kondenzintervalls für
µ
bei bekanntem
8.4.2
Bestimmung eines Kondenzintervalls für
µ
bei unbekanntem
σ
. .
69
8.4.3
Bestimmung eines Kondenzintervalls für
σ
bei unbekanntem
µ
. .
71
8.4.4
Bestimmung eines Kondenzintervalls für den Parameter
Binomialverteilung
9
Bi(n, p)
σ
p
. . .
68
einer
. . . . . . . . . . . . . . . . . . . . . .
72
Testen statistischer Hypothesen
74
9.1
74
9.2
Einfühurung, Signikanztest . . . . . . . . . . . . . . . . . . . . . . . . . .
9.1.1
Signikanztest für
µ
bei der Normalverteilung bei bekanntem
σ
9.1.2
Signikanztest für
µ
bei der Normalverteilung bei unbekanntem
. .
75
σ
.
78
Einseitige Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
9.2.1
Ein einseitiger Test bei der Binomialverteilung
. . . . . . . . . . .
84
9.2.2
Ein einseitiger Test bei der hypergeometrischen Verteilung . . . . .
86
Kapitel 5
Zeitreihenanalyse
5.1
Einführung der Zeitreihen
Unter einer
Zeitreihe versteht man die Entwicklung einer bestimmten Gröÿe, deren Wer-
te im Zeitablauf zu bestimmten Zeitpunkten oder für bestimmte Zeitintervalle erfasst und
dargestellt werden.
Beispiel 5.1.1 (für Zeitreihen von zeitpunktbezogenen Merkmalen):
s(t) = g2 t2 sei die in der Zeit t zurückgelegte
Fallstrecke. Misst man t in Sekunden und s(t) in Metern, so gilt an der Erdoberäche
−2 .
für die Erdbeschleunigung g ≈ 9.81m sec
a) Weg-Zeit-Funktion beim freien Fall:
Devisenkurse für US $ (Kassa Geld)
Tag
15.11.04
16.11.04
17.11.04
18.11.04
19.11.04
$ für 1 Euro
1.2914
1.2931
1.3000
1.3003
1.2993
b)
Für eine Analyse dieser Zeitreihe, wie sie dann in diesem Kapitel behandelt wird,
y(t).
wäre eine kompakte Darstellung wie in Teil a) zweckmäÿig, also
t in Tagen zu messen, und zwar an Besten so, dass
y(i)
Dabei wäre
der Kurswert am
i-te
angegebene Tag ist, also:
i
y(i)
1
2
3
4
5
1.2914
1.2931
1.3000
1.3003
1.2993
Die Funktion
y(t)
ist aber oensichtlich ohne weitere Informationen nur für die
angegebenen Werte von t, nämlich 1, 2, 3, 4, 5 deniert. Allerdings wäre z.B.
y(2.5)
sinnvoll, wenn noch genaue Uhrzeiten angegeben wären und der 12 Stunden später
als
y(2)
abgefragte Kurswert bekannt wäre. Die Zeitskala lieÿe sich also prinzipiell
beliebig verfeinern.
Bsp. 5.1.2 (für eine Zeitreihe eines zeitintervallbezogenen Merkmals):
Jahr
i :=
Nummer des Zeitintervalls
Umsatz
yi
(in Mio. Euro)
Jahr
i
yi
1988
1
4.8
1993
6
5.6
1989
2
5.2
1994
7
5.8
1990
3
5.6
1995
8
6.4
1991
4
4.9
1996
9
5.9
1992
5
6.2
×
×
×
Eine Funktion
y(t)
ist bei Bsp 5.1.2 nur für
4
t = 1, 2, . . . ,
sinnvoll zu interpretieren.
5.2. KOMPONENTEN EINER ZEITREIHE
Nicht sinnvoll ist z.B.
5
y(1.5). Um sich aber z.B. einen besseren Überblick über den Verlauf
der Zeitreihe zu verschaen, ist es zweckmäÿig, die Zeitreihe in einer Kurve darzustellen
(Siehe die untenstehende Fig. 5-1). Dabei ist zu beachten, dass
Werte von
y
t
y(t)
nur für bestimmte
sinnvoll zu interpretieren ist.
(Umsatz in Mio. Euro)
6
7
6
5
4
3
2
1
1
2
3
4
5
6
7
8
9
-t
Fig. 5-1
5.2
Komponenten einer Zeitreihe
Bei langen Zeitreihen (etwa über mehrere Jahrzehnte) ist eine Aufteilung in folgende 4
Komponenten sinnvoll:
a)
Trend
b)
Zyklische Komponente
T (t):
Grundrichtung, langfristige Entwicklung.
Z(t): mitttelfristige Entwicklung, z.B. Einüsse von Kon-
junkturschwankungen.
c)
Saisonkomponente
S(t):
kurzfristige Entwicklung innerhalb der einzelnen Jahre
durch saisonbedingte Schwankungen.
d)
Restkomponente R(t): einmalige oder seltene Einüsse und Zufallsschwankungen.
KAPITEL 5. ZEITREIHENANALYSE
6
Bei kurzen Zeitreihen ist eine Trennung zwischen Trend und zyklischer Komponente nicht
mehr sinnvoll. Es bleibt eine Aufteilung in 3 Komponenten:
a)
Trend
T (t):
Grundrichtung, b)
S(t)
vergl. o., c)
R(t)
vergl. o.
In diesem Kapitel werden nur solche Zeitreihen behandelt.
Additive Verknüpfung der Komponenten:
y(t) = T (t) + S(t) + R(t)
(5.2.1)
Multiplikative Verknüpfung der Komponenten:
y(t) = T (t) · S(t) · R(t)
(5.2.2)
Reduktion auf additiver Verknüpfung durch Logarithmeren (z.B. mit Basis e)
ln y(t) = ln T (t) + ln S(t) + ln R(t)
(5.2.3)
5.3
Schätzung des Trends
5.3.1 Die Methode der gleitenden Durchschnitte
Gleitender Durchschnitt über eine ungerade Anzahl von Werten
T (i) ≈ D2m+1 (i) :=
(5.3.1)
yi−m +yi−m+1 +...+yi +yi+1 +...+yi+m
2m+1
Rekursionsformel:
D2m+1 (i) = D2m+1 (i − 1) +
(5.3.2)
yi+m −yi−m−1
2m+1
Eine Mittelbildung über eine gerade Anzahl von Werten würde eine Trendschätzung an
einem nicht sinnvollen Wert von
t
liefern. Wäre (wie etwa bei Monatswerten) doch eine
Art Mittelbildung über eine gerade Anzahl wünschenswert, so kann man folgende Modikation des gleitenden Durchschnitts verwenden:
T (i) ≈ D2m (i) :=
(5.3.3)
0.5yi−m +yi−m+1 +...+yi+m−1 +0.5yi+m
2m
Rekursionsformel:
(5.3.4)
D2m (i) = D2m (i − 1) +
(yi+m +yi+m−1 )−(yi−m +yi−m−1 )
4m
Nachteil des gleitenden Durchschnitts:
keine Trendschätzung für die ersten und letzten Werte von
i.
5.3.2 Die Methode der exponentiellen Glättung
Rekursive Berechnung von
T ∗ (i) als Schätzung für T (i) nach der Methode der exponen-
tiellen Glättung:
(5.3.5)
Die
T ∗ (1) = y(1),
Glättungskonstante
T ∗ (i) = α y(i) + (1 − α) T ∗ (i − 1)
α
ist dabei eine vorher festzusetzende Zahl mit
(i ≥ 2)
0 ≤ α ≤ 1.
5.3. SCHÄTZUNG DES TRENDS
7
α
Man erhält eine starke Glättung, wenn
wenn
α
nahe bei
1
nahe bei
0
ist, und eine schwache Glättung,
ist.
Die Bezeichnung exponentielle Glättung kommt daher, dass man aus (5.3.5) folgende
Formel herleiten kann:
T ∗ (i) = α
(5.3.5 a)
i−2
P
(1 − α)j y (i − j) + (1 − α)i−1 y(1)
(i ≥ 2)
j=0
Für die praktische Berechnung ist aber (5.3.5) vorzuziehen.
5.3.3 Drei Funktionsansätze für die Trendschätzung
Linearer Ansatz:
T (t) ≈ a + bt
Parabolischer Ansatz:
T (t) ≈ a + bt + ct2
Exponentieller Ansatz:
T (t) ≈ a bt
(a, b ≥ 0)
Reduktion des exponentiellen auf den linearen Ansatz:
ln T (t) ≈ ln a + t ln b =: a∗ + t b∗
(5.3.6)
5.3.4 Die Freihandmethode
Anpassung einer Trendgerade (also linearer Ansatz) nach Augenmaÿ an die graphische
Darstellung der Zeitreihe
5.3.5 Die Methode der kleinsten Quadrate
Vorbemerkung zur Schreibweise: Um bei den in diesem Abschnitt eingeführten arithmetischen Mitteln den Zusammenhang mit der Zeitvariablen zum Ausdruck zu bringen,
verwenden wir für die Bezeichnung der Zeitpunkte oder Zeitintervalle die Bezeichnung
ti statt einach i, auch wenn meist (aber nicht immer)
ti = i
ist.
a) Linearer Ansatz:
Bestimme
a
und
b
so, dass
1
n
(5.3.7)
n
P
i=1
d2i
mit
di := (a + b ti ) − yi
ein Minimum wird. Diese Forderung ist erfüllt, wenn
a
und
b
die folgenden
Nor-
malengleichungen erfüllen:
a + tb = y
(5.3.8)
t a + t2 b = yt
Dabei bedeuten z.B.:
t :=
1
n
n
P
i=1
ti ,
t2 :=
1
n
n
P
i=1
ti 2
2
(> t
i.Allg.),
y t :=
1
n
n
P
yi t i
(= ty 6= y t i.Allg.)
i=1
Zur Herleitung und zum Verständnis der Normalengleichungen ist es nützlich, (5.3.7)
ausführlich zu schreiben:
KAPITEL 5. ZEITREIHENANALYSE
8
n
n
1X 2
di =
n
1X
(a + bti − yi )2
n
i=1
i=1
n
1X 2
(a + b2 t2i + yi2 + 2abti − 2ayi − 2bti yi )
n
=
i=1
2
= a + b2 t2 + y 2 + 2abt − 2ay − 2bty
Bezeichnen wir diesen Ausdruck mit
g(a, b), so müssen nach den u.a. in der Mathematik
IIVorlesung bereitgestellten Verfahren folgende notwendige Bedingungen erfüllt
sein, damit
g(a, b)
∂g(a,b)
∂a
minimal wird.
!
∂g(a,b)
∂b
= 2a + 2bt − 2y = 0,
!
= 2bt2 + 2at − 2ty = 0
Das führt auf das System (5.3.8) der Normalengleichungen, das seinerseits immer
eindeutig lösbar ist auÿer in dem Sonderfall
t2
2
⇔ alle ti
⇔ n=1
=t
sind gleich
(wegen
t1 < t2 < . . .
)
Die Lösung des Systems (5.3.8) der Normalengleichungen lautet:
t y−t y
2 ,
t2 −t
b=
(5.3.9)
Dass die Werte für
a
und
b
a = y − bt.
aus (5.3.9) wie gefordert die Funktion
g(a, b)
tat-
sächlich minimieren, muss noch gezeigt werden. Dabei genügt es i.Allg. nicht, die
HesseMatrix zu untersuchen, da dies eine Aussage über relative Extrema liefert. Da
aber
g(a, b)
durch lineare Substitutionen in eine quadratische Form umgewandelt
werden kann, genügt die Untersuchung der HesseMatrix doch:
H(a, b) :=
∂ 2 g(a,b)
∂a2
∂ 2 g(a,b)
∂a∂b
∂ 2 g(a,b)
∂a∂b
∂ 2 g(a,b)
∂b2
!
=
2 2t
2t 2t2
2
n ≥ 2 die Determinante dieser HesseMatrix = 2 · 2t2 − (2t)2 = 4(t2 − t ) > 0
∂ 2 g(a,b)
und
= 2 > 0 ist, besitzt g(a, b) für die Werte aus (5.3.9) nach Satz 11.6
∂a2
Da für
ist
b) der MathematikIIVorlesung ein relatives Minimum. Das ist aber gleichzeitig
ein absolutes Minimum, da
g(a, b) durch lineare Substitutionen in eine quadratische
Form umgewandelt werden kann.
Die bei der Mittelbildung notwendigen Divisionen durch
rechnung von
b
n
kann man bei der Be-
vermeiden, indem man den Bruch in (5.3.9) mit
erhält so die Alternativformeln:
(5.3.9a)
b=
n·(n·t y )−(n·t) (n·y)
2
n·(n·t2 )−(n·t)
b) Parabolischer Ansatz: Bestimme
a, b, c
,
so, dass
a = y − bt.
n2
erweitert und
5.3. SCHÄTZUNG DES TRENDS
n
P
1
n
(5.3.10)
i=1
9
d2i
di := (a + bti + ct2i ) − yi
mit
ein Minimum wird. Diese Forderung ist erfüllt, wenn
a, b
und
c
die folgende Nor-
malengleichungen erfüllen:
a + t b + t2 c = y
(5.3.11)
t a + t2 b + t3 c = yt
t2 a + t3 b + t4 c = yt2
Dabei bedeuten z.B.:
tk :=
1
n
n
P
ti k ,
, y tk :=
i=1
1
n
n
P
ti k yi .
i=1
Die bei der Mittelbildung notwendigen Divisionen durch
indem man alle Gleichungen mit
n
n
kann man vermeiden,
durchmultipliziert:
n · a + n · t b + n · t2 c = (n · y)
n · t a + n · t2 b + n · t3 c = n · yt
n · t2 a + n · t3 b + n · t4 c =
n · yt2
(5.3.11a)
Dieses System der Normalengleichungen ist eindeutig lösbar bis auf die für die Praxis
belanglosen Sonderfälle
n=1
und
n = 2.
c) Exponentieller Ansatz: Statt analog zu a) und b) mit
di = a bti − yi
zu arbeiten, ist
es zweckmäÿiger, auf den linearen Ansatz (vergl. (5.3.6)) zu reduzieren. Man erhält
so:
t ln y−t ln y
,
2
t2 −t
b∗ =
(5.3.12)
a∗ = ln y − b∗ t
∗
a = ea
,
∗
b = eb
Dabei bedeuten z.B.:
ln y :=
a∗ , b∗
1
n
n
P
ln yi ,
, t ln y :=
i=1
1
n
n
P
ti ln yi .
i=1
sind also die Koezienten bei dem linearen Ansatz für die Trendschätzung
bei der Zeitreihe ln yi statt yi .
Häug ist es zweckmäÿig, bei dieser Trendschätzung zu bleiben und auf die Umrechnung in
(5.3.13)
a
und
b
zu verzichten:
∗ (t) = a∗ + b∗ t
ln T (t) ≈ Tln
y
(Trendschätzung für
ln yi ).
Statt ln kann man z.B. auch log10 verwenden. Man erhält dann die Umrechnungsformeln
∗
a = 10a
,
b = 10b
∗
.
Die bei der Mittelbildung notwendigen Divisionen durch
rechnung von
b∗
n
kann man bei der Be-
vermeiden, indem man den Bruch in (5.3.12) mit
erhält so die Alternativformeln:
n2
erweitert und
KAPITEL 5. ZEITREIHENANALYSE
10
b∗ =
(5.3.12a)
n·(n·t ln y )−(n·t) (n·ln y )
2
n·(n·t2 )−(n·t)
∗
a = ea ,
a∗ = ln y − b∗ t.
,
b = eb
∗
Allg. Bem. zu 5.3: In der Praxis sollte bei den Trendschätzungsverfahren n etwa
≥ 30
sein.
5.4
Saisonbereinigung
5.4.1 Ein Verfahren bei additiver Verknüpfung
yi
Es seien Zeitreihenwerte
in monatlichen Daten vorgegeben. Bei andere Aufteilung des
Jahres sind die Einzelschritte entsprechend zu modizieren.
• 1. Schritt:
Trendschätzung durch gleit. Durchschnitte:
T (i) ≈ D12 (i)
(5.4.1)
• 2. Schritt:
( ti durch i ersetzt)
Trendbereingung: Bestimmung von
di := yi − D12 (i)
(5.4.2)
als Schätzung für
yi − T (i) = S(i) + R(i).
Annahme 1: Der Wert der Saisonkomponente
S(i)
ist nur von dem Monat und
nicht von dem Jahr abhängig. In allen Jahren soll die Saisonbewegung gleich sein.
Damit bestimmen
12
Werte von
S(i),
die den Monaten zugeordnet sind, die ganze
Saisonkomponente:
(SI , SII , . . . , SXII )
Dieser Satz von
12
Zahlen heiÿt
Saisonnormale. Die Verbindung zur Saisonkom-
ponente ist dann in folgender Weise gegeben:
(5.4.3)


 SI ,
SII ,
S(i)(≡ Si ) =

 ..
falls der Monat mit der Nummer
falls der Monat mit der Nummer
i ein Januar ist.
i ein Februar ist.
.
.
.
.
Die Schätzung der Saisonnormale ist das Ziel der nächsten Schritte.
• 3. Schritt:
Bildung der arthm. Mittel aller Werte
di ,
die zu jeweils einen Monat
gehören. Wir bezeichnen diese arithmetischen Mittel mit:
dI , dII , . . . , dXII .
dII
ist z.B. das arithmetische Mittel aller Werte
di ,
die zum Februar gehören.
Annahme 2: Der Jahresdurchschnitt aller saisonbedingter
schwindet, d.h.
(5.4.4)
1
12 (SI
+ SII + · · · + SXII ) = 0
Abweichungen ver-
5.4. SAISONBEREINIGUNG
• 4. Schritt:
11
Bestimmung von
dI +dII +···+dXII
12
(5.4.5)
d :=
als Korrektur zu den Werten
dI , dII , . . . , dXII .
Damit ist eine Schätzung für die
Saisonnormale wie folgt zu bestimmen:
∗ , . . . , S∗ )
(SI∗ , SII
XII
(5.4.6)
• 5. Schritt:
mit
∗
:= dXII − d.
SI∗ := dI − d, . . . , SXII
Bestimmung von
Bi∗ := yi − Si∗
(5.4.7)
 ∗

 SI ,
∗ ,
∗
∗
SII
S (i)(≡ Si ) =

 ..
falls der Monat mit der Nummer
falls der Monat mit der Nummer
Die Werte
Bi∗
• 6. Schritt:
yi − S(i) = T (i) + R(i)
bilden also eine Schätzung für die saisonbereinigte Zeitreihe.
Bestimmung von
Ri∗ := Bi∗ − D12 (i)
(5.4.8)
als Schätzung für die Restkomponente:
Bem.: di und
i ein Januar ist,
i ein Februar ist,
.
.
.
.
als Schätzung für
mit (vergl. (5.4.3))
Ri∗
können nicht für alle
R(i) = yi − S(i) − T (i).
i der Zeitreihe berechnet werden, da die gleitenden
Durchschnitte dabei werwendet werden.
Beispiele zur Saisonbereinigung nden Sie in den in diesem Verzeichnis abgelegten Files
kap5erg1.pdf und kap5erg2.pdf .
5.4.2 Ein Verfahren bei multiplikativer Verknüpfung
Durch Logarithmieren (vergl. (5.2.3)) lässt sich die Untersuchung auf den Fall der additiven Verknüpfung reduzieren. Es ist also das Verfahren aus 5.4.1 auf die Zeitreihe ln yi anzuwenden. Es ist dann zweckmäÿig, die logarithmische Darstellung beizubehalten und
erst bei der Auswertung einzelner Zahlenergebnisse die Logarithmierung wieder rückgängig zu machen.
Kapitel 6
Lineare Regression
6.1
Einfache Regression
Problemstellung : Zwei (oder auch mehr) quantitative Merkmale werden an jedem
einzelnen statistischen Element geprüft, z. B. Werbungskosten und Absatz in einem bestimmten Betrieb im
iten
Jahr (i
= 1, 2, . . . , n).
Wir nehmen an, dass zwischen den
Messgröÿen ein linearer Zusammenhang besteht und suchen nach geeigneten näherungsweisen Darstellung dieses Zusammenhangs.
Bestimmung der Regressionsgeraden : Messwerte (= beobachtete Merkmalsausprä-
gungen) an einem statistischen Element
i:
xi
yi
für das 1.Merkmal
für das 2.Merkmal
1. Regressionsgerade: linearer Ansatz:
y = a1 + b1 x
Die Forderung:
n
P
!
(a1 + b1 xi − yi )2 =
(6.1.1)
Min. liefert (vergl. (??):
i=1
b1 =
n · (n · x y) − (n · x) (n · y)
,
n · n · x2 − (n · x)2
!
a1 = y − b1 x ,
(x2 − x2 6=0).
(6.1.2)
n
1X
x y :=
x i yi
n
(= y x 6= y x i.Allg.)
i=1
2. Regressionsgerade: linearer Ansatz:
x = a2 + b2 y
Die Forderung:
n
P
!
(a2 + b2 yi − xi )2 =
(6.1.3)
Min. liefert:
i=1
b2 =
n · (n · x y) − (n · x) (n · y)
,
n · n · y 2 − (n · y)2
!
a2 = x − b2 y ,
12
(y 2 − y 2 6=0).
(6.1.4)
6.2. ZWEIFACHE REGRESSION
Der Punkt
xy
13
liegt auf beiden Regressionsgeraden.
(6.1.5)
Es gilt allgemein:
0 ≤ b1 · b2 ≤ 1
(6.1.6)
In vielen Anwendungen ist aber nur die erste Regressionsgerade sinnvoll zu interpretieren,
und zwar dann, wenn aus dem Zusammenhang klar ist, dass das erste Merkmal 'x' das
zweite Merkmal 'y ' beeinusst, aber nicht umgekehrt. 'x' heiÿt dann
'y '
Einussgröÿe und
Zielgröÿe.
Beide Regressionsgeraden sind i.Allg. verschieden. Sie sind genau dann gleich, wenn folgendes gilt:
b1 · b2 =
(xy − x · y)2
=1
(6.1.7)
liegen (exakt) auf einer Geraden.
(6.1.8)
(x2 − x2 )(y 2 − y 2 )
Ausserdem gilt:
b1 · b2 = 1 ⇔
6.2
Alle Punkte
(xi , yi )
Zweifache Regression
Wir haben jetzt drei Merkmale an jedem statistischen Element zu prüfen. Die Merkmalsausprägungen oder Messwerte bezeichnen wir wieder mit:
xi
für das 1. Merkmal
yi
für das 2. Merkmal
zi
für das 3. Merkmal
Wir bestimmen eine Regressionsebene mit einem linearen Ansatz:
z = a1 + b1 x + c1 y
n
P
Die Forderung:
(6.2.9)
!
(a1 +b1 xi +c1 yi −zi )2 = Min. liefert die Normalengleichungen (vergl.(??),
i=1
(??) und (??)):
n · a1 + (n · x) · b1 + (n · y) · c1
(n · x) · a1 + n · x2 · b1 + (n · xy) · c1
(n · y) · a1 + (n · xy) · b1 + n · y 2 · c1
= n·z
= n · xz
(6.2.10)
= n · yz
Diese Normalengleichungen sind genau dann eindeutig nach den Parametern
a1 , b1 , c1
aufzulösen, wenn folgende Bedingungen erfüllt sind:
x2 − x2 6= 0 und y 2 − y 2 6= 0
(xy − x · y)2
6= 1.
(x2 − x2 )(y 2 − y 2 )
Die Bedingung (6.2.11) ist genau dann erfüllt, wenn mindestens eines der
mindestens eines der
yi
von
y
(6.2.11)
(6.2.12)
xi
von
x
und
verschieden ist. Das trit fast immer zu. Die Bedingung
KAPITEL 6. LINEARE REGRESSION
14
(6.2.12) ist nach (6.1.6) und (6.1.5) genau dann erfüllt, wenn die Messwertpaare
(xi , yi )
nicht alle (exakt) auf einer Geraden liegen. Auch das ist in der Regel erfüllt.
Ähnlich wie im Falle der einfachen Regression kann man zwei weitere Regressionsebenen
aus den Daten für
xi , yi
und
zi
bestimmen, und zwar mit den Ansätzen:
x = a2 + b2 y + c2 z
y = a3 + b3 x + c3 z
wobei für
a2 , b2 , c2
bzw.
a3 , b3 , c3
wieder Normalengleichungen aufzustellen sind:
n · a2 + (n · y) · b2 + (n · z) · c2
(n · y) · a2 + n · y 2 · b2 + (n · yz) · c2
(n · z) · a2 + (n · yz) · b2 + n · z 2 · c2
= n·x
n · a3 + (n · x) · b3 + (n · z) · c3
(n · x) · a3 + n · x2 · b3 + (n · xz) · c3
(n · z) · a3 + (n · xz) · b3 + n · z 2 · c3
= n·y
= n · yx
= n · zx
bzw.
= n · xy
= n · zy
Diese beiden Regressionsebenen sind aber nur dann sinnvoll zu interpretieren, wenn nicht
aus dem Zusammenhang klar ist, dass die beiden ersten Merkmale 'x' und 'y ' Einussgröÿen sind und das dritte Merkmal 'z ' die Zielgröÿe ist.
Kapitel 7
Wahrscheinlichkeitsrechnung
7.1
Kombinatorik
Denition 7.1.1 (a) Für eine beliebige natürliche Zahl
aus den Zahlen von
1
bis
m
mit
m
m! := 1 · 2 · 3 · · · m,
0! := 1 .
n und k mit 0 ≤ k ≤ n
n
n!
:=
k
k! · (n − k)!
(b) Für zwei beliebige ganze Zahlen
der
bezeichnet man das Produkt
m Fakultät:
ist durch
Binomialkoezient n über k deniert.
Für diesen Binomialkoezienten gilt für
1 ≤ k ≤ n:
n · (n − 1) · · · (n − k + 1)
n
=
.
k
1 · 2···k
(7.1.1)
Diese Darstellung ist für die zahlenmäÿige Auswertung oft günstiger als die Formel, durch
die der Binomialkoezient deniert ist. Darüber hinaus liefert die formale Anwendung
von (7.1.1) die sinnvolle Denition:
n
:= 0
k
für
k, n ∈ Z, 0 ≤ n < k.
(7.1.2)
(m + 1)! = m! · (m + 1).
Satz 7.1.2 (Binomischer Lehrsatz) Für
n
(a + b) =
a, b ∈ R
n X
n
k=0
Dabei setzt man
x0 := 1,
k
und
15
gilt:
· ak · bn−k .
wobei die Funktion von
bleibt undeniert.
n ∈ Z, n ≥ 0
(7.1.3)
x
gemeint ist.
00
für sich genommen
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
16
Urnenmodell: Urne mit
n
Kugeln;
k
Kugeln werden nacheinander aus der Urne gezo-
gen und in einer Stichprobe zusammengestellt.
(I) Regeln des Ziehens
(a) Ohne Zurücklegen (Abkürzung: o.Z.)
Jede gezogene Kugel wird nicht wieder in die Urne zurückgelegt, sondern
kommt in die Stichprobe.
(b) Mit Zurücklegen (Abkürzung: m.Z.)
Jede gezogene Kugel wird in der Stichprobe registriert und wieder in die Urne
zurückgelegt. Modell für das Registrieren: Ein Duplikat der gezogenen Kugel
kommt in die Stichprobe.
(II) Regel des Zusammenstellens
(a) Ohne Berücksichtigung der Anordnung (Abkürzung: o.B.d.A)
Jede gezogene Kugel bzw. ihr Duplikat kommt in eine Stichprobenurne. Die
Reihenfolge der Ziehungen ist also nachher nicht mehr feststellbar.
(b) Mit Berücksichtigung der Anordnung (Abkürzung: m.B.d.A)
Jede gezogene Kugel bzw. ihr Duplikat kommt in dasjenige Fach eines Stichprobenfächerbretts, das die Nummer der Ziehung trägt.
Bemerkung.: m. bzw. o. Wiederholung = m. bzw. o. Z.
n
verschiedene Kugeln in der Urne,
nung aus
n
k
Kugel in die Stichprobe: Kombination k-ter Ord-
(verschiedenen) Elementen (ergänzt durch Regeln aus (I) und (II), z.B.
m.Z.o.B.d.A.)
Kk (n) := Anzahl aller möglichen verschiedenen Kombinationen der jeweils beschriebenen
Art.
Kk (n)
m.B.d.A.
o.B.d.A.
m.Z.
nk
n+k−1
k
(k ∈ N bel.)
=
(k ∈ N und k ≤ n) = n · (n − 1) · · · (n − k + 1)
k=n
(n+k−1)·(n+k−2)···n
1·2···k
n
k
n!
(n−k)!
o.Z.
Sonderfall
=
n·(n−1)···(n−k+1)
1·2···k
bei der K.o.Z.m.B.d.A.:
Permutation der Menge
{1, 2, . . . , n} := Anordnung der Zahlen 1, 2, . . . , n in willkürlicher
Reihenfolge.
Anzahl:
Pn := Kn (n)(o.Z.m.B.d.A.) = n!
Bemerkung.: Statt
{1, 2, . . . , n} kann jede beliebige Menge mit n verschiedenen Elemen-
ten verwendet werden.
7.2. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG
Satz 7.1.3 (StirlingFormel) Für groÿe natürliche Zahlen
verwendbar:
m! ≈
m m √
e
m
17
ist die folgende Näherung
2πm
Für die Genauigkeit der Näherung gilt:
√
(m/e)m 2πm − m!
m ≥ 9 ⇒ |prozentualer Fehler| := |
· 100| ≤ 1(%)
m!
m ≥ 85 ⇒ |prozentualer Fehler| ≤ 0.1(%)
Bemerkung.
(a) Wir haben
k
gleichartige Mengen von je
n
Elementen. Ziehen wir aus jeder Menge
je ein Element, so ist die Formel für Kombinationen m.Z. . . . k -ter Ordnung aus
n
Elementen anzuwenden. Ein Urnenmodell ist dazu nicht mehr nötig.
(b) Wenn es auf die Reihenfolge der Auswahl (oder Ziehung) ankommt, ist die Formel
m.B.d.A ist anzuwenden, und wenn nicht (z.B. wenn gezogene Zahlen in natürlicher Reihenfolge bekanntgegeben werden) die Formel o.B.d.A .
7.2
Grundlagen der Wahrscheinlichkeitsrechnung
Ein Ereignis heiÿt in Bezug auf einen Satz von Bedingungen
zufällig, wenn es bei der
Realisierung dieses Satzes eintreten kann, aber nicht unbedingt eintreten muss.
Denition 7.2.1 Ein Experiment heiÿt ein Zufallsexperiment, falls folgende Bedingungen erfüllt sind:
(a) Es kann nicht mit Sicherheit gesagt werden, welches Ergebnis sich einstellen wird.
(b) Das Experiment soll (wenigstens theoretisch) beliebig oft unter den gleichen Bedingungen wiederholt werden können.
(c) Sämtliche überhaupt möglichen Ergebnisse sollen vor der Durchführung des Experiments angegeben werden können.
Denition 7.2.2 Die Menge aller überhaupt möglichen Ergebnisse eines Zufallsexperiments heiÿt die
Ergebnismenge
Ω.
Denition 7.2.3 Ein Ereignis ist eine Teilmenge der Ergebnismenge.
Bemerkung. Bei überabzählbaren Ergebnismengen bezeichnet man nur Teilmengen aus
einer gewissen Klasse als Ereignisse.
Denition 7.2.4 Jedes Ereignis {ω } mit
unmögliche Ereignis,
Ω
ω ∈ Ω
heiÿt
Elementarereignis.
das sichere Ereignis.
Denition 7.2.5 (Klassische Denition der Wahrscheinlichkeit)
Eine Ergebnismenge
Ω
erfülle folgende zwei Bedingungen:
∅
ist das
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
18
(a)
Ω
ist eine endliche Menge
(b) Alle Elementarereignisse sind gleichwahrscheinlich.
A sei ein beliebiges Ereignis, d.h.
A ⊂ Ω.
Dann heiÿt
P (A) :=
mit card
M :=
A
=
Ω
card
card
Anzahl der für das Ereignis
A
günstigen Ergebnisse
Anzahl der möglichen Ergebnisse
Anzahl der Elemente von
M
die
Wahrscheinlichkeit.
Sonderfall:
P ({ω}) =
1
card
Ω
Denition 7.2.6 (Statistische Denition der Wahrscheinlichkeit)
Ω
sei eine Ergebnismenge,
A⊂Ω
ein Ereignis und
n
die Zahl der Wiederholungen des
Zufallsexperiments
(a) Die
absolute bzw. relative Häugkeit von
A
bei
n
Wiederholungen ist deniert
durch:
fn (A) :=
(b)
Anzahl der Wiederholungen, bei denen
A
eintritt, bzw.
hn (A) :=
fn (A)
n
P (A) :=00 lim00n→∞ hn (A).
Beispiel 7.2.7 Zufallsexperiment: Werfen eines Reiÿnagels.
K (:= Kopf ):
Mögliche Ergebnisse:
; S (:= Spitze):
;
Ω :=
{K,S }
Ergebnis einer Versuchsreihe:
n
fn ({K})
hn ({K})
5
10
15
40
60
160
180
200
2
6
10
25
40
100
110
125
0.4
0.6
0.667
0.625
0.667
0.625
0.611
0.625
P ({K}) =00 lim00n→∞ hn ({K}) ≈ 0.625,
analog
P ({S}) ≈ 0.375
Denition 7.2.8 (Axiomatische Denition der Wahrscheinlichkeit)
Wird jedem Ereignis
scheinlichkeit von
A ⊂ Ω
A,
eine reelle Zahl
P (A)
zugeordnet, so heiÿt
P (A) Wahr-
wenn folgende Bedingungen erfüllt sind:
a)
P (A) ≥ 0
b)
P (Ω) = 1
c)
P (A ∪ B) = P (A) + P (B),
(sicheres Ereignis)
falls
A∩B =∅
ist (A, B
disjunkt)
Bemerkungen.
(a) Bei unendlichen Ergebnismengen
ersetzt werden.
Ω
müsste c) durch eine allgemeinere Bedingung
7.2. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG
19
(b) Die axiomatische Denition umfasst die klassische und die statistische Denition
der Wahrscheinlichkeit
Beispiel 7.2.9 Auf einem Rad mit fester Achse vom Umfang 1 m (d.h. Radius = 21π
0.159 m)
m =
wird eine Maÿskala für die Bogenlängen angebracht:
0
@
@
0.25
0.5
u
I
1
0.75
feste
Marke
@
@
Das Zufallsexperiment besteht nun darin, das Rad mit hoher Drehzahl zu drehen und
plötzlich zu stoppen. Die Bogenlängen auf der Maÿskala, die dann bei der festen Marke
stehenbleibt, wird als Ergebnis des Zufallexperiments registriert. Die Ergebnismenge besteht also aus allen möglichen Werten auf der Maÿskala, d.h. es ist zunächst
Ω = [0, 1[. Alle
Ergebnisse sind gleichberechtigt oder anders ausgedrückt - kein Ergebnis ist vor dem
anderen bevorzugt. Um nun bei den folgenden Überlegungen zusätzliche formale Schwierigkeiten zu vermeiden, ändern wir die Ergebnismenge geringfügig ab:
Ω = [0, 1].
Aufgrund der Gleichberechtigung der Ergebnisse erhalten wir für die Wahrscheinlichkeit
von Teilintervallen
[a, b] ⊂ [0, 1]:
P ([a, b]) =
Länge von
Länge von
[a, b]
b−a
=
[0, 1]
1
Für die Wahrscheinlichkeit von Vereinigungen von Teilintervallen
[a, b], [c, d] ⊂ [0, 1]
er-
halten wir folgende Regeln, wobei wir zwei Fälle unterscheiden müssen:
Fall 1:
[a, b] ∩ [c, d] = ∅
P ([a, b] ∪ [c, d]) =
Anteil von
[a, b] ∪ [c, d]
an der Gesamtlänge
P ([b]) ∪ [d]) = b − a + d − c = P ([a, b]) + P ([c, d])
(vergl. Denition 7.2.8,c) Fall 2:
[a, b] ∩ [c, d] 6= ∅
Gilt entsprechend der Skizze speziell
0 ≤ a ≤ b ≤ c ≤ d ≤ 1,
[a, b] ∪ [c, d] = [a, d],
so erhält man:
[a, b] ∩ [c, d] = [c, b]
und damit
P ([a, b] ∪ [c, d]) − P ([a, b]) − P ([c, d]) = (d − a) − (b − a) − (d − c) = c − b
|
{z
}
=[a,d]
= −(b − c) = −P ([c, b]) = −P ([a, b] ∩ [c, d]).
Daraus folgt
P ([a, b] ∪ [c, d]) = P ([a, b]) + P ([c, d]) − P ([a, b] ∩ [c, d])
(vergl. Satz 7.2.12).
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
20
Spezialfälle (vergl. die nachstehende Denition 7.2.11):
P ({ω}) = P ([ω, ω]) = ω − ω = 0,
d.h.
{ω}
]0, 1[
ist fast unmöglich für jedes
ist fast sicher; denn
ω ∈ Ω.
P (]0, 1[) = P (Ω) − P ({0}) − P ({1}) = 1
Satz 7.2.10 Folgerungen aus den Bedingungen (a), (b) und (c) von Denition 7.2.8:
(i)
(ii)
P (A1 ∪ A2 ∪ . . . ∪ Ak ) = P (A1 ) + P (A2 ) + . . . + P (Ak ),
A ⊂ B ⇒ P (A) ≤ P (B)
(iv)
0 ≤ P (A) ≤ 1
(vi)
Ai ∩ Aj = ∅
f. a.
i 6= j
A ⊂ B ⇒ P (B − A) = P (B) − P (A)
(iii)
(v)
falls
P (A) = 1 − P (A)
P (∅) = 0,
(unmögliches Ereignis)
Beweis:
(i) folgt direkt aus Bedingung (c), was durch vollständige Induktion zu beweisen ist.
(ii) und (iii)
Es sei
A ⊂ B.
Rand von
B
B−A
A
Dann kann man B auf folgende Art als Vereinigung zweier disjunkter Mengen darstellen:
B = A ∪ (B − A) ∧ A ∩ (B − A) = ∅ ⇒
(nach Bed. (c))
P (B) = P (A) + P (B − A) ≥ P (A) ⇒ P (B − A) = P (B) − P (A)
| {z }
≥0 nach Bed. a)
(iv)
(v)
(vi)
A⊂Ω⇒0
Bed. a)
iii)
≤
P (A) ≤ P (Ω)
ii)
Bed. b)
P (A) = P (Ω − A) = P (Ω) − P (A)
=
1
Bed. b)
=
1 − P (A)
v)
∅ = Ω ⇒ P (∅) = 1 − P (Ω) = 0
7.2. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG
Denition 7.2.11 Ein Ereignis
A⊂Ω
(a) fast unmöglich (Abk.: f. u.), wenn
(b) fast sicher (Abk.: f. s.), wenn
Satz 7.2.12 Für zwei Ereignisse
21
heiÿt
P (A) = 0
P (A) = 1
A, B ⊂ Ω,
ist,
ist.
die nicht disjunkt zu sein brauchen, gilt:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Satz 7.2.13
k
Kugeln werden zufällig aus einer Urne gezogen und in einer Stichprobe
gesammelt. Zufällig bedeutet dabei: Bei jeder der k Ziehungen hat jede Kugel, die sich
(noch) in der Urne bendet, die gleiche Chance, gezogen zu werden. Dann gilt . . .
(a) im Falle der Kombinationen m. Z. m. B. d. A., o. Z. m. B. d. A. und o. Z. o. B. d.
A.: Jede Kombination hat die Wahrsch.
=
1
Kk (n)
(b) im Falle der Kombinationen m. Z. o. B. d. A.: Die Kombinationen haben i.a. verschiedene Wahrscheinlichkeiten, insbesondere ist i.a. die Wahrscheinlichkeit
6=
1
Kk (n) .
Bemerkung.: Damit man den Kombinationen überhaupt Wahrscheinlichkeiten im Sinne
von Denition 7.2.8 zuordnen kann, muss man sie als Elementarereignisse oder allgemeinere Ereignisse in einer geeigneten Ergebnismengen auassen. Dasselbe gilt auch für die
Wahrscheinlichkeiten in der folgenden Erläuterung zu Satz 7.2.3, wobei einige Wahrscheinlichkeiten auÿerdem günstiger als bedingte Wahrscheinlichkeiten (vergl. 7.3) aufzufassen
sind.
Erläuterung zu Satz 7.2.13: Urne mit n Kugeln, Stichprobenbrett mit k Fächern bei
m. B. d. A
(i) Bei der Vorschrift m. Z. m. B. d. A. ist die Wahrscheinlichkeit bei
dem 1. Fach für jede Kugel
:
dem 2. Fach für jede Kugel
:
1
n
1
n
.
.
.
1
n
:
dem kten Fach für jede Kugel
Jede Kombination m. Z. m. B. d. A. hat damit die Wahrscheinlichkeit
( n1 )k =
1
Kk (n)
(ii) Bei der Vorschrift o. Z. m. B. d. A ist die Wahrscheinlichkeit bei
dem 1. Fach für jede Kugel
:
1
n
dem 2. Fach für jede (restliche) Kugel
:
1
n−1
:
1
n−k+1
.
.
.
dem kten Fach für jede (restliche) Kugel
Jede Kombination o. Z. m. B. d. A. hat damit die Wahrscheinlichkeit
1
Kk (n) .
1
n (n−1)...(n−k+1)
=
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
22
(iii) Je
k!
verschiedene Kombinationen o. Z. m. B. d. A. entsprechen einer Kombination
o. Z. o. B. d. A. Damit hat jede Kombination o. Z. o. B. d. A. die Wahrscheinlichkeit
k!
1
=
.
n(n − 1) . . . (n − k + 1)
Kk (n)
(iv) Im Gegensatz zu (iii) ist die Anzahl der verschiedenen Kombinationen m. Z. m.
B. d. A., die einer Kombination m. Z. o. B. d. A. entsprechen, abhängig von dem
Ziehungsergebnis. Ein Beispiel dazu: 2 Würfe mit einer idealen Münze:
Kombination m. Z. o. B. d. A.
Kombination m. Z. m. B. d. A.
zweimal W
=
ˆ
W beim 1. Wurf und W beim 2. Wurf
zweimal Z
=
ˆ
Z beim 1. Wurf und Z beim 2. Wurf
einmal W, einmal Z
=
ˆ
W beim 1. Wurf und Z beim 2. Wurf
oder
Z beim 1. Wurf und W beim 2. Wurf
1
4
1
2 und
Da nun diese Kombination m. Z. m. B. d. A. nach i) alle die Wahrscheinlichkeit
2
haben, hat das Ereignis einmal 'W', einmal 'Z' die Wahrscheinlichkeit
4
1
nicht die Wahrscheilichkeit
3
=
Bemerkung.: Bei Wahrscheinlichkeitsuntersuchungen gilt:
1 Wurf mit 2 Münzen
=
ˆ
2 Würfen mit 1 Münze
Dasselbe gilt auch für mehrere Münzen oder für zwei oder mehr Würfel. Dieser Sachverhalt
beruht darauf, dass man Münzen, Würfel oder dergleichen unterscheiden kann z.B. durch
verschiedene Farben. Werden etwa ein blauer und ein roter Würfel gleichzeitig geworfen,
so kann man das Wurfergebnis beim blauen Würfel als Wurfergebnis des 1. Wurfes bei
einem Würfel auassen und das des roten als Wurfergebnis des 2. Wurfes.
7.3
Bedingte Wahrscheinlichkeit, stochastische Unabhängigkeit, Formel für die totale Wahrscheinlichkeit, Formel
von Bayes
Denition 7.3.1 Es seien A, B
⊂ Ω zwei Ereignisse mit P (A) > 0. Dann heiÿt: P (B/A) :=
B unter der Bedingung A.
P (B∩A)
P (A) die bedingte Wahrscheinlichkeit von
Denition 7.3.2 : Zwei Ereignisse mit
A, B ⊂ Ω
heiÿen (stochastisch)
unabhängig,
wenn gilt:
P (A ∩ B) = P (A) · P (B).
Satz 7.3.3 Für bedingte Wahrscheinlichkeiten bzgl. eines festen Ereignises gelten die
Regeln in Def. 7.2.7 u. d. Sätzen 7.2.1,2) z.B.
Satz 7.3.4 (Multiplikationssatz):
A, B ⊂ Ω
P (B/A) = 1 − P (B/A).
seien zwei Ereignisse mit
P (A) > 0
. Dann
gilt:
P (B ∩ A) = P (B/A) · P (A)
.
7.4. ZUFALLSVARIABLE, WAHRSCHEINLICHKEITSVERTEILUNGEN
Denition 7.3.5 Die Ereignisse
A1 , A2 , . . . An
bilden ein
23
vollständiges System, wenn
gilt:
a)
A1 ∪ A2 ∪ . . . ∪ An = Ω
b)
Ai ∩ Aj = ∅
Satz 7.3.6
für alle
(sicheres Ereignis)
i 6= j
A1 , A2 , . . . , An
(paarweise disjunkt).
bilden ein vollständiges System von Ereignissen, und
weiteres Ereignis. Weiterhin gelte
B
sei ein
P (Ai ) > 0 für alle i = 1, 2, . . . , n. Dann gilt die Formel
für die totale Wahrscheinlichkeit:
P (B) =
n
P
P (B/Ai ) · P (Ai ).
i=1
Satz 7.3.7 Es gelten die Voraussetzungen von Satz 7.3.3 und
tens ein
i.
Dann gilt die
P (B/Ai ) > 0
für mindes-
Formel von Bayes:
P (Ai /B) =
P (B/Ai )·P (Ai )
P (B)
Denition 7.3.8 Die Ereignisse
(P (B) vergl. Satz 7.3.6).
A1 , A2 , . . . , An ⊂ Ω
heiÿen:
paarweise unabhängig, wenn gilt:
a)
P (Ai ∩ Aj ) = P (Ai ) · P (Aj )
b) (insgesamt)
Zahlen
unabhängig, wenn für jedes
1 ≤ j1 < j2 < . . . < jk ≤ n
für alle
k ≤ n
i 6= j
und für jede Kombination von
gilt:
P (Aj 1 ∩ Aj 2 ∩ . . . ∩ Aj k ) = P (Aj 1 ) · P (Aj 2 ) · · · P (Aj k )
Bemerkung.:
7.4
b) ⇒ a)
aber
a) 6⇒ b)
Zufallsvariable, Wahrscheinlichkeitsverteilungen
Denition 7.4.1 Eine Zufallsvariable (Abk.: Zufallsvariable) ist eine Gröÿe X (oder Y,
Z,
Xi
usw.), die bei der Durchführung eines Zufallsexperiments (oder bei einem vergleich-
baren Vorgang) irgendeinen reellen Wert x annimmt. x heiÿt dann eine
Realisierung von
X. Bei einer weiteren Durchführung des Zufallsexperiments erhält man i. a. eine andere
Realisierung
Analogien:
x0
von X
X=
ˆ
X=
ˆ
Messvorschrift,
Merkmal,
x=
ˆ
x=
ˆ
Messergebnis
Merkmalsausprägung.
Bemerkung.: Häug wird die Zufallsvariable auch so deniert:
ω ∈ Ω 7→ X(ω) ∈ R
X:
Bemerkung.: X
= x, X < x
men, also nur die Werte
oder
x0 , x1 , x2 , . . .),
(0, )1, 2, . . . , n
oder
so nennt man sie eine
Ergebnismenge
(messbare Abbildung)
usw. sind für
Denition 7.4.2 Kann eine Zufallsvariable
Ω
x∈R
zufällige Ereignisse.
X höchstens abzählbar viele Werte anneh(0, )1, 2, . . . (oder allgemeiner x0 , x1 , . . . , xn
diskrete Zufallsvariable.
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
24
Denition 7.4.3 X sei eine diskrete Zufallsvariable. Sind die Wahrscheinlichkeiten pk :=
P (X = k) oder allgemeiner pk := P (X = xk ) für alle k bekannt, so spricht man von einer
Wahrscheinlichkeitsverteilung von X. Andere Ausdrucksweise: X = k bzw. xk mit
Wahrscheinlichkeit pk .
Satz 7.4.4 Für jede Wahrscheinlichkeitsverteilung einer diskreten Zufallsvariable gilt:
(a)
(b)
0 ≤ pk ≤ 1
n
P
pk = 1
für alle
bzw.
k
∞
P
pk ) = 1.
k=0
k=0
k=0
m
P
pk (:= limm→∞
Denition 7.4.5 Es sei
F (x) := P (X ≤ x)
mit
X eine beliebige Zufallsvariable. Dann nennt
x ∈ R die Verteilungsfunktion von X .
Satz 7.4.6 Für die Verteilungsfunktion
F (x)
(a)
0 ≤ F (x) ≤ 1
(b)
F (x) ↑
(c)
limx→−∞ F (x) = 0 ∧ limx→+∞ F (x) = 1
(nicht immer streng
Beispiel 7.4.7
↑)
auf
k
einer Zufallsvariable gilt:
R,
(i) Eine Zufallsvariable
pk := P (X = k) = e−2 2k! ,
X
sei Poisson-verteilt mit
Xdiskret
=
λ=2
(vergl. 7.6.9):
p0 = 0.14, p1 = 0.27, p2 = 0.27, p3 = 0.18, . . .
Ausrechnungsbsp. für einen Wert der Verteilungsfunktion
F (3.5) := P (X ≤ 3.5)
man die Funktion
F (x):
P (X = 0 ∨ X = 1 ∨ . . . ∨ X = 3) =
3(≤3.5)
P
pk = 0.86
k=0
(ii) Für ein Bsp. für eine Verteilungsfunktion stetiger Zufallsvariable vergl. (7.6.12)
Mit Hilfe der Verteilungsfunktion lässt sich leicht die Wahrscheinlichkeit dafür beschreiben, dass X in einem bestimmten halboenen Intervall liegt: Es sei
P (a < X ≤ b)
=
=
F
auf
Dann gilt:
P (X ≤ b ∧ X > a) = P (X ≤ b ∧ (X ≤ a))
a<b, Satz7.2.1ii)
Ist speziell
a < b.
R
P (X ≤ b) − P (X ≤ a)
=F (b)
− F (a)
stetig dierenzierbar, so können wir diese Dierenz durch ein be-
stimmtes Integral ausdrücken:
F (b) − F (a) =
Rb
a
F 0 (x) dx =
Rb
f (x) dx
mit
f (x) := F 0 (x)
a
Speziell folgt aus Satz 7.4.6, (c) in diesem Fall:
F (b) = lima→−∞ (F (b) − F (a)) =
Rb
f (x) dx,
−∞
1
= limb→∞ F (b) =
R∞
−∞
f (x) dx
.
7.4. ZUFALLSVARIABLE, WAHRSCHEINLICHKEITSVERTEILUNGEN
Denition 7.4.8 Zufallsvariablen, bei denen die Verteilungsfunktion
F (x)
25
stetig die-
renzierbar oder wenigstens durch
Z
x
f (u) du
F (x) =
(7.4.4)
−∞
mit einer geeigneten Funktion
f (x) := F 0 (x)
f (u)
darstellbar ist, heiÿen
oder - im allgemeineren Fall die Funktion
f (u)
stetige Zufallsvariablen.
aus (7.4.4) heiÿt die
Ver-
teilungsdichte oder Wahrscheinlichkeitsdichte der Zufallsvariable.
Bemerkung. Die Eigenschaften stetig und diskret schlieÿen bei Zufallsvariable einander aus. Darüberhinaus gibt es Zufallsvariable, die weder diskret noch stetig sind.
Satz 7.4.9 Für die Verteilungsdichte einer stetigen Zufallsvariable gilt:
(a)
(b)
f (x) ≥ 0
R∞
für alle
x∈R
f (x) dx = 1
−∞
Bemerkung.:
f (x) ≤ 1
gilt i.a. nicht, da
f (x)
nicht als Wahrscheinlichkeit zu interpre-
tieren ist.
Satz 7.4.10 Für eine stetige Zufallsvariable gilt:
(a)
x
R
P (X = x) = f (u) du = 0,
x
(b)
P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) =
Rb
a
f (u) du
Bemerkung.
(a) Bei einer stetigen Zufallsvariable ist also die Wahrscheinlichkeit, dass
bestimmten Wert annimmt,
X = 0.
X
einen ganz
Das ist ein weiterer Grund dafür, dass
f (x)
nicht als Wahrscheinlichkeit zu interpretieren ist.
(b) Bei einer stetigen Zufallsvariable ist es also gleichgültig, ob die Intervallgrenzen
eingeschlossen sind oder nicht. Bei nichtstetigen Zufallsvariablen gilt das i.a. nicht.
Satz 7.4.11 Für eine diskrete Zufallsvariable
P (a ≤ X ≤ b) =
n(od.∞)
P
pk ,
k=0
a ≤ xk ≤ b
Für die übrigen Intervalle gilt analoges.
X
gilt (im Gegensatz zu oben):
P (a < X ≤ b) =
n(od.∞)
P
k=0
a < xk ≤ b
pk
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
26
Beispiel 7.4.12
(i)
6
f (u)
- u
b
Schraerte Fläche =
Rb
−∞ f (u)
du = F (b) = P (X ≤ b)(= P (−∞ < X ≤ b))
(ii)
1. Fläche =
b0 )
Rb
a
f (u) du = P (a ≤ X ≤ b)
2. Fläche =
R b0
a0
f (u) du = P (a0 ≤ X ≤
(iii)
f (u)
ist keine Wahrsch.dichte, da Bedingung a) in Satz 7.4.9 verletzt ist, was in
diesem Bsp. zur Folge hat, dass
Rb
a
f (u) du < 0
ist, also keine Wahrscheinlichkeit
sein kann.
(iv) Eine Zufallsvariable
X
habe eine
Exponentialverteilung, d.h.
f (x) :=
wobei
λ
eine feste reelle Zahl
> 0
0
λ e−λ x
für
für
x < 0,
x ≥ 0,
ist, sei die Verteilungsdichte von
X.
Zunächst
lässt sich leicht überprüfen, dass die Bedingungen von Satz 7.4.9 erfüllt sind:
(a)
(b)
f (x) ≥ 0 für alle x ∈ R,
Z 0
R∞
R∞
f
(x)
dx
=
f (x) dx + 0 f (x) dx = 1, denn:
−∞
−∞ |{z}
:=0
|
{z
}
=0
R b −λ x
Rb
−λb + 1 −→ 0 + 1
dx = [−e−λ x ]x=b
x=0 = −e
0 f (x) dx = 0 λ e
für
b→∞
Für die Verteilungsfunktion erhält man:
 Rx

f (u) du = 0

−∞ |{z}




:=0

Z 0
Rx
Rx
vergl.o.
F (x) =
f (u) du =
f (u) du + 0 f (u) du = 1 − e−λ x
−∞


−∞ |{z}


:=0


|
{z
}

für
x<0
für
x≥0
=0
Für die Wahrscheinlichkeit, dass
R2
X
zwischen 1 und 2 liegt, erhält man:
P (1 ≤ X ≤ 2) = 1 λe−λ x dx = [−e−λ x ]x=2
= e−λ − e−2λ
x=1
= P (1 < X ≤ 2) = P (1 ≤ X < 2) = P (1 < X < 2)
7.5. ERWARTUNGSWERT, VARIANZ
27
λ = 1.2:
P (1 ≤ X ≤ 2) = e−1.2 − e−2.4 = 0.210
Skizzen mit
(v) Poisson-Verteilung mit
pk = e−2 ·
2k
k! ,
λ = 2:
k = 0, 1, 2, . . .
P (2 ≤ X < 4) = P (X = 2 ∨ X = 3) = P (X = 2) + P (X = 3) = p2 + p3 = 0.45
P (2 ≤ X ≤ 4) = P (X = 2 ∨ X = 3 ∨ X = 4) = p2 + p3 + p4 = 0.54
P (2 < X < 4) = P (X = 3) = p3 = 0.18
7.5
Erwartungswert, Varianz
Denition 7.5.1
xk
(a) X sei eine diskrete Zufallsvariable, die bei unendl. vielen Werten
∞
P
folgende Zusatzbedingung erfüllt:
|xk | pk < ∞.
Dann heiÿt:
k=0
E(X) :=
n
X
xk pk ,
bzw.
E(X) :=
k=0
der
Erwartungswert von
(b) Es sei
X
∞
X
xk pk
k=0
X.
eine stetige Zufallsvariable mit der Verteilungsdichte
R∞
Dann heiÿt
E(X) :=
f (x), die die folgenden
−∞ |x| f (x) dx < ∞.
Zusatzbedingungen erfüllt:
R∞
−∞ x
f (x) dx
der
Erwartungswert von
X.
Bemerkung.
(a) Im Folgenden seien die Zusatzbedingungen für alle behandelten Zufallsvariablen
erfüllt.
E(X)
(b) Es kann vorkommen, dass
wird.
(c)
E(X)
E(X)
von der Zufallsvariable
ist i.a. nicht der wahrscheinlichste Wert von
ist als Durchschnittswert von
X
X gar
X.
nicht angenommen
zu interpretieren
Satz 7.5.2 Für die Bildung des Erwartungswerts einer Funktion einer Zufallsvariable
gilt:
E(g(X)) =
n
P
g(xk ) pk
bzw.
k=0
Denition 7.5.3
(b)
(a)
∞
P
g(xk ) pk
bzw.
=
k=0
(a)
Var(X) := E[(X − E(X))2 ]
p
σ(X) := + Var(X)
Satz 7.5.4
=
heiÿt
heiÿt
(b)
Var(a + bX) = b2 Var(X)
(c)
Var(X) = E(X2 ) − (E(X))2
−∞ g(x)
Varianz von
Standardabweichung von
E(a + bX) = a + b E(X),
R∞
f (x) dx.
X.
X.
E(X + Y ) = E(X) + E(Y )
(vergl. (7.8.23)
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
28
(d)
Var(X) = 0 ⇐⇒ X = E(X)
(e) Für jedes beliebige
a∈R
(fast sicher)
gilt:
Bemerkung. Aus (c) und (d) folgt:
Var(X) ≤ E[(X − a)2 ]
E(X 2 ) 6= (E(X))2
i. a.
Beweis: (von Satz 7.5.4, teilweise)
(a)
X
sei eine Zufallsvariable, die nur die Werte
0, 1, 2, . . . , n annehmen kann (für andere
Zufallsvariablen verläuft der Beweis analog):
E(a + b X) =
n
P
(a + b k)pk = a
k=0
n
X
pk + b
n
X
k pk = a · 1 + b E(X)
k=0
k=0
| {z }
| {z }
=1
(pk :=
E(X)
P (X = k))
(b)
a)
Var(a + b X) = E[(a + b X − E(a + b X))2 ] = E[(a + b X − a − b E(X))2 ]
a)
= E[b2 (X − E(X))2 ] = b2 E[(X − E(X))2 ] = b2 Var(X)
(c)
Var(X) := E[(X − E(X))2 ] = E[X2 − 2X · E(X) + (E(X))2 ]
a)
(e)
= E(X 2 ) − 2 E(X) E(X) + (E(X))2 = E(X 2 ) − (E(X))2
h
i
h
i
E (X − a)2 = E (X − E(X) + E(X) − a)2
h
i
= E (X − E(X))2 − 2(X − E(X)) (E(X) − a) + (E(X) − a)2
a)
= Var(X) − 2(E(X) − a) E(X − E(X)) + (E(X) − a)2 ≥ Var(X)
|
{z
} |
{z
}
≥0
=0
7.6
Spezielle Verteilungen
In diesem Abschnitt lernen wir vier sehr wichtige Verteilungen kennen, die in der Praxis
häug vorkommen.
7.6.1 Binomialverteilung
Denition 7.6.1 (Binomialexperiment oder BernoulliExperiment)
Ein Zufallsexperiment habe nur zwei mögliche Ergebnisse, die wir mit Erfolg oder Fehlschlag bezeichnen.
Die Wahrscheinlichkeit für einen Erfolg sei
p
das ganze
q = 1 − p. Wird
n-mal wiederholt, so nennt man
und für einen Fehlschlag sei
dieses Zufallsexperiment unter den gleichen Bedingungen
Bernoulli-Experiment.
Es gibt zahlreiche Zufallsexperimente mit zwei Ausgängen, aus denen man ein Bernoulli
Experiment zusammensetzen kann.
7.6. SPEZIELLE VERTEILUNGEN
29
Beispiel 7.6.2 Werfen einer Münze:
Wahrscheinlichkeit
p=
W
Beispiel 7.6.3 Werfen eines Würfels:
Wahrscheinlichkeit
p=
(Erfolg),
Z
(Fehlschlag).
1
2 bei idealer Münze, sonst unbekannt.
6
(Erfolg), bzw. nicht
6
(Fehlschlag).
1
6 bei idealem Würfel, sonst unbekannt.
Beispiel 7.6.4 Auswahl und Prüfung eines Stückes:
defekt (Erfolg, da man es entdeckt
hat), bzw. nicht defekt (Fehlschlag).
Wichtig für BernoulliExperiment als Modell:
m.Z. (mit Zurücklegung), sonst Wiederho-
lungsbedingung nicht erfüllt.
Beispiel 7.6.5 (Meinungsumfrage)
Eine zufällig ausgewählte Person wird befragt und die Antworte werden als dafür (Erfolg),
bzw. dagegen (Fehlschlag) registriert.
Auch hier wichtig für Bernoulli-Experiment als Modell:
m.Z.,
d.h. Personen können im
Prinzip mehrmals befragt werden.
Ein BernoulliExperiment ist die
n
fache Wiederholung eines solchen Zufallsexperi-
ments.
Die Wahrscheinlichkeit
p
ist bis auf Sonderfälle i.a. unbekannt; um sie zu ermitteln benö-
tigt es oft eines Schätzverfahrens.
Eine wichtige praktische Anwendung ist die Qualitätskontrolle, die wir später behandeln
werden. Zunächst wollen wir die Begrie an dem einfachsten Beispiel des Münzwurfes
erläutern:
Beispiel 7.6.6 (Beispiel 7.6.2 wiederholt)
Betrachten wir
n
Würfe mit einer idealen Münze. Bei jedem einzelnen Wurf machen wir
die Konvention
W
steht für Erfolg, während
Dann ist die Wahrscheinlichkeit für den Erfolg:
lichkeit für den Fehlschag:
q =1−p=
Z
p=
1
2.
für Fehlschlag.
1
2 und entsprechend die Wahrschein-
Dies ist ein BernoulliExperiment, weil jeder Wurf unter den gleichen Bedingungen erfolgt
(Das Würfelbeispiel ist analog).
Anspruchvoller, aber auch ernsthafter ist das Beispiel der Qualitätskontrolle:
Beispiel 7.6.7 Es werden
N
Stück geliefert, von denen
Zufallsvariablen!). Daraus zieht man
n-mal
M
defekt sind (N, M sind keine
ein Stück mit Zurücklegen.
Betrachtet man das zugehörige Bernoulli-Experiment, so ist jede Ziehung ein Zufallsexperiment mit der Wahrscheinlichkeit
defekten Stückes), bzw.
q := 1 − p
p = M/N
für einen Erfolg (d.h. Ziehung eines
für einen Fehlschlag (Ziehung eines nicht defekten
Stückes). Durch Zurücklegung werden nach jeder Ziehung die alten Bedingungen wiederhergestellt.
Von groÿem Interesse ist die Bestimmung der Wahrscheinlichkeitsverteilung für die Zufallsvariable: Anzahl der Erfolge, z.B.
`Anzahl der Ziehungen eines defekten Stückes bei
n
Ziehungen'
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
30
•
Wenn
p
bekannt: Wahrscheinlichkeitsverteilung ausrechnen.
•
Wenn
p
unbekannt: Wahrscheinlichkeitsverteilung in
schlüsse auf
p
p
ausdrücken und dann Rück-
ziehen
Diese Zufallsvariable is binomial verteilt, wie der folgende Satz uns versichert.
Satz 7.6.8
X
sei die Zufallsvariable, welche die Anzahl von Erfolgen bei einem Bernoulli-
X eine Binomialverteilung
p und n, d.h.
n k n−k
P (X = k) =
p q
(k = 0, 1, . . . , n).
k
Experiment beschreibt. Dann besitzt
(oder
Bernoulli-
Verteilung) mit den Parametern
(7.6.5)
Bemerkungen.
Notation für Binomialverteilungen benutzt man oft die Schreibweise
(i) Als
Bi(n, p)
und meint damit eine Zufallsvariable
X:
(ii)
P (X = k) = 0
für
0
1
···
q n npq n−1 · · ·
X
X ∼
mit der Verteilungstabelle
···
k
n k n−k
p
q
·
··
k
n
pn
.
(7.6.6)
k ≥ n + 1.
Das folgt einmal aus der entsprechenden Eigenschaft des Binomialkoezienten, und
andererseits muss diese Wahrscheinlichkeit auch deswegen Null sein, weil nicht mehr
als
n Ziehungen mit defekten Stücken bei n Ziehungen überhaupt auftreten können.
(iii) Zur Erläuterung von Satz 7.6.8 betrachten wir den Sonderfall, wo die Zahl der
Versuche
n=3
ist.
Wie groÿ ist die Wahrscheinlichkeit für
X = 2,
d.h. für zwei Erfolge?
Mit der Konvention
X=1
hat man bei
X=2
für Erfolg, bzw.
X=0
für Fehlschlag
folgende Situationen:
Ergebnis bei
Wahrscheinlichkeit
Einzelversuch
Summe
1
2
3
1
1
0
1
0
1
0
1
1
2
2
2
Für den Faktor 3 vor
3=
3
2
wählen.
p2 q
p·p·q
p·q·p
q·p·p
3p2 q
(wegen Unabhängigkeit)
gilt:
ist die Anzahl der Möglichkeiten, 2 Erfolge aus 3 Einzelversuchen auszu-
3
2
p2 q ist also die gesuchte Wahrscheinlichkeit für X = 2, d.h. für 2 Erfolge.
7.6. SPEZIELLE VERTEILUNGEN
31
(iv) Die Grundbedingungen für Wahrscheinlichkeitsverteilungen sind erfüllt:
P (X = k) ≥ 0
n
n X
X
n k n−k
P (X = k) =
p q
.
k
k=0
k=0
Daraus folgt nach dem binomischen Lehrsatz
n
X
P (X = k) = (p + q)n = 1.
k=0
Auch diese Eigenschaften sind nur eine zusätzliche Kontrolle dafür, dass die Überlegungen richtig sind, die zu der Binomialverteilungen führten. Sie liefern jedoch
keine neue Aussage.
Immer wieder werden wir den Erwartungswert und Varianz einer binomialverteilten Zufallsvariable brauchen.
Satz 7.6.9 Für eine binomialverteilte Zufallsvariable
X
mit den Parametern
n
und
p
gilt:
(a)
E(X) = n · p.
(b)
Var(X) = n · p · q
(⇒ σ(X) =
√
n · p · q).
Beweis: Weil die Binomialverteilung so wichtig ist geben wir gleich zwei Beweisvarianten.
X
1. Variante. Da
eine diskrete Zufallsvariable ist, gilt
E(X) =
n
X
k=0
n
X
n k n−k
k
n k−1 n−k
k·
p q
= np
·
p q
.
k
n
k
k=1
Weiter gilt
k
k−1
· Cnk = Cn−1
n
und daher
E(X) = np
n X
n−1
k=1
k−1
pk−1 q n−k = np(p + q)n−1 = np.
(7.6.7)
Analog berechnen wir
n
n
X
X
n k n−k
k
n k−1 n−k
n − 1 k−1 n−k
E(X ) =
k ·
p q
= np
k ·
p q
= np
k
p q
k
n
k
k−1
k=0
k=1
k=1
n
n X
X
n − 1 k−1 n−k
n − 1 k−1 n−k
= np
(k − 1)
p q
+ np
p q
k−1
k−1
2
n
X
2
k=1
k=1
= np(n − 1)p + np,
weil die vorletzte Summe den Erwartungswert einer
Bi(n−1, p) - verteilten Zufallsvariable
darstellt, während für die letzte Summe
n X
n−1
k=1
k−1
pk−1 q n−k = (p + q)n−1 = 1
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
32
gilt.
Es folgt
E(X 2 ) = np(n − 1)p + np
und damit
Var(X) = E(X2 ) − E2 (X) = npq.
2. Variante. Man kann auch die Technik der Polynomenableitungen benutzen:
Wenn wir das Polynom
L(x) = (px + q)n
mit der üblichen Formel entwickeln erhalten wir
n X
n k k n−k
L(x) =
p x q
, (∀)x ∈ R.
k
k=0
Daraus kann man leicht die Momente von
X
ausrechnen:
dL
|x=1 = E(X)
dx
und
d dL x·
|x=1 = E(X 2 ).
dx
dx
Der Rest folgt wie bei der 1. Variante.
Satz 7.6.10 Seien X1 , X2 zwei unabhängige, binomialverteilte Zufallsvariablen, mit X1
Bi(n1 , p)
und
X2 ∼ Bi(n2 , p).
∼
Dann gilt
X1 + X2 ∼ Bi(n1 + n2 , p).
Beweis: Mit Hilfe der Identität
k X
n1
n2
n1 + n2
·
=
j
k−j
k
(7.6.8)
j=0
folgt
P (X1 + X2 = k) =
k
X
P (X1 = j, X2 = k − j)
j=0
k X
n1
n2
n1 + n2 k n1 +n2 −k
k n1 +n2 −k
= (
·
)p q
=
p q
,
j
k−j
k
j=0
für alle
k = 0, . . . n1 + n2 ,
woraus
X1 + X2 ∼ Bi(n1 + n2 , p)
folgt.
Die Identität (7.6.8) kann man mit vollständiger Induktion oder durch Vergleich des Koezienten von
xk
aus den Entwicklungen
(1 + x)n1 · (1 + x)n2
und
(1 + x)n1 +n2
beweisen.
7.6. SPEZIELLE VERTEILUNGEN
33
Beispiel 7.6.11 (wieder Qualitätskontrolle)
Lieferung von
N = 1000
Stücken,
M = 10
mit Zurücklegen. Es handelt sich also um ein BernoulliExperiment
und
Sei
n = 20 Stücken
M
mit p =
N = 0.01
davon defekt, Ziehungen von
q = 0.99.
X
die Anzahl der Ziehungen von defekten Stücken.
Die Wahrscheinlichkeit für genau 2 Ziehungen von defekten Stücken ist
20
20 · 19
P (X = 2) =
· 0.012 · 0.9920−2 =
· 10−4 · 0.9918 = 0.016.
2
1·2
Die Wahrscheinlichkeit für höchstens 2 Ziehungen von defekten Stücken ist
P (X ≤ 2) =
2 X
20
k=0
k
k
20−k
· 0.01 · 0.99
20
= 0.99
2 X
20
0.01 k
k=0
k
0.99
= 0.999.
und die Wahrscheinlichkeit für keine Ziehung eines defekten Stückes ist
20
P (X = 0) =
0.010 · 0.9920 = 0.818.
0
Bemerkung. Wir haben hier von der Wahrscheinlichkeit für ein defektes Stück auf die
Wahrscheinlichkeit für bestimmte Ereigenisse bei der Qualitätskontrolle geschlossen. Normalerweise ist genau das Umgekehrte notwendig, dass man nämlich von dem Ergebnis der
Qualitätskontrolle auf den Prozentsatz der defekten Stücke schlieÿt.
In unserem Beispiel kann man dann folgendes sagen: Wenn bei den 20 Ziehungen mehr als
zweimal ein defektes Stück gezogen würde, so wäre dieses Ereignis sehr unwahrscheinlich.
Die Richtigkeit der Information, dass nur
1%
Prozent der Stücke defekt ist, ist in diesem
Fall in hohem Grade fragwürdig.
Mit Problemen dieser Art werden wir uns im Rahmen der Prüfung von statistischen
Hyothesen beschäftigen. Dass
X=0
erheblich wahrscheinlicher ist als
X=2
sieht man
auch am Erwartungswert und an der Varianz, welche man leicht bestimmen kann:
E(X) = 20 · 0.01 = 0.2
Var(X) = 20 · 0.01 · 0.99 = 0.198,
σ(X) =
Allgemein:
E(X) = n ·
M
,
N
Var(X) = n ·
√
0.198 = 0.445.
M N−M
·
.
N
N
(7.6.9)
7.6.2 Poisson-Verteilung
Denition 7.6.12 Eine diskrete Zufallsvariable
rameter
λ > 0,
heiÿt
Poisson-verteilt mit dem Pa-
wenn gilt:
P (X = k) = e−λ
Als
X
λk
,
k!
k = 0, 1, 2, . . . .
Notation benutzt man oft für eine solche Zufallsvariable die Schreibweise
P oiss(λ).
Die Poisson-Verteilung wird auch
Gesetz der seltenen Ereignisse genannt.
X ∼
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
34
Bemerkung. Anders ausgedrückt ist
X ∼ P oiss(λ)
g.d.w.
X
n
···
λn −λ
e
···
n!
durch die Verteilungsta-
belle
1
···
λe−λ · · ·
0
X
e−λ
(7.6.10)
charakterisiert wird.
Satz 7.6.13 Für eine Poisson-verteilte Zufallsvariable mit dem Parameter
(a)
E(X) = λ.
(b)
Var(X) = λ,
σ(X) =
√
λ
gilt:
λ.
Beweis:
E(X) =
∞
X
∞
e−λ X
e−λ
=
k · λk
k!
k!
k · λk
k=0
∞
X
= λ
k=1
λk−1
k=1
2
E(X ) =
=
=
∞
X
k=0
∞
X
2
k ·λ
k λk
k=1
∞
X
ke
=
k!
∞
X
(k − 1)!
=
(k − 1)!
(k − 2)!
∞
X
λj
j=0
(k − 1 + 1) λk
+λ
+
∞
X
1 · λk
k=1
∞
X
λk−1 e−λ
k=1
j!
= λe−λ eλ = λ.
e−λ
k!
k=1
e−λ
∞
X
λk−2 e−λ
= λe−λ
k 2 λk
k=1
∞
X
e−λ
k=2
k=2
(k − 1)!
−λ
(k − 1) λk
= λ2
e−λ
(k − 1)!
e−λ
(k − 1)!
e−λ
(k − 1)!
= λ2 e−λ
∞
X
λj
j=0
j!
+λe−λ
∞ l
X
λ
l=0
l!
= λ2 + λ.
Var(X) = E(X2 ) − (E(X))2 = λ.
Beispiel 7.6.14 Eine Fernsprechvermittlung kann maximal
mute herstellen. Pro Stunde erwartet man im Durchschnitt
10 Verbindungen
330 Anrufe. Wie
pro Migroÿ ist
Wahrscheinlichkeit für eine Überlastung in einer Minute?
Sei
X
die Zahl der Anrufe innerhalb einer Minute. Wir wollen
Annahme:
X
P (X > 10)
berechnen.
ist Poissonverteilt. Dann gilt
λ
Satz 7.6.13
=
E(X) =
330
= 5.5,
60
P (X = k) =
5.5k −5.5
e
.
k!
7.6. SPEZIELLE VERTEILUNGEN
35
Die gesuchte Wahrscheinlichkeit rechnet man wie bei einigen früheren Beispielen über die
Wahrscheinlichkeit des komplementären Ereignisses aus:
P (X > 10) = 1 − P (X ≤ 10)
10
X
5.5k −5.5
= 1−
e
k!
k=0
= 1−e
−5.5
10
X
5.5k
k!
k=0
−3
= 1 − 4.09 · 10
Satz 7.6.15 Seien
P oiss(λ2 ).
X1 , X2
· 238.5 = 0.025 = 2.5%.
unabhängige Zufallsvariablen mit
X1 ∼ P oiss(λ1 )
und
X2 ∼
Dann gilt
X1 + X2 ∼ P oiss(λ1 + λ2 ).
Beweis: Übungsaufgabe!
Satz 7.6.16 (Approximation der Binomialverteilung durch die Poissonverteilung)
Sei
X
eine binomialverteilte Zufallsvariable mit den Parametern
P (X = k) ≈ e−λ
λk
,
k!
Dabei sollten folgende Bedingungen erfüllt sein:
p , n.
Dann gilt:
λ = np.
n ≥ 50
und
λ = np ≤ 5.
Beispiel 7.6.17 (nochmal Qualitätskontrolle) Es werden
davon sind
M = 100
N = 10000 Stücke geliefert,
p = 0.01. Weiterhin werden n = 250 Ziehungen
n = 250 ≥ 50, λ = n · p = 2.5 ≤ 5.
defekt. Damit ist
mit Zurücklegen durchgeführt, also
Die Wahrscheinlichkeit, dabei höchstens 2 defekte Stücke zu ziehen, ist
P (X ≤ 2) =
2
X
P (X = k) ≈ e
−2.5
k=0
2
X
2.5k
k=0
k!
= 0.0821 · 6.63 = 0.544.
Zum Vergleich: Die Binomialverteilung liefert
P (X ≤ 2) = 0.544.
Bemerkung.: Bei der Binomialverteilung sollte jener Versuchsausgang mit
Erfolg be-
zeichnet werden, welcher die deutlich kleinere Wahrscheinlichkeit hat, insbesondere dann,
wenn die PoissonNäherung angewendet werden soll. Sind die Wahrscheinlichkeiten für
beide Versuchsausgänge nahe bei
1/2,
können die Bezeichnungen Erfolg oder Fehlschlag
beliebig vergeben werden.
7.6.3 Hypergeometrische Verteilung
Ausgangsproblem (Qualitätskontrolle)
In einer Lieferung von
Stichprobe von
n
N
Stück sind
M
davon defekt (N,
M
keine Zufallsvariablen). Eine
Stücken wird gewählt und untersucht (o. Z. o. B. d. A.). Wie groÿ ist
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
36
die Wahrscheinlichkeit, das
m
Stücke in der Stichprobe defekt sind?
Bemerkung.: Dieses Verfahren ist günstiger als der Zugang via Binomialverteilung. Sei
X
die Zufallsvariable, welche die Anzahl der defekten Stücke in der Stichprobe bezeichnet.
Es gilt:
P (X = m) =
M
m
N −M
n−m
N
n
n
m
=
N −n
M −m
N
M
.
(7.6.11)
Denition 7.6.18 Die in (7.6.11) beschriebene Verteilung heiÿt hypergeometrische
N , M , n.
Verteilung mit den Parametern
Bedingungen:
N, M, n, m ∈ N, 0 ≤ n ≤ N , 0 ≤ m ≤ M ≤ N , 0 ≤ n − m ≤ N − M .
Herleitung von Formel (7.6.11)
Nach Satz 7.2.13 (a) haben alle Kombinationen o. Z. o. B. d. A. von
die Wahrscheinlichkeit
denen genau
m
n
aus
N
Stücken
N
n . Das Ereignis X = m erfasst dann alle Kombinationen, bei
1/
defekte und damit
Anzahl der Möglichkeiten,
m
n−m
nicht defekte Stücke ausgewählt werden. Die
defekte Stücke für die Stichprobe aus
der Lieferungen auszuwählen, beträgt
M
defekten Stücken
M
m , da dabei wie oben nach der Vorschrift o. Z.
o. B. d. A. vorgegangen wird. Bei jeder solchen Auswahl muss dann die Stichprobe mit
n − m aus den N − M
es
N −M
n−m
nicht defekten Stücken der Lieferung aufgefüllt werden. Dafür gibt
Möglichkeiten, und zwar bei jeder Auswahl vom
N −M
n−m
m
defekten Stücken. Damit
Möglichkeiten für die Auswahl (o. Z. o. B. d. A.) von m
(n − m) nicht defekten Stücken. Dies ist also die Anzahl der Kombinationen
gibt es insgesamt
defekten und
M
m
o. Z. o. B. d. A., die von dem Ergebnis X = m erfasst werden, die dann nur mit der
Wahrscheinlichkeit
1/
N
n
für jede dieser Kombinationen multipliziert zu werden braucht.
Bemerkung. Eine ähnliche Herleitung für die Binomialverteilung ist nicht möglich (vergl.
Satz 7.2.13 (b)).
Beispiel 7.6.19 In einer Lieferung von
wählt man eine zufällige Stichprobe von
N = 1000 Stück, sind M = 10 defekt.
n = 20 Stück und bezeichnen mit X die
Daraus
Anzahl
der defekten Stücke in der Stichprobe.
•
Die Wahrscheinlichkeit, in der Stichprobe genau 2 defekte Stücke zu nden ist
10 990
2
18
1000
20
P (X = 2) =
•
= 0.015 (m = 2).
Die Wahrscheinlichkeit, in der Stichprobe höchstens 2 defekte Stücke zu nden ist
P (X ≤ 2) =
2
X
P (X = m) =
m=0
•
2
X
m=0
10
m
990
20−m
1000
20
= 0.999.
Die Wahrscheinlichkeit, in der Stichprobe kein defektes Stück zu nden ist
10 990
0
20
1000
20
P (X = 0) =
= 0.816.
7.6. SPEZIELLE VERTEILUNGEN
37
Vergleich mit Beispiel 7.6.11:
Y ), welche binomial= 0.01, P (Y = 2) = 0.016, P (Y ≤ 2) = 0.999,
Dort hatten wir dieselbe Zufallsvariable (nennen wir sie diesmal
M
N
verteilt war, mit n = 20, p =
P (Y = 0) = 0.818.
Satz 7.6.20 Es sei
N, M, n
und
Y
X
eine hypergeometrisch verteilte Zufallsvariable mit den Parametern
eine binomialverteilte Zufallsvariable mit den Parametern
p=
M
N und
n.
Dann gilt:
n m
P (X = m) ≈ P (Y = m) =
p (1 − p)n−m .
m
N ≥ 1000
Dabei sollten folgende Bedingungen erfüllt sein:
Satz 7.6.21 Für die Zufallsvariable
E(X) = n
X
M
,
N
und
n
N
≤ 0.1.
aus Satz 7.6.20 gilt:
Var(X) = n
MN−MN−n
.
N N N−1
7.6.4 Die gleichmäÿige Verteilung
Denition 7.6.22 Eine Zufallsvariable
(a < b)
X
ist gleichmäÿig verteilt auf dem Intervall
[a, b]
wenn ihre Verteilungsdichte
1
1 (x)
b − a [a,b]
f (x) =
ist. Dafür verwendet man die Notation
X ∼ U (a, b).
Proposition 7.6.23 (Standardisierung der gleichmäÿigen Verteilung)
Sei
X ∼ U (a, b).
Dann gilt
X−a
b−a
∼ U (0, 1).
Proposition 7.6.24 (Verteilungsfunktion)
Sei
X ∼ U (a, b).
Für die Verteilungsfunktion
F (x) =

 0,
x−a
b−a ,

1,
F
von
X
gilt:
x≤a
x ∈ (a, b] .
x>b
Beweis: Es gilt
Zx
F (x) =
f (t)dt =
−∞

0,



x

 R
a

b

R



a
x≤a
dt
b−a ,
x ∈ (a, b]
dt
b−a ,
x>b
=

 0,
x−a
b−a ,

1,
x≤a
x ∈ (a, b] .
x>b
Proposition 7.6.25 Für
X ∼ U (a, b)
E(X) =
b+a
2
gilt
und
Var(X) =
(b − a)2
.
12
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
38
Beweis: Mit den üblichen Denitionen rechnen wir
Zb
E(X) =
tdt
b+a
=
,
b−a
2
a
Zb
2
E(X ) =
b2 + ab + a2
t2 dt
=
,
b−a
3
a
also gilt
Var(X) = E(X2 ) − (E(X))2 =
(b−a)2
12 .
7.6.5 Normalverteilung oder Gauÿ-Verteilung
Denition 7.6.26
(a) Eine Zufallsvariable heiÿt
(kurz
N (µ, σ)-verteilt),
normalverteilt mit dem Mittelwert µ und der Varianz σ 2
wenn sie folgende Verteilungsdichte besitzt (exp(x)
f (x) := √
(b) Eine Zufallsvariable
X
1
1 x−µ 2
) ),
exp (− (
2
σ
2 πσ
:= ex ):
x∈R
mit der Verteilungsdichte
1
1
ϕ(x) := √
exp (− x2 )
2
2π
bezeichnet man als
standard-normalverteilt oder
Z
N (0, 1)-verteilt.
x
Φ(x) :=
ϕ(u) du
−∞
ist die zugehörige Verteilungsfunktion.
Bemerkung.:
Φ(x)
ist eine höhere transzendente Funktion. Daher sind Tabellen nötig.
Skizzen:
6
1
6
1
ϕ(x)
-
x
Φ(x)
1
x
7.6. SPEZIELLE VERTEILUNGEN
39
Vert.dichte zur N(1.5,2)-Vert.:
Vert.dichte zur N(3,0.5)-Vert.:
61
1
6
f(x)
f(x)
Satz 7.6.27 Für eine
(a)
E(X) = µ.
(b)
Var(X) = σ 2 ,
x
-
1.5
N (µ, σ)
-
3
- verteilte Zufallsvariable
X
gilt:
σ(X) = σ .
Beweis: Wir beginnen mit einer Hilfsformel für die Verteilungsdichte der Standardnor-
malverteilung:
2
2 x
1
x
2x
d 1
√ exp −
= √ exp −
· −
ϕ (x) =
dx 2π
2
2
2
2π
= −xϕ(x).
0
Für die Verteilungsdichte einer
N (µ, σ)-verteilten
1
1
f (x) = √
exp −
2
2πσ
Mit der Substitution
x−µ
σ
Zufallsvariable erhalten wir:
2 (x − µ)/σ =: u, (1/σ) dx = du
Z∞
E(X) =
−∞
Z∞
=
1
x· ϕ
σ
x−µ
σ
dx =
1
= ϕ
σ
x−µ
σ
.
folgt:
1
(x − µ + µ) ϕ
σ
x−µ
σ
dx
−∞
x−µ
ϕ
σ
x−µ
σ
−∞
Z∞
=
Z∞
(7.6.12)
Z∞
dx + µ
1
ϕ
σ
x−µ
σ
dx
−∞
Z∞
u ϕ(u) du + µ
−∞
ϕ(u) du
−∞
= 0 + µ · 1 = µ.
Dabei haben wir benutzt,
•
dass
R∞
ϕ(u) du = 1,
da
ϕ(u)
eine Verteilungsdichte ist
−∞
•
und dass der erste Summand ein Integral über ein symmetrisches Intevall und eine
ungerade Funktion ist:
(−u)ϕ(−u) = (−u)ϕ(u) = −uϕ(u).
x
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
40
Mit der Substitution
(x − µ)/σ =: u, (1/σ) dx = du,
der Regel über die partielle Integra-
tion und mit (7.6.12) erhalten wir:
Var(X) = E (X − E(X))2 = E (X − µ)2
Z∞
(x − µ)
=
21
σ
ϕ
x−µ
σ
Z∞
dx =
−∞
−∞
= σ
σ 2 u2 ϕ(u)du
Zb
2
u · (uϕ(u)) du
lim
a→(−∞), b→∞
a
Zb
= σ2
lim
u · (−ϕ0 (u))du
a→(−∞), b→∞
a

= σ2
lim
a→(−∞), b→∞
[u · (−ϕ(u))]b −
a
Zb

1 · (−ϕ(u))du
a
Z∞

= σ 2 − lim b · ϕ(b) +
b→∞
a · ϕ(a) +
lim
a→(−∞)

ϕ(u) du = σ 2 ,
−∞
wobei wir bei den Grenzwertbestimmungen benutzt haben, dass für
tion
ϕ(x)
schneller als jede Potenz von
x
x → ±∞
die Funk-
gegen Null strebt.
Satz 7.6.28 (Eigenschaften von normalverteilten Zufallsvariablen)
(a) Für jede
(b)
N (0, 1)-verteilte
Zufallsvariable
Z
gilt:
(−Z)
ist ebenfalls
N (0, 1)-verteilt.
Φ(−x) = 1 − Φ(x).
(c) Für eine
F (x)
(i)
N (µ, σ)
X−µ
ist
σ
X , deren Verteilungsfunktion
f (x) bezeichnen, gilt:
- verteilte Zufallsvariable
und deren Verteilungsdichte wir mit
N (0, 1)-verteilt.
(ii)
x−µ
)
σ
1 x−µ
ϕ(
).
σ
σ
F (x) = Φ(
f (x) =
(iii)
a−µ
P (a ≤ X ≤ b) = Φ( b−µ
σ ) − Φ( σ ).
(iv)
a−µ
)
σ
a−µ
).
P (X > a) = P (X ≥ a) = 1 − Φ(
σ
P (X < a) = P (X ≤ a) = Φ(
wir mit
7.6. SPEZIELLE VERTEILUNGEN
(v) Für
t≥0
41
gilt
P (|X − µ| ≤ t · σ) = Φ(t) − Φ(−t) = 2Φ(t) − 1
0.683
(insbesondere ist diese Wahrscheinlichkeit
0.997
für
Bemerkung. (b) ist für die Berechnung von
Φ(x)
α 6= 0, β ∈ R)
x<0
für
Beweis: Es wird ohne Beweis verwendet, dass mit
(mit
für
t = 1, 0.995
für
t=2
X
sehr hilfreich.
auch die Zufallsvariable
αX + β
normalverteilt ist.
Zu (a):
Z
P (−Z ≤ x) = P (Z ≥ −x)
∞
u=−z
Z
−∞
ϕ(u)du = −
=
ϕ gerade
−x
Z x
ϕ(−z)d z
x
ϕ(z) d z = P (Z ≤ x).
=
−∞
Zu (b):
Φ(−x) = P (Z ≤ −x)
P (−Z ≥ x)
=
(a)
P (Z ≥ x) = 1 − P (Z < x)
=
Z stet. Zufallsvariable
1 − P (Z ≤ x) = 1 − Φ(x).
=
Zu (c, i):
X −µ
) =
σ
X−µ
Var(
) =
σ
E(
Damit ist
1
(E(X) − µ) = 0 (nach Satz 7.6.27)
σ
1
Var(X) = 1 (nach Satz 7.6.27).
σ2
X−µ
auf Grund der o. g. allgemeinen Eigenschaft
σ
N (0, 1)-verteilt.
Zu (c, ii):


F (x) = P (X ≤ x) = P 


X −µ
σ }
| {z
≤
x − µ
 = Φ( x − µ )
σ 
σ
N (0,1),nach(i)
f (x) = F 0 (x) =
1 0 x−µ
1 x−µ
Φ(
) = ϕ(
).
σ
σ
σ
σ
Zu (c, iii):
P (a ≤ X ≤ b)
und
t = 3).
X stet.Zuf allsvariable
=
P (a < X ≤ b)
(ii)
=
(ii)
=
F (b) − F (a)
b−µ
a−µ
Φ(
) − Φ(
).
σ
σ
Zu (c, iv):
(ii)
P (X ≤ a) = F (a) = Φ(
a−µ
)
σ
P (X ≥ a) = 1 − P (X < a)
X stet.Zuf allsvariable
=
1 − P (X ≤ a) = 1 − Φ(
a−µ
).
σ
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
42
Zu (c, v):
P (|X − µ| ≤ t σ)
=
(iii)
=
P (µ − t σ ≤ X ≤ µ + t σ)
(b)
Φ(t) − Φ(−t) = 2 · Φ(t) − 1.
Bemerkungen.:
(a) Es gilt allgemein:
X−µ
E(X) = µ und Var(X) = σ 2 , also auch E( X−µ
σ ) = 0, Var( σ ) =
1.
X−µ
ist eine standardisierte Zufallsvariable.
σ
(b) Die Aussage in Satz 7.6.28 (c, v) gilt für allgemeine Zufallsvariablen höchstens
näherungsweise. Eine exakte, aber z. T. wesentlich schlechtere Abschätzung liefert
Satz
??.
Beispiel 7.6.29 Eine Firma stellt Luftpostumschläge her, deren Gewicht
gemäÿ normalverteilt ist, mit dem Erwartungswert
chung
2g
als
σ = 0.05g .
µ = 1.95g
X
erfahrungs-
und der Standardabwei-
Wie groÿ ist die Wahrscheinlichkeit dafür, dass ein Briefumschlag mehr
wiegt?
P (X > 2) = 1 − Φ(
2 − 1.95
Tabelle
) = 1 − Φ(1) = 1 − 0.8413 = 0.1587.
0.05
Satz 7.6.30 Sei
Dann gilt für
X eine binomialverteilte
0 ≤ k1 ≤ k2 ≤ n:
Zufallsvariable mit den Parametern
p
k2 − n p
k1 − n p
P (k1 ≤ X ≤ k2 ) ≈ Φ( √
) − Φ( √
)
npq
npq
(vergleiche Satz
??), oder mit höherer Genauigkeit, wenn
P (k1 ≤ X ≤ k2 ) ≈ Φ(
k1
und
k2
n ≥ 50, np ≥ 5
und
ganze Zahlen sind:
sei binomialverteilt mit Parametern
Sei
0 ≤ k1 ≤ X ≤ k2 ≤ n.
n, p, q .
Dann ist
E(X) = n · p, σ(X) =
Dann gilt
P (k1 ≤ X ≤ k2 ) = P
!
X − np
k2 − np
k1 − np
≤√
≤√
.
√
n·p·q
n·p·q
n·p·q
Für die dabei gebildete Zufallsvariable
X − np
X − E(X)
Y := √
=
n·p·q
σ(X)
gilt
E(Y ) = 0,
Y ist
σ(Y ) = 1.
also zwar nicht exakt, aber näherungsweise
Wir erhalten so die Näherungsformel (7.6.13).
N (0, 1)verteilt.
(7.6.14)
nq ≥ 5.
Erläuterung zu Satz 7.6.30:
X
n.
(7.6.13)
k2 + 0.5 − n p
k1 − 0.5 − n p
) − Φ(
).
√
√
npq
npq
Dabei sollten folgende Bedingungen erfüllt sein:
und
√
n · p · q.
7.6. SPEZIELLE VERTEILUNGEN
43
Bemerkung.:
(a) Zur Näherung der Binominalverteilung vergleiche die Sätze 7.6.16, 7.6.30 und 7.6.20.
(b) Unter den Voraussetzungen von Satz 7.6.30 sind auch die folgenden Wahrscheinlichkeiten mit Hilfe von (7.6.13) oder (7.6.14) zu bestimmen:
P (X ≥ k0 ) = P (k0 ≤ X ≤ n)
P (X ≤ k0 ) = P (0 ≤ X ≤ k0 ) (k0 = 0, 1, 2 . . . , n).
(c) Wird der Bereich der Argumentwerte von
Φ
in einer Tabelle wie etwa der ausgege-
benen überschritten, so kann man u.U. wie im folgenden Beispiel verfahren.
Beispiel 7.6.31 Ein Vertreter verkauft bei Erstbesuchen mit der Wahrscheinlichkeit
0.05.
Er plant
200
p=
Erstbesuche.
Dies ist ein BernoulliExperiment, mit der Konvention Erfolg=Verkauf (mit Wahrscheinlichkeit
Sei
X
p = 0.05),
bzw. Fehlschlag=kein Verkauf (mit Wahrscheinlichkeit
200 Erstbesuchen.
n = 200, p, q .
die Anzahl der Verkäufe bei
fallsvariable mit den Parametern
Eine Anwendung von Satz 7.6.30 ist möglich, denn
und
q = 0.95).
Dies ist eine binomialverteilte Zu-
n = 200 ≥ 50, np = 200·0.05 = 10 ≥ 5
nq = 200 · 0.95 = 190 ≥ 5.
10
Für die gesuchte Wahrscheinlichkeit für
höchstens gleich
200
Verkäufe oder mehr erhalten wir also, da
X
sein kann:
P (X ≥ 10) = P (10 ≤ X ≤ 200)
200 + 0.5 − 10 10 − 0.5 − 10 √
≈ Φ
−Φ √
10 · 0.95
10 · 0.95
= Φ(61.81) − Φ(−0.162) = 1.0000 − (1 − Φ(0.162))
= Φ(0.162).
61.81 ≥ 3.90 und deshalb stimmt wie unter der Tabelle angegeben Φ(61.81) mit 1.0000
auf 4 Stellen nach dem Dezimalpunkt überein.
Wir haben folgende Tabellenwerte benutzt:
Φ(0.16) = 0.5636, Φ(0.17) = 0.5675.
Mit der Interpolationsformel
y = y1 +
x − x1
(y2 − y1 )
x2 − x1
(7.6.15)
erhalten wir damit für die gesuchte Wahrscheinlichkeit:
P (X ≥ 10) ≈ Φ(0.162)
0.162 − 0.16 Φ(0.17) − Φ(0.16)
0.17 − 0.16
= 0.5636 + 0.2 · (0.5675 − 0.5636),
≈ Φ(0.16) +
also folgt
P (X ≥ 10) ≈ 0.564.
Zum Vergleich: Der exakte Wert ist
•
Für
x ≥ 3.90
gilt
P (X ≥ 10) = 0.545.
0 < 1 − Φ(x) < 0.5 · 10−4
Φ(x) = 1.0000
auf 4 Stellen
Φ(x) = 0.0000
auf 4 Stellen
und damit
nach dem Dezimalpunkt genau;
•
für
x ≤ −3.90
gilt
0 < Φ(x) < 0.5 · 10−4
nach dem Dezimalpunkt genau.
und damit
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
44
7.6.6 Die log-normale Verteilung
Oft sind Verteilungen von nichtnegativen Zufallsvariablen, etwa Lebensdauern, Wartezeiten oder Einkommen linkssteil. Eine einfache, aber nicht immer adäquate Möglichkeit
zur Modellierung solcher Variablen bietet die Exponentialverteilung, welche wir in 7.6.8
kennenlernen werden.
Eine andere Möglichkeit besteht darin, eine nichtnegative Zufallsvariable
X
mit linksstei-
ler Verteilung zu transformieren, um eine Zufallsvariable mit symmetrischer Verteilung
zu erhalten. Häug logarithmiert man
X
zu
Y = ln(X)
X
ist log-normal verteilt mit Parametern
und hot, dass
Y
zumindest
annähernd normalverteilt ist.
Denition 7.6.32 Die Zufallsvariable
σ,
falls
X
µ
und
die Verteilungsdichte
f (x) =
(ln x−µ)2
1
√ e− 2σ2 , x > 0
σx 2π
besitzt. Als Notation werwendet man
X ∼ LogN (µ, σ).
µ = 0 und σ 2 = 0.25
µ = −0.4 (. . . ), µ = 0
Abbildung 7.1: Dichten der logarithmischen Normalverteilung fur
2
(. . . ) , σ
(),
2
() und σ
=1
sowie µ = 1.2
= 2.25
2
(- - -) links, bzw. σ
=1
und
(- - -) rechts.
Proposition 7.6.33 (Zusammenhang mit der Normalverteilung) Sei
Dann gilt
ln X ∼ N (µ, σ).
Proposition 7.6.34 Sei
X ∼ LogN (µ, σ).
Dann gilt:
σ
E(X) = eµ+ 2 ,
2
2
Var(X) = e2µ+σ (eσ − 1).
X ∼ LogN (µ, σ).
7.6. SPEZIELLE VERTEILUNGEN
45
7.6.7 Die Gamma-Verteilung
Denition 7.6.35 Eine Zufallsvariable
β (α > 0, β > 0),
f (x) =
wobei
Γ(α) =
R∞
X
heiÿt gamma-verteilt mit Parametern
α
und
falls ihre Verteilungsdichte folgende Form hat:
x
1
−β
e
xα−1 · 1R+ (x), ∀x ∈ R
β α · Γ(α)
e−x xα−1 dx, ∀α > 0
die Eulerfunktion ist.
0
Als Schreibweise verwendet man
X ∼ γ(α, β).
Durch partielle Integration folgt die Rekurrenzeigenschaft der Gammafunktion:
Γ(p) = (p − 1)Γ(p − 1), ∀p > 1.
(7.6.16)
Γ(n) = (n − 1)!, ∀n ∈ N∗ .
(7.6.17)
Daraus ergibt sich sofort
Durch direkte Rechnung oder mit Hilfe der Eigenschaften der standard Normalverteilung
erhält man folgende wichtige Eigenschaft der
Γ-funktion:
√
1
Γ( ) = π.
2
Proposition 7.6.36 Sei
X ∼ γ(α, β).
(7.6.18)
Dann gilt
E(X) = αβ,
Var(X) = αβ 2 ,
β r Γ(α + r)
E(X r ) =
, ∀r ∈ N.
Γ(α)
Satz 7.6.37 Seien X und Y unabhängige Zufallsvariablen, mit den Verteilungen γ(α1 , β),
bzw.
γ(α2 , β).
Dann ist
X + Y ∼ γ(α1 + α2 , β).
7.6.8 Die Exponentialverteilung
Diese Verteilung wird zur Modellierung von Dauern angewandt, bei denen die Zeit zumindest approximativ - stetig gemessen wird, etwa die Lebensdauer von Produkten
oder technischen Systemen, die Zeit bis zur nächsten Schadensmeldung bei einer Sachversicherung, die Bearbeitungszeit von Kundenaufträgen oder die Überlebenszeit nach
einer Operation. Allerdings ist die Exponentialverteilung nur dann als Lebensdauerverteilung geeignet, wenn folgende Voraussetzung erfüllt ist: Für jeden Zeitpunkt
noch verbleibende Lebensdauer nicht von der bereits bis
t
t hängt die
verstrichenen Lebensdauer ab.
Für ein technisches System heiÿt das etwa, daÿ dieses nicht altert, also die Ausfallwahrscheinlichkeit unabhängig vom Alter immer gleich groÿ ist. Man spricht deshalb auch von
Gedächtnislosigkeit der Exponentialverteilung.
Denition 7.6.38 Eine reelle Zufallsvariable X heiÿt exponentiell
a (a > 0),
falls ihre Verteilungsdichte
f (x) =
ist. Wir benutzen die Notation
0,
x≤0
−ax
ae , x > 0
X ∼ Exp(a).
verteilt mit Parameter
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
46
Bemerkung. Die Verteilung
Exp(a)
stimmt mit
γ(1, a1 )
überein, also kann man die
Eigenschaften der Exponentialverteilung aus denen der Gammaverteilung herleiten.
Proposition 7.6.39 Ist
X ∼ Exp(a), dann gilt für die Verteilungfunktion F
0,
x≤0
F (x) =
.
1 − e−ax , x > 0
von
X:
Proposition 7.6.40 (Gedächtnislosigkeit der Exponentialverteilung)
Falls
X ∼ Exp(a),
dann gilt
P ({t < X < s}|{t < X}) = P (X < s − t),
für alle
0 < t < s.
Beweis: Übungsaufgabe!
Bemerkung. Umgekehrt gilt: Falls
(7.6.19) erfüllt, dann ist
X
Proposition 7.6.41 Für
(7.6.19)
X
eine stetige, positive Zufallsvariable ist, welche
exponentiell verteilt.
X ∼ Exp(a)
gilt
E(X) =
Var(X) =
1
,
a
1
.
a2
Beweis: In diesem Sonderfall der Gammaverteilung kann man sogar direkt rechnen.
Durch partielle Integration erhält man
Z∞
E(X) =
xae−ax dx =
1
,
a
0
Z∞
2
2 −ax
x e
E(X ) = a
−x2 e−ax |∞
0
dx =
Z∞
+2
0
=
2
a
xe−ax dx
0
Z∞
2
2
E(X) = 2 .
a
a
xae−ax dx =
0
Damit folgt
Var(X) =
2
1
1
− 2 = 2.
2
a
a
a
7.6.9 Die χ2 -Verteilung
Denition 7.6.42 Eine Zufallsvariable
X
ist
χ2 -verteilt
mit
n Freiheitsgraden wenn ihre
Verteilungsdichte
f (x) =
ist. Wir notieren
X ∼ χ2 (n).
1
2n/2 Γ( n2 )
x
n
e− 2 x 2 −1 1R+ (x), ∀x ∈ R.
(7.6.20)
7.6. SPEZIELLE VERTEILUNGEN
Bemerkung. Die
χ2 (n)-Verteilung
47
stimmt mit der
γ( n2 , 2)
überein, also kann man ihre
Eigenschaften aus denen der Gammaverteilung herleiten.
Proposition 7.6.43 Sei
X ∼ χ2 (n).
Dann gilt
E(X) = n,
Var(X) = 2n,
Γ( n + r)
E(X r ) = 2r 2 n , ∀r ∈ N.
Γ( 2 )
Satz 7.6.44 Seien
gilt
X +Y ∼
χ2 (m
X ∼ χ2 (n)
+ n).
Abbildung 7.2: Dichten von
und
n=7
und
Y ∼ χ2 (m)
χ2 -Verteilungen
(7.6.21)
zwei unabhängige Zufallsvariablen. Dann
für
n = 2 (. . . )
,
n=3
(),
n=5
(- - -)
Freiheitsgrade.
Sehr oft verwendet in der Statistik ist folgende Charakterisierung der
Satz 7.6.45 Seien
X1 , ..., Xn
χ2 (n)-Verteilung:
unabhängige, gleichverteilte Zufallsvariablen, mit
Xi ∼ N (0, 1), ∀i = 1, . . . , n.
Dann gilt
n
P
i=1
Xi2 ∼ χ2 (n).
Von dieser Eigenschaft ausgehend kommt man auf natürlicher Weise zur folgenden
Denition 7.6.46 (Das dezentrierte
Seien
X1 , ..., Xn
χ2 -Gesetz)
unabhängige, gleichverteilte Zufallsvariablen
Xi ∼ N (mi , 1),
∀i = 1, . . . , n.
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
48
n
P
Dann heiÿt die Verteilung der Zufallsvariable
Freiheitsgraden und Exzentrizitätsparameter
Xi2 χ2 -dezentrierte
i=1
n
P
θ=
i=1
Proposition 7.6.47 Falls
X ∼ χ2 (n, θ),
Verteilung mit
n
m2i . Sie wird mit χ2 (n, θ) bezeichnet.
dann gilt
E(X) = n + θ,
Var(X) = 2(n + 2θ).
7.6.10 Die Student-Verteilung
Diese Verteilung wird besonders bei Parametertests und bei Kondenzintervallen für
Parameter gebraucht. Häug wird sie auch als
Students t-Verteilung oder kurz t-
Verteilung bezeichnet.
Denition 7.6.48 Seien X
∼ N (0, 1) und Y ∼ χ2 (n) zwei unabhängige Zufallsvariablen.
Dann heiÿt die Verteilung der Zufallsvariable
X
T =p
Y /n
t-Verteilung mit n Freiheitsgraden, kurz t(n)-Verteilung. Man benutzt die Notation
T ∼ t(n).
Satz 7.6.49 Es gilt
E(T ) = 0 (m ≥ 2)
Abbildung 7.3: Dichten von
n = 20
Var(T) =
und
t-Verteilungen
für
n=1
n
(n ≥ 3).
n−2
(),
n = 2 (. . . ), n = 5
(- - -) und
Freiheitsgrade.
Bemerkung. Die t-Verteilungen sind symmetrisch um null. Für kleinere Freiheitsgraden
n
besitzen sie im Vergleich zur Standardnormalverteilung breitere Enden, d.h. die Flä-
chen unter der Dichtekurve für kleine und groÿe Werte von
x
sind gröÿer. Umgekehrt ist
7.7. GEMEINSAME VERTEILUNG MEHRERER ZUFALLSVARIABLEN
weniger Wahrscheinlichkeitsmasse im Zentrum um
t-Verteilung
x=0
49
verteilt. Da- mit eignet sich die
auch zur Modellierung von Daten, die - im Vergleich zur Normalverteilung -
einen gröÿeren Anteil an extremen Werten enthalten.
n → ∞ konvergiert die Dichtekurve gegen die Dichte 0 der
n > 30 ist die Approximation bereits sehr gut, daher
Werte nur bis 30 vertafelt.
Für
Standardnormal- vertei-
lung. Ab
sind die entsprechenden
7.7
Gemeinsame Verteilung mehrerer Zufallsvariablen
Die simultane Behandlung mehrerer Zufallsvariablen ist aus zwei Gründen wichtig: Erstens betrachtet man bei Zufallsexperimenten oftmals mehrere Gröÿen gleichzeitig, und
dann hat man es mit einer entsprechenden Anzahl von Zufallsvariablen zu tun. Beispielweise wird man bei einem Werksto mehrere Eigenschaften prüfen, so etwa den Kohlenstogehalt, die Zugfestigkeit und die Härte beim Stahl. Zweitens spielen Verteilungen
mehrerer Zufallsvariablen bei der theoretischen Begründung statistischer Prüfverfahren,
wie wir sie ab Kapitel 8 kennenlernen werden, eine Rolle.
Da wir nun einen recht allgemeinen Wahrscheinlichkeitsbegri haben, lassen sich dann
auch Wahrscheinlichkeiten bei mehreren Zufallsvariablen leicht erklären. Wie bei einzelnen
Zufallsvariablen ist es aber zweckmäÿig eine Verteilungsfunktion einzuführen.
Bei einer einzelnen Zufallsvariable hatten wir die Verteilungsfunktion durch folgende Denition eingeführt:
F (x) := P (X ≤ x).
Bei mehreren Zufallsvariablen ist die Verteilungsfunktion (genauer die gemeinsame Verteilungsfunktion) dann ganz analog deniert:
Denition 7.7.1 Seien
X1 , X2 , . . . , Xn
beliebige Zufallsvariablen. Dann heiÿt:
F (x1 , x2 , . . . , xn ) := P (X1 ≤ x1 ∧ X2 ≤ x2 ∧ . . . ∧ Xn ≤ xn )
die
gemeinsame Verteilungsfunktion der Zufallsvariablen
X1 , X2 , . . . , Xn .
Sie ist eine der möglichen Beschreibungen der gemeinsamen Verteilung von Zufallsvariablen.
P (X1 ≤ x1 ∧X2 ≤ x2 ∧. . .∧Xn ≤ xn ) ist i.a. nicht in die Faktoren
P (X1 ≤ x1 ) · P (X2 ≤ x2 ) · · · P (Xn ≤ xn ) zerlegbar, da man nicht weiÿ, ob die obigen
Die Wahrscheinlichkeit
Ereignisse unabhängig sind.
Bei diskreten und bei stetigen Zufallsvariablen gibt es noch andere einfache Beschreibungsmöglichkeiten der gemeinsamen Verteilung von mehreren Zufallsvariablen. Bei den
stetigen Zufallsvariablen ist das z.B. über eine gemeinsame Verteilungsdichte möglich.
Nur erfordert das den Begri des mehrfachen Integrals, und deshalb werden wir auf eine
allgemeine Einführung der gemeinsame Dichte verzichten. Bei diskreten Zufallsvariablen
gibt es eine Beschreibung der gemeinsamen Wahrscheinlichkeitsverteilung, die genau die
Verallgemeinerung der folgenden Beschreibung der Wahrscheinlichkeitsverteilung einer
einzelnen Zufallsvariable ist:
pk := P (X = xk )
k = 0, 1, 2, 3, · · · · · · .
Wir beschränken uns bei der Verallgemeinerung exemplarisch auf zwei Zufallsvariablen,
die nur endlich viele Werte annehmen können, um die Schreibweise etwas zu vereinfachen.
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
50
Denition 7.7.2 Sei
annehmen kann und
X
Y
x0 < x1 < . . . < xn
y0 < y1 < . . . < ym
:= P (X = xi ∧ Y = yj )
eine diskrete Zufallsvariable, die die Werte
eine diskrete Zufallsvariable, welche die Werte
annehmen kann. Dann beschreiben die Wahrscheinlichkeiten
X
ebenfalls die gemeinsame Verteilung von
Diese Denition kann man leicht auf
n
und
pi,j
Y.
diskrete Zufallsvariablen mit endlich oder un-
endlich vielen möglichen Werten übertragen, aber mit einem erhöhten Aufwand in der
Bezeichnung, was hier nicht weiter verfolgt werden soll.
pi,j
Die Wahrscheinlichkeiten
gibt man in der Regel in Form einer Tabelle vor, wie etwa
in dem folgenden Beispiel.
Beispiel 7.7.3
↓X Y →
x0
x1
y0
y1
y2
0.2
0.4
0.1
0.1
0
0.2
Die leere Randzeile und die leere Randspalte sind für die Randverteilungen reserviert, die
pi,j sind an den
p1,2 := P (X = x1 ∧Y = y2 ) = 0.2.
wir nachher kennenlernen werden. Die Werte für die Wahrscheinlichkeiten
entsprechenden Stellen in der Tabelle eingetragen, z.B.:
Wie bei einer einzelnen diskreten Zufallsvariable ergeben sich aus der Denition der Werte
pi,j
gewisse Eigenschaften, die bei einer vorgegebenen Wahrscheinlichkeitsverteilung
überprüft werden sollten. Hier empehlt es sich, Zwischengröÿen einzuführen, die die
Randverteilungen beschreiben. Diese Eigenschaften sind im folgenden Satz formuliert:
Satz 7.7.4 Für die Werte
(a)
0 ≤ pi,j ≤ 1
(b)
P (X = xi ) =
für
pi,j
aus Denition 7.7.2 gilt:
i = 0, 1, . . . , n; j = 0, 1, . . . , m
m
P
pi,j =: pi,∗ , P (Y = yj ) =
j=0
n
P
pi,j =: p∗,j .
i=0
Diese Gröÿen beschreiben die
Randverteilungen; für diese gilt:
n
X
pi,∗ = 1
und
n
X
p∗,j = 1.
j=0
i=0
Folgendes Schema bietet eine Übersicht:
↓ X| Y →
x0
x1
y0
p0,0
p1,0
y1
p0,1
p1,1
y2
p0,2
p1,2
.
.
.
.
.
.
.
.
.
.
.
.
xn
pn,0
p∗,0
pn,1
p∗,1
pn,2
p∗,2
...
...
...
...
...
ym
p0,m
p1,m
p0,∗
p1,∗
.
.
.
.
.
.
pn,m
p∗,m
pn,∗
1
7.7. GEMEINSAME VERTEILUNG MEHRERER ZUFALLSVARIABLEN
51
Im Beispiel 7.7.3 oben lassen sich jetzt einfach die Randverteilungen einfügen:
↓X Y →
x0
x1
y0
y1
y2
0.2
0.4
0.1
0.7
0.1
0
0.2
0.3
0.3
0.4
0.3
1.0
z.B.
p∗,2 = 0.1 + 0.2 = 0.3.
Die Randverteilungen sind also die Verteilungen für
X
Erwartungswert und Varianz von
und
Y
X
und für
Y.
Daraus können wir
berechnen, was wir in einem späteren Beispiel
durchführen werden.
Bei vielen Anwendungen ist es wichtig, vorab zu klären, ob mehrere Zufallsvariablen
stochastisch unabhängig sind oder nicht. Der Begri der stochastischen Unabhängigkeit
ist bereits eingeführt worden. Er lässt sich leicht auf die stochastische Unabhängigkeit
von Zufallsvariablen übertragen:
Denition 7.7.5 Sei
F (x1 , x2 , . . . , xn ) die gemeinsame Verteilungsfunktion der Zufallsvariablen X1 , X2 , . . . , Xn und Fi (xi ) seien die Verteilungsfunktionen der einzelnen Zufallsvariablen Xi . Dann heiÿen X1 , X2 , . . . , Xn (stochastisch) unabhängig, wenn für alle
x1 , x2 , . . . , xn ∈ R gilt:
F (x1 , x2 , . . . , xn ) = F1 (x1 ) · F2 (x2 ) · · · Fn (xn ).
(7.7.22)
Bemerkung. Diese Denition ist konsistent mit der Denition 7.3.8 (b) (Unabhängigkeit
von
n
Ereignissen).
Häug kann man aus der Beschreibung eines Zufallsexperimentes direkt ablesen, ob die
Zufallsvariablen unabhängig sind oder nicht. Einige Beispiele dazu folgen.
Beispiel 7.7.6
wiederholt.
(a) Ein Zufallsexperiment werde unter gleichen
Xi
beschreibe den Ausgang des
X1 , X2 , · · · , Xn
i-ten
Bedingungen
nmal
Zufallsexperiments. Dann gilt:
sind unabhängig.
(b) Sonderfall von (a): Zufälliges Ziehen eines Stücks aus einer Lieferung m.Z.:
Xi :=
X1 , X2 , · · · , Xn
1,
0,
falls Stück bei
i-ter
Ziehung defekt
sonst
sind unabhängig (Bernoulli-Experiment). Wenn wir aber die Vor-
schrift so abändern, dass wir die Stücke nicht zurücklegen, so sind die Zufallsvariablen nicht mehr unabhängig.
(c)
i-tes
Zufallsexperiment: Zufälliges Ziehen eines Stücks aus einer Lieferung o.Z.:
ist wie in (b) deniert, aber
X1 , X2 , · · · , Xn sind nicht
Xi
unabhängig. (Grund: Zufalls-
experiment wird wegen o.Z. nicht unter den gleichen
Bedingungen wiederholt.)
Die Vorkenntnis über die Unabhängigkeit von Zufallsvariablen ist eine Grundlage vieler
statistischen Verfahren.
Noch häuger aber interessiert man sich dafür, ob zwei Zufallsvariablen, für die man in
der Regel nur Realisierungen kennt, unabhängig sind oder nicht. Beispiel dazu liefern die
vieldiskutierten Fragen, ob zwischen Rauchen und Lungenkrebs oder Geschwindigkeitbeschränkung und Unfallhäugkeit, um nur zwei Beispiele zu nennen, ein Zusammenhang
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
52
besteht. Wir werden hierzu eventuell im letzten Teil des Kurses Verfahren kennenlernen,
wie man aufgrund von empirischen Daten gewisse Informationen über Unabhängigkeit
erhalten kann. In diesem Abschnitt wollen wir uns erst einmal mit dem Begri der Unabhängigkeit selbst beschäftigen.
Wenn man weiÿ, dass Zufallsvariablen unabhängig sind und wenn die Verteilungen der
einzelnen Zufallsvariablen bekannt sind, kann man leicht über Def. 7.7.5 deren gemeinsame
Verteilungsfunktion bestimmen. Wir werden uns eventuell später einmal diese Tatsache
zunutze machen.
Für diskrete Zufallsvariablen mit nur endlich vielen Werten kann man leicht aus der
Denition 7.7.5 eine andere Charakteristik der Unabhängigkeit zeigen.
Satz 7.7.7 Zwei diskrete Zufallsvariablen
unabhängig, wenn für alle
i = 0, 1, . . . , n
X, Y (aus Denition 7.7.2)
j = 0, 1, . . . , m gilt:
sind genau dann
und
P (X = xi ∧ Y = yj ) = P (X = xi ) · P (Y = yj ),
d.h.
pi,j = pi,∗ · p∗,j
(vergleiche Denition 7.7.5 und Satz 7.7.4).
Es ist oensichtlich, dass diese Bedingung erfüllt sein sollte, denn sie bedeutet gerade,
dass die Ereignisse
X = xi
und
Y = yj
alle unabhängig sind. Wie man die Bedingung
nachprüft illustrieren wir im folgenden
Beispiel 7.7.8
(a)
↓X Y →
0
2
-1
0.02
0.18
0.2
1
0.08
0.72
0.8
0.1
0.9
1.0
0.1 · 0.2 = 0.02
0.1 · 0.8 = 0.08
0.9 · 0.2 = 0.18
0.9 · 0.8 = 0.72,
(b)
(c)
also sind
X, Y
unabhängig.
X, Y aus Beispiel 7.7.3 sind nicht unabhängig,
p0,0 = 0.2, aber p0,∗ · p∗,0 = 0.7 · 0.3 = 0.21.
↓X Y →
2
3
4
0
0.2
0
0.2
0.4
1
0.3
0.2
0.1
0.6
0.5
0.2
0.3
1.0
0.5 · 0.4 = 0.2
0.5 · 0.6 = 0.3
0.2 · 0.4 6= 0, also
sind
X, Y
denn es gilt z.B.:
nicht unabhängig.
Mit der Unabhängigkeit von Zufallsvariablen hängen eng die beiden Begrie der Kovarianz
und der Korrelation zusammen.
7.8. KOVARIANZ UND KORRELATION
7.8
53
Kovarianz und Korrelation
Wie der Name es schon ausdrückt ist die Kovarianz ein Verteilungsparameter, der die
Beziehung zwischen zwei Zufallsvariablen ausdrückt. Später werden wir eine anschauliche
Interpretation kennenlernen. Zunächst aber wollen wir sehen, wie man rechnerisch auf
den Begri der Kovarianz kommt.
Die Kovarianz ist wichtig, wenn man Erwartungswert und Varianz von Summen von
Zufallsvariablen ausrechnen möchte. Beim Erwartungswert ist das sehr einfach:
E(X + Y ) = E(X) + E(Y ).
(7.8.23)
Der Beweis ist mindestens für diskrete Zufallsvariablen mit bereits bekannten Mitteln
durchzuführen, ähnlich wie bei
E(aX + b) = aE(X) + b.
Die entsprechende Aussage für Varianz kann man dem Satz 7.8.1 entnehmen. Die Herleitung ist zum Verständnis der Aussage nützlich, daher wird sie hier durchgeführt.
Var(X + Y) = E (X + Y )2 − [E(X + Y )]2
= E X 2 + 2XY + Y 2 − [E(X) + E(Y )]2
= E(X 2 ) + 2E(X · Y ) + E(Y 2 ) − (E(X))2 − 2E(X) · E(Y ) − (E(Y ))2
= Var(X) + Var(Y) + 2 [E(X · Y ) − E(X) · E(Y )] .
|
{z
}
=:Cov(X,Y)
Cov(X, Y) := E(X · Y) − E(X) · E(Y)
heiÿt die
Kovarianz von
X
und
Y.
Wir erhalten
also:
Satz 7.8.1 Seien
X, Y, Z
Zufallsvariablen mit endlichen Varianzen und
a, b ∈ R
zwei
beliebige Konstanten. Dann gilt
Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y).
Cov(X, Y) := E(X · Y) − E(X) · E(Y)
heiÿt die
Kovarianz von
X
und
(7.8.24)
Y.
Folgende Eigenschaften folgen sofort:
Cov(X, X) = Var(X) ≥ 0,
(7.8.25)
Cov(X, Y) = Cov(Y, X)
(7.8.26)
Cov(aX + bY, Z) = a · Cov(X, Z) + b · Cov(Y, Z).
(7.8.27)
Bemerkung. Die Kovarianz besitzt alle Eigenschaften eines Skalarproduktes auf
Die Formel (7.8.24) kann auf dem Fall von
Proposition 7.8.2 Seien
X1 , . . . , Xn
n
Zufallsvariablen verallgemeinert werden:
Zufallsvariablen mit endlicher Varianz. Dann gilt
n
n
X
X
Var(
a i · Xi ) =
a2i · Var(Xi ) + 2 ·
i=1
für alle
a1 , . . . , an ∈ R.
i=1
L2 .
n
X
1≤i<j≤n
ai · aj · Cov(Xi , Xj )
(7.8.28)
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
54
Satz 7.8.3 Für
X, Y
aus Denition 7.7.2 gilt:
n X
m
X
E(X · Y ) =
(
xi yj pi,j ).
i=0 j=0
Dass diese Formel richtig ist, ist wohl unmittelbar einsichtig. Trotzdem müsste man sie
streng beweisen, worauf wir hier aber verzichten. Ein Rechenbeispiel mit den Zufallsvariablen aus Beispiel 7.7.8(c):
Beispiel 7.8.4
E(X ·Y ) = 0·2·0.2+0·3·0+0·4·0.2+1·2·0.3+1·3·0.2+1·4·0.1 = 1.6.
Zur Bestimmung der Kovarianz braucht man dann nur noch die Erwartungswerte von
und
Y
X
auszurechnen:
E(X) = 0 · 0.4 + 1 · 0.6 = 0.6 E(Y ) = 2 · 0.5 + 3 · 0.2 + 4 · 0.3 = 2.8.
Damit folgt
Cov(X, Y) := E(X · Y) − E(X) · E(Y) = 1.6 − 0.6 · 2.8 = −0.08.
X+Y
Wenn wir uns nochmal die Formel für die Varianz von
Folgendes auf: Wenn die Kovarianz von
X
einfach die Summe aus den Varianzen von
und
X
Y
und
gleich
0
anschauen, fällt sofort
ist, ist die Varianz der Summe
Y . Das gilt, wenn X
und
Y
unabhängig
sind.
Satz 7.8.5 Seien
X, Y
unabhängig. Dann gilt
Cov(X, Y) = 0. Umgekehrt nicht!
Beweis: Übungsaufgabe!
Die Zufallsvariablen
X, Y
mit
Cov(X, Y) = 0
heiÿen
unkorreliert.
Die Aussagen über den Eigenwert und die Varianz von
X+Y
sind leicht auf Summen
von endlich vielen Zufallsvariablen zu erweitern. Dabei beschränken wir uns auf solchen
mit gleichem Erwartungswert und gleicher Varianz. Auÿerdem sollen die Zufallsvariablen
bei der Berechnung der Varianz unabhängig sein.
Satz 7.8.6 Die Zufallsvariablen
µ
X1 , X2 , . . . , Xn sollen alle den gleichen Erwartungswert
2
und die gleiche Varianz σ besitzen. Dann gilt:
(a)
E(X1 + X2 + . . . + Xn ) = n · µ.
(b) Im Fall der Unabhängigkeit der Zufallsvariablen gilt
Var(X1 +X2 +. . .+Xn ) = n·σ 2 .
Bemerkung. Die Unabhängigkeit in (b) ist entscheidend. Dadurch sind nach Satz 7.8.5
alle Kovarianzen null. Sonst müssten wir alle Kovarianzen berücksichtigen.
Eine Standardisierung des Abhängigkeitsmaÿes zwischen zwei Zufallsvariablen erhält man
mit Hilfe des Begris der Korrelation:
Denition 7.8.7 Seien
rianzen. Dann heiÿt
der
X
und
Y
zwei beliebige Zufallsvariablen mit echt positiven Va-
Cov(X, Y)
p
%(X, Y ) := p
Var(X) Var(Y)
Korrelationskoezient von
X
und
Y.
7.8. KOVARIANZ UND KORRELATION
Satz 7.8.8
(a) Seien
X, Y
55
zwei Zufallsvariablen mit positiven und nichtnullen Varian-
zen. Dann gilt
−1 ≤ %(X, Y ) ≤ 1.
(b) Falls
Y = aX + b (a, b ∈ R, a 6= 0),
dann gilt
ρ(X, Y ) =
Beweis: Es gilt
Var(Y) = a2 · Var(X)
1
−1
falls
falls
a>0
a<0
(7.8.29)
Cov(X, Y) = a · Var(X).
a
1
falls a > 0
=
%(X, Y ) =
.
−1 falls a < 0
|a|
und
Damit folgt
(7.8.30)
X, Y
seien Zufallsvariablen wie in Denition 7.8.7. Man nennt

unkorreliert,




 schwach korreliert,
stark korreliert,


positiv korreliert,



negativ korreliert,
falls
falls
falls
falls
falls
X
und
Y
%(X, Y ) = 0 ist, (vergl. o.)
|%(X, Y )| nahe bei 0 aber > 0
|%(X, Y )| nahe bei 1 ist,
%(X, Y ) > 0 ist,
%(X, Y ) < 0 ist
Abbildung 7.4: Korrelationskoezienten (qualitativ).
r
ist,
ist hier dasselbe wie
%.
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
56
Beispiel 7.8.9
↓X Y →
0
1
2
0
0.20
0.15
0.15
0.50
1
0.07
0.10
0.08
0.25
2
0.08
0.08
0.09
0.25
0.35
0.33
0.32
(a)
E(X) = 0.25 + 0.5 = 0.75, E(X 2 ) = 0.25 + 1.0 = 1.25
Var(X) = 0.6875
E(Y ) = 0.33 + 0.64 = 0.97, E(Y 2 ) = 0.33 + 1.28 = 1.61
Var(Y) = 0.6691
E(X · Y ) = 1 · 1 · 0.1 + 1 · 2 · 0.08 + 2 · 1 · 0.08 + 2 · 2 · 0.09 = 0.78
⇒ Cov(X, Y) = 0.0525.
Cov(X, Y)
p
⇒ %(X, Y ) := p
= 0.0774.
Var(X) Var(Y)
X, Y
sind also schwach positiv korreliert.
(b)
↓X Y →
1
0
1
2
E(X) = 1.1,
1.5
2
0.2
0
0
0.2
0
0.5
0
0.5
0
0
0.3
0.3
0.2
0.5
0.3
1.0
Var(X) = 0.49,
E(Y) = 1.55,
Var(Y) = 0.1225.
Cov(X, Y) = 1 · 1.5 · 0.5 + 2 · 2 · 0.3 − 1.1 · 1.55 = 0.245.
%(X, Y ) =
also sind
X
und
Y
0.245
= 1,
0.7 · 0.35
stark korreliert.
Wir vermuten eine lineare Abhängigkeit der Form
a und b noch zu bestimmen
P (X = x und Y = y) > 0, also z.B.
wobei
X=0
X=1
und
und
Y =1
Y = 1.5
Wir erhalten also:
Y = a + bX (b > 0)
(fast sicher),
sind. Dazu betrachten wir nur Kombinationen mit
nicht
X=0
und
Y = 1.5:
1=a+b·0⇒a=1
1.5 = 1 + b · 1 ⇒ b = 0.5
Y = 1 + 0.5X
(fast sicher).
Die nicht verwendete Kombination mit
P (X = x
und
Y = y) > 0
gibt uns eine Kontroll-
möglichkeit:
X=2
und
Y =2
2 = 1 + 0.5 · 2.
Beispiel 7.8.10 Wir tragen die Realisierungen (xi , yi ) von (X, Y ) (z.B. Wohnäche, Nettomiete) bei der wiederholten Durchführung eines Zufallsexperimentes als Punkte in ein
Koordinatensystem ein, und erhalten das
Streudiagramm in Abbildung 7.5a.
7.8. KOVARIANZ UND KORRELATION
57
(a)
(b)
Abbildung 7.5: Streudiagramm und Regressionsgerade für Wohnäche und Nettomiete.
Bei positiver oder negativer Korrelation zeichnen wir eine Gerade ein (s. Abb. 7.5b),
die die Abhängigkeit
Y
von
X
bis auf eine geringe Zufallsschwankung beschreibt. Ein
Verfahren zur rechnerischen Bestimmung einer solchen Geraden haben wir in Kapitel 6
kennengelernt. Wir bezeichneten sie als Regressionsgerade.
Was ist die Konsequenz für
%(X, Y ),
wenn alle Punkte exakt auf einer Geraden liegen?
Zunächst können wir eine Aussage für den Schätzwert von
oberen Grenze, also
%̂ = +1
oder
%̂ − 1,
%(X, Y ) machen: |%̂| ist
an der
je nachdem, ob die Gerade steigend oder fallend
ist.
Was ist, wenn die Gerade die Steigung
Y
Varianz von
gleich
0
0
hat? Dieser Fall scheidet aus, weil dann die
ist, ebenso der Fall einer senkrechten Gerade.
Zu den früheren Situationen macht folgender Satz eine Aussage:
Satz 7.8.11
Konstanten
%(X, Y ) = +1 (bzw. −1) ⇐⇒ Y = a + bX
a ∈ R und b > 0 (bzw. b < 0).
f.s. (fast sicher) für geeignete
Der Zusatz f. s. ist für die mathematische Exaktheit der Aussage notwendig, in den
Anwendungen meist unwesentlich.
Beweis: ( ⇐ ohne f. s.)
Sei
Y = a + bX
mit
a ∈ R, b 6= 0, Var(X) > 0.
E(Y ) = a + bE(X)
Var(Y) = b2 Var(X)
E(X, Y ) = E(aX + bX 2 ) = aE(X) + bE(X 2 )
E(X)E(Y ) = aE(X) + b(E(X))2 .
Daraus folgt
Cov(X, Y) := b(E(X2 ) − (E(X))2 ) = bVar(X),
und damit
Cov(X, Y)
bVar(X)
b
p
p
%(X, Y ) := p
=p
=
=
|b|
Var(X) Var(Y)
Var(X) |b| Var(X)
+1
−1
für
für
b > 0,
.
b < 0,
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
58
Wir hatten vorher den Zusammenhang zwischen
X
und
Y
durch Schaubilder veranschau-
licht. Dies wollen wir noch mehr quantitativ erfassen und mit der Regressiosrechnung in
Kapitel 6 in Verbindung bringen:
Die Messwertpaare
b1
(x1 , y1 ), (x2 , y2 ), · · · , (xn , yn )
ist die Steigung der 1. Regressionsgerade und
sind Realisierungen von
b2
(X, Y )
ist die Steigung der 2. Regressionsge-
rade.
b1 · b2 =
(xy − x · y) (xy − x · y)
(xy − x · y)2
·
=
(x2 − x2 )
(y 2 − y 2 )
(x2 − x2 )(y 2 − y 2 )
(%(X, Y ))2 .
xy − x · y
q
%̂ := p
ist
2
2
2
2
x −x · y −y
ist Schätzwert für
Schätzwert für
%(X, Y ) =
Es gilt immer
E(X · Y ) − E(X) · E(Y )
p
p
.
Var(X) Var(Y)
|%̂| ≤ 1.
Extremfall: Alle Punkte
(xi , yj ) liegen
exakt auf einer Geraden, d.h. beide Regressionsge-
raden sind gleich. Dann gilt
b2 · b1 = 1 ⇔ %̂2 = 1 ⇔ |%̂| = 1
Die extremen Situationen sind b1 ·b2
senkrecht aufeinander)
= 1 (selbe Gerade) und b1 ·b2 = 0 (Regressionsgeraden
(0 ≤ b1 · b2 ≤ 1).
Falls es keinen starken linearen Zusammenhang zwischen den Zufallsvariablen gibt, dann
sollte man sie vor dem Vergleich normieren, damit der Vergleich von der Wahl z.B. der
Maÿeinheiten unabhängig ist:
e := p X
X→X
,
Var(X)
Y
Y → Ye := p
Var(Y)
2
e = p 1
Var(X)
Var(X) = 1,
Var(X)
%(X, Y ) =
=
=
%
e = 1.
Var(Y)
E(X · Y ) − E(X) · E(Y )
p
p
Var(X) · Var(Y)
p
p
p
p
E X/ Var(X) · Y / Var(Y) − E X/ Var(X) · E Y / Var(Y)
1·1
e
e
e
e
E(X · Y ) − E(X) · E(Y )
e Ye ).
q
q
= %(X,
e
e
Var(X) · Var(Y)
ist also wirklich als Maÿ für den linearen Zusammenhang zu deuten.
7.9. GESETZ DER GROßEN ZAHLEN UND GRENZWERTSÄTZE
7.9
59
Gesetz der groÿen Zahlen und Grenzwertsätze
7.9.1 Das Gesetz der groÿen Zahlen und der Hauptsatz der Statistik
Seien
X1 , . . . , Xn
Zufallsvariablen, welche unabhängig voneinander und identisch verteilt
sind, mit dem jeweiligen Erwartungswert
Das arithmetische Mittel
µ
und Varianz
σ2.
1
(X1 + · · · + Xn )
n
der Zufallsvariable X
X̄n =
gibt den durchschnittlichen Wert
bei
n
Versuchen wieder. Nach
Durchführung des Experiments wird
x̄n =
als Realisierung von
Xn
1
(x1 + · · · + xn )
n
beobachtet. Dann sind Erwartungswert und Varianz des arith-
metischen Mittels
E(X̄n ) = µ
und
Var(X̄n ) =
σ2
.
n
Der Erwartungswert des arithmetischen Mittels ist also gleich dem von
Varianz
σ 2 /n
ist für groÿes
ist umgekehrt proportional zu
n
die Verteilung von
Xn
n
und geht für
stark um
µ = E(X)
n→∞
X
selbst. Die
gegen null. Damit
konzentriert. Dies wird im
folgenden Satz zusammengefaÿt:
Satz 7.9.1 (Gesetz der groÿen Zahlen)
Sei
>0
beliebig klein. Dann gilt
lim P (|X̄n − µ| ≤ ) = 1.
n→∞
Man sagt:
X̄n
konvergiert in Wahrscheinlichkeit gegen
µ
und benutzt als Notation
P
X̄n →
µ.
Das Gesetz der groÿen Zahlen sagt also aus, daÿ die Wahrscheinlichkeit mit der das
[µ − , µ + ] fällt, gegen 1
P (µ − < X̄n < µ + ) nahe bei
arithmetische Mittel in ein beliebig vorgegebenes Intervall
konvergiert, wenn
n→∞
geht. Für groÿes
n
ist damit
1.
Beispiel 7.9.2 Sei
X ∼ Bi(1, p)
und
A = {X = 1}.
Dann gilt
P (A) = P (X = 1) = E(X) = p
und
1
(X1 + · · · + Xn )
n
Eintretens von A. Dann
X̄n =
ist die relative Häugkeit
Hn
des
gilt
Satz 7.9.3 (Satz von Bernoulli) Die relative Häugkeit, mit der ein Ereignis
A
bei
n
unabhängigen Wiederholungen eines Zufallsvorgangs eintritt, konvergiert in Wahrscheinlichkeit gegen
P (A).
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
60
Das Theorem von Bernoulli laÿt sich direkt auf empirische Verteilungsfunktionen anwen-
x ist die empirische Verteilungsfunktion Fn (x) die relative Häugkeit
des Ereignisses {X ≤ x}. Wenn man die Daten x1 , . . . , xn als Realisierung der unabhängigen und identisch wie X verteilten Zufallsvariablen X1 , . . . , Xn auaÿt, dan folgt daÿ
P
Fn (x) → F (x) für jedes feste x und für n → ∞, wobei F (x) die Verteilungsfunktion von
X bezeichnet.
den: Für jedes feste
Eine entsprechende Aussage gilt nicht nur für jedes feste
für alle
x,
sondern global (gleichmäÿig)
x ∈ R:
Satz 7.9.4 (Hauptsatz der Statistik, Glivenko-Cantelli)
Sei
>0
beliebig klein und
X
eine Zufallsvariable mit Verteilungsfunktion
gilt für die zu unabhängigen und identisch wie
gebildete Verteilungsfunktion
X
verteilten Zufallsvariablen
F (x). Dann
X1 , . . . , Xn
Fn (x)
lim P (sup |Fn (x) − F (x)| ≤ ) = 1.
n→∞
F (x)
bezeichnet.
Der Hauptsatz der Statistik zeigt also, daÿ für Zufallsstichproben, bei denen
X1 , . . . , Xn
Mit
sup
x∈R
wird damit die maximale Abweichung zwischen
unabhängig und identisch wie das interessierende Merkmal
Verteilung
F (x)
von
X
Fn (x)
X
und
verteilt sind, die unbekannte
durch die empirische Verteilungsfunktion
Fn (x)
für
n→∞
gut
approximiert wird.
Stimmen umgekehrt
Fn (x)
und eine theoretische Verteilung
F (x)
(etwa die Normalver-
teilung), schlecht überein, so entstammen die Daten vermutlich einer anderen Verteilung.
Sowohl das Gesetz der groÿen Zahlen als auch der Satz von Glivenko-Cantelli gelten übrigens auch unter schwächeren Annahmen, insbesondere läÿt sich die Voraussetzung der
Unabhängigkeit der
X1 , . . . , Xn
Abbildung 7.6 zeigt anhand von
abschwächen.
100 bzw. 1000 unabhängigen Wiederholungen einer stanX , daÿ die empirische Verteilungsfunktion umso nä-
dardnormalverteilten Zufallsvariable
her an der theoretischen Verteilungsfunktion liegt, je gröÿer die Anzahl der Wiederholungen
n
ist.
Abbildung 7.6: Empirische Verteilungsfunktion () von
100 (links) und 1000 (rechts) stan-
dardnormalverteilten Zufallszahlen im Vergleich mit der Verteilungsfunktion der Standardnormalverteilung (. . . ).
7.9. GESETZ DER GROßEN ZAHLEN UND GRENZWERTSÄTZE
61
7.9.2 Der zentrale Grenzwertsatz
Bei der binomialverteilten Zufallsvariable haben wir gesehen, daÿ sich die Verteilung von
X = X1 + · · · + Xn
mit
Xi ∼ Bi(1, p)
für groÿes
n
gut durch die Normalverteilung
approximieren lieÿ. Abbildung 7.7 zeigt, daÿ dies auch für andere Verteilungen gilt.
Die durchgezogene Kurve in Abbildung 7.7a gibt die Dichte
mit
E(Xi ) = 0, Var(Xi ) = 1
an. Dazu ist die Dichte
ϕ(x)
f (x)
einer Zufallsvariable
Xi
der Standardnormalverteilung
gezeichnet. In den übrigen Abbildungen in 7.7 sieht man die standardisierten Dichten der
Summen
X1 +X2 , X1 +X2 +X3
X1 , . . . , X6 .
und
X1 +· · ·+X6
von unabhängigen nach
f (x) verteilten
Zufallsvariablen
Abbildung 7.7: Dichten von Summen () und approximierende Normalverteilungsdichte
ϕ(x) (. . . ).
Tatsächlich gilt sehr allgemein, daÿ die Verteilung einer Summe
fallsvariablen für
n → ∞
X1 + · · · + Xn
von Zu-
gegen eine Normalverteilung konvergiert bzw. für groÿes
n
approximativ normalverteilt ist. Für unabhängige und identisch verteilte Zufallsvariablen
X1 , . . . , Xn
mit
E(Xi ) = µ, Var(Xi ) = σ 2
sind dabei Erwartungswert und Varianz der
Summe gegeben durch
E(X1 + · · · + Xn ) = nµ,
Var(X1 + · · · + Xn ) = nσ 2 .
Für die Formulierung des Grenzwertsatzes ist es zweckmäÿig, zur standardisierten Summe
überzugehen. Dabei steht
a
∼
für approximativ (bei gröÿerem
n)
oder asymptotisch (für
KAPITEL 7. WAHRSCHEINLICHKEITSRECHNUNG
62
n → ∞) verteilt. Für die unstandardisierte Summe X1 +· · ·+Xn gilt in dieser Schreibweise
√
a
X1 + · · · + Xn ∼ N (nµ, nσ).
n ist die Summe umso besser approximativ normalverteilt, je weniger asymmetrisch die Verteilung der Xi ist. Umgekehrt ist für deutlich asymmetrische Verteilungen
ein gröÿeres n nötig, um eine ähnliche Approximationsgüte zu erreichen.
Für endliches
Typischerweise formuliert man den sogenannten Zentralen Grenzwertsatz jedoch nicht
X1 + · · · + Xn selbst, sondern für die standardisierte Summe. Ein Grund ist, daÿ für
√
n → ∞ die Verteilung N (nµ, nσ) unendlichen Erwartungswert und unendliche Varianz
für
besitzt.
Satz 7.9.5 (Zentraler Grenzwertsatz) Seien
teilte Zufallsvariablen mit
E(Xi ) = µ
und
Dann konvergiert die Verteilungsfunktion
X1 , . . . , Xn unabhängige
Var(Xi ) = σ 2 .
Fn (z) = P (Zn ≤ z)
me
und identisch ver-
der standardisierten Sum-
n
1 X Xi − µ
X1 + · · · + Xn − nµ
√
=√
σ
σ n
n
Zn =
i=1
für
n→∞
an jeder Stelle
z ∈R
gegen die Verteilungsfunktion
Φ(z)
der Standardnor-
malverteilung:
Fn (z) → Φ(z).
Als Notation benutzt man die Schreibweise
a
Zn ∼ N (0, 1).
Der zentrale Grenzwertsatz gilt in noch wesentlich allgemeineren Varianten, wobei die
X1 , . . . , Xn
abhängig und verschieden verteilt sein dürfen. Entscheidend ist, daÿ keine der
Zufallsvariablen
Xi
die restlichen deutlich dominiert.
Damit liefern die zentralen Grenzwertsatze die theoretische Begründung dafür, daÿ eine Zufallsvariable
X
dann in guter Näherung normal verteilt ist, wenn sie durch das
Zusammenwirken von vielen kleinen zufälligen Eekten entsteht.
Wir haben bereits in 7.6.5 gesehen, wie die Binomialverteilung mit Hilfe der Normalverteilung approximiert wurde.
Kapitel 8
Parameterschätzung
8.1
Schätzfunktionen
Denition 8.1.1 Es seien
X1 , X2 , . . . , Xn unabhängige Zufallsvariablen, die alle die gleiθ sei ein unbekannter Parameter dieser Verteilung. X1 , . . . , Xn ist
(Beobachtungs- oder) Messreihe zur Bestimmung von θ mit n Einzelmessungen
che Verteilung besitzen.
als eine
aufzufassen.
Xi
entspricht also der iten Messung. Deren Messergebnis
Aus dem Satz
x1 , . . . , x n
von Messwerten, den man als
bezeichnet, bestimmt man einen
annimmt, dass er nahe bei
Eine
θ
Schätzwert
θ̂
für
θ,
xi
ist eine Realisierung von
Xi .
Stichprobe vom Umfang
n
von dem man normalerweise
liegt.
Schätzfunktion oder Schätzstatistik für den Grundgesamtheitparameter
θ
ist
eine Funktion
g(X1 , . . . , Xn )
der Stichprobenvariablen
X1 , . . . , Xn .
Der aus den Realisierungen
x1 , . . . , x n
resultierende numerische Wert
g(x1 , . . . , xn )
ist der zugehörige
Schätzwert.
Drei Annahmen:
(a) Das Messergebnis ist bei jeder Messung unbeeinusst von den vorherigen Messergebnissen, d.h. die Zufallsvariablen
X1 , X2 , . . . , Xn
sind
unabhängig.
(b) Es gibt keine Veränderung der beeinussbaren Versuchsbedingungen, d.h. die Zufallsvariablen
X1 , X2 , . . . , Xn
haben alle
die gleiche Verteilung, häug Normal-
verteilung.
(c) Es gibt keinen systematischen Fehler.
Beispiel 8.1.2 Wir führen eine Messreihe von
n
Messungen (z.B. des elektrischen Wi-
derstandes eines Gerätes) durch.
Der
i-te
Messung entspricht eine Zufallsvariable
63
Xi .
KAPITEL 8. PARAMETERSCHÄTZUNG
64
Das Messergebnis
xi
Realisierung der Zufallsvariable
ist eine
µ := E(Xi )
Der wahre Wert ist der gemeinsame Erwartungswert
Ziel der Messungen ist es nun, Informationen über
Xi .
µ
der Zufallsvariablen
Xi .
zu bekommen. Es werden dazu
n
Messungen tatsächlich durchgeführt, z.B. vier Widerstandsmessungen mit den Messergebnissen (in
Ω):
x1 = 10.1,
x2 = 10.2,
Dies ist eine Stichprobe vom Umfang
x1 + x2 + · · · + xn
x := xn :=
n
Die Interpretation ist
nicht
die Vermutung, dass
µ̂
(Schätzwert für
x
4
x3 = 10.0,
x4 = 10.1.
(allgemein: vom Umfang
n).
10.1 + 10.2 + 10.0 · · · + 10.1
=
= 10.1
4
µ=x
nahe bei
µ) = x :=
und auch
µ
nicht
µ
ist sicher
im Zahlenbeispiel
nahe bei
x,
sondern
nur
liegt.
x1 + · · · + xn
(=: g(x1 , . . . , xn )
n
bei diesem Beispiel).
Aus Satz 7.9.1 folgt
X := X n :=
X1 + X2 + · · · + Xn P
−→ µ
n
für
n→∞
(also fast sicher).
Dies rechtfertigt die obige Vermutung.
Interpretation/Nomenklatur:
tion für den Erwartungswert
X̄ = g(X1 , . . . , Xn ) =
µ = E(X)
verstehen.
x̄
1
n
n
P
Xi läÿt sich als Schätzfunk-
i=1
ist die zugehörige Realisierung oder
das arithmetische Mittel der Stichprobe.
8.2
MaximumLikelihoodMethode
P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) (bzw. die gemeinsame VerteiX1 , X2 , . . . , Xn an der Stelle (x1 , . . . , xn ) im Falle einer stetigen ZufallsX ) maximal wäre, wenn θ = θ̂ wäre.
Bestimme
θ̂
so, dass
lungsdichte von
variablen
Beispiel 8.2.1 Eine Beobachtungsgröÿe sei Poisson-verteilt, wobei der Parameter
bekannt sei (λ
λ un> 0). Um Informationen über λ zu erhalten, machen wir drei Beobachtun-
gen, d.h. wir ziehen eine Stichprobe vom Umfang 3.
Die Beobachtungsergebnisse seien die Werte
fallsvariablen
X1 , X2 , X3 ,
4, 1, 6.
Diese sind Realisierungen von Zu-
die unabhängig und Poisson-verteilt sind mit dem gleichem
P (X1 = 4, X2 = 1, X3 = 6) = P (X1 = 4) · P (X2 = 1) · P (X3 = 6)
λ4
λ1
λ6
= e−λ e−λ e−λ
4!
1!
6!
4+1+6
λ
λ4+1+6
= e−3λ
=: e−3λ
=: h(λ)
4!1!6!
4!6!
Diese Wahrscheinlichkeit nennt man auch
Likelihood-Funktion
h(λ).
λ.
.
8.2. MAXIMUMLIKELIHOODMETHODE
65
Anwendung des Maximum-Likelihood Prinzips:
Die Wahrscheinlichkeit für das eingetretene Ereignis, also
h(λ),
sei maximal, wenn
λ = λ̂
wäre.
λ4+1+6
λ4+1+6−1
+ e−3λ (4 + 1 + 6)
4!6!
4!6!
4+1+6−1
λ
!
= 0,
= [(−3) · λ + (4 + 1 + 6)] · e−3λ
4!6!
(−3)λ + (4 + 1 + 6) = 0 oder λ = 0. Da aber λ > 0, folgt
h0 (λ) = (−3)e−3λ
also ist
λ=
Ausserdem gilt
Damit ist
h(λ̂)
h(λ) → 0
das
4+1+6
.
3
λ → 0+ und für λ → ∞ und h(λ) > 0 für alle λ > 0.
Maximum von h(λ) und der Maximum-Likelihood-Schätzwert (kurz:
für
M-L-Schätzwert) ist also:
λ̂ =
4+1+6
11
= .
3
3
Bei stetigen Zufallsvariablen betrachtet man anstelle der Wahrscheinlichkeit eine stetige
Dichte, z.B. bei der Normalverteilung
N (µ, σ)
die uns bereits gut bekannte Dichte
(x−µ)2
1
f (x|µ, σ) = √ e− 2σ2 .
σ 2π
Allgemeiner kann ein Parameter θ auch höherdimensional sein. Unter derselben Annahme
von unabhängigen Wiederholungen ergibt sich die (diskrete oder stetige) Dichte
f (x1 , . . . , xn |θ) = f (x1 |θ) . . . f (xn |θ).
Für feste Realisierungen
x1 , . . . , x n
läÿt sich diese Dichte als Funktion vom Parameter
θ
auassen:
L(θ) = f (x1 , . . . , xn |θ).
L
heiÿt
Likelihoodfunktion. Das Maximum-Likelihood Prinzip zur Konstruktion einer
Schätzfunktion besteht darin, diese Likelihoodfunktion zu maximieren. Daraus ergibt sich
folgende
Formulierung des Maximum-Likelihood Prinzips:
Wähle zu festen Realisierungen
θ̂,
x1 , . . . , x n
als Parameterschätzung denjenigen Parameter
für welchen die Likelihoodfunktion maximal ist, d.h.
L(θ̂) = max L(θ)
θ
oder anders geschrieben
f (x1 , . . . , xn |θ̂) = max f (x1 , . . . , xn |θ).
θ
Bemerkung 8.2.2 Für gewöhnlich bestimmt man die Extrema (also auch das Maximum) einer Funktion als Nullstellen deren Ableitung. Wegen der Produkte in
L(θ)
führt
dies oft zu komplizierten Ausdrücken, welche den Rechner leicht überfordern können. Ein
Ausweg besteht darin, statt der Likelihoodfunktion die Log-Likelihood zu maximieren.
Für den Fall unabhängiger und identisch verteilter Wiederholungen ergibt sich dann die
Log-Likelihood als
ln L(θ) =
n
X
i=1
ln f (xi |θ).
KAPITEL 8. PARAMETERSCHÄTZUNG
66
8.3
Eigenschaften von Schätzfunktionen
Bei der Schätzung von Parametern weis man, daÿ der Schätzer in den allermeisten Fällen
nicht mit dem eigentlichen Parameter übereinstimmt. Kriterien für die Güte des Schätzverfahrens sind also notwendig.
So erwartet man z.B. von einer Schätzstatistik, das sie tendenziell den richtigen Wert
liefert, d.h. weder systematisch über- noch unterschätzt. Diese Eigenschaft heiÿt
Erwar-
tungstreue. Mathematischer (also präziser) ausgedrückt:
Denition 8.3.1 Eine Schätzfunktion
g
für
θ
heiÿt
erwartungstreu, wenn gilt:
E(g(X1 , . . . , Xn )) = θ.
Beispiel 8.3.2
Xn
ist erwartungstreu:
n
E(X n ) = E
1X
Xi
n
!
i=1
Denition 8.3.3
n
n
n
i=1
i=1
1X
1X
n
=
E(Xi ) =
µ = µ = E(Xi ).
n
n
n
g
sei variabel. Dann heiÿt eine Schätzfunktion
Schätzfunktionen) für
θ konsistent,
(genauer: Folge von
wenn gilt:
P (|g(X1 , . . . , Xn ) − θ| ≤ ε) → 1
für
n→∞
für alle
Beispiel 8.3.4
ε > 0.
Xn
ist konsistent, denn es gilt nach Satz 7.9.1:
P
Xn −→ µ = E(Xi )
Satz 8.3.5 Es seien
X1 , X2 , . . . , Xn
für
n→∞
(f.s.)
unabhängige Zufallsvariablen, die alle die gleiche
Verteilung besitzen und für die der Erwartungswert und die Varianz existieren.
(a)
X
(b)
1
n−1
ist eine konsistente, erwartungstreue Schätzfunktion für
n
P
(Xi − X)2
E(Xi ) =: µ.
ist eine konsistente, erwartungstreue Schätzfunktion für
i=1
Var(Xi ) =: σ 2 .
E(Xi )
Var(Xi ) werden
Xi aufgefasst.
und
variablen
dabei als unbekannte Verteilungsparameter bei den Zufalls-
Einige Beispiele sind in der Tabelle auf der nächsten Seite zusammengefasst.
Zur 1. Verteilung: Die einzelne Zufallsvariable
fallsvariablen
X1 , X2 , . . . , Xn
1
Xi :=
0
Xi
kann nur
2 Werte annehmen und die Zu-
sind unabhängig. Wir haben also ein Bernoulli-Experiment:
Erfolg mit Wahrscheinlichkeit
p
Fehlschlag mit Wahrscheinlichkeit
X1 + X2 + X3 + · · · + Xn = nXn =
Anzahl der Erfolge bei
Bei der statistischen Qualitätskontrolle m.Z. ist
p
n
1−p
Versuchen.
der Anteil der defekten Stücke in der
Lieferung.
n · xn ist die Anzahl der Ziehungen von defekten Stücken.
xn ist damit der Anteil der defekten Stücke in der Stichprobe.
Bemerkung.: Die Schätzfunktion (nach der MLMeth.) für
weder für bekanntes noch für unbekanntes
µ
erwartungstreu.
σ
ist
σ̂ =
p
c2 . Sie ist aber
σ
8.4. KONFIDENZINTERVALLE
Verteilung
67
bekannte
unbek.
Schätzwerte (nach
Eigenschaften
Param.
Param.
der M-L-Meth.)
aus 8.3
p
p̂ = x
konsistent, erwart.treu
Poissonverteilung
λ
λ̂ = x
konsistent, erwart.treu
Exponentialverteilung
λ
λ̂ =
N (µ, σ)
σ2
µ
µ̂ = x
N (µ, σ)
µ
σ2
c2 =
σ
1 0
p 1−p
Xi :
N (µ, σ)
µ, σ 2
1
x
konsistent, erwart.treu
1
n
n
P
(xi − µ)2
konsistent, erwart.treu
i=1
µ̂ = x
c2 =
σ
8.4
konsistent, nicht erw.treu
konsistent, erwart.treu
1
n
n
P
(xi − x)2
konsistent, nicht erw.treu
i=1
Kondenzintervalle
Allgemeine Voraussetzung für diesen Abschnitt, mit Ausnahme von Satz 8.4.11:
X1 , . . . , Xn
sind unabhängige,
N (µ, σ)verteilte
Zufallsvariablen.
Bei der Aufstellung von Kondenzintervallen braucht man die Verteilung der Zufallsvariablen
g(X1 , X2 , . . . , Xn ),
die also über die Schätzfunktion von den Zufallsvariablen
der Schätzung des Erwartungswertes
Zufallsvariablen
X1 , X2 , . . . , Xn
µ
X1 , X2 , . . . , Xn
abhängt. Bei
einer Normalverteilung ist das eine Summe der
die noch durch
n
dividiert wird. Wir brauchen also die
Verteilung einer Summe von unabhägigen normalverteilten Zufallsvariablen, und dafür gilt
folgendes Resultat, das wir bereits im vorigen Kapitel (in den Übungen) kennengelernt
haben:
Satz 8.4.1 (Linearkombination von Normalverteilungen)
(a) Eine Summe von normalverteilten, unabhängigen Zufallsvariablen ist wieder normalverteilt.
(b)
X
ist normalverteilt, also ist auch
αX + β
mit
α, β ∈ R, α 6= 0
normalverteilt.
Auch folgender Satz ist uns nicht ganz unbekannt (vergleiche mit Satz 7.9.5):
Satz 8.4.2
Xn
hat die Verteilung
N (µ, √σn ).
KAPITEL 8. PARAMETERSCHÄTZUNG
68
Wir nehmen nun an, dass bei einer Normalverteilung die Varianz
Erwartungswert
µ
µ̂ = x,
bekannt und der
unbekannt ist.
Wir werden also versuchen,
Schätzung:
σ2
wobei
µ
mit Hilfe einer Stichprobe zu schätzen.
x1 , · · · , xn
das Ergebnis einer Stichprobe vom Umfang
Das Kondenzintervall gibt nun den Bereich um
µ̂ = x an, für den
µ darin liegt.
n
ist.
wir mit ausreichender
Sicherheit sagen können, dass der wahre Wert von
Denition 8.4.3 Seien
γ = 0.9, 0.95, 0.99
n, 0 < γ < 1 beliebig vorgegeben. (γ meist
x ist eine Realisierung von X . Gilt dann
P X − µ ≤ q 0 = P X − q 0 ≤ µ ≤ X + q 0 = γ,
nahe bei
1,
z. B.
o. ä.).
(8.4.1)
so bezeichnet man das Intervall
[x − q 0 , x + q 0 ]
als
γ
γ Kondenzintervall
heiÿt
für
µ.
Vertrauenswahrscheinlichkeit (häug in % angegeben) und sollte zusammen
mit dem Stichprobenumfang
n
vor der Untersuchung festgelegt werden.
Korrekte Intepretation:
µ
liegt mit Wahrscheinlichkeit
γ
in dem Intervall
[X − q 0 , X + q 0 ].
8.4.1 Bestimmung eines Kondenzintervalls für µ bei bekanntem σ
µ anbietet, ist das arithmeti√
X̄ ∼ N (µ, σ/ n). Damit die Verteilung des Schätzers nicht vom unbekannten
Ein Schätzer, der sich für den unbekannten Erwartungswert
sche Mittel
Wert abhängt muss man diesen standardisieren:
Satz 8.4.4 (Standardisierter Mittelwert)
(a) Die folgende Zufallsvariable ist standard-normalverteilt:
√
(X − µ) n
Y :=
σ
(b) Aus der Eigenschaft
bei bekanntem
σ
P (|Y | ≤ q) = 2Φ(q) − 1
kann man Kondenzintervalle für
Beispiel 8.4.5 Eine Messgröÿe (oder Beobachtungsgröÿe) sei
unbekannt und
σ = 1.8
n=9
µ,
wähle also
(d.h. 9 Messungen ).
!
P (|Y | ≤ q) = 2Φ(q) − 1 = γ = 0.95
(vergl. Satz 8.4.4), d.h.
!
Φ(q) =
q
heiÿt
Quantil zu
N (µ, σ)-verteilt,
bekannt sei.
Bestimme 0.95(oder 95%) Kondenzintervall für
Lege fest:
µ
bestimmen.
1+γ
2 .
1+γ
1.95
=
= 0.975
2
2
γ = 0.95.
wobei
µ
8.4. KONFIDENZINTERVALLE
69
Aus der Normalverteilungstabelle lesen wir ab
95%
Kondenz):
Aus den
9
q = 1.96.
Damit erhalten wir (mit einer
√ (X − µ) n ≤ 1.96.
σ
Messungen erhalten wir
x = 3.5
und damit das Kondenzintervall:
1.96σ
1.96 · 1.8
√
|x − µ| = |µ − 3.5| ≤ √ =
= 1.176 =: q 0
n
9
oder in expliziter Form:
µ ∈ [x − q 0 , x + q 0 ] = [3.5 − 1.176, 3.5 + 1.176] = [2.324, 4.676].
Denition 8.4.6
Z
F und c
0 < c < 1. Dann heiÿt q das cQuantil der Verteilung, wenn
F (q) = c gilt. Insbesondere bezeichnen wir das cQuantil der StandardNormalverteilung
mit qΦ (c).
sei eine beliebige Zufallsvariable mit der Verteilungsfunktion
eine beliebige reelle Zahl mit
Bestimmung eines
γ Kondenzintervalles für µ bei bekanntem σ :
1. Lege die Vertrauenswahrscheinlichkeit
2. Bestimme
q>0
γ
und den Stichprobenumfang
fest.
aus
!
Φ(q) =
also das
n
(1 + γ)/2Quantil
1+γ
,
2
der StandardNormalverteilung.
3. Ziehe eine Stichprobe vom Umfang
n.
Dabei seien
x1 , x2 , . . . , xn die gewonnenen
N (µ, σ)verteilten Zufalls-
Realisierungen (Mess oder Beobachtungsergebnisse) der
variablen
X1 , X2 , . . . , Xn .
Das Konndenzintervall ist dann durch
√ (x − µ) n ≤q
σ
oder in expliziter Form durch
q·σ
q·σ
x− √ ≤µ≤x+ √
n
n
gegeben.
8.4.2 Bestimmung eines Kondenzintervalls für µ bei unbekanntem σ
Die wesentliche Voraussetzung bei der Konstruktion der Kondenzintervalle in 8.4.1 war
die Existenz einer Zufallsvariable, die den wahren Parameter enthielt und deren Verteilung
bekannt und unabhängig vom unbekannten Parameter war.
Im Fall, wo
s
S=
n
P
σ
unbekannt ist, ersetzt man
σ
durch seine (erwartungstreue) Schätzung
(Xi −X̄)2
i=1
n−1
. Dann arbeitet man mit der Zufallsvariable
X̄ − µ
√ ∼ t(n − 1)
S/ n
KAPITEL 8. PARAMETERSCHÄTZUNG
70
(t-Verteilung mit
n−1
Freiheitsgraden, s. Abschnitt 7.6.10).
Dafür kann man wieder einen Bereich angeben, der mit der Wahrscheinlichkeit (Kondenz)
γ
angenommen wird:
P (|
wobei
Ft
X̄ − µ
!
√ | ≤ q) = 2Ft (q) − 1 = γ,
S/ n
die zugehörige Verteilungsfunktion bezeichnet. Wir erinnern uns, daÿ die
Verteilung symmetrisch ist. Für die Werte von
Ft
t-
gibt es Tabellen mit Quantilen der
t-Verteilung.
Beispiel 8.4.7 Eine Messgröÿe (oder Beobachtungsgröÿe) sei
und
σ
unbekannt seien. Bestimme 90% Kondenzintervall für
Lege fest:
n = 11
(d.h.
11
N (µ, σ)-verteilt,
µ, also γ = 0.95.
wobei
µ
Messungen ).
11
Eine Stichprobe vom Umfang
µ̂ = x = 3
ergebe
und
n
X
11
X
(xi − x) =
(xi − 3)2 = 20
2
i=1
i=1
!
(X − µ)√11 · 10 !
P s
≤ q = 2Ft (ε) − 1 = 0.90,
P
11
(Xi − X)2
i=1
wobei
Ft
die Verteilungfunktion einer
Suche dann
q
t-Verteilung
mit
(n − 1) = 10
Freiheitsgraden ist.
mit
!
Ft (q) =
Die Zahl der Freiheitsgrade ist
1+γ
1.90
=
= 0.95.
2
2
r = n − 1 = 10.
Aus der Tabelle der Quantile der
t−
Verteilung lesen wir ab:
q = 1.81.
Damit erhalten wir als Kondenzintervall:
√
(x − µ) 11 · 10 s
≤ 1.81,
11
P
2
(xi − x) i=1
also
v
u 11
√
X
1.81 · 20
1 u
t
2
|x̄ − µ| ≤ 1.81 · √
(xi − x) = √
= 0.772 =: q 0 .
110 i=1
110
In expliziter Form erhalten wir also als
(µ ∈ [x −
q0, x
+
q0]
90%-Kondenzintervall
für
µ:
= [3 − 0.772, 3 − 0.772] =) [2.228, 3.772].
Bestimmung eines
γ Kondenzintervalles für µ bei unbekanntem σ :
1. Lege die Vertrauenswahrscheinlichkeit
γ
und den Stichprobenumfang
n
fest.
8.4. KONFIDENZINTERVALLE
2. Bestimme
q>0
71
aus
!
Ft (q) =
also ein
(1 + γ)/2Quantil
der
1+γ
,
2
tVerteilung
n.
3. Ziehe eine Stichprobe vom Umfang
mit
Seien
(n − 1)
Freiheitsgraden.
x1 , x2 , . . . , xn die dabei gewonnenen
N (µ, σ)-verteilten Zufalls-
Realisierungen (Mess- oder Beobachtungsergebnisse) der
variablen
X1 , X2 , . . . , Xn .
Das Konndenzintervall ist dann durch
p
(x − µ) n(n − 1) s
≤q
n
P
2 (xi − x) i=1
oder in expliziter Form durch
s
q·
s
n
P
(xi − x)
2
i=1
x−
q·
(xi − x)2
i=1
≤µ≤x+
p
n(n − 1)
n
P
p
n(n − 1)
gegeben.
Satz 8.4.8
gilt:
Ft,r sei die Verteilungsfunktion
Ft,r → Φ für r → ∞.
der
Man kann also die t-Verteilung mit unendlich (r
tVerteilung
mit
r
Freiheitsgraden; dann
= ∞) vielen Freiheitsgraden als N (0, 1)-
Verteilung auassen.
Anwendung: Bei Stichproben mit groÿem Umfang (etwa
N (0, 1)Verteilung
statt der
tVerteilung
≥ 50) kann näherungsweise die
benutzt werden.
8.4.3 Bestimmung eines Kondenzintervalls für σ bei unbekanntem µ
Ein Kondenzintervall für
Verteilung von
von
S2
eine
S2 =
1
n−1
χ2 -Verteilung
σ2
n
P
bei normalverteilter Grundgesamtheit läÿt sich aus der
(Xi − X̄)2
konstruieren. So besitzt eine normierte Version
i=1
mit
n−1
Freiheitsgraden:
n−1 2
S ∼ χ2 (n − 1).
σ2
Satz 8.4.9 Aus der Eigenschaft P (q1
≤
n−1 2
S
σ2
Freiheitsgrade) kann man Kondenzintervalle
Für die entsprechenden Quantile der
≤ q2 ) = Fχ2 (q2 )−Fχ2 (q1 ) (q1 ≤ q2 , (n−1)
2
für σ bei unbekanntem µ bestimmen.
χ2 -Verteilung
gibt es ebenfalls eine Tabelle.
X1 , X2 seien unabhängig und N (µ, 1)−verteilt. Dann ist (X1 − µ)2 +
2
(X2 − µ) die Summe der Quadraten von zwei unabhängigen und normalverteilten Zu2
fallsvariablen, also χ − verteilt mit zwei Freiheitsgraden.
Beispiel 8.4.10
KAPITEL 8. PARAMETERSCHÄTZUNG
72
X1 + X2 2 X1 + X2 2
(X1 − X)2 + (X2 − X)2 = X1 −
+ X2 −
2
2
X − X 2 X − X 2 X − X 2
2
1
1
1
2
√ 2 .
+
=
=
2
2
2
Dies ist das Quadrat von nur einer normalverteilten Zufallsvariable und daher
χ2 − verteilt
mit einem Freiheitsgrad.
8.4.4 Bestimmung eines Kondenzintervalls für den Parameter p einer
Binomialverteilung Bi(n, p)
Satz 8.4.11
X
sei eine binomialverteilte Zufallsvariable mit den Parametern
folgenden Bedingungen erfüllen sollten:
(a) Die Zufallsvariable
Y := √X−np
n ≥ 50, np ≥ 5, n(1 − p) ≥ 5
np(1−p)
ist näherungsweise
n, p, die die
(vergl. Satz 7.6.30).
N (0, 1)verteilt
(vergl. Satz
7.6.30).
(b) Aus
P (|Y | ≤ q) ≈ 2Φ(q) − 1
kann man -wie unten beschrieben- unter gewissen
Bedingungen Näherungen für Kondenzintervalle für
p
und damit auch
1−p
p
bestimmen.
seien unbekannt, und wir suchen ein
γ Kondenzintervall
für
p.
Nach Satz 8.4.11 verwenden wir dazu die Beziehung
!
γ = 2Φ(q) − 1 ≈ P (|Y | ≤ q) = P
!
X − np p
p
≤ q = P |X − np| ≤ q np(1 − p) .
np(1 − p) 0 ≤ p ≤ 1 ⇒ p · (1 − p) = p · (1 − p) ≤ 1/4
(Beweis: Übungsaufgabe!).
r n
|X − np| ≤ q
4
q √ = P |X − np| ≤ · n .
2
p
γ = 2Φ(q) − 1 ≈ P |X − np| ≤ q np(1 − p)
≤ P
!
Die Wahrscheinlichkeit dafür, dass die Abweichung von
X
höchstens
Wenn nun
x
q·
√
n/2
beträgt, ist also näherungsweise
X,
eine Realisierung von
np von der SchätzZufallsvariable
≥ γ.
also z.B. die tatsächlich beobachtete Anzahl der
Ziehungen von defekten Stücken ist, erhalten wir als Kondenzintervallnäherung:
|x − np| ≤
also
[p1 , p2 ]
kann nun als
werden, wenn
np ≥ 5
und
q √
q √
q √
· n ⇔ x − · n ≤ np ≤ x + · n,
2
2
2
√
√
x − q · n/2
x + q · n/2
p1 :=
≤p≤
=: p2
n
n
Näherung für ein γ Kondenzintervallnäherung
die Voraussetzungen von Satz 8.4.11 mindestens
n(1 − p) ≥ 5
für alle
p ∈ [p1 , p2 ]
gilt.
Daraus ergeben sich die Bedingungen
!
np1 ≥ 5
!
und
n(1 − p2 ) ≥ 5.
Bestimmung eines Kondenzintervalls für
p:
für
p
genommen
dann erfüllt sind, wenn
8.4. KONFIDENZINTERVALLE
1. Bestimme
q>0
aus
73
!
2Φ(q) − 1 = γ ,
2. Bestimme dann ein Intervall
also aus
p1 ≤ p ≤ p2
Φ(q) = (1 + γ)/2.
mit
√
(x − q
p1 =
n
3.
[p1 , p2 ]
ist als Näherung für ein
n
2 )
√
(x + q
p2 =
n
,
γ Kondenzintervall
n ≥ 50,
np1 ≥ 5
und
n
2 )
(8.4.2)
zu akzeptieren, wenn gilt:
n(1 − p2 ) ≥ 5.
Anderenfalls muss eine andere Methode als über Satz 8.4.11 gewählt werden.
Beispiel 8.4.12 Vor einer Wahl in einer Stadt mit
60000
wahlberechigten Einwohnern
soll eine Meinungsumfrage durchgeführt werden.
Sei
p :=
1 − p=
Anteil der Wähler der Partei
A,
Anteil der Wähler der anderen Partei, Nichtwähler u.s.w.
Wir sollen
p
bestimmen, bzw. ein
95%−
Kondenzintervall für
Es wird eine (zufällige) Stichprobe von Umfang
100
p
konstruieren.
o. Z. gezogen, d.h. kein Wahlbe-
rechtigter wird zweimal befragt.
Umfrageergebnis: 40 der Befragten sind für die Partei
A.
Die Zufallsvariable
X := Anzahl
der Wähler von
A
in der Stichprobe, deren Realisierung
40
ist,
ist wegen o.Z. hypergeometrisch verteilt. Die Bedingungen in Satz 7.6.20 für die Näherung durch die Binomialverteilung sind aber deutlich erfüllt:
N = 60000 ≥ 1000
X
und
n = 100 ≤ 0.1 · N .
ist also näherungsweise binomialverteilt mit Parametern
n, p.
Konstruktion des Kondenzintervalles:
Bestimme
q>0
aus
!
2Φ(q) − 1 = γ = 0.95 ⇔ Φ(q) = 0.975 ⇔ q
x = 40 =
Realisierung von
X
Tabelle
=
1.96.
bei der Durchführung der Umfrage.
Die erste Bedingung für die Näherung der Binomialverteilung durch die Normalverteilung
ist erfüllt:
n = 100 ≥ 50.
Wir bestimmen dann die Grenzen
√
p1,2
√
x ∓ q 2n
40 ∓ 1.962 100
=
=
= 0.400 ∓ 0.098.
n
100
Wir erhalten so das Intervall
[p1 , p2 ] = [0.302, 0.498].
Ist dieses Intervall als Kondenzintervall zu akzeptieren? Dazu müssen wir die weiteren
Näherungsbedingungen prüfen:
n · p1 = 100 · 0.302 = 30.2 ≥ 5,
n(1 − p2 ) = 100 · 0.502 = 50.2 ≥ 5,
n ≥ 50.
[0.302, 0.498] näherungsweise ein Kondenzintervall für p. Man kann also mit
95-prozentiger Sicherheit schlieÿen, dass näherungsweise zwischen 30.2% und 49.8% für
die Partei A sind.
Damit ist
Kapitel 9
Testen statistischer Hypothesen
9.1
Einfühurung, Signikanztest
Wir beginnen mit einem Beispiel für einen Signikanztest, aus dem auch gewisse Grundprinzipien von Testen überhaupt klar werden.
Beispiel 9.1.1 Nehmen wir an, wir wollen eine Abfüllmaschine für Zucker kontrollieren.
Sie soll in jede Tüte 500 g Zucker einfüllen. Füllt sie zu wenig ein, sind gesetzliche Bestimmungen verletzt, und es muÿ Abhilfe geschaen werden. Füllt sie zuviel ein, sind zwar
Gesetzgegeber und Kunde zufrieden aber diese ungewollte Groÿzügigkeit wird sich bald
in den Kosten bemerkbar machen. Deshalb wird man auch in diesem Fall bemüht sein,
den Mangel abzustellen, d.h. die Maschine neu einzustellen. Da so etwas aber ebenfalls
Kosten verursacht wird man erst dann etwas unternehmen, wenn man ziemlich sicher
ist, daÿ eine Abweichung von der Norm vorliegt. Dieses ziemlich sicher muÿ präsiziert
werden.
Geringe Abweichungen sind unvermeidlich. Man wird nicht gleich Alarm schlagen, wenn
in einer Tüte
498g
500g sind. Auch eine einwandfrei arbeitende Maschine wird die
Wert 500 streuen. Dabei kann man annehmen, daÿ die tatsächli-
statt
Menge etwas um den
chen Werte normalverteilt sind. Jetzt haben wir aber irgendwie den Verdacht, daÿ die
Maschine nicht einwandfrei arbeitet. Um das nachzuprüfen, wählen wir einige Tüten aus
und prüfen ihr Gewicht. Wegen der Zufallsabhängigkeit auch bei einwandfreier Maschine
werden wir aber zu keinen sicheren Ergebnissen kommen, sondern nur zu Wahrscheinlichkeitsaussagen. Dabei wollen wir -so gut es geht- vermeiden, daÿ wir zu Unrecht die
Maschine für defekt halten. Genauer gesagt soll folgendes gelten:
Die Wahrscheinlichkeit, daÿ wir irrtümlich die Maschine für defekt halten, sei
α im Gegensatz zu Kapitel 8 ein kleiner, positiver
α = 0, 01.
Hier soll
oder
Der Wert von
Wert sein, z.B.
≤ α.
α = 0, α = 0, 05
α, also die zugelassene Irrtumswahrscheinlichkeit und das Verfahren zur
Auswertung der Stichprobe sollen vor der Untersuchung der Stichprobe festgelegt werden.
Das ist ein wichtiges statistisches Prinzip. Es besteht sonst nämlich die Gefahr, dass wir
z.B.
α
gewollt oder ungewollt den Ergebnissen anpassen und so zu keiner einwandfreien
Entscheidung kommen.
74
9.1. EINFÜHURUNG, SIGNIFIKANZTEST
α ist
α = 0.05.
Die Wahl von
Beispiel
75
abhängig von der Genauigkeitsanforderung. Wir wählen für dieses
Die Durchführung einiger Messungen habe (bei einer Stichprobe vom Unfang
4) folgendes
Ergebnis:
x1 = 495,
x2 = 496,
x3 = 499,
Diese seien Realisierungen der Zufallsvariablen
lung
N (µ, σ)
x4 = 494.
X1 , X2 , X3 , X4 , die alle die gleiche Vertei-
haben.
Als Schätzwert für
µ
berechnen wir
µ̂ = x = 496.
Dieser Schätzwert wird in der Regel von
500
abweichen, ganz gleich ob die Maschine
einwandfrei arbeitet oder nicht. Wir erklären die Maschine dann für defekt, wenn
stark von
500
µ̂
zu
abweicht.
Allerdings muss man dieses zu stark erklären.
9.1.1 Signikanztest für µ bei der Normalverteilung bei bekanntem σ
Xi
seien unabhängig und
N (µ, σ)verteilt, µ
sei unbekannt und
σ = σ0
sei bekannt.
Das enstpricht der Situation bei dem Einführungsbeispiel. Dort ging es darum, ob eine
gewisse Normgröÿe von
µ
beim Abfüllen tatsächlich eingehalten wird.
Bezeichnen wir diese Normgröÿe mit
µ0 ,
so geht es also darum, ob
µ = µ0
ist.
Wir versuchen das anhand einer Stichprobe festzustellen. Dabei gehen wir von
µ = µ0
als
statistische Hypothese aus, und prüfen nach, ob das vorliegende Datenmaterial diese Hypothese mit ausreichender Sicherheit widerlegt oder nicht. Was man unter ausreichender
Sicherheit versteht, wird durch die Irrtumswahrscheinlichkeit
α,
auch
Signikanzni-
veau genannt, festgelegt.
Signikanztest. Stelle eine Hypothese über
Hypothese
H0 : µ = µ0
µ
auf, in diesem Fall:
.
Dann haben wir die bereits genannte wichtige statistische Regel zu beachten: Das Signikanzniveau
α
und der Stichprobenumfang sollten bei diesem Test vor der Untersuchung
der Stichprobe festgelegt werden.
Bestimme
q > 0 aus
x̄ − µ0 √ x̄ − µ0 √ P n ≥ q H0
= 1 − P n < q H0
σ0
σ0
= 1 − (2Φ(q) − 1)
!
= 2 (1 − Φ(q)) = α
⇐⇒
d.h.
P
Die Gröÿe
√
qσ0 / n
!
Φ(q) = 1 −
α
2
0 X̄ − µ0 ≥ qσ
√ H0 = α ⇐⇒
n
bezeichnen wir mit
d.
(9.1.1)
!
Φ(q) = 1 −
α
2
KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN
76
Unter Bedingung
H0
hypothetischen Wert
hat also die Abweichung der Schätz-Zufallsvariable für
µ0
um
d
oder mehr eine Wahrscheinlichkeit von
α,
µ
Wahrscheinlichkeit. Beobachten wir also bei einer Stichprobe eine Abweichung
es naheliegend, die Hypothese
H0
von dem
also eine kleine
≥ d, so ist
abzulehnen. Dies führt zu folgender Anweisung :
•
Untersuche eine Stichprobe von Umfang
•
das Ergebnis sei der Schätzwert
•
Ist nun
µ̄ = x̄
n;
µ.
für
|µ̂ − µ0 | (= |x̄ − µ0 |) ≥ d,
so ist die Hypothese
H0
abzulehnen.
Wir wollen nun dieses Ablehnungkriterium noch etwas präsizer zusammenfassen.
P (Ablehnung
von
H0 | H0 ) = P X̄ − µ0 ≥ d | H0 = α.
H0
Die Wahrscheinlichkeit für eine irrtümliche Ablehhnung von
|x̄ − µ0 | < d
bedeutet nur: Ablehnung von
H0
ist also gleich
ist auf Grund des vorliegenden Materials
nicht gerechtfertigt. Daraus ergibt sich aber nur die Annahme von
ist nämlich sehr unsicher, ob die Hypothese
α.
H0
H0
mit Vorbehalt. Es
dann tatsächlich zutrit.
Im Beispiel wird das noch deutlich sichtbar werden.
|x̄ − µ0 | < d
=⇒
Annahme von
H0
(mit Vorbehalt ).
Es gibt dann Standardbezeichnungen für die Interpretation der Testergebnisses. Zunächst
einmal soll uns aber klar sein, dass es
4
verschiedene Situationen gibt:
H0
kann richtig
oder falsch sein - das wissen wir nicht - und das Datenmaterial kann zur Ablehnung oder
zur Annahme mit Vorbehalt führen. Dabei können wir sowohl bei richtiger als auch bei
falscher Hypothese
H0
zur Ablehnung wie zur Annahme der Hypothese kommen. Das
ganze läÿt sich recht gut in folgedem Schema darstellen:
Tabelle 9-1
H0
angenommen
abgelehnt
richtig
richtige Entscheidung
Fehler 1. Art
falsch
Fehler 2. Art
richtige Entscheidung
unter der Bedingung
H0
wird
↓:
ist
Die Fehler 1. und 2. Art sind beide prinzipiell nicht zu vermeiden. Aber es wäre schon
viel gewonnen, wenn wir wenigstens die Wahrscheinlichkeiten für diese Fehler klein halten
könnten. Das ist für den Fehler 1. Art gesichert. Denn wenn
H0
richtig ist, dann erhalten
wir aus den Formeln für den Signikanztest die Wahrscheinlichkeit für einen Fehler 1.
Art:
P (Fehler
1. Art)
= P (H0
wird abgelehnt
|H0 ) ≤ α.
(9.1.2)
9.1. EINFÜHURUNG, SIGNIFIKANZTEST
77
Die Wahrscheinlichkeit für den Fehler 2. Art können wir bei diesem Test nicht kontrollieren. Das liegt im wesentlichen daran, dass die Aussage H0 ist falsch viel zu weit gefasst
ist. Um den Fehler 2. Art kontrollieren zu können, brauchen wir eine engere Eingrenzung
von dem was wir
H0
gegenüber stellen wollen. So etwas nennt man Alternativhypothese.
Eine geeignete Alternativhypothese wäre z.B. nicht
H1 :
µ 6= µ0 ,
sondern z.B.
H1 :
|µ − µ0 | ≥ 0.1
Dann kann der Fehler 2. Art eingeschränkt werden.
Wir werden aber solche Überlegungen nicht durchführen, weil wir einfachere und bessere
Ergbenisse bei den Kondenzintervallen schon erhalten haben.
Alternativhypothesen werden wir dann später bei den einseitigen Tests verwenden. Hier
stellen wir nur fest: Ohne geeignete Alternativhypothese erhalten wir keine brauchbaren
Aussagen über den Fehler 2. Art.
Wenden wir uns wieder dem Beispiel 9.1.1 zu.
Hypothese
α
H0 :
µ = 500 =: µ0
und den Stichprobenumfang hatten wir vorher festgelegt:
α = 0.05, n = 4.
Wir
begnügen uns also mit einem sehr kleinen Stichprobenumfang. Auÿerdem soll noch die
Standardabweichung
σ0 = 5
bekannt sein.
Der nächste Schritt ist dann die Bestimmung von
q>0
und
d > 0:
0.05
= 0.975 =⇒ q = 1.96.
2
q
1.96
d := √ σ0 = √ · 5 = 4.90.
n
4
Φ(q) = 1 −
Wir können nun zur Auswertung übergehen.
µ̂ = 496 =⇒ |µ̂ − µ0 | = |496 − 500| = 4 < d = 4.90.
Testergebnis:
H0
wird mit Vorbehalt angenommen.
An dieser Stelle hat der Vorbehalt tatsächlich seine volle Berechtigung. Denn die Daten
deuten zusammen mit dem geringen Stichprobenumfang darauf hin, dass wir
H0
mögli-
cherweise zu Unrecht angenommen haben. Genau sagen können wir allerdings nicht, auch
nicht mit gewissen Wahrscheinlihchkeitsschranken, wie wir es sonst gewohnt sind. Trotzdem ist hier dringend zu empfehlen, den Test mit einem gröÿeren Stichprobenumfang zu
wiederholen.
494,
Stichprobe vom Umfang 8:
=⇒ µ̂ = x̄ = 494.25
Testergebnis:
=⇒
Ablehnung von
492,
495,
494,
496,
496,
491,
491.
|µ̂ − µ0 | = |494.25 − 500| = 5.75 ≥ 3.46.
H0 .
Das, was wir hier beobachtet haben, ist auch allgemein zu beachten.
Scheint die Annahme von
H0
nur durch einen zu kleinen Stichprobenumfang zustande
gekommen zu sein, ist der Test u.U. mit gröÿerem Stichprobenumfang
n
zu wiederholen.
KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN
78
9.1.2 Signikanztest für µ bei der Normalverteilung bei unbekanntem
σ
Dazu erinnern wir uns, wie wir Kondenzintervalle für
µ
bei unbekanntem
σ
bestimmt
haben:
σ durch die erwartungstreue Schätzung ersetzt. Dabei mussten
wir beachten, dass wir nicht die Normalverteilung, sondern die t-Verteilung verwenden.
Beim Test machen wir es genauso. Wir ersetzen σ0 durch die erwartungstreue Schätzung
Wir haben das unbekannte
und kommen so zu folgendem
Xi
seien unabhängig und
1. Stelle eine
Hypothese
2. Lege das
Verfahren:
N (µ, σ)verteilt, µ
Hypothese über
H0 : µ = µ0
µ
und
σ
seien unbekannt.
auf, in diesem Fall:
.
Signikanzniveau α und den Stichprobenumfang n vor der Untersuchung
der Stichprobe fest.
3. Bestimme
q>0
aus
!
Ft (q)=1 −
wobei
α
,
2
(9.1.3)
Ft (·) die Verteilungsfunktion der tVerteilung mit r = (n−1) Freiheitsgraden
ist.
n. Diese liefert die Mess oder Beobx1 , x2 , . . . xn . Daraus gewinnen wir den Schätzwert
4. Untersuche eine Stichprobe vom Umfang
achtungswerte (Realisierungen)
µ̂ = x
für
µ
und die Testgröÿe
v
uP
u n
u (xi − x)2
t
d := q i=1
.
n(n − 1)
5. Falls
Falls
|µ̂ − µ0 | ≥ d
|µ̂ − µ0 | < d
ist, ist
ist, ist
H0
H0
abzulehnen.
(mit Vorbehalt) anzunehmen.
Begründung der Entscheidungsregel:
Für die Wahrscheinlichkeit für eine irrtümliche Ablehnung von
H0
gilt, da nur stetige
9.2. EINSEITIGE TESTS
79
Zufallsvariablen beteiligt sind:
!
α = P (H0

=
=
=
=
wird (auf Grund des Testergebnisses) abgelehnt
|H0 )

n
2
i=1 (Xi − X) 

P |X − µ0 | ≥ q
H0
n(n − 1)


sP
n
2
i=1 (Xi − X) 

P |X − µ0 | > q
H0
n(n − 1)


√
|X − µ0 | n

q
> q H0 
P
Pn
2
i=1 (Xi −X)
n−1


√
|X − µ0 | n

1 − P q Pn
≤ q H0 
2
i=1 (Xi −X)
sP
n−1
!
= 1 − (2Ft (q) − 1) = 2 − 2Ft (q) ⇐⇒ Ft (q)=1 −
α
.
2
Der Test also ist überwiegend genauso durchzuführen wie bei bekanntem
σ.
Allerdings müssen wir zwei Unterschiede beachten:
(i)
tVerteilung
(ii) In
statt Standard-Normalverteilung;
d ersetzen wir σ0
durch den erwartungstreuen Schätzwert (Stichprobenstandard-
abweichung).
9.2
Einseitige Tests
Wir beginnen wieder mit einem Beispiel:
Beispiel 9.2.1 Jemand erhält eine Lieferung von Garn. Der Lieferant behauptet, daÿ
die Reiÿfestigkeit bei über 20 kPa liege.
Der Kunde ist skeptisch. Er will die Behauptung durch eine Untersuchung prüfen. Bei
der Prüfung werden Garnstücke bis zum Zerreiÿen belastet. Dazu sollten natürlich möglichst wenige Garnstücke geprüft werden. Man wird also eine Stichprobe von Garnstücken
ziehen.
N (µ, σ)-verteilt,
µ > 20.
Die Reiÿfestigkeit sei
ranten ist also
Dann nehmen wir an, dass
sei:
σ
wobei
µ
unbekannt ist. Die Behauptung des Liefe-
als Erfahrungswert aus früheren Untersuchungen bekannt
σ = 0.5.
Der skeptische Kunde stellt vorsichtshalber die gegenteilige Behauptung auf:
H0 :
µ ≤ 20.
Davon will er nur abgehen, wenn die Untersuchung mit ausreichender Sicherheit dagegen
spricht.
KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN
80
Mit
H0
allein kommen wir nur zu einer positiven Entscheidung über Lieferung mit ausrei-
chender Sicherheit. Wir wollen aber auch eine negative Entscheidung über die Lieferung
mit ausreichender Sicherheit treen können. Daher formulieren wir die Behauptung des
Lieferanten als
Alternativhypothese:
H1 :
µ > 20.
Der Lieferant nimmt seine Ware zurück, wenn
H1
mit ausreichender Sicherheit verworfen
werden kann.
Wir sollten den Test dann so durchführen, daÿ man auf Grund des Untersuchungsergebnis
mit ausreichender Sicherheit möglichst zu einer Entscheidung zwischen
H0 und H1 kommt.
Es ist besser, dies allgemeiner als im Beispiel zu beschreiben:
Es gibt jetzt fünf Situationen, die eintreten können:
(i) Entscheidung für
H0 ,
wenn
H0
richtig ist.
(ii) Entscheidung für
H1 ,
wenn
H1
richtig ist.
(iii) Entscheidung für
H1 ,
obwohl
H0
richtig ist
:
Fehler 1. Art.
(iv) Entscheidung für
H0 ,
obwohl
H1
richtig ist
:
Fehler 2. Art.
(v) Es kann keine Entscheidung mit ausreichender Sicherheit getroen werden.
Eine wichtige Voraussetzung dafür, dass wir überhaupt eine Entscheidung für eine der
beiden Hypothesen treen können, ist:
Es liegt eine Normalverteilung mit
Sonst wäre es möglich, daÿ weder
σ = σ0
H0
vor.
noch
H1
richtig ist. Für diese Voraussetzung kann
man keine positive Entscheidung mit ausreichender Sicherheit auf Grund des Datenmaterials treen.
Für die Testdurchführungen sind nur die Situationen (iii) und (iv) wichtig:
Fehler 1. Art : Entscheidung gegen
Fehler 2. Art : Entscheidung gegen
H0
H1
(und damit für
(und damit für
H1 ),
H0 ),
obwohl
obwohl
H0
H1
richtig ist.
richtig ist.
Durchführung des Tests:
Die Entscheidung für eine Hypothese ist nur dadurch möglich, daÿ sich beide Hypothesen gegeseitig ausschlieÿen und den ganzen Parameterbereich erfassen. Das Primäre sind
immer Entscheidungen gegen Hypothesen.
Die Höchstgrenzen der Wahrscheinlichkeit für den Fehler 1. und 2. Art sollen dann wieder
vor der Auswertung einer Stichprobe festgelegt werden:
Schritt 1: Lege die Höchstgrenze
und die Höchstgrenze
β
Dann ist der Stichprobeumfang
gröÿen aus
α, β, n
und
α
für die Wahrscheinlichkeit für einen Fehler 1. Art
für die Wahrscheinlichkeit für einen Fehler 2. Art fest.
σ0
n
festzulegen, und anschlieÿend sind die kritischen Test-
zu bestimmen:
9.2. EINSEITIGE TESTS
81
Schritt 2: Lege den Stichprobenumfang
n
d0
fest und berechne
und
d1
aus
n, α
und
β
nach der folgenden Formel:
√
d0 = q0 σ0 / n
√
d1 = q1 σ0 / n
mit
mit
Φ(q0 ) = 1 − α
Φ(q1 ) = 1 − β.
Begründung und Interpretation stellen wir zurück und schauen uns zuerst den letzten
Schritt des Testverfahrens an.
Schritt 3: Werte eine Stichprobe vom Umfang
n
aus.
x
ist dann eine Realisierung von
X := n−1 (X1 + · · · + Xn )):
x ≥ µ0 + d0 ⇒
Entscheidung für
H1 .
x ≤ µ0 − d1 ⇒
Entscheidung für
H0 .
Falls
µ0 − d1 < x̄ < µ0 + d0 ,
dann kann keine Entscheidung getroen werden (u. U. muÿ
man den Test mit gröÿerem Stichprobenumfang wiederholen).
Die Realisierung
x̄ von X̄
X1 , . . . , Xn )
µ. Liegt dieser Schätzwert für µ weit genug über
gegen µ ≤ µ0 und damit für H1 , d.h. für µ > µ0 .
(also von dem einfachen arithmetischen Mittel von
ist ein Schätzwert für das unbekannte
µ0 ,
so spricht das gegen
Liegt der Schätzwert
damit für
H0 ,
x̄
d.h. für
H0 ,
d.h.
für µ weit
µ ≤ µ0 .
unter
µ0 ,
so spricht gegen
H1 ,
d.h. gegen
Es gibt jetzt 3 Möglichkeiten, da wir eben nicht die Bedingungen
x̄ > µ0
µ > µ0
bzw.
und
x̄ ≤ µ0 ,
x̄ ≥ µ0 + d0 bzw. x̄ ≤ µ0 − d1 prüfen. Wir haben also noch
µ0 − d1 und µ0 + d0 , in den x̄ auch fallen kann. In diesem Bereich
sondern die Bedingungen
den Bereich zwischen
können wir wie bereits erwähnt keine Entscheidung treen.
Es gibt keinen Test mit dem man mit Sicherheit zu einer Entscheidung zwischen
H1
H0
und
kommt.
Scheint dieses Ergebnis keine Entscheidung durch einen zu kleinen Stichprobenumfang
zustande gekommen zu sein, sollte man den Test mit einem gröÿerem Stichprobenumfang
n wiederholen, aber vielleicht auch nur einmal, weil man sonst ganz andere Testverfahren
wie z.B. Sequentialtests anwenden muss.
Will man auf jeden Fall zu einer Entscheidung kommen, so sollte man die Hypothesen
etwas auseinanderrücken.
Zunächst aber wollen wir sehen, warum in dem obigen Testvefahren die gewünschten
Folgerungen zu ziehen sind:
Begründung für die Formel in Schritt 2:
Da
Φ(x)
monoton wachsend ist, folgt:
P (Fehler
1. Art)
µ0 − µ + d0 √
n |µ≤µ0
σ0
= P (X ≥ µ0 + d0 |H0 ) = 1 − Φ
d0 √
n = 1 − Φ (q0 ) = α.
≤ 1−Φ
σ0
KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN
82
µ0 − µ − d1 √
Art) = P (X ≤ µ0 − d1 |H1 ) = Φ
n |µ>µ0
σ0
d1 √
−d1 √
n =1−Φ
n = 1 − Φ (q1 ) = β.
≤ Φ
σ0
σ0
P (Fehler
2.
Wir gehen nun die Schritte des Testverfahrens anhand unseres Beispiels durch:
Die Festlegung von
α
und
β
in Schritt 1 hängt von dem Sicherheitsbedürfnis ab.
Schritt 1: Wahl der Irrtumswahrscheinlichkeiten (Werte, auf die sich Kunde und Lieferant
geeinigt haben):
α = 0.05 ,
Schritt 2: Wahl des Stichprobenumfangs:
β = 0.10.
n = 16.
!
⇐⇒
q0 = 1.645.
!
⇐⇒
q1 = 1.282.
Φ(q0 ) = 1 − α = 0.95
Φ(q1 ) = 1 − β = 0.90
q0 σ0
1.645 · 0.5
d0 := √ =
= 0.206,
4
n
q1 σ0
1.282 · 0.5
d1 := √ =
= 0.160.
4
n
x̄ = 20.05. Dies ist nämlich eine
bei µ = 20.1. Wir können also bei
H1 treen.
In dem Bereich keine Entscheidung landen wir z.B. bei
sehr gute Schätzung für
µ,
sowohl bei
µ = 20
diesem Ergebnis keine Entscheidung zwischen
als auch
H0
und
Schritt 3: Die Untersuchung einer Stichprobe von Umfang
16
liefere das Ergebnis:
x̄ =
20.88.
x̄ ≥ µ0 + d0 (= 20.21) =⇒
Entscheidung für
H1 : µ > 20.
Entscheidung für die Behauptung des Lieferanten.
Ergebnis bei der Prüfung einer anderen Lieferung:
x̄ = 19.88.
µ0 − d1 = 19.84 < x̄ < µ0 + d0 = 20.21 =⇒
keine Entscheidung.
An dieser Stelle wollen wir noch kurz andere Formulierungen der Hypothesen ansprechen,
die häug in der Literatur verwendet werden, z.B.:
H0 : µ = µ0
gegen
H1 : µ > µ0
Angenommen, wir wollen mit
90%
Sicherheit feststellen, dass der Garn eine erwartete
µ = 20 mit 90% Sicherheit etwa durch
µ̂ = 30 abgelehnt wird, wird damit erst recht die Hypothese µ ≤ 20 abgelehnt. Die DurchReiÿfestigkeit
> 20
.
kPa hat. Wenn die Hypothese
führung des Tests ist bei der zweiten Gegenüberstellung der Hypothesen nicht anders als
bei der am Anfang gewählten Formulierung, insbesondere haben wir keine rechnerische
Vereinfachung. Wir werden daher die ursprüngliche Formulierung beibehalten:
Es gibt bei
H0 : µ = µ0
gegen
H1 : µ > µ0 .
•
keinen rechnerischen Unterschied zu :
H0 : µ ≤ µ0
gegen
H1 : µ > µ0 .
•
keinen rechnerischen Unterschied zu :
H0 : µ < µ0
gegen
H1 : µ ≥ µ0 .
9.2. EINSEITIGE TESTS
•
83
keinen rechnerischen Unterschied zu :
H0 : µ ≥ µ0
gegen
H1 : µ = µ0 .
Nun zurück zum Beispiel. Im 2. Fall kommen wir zu keiner Entscheidung. Dies ist etwas
unbefriedigend.
Was für Möglichkeiten haben wir nun, doch zu einer Entscheidung zu kommen?
Eine Möglichkeit wäre, den Test mit grösserem Stichprobenumfang zu wiederholen. Wir
werden da aber in der Regel keinen Erfolg haben, wenn
µ = 20
ist. Auch sonst ist das
Risiko keine Entscheidung bei noch so groÿen Stichprobenumfang vorhanden.
Den Grund hatten wir bereits genannt: Wenn
µ ≈ µ0
sind Hypothesen kaum aus den Da-
ten heraus zu unterscheiden. Es ist daher besser die Hypothesen etwas anders zu wählen,
z.B.:
Lieferung ablehnen, wenn
µ ≤ 20.
µ ≥ 20.5.
Lieferung annehmen, wenn
Die Rechnung kann sonst wie oben durchgeführt werden:
Änderungen:
H0 : µ ≤ 20 =: µ0 .
H1 (neu) : µ ≥ 20.5 =: µ1 (> 20).
α, β, n
Der Fall
wie gehabt
2. Lieferung:
wie gehabt.
x̄ ≥ µ0 + d0 = 20.21 =⇒
Entscheidung gegen
H0 .
x̄ ≤ µ1 − d1 = 20.34 =⇒
Entscheidung gegen
H1 .
µ − d1 < x̄ < µ0 + d0
1. Lieferung:
=⇒ d0 , d1
x̄ = 20.88 =⇒
x̄ = 19.88 =⇒
Bemerkung 9.2.2
ist nicht möglich, da:
Entscheidung gegen
Entscheidung gegen
H0 .
H1 .
(a) Manchmal ist von der praktischen Fragestellung her folgende
Gegenüberstellung zweckmäÿig:
H0 : µ ≤ µ0 ,
H1 : µ ≥ µ1
(µ1 > µ0 ).
Der Test ist dann wie oben durchzuführen, wobei aber folgende
Änderungen zu
beachten sind:
x ≥ µ0 + d0 ⇒ Entscheidung gegen H0 (nicht unbedingt
x ≤ µ1 − d1 ⇒ Entscheidung gegen H1 (nicht unbedingt
µ1 − d1 < x < µ0 + d0 ⇒ keine Entscheidung.
Durch genügend groÿen Stichprobenumfang
µ0 + d0
n
für
für
H1 ).
H0 ).
kann man erreichen, daÿ
µ1 − d1 ≥
und damit das letzte Intervall leer ist. Man kommt dann immer zu einer
Entscheidung.
KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN
84
H0 bzw. H1 ?
x̄ = 20.30:
Weshalb kommen wir nur zu einer Entscheidung gegen
kommen, dass
x̄
beide Bedingungen erfüllt, z.B. bei
Es kann vor-
20.30 ≥ 20.21.
20.30 ≤ 20.34.
Wir können sowohl
zwischen
µ0
und
µ1
H0
H1
als auch
ablehnen. Das ist auch vernünftig, denn
µ
kann
liegen. Tatsächlich ist die Entscheidung dann oen. Es ist wohl
naheliegend, in diesem Fall eine Entscheidung zugunsten des Lieferanten zu treen.
Zusätzliche Entscheidungsregel (etwas zugunsten des Lieferanten):
Wenn
n so groÿ ist, daÿ µ1 −d1 ≥ µ0 +d0
H0 .
ist, dann wird die Lieferung angenommen,
bei Ablehnung der Hypothese
(b) Ist auch
σ
unbekannt, so kann man ähnlich wie bei den Kondenzintervallen oder
beim Signikanztest die einseitigen Tests mit folgenden Veränderungen durchführen:
s
d0 = q0
s
(xi −x̄)2
n(n−1)
n
P
(xi −x̄)2
i=1
d1 = q1
wobei
n
P
i=1
n(n−1)
mit
Ft (q0 ) = 1 − α,
mit
Ft (q1 ) = 1 − β,
Ft (y) die Verteilungsfunktion der tVerteilung mit r = (n−1) Freiheitsgraden
ist.
9.2.1 Ein einseitiger Test bei der Binomialverteilung
X
sei eine binomialverteilte Zufallsvariable mit den Parametern
und
p (unbekannt). X
p
(wird noch festgelegt)
ist damit selbst schon mit einer Stichprobe vom Umfang
den. Die Auswertung dieser Stichprobe soll eine Realisierung
Hypothesen über
n
x
von
X
n verbun-
liefern.
:
H0 : 0 ≤ p ≤ p0 ,
H1 : p1 ≤ p ≤ 1,
0 < p0 ≤ p1 < 1.
Sonderfälle:
H0 : p = 0
und
x>0 ⇒
Ablehnung vonH0 .
H1 : p = 1
und
x<n ⇒
Ablehnung vonH1 .
Fehler 1. Art: Entscheidung gegen
Fehler 2. Art: Entscheidung gegen
H0
H1
(und damit für
(und damit für
p > p0 ),
p < p1 ),
obwohl
obwohl
H0
H1
richtig ist.
richtig ist.
Durchführung des Tests:
Schritt 1: Lege die Höchstgrenze
und die Höchstgrenze
Schritt 2: Lege
n
β
α
für die Wahrscheinlichkeit
für einen Fehler 1. Art
für die Wahrscheinlichkeit für einen Fehler 2. Art fest.
fest.
Schritt 3: Werte eine Stichprobe vom Umfang n aus, die eine Realisierung x von X liefert.
9.2. EINSEITIGE TESTS
Fall 1:
Setze
85
x/n < p1
q1 := 1 − p1 .
Falls
x X
n
p1 k
k
k=0
gilt, ist die Hypothese
die Hypothese
H1
H1
q1
≤
β
q1n
mit ausreichender Sicherheit abzulehnen. Anderenfalls kann
auf Grund der vorliegenden Daten nicht mit ausreichender Sicherheit
abgelehnt werden.
Begründung:
x/n < p1
spricht gegen die Hypothese
H1 .
Um aber
H1
mit ausreichender
Sicherheit ablehnen zu können, müssen wir prüfen, ob die Wahrscheinlichkeit für einen
Fehler 2. Art kleiner als
X
β ist, d.h. ob die Wahrscheinlichkeit dafür, dass die Zufallsvariable
x oder Werte annimmt, die noch mehr gegen die Hypothese H1
den vorliegenden Wert
sprechen, kleiner als
β
ist:
P (X ≤ x|H1 ) ≤ P (X ≤ x|p = p1 ) =
x X
n
k
k=0
pk1 q1n−k
=
Fall 2:
Setze
x X
n
p1 k
k
k=0
Die erste Ungleichung gilt, weil die Wahrscheinlichkeit für
kleiner ist als für
q1n
q1
X ≤ x(< np1 )
für
?
≤ β.
p > p1
noch
p = p1 .
x/n > p0
q0 := 1 − p0 .
Falls
x−1 X
n
p0 k
gilt, ist die Hypothese
die Hypothese
H0
H0
q0
k
k=0
≥
1−α
q0n
mit ausreichender Sicherheit abzulehnen. Anderenfalls kann
auf Grund der vorliegenden Daten nicht mit ausreichender Sicherheit
abgelehnt werden.
Begründung:
x/n > p0
spricht gegen die Hypothese
H0 .
Um aber
H0
mit ausreichender
Sicherheit ablehnen zu können, müssen wir prüfen, ob die Wahrscheinlichkeit für einen
Fehler 1. Art keiner als
X
α ist, d.h. ob die Wahrscheinlichkeit dafür, dass die Zufallsvariable
x oder Werte annimmt, die noch mehr gegen die Hypothese H0
den vorliegenden Wert
sprechen, kleiner als
α
ist:
n n X
X
n
p0 k ?
n k n−k
n
P (X ≥ x|H0 ) ≤ P (X ≥ x|p = p0 ) =
p q
= q0
≤ α.
k
k 0 0
q0
k=x
k=x
Die erste Ungleichung gilt, weil die Wahrscheinlichkeit für
kleiner ist als für
p = p0 .
Da
x
X ≥ x(> np0 )
für
p < p0
noch
nur ganzzahlige Werte annehmen kann, ergibt sich die
obige Ungleichung schlieÿlich aus:
q0n
n X
n
p0 k
k=x
k
q0
=
q0n
n X
n
p0 k
k=0
k
⇐⇒
q0
−q0n
k=0
x−1 X
n
p0 k
k=0
k
Wenn Fall 1 und Fall 2 nicht zutreen, also
p0 ≥ p1 .
Da aber
p0 ≤ p1
x−1 X
n
p0 k
q0
k
q0
?
1−α
.
q0n
≥
x/n ≥ p1
vorausgesetzt war, gilt
=
1−q0n
x/n ≤ p0
schlieÿlich p0 = p1 .
und
x−1 X
n
p0 k
k=0
k
q0
?
≤α
gilt, so folgt daraus
KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN
86
Fall 3:
x/n = p0 = p1
H0
Es kann weder die Hypothese
noch die Hypothese
H1
auf Grund der vorliegenden
Daten mit ausreichender Sicherheit abgelehnt werden.
Begründung:
pothese
H1 .
x/n = p0 = p1
spricht weder gegen die Hypothese
Eine Annahme von
H0
oder von
H1
H0
noch gegen die Hy-
auf Grund der vorliegenden Daten ist
mit ausreichender Sicherheit aber auch nicht gerechtfertigt; denn eine Annahme von z.B.
H0
bedeutet eine Ablehnung von
Ablehnung von
p > p0 ,
und dies ist rechnerisch gleichwertig mit einer
H1 .
Bemerkung: Die obige Summenbildung ist speziell bei dem in der Vorlesung und den
p1
Übungen stets behandelten Fall, dass
deutlich näher bei
0
als bei
1
ist, günstig. Trit
dies nicht zu, kann es besser sein, im Test die Ungleichung
x X
n
p1 k
k
k=0
q1
≤
β
q1n
durch die äquivalente Ungleichung
k
n
X
n
p1
1−β
≥
k
q1
q1n
k=x+1
oder die Ungleichung
x−1 X
n
p0 k
k
k=0
q0
≥
1−α
q0n
durch die äquivalente Ungleichung
n X
n
p0 k
k
k=x
q0
≤
α
q0n
zu ersetzen.
9.2.2 Ein einseitiger Test bei der hypergeometrischen Verteilung
X
sei eine hypergeometrisch verteilte Zufallsvariable mit den Parametern
festgelegt),
M
(unbekannt) und
N . Bei der Qualitätskontrolle wäre N
n
(wird noch
die Zahl der Stücke
M die Zahl der defekten Stücke in der Lieferung und n der Umfang einer
X ist also -wie auch bei der Binomialverteilung in 9.2.1- selbst schon mit
Stichprobe vom Umfang n verbunden.
in der Lieferung,
Stichprobe o.Z.
einer
M
H0 : 0 ≤ M ≤ M0 ,
Hypothesen über
:
H1 : M1 ≤ M ≤ N,
Fehler 1. Art: Entscheidung gegen
Fehler 2. Art: Entscheidung gegen
H0
H1
0 < M0 ≤ M1 < N.
(und damit für
(und damit für
M > M0 ),
M < M1 ),
obwohl
obwohl
H0
H1
richtig ist.
richtig ist.
Durchführung des Tests:
Schritt 1: Lege die Höchstgrenze
α
für die Wahrscheinlichkeit
für einen Fehler 1. Art
9.2. EINSEITIGE TESTS
β
und die Höchstgrenze
Schritt 2: Lege
n
87
für die Wahrscheinlichkeit für einen Fehler 2. Art fest.
fest.
Schritt 3: Werte eine Stichprobe vom Umfang
n
aus, die eine Realisierung
x
von
X
liefert.
Fall 1:
x/n < M1 /N
Falls
x X
N
N − M1
M1
≤
β
n−k
n
k
k=0
H1
gilt, ist die Hypothese
die Hypothese
H1
mit ausreichender Sicherheit abzulehnen. Anderenfalls kann
auf Grund der vorliegenden Daten nicht mit ausreichender Sicherheit
abgelehnt werden.
Begründung:
x/n < M1 /N
spricht gegen die Hypothese
H1 .
Um aber
H1
mit ausreichen-
der Sicherheit ablehnen zu können, müssen wir prüfen, ob die Wahrscheinlichkeit für einen
β
Fehler 2. Art kleiner als
ble
X
H1
sprechen, kleiner als
ist, d.h. ob die Wahrscheinlichkeit dafür, dass die Zufallsvaria-
den vorliegenden Wert
β
x oder Werte annimmt, die noch mehr gegen die Hypothese
ist:
P (X ≤ x|H1 ) ≤ P (X ≤ x|M = M1 ) =
x
X
M1
k
k=0
N −M1
n−k
N
n
x N − M1 ?
1 X M1
≤ β.
= N
k
n−k
n
k=0
Die erste Ungleichung gilt, weil die Wahrscheinlichkeit für
Fall 2:
X ≤ x(< nM1 /N ) für M > M1
M = M1 .
noch kleiner ist als für
x/n > M0 /N
Falls
x−1 X
M1
N − M1
N
≥
(1 − α)
k
n−k
n
k=0
gilt, ist die Hypothese
die Hypothese
H0
H0
mit ausreichender Sicherheit abzulehnen. Anderenfalls kann
auf Grund der vorliegenden Daten nicht mit ausreichender Sicherheit
abgelehnt werden.
Begründung:
x/n > M0 /N
spricht gegen die Hypothese
H0 .
Um aber
H0
mit ausreichen-
der Sicherheit ablehnen zu können, müssen wir prüfen, ob die die Wahrscheinlichkeit für
α ist, d.h. ob die Wahrscheinlichkeit dafür, dass die ZuX den vorliegenden Wert x oder Werte annimmt, die noch mehr gegen die
H0 sprechen, kleiner als α ist:
M1 N −M1
n
X
?
k
n−k
P (X ≥ x|H0 ) ≤ P (X ≥ x|M = M0 ) =
≤
α.
N
einen Fehler 1. Art kleiner als
fallsvariable
Hypothese
n
k=x
Die erste Ungleichung gilt, weil die Wahrscheinlichkeit für
noch kleiner ist als für
X ≥ x(> nM0 /N ) für M < M0
M = M0 . Da x nur ganzzahlige Werte annehmen kann, ergibt sich
die obige Ungleichung schlieÿlich aus:
n
X
k=x
M1
k
N −M1
n−k
N
n
=
n
X
k=0
M1
k
N −M1
n−k
N
n
−
x−1
X
k=0
M1
k
N −M1
n−k
N
n
=1−
x−1
X
k=0
M1
k
N −M1
n−k
N
n
?
≤α
KAPITEL 9. TESTEN STATISTISCHER HYPOTHESEN
88
x−1 X
N − M1 ? N
M1
⇐⇒
≥
(1 − α).
n−k
n
k
k=0
Fall 3:
x/n = M0 /N = M1 /N
Es kann weder die Hypothese
H0
noch die Hypothese
H1
auf Grund der vorliegenden
Daten mit ausreichender Sicherheit abgelehnt werden.
Begründung:
x/n = M0 /N = M1 /N spricht weder gegen die Hypothese H0 noch gegen
H1 . Eine Annahme von H0 oder von H1 auf Grund der vorliegenden Daten
die Hypothese
ist mit ausreichender Sicherheit aber auch nicht gerechtfertigt; denn eine eine Annahme
von z.B.
H0
bedeutet eine Ablehnung von
mit einer Ablehnung von
M > M0 ,
und dies ist rechnerisch gleichwertig
H1 .
Bemerkung: Die obige Summenbildung ist speziell bei dem in der Vorlesung und Übungen stets behandelten Fall, daÿ
M1
deutlich näher bei
0
als bei
N
nicht zu, kann es besser sein, im Test die Ungleichung
x X
M1
N − M1
N
≤
β
k
n−k
n
k=0
durch die äquivalente Ungleichung
n
X
M1
N − M1
N
≥
(1 − β)
k
n−k
n
k=x+1
oder die Ungleichung
x−1 X
M1
N − M1
N
≥
(1 − α)
k
n−k
n
k=0
durch die äquivalente Ungleichung
n X
M1
N − M1
N
≤
α
k
n−k
n
k=x
zu ersetzen.
ist, günstig. Trit dies
Herunterladen