1 3. Vorlesung Statistik II Letzte Änderung: 12. September 2001, 25

1
3. Vorlesung Statistik II
Letzte Änderung: 12. September 2001, 25 Seiten
Kapitel 13 Zentraler Grenzwertsatz und zugehörige Ergebnisse
Stichprobenverteilungen
Wird aus einer Grundgesamtheit eine Stichprobe erhoben, um Aufschluß über ein
bestimmtes Merkmal zu erhalten, dann ist in der Regel über die Verteilung dieses
Merkmals, bzw. über die Parameter dieser Verteilung wenig oder nichts bekannt.
Aufgabe der induktiven Statistik ist es nun, aufgrund der Stichprobenergebnisse Schlüsse
über Verteilung und/oder Verteilungsparameter zu ziehen.
Diese Schlüsse werden unmittelbar beeinflußt durch die Auswahl der Stichproben. Da wir
ausschließlich Zufallsstichproben betrachten, ist immer zu beachten, daß der Zufall über
die Auswahl der beobachteten statistischen Einheiten das Ergebnis in die eine oder andere
Richtung verschieben kann.
Deshalb beschäftigen wir uns in diesem Kapitel mit Funktionen, die von den Stichproben,
die ausgewählt worden sind, abhängen.
Besteht eine Stichprobe aus n beobachteten statistischen Elementen, dann sagt man, sie
habe die Länge oder den Umfang n. Die Auswahl der jeweiligen statistischen Einheit
erfolgt zufällig, folglich kann eine Stichprobe der Länge n durch n Zufallsvariablen
(X1, X2, ..., X n) beschrieben werden, deren Realisierung (x1, x 2, ..., xn) wir wie bisher mit
kleinen Buchstaben bezeichnen. Eine solche Realisierung wird auch als Stichproben-ergebnis bezeichnet.
Unbeschadet der Tatsache, daß über die Verteilung des beobachteten Merkmals nichts
oder nur wenig bekannt ist, soll im Regelfall davon ausgegangen werden, daß alle
Stichprobenvariablen der gleichen Verteilung unterliegen. Sie sind identisch verteilt. Eine
Zufallsvariable T, die eine Funktion der n-dimensionalen Stichprobenvariablen (X1, X 2, ...,
Xn) ist, also T = f(X1, X2, ..., Xn), heißt eine Stichprobenfunktion oder eine Statistik.
Mit Hilfe solcher Stichprobenfunktionen soll im folgenden versucht werden, Aussagen
über Verteilungen und Verteilungsparameter eines bestimmten Merkmals auf der
zugehörigen Grundgesamtheit zu gewinnen.
Deswegen stellen wir einige der häufigsten gebrauchten Stichprobenfunktionen
zusammen. Als erstes benötigen wir einige Aussagen über Summen von Zufallsvariablen.
Der Einfachheit halber betrachten wir vorerst nur den Fall n=2, d.h. wir beschäftigen uns
mit der Zufallsvariablen S = X + Y, wobei X und Y zwei beliebige, aber identisch verteilte
Zufallsvariablen seien. Im Vergleich zur Notation oben gilt jetzt X:=X 1,Y:=X2.
2
Summen von Zufallsvariablen
Satz 1 (Erwartungswert und Varianz der Summe zweier Zufallsvariablen)
Sei S:= X + Y, wobei X und Y zwei beliebig verteilte Zufallsvariablen sind, dann gilt:
E(S) = E(X) + E(Y)
und
var(S) = var(X) + var(Y) + 2Cov(X,Y).
Beweis: (nur für den stetigen Fall)
E(X+Y)
∞ ∞
∞ ∞
∞ ∞
=
∫
∫
x
f(x,y)
dydx
+
∫
= ∫ −∞ ∫ −∞(x+y) f(x,y) dxdy
−∞ −∞
−∞ ∫ −∞yf(x,y)
∞
∞
= ∫−∞x⋅f(x)dx + ∫−∞y⋅g(y)dy = E(X) + E(Y).
dxdy
Die Varianz der Summe zweier Zufallsvariablen wurde bereits im Beweis des Satzes (s.o.
Kap.12) bestimmt.
Bemerkung 1 (Unabhängigkeit der Summanden)
Wenn X und Y unabhängig sind, dann ist Cov(X,Y) = 0, und folglich ist in diesem Fall
var(X+Y) = var(X) + var(Y).
Oft wird auch vorausgesetzt, daß X und Y identisch verteilt sind, dann gilt
var(X+Y) = 2var(X) = 2var(Y).
Bemerkung 2 (Differenzen von Zufallsvariablen)
Sei S := X - Y, wobei X und Y zwei beliebig verteilte Zufallsvariablen sind, dann gilt, wie
sich in gleicher Weise für die Summe beweisen läßt,:
E(S) = E(X) - E(Y)
und
var(S) = var(X) + var(Y) - 2Cov(X,Y).
Insbesondere ist zu sehen, daß Differenzen nicht varianzreduzierend wirken müssen: bei
Unabhängigkeit addieren sich die Varianzen!
3
Aufgabe (Erwartungswertbildung in Summen)
Zeigen Sie, daß für drei beliebige Zufallsvariablen X,Y und Z gilt:
a) Cov(a + bX, c + dY) = bd Cov(X, Y) (a,b,c,d∈R)
b) Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z).
Lösung
Die Behauptungen folgen aus den Definitionen
a) Anwenden der Definition Cov(Z1 , Z2 ) = E(Z1 . Z2 ) - E(Z1 ) . E(Z2 ) liefert:
Cov(a + bX, c + dY) = E((a + bX) (c + dY)) - E(a + bX) E(c + dY)
= ac + ad.E(Y) + bc.E(X) + bd.E(XY)
- ac - ad.E(Y) - bc.E(X) - bd.E(X)E(Y) = bd.E(XY) - bd.E(X)E(Y) = bd Cov(X,
Y)
b) Cov(X + Y, Z) = E [(X + Y - E(X + Y)) (Z - E(Z))]
= E [(X - E(X) + Y - E(Y)) (Z - E(Z))]
= E [((X - E(X)) + (Y - E(Y))) (Z - E(Z))]
= E [(X - E(X)) (Z - E(Z))] + E [(Y - E(Y)) (Z - E(Z))]
= Cov(X, Z) + Cov(Y, Z)
Aufgabe (Erwartungswertbildung in Summen)
Es seien X und Y zwei Zufallsvariable mit Y = 3 + 2X und E(X) = 1.5 und var(X) = 4.
Berechnen Sie: 1. E(X + Y); 2. E(X - Y); 3. var(X + Y); 4. var(X - Y); 5. Cov(X, Y)
Lösung
E(X) = 1.5 gegeben; Y ist eine Transformation von X
E(Y) = E(3 + 2X) = 3 + 2E(X) = 6, var(X) = 4 gegeben
var(Y) = var(3 + 2X) = 4var(X) = 16.
E(X + Y) = E(X) + E(Y) = 1.5 + 6 = 7.5
E(X - Y) = E(X) - E(Y) = 1.5 - 6 = - 4.5
var(X + Y) = var(X + 3 + 2X) = var(3X) = 9var(X) = 36
var(X - Y) = var(X - 3 - 2X) = var(-X) = (-1) 2 var(X) = 4
Cov(X, Y) = Cov(X, 3 + 2X) = 2 Cov(X, X) = 2 var(X) = 8
4
Bemerkung 3 (Summen beliebig vieler Zufallsvariablen)
Die Ergebnisse lassen sich unmittelbar auf n ≥ 2 Zufallsvariablen X1, X2, ..., Xn erweitern:
n
E(
n
n
n
∑ X k) = ∑ E(Xk ) und var( ∑ X k) = ∑ var(X k) + 2 ∑ Cov(Xi, Xk) .
k=1
k=1
k=1
i≠k
k=1
Die folgenden Beispiele gehen weit über die Anwendung des Satzes 1 hinaus, da
außerdem in den Beispielen Aussagen über den Verteilungstyp der Summe getroffen
werden. Für die folgenden Überlegungen ist dies oft hilfreich zu wissen.
Beispiel 1 (Binomialverteilte Zufallsvariable)
Seien X und Y zwei unabhängige, binomialverteilte Zufallsvariable mit gemeinsamem
Parameter p. Dann ist X+Y ebenfalls binomialverteilt:
X ~ B(n1, p) und Y ~ B(n2, p) ⇒ (X+Y) ~ B(n1+n2, p).
Die Verallgemeinerung auf beliebig viele Binomial-Zufallsvariablen ist offensichtlich.
Beispiel 1’ (Binomialverteilte Zufallsvariable)
Die Summe zweier binomial verteilter Zufallsgrößen X~B(1,p) und Y~B(1,p)
X↓
Y→
Y=0
Y=1
P[X=i]
P[Y=k]
1-p
p
X=0
1-p
0
1
X=1
p
1
2
Die zugehörigen Wahrscheinlichkeiten für die Summen S~B(2,p)
(1-p)2
(1-p)p
p(1-p)
p2
Nach Sammlung der einzelnen Terme erhält man die Zähldichte für die Summe S:
P[S=0] = (1-p)2
P[S=1] = 2p(1-p)
P[S=2] = p2
Die Binomialverteilung liefert identisch:
n k
p (1-p)n-k = P[S=k]; k = 0, 1, 2, ..., n; für n=2
k
P[S=0] = (1-p)2
P[S=1] = 2p(1-p)
P[S=2] = p2
Beispiel 1’’ (Binomialverteilte Zufallsvariable)
Die Summe zweier binomial verteilter Zufallsgrößen X~B(2,p) und Y~B(3,p)
5
X↓
Y→
Y=0
Y=1
Y=2
Y=3
P[X=i]
P[Y=k]
(1-p)3
3p(1-p)2
3p2(1-p)
p3
X=0
(1-p)2
0
1
2
3
X=1
2p(1-p)
1
2
3
4
X=2
p2
2
3
4
5
Die zugehörigen Wahrscheinlichkeiten für die Summen S~B(5,p)
(1-p)5
3p(1-p)4
3p2(1-p)3
p3(1-p)2
2p(1-p)4
6p2(1-p)3
6p3(1-p)2
2p4(1-p)
p2(1-p)3
3p3(1-p)2
3p4(1-p)
p5
Nach Sammlung der einzelnen Terme erhält man die Zähldichte für die Summe S und
identisch für die unmittelbare Auswertung der Binomialverteilung
n k
p (1-p)n-k = P[S=k]; k = 0, 1, 2, ..., n; für n=5
k
P[S=0] = (1-p)5
P[S=1] = 5p(1-p)4
P[S=2] = 10p2(1-p)3
P[S=3] = 10p3(1-p)2
P[S=4] = 5p4(1-p)
P[S=5] = p5
6
Beispiel 2 (Poissonverteilte Zufallsvariable)
Seien X und Y zwei unabhängige, poissonverteilte Zufallsvariable mit Parametern λ 1 und
λ 2. Dann ist X+Y ebenfalls poissonverteilt mit Parameter
λ:= λ 1 + λ 2.
Die Verallgemeinerung auf beliebig viele Poisson-Zufallsvariable ist offensichtlich.
Beispiel 2’ Eine Aufgabe (Addition von Poisson-Variablen)
Für eine größere Firma sei die durchschnittliche Unfallrate zwei Unfälle je Woche.
Bestimmen Sie die Wahrscheinlichkeit, daß es höchstens zwei Unfälle gibt
a) während einer Woche
b) während zweier Wochen
c) während jeder Woche von zwei Wochen.
Lösung:
a) Für die ursprüngliche Formulierung handelt es sich um Poisson-Zähldichte mit
λ = 2,
d.h. P(X=k) =
2 ke –2
, damit folgt
k!
1
2
22
P(X ≤ 2) = p0 + p1 + p2 =
+ +
) = 5 e-2
0! 1!
2!
b) Für zwei Wochen geht es um eine Summe Y von zwei unabhängigen identisch
verteilten Poisson-Variablen X 1 und X2 und Y:= X1 + X2 mit E(Y) = λ = 2+2 = 4,
e-2 (
P(Y=k) =
4 ke –2
, damit folgt
k!
1
4
42
+ +
) = 13 e-4
0! k!
k!
c) Für die Betrachtung einer einzelnen Woche gilt die ursprüngliche Formulierung
P(Y ≤ 2) = p0 + p1 + p2 = e-4 (
2 ke –2
einer Poisson-Variablen mit E(X) = λ = 2, P(X=k) =
. Wenn zwei beliebige
k!
Wochen, die voneinander unabhängig sind (Annahme der Unabhängigkeit der
Wochen) zu betrachten sind, ist die gewünschte Wahrscheinlichkeit dann ein
Produkt aus Teil a)
[P(X ≤ 2)]2 = 25 e-4 bei 2 Wochen bzw. [P(X ≤ 2)]n = 5ne-2n bei n Wochen.
7
Beispiel 2’’ Eine Aufgabe (Addition von Poisson-Variablen)
Die Besucherzahl eines Postamts während eines Schaltertages sei durch eine Poissonverteilte Zufallsvariable mit Parameter λ beschrieben. Die Besucher sind jeweils mit
Wahrscheinlichkeit p ein Mann und mit Wahrscheinlichkeit 1-p eine Frau.
Zeigen Sie, daß die Anzahl der Männer bzw. die Anzahl der Frauen durch zwei
unabhängige Poisson-verteilte Zufallsvariablen mit Parameter λp bzw. λ(1-p)
beschrieben werden können.
Lösung
Seien X bzw. Y die Anzahl der Männer bzw. Frauen, die dieses Postamt während eines
Tages besuchen. Zu zeigen ist:
i
j
(λp) -λ(1 -p) (λ (1- p))
⋅e
⋅
P(X = i, Y = j) = P( X = i).P(Y = j) = e– λp
i!
j!
Nach dem Satz von der totalen Wahrscheinlichkeit gilt:
P(X = i, Y = j) = P(X = i, Y = j  X + Y = i + j) P(X + Y = i + j)
+ P(X = i, Y = j  X + Y ≠ i + j) P(X + Y ≠ i + j)
Da der zweite Summand trivialerweise gleich 0 ist und X + Y die Gesamtanzahl der
Postkunden angibt, erhält man
i+j
λ
P(X+Y = i+ j) = e
(i + j)!
und obendrein beträgt die Wahrscheinlichkeit, daß genau i von i + j Kunden männ-lich
i +j i
sind,
p (1 -p) j .
i
Offenbar gilt dann auch
i+j
(i+ j)!
i+j i
λ λ
j
P(X = i, Y = j) =
p (1-p) e
= e-λ(λp)i(λ(1 - p))j
=
i
(i + j)!
(i+ j)!i!j!
-λ
(λp)i
λp
=e
i!
Folglich gilt
P(X = i) = e
da
(λ(1-p)) j -λ(1-p)
.e
j!
- λp(λp)
i!
∑ e-λ(1-p)
j
i
∑e
- λ(1
j
j
- p) (λ(i - p))
(λp)i
= e-λp
,
j!
i!
(λ(1-p))j
=1
j!
und entsprechend
P(X = j) = e
- λ(1
- p) (λ(i - p))
j!
j
8
Beispiel 3 (Gleichverteilte Zufallsvariable mit Illustration durch den Würfel)
Seien X und Y zwei unabhängige, diskret gleichverteilte Zufallsvariable. Dann ist X+Y
nicht gleichverteilt.
Zwei faire Würfel werden unabhängig voneinander geworfen und ihre Augenzahlen
addiert. Die Ergebnisse sind in der folgenden Matrix dargestellt:
Würfel 1
Würfel 2
1
2
3
4
5
6
1
2
3
4
5
6
7
2
3
4
5
6
7
8
3
4
5
6
7
8
9
4
5
6
7
8
9
10
5
6
7
8
9
10
11
6
7
8
9
10
11
12
Die Zähldichte der Zufallsvariablen Z, die Summe der Augenzahlen, ist:
P[Z=2]= 1/36 = P[Z=12]
P[Z=3]= 2/36 = P[Z=11]
P[Z=4]= 3/36 = P[Z=10]
P[Z=5]= 4/36 = P[Z= 9]
P[Z=6]= 5/36 = P[Z= 8]
P[Z=7]= 6/36
Damit ist Z eine um z=7 symmetrische, unimodal verteilte Zufallsgröße, die offenbar nicht
gleichverteilt ist.
Die Ergebnisse über Mittelwert und Varianz von Z, die keine Aussage über den
Verteilungstyp der Summe Z = X + Y treffen (Satz 1), bleiben aber selbstverständlich
gültig:
Ist X die Augenzahl des 1. Würfels und Y die Augenzahl des 2. Würfels, dann gilt
7
35
E(X) = E(Y) = und var(X) = var(Y) =
2
12
und damit aus Satz 1 in Verbindung mit Bemerkung 2:
35
E(Z) = 7 und var(Z) = .
6
Hierzu siehe auch die Würfelmodelle in Würfel.
9
Beispiel 4 (Normalverteilte Zufallsvariable)
Seien X und Y zwei unabhängige, normalverteilte Zufallsvariable:
X ~ N (µ1, σ 21) und Y ~ N (µ2, σ 22).
Dann ist X+Y ebenfalls normalverteilt:
(X+Y) ~ N (µ1+µ2, σ 21+σ 22).
Beispiel 5 (Identisch Gamma-verteilte Zufallsvariable)
Seien X und Y zwei unabhängige, gamma-verteilte Zufallsvariable:
X ~ G(α 1,β), Y ~ G(α 2,β).
Dann ist X+Y ebenfalls gamma-verteilt:
(X+Y) ~ G(α 1+α 2,β).
Beispiel 6 (Identisch exponentialverteilte Zufallsvariable)
Seien X und Y zwei unabhängige und identisch exponentialverteilte Zufallsvariable:
X ~ P(1,λ) und Y ~ P(1,λ).
Dann ist X+Y Erlang-verteilt:
(X+Y) ~ P(2,λ) (= G(2,λ)).
Die Verallgemeinerung lautet: Seien Xi (i=1,2,...n) unabhängige und identisch
exponentialverteilte Zufallsvariable:
Xi (i=1,2,...n) ~ G(1,λ).
Dann ist:
2 X
∑Xi ~ G(n,λ) und Σλ i ~ χ2(2n).
Der Beweis für zwei Größen X 1 + X2 sei skizziert, um die Herleitung und Bedeutung zu
verdeutlichen. Die Dichte f für die Summe ist folgender Ausdruck, wobei f1 und f2 die
Dichte für X1 und X2 sind:
f(x) =
x
f (x– y) ⋅ f2(y)dy
0 1
D.h. f1(z) = f2(z) = λe-λz, es folgt dann
f(x) = λ 2
x – λ(x –y) – λy
x –λx
e
⋅e
dy = λ 2
e dy = λ 2 . x . e-λx
0
0
Das ist jedoch die Dichte für die gammaverteilte Größe G(2, λ), m.a.W. wenn z.B. Xi die
Dauer beschreibt, mit der ein Gespräch eine Leitung belegt, dann ist die Summe die Zufallsgröße für die Belegungsdauer durch n Gespräche.
Die Bezeichnung “Erlangverteilung” ist ebenfalls allgemein üblich.
Die folgenden zwei Beispiele sind keine Summen von Zufallsvariablen (bzw. nur im
Spezialfall für ganzzahliges c bzw. 2/β), passen aber, wie gleich deutlich sein wird, gut in
diese Übersicht.
10
Beispiel 7 (Lineare Transformationen von gamma-verteilten Zufallsvariablen)
Sei X eine gamma-verteilte Zufallsvariable und
Y:=cX,
c>0,
X ~ G(α,β).
Dann gilt, daß Y ebenfalls gamma-verteilt ist,
Y ~ G(α,cβ).
Beispiel 8 (χ 2-verteilte Zufallsgröße)
Sei X eine gamma-verteilte Zufallsvariable und
2X
Y :=
,
β>0,
X ~ G(α,β).
β
Dann gilt, daß Y ebenfalls gamma-verteilt ist, und zwar χ 2-verteilt (wie dieser Sonderfall
heißt)
Y ~ G(α,2) ⇔ Y ~ χ 2(2α).
Es gilt weiter:
Beispiel 9 (Identisch Cauchy-verteilte Zufallsvariable)
Seien X und Y zwei unabhängige und identisch Cauchy-verteilte Zufallsvariable:
X ~ C(k,m) und Y ~ C(k,m).
X+Y
X+Y
Dann ist
Cauchy-verteilt:
~ C(k,m).
2
2
Die Verallgemeinerung auf mehr als zwei Variable ist jeweils wie in den vorhergehenden
Beispielen durchführbar.
11
2 Gewichtete Summen von Zufallsvariablen
Das wohl empirisch wichtigste Beispiel einer Summenbildung ist das Stichproben-mittel,
die übliche Mittelwertbildung, die in ihrer Bedeutung kaum überschätzt werden kann.
Beispiel 10 (Arithmetischer Mittelwert)
Seien (X1,X2, ..., Xn) n Beobachtungen einer identisch, aber beliebig verteilten Zufallsvariablen mit Erwartungswert µ und Varianz σ2, d.h. eine beliebige Stichprobe der Länge
n. Alleinige Voraussetzung sei, daß jede Beobachtung mit der gleichen Wahrscheinlichkeit
in die Stichprobe gelangt. Dies charakterisiert eine Zufallsstichprobe.
Dann gilt für den Mittelwert X der Stichprobe:
n
E(X) =
1
1
E( ∑ X i ) =
n
n
i=1
n
∑ E(X i )
=µ .
i=1
Die Varianz von X ergibt sich gemäß den üblichen Regeln zur Varianzbestimmung (s.o.):
1
var(X) = var(
n
n
∑ X i) =
i=1
n
2
σ ,
var (X i) =
∑
2
n
1
n i=1
da die Stichprobenbeobachtungen unabhängig sind.
Die Standardisierung der Zufallsvariablen X liefert dann (s.o. Kapitel 11 sowie den Eintrag
E(X)-Erwartungswert-Modelle):
X-µ
X-µ
var (
n ) = 1.
E(
n) = 0
und
σ
σ
Definition (Gauß-Statistik)
Die Stichprobenfunktion
X-µ
T :=
n
σ
heißt Gauß-Statistik.
Eine weitere häufig benötigte Stichprobenfunktion, die keine einfache Summe im Sinne
des Satzes 1 wie die vorhergehenden Beispiele ist, ist die mittlere quadratische
Abweichung bezüglich des wahren (im Regelfall unbekannten) Erwartungswerts µ. In
ihrer Bedeutung als Stichprobenfunktion gehört sie aber ebenfalls in diese Reihe.
12
Beispiel 11 (Mittlere theoretische quadratische Abweichung)
Mit den obigen Voraussetzungen heißt die folgende Statistik mittlere quadratische
Abweichung (oder im deutsch-englischen Jargon MSE-Statistik = mean square error):
1
T=
n
n
n
n
1
∑ (Xi - µ) 2 mit E(T) = n
1
∑ E(X i - µ)2= n
∑ var(X i) = var(X).
i=1
i=1
i=1
Siehe hierzu auch auf der Homepage der Professur das Stichwort “MSE”.
Beispiel 12 (Mittlere empirische quadratische Abweichung S2)
Mit der Ersetzung des zumeist unbekannten Erwartungswertes µ durch das Stichprobenmittel X erhält man die aus Kapitel 3 (Statistik I) bekannte mittlere quadratische
n
n
1
1
S2 = ∑ (Xi - X) 2 =
n
n
Abweichung:
i=1
∑ ((Xi - µ) – (X– µ) )2
i=1
Zur Auswertung des Erwartungwertes E(S 2) sind einige Zwischenschritte hilfreich:
1
n
n
n
1
(Xi -X ) 2 = ( ∑ (Xi - µ)2) -(X - µ) 2 denn:
n
∑
i=1
i=1
1
n
n
∑ (Xi -
µ) 2 -
(X - µ)2
1
=
n
i=1
1
=
n
n
∑
Xi2
1
- 2µ
n
i=1
n
∑
i=1
2
1
Xi - X =
n
2
n
n
1
∑ X i + n n µ 2 - X2 + 2µX - µ 2
i=1
2
∑ (X i - X) .
i=1
Folglich ist:
n
1
σ 2 n-1 2
2 - (X - µ)2)
2
2
2
2
2
E(
(X
µ)
E(S ) =
= σ - E(X - µ) = σ - var(X) = σ =
σ
n∑ i
n
n
i=1
n–1
vor σ2, im folgenden als Verzerrungsfaktor der geschätzten Varianz
n
bezeichnet (– eine Begründung hierzu wird später im Kapitel 15 geliefert –), wird durch die
folgende Modifikation beseitigt (siehe hierzu das Stichwort “BIAS”, E(X)-Bias-Modelle):
Beispiel 13 (Modifizierte empirische Varianz S*2)
Mit den Voraussetzungen des Beispiels 12 und Modifikation des Vorfaktors erhält man die
Stichprobenvarianz S*2:
Die Größe
Mit
S*2
1
=
n-1
n
∑ (Xi -X ) 2 gilt offensichtlich: E(S*2) = σ2.
i=1
13
Die Chebyshevsche Ungleichung
Sind von einer Zufallsvariablen X nur Erwartungswert und Varianz bekannt, nicht jedoch
die Verteilung von X, wie in den meisten der Beispiele angenommen, dann läßt sich über
die Wahrscheinlichkeit von Realisierungen von X in einer gewissen Umgebung von E(X)
die folgende Aussage der Chebyshevschen Ungleichung machen. Sie ist in ihrer
Bedeutung ähnlich der Rolle des Stichprobenmittels kaum zu überschätzen.
Satz 2 (Chebyshevsche Ungleichung)
Sei X eine beliebig verteilte Zufallsvariable mit Mittelwert E(X)= µ und Varianz
var(X) = σ2 und k eine beliebige positive reelle Zahl. Dann gilt:
P( X – E(X) > k) ≤
var(X)
k2
⇔ P( |X-µ| > k ) ≤
σ2
k2
Damit äquivalent ist
P( X – E(X) ≤ k) ≥ 1 –
var(X)
k2
Zum Beweis seien zwei Alternativen vorgeführt, einmal der direkte Beweis, zum anderen
die Ableitung aus der Markovschen Ungleichung (Satz 11.1.8):
Beweis: 1. (aus den Definitionen):
Fall 1: X ist eine diskrete Zufallsvariable:
Aus der Definition der Varianz folgt:
σ2 = var(X) = ∑ p j (x j - E(X)) = ∑ p j (x j - µ)
2
2
2
2
j
≥
∑
j:|x j- µ|>k
j
p j (x j - µ) ≥
2
∑
j:|x j- µ|>k
pj k = k
∑
j:|x j- µ|>k
pj
= k2 P(|X - µ| >k) .
Fall 2: X ist eine stetige Zufallsvariable:
Aus der Definition folgt eine entprechende Abschätzung einer Integrationsfolge:
b
σ2 = var(X) =
b
2
f(x)(x - E(X)) dx =
a
≥
2
f(x)(x-µ) dx
a
2
f(x)(x-µ) dx
x:|x-µ|>k
2
=k
f(x)dx
x:|x-µ|>k
≥
2
x:|x-µ|>k
2
f(x)k dx
= k P[|x-µ|> k].
14
2. (Spezialisierung der Markovschen Ungleichung):
Für die Zufallsvariable Y:= (X-µ)2 ≥ 0 gilt die Markovsche Ungleichung. Sei dazu die
Konstante c = k 2 gewählt. Mit dem Ergebnis
E(Y) = E[(X-µ)2] = σ2 gilt dann: P[(X-µ)2 ≥ k2 ] ≤
σ2
k2
.
Da weiter gilt:
(X- µ)2 ≥ k2 ⇔ |X- µ| > k,
ist alles bewiesen:
P[|X- µ| > k] ≤
σ2
k2
.
Angesichts der schwachen Vorausetzungen - nur Existenz und Kenntnis von Erwartungswert und Varianz der Zufallsvariablen X - ist es nicht verwunderlich, daß die
Chebyshevsche Ungleichung (andere Schreibweise: Tschebischeffsche Ungleichung) im
Regelfall sehr schwache Ergebnisse zeitigt:
(siehe hier auch das Stichwort “CHEBYSHEV”)
15
Beispiel 14 (zur Vorteilhaftigkeit der Kenntnis der Zähldichte,
das Beispiel einer Binomialverteilung)
1
1 3 3 1
Sei X eine B(3, )-verteilte Zufallsvariable, d.h.: (p0, p1, p2, p3) = ( , , , ) ,
2
8 8 8 8
3
3
E(X) = np = , var(X) = np(1-p) = ,
2
4
und seien einige Abschätzungen vorgenommen.
Sei für die Chebyshevsche Abschätzung k= 3/2 gewählt, dann gilt:
3
3
3
σ2 4 3 1
P[|X - | > ] ≤
= = = .
2
2
k2 9 9 3
4
Tatsächlich ist aber
3
3
P[|X - |> ]= 0.
2
2
Für k = 1 folgt aus der Chebyshevschen Abschätzung:
2
3
σ
3
P[|X - |>1] ≤
= ,
2
1 4
während für die tatsächliche Abweichung gilt:
3
1
P[|X - |>1] ≤ p 0 + p 3 = .
2
4
Die mit k (= τ in der Graphik) wachsende Einschluss-Wahrscheinlichkeit wird durch
folgende Abbildung gezeigt (rot = ‘wahr’ bzw. grau bzw. obere Linie; blau = ‘Chebyshev’
bzw. schwarz bzw. untere Linie):
16
Beispiel 15 (zur Vorteilhaftigkeit der Kenntnis der Zähldichte, das Beispiel einer
beliebigen Zähldichte)
Die zufällige Variable X nehme die Werte -10, 0, 10 mit den Wahrscheinlichkeiten
1 3 1
, ,
an.
8 4 8
a) Geben Sie mit Hilfe der Chebyshev-Ungleichung eine Schranke für P(|X|≥7) an.
b) Bestimmen Sie P(|X|≥7) exakt.
Lösung
a) E(X) = 0 aus Symmetriegründen, var(X) = (-10) 2 . 0.125 + (+10)2 . 0.125 = 200/8 = 25,
damit folgt aus der Chebyshev-Ungleichung: P(|X|≥7) ≤ 25/49 ≈ 0.5
2 1
b) P(|X|≥7) = P(X = -10) + P(X = 10) = = = 0.25
8 4
Die genaue Bestimmung des Intervalls mit Kenntnis der Verteilung ist wesentlich
besser (enger), nämlich 0.25 gegenüber 0.50.
Beispiel 16 (Gleichverteilung)
Sei X ~ U(a,b) = U(0,1); dann gilt:
2
a+b 1
(b-a)
1
E(X) =
= , var(X) =
=
2
2
12 .
12
1
Sei für die Chebyshevsche Abschätzung k= gewählt,
4
dann folgt eine ganz wertlose obere Schranke P:
1
1
4
1 16
1
P:= P(|X - | > ) ≤
⇔ P(|X - 0.5| ≤ 0.25) ≥ 1 ⋅
≥d.h. P ≥ 0
2
4
3
12 1
3
Für k = 1/ 12 ≈ 0.28868 folgt genau P = 0.
Für k = 1 folgt aus der Chebyshevschen Abschätzung:
2
1
1
σ
1
P[|X - |>1] ≤
=
, während tatsächlich P[|X - |>1]= 0 gilt.
2
2
1 12
Die mit k (= τ in der Graphik) wachsende Einschluss-Wahrscheinlichkeit wird durch
folgende Abbildung gezeigt (rot = ‘wahr’ bzw. grau bzw. obere Linie; blau = ‘Chebyshev’
bzw. schwarz bzw. untere Linie):
17
M.a.W. ob die Ungleichung sinnvoll ist, hängt auch von der Gestalt der Zähldichte bzw.
Dichte ab; besonders gut ist die Anwendung für symmetrische, unimodale Zufallsgrößen,
wie folgendes Beispiel für die Normalverteilung zeigt:
Beispiel 17 (Die m . σ-Regel)
Eine verbreitete Anwendung ist die sog. m . σ-Regel für eine beliebige Verteilung mit E(X)
= 0, var(X) = σ2.
Sei für die Chebyshevsche Abschätzung k= mσ (m=1,2,3,...), dann gilt
1 .
σ2
P(|X| > mσ) ≤
=
m 2σ2
m2
Im Vergleich zur Normalverteilung N (0,σ2) erhält man die Abschätzungen:
Chebyshev:
Normalverteilung:
P( |X| > 1 ) ≤ 1 ⇔ P( |X| ≤ 1 ) ≥ 0 P( |X| > 1 ) = 0.3174 ⇔ P( |X| ≤ 1 ) ≥ 0.6826
P(
|X|
>
2
)
≤
1
4
⇔
1
9
⇔
P(
|X|
≤
2
)
≥
0.75
≤
3
)
≥
8/9
P( |X| > 2 ) = 0.0456 ⇔ P( |X| ≤ 2 ) ≥ 0.9544
P(
|X|
>
3
)
≤
P(
|X|
P( |X| > 3) = 0.0018 ⇔ P( |X| ≤ 3 ) ≥ 0.9982.
M.a.W. die Chebyshevsche Ungleichung sollte nur dann zu Rate gezogen werden, wenn
man nichts Besseres weiß oder einen schnellen, möglicherweise auch sehr mangelhaften
Überblick gewinnen will. Außerdem ist zu beachten, daß die Abschätzung nur für einen
um den Mittelwert symmetrisch gelegenen Realisierungsbereich gilt.
Die mit k (= τ in der Graphik) wachsende Einschluss-Wahrscheinlichkeit wird durch
folgende Abbildung gezeigt (rot = ‘wahr’ bzw. grau bzw. obere Linie; blau = ‘Chebyshev’
bzw. schwarz bzw. untere Linie:
Bemerkung 4 (Alternative Schreibweise der Chebyshevschen Ungleichung)
Die Chebyshevsche Ungleichung läßt sich auch umkehren:
P(|X-µ| ≤ k)> 1 -
σ2
k2
.
Diese Schreibweise ist in der Anwendung oft verlangt, nämlich daß die Abweichung vom
Mittel möglichst klein sein soll.
18
Beispiel 18 (Anwendung auf das Stichprobenmittel X)
Für das Stichprobenmittel X des Beispiels 11 gilt wegen
2
σ
E(X) = µ und var(X) =
n
offensichtlich P(|X-µ|>k) ≤
σ2
nk2
bzw. P(|X-µ|≤k) >1 -
σ2
nk2
.
Eine häufige Anwendung der Chebyshevschen Ungleichung ist die Bestimmung der
Stichprobenlänge bei bekannter Varianz der zugrundeliegenden Zufallsvariable X,
Vorgabe der Schranke k und Festlegung einer Wahrscheinlichkeit, mit der diese Schranke
k von den Realisierungen von X nicht überschritten werden soll. Diese Wahrscheinlichkeit
kann als Risikobereitschaft interpretiert werden hinsichtlich der "Fehler", die bei der
Stichprobenerhebung durch den Einfluß des Zufalls entstehen können.
Siehe hierzu auch Kapitel 16 "Die Theorie der Konfidenzbereiche" sowie das folgende
Beispiel bzw. das Stichwort “Demoskopie”.
Beispiel 19 (Differenz zweier Stichproben)
Seien X 1 und X 2 die bei zwei unabhängig voneinander erhobenen Stichproben der
Länge n realisierten Stichprobenmittel aus einer Grundgesamtheit, die so verteilt ist,
daß die entsprechende Zufallsvariable die Varianz σ2 hat. Bestimmen Sie n so, daß die
beiden Stichprobenmittel sich mit einer Wahrscheinlichkeit von höchstens 0.1 um mehr
als die Standardabweichung unterscheiden.
Lösung
2σ
Y:= X 1 - X 2 ⇒ E(Y) = E(X 1) - E(X 2) und var(Y) = var(X 1) + var( X 2) =
n
P(Y - E(Y) > σ) <
var(Y)
σ
2
=
2
2
1
2
1
≤
⇔ ≤
⇔ n ≥ 20
n 10
n 10
Aufgabe (Erwartungswerte von zweidimensionalen Zufallsvariablen)
Für die beiden Komponenten einer zweidimensionalen Zufallsvariablen (X, Y) gelte die
Beziehung Y = a + bX.
Zeigen Sie, daß gilt: Cov(X, Y) = bvar(X)
Lösung:
(i) Die Transformation wird eingesetzt
Cov(X, Y) = E[(X - E(X))(Y- E(Y)] = E[(X - E(X))(a + bX - a - bE(X))]
= E[(X - E(X))b(X - E(X))] = bE((X - E(X))2) = bvar(X)
(ii) Die Beziehung ist direkt zu zeigen:
Cov(X, Y) = E(X . Y) - E(X) . E(Y)
E(Y) = E(a + bX) = a + bE(X)
E(X . Y) = E(aX + bX2) = aE(X) + bE(X2)
Cov(X,Y) = aE(X) + b E(X2) - E(X)(a + b E(X)) = b (E(X2) - E(X)2) = b var(X)
19
Beispiel 20 (Bestimmung der Stichprobenlänge)
Sei X ein fairer Würfel, d.h. pi =1/6 (i=1, ..., 6). Wie lange muß man würfeln, damit das
Stichprobenmittel mit Wahrscheinlichkeit von mindestens 0.95 nicht mehr als um 1% vom
35
σ2 2
wahren Mittel abweicht (man beachte: wahres Mittel E(X) = µ= 3.5, var(X) =
, σ =
.
n
12
Mit der Chebyshevschen Ungleichung erhält man
35⋅1000 2
P[3.465 ≤ X ≤ 3.535] = P[|X - 3.5|≤ 0.035] > 1 ≥ 0.95.
12⋅n⋅352
1000000
Das Ergebnis ist n ≥
≈ 47620
21
Schließlich ist dies Ergebnis der Grundstein für die im Alltagsleben verwurzelte
Überzeugung über die Richtigkeit von Befragungen. Wenn man nur genügend viele
Wähler, potentielle Käufer usw. befragt, dann wird das erfragte Verhalten - so die
allgemeine Überzeugung - mit dem wahren Verhalten übereinstimmen. In der Praxis ist
das aber oft ein Fehlschluß, da die Modellvoraussetzungen nicht zuzutreffen brauchen.
Siehe hierzu das Stichwort “Würfel”.
Dieses Ergebnis scheint insofern unbefriedigend, als die Erhebung einer Stichprobe dieser
Größenordnung in der Praxis häufig kaum durchführbar bzw. zu teuer ist. Deshalb
werden im nächsten Abschnitt Methoden zusammengestellt, die es ermöglichen,
praktikablere Ergebnisse zu erhalten.
Grenzwertsätze
Nach Einführung von Summen von Zufallsvariablen und einiger im wesentlichen aus
(gewichteten) Summen von Zufallsvariablen gebildeten Stichprobenfunktionen wenden
wir uns jetzt Folgen von Zufallsvariablen zu. Auch dies ist ins Alltagsleben in den
Gesetzen der großen Zahlen fest eingegangen. Eine unmittelbare Anwendung solcher
Folgen liegt z.B. in der Prüfung, wieweit die Aussagekraft von Stichprobenergebnissen
von der Stichprobenlänge abhängt.
20
Satz 3 (Das schwache Gesetz der Großen Zahl)
Sei (X1,X2,...,Xn) eine Zufallsstichprobe aus der Grundgesamtheit der Zufallsvariablen X
mit E(X) = µ und var(X) = σ2, d.h. Xi (i=1,2,...,n) sind unabhängige, identisch verteilte
Zufallsvariable. Für das Stichprobenmittel
n
1
X = ∑ Xi gilt lim P[|X - µ|> k ]= 0 .
n
n →∞
i=1
Beweis:
Der Beweis ist die Anwendung der Chebyshevschen Ungleichung auf das Stichprobenmittel:
P( X - µ≥ k) <
σ2
nk 2
,
daraus folgt:
0 ≤ lim P ( X - µ≥ k) < lim
σ2
2
n →∞ nk
n →∞
=0
für alle konstanten Varianzen σ2 und für alle vorgegebenen Schranken k.
Ähnlich wie in der Chebyshevschen Ungleichung sind die Voraussetzungen sehr schwach,
insbesondere wird keine spezielle Verteilung der Xi angenommen. Sind die
Voraussetzungen hingegen stärker, dann kann das Ergebnis noch verschärft werden,
etwa im sog. klassischen Gesetz der großen Zahl:
Bemerkung 5 (Das klassische Gesetz der großen Zahl)
Sei (X1,X2,...Xn) eine Zufallsstichprobe aus der Grundgesamtheit einer BernoulliZufallsvariablen X mit:
E(X) = µ = p (0<p<1) und var(X) = σ2 = p(1-p),
d.h. Xi (i=1,2,...,n) sind unabhängige, identisch Bernoulli-verteilte Zufallsvariablen. Für das
Stichprobenmittel
1
X=
n
n
∑
i=1
p⋅(1–p)
= 0 für alle 0<p<1
k⋅n
→∞
Xi gilt: lim P(|X - p|> k)= lim
n→∞
n
für jedes konstante p und für alle vorgegebenen Schranken k.
Es bedeutet, daß bei Bernoulli-verteilten Zufallsvariablen das Stichprobenmittel sich mit
wachsender Stichprobenlänge der (“wahren”) Wahrscheinlichkeit p nähert.
Man beachte, daß das Ergebnis nicht davon abhängt, daß p=1/2 ist; m.a.W. es gilt auch für
nicht faire Münzen!
21
Satz 4 (Zentraler Grenzwertsatz)
Sei (X1, X2, ..., Xn) eine Zufallsstichprobe aus der Grundgesamtheit der Zufallsvariablen X
mit E(X) = µ und var(X) = σ2, d.h. Xi (i=1, 2, ..., n) sind unabhängige, identisch verteilte
Zufallsvariable. Sei weiter
n
∑
Yn =
Xi ,
i=1
und sei die zugehörige standardisierte Zufallsgröße
n
Zn =
Yn – E(Yn)
Dann gilt:
∑ X i - n⋅µ
= i=1
var(Yn)
σ⋅ n
=
X-µ
X-µ
⋅ n =
.
σ
σ/ n
lim P(Z n ≤ z) = Φ(z) ,
n→ ∞
wobei Φ(z) der Wert der Verteilungsfunktion der Standard-Normalverteilung ist.
Dieser Satz ist eines der wichtigsten Ergebnisse der Statistik, denn er sagt aus, daß ungeachtet der zugrundeliegenden Verteilung bei genügend großen Stichproben stets die
Normalverteilung angewendet werden kann.
Um die Bedeutung dieses Satzes zu illustrieren, wird das Mathematica-Programm
“Kap-13-ZGWS.nb” benutzt. Eine Illustration wird hier vorgeführt:
Beispiel 21 (Ein Beispiel zum Programm ZGWS)
Aufruf:
Print[Beispiel: eine beliebige Zähldichte];
1
ZGWS[{1, 2, 3, 20, 23, 35}, -- {4, 2, 1, 3, 4, 6}, 50, 20, Spalten -> 12]
20
Ergebnisprotokoll:
Beispiel: eine beliebige Zähldichte
Zähldichte der Zufallsvariablen X von 6 Werten
373
74611
mit E(X) =---; var(X) =----20
400
22
Eine Stichprobe
_
Die empirische Zähldichte der Mittelwerte X aus 10 Stichproben der Länge 20
im Vergleich zu N(18.65,9.326375)
_
Die X sind annähernd N(18.65,9.326375)-verteilt.
_
Mittelwert X über alles: 17.99 mit zugehöriger Varianz: 7.8649
Die Zahl von 10 Stichproben ist nicht übermäßig groß, daher ist die Anpasung nicht sehr
fein, aber angesichts der Gestalt der Ausgangszähldichte dennoch beeindruckend.
23
Beispiel 22 (Stichprobenumfang, Intervallbreite und Zentraler Grenzwertsatz)
Für eine Stichprobe vom Umfang 100 ist der Mittelwert bekannt, und die Standardabweichung der zugrundeliegenden Zufallsvariablen beträgt 2.
a) Wie groß ist mindestens die Wahrscheinlichkeit dafür, daß der Abstand von X zum
tatsächlichen Mittelwert höchstens 0.2 beträgt?
b) Wie ändert sich Ihr Resultat, wenn Sie die Genauigkeitsanforderung verdoppeln?
c) Verdoppelt sich die Wahrscheinlichkeit mit verdoppelter Stichprobenlänge?
d) Wie ändern sich die Ergebnisse, wenn der Zentrale Grenzwertsatz benutzt wird?
Lösung:
Da über die Verteilung nichts bekannt ist, wird die Chebyshevsche Ungleichung angewandt. Die gesuchte Wahrscheinlichkeit sei x:
var(X)
var(X)
4
a) P(| X -µ|≤ 0.2) ≥ x ⇔ {0.2 = k und x = 1 , var(X) =
=
= 0.04;
n
100
k2
var(X) = 0.2, also x = 0, d.h. die Chebyshevsche Ungleichung behauptet nur, daß es eine
Wahrscheinlichkeit gibt.
b) Die Genauigkeitsanforderung zu verdoppeln, heißt den Abstand vom tatsächlichen
(“wahren”) Erwartungswert zu halbieren:
var(X)
0.04
Für P(| X -µ|≤ k) ≥ x und k= 0.1 folgen x = 1 =1<0;
0.01
k2
ein solch negatives Ergebnis ist ebenfalls unbrauchbar.
c) Bei Verdoppelung der Stichprobe ändert sich die Stichprobenvarianz zu
4
1
0.02
var(X) =
=
= 0.02, var(X) ≈ 0.14, x = 1 = 0.5 bzw. für das halbierte
200
50
0.04
0.02
Intervall, x = 1 <0, also P = 0.0
0.01
d) Die Stichprobe ist vom Umfang n=100. Aufgrund des Zentralen Grenzwertsatzes gilt
mit E(X) = µ (bekannt), var(X) = 0.04, var(X) = 0.2.
µ + 0.2 – µ
µ – 0.2– µ
P(| X -µ|≤ 0.2) = P(X ≤ µ + 0.2) - P(X ≤ µ - 0.2) = Φ(
) - Φ(
)
var(X)
var(X)
0.2
0.2
= Φ(
) - Φ() = Φ(1) - Φ(- 1) = 0.8413 - 0.1587 = 0.6826
0.2
0.2
Für das halbierte Intervall gilt
µ + 0.1 – µ
µ – 0.1– µ
P(| X -µ|≤ 0.1) = P(X ≤ µ + 0.1) - P(X ≤ µ - 1) = Φ(
) - Φ(
)
var(X)
var(X)
0.1
0.1
= Φ(
) - Φ() = Φ(0.5) - Φ(- 0.5) = 0.6915 - 0.3085 = 0.3830
0.2
0.2
Die Stichprobe ist vom Umfang n=200. Bei Verdoppelung der Stichprobe und Anwendung
des Zentralen Grenzwertsatzes folgen entsprechend
0.20
0.20
P(| X -µ|≤ 0.2) = Φ(
) - Φ() = Φ(1.428) - Φ(- 1.428) ≈ 0.9236 - 0.0764 = 0.8472
0.14
0.14
0.10
0.10
P(| X -µ|≤ 0.1) = Φ(
) - Φ() = Φ(0.714) - Φ(- 0.714) ≈ 0.7611 - 0.2389 = 0.5222
0.14
0.14
24
Anmerkung zu Teilaufgabe c)
Die Einschluß-Wahrscheinlichkeit verdoppelt sich nicht, wenn die Stichprobenlänge
verdoppelt wird; man siehe die Formel für var(X) ; nicht n, sondern n ist entscheidend,
wie die Übersicht zeigt:
n=100
n=200
P(| X -µ|≤ 0.2)
0.6826
P(| X -µ|≤ 0.1)
0.3830
P(| X -µ|≤ 0.2)
0.8472
P(| X -µ|≤ 0.1)
0.5222
Illustration 23 (Zwei zugehörige Programme)
Anhang 1.1 Beschreibung zu “Kap-13-Chebyshev.nb”
Anhang 1.2 “Kap-13-Chebyshev.nb”
Anhang 2.1 Beschreibung zu “Kap-13-ZGWS.nb”
Anhang 2.2 “Kap-13-ZGWS.nb”
Illustration 24 (Zwei Bilder zum Kapitel)
Siehe nächste Seite.
25
Zwei Abbildungen zum Kapitel
THE
NORMAL
LAW OF ERROR
STANDS OUT IN THE
EXPERIENCE OF MANKIND
AS ONE OF THE BROADEST
GENERALIZATIONS OF NATURAL
PHILOSOPHY ♦ IT SERVES AS THE
GUIDING INSTRUMENT IN RESEARCHES
IN THE PHYSICAL AND SOCIAL SCIENCES AND
IN MEDICINE, AGRICULTURE AND ENGINEERING ♦
IT IS AN INDISPENSABLE TOOL FOR THE ANALYSIS AND THE
INTERPRETATION OF THE BASIC DATA OBTAINED BY OBSERVATION AND EXPERIMENT
(Source: W. J. Youden, The American Statistician, April-May, 1950, p. 11, bottom)
Das Gesetz der Großen Zahl