1 3. Vorlesung Statistik II Letzte Änderung: 12. September 2001, 25 Seiten Kapitel 13 Zentraler Grenzwertsatz und zugehörige Ergebnisse Stichprobenverteilungen Wird aus einer Grundgesamtheit eine Stichprobe erhoben, um Aufschluß über ein bestimmtes Merkmal zu erhalten, dann ist in der Regel über die Verteilung dieses Merkmals, bzw. über die Parameter dieser Verteilung wenig oder nichts bekannt. Aufgabe der induktiven Statistik ist es nun, aufgrund der Stichprobenergebnisse Schlüsse über Verteilung und/oder Verteilungsparameter zu ziehen. Diese Schlüsse werden unmittelbar beeinflußt durch die Auswahl der Stichproben. Da wir ausschließlich Zufallsstichproben betrachten, ist immer zu beachten, daß der Zufall über die Auswahl der beobachteten statistischen Einheiten das Ergebnis in die eine oder andere Richtung verschieben kann. Deshalb beschäftigen wir uns in diesem Kapitel mit Funktionen, die von den Stichproben, die ausgewählt worden sind, abhängen. Besteht eine Stichprobe aus n beobachteten statistischen Elementen, dann sagt man, sie habe die Länge oder den Umfang n. Die Auswahl der jeweiligen statistischen Einheit erfolgt zufällig, folglich kann eine Stichprobe der Länge n durch n Zufallsvariablen (X1, X2, ..., X n) beschrieben werden, deren Realisierung (x1, x 2, ..., xn) wir wie bisher mit kleinen Buchstaben bezeichnen. Eine solche Realisierung wird auch als Stichproben-ergebnis bezeichnet. Unbeschadet der Tatsache, daß über die Verteilung des beobachteten Merkmals nichts oder nur wenig bekannt ist, soll im Regelfall davon ausgegangen werden, daß alle Stichprobenvariablen der gleichen Verteilung unterliegen. Sie sind identisch verteilt. Eine Zufallsvariable T, die eine Funktion der n-dimensionalen Stichprobenvariablen (X1, X 2, ..., Xn) ist, also T = f(X1, X2, ..., Xn), heißt eine Stichprobenfunktion oder eine Statistik. Mit Hilfe solcher Stichprobenfunktionen soll im folgenden versucht werden, Aussagen über Verteilungen und Verteilungsparameter eines bestimmten Merkmals auf der zugehörigen Grundgesamtheit zu gewinnen. Deswegen stellen wir einige der häufigsten gebrauchten Stichprobenfunktionen zusammen. Als erstes benötigen wir einige Aussagen über Summen von Zufallsvariablen. Der Einfachheit halber betrachten wir vorerst nur den Fall n=2, d.h. wir beschäftigen uns mit der Zufallsvariablen S = X + Y, wobei X und Y zwei beliebige, aber identisch verteilte Zufallsvariablen seien. Im Vergleich zur Notation oben gilt jetzt X:=X 1,Y:=X2. 2 Summen von Zufallsvariablen Satz 1 (Erwartungswert und Varianz der Summe zweier Zufallsvariablen) Sei S:= X + Y, wobei X und Y zwei beliebig verteilte Zufallsvariablen sind, dann gilt: E(S) = E(X) + E(Y) und var(S) = var(X) + var(Y) + 2Cov(X,Y). Beweis: (nur für den stetigen Fall) E(X+Y) ∞ ∞ ∞ ∞ ∞ ∞ = ∫ ∫ x f(x,y) dydx + ∫ = ∫ −∞ ∫ −∞(x+y) f(x,y) dxdy −∞ −∞ −∞ ∫ −∞yf(x,y) ∞ ∞ = ∫−∞x⋅f(x)dx + ∫−∞y⋅g(y)dy = E(X) + E(Y). dxdy Die Varianz der Summe zweier Zufallsvariablen wurde bereits im Beweis des Satzes (s.o. Kap.12) bestimmt. Bemerkung 1 (Unabhängigkeit der Summanden) Wenn X und Y unabhängig sind, dann ist Cov(X,Y) = 0, und folglich ist in diesem Fall var(X+Y) = var(X) + var(Y). Oft wird auch vorausgesetzt, daß X und Y identisch verteilt sind, dann gilt var(X+Y) = 2var(X) = 2var(Y). Bemerkung 2 (Differenzen von Zufallsvariablen) Sei S := X - Y, wobei X und Y zwei beliebig verteilte Zufallsvariablen sind, dann gilt, wie sich in gleicher Weise für die Summe beweisen läßt,: E(S) = E(X) - E(Y) und var(S) = var(X) + var(Y) - 2Cov(X,Y). Insbesondere ist zu sehen, daß Differenzen nicht varianzreduzierend wirken müssen: bei Unabhängigkeit addieren sich die Varianzen! 3 Aufgabe (Erwartungswertbildung in Summen) Zeigen Sie, daß für drei beliebige Zufallsvariablen X,Y und Z gilt: a) Cov(a + bX, c + dY) = bd Cov(X, Y) (a,b,c,d∈R) b) Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z). Lösung Die Behauptungen folgen aus den Definitionen a) Anwenden der Definition Cov(Z1 , Z2 ) = E(Z1 . Z2 ) - E(Z1 ) . E(Z2 ) liefert: Cov(a + bX, c + dY) = E((a + bX) (c + dY)) - E(a + bX) E(c + dY) = ac + ad.E(Y) + bc.E(X) + bd.E(XY) - ac - ad.E(Y) - bc.E(X) - bd.E(X)E(Y) = bd.E(XY) - bd.E(X)E(Y) = bd Cov(X, Y) b) Cov(X + Y, Z) = E [(X + Y - E(X + Y)) (Z - E(Z))] = E [(X - E(X) + Y - E(Y)) (Z - E(Z))] = E [((X - E(X)) + (Y - E(Y))) (Z - E(Z))] = E [(X - E(X)) (Z - E(Z))] + E [(Y - E(Y)) (Z - E(Z))] = Cov(X, Z) + Cov(Y, Z) Aufgabe (Erwartungswertbildung in Summen) Es seien X und Y zwei Zufallsvariable mit Y = 3 + 2X und E(X) = 1.5 und var(X) = 4. Berechnen Sie: 1. E(X + Y); 2. E(X - Y); 3. var(X + Y); 4. var(X - Y); 5. Cov(X, Y) Lösung E(X) = 1.5 gegeben; Y ist eine Transformation von X E(Y) = E(3 + 2X) = 3 + 2E(X) = 6, var(X) = 4 gegeben var(Y) = var(3 + 2X) = 4var(X) = 16. E(X + Y) = E(X) + E(Y) = 1.5 + 6 = 7.5 E(X - Y) = E(X) - E(Y) = 1.5 - 6 = - 4.5 var(X + Y) = var(X + 3 + 2X) = var(3X) = 9var(X) = 36 var(X - Y) = var(X - 3 - 2X) = var(-X) = (-1) 2 var(X) = 4 Cov(X, Y) = Cov(X, 3 + 2X) = 2 Cov(X, X) = 2 var(X) = 8 4 Bemerkung 3 (Summen beliebig vieler Zufallsvariablen) Die Ergebnisse lassen sich unmittelbar auf n ≥ 2 Zufallsvariablen X1, X2, ..., Xn erweitern: n E( n n n ∑ X k) = ∑ E(Xk ) und var( ∑ X k) = ∑ var(X k) + 2 ∑ Cov(Xi, Xk) . k=1 k=1 k=1 i≠k k=1 Die folgenden Beispiele gehen weit über die Anwendung des Satzes 1 hinaus, da außerdem in den Beispielen Aussagen über den Verteilungstyp der Summe getroffen werden. Für die folgenden Überlegungen ist dies oft hilfreich zu wissen. Beispiel 1 (Binomialverteilte Zufallsvariable) Seien X und Y zwei unabhängige, binomialverteilte Zufallsvariable mit gemeinsamem Parameter p. Dann ist X+Y ebenfalls binomialverteilt: X ~ B(n1, p) und Y ~ B(n2, p) ⇒ (X+Y) ~ B(n1+n2, p). Die Verallgemeinerung auf beliebig viele Binomial-Zufallsvariablen ist offensichtlich. Beispiel 1’ (Binomialverteilte Zufallsvariable) Die Summe zweier binomial verteilter Zufallsgrößen X~B(1,p) und Y~B(1,p) X↓ Y→ Y=0 Y=1 P[X=i] P[Y=k] 1-p p X=0 1-p 0 1 X=1 p 1 2 Die zugehörigen Wahrscheinlichkeiten für die Summen S~B(2,p) (1-p)2 (1-p)p p(1-p) p2 Nach Sammlung der einzelnen Terme erhält man die Zähldichte für die Summe S: P[S=0] = (1-p)2 P[S=1] = 2p(1-p) P[S=2] = p2 Die Binomialverteilung liefert identisch: n k p (1-p)n-k = P[S=k]; k = 0, 1, 2, ..., n; für n=2 k P[S=0] = (1-p)2 P[S=1] = 2p(1-p) P[S=2] = p2 Beispiel 1’’ (Binomialverteilte Zufallsvariable) Die Summe zweier binomial verteilter Zufallsgrößen X~B(2,p) und Y~B(3,p) 5 X↓ Y→ Y=0 Y=1 Y=2 Y=3 P[X=i] P[Y=k] (1-p)3 3p(1-p)2 3p2(1-p) p3 X=0 (1-p)2 0 1 2 3 X=1 2p(1-p) 1 2 3 4 X=2 p2 2 3 4 5 Die zugehörigen Wahrscheinlichkeiten für die Summen S~B(5,p) (1-p)5 3p(1-p)4 3p2(1-p)3 p3(1-p)2 2p(1-p)4 6p2(1-p)3 6p3(1-p)2 2p4(1-p) p2(1-p)3 3p3(1-p)2 3p4(1-p) p5 Nach Sammlung der einzelnen Terme erhält man die Zähldichte für die Summe S und identisch für die unmittelbare Auswertung der Binomialverteilung n k p (1-p)n-k = P[S=k]; k = 0, 1, 2, ..., n; für n=5 k P[S=0] = (1-p)5 P[S=1] = 5p(1-p)4 P[S=2] = 10p2(1-p)3 P[S=3] = 10p3(1-p)2 P[S=4] = 5p4(1-p) P[S=5] = p5 6 Beispiel 2 (Poissonverteilte Zufallsvariable) Seien X und Y zwei unabhängige, poissonverteilte Zufallsvariable mit Parametern λ 1 und λ 2. Dann ist X+Y ebenfalls poissonverteilt mit Parameter λ:= λ 1 + λ 2. Die Verallgemeinerung auf beliebig viele Poisson-Zufallsvariable ist offensichtlich. Beispiel 2’ Eine Aufgabe (Addition von Poisson-Variablen) Für eine größere Firma sei die durchschnittliche Unfallrate zwei Unfälle je Woche. Bestimmen Sie die Wahrscheinlichkeit, daß es höchstens zwei Unfälle gibt a) während einer Woche b) während zweier Wochen c) während jeder Woche von zwei Wochen. Lösung: a) Für die ursprüngliche Formulierung handelt es sich um Poisson-Zähldichte mit λ = 2, d.h. P(X=k) = 2 ke –2 , damit folgt k! 1 2 22 P(X ≤ 2) = p0 + p1 + p2 = + + ) = 5 e-2 0! 1! 2! b) Für zwei Wochen geht es um eine Summe Y von zwei unabhängigen identisch verteilten Poisson-Variablen X 1 und X2 und Y:= X1 + X2 mit E(Y) = λ = 2+2 = 4, e-2 ( P(Y=k) = 4 ke –2 , damit folgt k! 1 4 42 + + ) = 13 e-4 0! k! k! c) Für die Betrachtung einer einzelnen Woche gilt die ursprüngliche Formulierung P(Y ≤ 2) = p0 + p1 + p2 = e-4 ( 2 ke –2 einer Poisson-Variablen mit E(X) = λ = 2, P(X=k) = . Wenn zwei beliebige k! Wochen, die voneinander unabhängig sind (Annahme der Unabhängigkeit der Wochen) zu betrachten sind, ist die gewünschte Wahrscheinlichkeit dann ein Produkt aus Teil a) [P(X ≤ 2)]2 = 25 e-4 bei 2 Wochen bzw. [P(X ≤ 2)]n = 5ne-2n bei n Wochen. 7 Beispiel 2’’ Eine Aufgabe (Addition von Poisson-Variablen) Die Besucherzahl eines Postamts während eines Schaltertages sei durch eine Poissonverteilte Zufallsvariable mit Parameter λ beschrieben. Die Besucher sind jeweils mit Wahrscheinlichkeit p ein Mann und mit Wahrscheinlichkeit 1-p eine Frau. Zeigen Sie, daß die Anzahl der Männer bzw. die Anzahl der Frauen durch zwei unabhängige Poisson-verteilte Zufallsvariablen mit Parameter λp bzw. λ(1-p) beschrieben werden können. Lösung Seien X bzw. Y die Anzahl der Männer bzw. Frauen, die dieses Postamt während eines Tages besuchen. Zu zeigen ist: i j (λp) -λ(1 -p) (λ (1- p)) ⋅e ⋅ P(X = i, Y = j) = P( X = i).P(Y = j) = e– λp i! j! Nach dem Satz von der totalen Wahrscheinlichkeit gilt: P(X = i, Y = j) = P(X = i, Y = j X + Y = i + j) P(X + Y = i + j) + P(X = i, Y = j X + Y ≠ i + j) P(X + Y ≠ i + j) Da der zweite Summand trivialerweise gleich 0 ist und X + Y die Gesamtanzahl der Postkunden angibt, erhält man i+j λ P(X+Y = i+ j) = e (i + j)! und obendrein beträgt die Wahrscheinlichkeit, daß genau i von i + j Kunden männ-lich i +j i sind, p (1 -p) j . i Offenbar gilt dann auch i+j (i+ j)! i+j i λ λ j P(X = i, Y = j) = p (1-p) e = e-λ(λp)i(λ(1 - p))j = i (i + j)! (i+ j)!i!j! -λ (λp)i λp =e i! Folglich gilt P(X = i) = e da (λ(1-p)) j -λ(1-p) .e j! - λp(λp) i! ∑ e-λ(1-p) j i ∑e - λ(1 j j - p) (λ(i - p)) (λp)i = e-λp , j! i! (λ(1-p))j =1 j! und entsprechend P(X = j) = e - λ(1 - p) (λ(i - p)) j! j 8 Beispiel 3 (Gleichverteilte Zufallsvariable mit Illustration durch den Würfel) Seien X und Y zwei unabhängige, diskret gleichverteilte Zufallsvariable. Dann ist X+Y nicht gleichverteilt. Zwei faire Würfel werden unabhängig voneinander geworfen und ihre Augenzahlen addiert. Die Ergebnisse sind in der folgenden Matrix dargestellt: Würfel 1 Würfel 2 1 2 3 4 5 6 1 2 3 4 5 6 7 2 3 4 5 6 7 8 3 4 5 6 7 8 9 4 5 6 7 8 9 10 5 6 7 8 9 10 11 6 7 8 9 10 11 12 Die Zähldichte der Zufallsvariablen Z, die Summe der Augenzahlen, ist: P[Z=2]= 1/36 = P[Z=12] P[Z=3]= 2/36 = P[Z=11] P[Z=4]= 3/36 = P[Z=10] P[Z=5]= 4/36 = P[Z= 9] P[Z=6]= 5/36 = P[Z= 8] P[Z=7]= 6/36 Damit ist Z eine um z=7 symmetrische, unimodal verteilte Zufallsgröße, die offenbar nicht gleichverteilt ist. Die Ergebnisse über Mittelwert und Varianz von Z, die keine Aussage über den Verteilungstyp der Summe Z = X + Y treffen (Satz 1), bleiben aber selbstverständlich gültig: Ist X die Augenzahl des 1. Würfels und Y die Augenzahl des 2. Würfels, dann gilt 7 35 E(X) = E(Y) = und var(X) = var(Y) = 2 12 und damit aus Satz 1 in Verbindung mit Bemerkung 2: 35 E(Z) = 7 und var(Z) = . 6 Hierzu siehe auch die Würfelmodelle in Würfel. 9 Beispiel 4 (Normalverteilte Zufallsvariable) Seien X und Y zwei unabhängige, normalverteilte Zufallsvariable: X ~ N (µ1, σ 21) und Y ~ N (µ2, σ 22). Dann ist X+Y ebenfalls normalverteilt: (X+Y) ~ N (µ1+µ2, σ 21+σ 22). Beispiel 5 (Identisch Gamma-verteilte Zufallsvariable) Seien X und Y zwei unabhängige, gamma-verteilte Zufallsvariable: X ~ G(α 1,β), Y ~ G(α 2,β). Dann ist X+Y ebenfalls gamma-verteilt: (X+Y) ~ G(α 1+α 2,β). Beispiel 6 (Identisch exponentialverteilte Zufallsvariable) Seien X und Y zwei unabhängige und identisch exponentialverteilte Zufallsvariable: X ~ P(1,λ) und Y ~ P(1,λ). Dann ist X+Y Erlang-verteilt: (X+Y) ~ P(2,λ) (= G(2,λ)). Die Verallgemeinerung lautet: Seien Xi (i=1,2,...n) unabhängige und identisch exponentialverteilte Zufallsvariable: Xi (i=1,2,...n) ~ G(1,λ). Dann ist: 2 X ∑Xi ~ G(n,λ) und Σλ i ~ χ2(2n). Der Beweis für zwei Größen X 1 + X2 sei skizziert, um die Herleitung und Bedeutung zu verdeutlichen. Die Dichte f für die Summe ist folgender Ausdruck, wobei f1 und f2 die Dichte für X1 und X2 sind: f(x) = x f (x– y) ⋅ f2(y)dy 0 1 D.h. f1(z) = f2(z) = λe-λz, es folgt dann f(x) = λ 2 x – λ(x –y) – λy x –λx e ⋅e dy = λ 2 e dy = λ 2 . x . e-λx 0 0 Das ist jedoch die Dichte für die gammaverteilte Größe G(2, λ), m.a.W. wenn z.B. Xi die Dauer beschreibt, mit der ein Gespräch eine Leitung belegt, dann ist die Summe die Zufallsgröße für die Belegungsdauer durch n Gespräche. Die Bezeichnung “Erlangverteilung” ist ebenfalls allgemein üblich. Die folgenden zwei Beispiele sind keine Summen von Zufallsvariablen (bzw. nur im Spezialfall für ganzzahliges c bzw. 2/β), passen aber, wie gleich deutlich sein wird, gut in diese Übersicht. 10 Beispiel 7 (Lineare Transformationen von gamma-verteilten Zufallsvariablen) Sei X eine gamma-verteilte Zufallsvariable und Y:=cX, c>0, X ~ G(α,β). Dann gilt, daß Y ebenfalls gamma-verteilt ist, Y ~ G(α,cβ). Beispiel 8 (χ 2-verteilte Zufallsgröße) Sei X eine gamma-verteilte Zufallsvariable und 2X Y := , β>0, X ~ G(α,β). β Dann gilt, daß Y ebenfalls gamma-verteilt ist, und zwar χ 2-verteilt (wie dieser Sonderfall heißt) Y ~ G(α,2) ⇔ Y ~ χ 2(2α). Es gilt weiter: Beispiel 9 (Identisch Cauchy-verteilte Zufallsvariable) Seien X und Y zwei unabhängige und identisch Cauchy-verteilte Zufallsvariable: X ~ C(k,m) und Y ~ C(k,m). X+Y X+Y Dann ist Cauchy-verteilt: ~ C(k,m). 2 2 Die Verallgemeinerung auf mehr als zwei Variable ist jeweils wie in den vorhergehenden Beispielen durchführbar. 11 2 Gewichtete Summen von Zufallsvariablen Das wohl empirisch wichtigste Beispiel einer Summenbildung ist das Stichproben-mittel, die übliche Mittelwertbildung, die in ihrer Bedeutung kaum überschätzt werden kann. Beispiel 10 (Arithmetischer Mittelwert) Seien (X1,X2, ..., Xn) n Beobachtungen einer identisch, aber beliebig verteilten Zufallsvariablen mit Erwartungswert µ und Varianz σ2, d.h. eine beliebige Stichprobe der Länge n. Alleinige Voraussetzung sei, daß jede Beobachtung mit der gleichen Wahrscheinlichkeit in die Stichprobe gelangt. Dies charakterisiert eine Zufallsstichprobe. Dann gilt für den Mittelwert X der Stichprobe: n E(X) = 1 1 E( ∑ X i ) = n n i=1 n ∑ E(X i ) =µ . i=1 Die Varianz von X ergibt sich gemäß den üblichen Regeln zur Varianzbestimmung (s.o.): 1 var(X) = var( n n ∑ X i) = i=1 n 2 σ , var (X i) = ∑ 2 n 1 n i=1 da die Stichprobenbeobachtungen unabhängig sind. Die Standardisierung der Zufallsvariablen X liefert dann (s.o. Kapitel 11 sowie den Eintrag E(X)-Erwartungswert-Modelle): X-µ X-µ var ( n ) = 1. E( n) = 0 und σ σ Definition (Gauß-Statistik) Die Stichprobenfunktion X-µ T := n σ heißt Gauß-Statistik. Eine weitere häufig benötigte Stichprobenfunktion, die keine einfache Summe im Sinne des Satzes 1 wie die vorhergehenden Beispiele ist, ist die mittlere quadratische Abweichung bezüglich des wahren (im Regelfall unbekannten) Erwartungswerts µ. In ihrer Bedeutung als Stichprobenfunktion gehört sie aber ebenfalls in diese Reihe. 12 Beispiel 11 (Mittlere theoretische quadratische Abweichung) Mit den obigen Voraussetzungen heißt die folgende Statistik mittlere quadratische Abweichung (oder im deutsch-englischen Jargon MSE-Statistik = mean square error): 1 T= n n n n 1 ∑ (Xi - µ) 2 mit E(T) = n 1 ∑ E(X i - µ)2= n ∑ var(X i) = var(X). i=1 i=1 i=1 Siehe hierzu auch auf der Homepage der Professur das Stichwort “MSE”. Beispiel 12 (Mittlere empirische quadratische Abweichung S2) Mit der Ersetzung des zumeist unbekannten Erwartungswertes µ durch das Stichprobenmittel X erhält man die aus Kapitel 3 (Statistik I) bekannte mittlere quadratische n n 1 1 S2 = ∑ (Xi - X) 2 = n n Abweichung: i=1 ∑ ((Xi - µ) – (X– µ) )2 i=1 Zur Auswertung des Erwartungwertes E(S 2) sind einige Zwischenschritte hilfreich: 1 n n n 1 (Xi -X ) 2 = ( ∑ (Xi - µ)2) -(X - µ) 2 denn: n ∑ i=1 i=1 1 n n ∑ (Xi - µ) 2 - (X - µ)2 1 = n i=1 1 = n n ∑ Xi2 1 - 2µ n i=1 n ∑ i=1 2 1 Xi - X = n 2 n n 1 ∑ X i + n n µ 2 - X2 + 2µX - µ 2 i=1 2 ∑ (X i - X) . i=1 Folglich ist: n 1 σ 2 n-1 2 2 - (X - µ)2) 2 2 2 2 2 E( (X µ) E(S ) = = σ - E(X - µ) = σ - var(X) = σ = σ n∑ i n n i=1 n–1 vor σ2, im folgenden als Verzerrungsfaktor der geschätzten Varianz n bezeichnet (– eine Begründung hierzu wird später im Kapitel 15 geliefert –), wird durch die folgende Modifikation beseitigt (siehe hierzu das Stichwort “BIAS”, E(X)-Bias-Modelle): Beispiel 13 (Modifizierte empirische Varianz S*2) Mit den Voraussetzungen des Beispiels 12 und Modifikation des Vorfaktors erhält man die Stichprobenvarianz S*2: Die Größe Mit S*2 1 = n-1 n ∑ (Xi -X ) 2 gilt offensichtlich: E(S*2) = σ2. i=1 13 Die Chebyshevsche Ungleichung Sind von einer Zufallsvariablen X nur Erwartungswert und Varianz bekannt, nicht jedoch die Verteilung von X, wie in den meisten der Beispiele angenommen, dann läßt sich über die Wahrscheinlichkeit von Realisierungen von X in einer gewissen Umgebung von E(X) die folgende Aussage der Chebyshevschen Ungleichung machen. Sie ist in ihrer Bedeutung ähnlich der Rolle des Stichprobenmittels kaum zu überschätzen. Satz 2 (Chebyshevsche Ungleichung) Sei X eine beliebig verteilte Zufallsvariable mit Mittelwert E(X)= µ und Varianz var(X) = σ2 und k eine beliebige positive reelle Zahl. Dann gilt: P( X – E(X) > k) ≤ var(X) k2 ⇔ P( |X-µ| > k ) ≤ σ2 k2 Damit äquivalent ist P( X – E(X) ≤ k) ≥ 1 – var(X) k2 Zum Beweis seien zwei Alternativen vorgeführt, einmal der direkte Beweis, zum anderen die Ableitung aus der Markovschen Ungleichung (Satz 11.1.8): Beweis: 1. (aus den Definitionen): Fall 1: X ist eine diskrete Zufallsvariable: Aus der Definition der Varianz folgt: σ2 = var(X) = ∑ p j (x j - E(X)) = ∑ p j (x j - µ) 2 2 2 2 j ≥ ∑ j:|x j- µ|>k j p j (x j - µ) ≥ 2 ∑ j:|x j- µ|>k pj k = k ∑ j:|x j- µ|>k pj = k2 P(|X - µ| >k) . Fall 2: X ist eine stetige Zufallsvariable: Aus der Definition folgt eine entprechende Abschätzung einer Integrationsfolge: b σ2 = var(X) = b 2 f(x)(x - E(X)) dx = a ≥ 2 f(x)(x-µ) dx a 2 f(x)(x-µ) dx x:|x-µ|>k 2 =k f(x)dx x:|x-µ|>k ≥ 2 x:|x-µ|>k 2 f(x)k dx = k P[|x-µ|> k]. 14 2. (Spezialisierung der Markovschen Ungleichung): Für die Zufallsvariable Y:= (X-µ)2 ≥ 0 gilt die Markovsche Ungleichung. Sei dazu die Konstante c = k 2 gewählt. Mit dem Ergebnis E(Y) = E[(X-µ)2] = σ2 gilt dann: P[(X-µ)2 ≥ k2 ] ≤ σ2 k2 . Da weiter gilt: (X- µ)2 ≥ k2 ⇔ |X- µ| > k, ist alles bewiesen: P[|X- µ| > k] ≤ σ2 k2 . Angesichts der schwachen Vorausetzungen - nur Existenz und Kenntnis von Erwartungswert und Varianz der Zufallsvariablen X - ist es nicht verwunderlich, daß die Chebyshevsche Ungleichung (andere Schreibweise: Tschebischeffsche Ungleichung) im Regelfall sehr schwache Ergebnisse zeitigt: (siehe hier auch das Stichwort “CHEBYSHEV”) 15 Beispiel 14 (zur Vorteilhaftigkeit der Kenntnis der Zähldichte, das Beispiel einer Binomialverteilung) 1 1 3 3 1 Sei X eine B(3, )-verteilte Zufallsvariable, d.h.: (p0, p1, p2, p3) = ( , , , ) , 2 8 8 8 8 3 3 E(X) = np = , var(X) = np(1-p) = , 2 4 und seien einige Abschätzungen vorgenommen. Sei für die Chebyshevsche Abschätzung k= 3/2 gewählt, dann gilt: 3 3 3 σ2 4 3 1 P[|X - | > ] ≤ = = = . 2 2 k2 9 9 3 4 Tatsächlich ist aber 3 3 P[|X - |> ]= 0. 2 2 Für k = 1 folgt aus der Chebyshevschen Abschätzung: 2 3 σ 3 P[|X - |>1] ≤ = , 2 1 4 während für die tatsächliche Abweichung gilt: 3 1 P[|X - |>1] ≤ p 0 + p 3 = . 2 4 Die mit k (= τ in der Graphik) wachsende Einschluss-Wahrscheinlichkeit wird durch folgende Abbildung gezeigt (rot = ‘wahr’ bzw. grau bzw. obere Linie; blau = ‘Chebyshev’ bzw. schwarz bzw. untere Linie): 16 Beispiel 15 (zur Vorteilhaftigkeit der Kenntnis der Zähldichte, das Beispiel einer beliebigen Zähldichte) Die zufällige Variable X nehme die Werte -10, 0, 10 mit den Wahrscheinlichkeiten 1 3 1 , , an. 8 4 8 a) Geben Sie mit Hilfe der Chebyshev-Ungleichung eine Schranke für P(|X|≥7) an. b) Bestimmen Sie P(|X|≥7) exakt. Lösung a) E(X) = 0 aus Symmetriegründen, var(X) = (-10) 2 . 0.125 + (+10)2 . 0.125 = 200/8 = 25, damit folgt aus der Chebyshev-Ungleichung: P(|X|≥7) ≤ 25/49 ≈ 0.5 2 1 b) P(|X|≥7) = P(X = -10) + P(X = 10) = = = 0.25 8 4 Die genaue Bestimmung des Intervalls mit Kenntnis der Verteilung ist wesentlich besser (enger), nämlich 0.25 gegenüber 0.50. Beispiel 16 (Gleichverteilung) Sei X ~ U(a,b) = U(0,1); dann gilt: 2 a+b 1 (b-a) 1 E(X) = = , var(X) = = 2 2 12 . 12 1 Sei für die Chebyshevsche Abschätzung k= gewählt, 4 dann folgt eine ganz wertlose obere Schranke P: 1 1 4 1 16 1 P:= P(|X - | > ) ≤ ⇔ P(|X - 0.5| ≤ 0.25) ≥ 1 ⋅ ≥d.h. P ≥ 0 2 4 3 12 1 3 Für k = 1/ 12 ≈ 0.28868 folgt genau P = 0. Für k = 1 folgt aus der Chebyshevschen Abschätzung: 2 1 1 σ 1 P[|X - |>1] ≤ = , während tatsächlich P[|X - |>1]= 0 gilt. 2 2 1 12 Die mit k (= τ in der Graphik) wachsende Einschluss-Wahrscheinlichkeit wird durch folgende Abbildung gezeigt (rot = ‘wahr’ bzw. grau bzw. obere Linie; blau = ‘Chebyshev’ bzw. schwarz bzw. untere Linie): 17 M.a.W. ob die Ungleichung sinnvoll ist, hängt auch von der Gestalt der Zähldichte bzw. Dichte ab; besonders gut ist die Anwendung für symmetrische, unimodale Zufallsgrößen, wie folgendes Beispiel für die Normalverteilung zeigt: Beispiel 17 (Die m . σ-Regel) Eine verbreitete Anwendung ist die sog. m . σ-Regel für eine beliebige Verteilung mit E(X) = 0, var(X) = σ2. Sei für die Chebyshevsche Abschätzung k= mσ (m=1,2,3,...), dann gilt 1 . σ2 P(|X| > mσ) ≤ = m 2σ2 m2 Im Vergleich zur Normalverteilung N (0,σ2) erhält man die Abschätzungen: Chebyshev: Normalverteilung: P( |X| > 1 ) ≤ 1 ⇔ P( |X| ≤ 1 ) ≥ 0 P( |X| > 1 ) = 0.3174 ⇔ P( |X| ≤ 1 ) ≥ 0.6826 P( |X| > 2 ) ≤ 1 4 ⇔ 1 9 ⇔ P( |X| ≤ 2 ) ≥ 0.75 ≤ 3 ) ≥ 8/9 P( |X| > 2 ) = 0.0456 ⇔ P( |X| ≤ 2 ) ≥ 0.9544 P( |X| > 3 ) ≤ P( |X| P( |X| > 3) = 0.0018 ⇔ P( |X| ≤ 3 ) ≥ 0.9982. M.a.W. die Chebyshevsche Ungleichung sollte nur dann zu Rate gezogen werden, wenn man nichts Besseres weiß oder einen schnellen, möglicherweise auch sehr mangelhaften Überblick gewinnen will. Außerdem ist zu beachten, daß die Abschätzung nur für einen um den Mittelwert symmetrisch gelegenen Realisierungsbereich gilt. Die mit k (= τ in der Graphik) wachsende Einschluss-Wahrscheinlichkeit wird durch folgende Abbildung gezeigt (rot = ‘wahr’ bzw. grau bzw. obere Linie; blau = ‘Chebyshev’ bzw. schwarz bzw. untere Linie: Bemerkung 4 (Alternative Schreibweise der Chebyshevschen Ungleichung) Die Chebyshevsche Ungleichung läßt sich auch umkehren: P(|X-µ| ≤ k)> 1 - σ2 k2 . Diese Schreibweise ist in der Anwendung oft verlangt, nämlich daß die Abweichung vom Mittel möglichst klein sein soll. 18 Beispiel 18 (Anwendung auf das Stichprobenmittel X) Für das Stichprobenmittel X des Beispiels 11 gilt wegen 2 σ E(X) = µ und var(X) = n offensichtlich P(|X-µ|>k) ≤ σ2 nk2 bzw. P(|X-µ|≤k) >1 - σ2 nk2 . Eine häufige Anwendung der Chebyshevschen Ungleichung ist die Bestimmung der Stichprobenlänge bei bekannter Varianz der zugrundeliegenden Zufallsvariable X, Vorgabe der Schranke k und Festlegung einer Wahrscheinlichkeit, mit der diese Schranke k von den Realisierungen von X nicht überschritten werden soll. Diese Wahrscheinlichkeit kann als Risikobereitschaft interpretiert werden hinsichtlich der "Fehler", die bei der Stichprobenerhebung durch den Einfluß des Zufalls entstehen können. Siehe hierzu auch Kapitel 16 "Die Theorie der Konfidenzbereiche" sowie das folgende Beispiel bzw. das Stichwort “Demoskopie”. Beispiel 19 (Differenz zweier Stichproben) Seien X 1 und X 2 die bei zwei unabhängig voneinander erhobenen Stichproben der Länge n realisierten Stichprobenmittel aus einer Grundgesamtheit, die so verteilt ist, daß die entsprechende Zufallsvariable die Varianz σ2 hat. Bestimmen Sie n so, daß die beiden Stichprobenmittel sich mit einer Wahrscheinlichkeit von höchstens 0.1 um mehr als die Standardabweichung unterscheiden. Lösung 2σ Y:= X 1 - X 2 ⇒ E(Y) = E(X 1) - E(X 2) und var(Y) = var(X 1) + var( X 2) = n P(Y - E(Y) > σ) < var(Y) σ 2 = 2 2 1 2 1 ≤ ⇔ ≤ ⇔ n ≥ 20 n 10 n 10 Aufgabe (Erwartungswerte von zweidimensionalen Zufallsvariablen) Für die beiden Komponenten einer zweidimensionalen Zufallsvariablen (X, Y) gelte die Beziehung Y = a + bX. Zeigen Sie, daß gilt: Cov(X, Y) = bvar(X) Lösung: (i) Die Transformation wird eingesetzt Cov(X, Y) = E[(X - E(X))(Y- E(Y)] = E[(X - E(X))(a + bX - a - bE(X))] = E[(X - E(X))b(X - E(X))] = bE((X - E(X))2) = bvar(X) (ii) Die Beziehung ist direkt zu zeigen: Cov(X, Y) = E(X . Y) - E(X) . E(Y) E(Y) = E(a + bX) = a + bE(X) E(X . Y) = E(aX + bX2) = aE(X) + bE(X2) Cov(X,Y) = aE(X) + b E(X2) - E(X)(a + b E(X)) = b (E(X2) - E(X)2) = b var(X) 19 Beispiel 20 (Bestimmung der Stichprobenlänge) Sei X ein fairer Würfel, d.h. pi =1/6 (i=1, ..., 6). Wie lange muß man würfeln, damit das Stichprobenmittel mit Wahrscheinlichkeit von mindestens 0.95 nicht mehr als um 1% vom 35 σ2 2 wahren Mittel abweicht (man beachte: wahres Mittel E(X) = µ= 3.5, var(X) = , σ = . n 12 Mit der Chebyshevschen Ungleichung erhält man 35⋅1000 2 P[3.465 ≤ X ≤ 3.535] = P[|X - 3.5|≤ 0.035] > 1 ≥ 0.95. 12⋅n⋅352 1000000 Das Ergebnis ist n ≥ ≈ 47620 21 Schließlich ist dies Ergebnis der Grundstein für die im Alltagsleben verwurzelte Überzeugung über die Richtigkeit von Befragungen. Wenn man nur genügend viele Wähler, potentielle Käufer usw. befragt, dann wird das erfragte Verhalten - so die allgemeine Überzeugung - mit dem wahren Verhalten übereinstimmen. In der Praxis ist das aber oft ein Fehlschluß, da die Modellvoraussetzungen nicht zuzutreffen brauchen. Siehe hierzu das Stichwort “Würfel”. Dieses Ergebnis scheint insofern unbefriedigend, als die Erhebung einer Stichprobe dieser Größenordnung in der Praxis häufig kaum durchführbar bzw. zu teuer ist. Deshalb werden im nächsten Abschnitt Methoden zusammengestellt, die es ermöglichen, praktikablere Ergebnisse zu erhalten. Grenzwertsätze Nach Einführung von Summen von Zufallsvariablen und einiger im wesentlichen aus (gewichteten) Summen von Zufallsvariablen gebildeten Stichprobenfunktionen wenden wir uns jetzt Folgen von Zufallsvariablen zu. Auch dies ist ins Alltagsleben in den Gesetzen der großen Zahlen fest eingegangen. Eine unmittelbare Anwendung solcher Folgen liegt z.B. in der Prüfung, wieweit die Aussagekraft von Stichprobenergebnissen von der Stichprobenlänge abhängt. 20 Satz 3 (Das schwache Gesetz der Großen Zahl) Sei (X1,X2,...,Xn) eine Zufallsstichprobe aus der Grundgesamtheit der Zufallsvariablen X mit E(X) = µ und var(X) = σ2, d.h. Xi (i=1,2,...,n) sind unabhängige, identisch verteilte Zufallsvariable. Für das Stichprobenmittel n 1 X = ∑ Xi gilt lim P[|X - µ|> k ]= 0 . n n →∞ i=1 Beweis: Der Beweis ist die Anwendung der Chebyshevschen Ungleichung auf das Stichprobenmittel: P( X - µ≥ k) < σ2 nk 2 , daraus folgt: 0 ≤ lim P ( X - µ≥ k) < lim σ2 2 n →∞ nk n →∞ =0 für alle konstanten Varianzen σ2 und für alle vorgegebenen Schranken k. Ähnlich wie in der Chebyshevschen Ungleichung sind die Voraussetzungen sehr schwach, insbesondere wird keine spezielle Verteilung der Xi angenommen. Sind die Voraussetzungen hingegen stärker, dann kann das Ergebnis noch verschärft werden, etwa im sog. klassischen Gesetz der großen Zahl: Bemerkung 5 (Das klassische Gesetz der großen Zahl) Sei (X1,X2,...Xn) eine Zufallsstichprobe aus der Grundgesamtheit einer BernoulliZufallsvariablen X mit: E(X) = µ = p (0<p<1) und var(X) = σ2 = p(1-p), d.h. Xi (i=1,2,...,n) sind unabhängige, identisch Bernoulli-verteilte Zufallsvariablen. Für das Stichprobenmittel 1 X= n n ∑ i=1 p⋅(1–p) = 0 für alle 0<p<1 k⋅n →∞ Xi gilt: lim P(|X - p|> k)= lim n→∞ n für jedes konstante p und für alle vorgegebenen Schranken k. Es bedeutet, daß bei Bernoulli-verteilten Zufallsvariablen das Stichprobenmittel sich mit wachsender Stichprobenlänge der (“wahren”) Wahrscheinlichkeit p nähert. Man beachte, daß das Ergebnis nicht davon abhängt, daß p=1/2 ist; m.a.W. es gilt auch für nicht faire Münzen! 21 Satz 4 (Zentraler Grenzwertsatz) Sei (X1, X2, ..., Xn) eine Zufallsstichprobe aus der Grundgesamtheit der Zufallsvariablen X mit E(X) = µ und var(X) = σ2, d.h. Xi (i=1, 2, ..., n) sind unabhängige, identisch verteilte Zufallsvariable. Sei weiter n ∑ Yn = Xi , i=1 und sei die zugehörige standardisierte Zufallsgröße n Zn = Yn – E(Yn) Dann gilt: ∑ X i - n⋅µ = i=1 var(Yn) σ⋅ n = X-µ X-µ ⋅ n = . σ σ/ n lim P(Z n ≤ z) = Φ(z) , n→ ∞ wobei Φ(z) der Wert der Verteilungsfunktion der Standard-Normalverteilung ist. Dieser Satz ist eines der wichtigsten Ergebnisse der Statistik, denn er sagt aus, daß ungeachtet der zugrundeliegenden Verteilung bei genügend großen Stichproben stets die Normalverteilung angewendet werden kann. Um die Bedeutung dieses Satzes zu illustrieren, wird das Mathematica-Programm “Kap-13-ZGWS.nb” benutzt. Eine Illustration wird hier vorgeführt: Beispiel 21 (Ein Beispiel zum Programm ZGWS) Aufruf: Print[Beispiel: eine beliebige Zähldichte]; 1 ZGWS[{1, 2, 3, 20, 23, 35}, -- {4, 2, 1, 3, 4, 6}, 50, 20, Spalten -> 12] 20 Ergebnisprotokoll: Beispiel: eine beliebige Zähldichte Zähldichte der Zufallsvariablen X von 6 Werten 373 74611 mit E(X) =---; var(X) =----20 400 22 Eine Stichprobe _ Die empirische Zähldichte der Mittelwerte X aus 10 Stichproben der Länge 20 im Vergleich zu N(18.65,9.326375) _ Die X sind annähernd N(18.65,9.326375)-verteilt. _ Mittelwert X über alles: 17.99 mit zugehöriger Varianz: 7.8649 Die Zahl von 10 Stichproben ist nicht übermäßig groß, daher ist die Anpasung nicht sehr fein, aber angesichts der Gestalt der Ausgangszähldichte dennoch beeindruckend. 23 Beispiel 22 (Stichprobenumfang, Intervallbreite und Zentraler Grenzwertsatz) Für eine Stichprobe vom Umfang 100 ist der Mittelwert bekannt, und die Standardabweichung der zugrundeliegenden Zufallsvariablen beträgt 2. a) Wie groß ist mindestens die Wahrscheinlichkeit dafür, daß der Abstand von X zum tatsächlichen Mittelwert höchstens 0.2 beträgt? b) Wie ändert sich Ihr Resultat, wenn Sie die Genauigkeitsanforderung verdoppeln? c) Verdoppelt sich die Wahrscheinlichkeit mit verdoppelter Stichprobenlänge? d) Wie ändern sich die Ergebnisse, wenn der Zentrale Grenzwertsatz benutzt wird? Lösung: Da über die Verteilung nichts bekannt ist, wird die Chebyshevsche Ungleichung angewandt. Die gesuchte Wahrscheinlichkeit sei x: var(X) var(X) 4 a) P(| X -µ|≤ 0.2) ≥ x ⇔ {0.2 = k und x = 1 , var(X) = = = 0.04; n 100 k2 var(X) = 0.2, also x = 0, d.h. die Chebyshevsche Ungleichung behauptet nur, daß es eine Wahrscheinlichkeit gibt. b) Die Genauigkeitsanforderung zu verdoppeln, heißt den Abstand vom tatsächlichen (“wahren”) Erwartungswert zu halbieren: var(X) 0.04 Für P(| X -µ|≤ k) ≥ x und k= 0.1 folgen x = 1 =1<0; 0.01 k2 ein solch negatives Ergebnis ist ebenfalls unbrauchbar. c) Bei Verdoppelung der Stichprobe ändert sich die Stichprobenvarianz zu 4 1 0.02 var(X) = = = 0.02, var(X) ≈ 0.14, x = 1 = 0.5 bzw. für das halbierte 200 50 0.04 0.02 Intervall, x = 1 <0, also P = 0.0 0.01 d) Die Stichprobe ist vom Umfang n=100. Aufgrund des Zentralen Grenzwertsatzes gilt mit E(X) = µ (bekannt), var(X) = 0.04, var(X) = 0.2. µ + 0.2 – µ µ – 0.2– µ P(| X -µ|≤ 0.2) = P(X ≤ µ + 0.2) - P(X ≤ µ - 0.2) = Φ( ) - Φ( ) var(X) var(X) 0.2 0.2 = Φ( ) - Φ() = Φ(1) - Φ(- 1) = 0.8413 - 0.1587 = 0.6826 0.2 0.2 Für das halbierte Intervall gilt µ + 0.1 – µ µ – 0.1– µ P(| X -µ|≤ 0.1) = P(X ≤ µ + 0.1) - P(X ≤ µ - 1) = Φ( ) - Φ( ) var(X) var(X) 0.1 0.1 = Φ( ) - Φ() = Φ(0.5) - Φ(- 0.5) = 0.6915 - 0.3085 = 0.3830 0.2 0.2 Die Stichprobe ist vom Umfang n=200. Bei Verdoppelung der Stichprobe und Anwendung des Zentralen Grenzwertsatzes folgen entsprechend 0.20 0.20 P(| X -µ|≤ 0.2) = Φ( ) - Φ() = Φ(1.428) - Φ(- 1.428) ≈ 0.9236 - 0.0764 = 0.8472 0.14 0.14 0.10 0.10 P(| X -µ|≤ 0.1) = Φ( ) - Φ() = Φ(0.714) - Φ(- 0.714) ≈ 0.7611 - 0.2389 = 0.5222 0.14 0.14 24 Anmerkung zu Teilaufgabe c) Die Einschluß-Wahrscheinlichkeit verdoppelt sich nicht, wenn die Stichprobenlänge verdoppelt wird; man siehe die Formel für var(X) ; nicht n, sondern n ist entscheidend, wie die Übersicht zeigt: n=100 n=200 P(| X -µ|≤ 0.2) 0.6826 P(| X -µ|≤ 0.1) 0.3830 P(| X -µ|≤ 0.2) 0.8472 P(| X -µ|≤ 0.1) 0.5222 Illustration 23 (Zwei zugehörige Programme) Anhang 1.1 Beschreibung zu “Kap-13-Chebyshev.nb” Anhang 1.2 “Kap-13-Chebyshev.nb” Anhang 2.1 Beschreibung zu “Kap-13-ZGWS.nb” Anhang 2.2 “Kap-13-ZGWS.nb” Illustration 24 (Zwei Bilder zum Kapitel) Siehe nächste Seite. 25 Zwei Abbildungen zum Kapitel THE NORMAL LAW OF ERROR STANDS OUT IN THE EXPERIENCE OF MANKIND AS ONE OF THE BROADEST GENERALIZATIONS OF NATURAL PHILOSOPHY ♦ IT SERVES AS THE GUIDING INSTRUMENT IN RESEARCHES IN THE PHYSICAL AND SOCIAL SCIENCES AND IN MEDICINE, AGRICULTURE AND ENGINEERING ♦ IT IS AN INDISPENSABLE TOOL FOR THE ANALYSIS AND THE INTERPRETATION OF THE BASIC DATA OBTAINED BY OBSERVATION AND EXPERIMENT (Source: W. J. Youden, The American Statistician, April-May, 1950, p. 11, bottom) Das Gesetz der Großen Zahl