Vorlesung 7b Der Zentrale Grenzwertsatz 1 Binomialverteilte Zufallsvariable kann man verstehen als 2 Binomialverteilte Zufallsvariable kann man verstehen als Summen von unabhängigen, identisch verteilten {0, 1}-wertigen Zufallsvariablen. Binomialverteilte Zufallsvariable kann man verstehen als Summen von unabhängigen, identisch verteilten {0, 1}-wertigen Zufallsvariablen. Den Satz von de Moivre-Laplace kann man auch so lesen: Binomialverteilte Zufallsvariable kann man verstehen als Summen von unabhängigen, identisch verteilten {0, 1}-wertigen Zufallsvariablen. Den Satz von de Moivre-Laplace kann man auch so lesen: Die standardisierte Summe von unabhängigen, identisch verteilten {0, 1}-wertigen Zufallsvariablen konvergiert in Verteilung gegen eine standard-normalverteilte Zufallsvariable. Es ist eine tolle (und zentrale) Botschaft der W-Theorie, 3 Es ist eine tolle (und zentrale) Botschaft der W-Theorie, dass dies auch richtig bleibt, wenn man die Es ist eine tolle (und zentrale) Botschaft der W-Theorie, dass dies auch richtig bleibt, wenn man die {0, 1}-wertigen Zufallvariablen Es ist eine tolle (und zentrale) Botschaft der W-Theorie, dass dies auch richtig bleibt, wenn man die {0, 1}-wertigen Zufallvariablen durch Es ist eine tolle (und zentrale) Botschaft der W-Theorie, dass dies auch richtig bleibt, wenn man die {0, 1}-wertigen Zufallvariablen durch R-wertige Zufallsvariable mit endlicher Varianz Es ist eine tolle (und zentrale) Botschaft der W-Theorie, dass dies auch richtig bleibt, wenn man die {0, 1}-wertigen Zufallvariablen durch R-wertige Zufallsvariable mit endlicher Varianz ersetzt. Zentraler Grenzwertsatz (Tschebyscheff) 4 Zentraler Grenzwertsatz (Tschebyscheff) Die standardisierte Summe von unabhängigen, identisch verteilten R-wertigen Zufallsvariablen Zentraler Grenzwertsatz (Tschebyscheff) Die standardisierte Summe von unabhängigen, identisch verteilten R-wertigen Zufallsvariablen konvergiert in Verteilung Zentraler Grenzwertsatz (Tschebyscheff) Die standardisierte Summe von unabhängigen, identisch verteilten R-wertigen Zufallsvariablen konvergiert in Verteilung gegen eine standard-normalverteilte Zufallsvariable. Formal: 5 Formal: Seien X1, X2, . . . unabhängige und identisch verteilte Zufallsvariable mit endlichem Erwartungswert µ und endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R Formal: Seien X1, X2, . . . unabhängige und identisch verteilte Zufallsvariable mit endlichem Erwartungswert µ und endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R X1 + · · · + Xn − nµ √ ∈ [a, b] n→∞ −→ P{Z ∈ [a, b]}. P 2 nσ Formal: Seien X1, X2, . . . unabhängige und identisch verteilte Zufallsvariable mit endlichem Erwartungswert µ und endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R X1 + · · · + Xn − nµ √ ∈ [a, b] n→∞ −→ P{Z ∈ [a, b]}. P 2 nσ Dabei ist Z standard-normalverteilt. Formal: Seien X1, X2, . . . unabhängige und identisch verteilte Zufallsvariable mit endlichem Erwartungswert µ und endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R X1 + · · · + Xn − nµ √ P ∈ [a, b] n→∞ −→ P{Z ∈ [a, b]}. nσ 2 Dabei ist Z standard-normalverteilt. Noch zu klären ist: Was heißt: X1, X2, . . . unabhängig ? Die Zufallsvariablen X1, . . . , Xn heißen (stochastisch) unabhängig, 6 Die Zufallsvariablen X1, . . . , Xn heißen (stochastisch) unabhängig, wenn ihre gemeinsame Verteilung die folgende Produktgestalt hat: Die Zufallsvariablen X1, . . . , Xn heißen (stochastisch) unabhängig, wenn ihre gemeinsame Verteilung die folgende Produktgestalt hat: P{X1 ∈ A1, . . . , Xn ∈ An} = P{X1 ∈ A1} · · · P{Xn ∈ An} . Sind die Zufallsvariablen Xi diskret, dann ist notwendig und hinreichend für ihre Unabhängigkeit, dass 7 Sind die Zufallsvariablen Xi diskret, dann ist notwendig und hinreichend für ihre Unabhängigkeit, dass P{X1 = a1, . . . , Xn = an} = P{X1 = a1} · · · P{Xn = an} . Sind die Zufallsvariablen Xi diskret, dann ist notwendig und hinreichend für ihre Unabhängigkeit, dass P{X1 = a1, . . . , Xn = an} = P{X1 = a1} · · · P{Xn = an} . M.a. W.: Die gemeinsamen Verteilungsgewichte sind die Produkte der Randverteilungsgewichte: Sind die Zufallsvariablen Xi diskret, dann ist notwendig und hinreichend für ihre Unabhängigkeit, dass P{X1 = a1, . . . , Xn = an} = P{X1 = a1} · · · P{Xn = an} . M.a. W.: Die gemeinsamen Verteilungsgewichte sind die Produkte der Randverteilungsgewichte: ν(a1, . . . , an) = ν1(a1) · · · νn(an) . Wenn die Zufallsvariablen X1, . . . , Xn eine gemeinsame Dichte besitzen, 8 Wenn die Zufallsvariablen X1, . . . , Xn eine gemeinsame Dichte besitzen, dann ist die Unabhängigkeit gleichbedeutend damit, Wenn die Zufallsvariablen X1, . . . , Xn eine gemeinsame Dichte besitzen, dann ist die Unabhängigkeit gleichbedeutend damit, dass diese Dichte das Produkt über die Dichten der Randverteilungen ist: Wenn die Zufallsvariablen X1, . . . , Xn eine gemeinsame Dichte besitzen, dann ist die Unabhängigkeit gleichbedeutend damit, dass diese Dichte das Produkt über die Dichten der Randverteilungen ist: f (x1, . . . , xn) d(x1, . . . , xn) = f1(x1) · · · fn(xn) dx1 · · · dxn Beispiel: 9 Beispiel: Unabhängige standard-normalverteilte Z1, . . . , Zn Beispiel: Unabhängige standard-normalverteilte Z1, . . . , Zn haben die gemeinsame Dichte Beispiel: Unabhängige standard-normalverteilte Z1, . . . , Zn haben die gemeinsame Dichte 1 (2π) n/2 2+···+z 2)/2 −(z n 1 e dz = 1 (2π)n/2 2/2 −||z|| e dz. Sind Z1, . . . , Zn unabhängig und standard-normalverteilt, 10 Sind Z1, . . . , Zn unabhängig und standard-normalverteilt, dann ist auch Sind Z1, . . . , Zn unabhängig und standard-normalverteilt, dann ist auch 1 Y := √ (Z1 + . . . + Zn) n Sind Z1, . . . , Zn unabhängig und standard-normalverteilt, dann ist auch 1 Y := √ (Z1 + . . . + Zn) n standard-normalverteilt. Sind Z1, . . . , Zn unabhängig und standard-normalverteilt, dann ist auch 1 Y := √ (Z1 + . . . + Zn) n standard-normalverteilt. Am elegantesten sieht man das geometrisch Sind Z1, . . . , Zn unabhängig und standard-normalverteilt, dann ist auch 1 Y := √ (Z1 + . . . + Zn) n standard-normalverteilt. Am elegantesten sieht man das geometrisch (vgl. Vorlesung 6a für den Fall n = 2): Wir betrachten im Rn den Einheitsvektor ~a := √1n (1, . . . , 1). 11 Wir betrachten im Rn den Einheitsvektor ~a := √1n (1, . . . , 1). 1 Y := √ (Z1 + . . . + Zn) n Wir betrachten im Rn den Einheitsvektor ~a := √1n (1, . . . , 1). 1 Y := √ (Z1 + . . . + Zn) n lässt sich auffassen als ~a-Koordinate des zufälligen Vektors Z := (Z1, . . . , Zn). Wir betrachten im Rn den Einheitsvektor ~a := √1n (1, . . . , 1). 1 Y := √ (Z1 + . . . + Zn) n lässt sich auffassen als ~a-Koordinate des zufälligen Vektors Z := (Z1, . . . , Zn). Wegen der Rotationsinvarianz der Verteilung von Z Wir betrachten im Rn den Einheitsvektor ~a := √1n (1, . . . , 1). 1 Y := √ (Z1 + . . . + Zn) n lässt sich auffassen als ~a-Koordinate des zufälligen Vektors Z := (Z1, . . . , Zn). Wegen der Rotationsinvarianz der Verteilung von Z ist Y so verteilt wie die erste Standardkoordinate Z1. Die folgende einfache Bemerkung wird uns auch hilfreich sein beim Beweis des Zentralen Grenzwertsatzes: 12 Die folgende einfache Bemerkung wird uns auch hilfreich sein beim Beweis des Zentralen Grenzwertsatzes: Sind Y1, . . . , Yn unabhängig, dann sind für m < n auch die beiden Tupel Die folgende einfache Bemerkung wird uns auch hilfreich sein beim Beweis des Zentralen Grenzwertsatzes: Sind Y1, . . . , Yn unabhängig, dann sind für m < n auch die beiden Tupel (Y1, . . . , Ym) und (Ym+1, . . . , Yn) Die folgende einfache Bemerkung wird uns auch hilfreich sein beim Beweis des Zentralen Grenzwertsatzes: Sind Y1, . . . , Yn unabhängig, dann sind für m < n auch die beiden Tupel (Y1, . . . , Ym) und (Ym+1, . . . , Yn) voneinander unabhängig. Inbesondere folgt aus der Unabhängigkeit der Y1, . . . , Yn, 13 Inbesondere folgt aus der Unabhängigkeit der Y1, . . . , Yn, für reellwertige g und h die folgende Inbesondere folgt aus der Unabhängigkeit der Y1, . . . , Yn, für reellwertige g und h die folgende Produktformel: Inbesondere folgt aus der Unabhängigkeit der Y1, . . . , Yn, für reellwertige g und h die folgende Produktformel: E[g(Y1, . . . , Ym) h(Ym+1, . . . , Yn)] = E[g(Y1, . . . , Ym)]E[h(Ym+1, . . . , Yn)], Inbesondere folgt aus der Unabhängigkeit der Y1, . . . , Yn, für reellwertige g und h die folgende Produktformel: E[g(Y1, . . . , Ym) h(Ym+1, . . . , Yn)] = E[g(Y1, . . . , Ym)]E[h(Ym+1, . . . , Yn)], vorausgesetzt die Erwartungswerte sind endlich. Inbesondere folgt aus der Unabhängigkeit der Y1, . . . , Yn, für reellwertige g und h die folgende Produktformel: E[g(Y1, . . . , Ym) h(Ym+1, . . . , Yn)] = E[g(Y1, . . . , Ym)]E[h(Ym+1, . . . , Yn)], vorausgesetzt die Erwartungswerte sind endlich. (Vgl. dazu auch Vorlesung 5a.) Definition: 14 Definition: Eine Folge von Zufallsvariablen Y1, Y2, . . . heißt unabhängig, Definition: Eine Folge von Zufallsvariablen Y1, Y2, . . . heißt unabhängig, wenn je endlich viele Y1, . . . , Yn unabhängig sind. Wir sind jetzt vorbereitet auf eine Beweisskizze des Zentralen Grenzwertsatzes. Dieser besagt: 15 Wir sind jetzt vorbereitet auf eine Beweisskizze des Zentralen Grenzwertsatzes. Dieser besagt: Seien X1, X2, . . . unabhängige und identisch verteilte Zufallsvariable mit endlichem Erwartungswert µ und endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R Wir sind jetzt vorbereitet auf eine Beweisskizze des Zentralen Grenzwertsatzes. Dieser besagt: Seien X1, X2, . . . unabhängige und identisch verteilte Zufallsvariable mit endlichem Erwartungswert µ und endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R X1 + · + Xn − nµ √ ∈ [a, b] n→∞ −→ P{Z ∈ [a, b]}. P 2 nσ Wir sind jetzt vorbereitet auf eine Beweisskizze des Zentralen Grenzwertsatzes. Dieser besagt: Seien X1, X2, . . . unabhängige und identisch verteilte Zufallsvariable mit endlichem Erwartungswert µ und endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R X1 + · + Xn − nµ √ ∈ [a, b] n→∞ −→ P{Z ∈ [a, b]}. P 2 nσ Dabei ist Z standard-normalverteilt. X1, X2, . . . seien identisch verteilte rellwertige Zufallsvariable mit endlicher Varianz. 16 X1, X2, . . . seien identisch verteilte rellwertige Zufallsvariable mit endlicher Varianz. Ohne Einschränkung können wir annehmen: X1, X2, . . . seien identisch verteilte rellwertige Zufallsvariable mit endlicher Varianz. Ohne Einschränkung können wir annehmen: E[Xi] = 0, VarXi = 1. X1, X2, . . . seien identisch verteilte rellwertige Zufallsvariable mit endlicher Varianz. Ohne Einschränkung können wir annehmen: E[Xi] = 0, VarXi = 1. (Denn sonst gehen wir einfach zu den standardisierten Zufallsvariablen Xiσ−µ über.) Die Behauptung ist dann: 17 Die Behauptung ist dann: E 1[a,b] + · · · + X n 1 −→ E[1[a,b](Z)] √ n→∞ n X Die Behauptung ist dann: E 1[a,b] + · · · + X n 1 −→ E[1[a,b](Z)] √ n→∞ n X mit standard-normalverteiltem Z. Weil man Indikatorfunktionen 1[a,b] durch “glatte” Funktionen h approximieren kann, reicht es (wie man zeigen kann, mehr dazu später), diese Konvergenz nur für solche h zu beweisen. 1 a b 18 Satz. 19 Satz. Sei h : R → R dreimal stetig differenzierbar Satz. Sei h : R → R dreimal stetig differenzierbar und seien h, h′, h′′ und h′′′ beschränkt. Dann gilt Satz. Sei h : R → R dreimal stetig differenzierbar und seien h, h′, h′′ und h′′′ beschränkt. Dann gilt + · · · + X n 1 −→ E[h(Z)] √ n→∞ n X Eh Beweisskizze: ∗ ∗ Wir folgen einem im Klassiker “Probability” von Leo Breiman (SIAM 1992) angegebenen Beweis. 20 Beweisskizze: ∗ Die Hauptidee besteht darin, eine Folge von unabhängigen standard-normalverteilten Zufallsvariablen (Z1, Z2, . . .) ∗ Wir folgen einem im Klassiker “Probability” von Leo Breiman (SIAM 1992) angegebenen Beweis. Beweisskizze: ∗ Die Hauptidee besteht darin, eine Folge von unabhängigen standard-normalverteilten Zufallsvariablen (Z1, Z2, . . .) ins Spiel zu bringen, die zusammen mit (X1, X2, . . .) ∗ Wir folgen einem im Klassiker “Probability” von Leo Breiman (SIAM 1992) angegebenen Beweis. Beweisskizze: ∗ Die Hauptidee besteht darin, eine Folge von unabhängigen standard-normalverteilten Zufallsvariablen (Z1, Z2, . . .) ins Spiel zu bringen, die zusammen mit (X1, X2, . . .) ein zufälliges Paar von Folgen bilden. Dabei seien alle Z1, Z2, . . . , X1, X2, . . . unabhängig. ∗ Wir folgen einem im Klassiker “Probability” von Leo Breiman (SIAM 1992) angegebenen Beweis. Beweisskizze: ∗ Die Hauptidee besteht darin, eine Folge von unabhängigen standard-normalverteilten Zufallsvariablen (Z1, Z2, . . .) ins Spiel zu bringen, die zusammen mit (X1, X2, . . .) ein zufälliges Paar von Folgen bilden. Dabei seien alle Z1, Z2, . . . , X1, X2, . . . unabhängig. Wir wissen schon, dass gilt: ∗ Wir folgen einem im Klassiker “Probability” von Leo Breiman (SIAM 1992) angegebenen Beweis. Beweisskizze: ∗ Die Hauptidee besteht darin, eine Folge von unabhängigen standard-normalverteilten Zufallsvariablen (Z1, Z2, . . .) ins Spiel zu bringen, die zusammen mit (X1, X2, . . .) ein zufälliges Paar von Folgen bilden. Dabei seien alle Z1, Z2, . . . , X1, X2, . . . unabhängig. Wir wissen schon, dass gilt: Z E[h(Z)] = E h ∗ Wir + · · · + Z n 1 . √ n folgen einem im Klassiker “Probability” von Leo Breiman (SIAM 1992) angegebenen Beweis. Außerdem ergibt sich mit der Linearität des Erwartungswertes: 21 Außerdem ergibt sich mit der Linearität des Erwartungswertes: X Eh 1 Z1 + · · · + Zn + · · · + Xn −E h √ √ n n Außerdem ergibt sich mit der Linearität des Erwartungswertes: X Eh 1 Z1 + · · · + Zn + · · · + Xn −E h √ √ n n X =Eh 1 Z + · · · + Zn + · · · + Xn −h 1 √ √ n n Außerdem ergibt sich mit der Linearität des Erwartungswertes: X 1 Eh Z1 + · · · + Zn + · · · + Xn −E h √ √ n n X =Eh 1 Z + · · · + Zn + · · · + Xn ). −h 1 √ √ n n Es reicht also zu zeigen, dass letzteres für n → ∞ gegen Null konvergiert. 22 Eine clevere Idee ist es jetzt, die Differenz als Teleskopsumme darzustellen: 23 Eine clevere Idee ist es jetzt, die Differenz als Teleskopsumme darzustellen: X h 1 Z + · · · + Zn + · · · + Xn 1 − h √ √ n n Eine clevere Idee ist es jetzt, die Differenz als Teleskopsumme darzustellen: X h = 1 n X X 1 h i=1 X −h 1 Z + · · · + Zn + · · · + Xn 1 − h √ √ n n + · · · + Xi−1 + Xi + Zi+1 + · · · + Zn √ n + · · · + Xi−1 + Zi + Zi+1 + · · · + Zn √ n Taylorentwicklung ergibt: 24 Taylorentwicklung ergibt: n X Xi − Zi ′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h = √ √ n n i=1 Taylorentwicklung ergibt: n X Xi − Zi ′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h = √ √ n n i=1 Xi2 − Zi2 ′′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h + √ 2n n i=1 n X Taylorentwicklung ergibt: n X Xi − Zi ′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h = √ √ n n i=1 Xi2 − Zi2 ′′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h + √ 2n n i=1 n X Xi3 ′′′ Zi3 ′′′ h (Yi) − h (Ỹi) + 3/2 3/2 6n i=1 6n n X Taylorentwicklung ergibt: n X Xi − Zi ′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h = √ √ n n i=1 Xi2 − Zi2 ′′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h + √ 2n n i=1 n X Xi3 ′′′ Zi3 ′′′ h (Yi) − h (Ỹi) + 3/2 3/2 6n i=1 6n n X mit passenden Zwischenstellen Yi, Ỹi. Wir nehmen der Einfachheit halber an: 25 Wir nehmen der Einfachheit halber an: E[|X1|3] < ∞. Wir nehmen der Einfachheit halber an: E[|X1|3] < ∞. Ist C eine obere Schranke von |h′′′|, so folgt Wir nehmen der Einfachheit halber an: E[|X1|3] < ∞. Ist C eine obere Schranke von |h′′′|, so folgt X1 E h Z + · · · + Zn + · · · + Xn −h 1 √ √ n n 1 ≤ n 3/2 (E[|X1|3] + E[|Z1|3])C −→ 0, 6n Wir nehmen der Einfachheit halber an: E[|X1|3] < ∞. Ist C eine obere Schranke von |h′′′|, so folgt X1 E h Z + · · · + Zn + · · · + Xn −h 1 √ √ n n 1 ≤ n 3/2 (E[|X1|3] + E[|Z1|3])C −→ 0, 6n denn die Erw. werte der ersten beiden Summen sind Null Wir nehmen der Einfachheit halber an: E[|X1|3] < ∞. Ist C eine obere Schranke von |h′′′|, so folgt X1 E h Z + · · · + Zn + · · · + Xn −h 1 √ √ n n 1 ≤ n 3/2 (E[|X1|3] + E[|Z1|3])C −→ 0, 6n denn die Erw. werte der ersten beiden Summen sind Null wegen E[X1] = E[Z1] = 0 und E[X12] = E[Z12] = 1, Wir nehmen der Einfachheit halber an: E[|X1|3] < ∞. Ist C eine obere Schranke von |h′′′|, so folgt X1 E h Z + · · · + Zn + · · · + Xn −h 1 √ √ n n 1 ≤ n 3/2 (E[|X1|3] + E[|Z1|3])C −→ 0, 6n denn die Erw. werte der ersten beiden Summen sind Null wegen E[X1] = E[Z1] = 0 und E[X12] = E[Z12] = 1, zusammen mit der Unabhängigkeit der Xi, Zi Wir nehmen der Einfachheit halber an: E[|X1|3] < ∞. Ist C eine obere Schranke von |h′′′|, so folgt X1 E h Z + · · · + Zn + · · · + Xn −h 1 √ √ n n 1 ≤ n 3/2 (E[|X1|3] + E[|Z1|3])C −→ 0, 6n denn die Erw. werte der ersten beiden Summen sind Null wegen E[X1] = E[Z1] = 0 und E[X12] = E[Z12] = 1, zusammen mit der Unabhängigkeit der Xi, Zi und der oben festgestellten Produktformel. Hier ist die (oben präzisierte) Botschaft der Stunde: 26 Hier ist die (oben präzisierte) Botschaft der Stunde: Summen (und Mittelwerte) von vielen unabhängigen, identisch verteilten ZV mit endlicher Varianz sind annähernd normalverteilt. Hier ist die (oben präzisierte) Botschaft der Stunde: Summen (und Mittelwerte) von vielen unabhängigen, identisch verteilten ZV mit endlicher Varianz sind annähernd normalverteilt. Diese Aussage bleibt übrigens auch unter schwächeren Bedingungen bestehen, Hier ist die (oben präzisierte) Botschaft der Stunde: Summen (und Mittelwerte) von vielen unabhängigen, identisch verteilten ZV mit endlicher Varianz sind annähernd normalverteilt. Diese Aussage bleibt übrigens auch unter schwächeren Bedingungen bestehen, sowohl was die Unabhängigkeit, als auch was die identische Verteiltheit betrifft. Hier ist die (oben präzisierte) Botschaft der Stunde: Summen (und Mittelwerte) von vielen unabhängigen, identisch verteilten ZV mit endlicher Varianz sind annähernd normalverteilt. Diese Aussage bleibt übrigens auch unter schwächeren Bedingungen bestehen, sowohl was die Unabhängigkeit, als auch was die identische Verteiltheit betrifft. Zu letzterem vgl Skript Kersting, Abschnitt 6.3. Eine gängige und nützliche Variante unseres Zentralen Grenzwertsatzes ist: 27 Eine gängige und nützliche Variante unseres Zentralen Grenzwertsatzes ist: Seien X1, X2, . . . unabhängig und identisch verteilt mit endlichem Erwartungswert µ und endlicher Varianz σ 2. Dann gilt für die standardisierten Summen X1 + · + Xn − nµ √ : Vn := 2 nσ Eine gängige und nützliche Variante unseres Zentralen Grenzwertsatzes ist: Seien X1, X2, . . . unabhängig und identisch verteilt mit endlichem Erwartungswert µ und endlicher Varianz σ 2. Dann gilt für die standardisierten Summen X1 + · + Xn − nµ √ : Vn := 2 nσ E[g(Vn)] n→∞ −→ E[g(Z)] für jede stetige und beschränkte Abbildung g : R → R. Eine gängige und nützliche Variante unseres Zentralen Grenzwertsatzes ist: Seien X1, X2, . . . unabhängig und identisch verteilt mit endlichem Erwartungswert µ und endlicher Varianz σ 2. Dann gilt für die standardisierten Summen X1 + · + Xn − nµ √ : Vn := 2 nσ E[g(Vn)] n→∞ −→ E[g(Z)] für jede stetige und beschränkte Abbildung g : R → R. Dabei ist Z standard-normalverteilt. (Auch beim Beweis dieser Variante kann man verwenden, dass sich eine stetige und beschränkte Abbildung g geeignet durch glatte Abbildungen h approximieren lässt; mehr dazu später.) 28 Das folgende (auch für sich interessante) Beispiel wird uns einen hübschen Beweis der Stirling-Formel liefern. 29 Das folgende (auch für sich interessante) Beispiel wird uns einen hübschen Beweis der Stirling-Formel liefern. Beispiel: Das folgende (auch für sich interessante) Beispiel wird uns einen hübschen Beweis der Stirling-Formel liefern. Beispiel: Yn sei Poisson-verteilt mit Parameter n. Das folgende (auch für sich interessante) Beispiel wird uns einen hübschen Beweis der Stirling-Formel liefern. Beispiel: Yn sei Poisson-verteilt mit Parameter n. Dann konvergiert für n → ∞ Das folgende (auch für sich interessante) Beispiel wird uns einen hübschen Beweis der Stirling-Formel liefern. Beispiel: Yn sei Poisson-verteilt mit Parameter n. Dann konvergiert für n → ∞ Yn − n Vn := √ n Das folgende (auch für sich interessante) Beispiel wird uns einen hübschen Beweis der Stirling-Formel liefern. Beispiel: Yn sei Poisson-verteilt mit Parameter n. Dann konvergiert für n → ∞ Yn − n Vn := √ n in Verteilung gegen ein standardnormalverteiltes Z. Denn: 30 Denn: Die Summe von n unabhängigen Poisson(1)-verteilten Zufallsvariablen ist Poisson(n)-verteilt (vgl. Übungsaufgabe). Denn: Die Summe von n unabhängigen Poisson(1)-verteilten Zufallsvariablen ist Poisson(n)-verteilt (vgl. Übungsaufgabe). Damit folgt die behauptete Verteilungskonvergenz aus dem Zentralen Grenzwertsatz. Denn: Die Summe von n unabhängigen Poisson(1)-verteilten Zufallsvariablen ist Poisson(n)-verteilt (vgl. Übungsaufgabe). Damit folgt die behauptete Verteilungskonvergenz aus dem Zentralen Grenzwertsatz. (Zur Erinnerung: Die Varianz einer Poisson(λ)-verteilten Zufallsvariable ist λ.) Für ℓ ∈ N sei gℓ(x) := x+ ∧ ℓ, x ∈ R. 31 Für ℓ ∈ N sei gℓ(x) := x+ ∧ ℓ, x ∈ R. Dabei verwenden wir die Notation a ∧ b := min(a, b), a ∨ b := max(a, b), x+ := x ∨ 0. x+ = x ∨ 0 ℓ x+ ∧ ℓ ℓ AAAAAAAAAAAAAAA Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist, liefert der Zentrale Grenzwertsatz: 32 Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist, liefert der Zentrale Grenzwertsatz: E[gℓ(Vn)] n→∞ −→ E[gℓ(Z)] Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist, liefert der Zentrale Grenzwertsatz: E[gℓ(Vn)] n→∞ −→ E[gℓ(Z)] Mit anderen Worten: Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist, liefert der Zentrale Grenzwertsatz: E[gℓ(Vn)] n→∞ −→ E[gℓ(Z)] Mit anderen Worten: −→ E[Z + ∧ ℓ] E[Vn+ ∧ ℓ] n→∞ Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist, liefert der Zentrale Grenzwertsatz: E[gℓ(Vn)] n→∞ −→ E[gℓ(Z)] Mit anderen Worten: −→ E[Z + ∧ ℓ] E[Vn+ ∧ ℓ] n→∞ Behauptung: Es gilt auch Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist, liefert der Zentrale Grenzwertsatz: E[gℓ(Vn)] n→∞ −→ E[gℓ(Z)] Mit anderen Worten: −→ E[Z + ∧ ℓ] E[Vn+ ∧ ℓ] n→∞ Behauptung: Es gilt auch −→ E[Z +] E[Vn+] n→∞ Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist, liefert der Zentrale Grenzwertsatz: E[gℓ(Vn)] n→∞ −→ E[gℓ(Z)] Mit anderen Worten: −→ E[Z + ∧ ℓ] E[Vn+ ∧ ℓ] n→∞ Behauptung: Es gilt auch −→ E[Z +] E[Vn+] n→∞ Dazu schätzen wir die Differenzen ab: E[Z +] − E[Z + ∧ ℓ] 33 E[Z +] − E[Z + ∧ ℓ] = E[Z + − Z + ∧ ℓ] E[Z +] − E[Z + ∧ ℓ] = E[Z + − Z + ∧ ℓ] ≤ E[Z 1[ℓ,∞)(Z)] E[Z +] − E[Z + ∧ ℓ] = E[Z + − Z + ∧ ℓ] ≤ E[Z 1[ℓ,∞)(Z)] 1 Z ∞ −x2/2 xe dx =√ ℓ 2π E[Z +] − E[Z + ∧ ℓ] = E[Z + − Z + ∧ ℓ] ≤ E[Z 1[ℓ,∞)(Z)] 1 Z ∞ −x2/2 xe dx =√ ℓ 2π −→ 0. ℓ→∞ E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ] 34 E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ] ≤ E[Vn 1[ℓ,∞)(Vn)] E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ] ≤ E[Vn 1[ℓ,∞)(Vn)] Mit der Cauchy-Schwarz-Ungleichung E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ] ≤ E[Vn 1[ℓ,∞)(Vn)] Mit der Cauchy-Schwarz-Ungleichung r r E[XY ] ≤ E[X 2] E[Y 2] E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ] ≤ E[Vn 1[ℓ,∞)(Vn)] Mit der Cauchy-Schwarz-Ungleichung r r E[XY ] ≤ E[X 2] E[Y 2] (siehe unten) können wir weiter abschätzen: E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ] ≤ E[Vn 1[ℓ,∞)(Vn)] Mit der Cauchy-Schwarz-Ungleichung r r E[XY ] ≤ E[X 2] E[Y 2] (siehe unten) können wir weiter abschätzen: ≤ r r E[Vn2] E[1[ℓ,∞)(Vn)] E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ] ≤ E[Vn 1[ℓ,∞)(Vn)] Mit der Cauchy-Schwarz-Ungleichung r r E[XY ] ≤ E[X 2] E[Y 2] (siehe unten) können wir weiter abschätzen: ≤ r E[Vn2] r q E[1[ℓ,∞)(Vn)] = 1 · P{Vn ≥ ℓ}. Mit der Tschebyscheff-Ungleichung ergibt sich 35 Mit der Tschebyscheff-Ungleichung ergibt sich (man beachte E[Vn] = 0, Var Vn = 1): Mit der Tschebyscheff-Ungleichung ergibt sich (man beachte E[Vn] = 0, Var Vn = 1): 1 P{Vn ≥ ℓ} ≤ 2 . ℓ Mit der Tschebyscheff-Ungleichung ergibt sich (man beachte E[Vn] = 0, Var Vn = 1): 1 P{Vn ≥ ℓ} ≤ 2 . ℓ Insgesamt also: Mit der Tschebyscheff-Ungleichung ergibt sich (man beachte E[Vn] = 0, Var Vn = 1): 1 P{Vn ≥ ℓ} ≤ 2 . ℓ Insgesamt also: E[Vn+] − E[Vn+ 1 ∧ ℓ] ≤ . ℓ Aus dem eben Bewiesenen, −→ E[Z + ∧ ℓ], E[Vn+ ∧ ℓ] n→∞ 36 Aus dem eben Bewiesenen, −→ E[Z + ∧ ℓ], E[Vn+ ∧ ℓ] n→∞ E[Z +] − E[Z + ∧ ℓ] −→ 0, ℓ→∞ Aus dem eben Bewiesenen, −→ E[Z + ∧ ℓ], E[Vn+ ∧ ℓ] n→∞ E[Z +] − E[Z + ∧ ℓ] −→ 0, ℓ→∞ E[Vn+] − E[Vn+ 1 ∧ ℓ] ≤ , ℓ Aus dem eben Bewiesenen, −→ E[Z + ∧ ℓ], E[Vn+ ∧ ℓ] n→∞ E[Z +] − E[Z + ∧ ℓ] −→ 0, ℓ→∞ E[Vn+] − E[Vn+ 1 ∧ ℓ] ≤ , ℓ folgt −→ E[Z +] E[Vn+] n→∞ Für das standard-normalverteilte Z gilt: 37 Für das standard-normalverteilte Z gilt: 1 1 Z ∞ −x2/2 xe dx = √ E[Z ] = √ 0 2π 2π + Für das standard-normalverteilte Z gilt: 1 1 Z ∞ −x2/2 xe dx = √ E[Z ] = √ 0 2π 2π + Andererseits gilt für das Poisson(n)-verteilte Yn (Übungsaufgabe!) Für das standard-normalverteilte Z gilt: 1 1 Z ∞ −x2/2 xe dx = √ E[Z ] = √ 0 2π 2π + Andererseits gilt für das Poisson(n)-verteilte Yn (Übungsaufgabe!) n+1 n E[(Yn − n)+] = e−n n! Für das standard-normalverteilte Z gilt: 1 1 Z ∞ −x2/2 xe dx = √ E[Z ] = √ 0 2π 2π + Andererseits gilt für das Poisson(n)-verteilte Yn (Übungsaufgabe!) n+1 n E[(Yn − n)+] = e−n n! Also: Für das standard-normalverteilte Z gilt: 1 1 Z ∞ −x2/2 xe dx = √ E[Z ] = √ 0 2π 2π + Andererseits gilt für das Poisson(n)-verteilte Yn (Übungsaufgabe!) n+1 n E[(Yn − n)+] = e−n n! Also: n 1/2 n n 1 + + E[Vn ] = √ E[(Yn − n) ] = n e n! Unser Grenzwertsatz 38 Unser Grenzwertsatz −→ E[Z +] E[Vn+] n→∞ Unser Grenzwertsatz −→ E[Z +] E[Vn+] n→∞ besagt also: Unser Grenzwertsatz −→ E[Z +] E[Vn+] n→∞ besagt also: 1 n n n1/2 −→ √ . n→∞ e n! 2π Unser Grenzwertsatz −→ E[Z +] E[Vn+] n→∞ besagt also: 1 n n n1/2 −→ √ . n→∞ e n! 2π Das ist aber nichts anderes als eine Umstellung der Stirling-Formel, die wir damit aus dem Zentralen Grenzwertsatz hergeleitet haben. Wir tragen nach: 39 Wir tragen nach: Cauchy-Schwarz-Ungleichung: Wir tragen nach: Cauchy-Schwarz-Ungleichung: Für zwei reellwertige Zufallsvariable U , V gilt: Wir tragen nach: Cauchy-Schwarz-Ungleichung: Für zwei reellwertige Zufallsvariable U , V gilt: r r E[|U V |] ≤ E[U 2] E[V 2] Wir tragen nach: Cauchy-Schwarz-Ungleichung: Für zwei reellwertige Zufallsvariable U , V gilt: r r E[|U V |] ≤ E[U 2] E[V 2] Beweis: Ist E[U 2] = 0, so folgt Wir tragen nach: Cauchy-Schwarz-Ungleichung: Für zwei reellwertige Zufallsvariable U , V gilt: r r E[|U V |] ≤ E[U 2] E[V 2] Beweis: Ist E[U 2] = 0, so folgt P{U = 0} = 1, E[|U V |] = 0. Wir tragen nach: Cauchy-Schwarz-Ungleichung: Für zwei reellwertige Zufallsvariable U , V gilt: r r E[|U V |] ≤ E[U 2] E[V 2] Beweis: Ist E[U 2] = 0, so folgt P{U = 0} = 1, E[|U V |] = 0. (Im diskreten Fall ist das klar, für den allgemeinen Fall kommen wir hierauf zurück.) Wir tragen nach: Cauchy-Schwarz-Ungleichung: Für zwei reellwertige Zufallsvariable U , V gilt: r r E[|U V |] ≤ E[U 2] E[V 2] Beweis: Ist E[U 2] = 0, so folgt P{U = 0} = 1, E[|U V |] = 0. (Im diskreten Fall ist das klar, für den allgemeinen Fall kommen wir hierauf zurück.) Wir können also annehmen: 0 < E[U 2], 0 < E[V 2]. Für E[U 2] = ∞ oder E[V 2] = ∞ 40 Für E[U 2] = ∞ oder E[V 2] = ∞ gilt dann die CS-Ungleichung klarerweise. Für E[U 2] = ∞ oder E[V 2] = ∞ gilt dann die CS-Ungleichung klarerweise. Bleibt der Fall 0 < E[U 2] < ∞, 0 < E[V 2] < ∞. Für E[U 2] = ∞ oder E[V 2] = ∞ gilt dann die CS-Ungleichung klarerweise. Bleibt der Fall 0 < E[U 2] < ∞, q Setzen wir X := U/ E[U 2], 0 < E[V 2] < ∞. q Y := V / E[V 2]. Für E[U 2] = ∞ oder E[V 2] = ∞ gilt dann die CS-Ungleichung klarerweise. Bleibt der Fall 0 < E[U 2] < ∞, q Setzen wir X := U/ E[U 2], 0 < E[V 2] < ∞. q Y := V / E[V 2]. Dann gilt E[X 2] = E[Y 2] = 1, und zu zeigen bleibt Für E[U 2] = ∞ oder E[V 2] = ∞ gilt dann die CS-Ungleichung klarerweise. Bleibt der Fall 0 < E[U 2] < ∞, q Setzen wir X := U/ E[U 2], 0 < E[V 2] < ∞. q Y := V / E[V 2]. Dann gilt E[X 2] = E[Y 2] = 1, und zu zeigen bleibt E[|XY |] ≤ 1. Für E[U 2] = ∞ oder E[V 2] = ∞ gilt dann die CS-Ungleichung klarerweise. Bleibt der Fall 0 < E[U 2] < ∞, q Setzen wir X := U/ E[U 2], 0 < E[V 2] < ∞. q Y := V / E[V 2]. Dann gilt E[X 2] = E[Y 2] = 1, und zu zeigen bleibt E[|XY |] ≤ 1. Dies folgt durch Bilden des Erwartungswertes über Für E[U 2] = ∞ oder E[V 2] = ∞ gilt dann die CS-Ungleichung klarerweise. Bleibt der Fall 0 < E[U 2] < ∞, q Setzen wir X := U/ E[U 2], 0 < E[V 2] < ∞. q Y := V / E[V 2]. Dann gilt E[X 2] = E[Y 2] = 1, und zu zeigen bleibt E[|XY |] ≤ 1. Dies folgt durch Bilden des Erwartungswertes über 1 (X 2 + Y 2). |XY | ≤ 2