Kapitel 6 Schwache Konvergenz von W-Verteilungen 6.1 Schwache Konvergenz bzw. Verteilungskonvergenz Bezeichne wieder W(B k ) die Menge aller W-Verteilungen auf der Borel’schen Sigma-Algebra B k in Rk sowie Cb (Rk , R) die Menge aller stetigen beschränkten Funktionen f : Rk −→ R. Definition 6.1 (Schwache Konvergenz von W-Verteilungen) Seien Pn ∈ W(Bk ) ∀ n ∈ N und P ∈ W(Bk ) . Die Folge Pn (n ∈ N) heißt schwach konvergent gegen w P , abkürzende Schreibweise: Pn → P , wenn gilt: Z Z lim f dPn = f dP ∀ f ∈ Cb (Rk , R) . n→∞ Rk Rk Es ist bisweilen anschaulicher und vorteilhafter für die Formulierungen einiger Resultate, wenn die WVerteilungen Pn und P als Verteilungen Rk -wertiger Zufallsvariablen Xn und X auffasst werden. Da es hierbei nur auf die Verteilungen der einzelnen Zufallsvariablen ankommt, müssen diese Zufallsvariablen nicht auf einem gemeinsamen W-Raum (Ω, A, P) definiert sein. Wenn wir in diesem Kapitel von Rk wertigen Zufallsvariablen Xn (n ∈ N) und X sprechen, so soll grundsätzlich die folgende allgemeinere Situation individueller W-Räume zugelassen sein: W-Räume (Ωn , An , Pn ) ∀ n ∈ N und (Ω, A, P) sowie Zufallsvariablen Xn : (Ωn , An ) −→ (Rk , Bk ) ∀ n ∈ N und X : (Ω, A) −→ (Rk , B k ) . Wenn die Zufallsvariablen auf einem gemeinsamen W-Raum (Ω, A, P) definiert sein sollen (z.B. wenn wir Zusammenhänge zur fast-sicheren oder stochastischen Konvergenz betrachten), so werden wir dies explizit zum Ausdruck bringen. 38 Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 6: Schwache Konvergenz von W-Verteilungen 39 Definition 6.2 (Verteilungskonvergenz von Zufallsvariablen) Seien Xn (n ∈ N) eine Folge Rk -wertiger Zufallsvariablen, P ∈ W(B k ) und X eine Rk -wertige Zufallsvariable. (a) Die Folge Xn heißt verteilungskonvergent gegen P oder konvergent in Verteilung gegen P , d w n → P . abkürzende Schreibweise: Xn → P , wenn gilt: PX n (b) Die Folge Xn heißt verteilungskonvergent gegen X oder konvergent in Verteilung gegen X, d w n → PX . abkürzende Schreibweise: Xn → X , wenn gilt: PX n Bemerkung: Eindeutigkeit der Limesverteilung w w Wenn Pn → P und auch Pn → Q für eine Folge Pn ∈ W(Bk ) (n ∈ N) und zwei W-Verteilungen k P, Q ∈ W(B ), dann folgt P = Q. Mit Definition 6.1 folgt nämlich Z Z f dP = Rk Rk f dQ ∀ f ∈ Cb (Rk , R) , und daraus folgt sofort die entsprechende Identität für jedes f ∈ Cb (Rk , C) . Insbesondere folgt die Gleichheit der charakteristischen Funktionen: ϕP = ϕQ und damit P = Q . d Hinsichtlich der Verteilungskonvergenz Xn → X von Rk -wertigen Zufallsvariablen ist offensichtlich, dass die Limesvariable X keineswegs eindeutig bestimmt ist (auch nicht P-f.s.), sondern nur ihre Verteilung PX ist eindeutig bestimmt. Das ist natürlich auch deshalb klar, weil der Konvergenzbegriff d Xn → X nur virtuell ein Konvergenzbegriff für Zufallsvariablen ist, tatsächlich aber ein Konvergenzbegriff (schwache Konvergenz) für die Verteilungen der Zufallsvariablen. Beispiel: Dirac-Verteilungen Für ein x0 ∈ Rk ist die Dirac-Verteilung) (oder Einpunktverteilung) im Punkt x0 gegeben durch δx0 (A) = 1 A (x0 ) ∀ A ∈ B k , und bekanntlich ist δx0 ∈ W(Bk ). Seien nun xn (n ∈ N) eine Punktfolge in Rk und x ∈ Rk . Dann ergibt sich aus Definition 6.1 die Äquivalenz: w lim xn = x ⇐⇒ δx n → δx . n→∞ Beispiel: Diskrete Approximation der R(0, 1)-Verteilung Betrachte für Dimension k = 1 : P = R(0, 1) und n 1 X δj/n . Pn = n j=1 w Dann zeigt man leicht: Pn → R(0, 1). In der Sprache der Zufallsvariablen: ¡ ¢ Wenn Xn (n ∈ N) eine Folge reeller Zufallsvariablen ist mit Xn ∼ U {j/n : j = 1, . . . , n} ∀ n ∈ N , dann konvergiert Xn in Verteilung gegen R(0, 1) . Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 6: Schwache Konvergenz von W-Verteilungen w 40 lim Pn (A) = P (A) ∀ A ∈ B k Bemerkung: Pn → P ist schwächer als n→∞ Ein anderer – zunächst vielleicht näher liegender – Konvergenzbegriff für W-Verteilungen auf B k ist die “punktweise Konvergenz” im Sinne reeller Funktionen auf Bk , d.h. lim Pn (A) = P (A) ∀ A ∈ B k . n→∞ w Die oben gegebenen Beispiele zeigen aber schon, dass die schwache Konvergenz Pn → P nicht die “punktweise Konvergenz” impliziert. In der Tat ist die “punktweise Konvergenz” stärker als die schwache Konvergenz: Wenn w lim Pn (A) = P (A) ∀ A ∈ B k , dann Pn → P , n→∞ (nicht aber umgekehrt). Lemma 6.3 (Stochastische Konvergenz impliziert Verteilungskonvergenz) Seien Xn (n ∈ N) eine Folge Rk -wertiger Zufallsvariablen und X eine Rk -wertige Zufallsvariable, alle definiert auf einem gemeinsamen W-Raum (Ω, A, P). Es gilt: st d (a) Wenn Xn → X , dann Xn → X . (b) Im Fall, dass X = x0 P-f.s. für ein x0 ∈ Rk , gilt auch die Umkehrung von (a), d.h. dann gilt die Äquivalenz: st Xn → x 0 6.2 ⇐⇒ d Xn → x0 ( ⇐⇒ w PXn → δx0 ) . Weitere Beschreibungen der schwachen Konvergenz Für eine Funktion f : Rk −→ R bezeichne wieder Cf die Menge aller Stetigkeitspunkte von f . Wenn P ∈ W(B k ) und P (Cf ) = 1, dann sagen wir, die Funktion f sei P -fast überall stetig. Für eine Teilmenge A ⊆ Rk bezeichne ∂A den Rand von A, d.h. ∂A = cl(A) \ int(A) , wobei cl(A) die abgeschlossene Hülle (kurz: den Abschluss) und int(A) die Menge aller inneren Punkte (kurz: das Innere) von A bezeichnen. Wenn P ∈ W(B k ) und A ⊆ Rk , dann heißt die Menge A P -randlos , wenn P (∂A) = 0. Desweiteren bezeichne neben Cb (Rk , R) (Menge aller stetigen beschränkten reellen Funktionen auf Rk ) noch Cc (Rk , R) die (kleinere) Menge aller stetigen reellen Funktionen auf Rk¢ mit kompaktem Träger. ¡ Unter dem Träger von f : Rk −→ R verstehen wir die Menge cl {f 6= 0} . Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 6: Schwache Konvergenz von W-Verteilungen Theorem 6.4 (Äquivalente Bedingungen für schwache Konvergenz) Seien Pn ∈ W(B k ) ∀ n ∈ N und P ∈ W(B k ) . Die folgenden sechs Bedingungen (i) – (vi) sind äquivalent. w (i) Pn → P . Z Z (ii) lim f dPn = f dP n→∞ Rk Rk Z Z f dPn = f dP (iii) lim n→∞ Rk (iv) Rk ∀ f ∈ Cc (Rk , R) . für jede messbare, beschränkte und P -fast überall stetige Funktion f : Rk −→ R. lim Pn (A) = P (A) für jede P -randlose Menge A ∈ B k . n→∞ (v) lim sup Pn (A) ≤ P (A) n→∞ für jede abgeschlossene Teilmenge A ⊆ Rk . (vi) lim inf Pn (A) ≥ P (A) für jede offene Teilmenge A ⊆ Rk . n→∞ Theorem 6.5 (Beschreibung durch Verteilungsfkt’en und charakteristische Fkt’en) Seien Pn ∈ W(B k ) ∀ n ∈ N und P ∈ W(Bk ) . Bezeichne Fn und ϕn die Verteilungsfunktion bzw. die charakteristische Funktion von Pn (für jedes n ∈ N), sowie F und ϕ die Verteilungsfunktion bzw. die charakteristische Funktion von P . Die folgenden drei Bedingungen (a), (b) und (c) sind äquivalent. w (a) Pn → P . (b) (c) lim Fn (x) = F (x) ∀ x ∈ CF . n→∞ lim ϕn (t) = ϕ(t) ∀ t ∈ Rk . n→∞ Für Dimension k = 1 und eine stetige Limesverteilung (d.h. mit stetiger Verteilungsfunktion) ist die Konvergenz in (b) von Theorem 6.5 sogar gleichmäßig in x ∈ R : Lemma 6.6 (k = 1 und stetige Limesverteilung) Sei k = 1. Seien Pn ∈ W(B1 ) ∀ n ∈ N und P ∈ W(B 1 ) . w Wenn Pn → P und die Verteilungsfunktion F von P stetig ist, dann gilt (mit Fn = Verteilungsfunktion von Pn ∀ n ∈ N) : ³ ¯ ¯´ lim sup ¯ Fn (x) − F (x) ¯ = 0 . n→∞ x∈R Aus der Äquivalenz “(i) ⇐⇒ (iii)” von Theorem 6.4 ergibt sich sofort das Continuous Mapping Theorem (CMT) für schwache Konvergenz bzw. Verteilungskonvergenz. Wir formulieren dies als Verteilungskonvergenz von Zufallsvariablen. Theorem 6.7 (CMT für Verteilungskonvergenz) Seien Xn (n ∈ N) eine Folge Rk -wertiger Zufallsvariablen und X eine Rk -wertige Zufallsvariable. Es gilt: d Wenn Xn → X und G : Rk −→ R` eine messbare und PX -fast-überall stetige Abbildung, d dann G ◦ Xn → G ◦ X . 41 Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 6: Schwache Konvergenz von W-Verteilungen 42 Aus der Äquivalenz “(a) ⇐⇒ (c)” von Theorem 6.5 ergibt sich das folgende Resultat von Cramér und Wold. Korollar 6.8 (Cramér-Wold) Seien X n ∀n ∈ N und X Rk -wertige Zufallsvariablen. Es gilt die folgende Äquivalenz: d Xn → X ⇐⇒ d c0 X n → c0 X ∀ c ∈ Rk mit kck = 1 . d d Aus der Gültigkeit von Xn → X (Rk -wertige ZV’en) und Yn → Y (R` -wertige ZV’en), wobei Xn und Yn auf demselben W-Raum (Ωn , An , Pn ) definiert seien für jedes n, und X und Y auf demselben d W-Raum (Ω, A, P) definiert seien, lässt sich i.A. nicht folgern, dass (Xn , Yn ) → (X, Y ) (Rk+` -wertige ZV’en). Eine Ausnahme ist der Fall, dass für jedes n die beiden Zufallsvariablen Xn und Yn stochastisch unabhängig sind und auch die beiden Zufallsvariablen X und Y stochastisch unabhängig sind. Eine weitere Ausnahme ist der Fall, dass die Zufallsvariable Y eine Konstante ist, Y = y0 P-f.s. mit einem y0 ∈ R` . Diesen letzteren Fall halten wir in folgendem Lemma fest. Lemma 6.9 Seien (Ωn , An , Pn ) ∀ n ∈ N und (Ω, A, P) W-Räume und Xn : (Ωn , An ) −→ (Rk , B k ) und Yn : (Ωn , An ) −→ (R` , B ` ) k k ∀ n ∈ N, ` und X : (Ω, A) −→ (R , B ) sowie y0 ∈ R . Es gilt: d d Wenn Xn → X und Yn → y0 , d und insbesondere: G(Xn , Yn ) → G(X, y0 ) 6.3 d dann (Xn , Yn ) → (X, y0 ) , für G : Rk+` −→ Rm stetig. Zentraler Grenzwertsatz In diesem Abschnitt gehen wir von einer Folge Xi (i ∈ N) von u.i.v. quadrat-P-integrierbaren reellen Zufallsvariablen aus, die auf einem gemeinsamen W-Raum (Ω, A, P) definiert sind. Bezeichne p β := E(Xi ) und σ := Var(Xi ) , und es sei σ > 0. Unser Interesse ist auf das asymptotische (n → ∞) Verhalten der Verteilung der Summenvariablen n X Sn = Xi , n ∈ N , i=1 gerichtet. Um Verteilungskonvergenz zu erhalten, betrachten wir die standardisierten Summenvariablen: Sn − nβ √ , n ∈ N. nσ Offensichtlich haben die standardisierten Summenvariablen alle den Erwartungswert 0 und Varianz gleich 1. Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 6: Schwache Konvergenz von W-Verteilungen 43 Theorem 6.10 (Zentraler Grenzwertsatz, Standard-Version) Seien (Ω, A, P) ein W-Raum und Xi : (Ω, A) −→ (R, B1 ) (i ∈ N) eine Folge u.i.v. quadrat-Pintegrierbarer reeller Zufallsvariablen mit positiver Varianz, und bezeichne p β = E(Xi ) und σ = Var(Xi ) . Dann gilt, mit Sn := n P i=1 Xi (n ∈ N) : Sn − nβ d √ → N(0, 1) . nσ Bemerkung: Gleichmäßige Konvergenz der Verteilungsfunktionen Nach Theorem 6.5 (Äquivalenz (a) ⇐⇒ (b) ) sagt obiger Zentraler Grenzwertsatz: ´ ³ S − nβ n √ ≤ z = Φ(z) , lim P n→∞ nσ ∀z ∈ R , wobei Φ die Verteilungsfunktion von N(0, 1) bezeichnet. Nach Lemma 6.6 ist die Konvergenz gleichmäßig in z ∈ R , d.h. ¯ (n→∞) ¯ ³ S − nβ ´ ¯ ¯ n √ sup ¯ P ≤ z − Φ(z) ¯ −→ 0 . nσ z∈R Daraus ergibt sich das folgende Korollar. Korollar 6.11 (Asymptotik der Verteilung der Summenvariablen) Unter den Voraussetzungen von Theorem 6.10 gilt ¯ ¡ ³ z − nβ ´ ¯ ¢ ¯ ¯ sup ¯ P Sn ≤ z − Φ √ ¯ nσ z∈R (n→∞) −→ 0. Anmerkung: Für großes n haben wir daher als Approximation für die Verteilungsfunktion der Summenvariablen: ³ z − nβ ´ ¡ ¢ P Sn ≤ z ≈ Φ √ ∀ z ∈ R. nσ Beispiel: Normal-Approximation von Binomial-Verteilungen Betrachten wir den Spezialfall von u.i.v. 0-1-wertigen Zufallsvariablen: Xi ∼ Bi(1, p) ∀ i ∈ N , u.i.v. , mit einem p ∈ ( 0 , 1 ) . p Dann ist β = p und σ = p(1 − p). Also haben wir (für großes n) die Approximation ³ z − np ´ ¡ ¢ P Sn ≤ z ≈ Φ p . np(1 − p) Wegen Sn ∼ Bi(n, p) ist dies die Normal-Approximation der Bi(n, p)-Verteilung. Da die Verteilungsfunktion von Bi(n, p) auf den Intervallen z ∈ [ k , k + 1 ) jeweils konstant gleich P ( Sn ≤ k ) ist (für jedes k = 0, 1, . . . , n − 1), ergibt sich für die Wahl z = k + 21 : ³ k + 1 − np ´ für k = 0, 1, . . . , n − 1 , P( Sn ≤ k ) ≈ Φ p 2 np(1 − p) (“Normalapproximation der Binomialverteilung mit Ganzzahligkeitskorrektur”). Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 6: Schwache Konvergenz von W-Verteilungen 44 Im folgenden weiteren Korollar wird bei der Standardisierung der Summenvariablen Sn nicht die exakte Standardabweichung σ verwendet, sondern eine “konsistente Folge von Schätzern” σ bn (n ∈ N). Korollar 6.12 Mit den Bezeichnungen und Voraussetzungen von Theorem 6.10 sei noch eine Folge ¡ ¢ st σ bn : (Ω, A) −→ ( 0 , ∞) , B(10 , ∞) , n ∈ N , mit σ bn → σ gegeben. Dann gilt: Sn − nβ d √ → N(0, 1) . nσ bn Wir formulieren jetzt den Zentralen Grenzwertsatz in einer etwas allgemeineren Version. Theorem 6.13 (Zentraler Grenzwertsatz, etwas allgemeiner) Seien (Ω, A, P) ein W-Raum und Xi : (Ω, A) −→ (R, B1 ) (i ∈ N) eine Folge u.i.v. quadrat-Pintegrierbarer reeller P Zufallsvariablen mit positiver Varianz. Für jedes n ∈ N seien noch a1n , . . . , ann reelle Zahlen mit ni=1 a2in > 0. Betrachte die Zufallsvariablen Tn = n X ain Xi ∀ n ∈ N. i=1 Es gilt: Wenn max1≤i≤n a2in Pn = 0, 2 n→∞ j=1 ajn lim dann Tn − E(Tn ) d p → N(0, 1) . Var(Tn ) Bemerkungen: (1) Im Fall ain = 1 für alle i = 1, . . . , n und alle n ∈ N ist Theorem 6.13 dasselbe wie Theorem 6.10. (2) Eine etwas speziellere Situation hinsichtlich der Koeffizienten als die in Theorem 6.13 betrachtete liegt vor, wenn das “Dreiecksschema” ain (i = 1, . . . , n, n ∈ N) durch eine Folge αi ∈ R (i ∈ N) gegeben ist gemäß ain = αi und damit Tn = Pn i=1 αi Xi . Die weiteren Bedingungen des Theorems an die Koeffizienten lauten dann α1 6= 0 6.4 ∀ i = 1, . . . , n , ∀ n ∈ N , und max1≤i≤n αi2 Pn = 0. 2 n→∞ j=1 αj lim Mehrdimensionale Version des Zentralen Grenzwertsatzes Wir wollen eine mehrdimensionale Version von Theorem 6.10 formulieren. Zunächst bemerken wir , dass das Konvergenzresultat jenes Theorems auch so formuliert werden kann: ¢ d 1 ¡ √ Sn − nβ → N(0, σ 2 ) . n Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 6: Schwache Konvergenz von W-Verteilungen 45 Theorem 6.14 (Mehrdim. Zentraler Grenzwertsatz, Standard-Version) Seien (Ω, A, P) ein W-Raum und X i : (Ω, A) −→ (Rk , B k ) (i ∈ N) eine Folge u.i.v. quadrat-Pintegrierbarer Zufallsvariablen mit positiv definiter Kovarianzmatrix, und bezeichne β = E(X i ) und V = Cov(X i ) . Dann gilt für die Summenvariablen S n := n X X i , (n ∈ N) : i=1 ¢ d 1 ¡ √ S n − nβ → N(0, V ) . n Beispiel: Multinomial-verteilte Zufallsvariablen Pk Seien X i ∼ Mu(1; p1 , . . . , pk ) , i ∈ N, u.i.v. , wobei p1 , . . . , pk > 0 mit j=1 pj = 1 . Dann: β = p = (p1 , . . . , pk )t und V = diag(p) − ppt , aber die Kovarianzmatrix V ist singulär : Rang(V ) = k − 1 , V 1k = 0 . Daher ist Theorem 6.14 nicht direkt anwendbar, wohl aber auf geeignet linear transformierte Variablen: Y i := U X i , (i ∈ N) , wobei U eine fest gewählte (k − 1) × k Matrix sei mit Rang(U ) = k − 1 und £ ¤ (Z.B. U = I k−1 , 0 ). Dabei bezeichnet Bild(U t ) = Bild(U t ) ∩ span{ 1k } = { 0 } . © U t z : z ∈ Rk−1 ª den Bildraum der Matrix U t und span{ 1k } den vom Vektor 1k aufgespannten (eindimensionalen) linearen Teilraum von Rk . Wie man leicht sieht, ist die Kovarianzmatrix von Y i , Cov(Y i ) = U V U t , positiv definit. Die Anwendung desPCLT (Theorem 6.14) auf die Folge Y i ergibt dann, ausgedrückt durch die Summenvariablen S n := ni=1 X i , (n ∈ N), der ursprünglichen Variablen X i : ¡ ¢ d 1 √ U S n − np → N(0 , U V U t ) . n Da S n ∼ Mu(n; p1 , . . . , pk ) , können wir auch formulieren: Wenn S n ∼ Mu(n; p1 , . . . , pk ) ∀ n ∈ N , dann gilt – mit einer Matrix U wie oben : ¡ ¢ d 1 √ U S n − np → N(0 , U V U t ) , n wobei p = (p1 , . . . , pk )t und V = diag(p) − ppt . Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 6: Schwache Konvergenz von W-Verteilungen 46 Die folgende Konsequenz aus dem letzten Beispiel ist für die Statistik bedeutsam. Dazu sei vorausgeschickt: 1 Die Gamma-Verteilung zu den Parameterwerten c = m 2 und λ = 2 , wobei m ∈ N, nennt man auch die Chi-Quadrat-Verteilung mit m Freiheitsgraden, (Abk.: χ2m ), also: ¡ ¢ 1 (für m ∈ N) . χ2m = Ga m 2 , 2 Lemma 6.15 (Asymptotische χ2 -Verteilung der “Pearson-Statistik”) Für jedes n ∈ N sei S n = (Sn1 , . . . , Snk )0 eine Mu(n; p1 , . . . , pk )-verteilte Zufallsvariable, (wobei k ≥ 2 und p1 , . . . , pk > 0 fest sind). Dann gilt: k X (Snj − npj )2 d → χ2k−1 npj j=1 (für n → ∞) .