Schwache Konvergenz von W

Werbung
Kapitel 6
Schwache Konvergenz von
W-Verteilungen
6.1
Schwache Konvergenz bzw. Verteilungskonvergenz
Bezeichne wieder W(B k ) die Menge aller W-Verteilungen auf der Borel’schen Sigma-Algebra B k in Rk
sowie Cb (Rk , R) die Menge aller stetigen beschränkten Funktionen f : Rk −→ R.
Definition 6.1 (Schwache Konvergenz von W-Verteilungen)
Seien Pn ∈ W(Bk ) ∀ n ∈ N und P ∈ W(Bk ) . Die Folge Pn (n ∈ N) heißt schwach konvergent gegen
w
P , abkürzende Schreibweise: Pn → P , wenn gilt:
Z
Z
lim
f dPn =
f dP ∀ f ∈ Cb (Rk , R) .
n→∞ Rk
Rk
Es ist bisweilen anschaulicher und vorteilhafter für die Formulierungen einiger Resultate, wenn die WVerteilungen Pn und P als Verteilungen Rk -wertiger Zufallsvariablen Xn und X auffasst werden. Da es
hierbei nur auf die Verteilungen der einzelnen Zufallsvariablen ankommt, müssen diese Zufallsvariablen
nicht auf einem gemeinsamen W-Raum (Ω, A, P) definiert sein. Wenn wir in diesem Kapitel von Rk wertigen Zufallsvariablen Xn (n ∈ N) und X sprechen, so soll grundsätzlich die folgende allgemeinere
Situation individueller W-Räume zugelassen sein: W-Räume (Ωn , An , Pn ) ∀ n ∈ N und (Ω, A, P)
sowie Zufallsvariablen
Xn : (Ωn , An ) −→ (Rk , Bk ) ∀ n ∈ N
und X : (Ω, A) −→ (Rk , B k ) .
Wenn die Zufallsvariablen auf einem gemeinsamen W-Raum (Ω, A, P) definiert sein sollen (z.B. wenn
wir Zusammenhänge zur fast-sicheren oder stochastischen Konvergenz betrachten), so werden wir dies
explizit zum Ausdruck bringen.
38
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 6: Schwache Konvergenz von W-Verteilungen
39
Definition 6.2 (Verteilungskonvergenz von Zufallsvariablen)
Seien Xn (n ∈ N) eine Folge Rk -wertiger Zufallsvariablen, P ∈ W(B k ) und X eine Rk -wertige Zufallsvariable.
(a) Die Folge Xn heißt verteilungskonvergent gegen P oder konvergent in Verteilung gegen P ,
d
w
n → P .
abkürzende Schreibweise: Xn → P , wenn gilt: PX
n
(b) Die Folge Xn heißt verteilungskonvergent gegen X oder konvergent in Verteilung gegen X,
d
w
n → PX .
abkürzende Schreibweise: Xn → X , wenn gilt: PX
n
Bemerkung: Eindeutigkeit der Limesverteilung
w
w
Wenn Pn → P und auch Pn → Q für eine Folge Pn ∈ W(Bk ) (n ∈ N) und zwei W-Verteilungen
k
P, Q ∈ W(B ), dann folgt P = Q.
Mit Definition 6.1 folgt nämlich
Z
Z
f dP =
Rk
Rk
f dQ ∀ f ∈ Cb (Rk , R) ,
und daraus folgt sofort die entsprechende Identität für jedes f ∈ Cb (Rk , C) . Insbesondere folgt die Gleichheit
der charakteristischen Funktionen: ϕP = ϕQ und damit P = Q .
d
Hinsichtlich der Verteilungskonvergenz Xn → X von Rk -wertigen Zufallsvariablen ist offensichtlich,
dass die Limesvariable X keineswegs eindeutig bestimmt ist (auch nicht P-f.s.), sondern nur ihre Verteilung PX ist eindeutig bestimmt. Das ist natürlich auch deshalb klar, weil der Konvergenzbegriff
d
Xn → X nur virtuell ein Konvergenzbegriff für Zufallsvariablen ist, tatsächlich aber ein Konvergenzbegriff (schwache Konvergenz) für die Verteilungen der Zufallsvariablen.
Beispiel: Dirac-Verteilungen
Für ein x0 ∈ Rk ist die Dirac-Verteilung) (oder Einpunktverteilung) im Punkt x0 gegeben durch
δx0 (A) = 1 A (x0 ) ∀ A ∈ B k ,
und bekanntlich ist δx0 ∈ W(Bk ).
Seien nun xn (n ∈ N) eine Punktfolge in Rk und x ∈ Rk . Dann ergibt sich aus Definition 6.1 die
Äquivalenz:
w
lim xn = x
⇐⇒
δx n → δx .
n→∞
Beispiel: Diskrete Approximation der R(0, 1)-Verteilung
Betrachte für Dimension k = 1 :
P = R(0, 1)
und
n
1 X
δj/n .
Pn =
n
j=1
w
Dann zeigt man leicht: Pn → R(0, 1).
In der Sprache der Zufallsvariablen:
¡
¢
Wenn Xn (n ∈ N) eine Folge reeller Zufallsvariablen ist mit Xn ∼ U {j/n : j = 1, . . . , n} ∀ n ∈ N ,
dann konvergiert Xn in Verteilung gegen R(0, 1) .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 6: Schwache Konvergenz von W-Verteilungen
w
40
lim Pn (A) = P (A) ∀ A ∈ B k
Bemerkung: Pn → P ist schwächer als
n→∞
Ein anderer – zunächst vielleicht näher liegender – Konvergenzbegriff für W-Verteilungen auf B k ist
die “punktweise Konvergenz” im Sinne reeller Funktionen auf Bk , d.h.
lim Pn (A) = P (A) ∀ A ∈ B k .
n→∞
w
Die oben gegebenen Beispiele zeigen aber schon, dass die schwache Konvergenz Pn → P nicht
die “punktweise Konvergenz” impliziert. In der Tat ist die “punktweise Konvergenz” stärker als die
schwache Konvergenz:
Wenn
w
lim Pn (A) = P (A) ∀ A ∈ B k , dann Pn → P ,
n→∞
(nicht aber umgekehrt).
Lemma 6.3 (Stochastische Konvergenz impliziert Verteilungskonvergenz)
Seien Xn (n ∈ N) eine Folge Rk -wertiger Zufallsvariablen und X eine Rk -wertige Zufallsvariable, alle
definiert auf einem gemeinsamen W-Raum (Ω, A, P). Es gilt:
st
d
(a) Wenn Xn → X , dann Xn → X .
(b) Im Fall, dass X = x0 P-f.s. für ein x0 ∈ Rk , gilt auch die Umkehrung von (a), d.h. dann gilt die
Äquivalenz:
st
Xn → x 0
6.2
⇐⇒
d
Xn → x0
( ⇐⇒
w
PXn → δx0 ) .
Weitere Beschreibungen der schwachen Konvergenz
Für eine Funktion f : Rk −→ R bezeichne wieder Cf die Menge aller Stetigkeitspunkte von f .
Wenn P ∈ W(B k ) und P (Cf ) = 1, dann sagen wir, die Funktion f sei P -fast überall stetig.
Für eine Teilmenge A ⊆ Rk bezeichne ∂A den Rand von A, d.h.
∂A = cl(A) \ int(A) ,
wobei cl(A) die abgeschlossene Hülle (kurz: den Abschluss) und int(A) die Menge aller inneren Punkte
(kurz: das Innere) von A bezeichnen.
Wenn P ∈ W(B k ) und A ⊆ Rk , dann heißt die Menge A P -randlos , wenn P (∂A) = 0.
Desweiteren bezeichne neben Cb (Rk , R) (Menge aller stetigen beschränkten reellen Funktionen auf Rk )
noch Cc (Rk , R) die (kleinere) Menge aller stetigen reellen Funktionen
auf Rk¢ mit kompaktem Träger.
¡
Unter dem Träger von f : Rk −→ R verstehen wir die Menge cl {f 6= 0} .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 6: Schwache Konvergenz von W-Verteilungen
Theorem 6.4 (Äquivalente Bedingungen für schwache Konvergenz)
Seien Pn ∈ W(B k ) ∀ n ∈ N und P ∈ W(B k ) . Die folgenden sechs Bedingungen (i) – (vi) sind
äquivalent.
w
(i) Pn → P .
Z
Z
(ii) lim
f dPn =
f dP
n→∞ Rk
Rk
Z
Z
f dPn =
f dP
(iii) lim
n→∞ Rk
(iv)
Rk
∀ f ∈ Cc (Rk , R) .
für jede messbare, beschränkte und P -fast überall stetige
Funktion f : Rk −→ R.
lim Pn (A) = P (A) für jede P -randlose Menge A ∈ B k .
n→∞
(v) lim sup Pn (A) ≤ P (A)
n→∞
für jede abgeschlossene Teilmenge A ⊆ Rk .
(vi) lim inf Pn (A) ≥ P (A) für jede offene Teilmenge A ⊆ Rk .
n→∞
Theorem 6.5 (Beschreibung durch Verteilungsfkt’en und charakteristische Fkt’en)
Seien Pn ∈ W(B k ) ∀ n ∈ N und P ∈ W(Bk ) . Bezeichne Fn und ϕn die Verteilungsfunktion bzw. die
charakteristische Funktion von Pn (für jedes n ∈ N), sowie F und ϕ die Verteilungsfunktion bzw. die
charakteristische Funktion von P . Die folgenden drei Bedingungen (a), (b) und (c) sind äquivalent.
w
(a) Pn → P .
(b)
(c)
lim Fn (x) = F (x) ∀ x ∈ CF .
n→∞
lim ϕn (t) = ϕ(t) ∀ t ∈ Rk .
n→∞
Für Dimension k = 1 und eine stetige Limesverteilung (d.h. mit stetiger Verteilungsfunktion) ist die
Konvergenz in (b) von Theorem 6.5 sogar gleichmäßig in x ∈ R :
Lemma 6.6 (k = 1 und stetige Limesverteilung)
Sei k = 1. Seien Pn ∈ W(B1 ) ∀ n ∈ N und P ∈ W(B 1 ) .
w
Wenn Pn → P und die Verteilungsfunktion F von P stetig ist, dann gilt (mit Fn = Verteilungsfunktion
von Pn ∀ n ∈ N) :
³
¯
¯´
lim sup ¯ Fn (x) − F (x) ¯ = 0 .
n→∞
x∈R
Aus der Äquivalenz “(i) ⇐⇒ (iii)” von Theorem 6.4 ergibt sich sofort das Continuous Mapping
Theorem (CMT) für schwache Konvergenz bzw. Verteilungskonvergenz. Wir formulieren dies als Verteilungskonvergenz von Zufallsvariablen.
Theorem 6.7 (CMT für Verteilungskonvergenz)
Seien Xn (n ∈ N) eine Folge Rk -wertiger Zufallsvariablen und X eine Rk -wertige Zufallsvariable.
Es gilt:
d
Wenn Xn → X und G : Rk −→ R` eine messbare und PX -fast-überall stetige Abbildung,
d
dann G ◦ Xn → G ◦ X .
41
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 6: Schwache Konvergenz von W-Verteilungen
42
Aus der Äquivalenz “(a) ⇐⇒ (c)” von Theorem 6.5 ergibt sich das folgende Resultat von Cramér
und Wold.
Korollar 6.8 (Cramér-Wold)
Seien X n ∀n ∈ N und X Rk -wertige Zufallsvariablen. Es gilt die folgende Äquivalenz:
d
Xn → X
⇐⇒
d
c0 X n → c0 X ∀ c ∈ Rk mit kck = 1 .
d
d
Aus der Gültigkeit von Xn → X (Rk -wertige ZV’en) und Yn → Y (R` -wertige ZV’en), wobei Xn und
Yn auf demselben W-Raum (Ωn , An , Pn ) definiert seien für jedes n, und X und Y auf demselben
d
W-Raum (Ω, A, P) definiert seien, lässt sich i.A. nicht folgern, dass (Xn , Yn ) → (X, Y ) (Rk+` -wertige
ZV’en). Eine Ausnahme ist der Fall, dass für jedes n die beiden Zufallsvariablen Xn und Yn stochastisch
unabhängig sind und auch die beiden Zufallsvariablen X und Y stochastisch unabhängig sind. Eine
weitere Ausnahme ist der Fall, dass die Zufallsvariable Y eine Konstante ist, Y = y0 P-f.s. mit einem
y0 ∈ R` . Diesen letzteren Fall halten wir in folgendem Lemma fest.
Lemma 6.9
Seien (Ωn , An , Pn ) ∀ n ∈ N und (Ω, A, P) W-Räume und
Xn : (Ωn , An ) −→ (Rk , B k ) und Yn : (Ωn , An ) −→ (R` , B ` )
k
k
∀ n ∈ N,
`
und X : (Ω, A) −→ (R , B ) sowie y0 ∈ R .
Es gilt:
d
d
Wenn Xn → X und Yn → y0 ,
d
und insbesondere: G(Xn , Yn ) → G(X, y0 )
6.3
d
dann (Xn , Yn ) → (X, y0 ) ,
für G : Rk+` −→ Rm stetig.
Zentraler Grenzwertsatz
In diesem Abschnitt gehen wir von einer Folge Xi (i ∈ N) von u.i.v. quadrat-P-integrierbaren reellen
Zufallsvariablen aus, die auf einem gemeinsamen W-Raum (Ω, A, P) definiert sind. Bezeichne
p
β := E(Xi ) und σ := Var(Xi ) ,
und es sei σ > 0. Unser Interesse ist auf das asymptotische (n → ∞) Verhalten der Verteilung der
Summenvariablen
n
X
Sn =
Xi , n ∈ N ,
i=1
gerichtet. Um Verteilungskonvergenz zu erhalten, betrachten wir die standardisierten Summenvariablen:
Sn − nβ
√
, n ∈ N.
nσ
Offensichtlich haben die standardisierten Summenvariablen alle den Erwartungswert 0 und Varianz
gleich 1.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 6: Schwache Konvergenz von W-Verteilungen
43
Theorem 6.10 (Zentraler Grenzwertsatz, Standard-Version)
Seien (Ω, A, P) ein W-Raum und Xi : (Ω, A) −→ (R, B1 ) (i ∈ N) eine Folge u.i.v. quadrat-Pintegrierbarer reeller Zufallsvariablen mit positiver Varianz, und bezeichne
p
β = E(Xi ) und σ = Var(Xi ) .
Dann gilt, mit Sn :=
n
P
i=1
Xi (n ∈ N) :
Sn − nβ d
√
→ N(0, 1) .
nσ
Bemerkung: Gleichmäßige Konvergenz der Verteilungsfunktionen
Nach Theorem 6.5 (Äquivalenz (a) ⇐⇒ (b) ) sagt obiger Zentraler Grenzwertsatz:
´
³ S − nβ
n
√
≤ z = Φ(z) ,
lim P
n→∞
nσ
∀z ∈ R ,
wobei Φ die Verteilungsfunktion von N(0, 1) bezeichnet. Nach Lemma 6.6 ist die Konvergenz gleichmäßig
in z ∈ R , d.h.
¯ (n→∞)
¯ ³ S − nβ
´
¯
¯
n
√
sup ¯ P
≤ z − Φ(z) ¯ −→ 0 .
nσ
z∈R
Daraus ergibt sich das folgende Korollar.
Korollar 6.11 (Asymptotik der Verteilung der Summenvariablen)
Unter den Voraussetzungen von Theorem 6.10 gilt
¯ ¡
³ z − nβ ´ ¯
¢
¯
¯
sup ¯ P Sn ≤ z − Φ √
¯
nσ
z∈R
(n→∞)
−→
0.
Anmerkung: Für großes n haben wir daher als Approximation für die Verteilungsfunktion der
Summenvariablen:
³ z − nβ ´
¡
¢
P Sn ≤ z ≈ Φ √
∀ z ∈ R.
nσ
Beispiel: Normal-Approximation von Binomial-Verteilungen
Betrachten wir den Spezialfall von u.i.v. 0-1-wertigen Zufallsvariablen:
Xi ∼ Bi(1, p) ∀ i ∈ N , u.i.v. , mit einem p ∈ ( 0 , 1 ) .
p
Dann ist β = p und σ = p(1 − p). Also haben wir (für großes n) die Approximation
³ z − np ´
¡
¢
P Sn ≤ z ≈ Φ p
.
np(1 − p)
Wegen Sn ∼ Bi(n, p) ist dies die Normal-Approximation der Bi(n, p)-Verteilung.
Da die Verteilungsfunktion von Bi(n, p) auf den Intervallen z ∈ [ k , k + 1 ) jeweils konstant gleich
P ( Sn ≤ k ) ist (für jedes k = 0, 1, . . . , n − 1), ergibt sich für die Wahl z = k + 21 :
³ k + 1 − np ´
für k = 0, 1, . . . , n − 1 ,
P( Sn ≤ k ) ≈ Φ p 2
np(1 − p)
(“Normalapproximation der Binomialverteilung mit Ganzzahligkeitskorrektur”).
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 6: Schwache Konvergenz von W-Verteilungen
44
Im folgenden weiteren Korollar wird bei der Standardisierung der Summenvariablen Sn nicht die exakte
Standardabweichung σ verwendet, sondern eine “konsistente Folge von Schätzern” σ
bn (n ∈ N).
Korollar 6.12
Mit den Bezeichnungen und Voraussetzungen von Theorem 6.10 sei noch eine Folge
¡
¢
st
σ
bn : (Ω, A) −→ ( 0 , ∞) , B(10 , ∞) , n ∈ N , mit σ
bn → σ gegeben. Dann gilt:
Sn − nβ d
√
→ N(0, 1) .
nσ
bn
Wir formulieren jetzt den Zentralen Grenzwertsatz in einer etwas allgemeineren Version.
Theorem 6.13 (Zentraler Grenzwertsatz, etwas allgemeiner)
Seien (Ω, A, P) ein W-Raum und Xi : (Ω, A) −→ (R, B1 ) (i ∈ N) eine Folge u.i.v. quadrat-Pintegrierbarer reeller
P Zufallsvariablen mit positiver Varianz. Für jedes n ∈ N seien noch a1n , . . . , ann
reelle Zahlen mit ni=1 a2in > 0. Betrachte die Zufallsvariablen
Tn =
n
X
ain Xi
∀ n ∈ N.
i=1
Es gilt:
Wenn
max1≤i≤n a2in
Pn
= 0,
2
n→∞
j=1 ajn
lim
dann
Tn − E(Tn ) d
p
→ N(0, 1) .
Var(Tn )
Bemerkungen:
(1) Im Fall ain = 1 für alle i = 1, . . . , n und alle n ∈ N ist Theorem 6.13 dasselbe wie Theorem 6.10.
(2) Eine etwas speziellere Situation hinsichtlich der Koeffizienten als die in Theorem 6.13 betrachtete liegt
vor, wenn das “Dreiecksschema” ain (i = 1, . . . , n, n ∈ N) durch eine Folge αi ∈ R (i ∈ N) gegeben ist gemäß
ain = αi
und damit Tn =
Pn
i=1
αi Xi . Die weiteren Bedingungen des Theorems an die Koeffizienten lauten dann
α1 6= 0
6.4
∀ i = 1, . . . , n , ∀ n ∈ N ,
und
max1≤i≤n αi2
Pn
= 0.
2
n→∞
j=1 αj
lim
Mehrdimensionale Version des Zentralen Grenzwertsatzes
Wir wollen eine mehrdimensionale Version von Theorem 6.10 formulieren. Zunächst bemerken wir ,
dass das Konvergenzresultat jenes Theorems auch so formuliert werden kann:
¢ d
1 ¡
√
Sn − nβ → N(0, σ 2 ) .
n
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 6: Schwache Konvergenz von W-Verteilungen
45
Theorem 6.14 (Mehrdim. Zentraler Grenzwertsatz, Standard-Version)
Seien (Ω, A, P) ein W-Raum und X i : (Ω, A) −→ (Rk , B k ) (i ∈ N) eine Folge u.i.v. quadrat-Pintegrierbarer Zufallsvariablen mit positiv definiter Kovarianzmatrix, und bezeichne
β = E(X i ) und V = Cov(X i ) .
Dann gilt für die Summenvariablen S n :=
n
X
X i , (n ∈ N) :
i=1
¢ d
1 ¡
√
S n − nβ → N(0, V ) .
n
Beispiel: Multinomial-verteilte Zufallsvariablen
Pk
Seien X i ∼ Mu(1; p1 , . . . , pk ) , i ∈ N, u.i.v. , wobei p1 , . . . , pk > 0 mit
j=1 pj = 1 . Dann:
β = p = (p1 , . . . , pk )t
und V = diag(p) − ppt ,
aber die Kovarianzmatrix V ist singulär :
Rang(V ) = k − 1 ,
V 1k = 0 .
Daher ist Theorem 6.14 nicht direkt anwendbar, wohl aber auf geeignet linear transformierte Variablen:
Y i := U X i ,
(i ∈ N) ,
wobei U eine fest gewählte (k − 1) × k Matrix sei mit
Rang(U ) = k − 1 und
£
¤
(Z.B. U = I k−1 , 0 ). Dabei bezeichnet
Bild(U t ) =
Bild(U t ) ∩ span{ 1k } = { 0 } .
©
U t z : z ∈ Rk−1
ª
den Bildraum der Matrix U t und span{ 1k } den vom Vektor 1k aufgespannten (eindimensionalen)
linearen Teilraum von Rk . Wie man leicht sieht, ist die Kovarianzmatrix von Y i ,
Cov(Y i ) = U V U t ,
positiv definit. Die Anwendung desPCLT (Theorem 6.14) auf die Folge Y i ergibt dann, ausgedrückt
durch die Summenvariablen S n := ni=1 X i , (n ∈ N), der ursprünglichen Variablen X i :
¡
¢ d
1
√ U S n − np → N(0 , U V U t ) .
n
Da S n ∼ Mu(n; p1 , . . . , pk ) , können wir auch formulieren:
Wenn S n ∼ Mu(n; p1 , . . . , pk ) ∀ n ∈ N , dann gilt – mit einer Matrix U wie oben :
¡
¢ d
1
√ U S n − np → N(0 , U V U t ) ,
n
wobei p = (p1 , . . . , pk )t und V = diag(p) − ppt .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 6: Schwache Konvergenz von W-Verteilungen
46
Die folgende Konsequenz aus dem letzten Beispiel ist für die Statistik bedeutsam. Dazu sei vorausgeschickt:
1
Die Gamma-Verteilung zu den Parameterwerten c = m
2 und λ = 2 , wobei m ∈ N, nennt man auch die
Chi-Quadrat-Verteilung mit m Freiheitsgraden, (Abk.: χ2m ), also:
¡
¢
1
(für m ∈ N) .
χ2m = Ga m
2 , 2
Lemma 6.15 (Asymptotische χ2 -Verteilung der “Pearson-Statistik”)
Für jedes n ∈ N sei S n = (Sn1 , . . . , Snk )0 eine Mu(n; p1 , . . . , pk )-verteilte Zufallsvariable, (wobei k ≥ 2
und p1 , . . . , pk > 0 fest sind). Dann gilt:
k
X
(Snj − npj )2 d
→ χ2k−1
npj
j=1
(für n → ∞) .
Herunterladen