Einführung in die Kopplung

Werbung
MAT982 Proseminar über statistische Methoden, Universität Zürich
FS 2008
Einführung in die Kopplung
Ausarbeitung zum Vortrag
Marc Sommer
[email protected]
10. März 2008
1
Begriffe und Notation
Wir verwenden im folgenden die üblichen mengentheoretischen Bezeichnungen ∈, ∈,
/ ⊂, ∪ und ∩.
Seien Ω und I Mengen.
Grundlegende mengentheoretische Begriffe Mit |Ω| wird die Mächtigkeit von Ω bezeichnet.
Die Menge aller Teilmengen von Ω heisst Potenzmenge von Ω und wird mit P (Ω) notiert, also
P (Ω) := {A : A ⊂ Ω}. Für A ⊂ Ω bedeutet A{ := {x ∈ Ω : x ∈
/ A} das Komplement von A in Ω.
Für A, B ⊂ Ω heisst A \ B := {ω ∈ Ω : ω ∈ A, ω ∈
/ B} = A ∩ B { die mengentheoretische Differenz
von A und B. Eine Familie (Ai )i∈I von Teilmengen von Ω ist eine Abbildung der Indexmenge
I in P (Ω), die jedem i ∈ I eine Menge Ai ∈ P (Ω) als Bild zuordnet. Eine Familie (Ai )i∈I von
Teilmengen von Ω heisst disjunkt, wenn die Mengen Ai , i ∈ I, paarweise disjunkt sind, d.h. wenn
Ai ∩ Aj = ∅ für alle i, j ∈ I mit i 6= j gilt.
σ-Algebra und Wahrscheinlichkeitsmass Eine Teilmenge A ⊂ P (Ω) heisst σ-Algebra über
Ω, wenn Ω ∈ A gilt, und wenn A gegenüber Komplementbildung und abzählbaren Vereinigungen
abgeschlossen ist. Eine Menge A ⊂ Ω heisst A-messbar, wenn A ∈ A gilt. Sei A eine σ-Algebra über
Ω. Eine Abbildung P : A → R heisst Wahrscheinlichkeitsmass
auf(Ω,P
A), wenn gilt: (1) Für jede
S
disjunkte Familie (An )n∈N von Teilmengen von Ω gilt P n∈N An = n∈N P (An ); (2) P (A) ≥ 0
für alle A ∈ A; (3) P (Ω) = 1. Eine Abbildung P : A → R, für die (1) und (2) gilt, heisst Mass auf
(Ω, A). Eine Abbildung P : A → R, für die (1) gilt, heisst signiertes Mass auf (Ω, A). Ist A eine σAlgebra über Ω, dann heisst das Paar (Ω, A) messbarer Raum oder Messraum. Ist P : A → R ein
Wahrscheinlichkeitsmass auf (Ω, A), dann heisst das Tripel (Ω, A, P) Wahrscheinlichkeitsraum.
Messbare Abbildung und Bildmass Seien (Ω, A) und (Ω0 , A0 ) Messräume. Eine Abbildung
X : Ω → Ω0 heisst (A, A0 )-messbar, wenn X −1 (A0 ) ∈ A für alle A0 ∈ A0 gilt. Sei P ein Wahrscheinlichkeitsmass auf (Ω, A) und X : Ω → Ω0 eine (A, A0 )-messbare Abbildung. Dann ist
P ◦ X −1 : A0 → R, A0 7→ P X −1 (A0 ) ein Wahrscheinlichkeitsmass auf (Ω0 , A0 ). P ◦ X −1 heisst
das Bildmass von P unter X. P ◦ X −1 wird auch die Verteilung von X genannt.
Produktraum, Koordinatenabbildung und Produkt-σ-Algebra
Sei (Ωi )i∈I eine Familie
S
von Mengen. Die Menge i∈I Ωi der Abbildungen ω : I → i∈I Ωi mit der Eigenschaft, dass
ωi := ω (i) ∈ Ωi für jedes i ∈ I gilt, heisst das Produkt der (Ωi )i∈I , oder kurz der Produktraum.
ω (j) die j-te Koordinatenabbildung. Seien (Ωi , Ai ),
Für j ∈ I heisst πj : i∈I Ωi → Ωj , ω 7→N
i ∈ I, Messräume. Die Produkt-σ-Algebra
ist die kleinste σ-Algebra auf i∈I Ωi , so
i∈I Ai N
dass für jedes j ∈ I die Koordinatenabbildung πj : i∈I Ωi → Ωj
i∈I Ai , Aj -messbar ist:
N
S
S
−1
i∈I Ai := σ (πi , i ∈ I) := σ
i∈I σ (πi ) = σ
i∈I πi (Ai ) .
Totalvariationsmetrik Wir erinnern zunächst an den Begriff der totalen Variation, wie er in
der Analysis verwendet wird.1 Im folgenden seien (V, |·|) ein Banachraum über dem Körper K und
I := [a, b] ⊂ R ein kompaktes Intervall. Es seien f : I → V eine Abbildung und Z := (t0 , . . . , tn )
eine Zerlegung von I.2 Dann heisst
Xn
LZ (f ) :=
|f (tj ) − f (tj−1 )| ∈ R
j=1
die Länge des Streckenzuges (f (t0 ) , . . . , f (tn )) in V , und
V ar (f, I) := sup {LZ (f ) : Z ist eine Zerlegung von I}
heisst die totale Variation von f über I. Wir wollen diesen Begriff nun auf Masse übertragen.
Sei (Ω, A) ein Messraum und ν ein signiertes Mass auf (Ω, A). Gemäss Definition 4 in Dunford
und Schwartz [1958, S. 97] wird die so genannte Totalvariation von ν durch
nX
o
kνkTV := sup
|ν (A)| , Z ist eine Partition von Ω in endlich viele A-messbare Mengen
A∈Z
erklärt. Sei Z eine Partition von Ω in endlich viele A-messbare Mengen. Wir definieren Z− :=
{A ∈ Z : ν (A) < 0} und Z+ := {A ∈ Z : ν (A) ≥ 0}. Dann gilt offensichtlich Z = Z− ∪ Z+ und
X
X
X
|ν (A)|
|ν (A)| +
|ν (A)| =
A∈Z−
A∈Z
A∈Z+
X
X
=
ν (A) −
ν (A)
A∈Z+
A∈Z−
[
[
A
A
−
ν
=ν
A∈Z−
A∈Z+
[
{ [
A
A
−
ν
=ν
A∈Z+
A∈Z+
[
{ [
.
A
ν
+
A
= ν
+
+
A∈Z
A∈Z
n
o
Es genügt also in der Definition von kνkTV Partitionen Z der Art A, A{ , mit A ∈ A, zu betrachten. Wir erhalten damit
n
o
kνkTV = sup |ν (A)| + ν A{ : A ∈ A .
Mit einer zusätzlichen Annahme an ν kann der vorangehende Ausdruck vereinfacht werden — wie
der folgende Hilfssatz zeigt.
Hilfssatz 1.1 Sei (Ω, A) ein Messraum und ν ein signiertes Mass auf (Ω, A) mit ν (Ω) = 0. Dann gilt
kνkTV = 2 sup {ν (A) : A ∈ A} = −2 inf {ν (A) : A ∈ A} = 2 sup {−ν (A) : A ∈ A} und somit
kνkTV = 2 sup {|ν (A)| : A ∈ A} .
Beweis
Siehe Abschnitt 3 über positive Variation, negative Variation und Variation in Elstrodt
[2005, S. 272 f.], insbesondere Satz 1.9.
Mit Hilfe dieses Ergebnisses erhalten wir schliesslich
Hilfssatz 1.2 (Totalvariationsmetrik) Sei (Ω, A) ein Messraum und seien µ, ν Wahrscheinlichkeitsmasse auf (Ω, A). Dann wird vermöge
dTV (µ, ν) :=
1
kµ − νkTV = sup {|µ (A) − ν (A)| : A ∈ A}
2
eine Metrik auf der Menge aller Wahrscheinlichkeitsmasse auf (Ω, A) erklärt. dTV (·, ·) heisst Totalvariationsmetrik.
1 Siehe
2 Wir
Amann und Escher [1999, S. 289].
nennen (t0 , . . . , tn ) eine Zerlegung von I, wenn n ∈ N und a = t0 < t1 < . . . < tn = b gelten.
2
Beweis
Die Menge M (A) der endlichen signierten Masse auf (Ω, A) ist ein R-Vektorraum. Gemäss Korollar 7.45 in Klenke [2006, S. 158] ist k·kTV eine Norm auf M (A). Damit entspricht dTV (·, ·)
der mit dem Faktor 1/ 2 skalierten Metrik, die durch k·kTV auf M (A) induziert wird.
2
Was ist Kopplung?
Die Methode der Kopplung geht zurück auf Doeblin [1938]. Ihr Gegenstand ist die Abschätzung
der Totalvariationsmetrik von zwei Wahrscheinlichkeitsmassen durch die Wahrscheinlichkeit eines
Ereignisses mittels einer geeigneten Wahl eines Wahrscheinlichkeitsraumes.
Definition 2.1 (Kopplung von Wahrscheinlichkeitsmassen) Sei (E, E) ein Messraum und
N seien P1 , P2
Wahrscheinlichkeitsmasse auf (E, E). Ein Wahrscheinlichkeitsmass P auf (E × E, E
E) mit den
Eigenschaften
P1 = P ◦ π1−1 und P2 = P ◦ π2−1
heisst Kopplung der Wahrscheinlichkeitsmasse P1 und P2 .
Wir erkennen unmittelbar: Ist P eine Kopplung von P1 und P2 , dann sind P1 und P2 die Marginalmasse (Randverteilungen) zu P.
Um die angesprochene Abschätzung von dTV (P1 , P2 ) vornehmen zu können, ist es vorteilhaft,
anstelle von P1 und P2 mit messbaren Abbildungen X1 und X2 zu arbeiten, deren Bildmasse
identisch zu P1 und P2 sind. Wir führen deshalb folgende Definition ein.
Definition 2.2 (Kopplung von messbaren Abbildungen) Sei (Ωi , Ai , Pi ) ein Wahrscheinlichkeitsraum,
(E, E) ein Messraum und Xi : Ωi → E eine (Ai , E)-messbare N
Abbildung, i ∈ {1, 2}. Sei (Ω, A, P)
ein Wahrscheinlichkeitsraum und Z : Ω → E × E eine (A, E
E)-messbare Abbildung. Z heisst
Kopplung der messbaren Abbildungen X1 und X2 , wenn P ◦ Z −1 eine Kopplung der Wahrscheinlichkeitsmasse P1 ◦ X1−1 und P2 ◦ X2−1 ist.
Wir kommen nun zur angekündigten Abschätzung von dTV (·, ·), der so genannten KopplungsUngleichung.
Korollar 2.3 (Kopplungs-Ungleichung) Sei (Ωi , Ai , Pi ) ein Wahrscheinlichkeitsraum, (E, E) ein Messraum und Xi : Ωi → E eine (Ai , E)-messbareN
Abbildung, i ∈ {1, 2}. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und Z : Ω → E × E eine (A, E
E)-messbare Abbildung. Ist Z eine Kopplung von
X1 und X2 , dann gilt
dTV P1 ◦ X1−1 , P2 ◦ X2−1 ≤ P ({π1 ◦ Z 6= π2 ◦ Z}) .
(1)
Beweis
Sei A ∈ E beliebig. Wir definieren µi := Pi ◦ Xi−1 und Zi := πi ◦ Z, i ∈ {1, 2}. Für i ∈ {1, 2}
gilt
µi (A) = Pi ◦ Xi−1 (A)
= P ◦ Z −1 ◦ πi−1 (A)
= P ◦ Z −1 ◦ πi−1 (A)
−1
= P ◦ (πi ◦ Z)
(A)
= P ◦ Zi−1 (A)
= P Zi−1 (A) .
Damit erhalten wir
µ1 (A) − µ2 (A) = P Z1−1 (A) − P Z2−1 (A)
= P ({Z1 ∈ A}) − P ({Z2 ∈ A})
= P ({Z1 ∈ A} ∩ {Z1 = Z2 }) + P ({Z1 ∈ A} ∩ {Z1 6= Z2 })
3
− P ({Z2 ∈ A} ∩ {Z1 = Z2 }) − P ({Z2 ∈ A} ∩ {Z1 6= Z2 })
= P ({Z1 ∈ A} ∩ {Z1 = Z2 }) + P ({Z1 ∈ A} ∩ {Z1 6= Z2 })
− P ({Z1 ∈ A} ∩ {Z1 = Z2 }) − P ({Z2 ∈ A} ∩ {Z1 6= Z2 })
= P ({Z1 ∈ A} ∩ {Z1 6= Z2 }) − P ({Z2 ∈ A} ∩ {Z1 6= Z2 })
|
{z
}
≥0
≤ P ({Z1 ∈ A} ∩ {Z1 6= Z2 })
≤ P ({Z1 6= Z2 }) .
Beim Übergang von der zweiten auf die dritte Formelzeile haben wir davon Gebrauch gemacht,
dass {{Zi ∈ A} ∩ {Z1 = Z2 } , {Zi ∈ A} ∩ {Z1 6= Z2 }} eine Partition des Ereignisses {Zi ∈ A}
darstellt, i ∈ {1, 2}, und dass P additiv ist. Die vierte Formelzeile ist dadurch gerechtfertigt,
dass offensichtlich {Z1 ∈ A}∩{Z1 = Z2 } = {Z2 ∈ A}∩{Z1 = Z2 } gilt. Die erste Ungleichung gilt
aufgrund der Nichtnegativität von P. Die zweite Ungleichung folgt aus {Z1 ∈ A} ∩ {Z1 6= Z2 } ⊂
{Z1 6= Z2 } und der Monotonie von P. Da der Ausdruck µ1 (A) − µ2 (A) ≤ P ({Z1 6= Z2 }) symmetrisch in Z1 und Z2 ist, gilt auch
− (µ1 (A) − µ2 (A)) = µ2 (A) − µ1 (A) ≤ P ({Z1 6= Z2 }) .
Insgesamt erhalten wir
|µ1 (A) − µ2 (A)| ≤ P ({Z1 6= Z2 })
und damit die Behauptung
dTV P1 ◦ X1−1 , P2 ◦ X2−1 = dTV (µ1 , µ2 )
= sup {|µ1 (A) − µ2 (A)| : A ∈ E}
≤ P ({Z1 6= Z2 }) .
Die Kopplungs-Ungleichung (1) soll nun an einem Beispiel illustriert werden.
Beispiel 2.4 Seien n ∈ N, (Ω, A, P) ein Wahrscheinlichkeitsraum und I1 , . . . , In unabhängige {0, 1}wertige (A, σ (N0 ))-messbare Abbildungen Ii : ΩP
→ N0 mit P (Ii = 1) =: pi ∈ (0, 1) (und damit
n
P (Ii = 0) = 1 − pi ) für alle 1 ≤ i ≤ n. Für W := i=1 Ii gilt dann
Xn
Xn
dTV (L (W ) , Po (λ)) ≤
pi (1 − exp (−pi )) ≤
p2i ,
i=1
i=1
wobei Po (λ) die Poisson-Verteilung mit Parameter λ :=
Pn
i=1
pi bezeichnet.
Beweis
Seien n ∈ N und 1 ≤ i ≤ n beliebig. Wir definieren Ωi := {−1, 0, 1, . . .} = {−1} ∪ N0 und Ai :=
σ (Ωi ). Wir wollen nun auf (Ωi , Ai ) ein Wahrscheinlichkeitsmass definieren. Dazu definieren wir
zunächst eine Abbildung pi : N0 → R durch
pi (0) := 1 − pi
∀k ∈ N
exp (−pi ) k
pi
k!
X
pi (−1) := 1 − pi (0) −
pi (k) :=
k∈N
pi (k) .
Aus pi ∈ (0, 1) folgt pi (0) > 0. Für k ∈ N gilt offensichtlich pi (k) > 0. Weiter ist
X
pi (−1) = 1 − pi (0) −
pi (k)
k∈N
= 1 − (1 − pi ) −
X
k∈N

exp (−pi ) k
pi
k!

X

exp (−pi ) k
= 1 − (1 − pi ) − 
pi − exp (−pi )
 k∈N0

|
{z k!
}
=1
4
= exp (−pi ) − (1 − pi )
≥ 0.3
Somit haben wir gezeigt, dass pi nichtnegativ ist. Als nächstes definieren wir eine Abbildung
Pi : σ (Ωi ) → R durch
X
∀A ∈ σ (Ωi ) Pi (A) :=
pi (k) .
k∈A
Aufgrund der Nichtnegativität von pi ist Pi nichtnegativ. Per Definition ist Pi σ-additiv mit
Pi (Ωi ) = 1. Damit ist Pi ein Wahrscheinlichkeitsmass auf (Ωi , Ai ). Wir betrachten nun den
Produktraum
Ω := ni=1 Ωi der Ωi , 1 ≤ i ≤ n. Zusammen mit der Produkt-σ-Algebra A :=
Nn
i=1 Ai ist dann (Ω, A) ein Messraum. Durch
∀A ∈ A
P (A) :=
Yn
X
(ω1 ,...,ωn )∈A
j=1
Pj ({ωj })
wird auf (Ω, A) schliesslich ein Wahrscheinlichkeitsmass erklärt. Wir kommen nun zur Kopplung. Für 1 ≤ i ≤ n definieren wir (A, σ (N0 ))-messbare Abbildungen Xi , Yi : Ω → N0 durch
(
0, falls ωi = 0,
Xi ((ω1 , . . . , ωn )) :=
1 sonst
und
(
0,
Yi ((ω1 , . . . , ωn )) :=
ωi
falls ωi ≤ 0,
sonst.
Es gilt dann
P ({Xi = 0}) = P ({(ω1 , . . . , ωn ) ∈ Ω : ωi = 0})
= P ({ω ∈ Ω : ω = (ω1 , . . . , ωi−1 , 0, ωi+1 , . . . , ωn )})
X
Yn
=
Pj ({ωj })
ω∈Ω: ω=(ω1 ,...,ωi−1 ,0,ωi+1 ,...,ωn )
j=1
X
Yn
=
Pj ({ωj })
(ω1 ,...,ωn )∈Ω1 ×...×Ωi−1 ×{0}×Ωi+1 ×...×Ωn
j=1
X
Yn
Pi ({0})
Pj ({ωj })
=
(ω1 ,...,ωi ,ωi+1 ,...ωn )∈Ω1 ×...×Ωi−1 ×Ωi+1 ×...×Ωn
j=1,j6=i
X
Yn
= Pi ({0})
Pj ({ωj })
(ω1 ,...,ωi ,ωi+1 ,...ωn )∈Ω1 ×...×Ωi−1 ×Ωi+1 ×...×Ωn
j=1,j6=i
Yn
X
= Pi ({0})
Pj ({ωj })
j=1,j6=i
ωj ∈Ωj
{z
}
|
=1
= Pi ({0})
= pi (0)
= 1 − pi
und P ({Xi = 1}) = pi . Xi besitzt also die gleiche Verteilung
Pn wie Ii . Nach Konstruktion sind
die X1 , . . . , Xn zudem unabhängig. Somit besitzt X := i=1 Xi die gleiche Verteilung wie W :
L (X) = L (W ). Für Yi erhalten wir auf analoge Weise
P ({Yi = 0}) = Pi ({−1}) + Pi ({0}) = exp (−pi ) =
und
∀ωi ∈ N
P ({Yi = ωi }) = Pi ({ωi }) = pi (ωi ) =
exp (−pi ) 0
pi
0!
exp (−pi ) ωi
pi .
ωi !
3 Für R 3 x > 0 gilt log (x) ≤ x − 1 (Beweis mit Hilfe des Mittelwertsatzes der Differentialrechnung). Daraus
folgt für y := 1 − x, dass log (1 − y) ≤ −y und 1 − y ≤ exp (−y).
5
Yi ist also Poisson-verteilt mit Parameter pi . Nach Konstruktion sind auch die Y1 , . . . , Yn unabhängig.P
Aus L (Yi ) = Po (pi ) für 1 P
≤ i ≤ n und der Unabhängigkeit der Y1 , . . . , Yn folgt dann
n
n
0
für Y := i=1 Yi , dass L (Y ) = Po ( i=1 pi ) = Po (λ).4 Definieren wir Z := (X, Y ) , dann ist
−1
die Verteilung von Z, P ◦ Z , im Sinne von Definition 2.1 eine Kopplung der beiden Verteilungen L (W ) und Po (λ). Um dTV (L (W ) , Po (λ)) abschätzen zu können, müssen wir gemäss
Korollar 2.3 die Wahrscheinlichkeit für das Ereignis {π1 ◦ Z 6= π2 ◦ Z} = {X 6= Y } berechnen
bzw. nach oben abschätzen. Für dieses Ereignis gilt
nXn
o nXn
o [n
Xn
{X 6= Y } =
Xi 6=
Yi =
Xi − Yi 6= 0 ⊂
{Xi − Yi 6= 0} ,
i=1
i=1
i=1
i=1
Pn
denn ist die Summe i=1 Xi − Yi von 0 verschieden, dann ist mindestens einer der Summanden
Xi − Yi von 0 verschieden. Da P monoton und σ-subadditiv ist, erhalten wir daraus
[n
Xn
P ({X 6= Y }) ≤ P
{Xi − Yi 6= 0} ≤
P ({Xi − Yi 6= 0}) .
i=1
i=1
Aufgrund der vorangehenden Gleichung interessieren wir uns für die Wahrscheinlichkeit des
Ereignisses {Xi 6= Yi }, 1 ≤ i ≤ n. Nach Definition von Xi und Yi gilt zunächst
{Xi = Yi } = {Xi = Yi = 0 ∨ Xi = Yi = 1}
= {Xi = Yi = 0} ∪ {Xi = Yi = 1}
= {(ω1 , . . . , ωn ) ∈ Ω : ωi = 0} ∪ {(ω1 , . . . , ωn ) ∈ Ω : ωi = 1} ,
mit {(ω1 , . . . , ωn ) ∈ Ω : ωi = 0} ∩ {(ω1 , . . . , ωn ) ∈ Ω : ωi = 1} = ∅. Damit erhalten wir
P ({Xi = Yi }) = P ({(ω1 , . . . , ωn ) ∈ Ω : ωi = 0} ∪ {(ω1 , . . . , ωn ) ∈ Ω : ωi = 1})
= P ({(ω1 , . . . , ωn ) ∈ Ω : ωi = 0}) + P ({(ω1 , . . . , ωn ) ∈ Ω : ωi = 1})
= Pi ({0}) + Pi ({1})
= pi (0) + pi (1)
= 1 − pi + exp (−pi ) pi
und
P ({Xi 6= Yi }) = 1 − P ({Xi = Yi })
= 1 − (1 − pi + exp (−pi ) pi )
= pi − exp (−pi ) pi
= pi (1 − exp (−pi ))
≤ p2i .
Insgesamt erhalten wir
dTV (L (W ) , Po (λ)) ≤ P ({X 6= Y })
Xn
≤
P ({Xi 6= Yi })
i=1
Xn
≤
pi (1 − exp (−pi ))
i=1
Xn
≤
p2i .
i=1
3
Kopplung im Rahmen von Steins Methode
Wir wollen in diesem Abschnitt an die zentralen Ergebnisse der ersten beiden Vorträge anknüpfen
— und verzichten dabei weitestgehend auf den wahrscheinlichkeitstheoretischen Formalismus des
vorangehenden Abschnitts.
4 Siehe
hierzu beispielsweise Klenke [2006, Korollar 15.13, Aussage (vi)].
6
Für beliebiges λ > 0 und A ⊂ N0 erklären wir eine Funktion g = gλ,A : N0 → R, die der
folgenden Gleichung genügt:
∀j ∈ N0
λg (j + 1) − jg (j) = 1{j∈A} − Po (λ) (A) .
(2)
Der Wert von g an der Stelle 0 ist hierbei irrelevant und wird üblicherweise auf 0 gesetzt. Man
beachte, dass die Lösung von (2) rekursiv berechnet werden kann, indem zunächst j = 0 gesetzt
und mit Hilfe von (2) der Wert für g (j + 1) = g (1) berechnet wird. Danach wird j um 1 erhöht,
um so Schrittweise jeden beliebigen Wert g (j) zu bestimmen.
Sei nun W eine N0 -wertige Zufallsgrösse. Aus (2) folgt dann
P (W ∈ A) − Po (λ) (A) = E [λg (W + 1) − W g (W )] .
(3)
Wenn wir die rechte Seite von (3) gleichmässig für alle g = gλ,A nach oben abschätzen können,
so liefert dies eine obere Schranke für die Totalvariationsmetrik der Verteilung von W und der
Poisson-Verteilung Po (λ):
dTV (L (W ) , Po (λ)) = sup {|P (W ∈ A) − Po (λ) (A)| : A ⊂ N0 } .
Die angesprochene Abschätzung ist nun Gegenstand des folgenden Theorems:
Theorem 3.1 (Barbour, Holst und Janson [1992, Theorem 1.B]) Sei n ∈ N und seien I1P
, . . . , In
n
{0, 1}-wertige Zufallsgrössen mit P (Ii = 1) =: pi ∈ (0, 1) für 1 ≤ i ≤ n. Sei W :=
i=1 Ii .
Angenommen, für alle 1 ≤ i ≤ n existierten N0 -wertige Zufallsgrössen Ui und Vi derart, dass
L (Ui ) = L (W )
und L (Vi + 1) = L (W | Ii = 1)
gilt. Für beliebiges A ⊂ N0 gilt dann
X n
|P (W ∈ A) − Po (λ) (A)| = pi E [g (Ui + 1)] − E [g (Vi + 1)]
i=1
Xn
≤ ∆g
pi E [|Ui − Vi |] ,
i=1
mit ∆g := sup {|g (j + 1) − g (j)| : j ∈ N0 }.
Beweis
Pn
Pn
Pn
Sei A ⊂ N0 beliebig. Wir definieren λ := E [W ] = E [ i=1 Ii ] = i=1 E [Ii ] = i=1 pi und
∀1 ≤ i ≤ n
Wi :=
Xn
j=1,j6=i
Ij .
Für beliebiges 1 ≤ i ≤ n gilt zunächst
(
g (Wi + 1) = g (Wi + Ii ) = g (W ) , falls Ii = 1,
Ii g (Wi + 1) =
0,
falls Ii = 0,
und damit
E [Ii g (Wi + 1)] = P (Ii = 1) E [g (W ) | Ii = 1] + P (Ii = 0) E [0]
= pi E [g (W ) | Ii = 1] .
Wir erhalten dann für (3)
P (W ∈ A) − Po (λ) (A) = E [λg (W + 1) − W g (W )]
hXn
X n
i
=E
pi g (W + 1) −
Ii g (W )
i=1
i=1
Xn
Xn
=
pi E [g (W + 1)] −
E [Ii g (W )]
i=1
i=1
Xn
Xn
=
pi E [g (W + 1)] −
E [Ii g (Wi + 1)]
i=1
i=1
7
(4)
=
=
Xn
i=1
Xn
i=1
Xn
pi E [g (W + 1)] −
i=1
pi E [g (W ) | Ii = 1]
pi (E [g (W + 1)] − E [g (W ) | Ii = 1]) .
(5)
Aus L (Ui ) = L (W ) folgt E [Ui + 1] = E [W + 1] und aus L (Vi + 1) = L (W | Ii = 1) =
L (Wi + 1) folgt E [g (W ) | Ii = 1] = E [g (Wi + 1)] = E [g (Vi + 1)]. Mit (5) erhalten wir deshalb
Xn
|P (W ∈ A) − Po (λ) (A)| = pi (E [g (W + 1)] − E [g (W ) | Ii = 1])
i=1
Xn
=
pi (E [g (Ui + 1)] − E [g (Vi + 1)])
i=1
Xn
≤
pi |E [g (Ui + 1) − g (Vi + 1)]|
i=1
Xn
≤
pi E [|g (Ui + 1) − g (Vi + 1)|] .
(6)
i=1
Die erste Ungleichung folgt aus der Dreiecksungleichung für |·| und die zweite aus der Ungleichung von Jensen. Der letzte Ausdruck auf der rechten Seite von (6) kann schliesslich mit Hilfe
von
|g (Ui + 1) − g (Vi + 1)| ≤ ∆g |Ui − Vi |
(7)
wie folgt abgeschätzt werden:
Xn
Xn
pi E [|g (Ui + 1) − g (Vi + 1)|] ≤ ∆g
i=1
i=1
pi E [|Ui − Vi |] .
Mit einer zusätzlichen Annahme an die Zufallsgrössen Ui und Vi , 1 ≤ i ≤ n, können wir die
obere Schranke von |P (W ∈ A) − Po (λ) (A)| in Theorem 3.1 ausschliesslich durch die ersten beiden
Momente von W abschätzen.
Pn
Korollar 3.2 Es gelten die Voraussetzungen von Theorem 3.1. Sei λ := E [W ] = E [ i=1 Ii ] =
P
n
i=1 pi . Unter der Annahme, dass Ui ≥ Vi P-fast sicher für alle 1 ≤ i ≤ n gilt, ergibt sich für
beliebiges A ⊂ N0
Xn
|P (W ∈ A) − Po (λ) (A)| ≤ λ−1
pi E [|Ui − Vi |]
i=1
= 1 − V [W ]/ E [W ] .
Beweis
Sei 1 ≤ i ≤ n beliebig. Aus der Voraussetzung Ui ≥ Vi P-fast sicher folgt
Xn
Xn
pi E [|Ui − Vi |] =
pi E [Ui − Vi ]
i=1
i=1
Xn
=
pi E [(Ui + 1) − (Vi + 1)]
i=1
Xn
Xn
=
pi E [Ui + 1] −
pi E [Vi + 1] .
i=1
i=1
Aus L (Ui ) = L (W ) folgt E [Ui + 1] = E [W + 1]. Aus L (Vi + 1) = L (W | Ii = 1), Ii (Wi + 1) =
Ii (Wi + Ii ) = Ii W und Ausdruck (4) mit g = id folgt
pi E [Vi + 1] = pi E [W | Ii = 1] = E [Ii (Wi + 1)] = E [Ii W ] .
Somit erhalten wir
Xn
i=1
pi E [|Ui − Vi |] =
=
=
Xn
i=1
Xn
pi E [Ui + 1] −
Xn
i=1
pi E [Vi + 1]
Xn
i=1
X
n
pi E [W + 1] −
E [Ii W ]
i=1
hX n
i
pi E [W + 1] − E
Ii W
i=1
= λ (E [W ] + 1) − E [W W ]
= λ + λE [W ] − E W 2
8
i=1
2
= λ + (E [W ]) − E W 2
= λ − V [W ] .
Aufgrund von Lemma 1.1.1 in Barbour et al. [1992, S. 7] gilt
∆g ≤ λ−1 (1 − exp (−λ)) ≤ min 1, λ−1 ≤ λ−1 .
Für beliebiges A ⊂ N0 erhalten wir dann mit Theorem 3.1
Xn
|P (W ∈ A) − Po (λ) (A)| ≤ ∆g
pi E [|Ui − Vi |]
i=1
≤ λ−1 (λ − V [W ])
= 1 − λ−1 V [W ]
= 1 − V [W ]/ E [W ] .
Wir können die Aussage des vorangehenden Theorems noch ein wenig verallgemeinern:
Theorem 3.3 (Barbour et al. [1992, Theorem 2.A]) Sei I eine beliebige (Index-)Menge
P und sei
Ii eine {0, 1}-wertige
Zufallsgrösse
mit
P
(I
=
1)
=:
p
∈
(0,
1),
i
∈
I.
Sei
W
:=
i
i
i∈I Ii und
P
λ := E [W ] = i∈I pi . Angenommen, für alle i ∈ I existierten N0 -wertige Zufallsgrössen Ui und
Vi derart, dass
L (Ui ) = L (W ) und L (Vi + 1) = L (W | Ii = 1)
gilt. Es gilt dann
h
i
pi E min λ−1 (1 − exp (−λ)) |Ui − Vi | , 2 min 1, λ− 1/2
i∈I
X
≤ λ−1 (1 − exp (−λ))
pi E [|Ui − Vi |] .
dTV (L (W ) , Po (λ)) ≤
X
i∈I
Beweis
Sei A ⊂ N0 beliebig. Für i ∈ I gilt
|g (Ui + 1) − g (Vi + 1)| ≤ |g (Ui + 1)| + |g (Vi + 1)|
≤ 2 sup {|g (j)| : j ∈ N0 }
=: 2 kgk .
Zusammen mit der Abschätzung (7) erhalten wir daraus
|g (Ui + 1) − g (Vi + 1)| ≤ min (∆g |Ui − Vi | , 2 kgk) .
Aufgrund von Lemma 1.1.1 in Barbour et al. [1992, S. 7] gilt
kgk ≤ min 1, λ− 1/2 ,
∆g ≤ λ−1 (1 − exp (−λ)) ≤ min 1, λ−1 .
Somit ergibt sich
|g (Ui + 1) − g (Vi + 1)| ≤ min (∆g |Ui − Vi | , 2 kgk)
≤ min λ−1 (1 − exp (−λ)) |Ui − Vi | , 2 min 1, λ− 1/2
≤ λ−1 (1 − exp (−λ)) |Ui − Vi | .
Mit Hilfe von Theorem 3.1, insbesondere von Ausdruck (6), und der vorangehenden Abschätzung
erhalten wir schliesslich
X
|P (W ∈ A) − Po (λ) (A)| ≤
pi E [|g (Ui + 1) − g (Vi + 1)|]
i∈I
h
i
X
≤
pi E min λ−1 (1 − exp (−λ)) |Ui − Vi | , 2 min 1, λ− 1/2
i∈I
X
−1
≤ λ (1 − exp (−λ))
pi E [|Ui − Vi |] .
i∈I
9
Wir beschliessen unsere Ausführungen mit einem Beispiel zu Theorem 3.3.
Beispiel 3.4 Wir betrachten das folgende Experiment. Gegeben seien N ∈ N nummerierte Urnen,
die in aufsteigender Reihenfolge angeordnet sind. Auf diese N Urnen werden zufällig 0 ≤ m ≤ N
Bälle verteilt, wobei in einer Urne höchstens ein Ball zu liegen kommt und die entsprechende
Wahrscheinlichkeit für alle Urnen identisch ist. Wir interessieren uns für die Verteilung der Anzahl
Bälle in den ersten 1 ≤ n ≤ N Urnen.
Für 1 ≤ k ≤ n definieren wir eine {0, 1}-wertige Zufallsgrösse Ik , die den Wert 1 besitzt, falls
ein Ball in Urne k liegt, und P
die sonst 0 ist. Die Anzahl Bälle in den ersten n Urnen wird dann
n
durch die Zufallsgrösse W := k=1 Ik beschrieben. Aufgrund der Voraussetzungen gilt
P ({Ik = 1}) =
für alle 1 ≤ k ≤ n. Für W gilt dann
hX n
i Xn
E [W ] = E
Ik =
k=1
k=1
E [Ik ] =
m
.
N
Xn
k=1
P ({Ik = 1}) = n
m
=: λ.
N
Wir suchen nun nach einer geeigneten Kopplung, um Theorem 3.3 auf die vorliegende Situation
anwenden zu können. Dazu definieren wir zunächst
∀1 ≤ k ≤ n
Uk := W.
Für beliebiges 1 ≤ k ≤ n gilt damit L (Uk ) = L (W ). Für die Definition der Vk , 1 ≤ k ≤ n, müssen
wir etwas mehr arbeiten. Sei 1 ≤ k ≤ n beliebig. Wir unterscheiden zwei Fälle:
(1) Es gelte Ik = 0, d.h. in Urne k sei kein Ball vorhanden. Dann wählen wir aus der Menge aller
Urnen mit einem Ball,
M := {l ∈ {1, . . . , N } : Il = 1} ,
zufällig (mit gleicher Wahrscheinlichkeit) eine Urne aus; diese bezeichnen wir mit L. Für 1 ≤
j ≤ n definieren wir dann eine {0, 1}-wertige Zufallsgrösse Jkj wie folgt:


1, falls j = k,
Jkj := 0, falls j = L und 1 ≤ L ≤ n,


Ij , sonst.
(2) Es gelte Ik = 1, d.h. in Urne k sei ein Ball vorhanden. Dann setzen wir L := k und definieren
Jkj := Jj für alle 1 ≤ k ≤ n.
Alsdann definieren wir
∀1 ≤ k ≤ n
Vk :=
Xn
j=1,j6=k
Jkj .
Für 1 ≤ k ≤ n gilt dann
Vk + 1 =
und mit W =
Pn
k=1 Ik
E [|Uk − Vk |]
= E [|W − Vk |]
hXn
=E Ij
j=1
hXn
=E Ij
j=1
hXn
=E Ij
j=1
hXn
=E Xn
j=1,j6=k
d
Jkj + 1 =
X n
j=1
Ij | Ik = 1
offenbar L (Vk + 1) = L (W | Ik = 1). Weiter gilt
Xn
i
Jkj j=1,j6=k
Xn
i
Xn
Xn
−
Jkj 1{Ik =0} + Ij −
Jkj 1{Ik =1}
j=1,j6=k
j=1
j=1,j6=k
i
hXn
i
Xn
Xn
−
Jkj 1{Ik =0} + E Ij −
Jkj 1{Ik =1}
j=1,j6=k
j=1
j=1,j6=k
i
hXn
i
Xn
Xn
Ij −
Jkj 1{Ik =0} + E Ij −
Ij 1{Ik =1}
−
j=1,j6=k
j=1,j6=k
j=1
10
j=1,j6=k
i
hXn
Xn
=E Ij −
Jkj 1{Ik =0} + E |Ik | 1{Ik =1}
j=1,j6=k
j=1,j6=k
i
hXn
Xn
=E Ij −
Jkj 1{Ik =0} 1{1≤L≤n}
j=1,j6=k
j=1,j6=k
i
hXn
Xn
+E Ij −
Jkj 1{Ik =0} 1{n<L≤N } + E |1| 1{Ik =1}
j=1,j6=k
j=1,j6=k
= E |IL − JL | 1{Ik =0} 1{1≤L≤n}
i
hXn
Xn
+E Ij −
Ij 1{Ik =0} 1{n<L≤N } + E 1{Ik =1}
j=1,j6=k
j=1,j6=k
= E |1 − 0| 1{Ik =0} 1{1≤L≤n} + E 1{Ik =1}
= E 1{Ik =0} 1{1≤L≤n} + E 1{Ik =1}
= P ({1 ≤ L ≤ n} ∩ {Ik = 0}) + P ({Ik = 1})
= P ({Ik = 0}) P ({1 ≤ L ≤ n} | {Ik = 0}) + P ({Ik = 1})
|
{z
}|
{z
} |
{z
}
m
m
n
−
1
=1−
=
=
N
N
N −1
m n−1
m
= 1−
+
N N −1 N
N −m n−1
m
=
+ .
N N −1 N
Mit Theorem 3.3 erhalten wir schliesslich
dTV (L (W ) , Po (λ)) ≤ λ−1 (1 − exp (−λ))
Xn
pk E [|Uk − Vk |]
m
N
m N −m n−1
(1 − exp (−λ))
+
≤
k=1 N
mn
N N −1 N
N m N −m n−1
m
= (1 − exp (−λ))
n
+
mn N
N N −1 N
N −m n−1
m
= (1 − exp (−λ))
+
.
N N −1 N
k=1
Xn
Literatur
Amann, H. und Escher, J. (1999). Analysis II, 1 edn, Birkhäuser Verlag, Basel.
Barbour, A. D., Holst, L. und Janson, S. (1992). Poisson Approximation, Oxford Studies in
Probability, Oxford University Press, Oxford.
Doeblin, W. (1938). Exposé de la theorie des chaı̂nes simples constantes de markov à un nombre
fini d’états, Revue mathematique de l’Union Interbalkanique 2: 77–105.
Dunford, N. und Schwartz, J. T. (1958). Linear Operators, Part I, Interscience Publishers,
Inc., New York.
Elstrodt, J. (2005). Mass- und Integrationstheorie, 4 edn, Springer Verlag, Berlin.
Klenke, A. (2006). Wahrscheinlichkeitstheorie, Springer Verlag, Berlin.
Lindvall, T. (2002). Lectures on the Coupling Method, Dover Publications, Inc., Mineola, New
York.
11
Herunterladen
Explore flashcards