Einführung in die Kopplung

MAT982 Proseminar über statistische Methoden, Universität Zürich
FS 2008
Einführung in die Kopplung
Ausarbeitung zum Vortrag
Marc Sommer
[email protected]
10. März 2008
1
Begriffe und Notation
Wir verwenden im folgenden die üblichen mengentheoretischen Bezeichnungen ∈, ∈,
/ ⊂, ∪ und ∩.
Seien Ω und I Mengen.
Grundlegende mengentheoretische Begriffe Mit |Ω| wird die Mächtigkeit von Ω bezeichnet.
Die Menge aller Teilmengen von Ω heisst Potenzmenge von Ω und wird mit P (Ω) notiert, also
P (Ω) := {A : A ⊂ Ω}. Für A ⊂ Ω bedeutet A{ := {x ∈ Ω : x ∈
/ A} das Komplement von A in Ω.
Für A, B ⊂ Ω heisst A \ B := {ω ∈ Ω : ω ∈ A, ω ∈
/ B} = A ∩ B { die mengentheoretische Differenz
von A und B. Eine Familie (Ai )i∈I von Teilmengen von Ω ist eine Abbildung der Indexmenge
I in P (Ω), die jedem i ∈ I eine Menge Ai ∈ P (Ω) als Bild zuordnet. Eine Familie (Ai )i∈I von
Teilmengen von Ω heisst disjunkt, wenn die Mengen Ai , i ∈ I, paarweise disjunkt sind, d.h. wenn
Ai ∩ Aj = ∅ für alle i, j ∈ I mit i 6= j gilt.
σ-Algebra und Wahrscheinlichkeitsmass Eine Teilmenge A ⊂ P (Ω) heisst σ-Algebra über
Ω, wenn Ω ∈ A gilt, und wenn A gegenüber Komplementbildung und abzählbaren Vereinigungen
abgeschlossen ist. Eine Menge A ⊂ Ω heisst A-messbar, wenn A ∈ A gilt. Sei A eine σ-Algebra über
Ω. Eine Abbildung P : A → R heisst Wahrscheinlichkeitsmass
auf(Ω,P
A), wenn gilt: (1) Für jede
S
disjunkte Familie (An )n∈N von Teilmengen von Ω gilt P n∈N An = n∈N P (An ); (2) P (A) ≥ 0
für alle A ∈ A; (3) P (Ω) = 1. Eine Abbildung P : A → R, für die (1) und (2) gilt, heisst Mass auf
(Ω, A). Eine Abbildung P : A → R, für die (1) gilt, heisst signiertes Mass auf (Ω, A). Ist A eine σAlgebra über Ω, dann heisst das Paar (Ω, A) messbarer Raum oder Messraum. Ist P : A → R ein
Wahrscheinlichkeitsmass auf (Ω, A), dann heisst das Tripel (Ω, A, P) Wahrscheinlichkeitsraum.
Messbare Abbildung und Bildmass Seien (Ω, A) und (Ω0 , A0 ) Messräume. Eine Abbildung
X : Ω → Ω0 heisst (A, A0 )-messbar, wenn X −1 (A0 ) ∈ A für alle A0 ∈ A0 gilt. Sei P ein Wahrscheinlichkeitsmass auf (Ω, A) und X : Ω → Ω0 eine (A, A0 )-messbare Abbildung. Dann ist
P ◦ X −1 : A0 → R, A0 7→ P X −1 (A0 ) ein Wahrscheinlichkeitsmass auf (Ω0 , A0 ). P ◦ X −1 heisst
das Bildmass von P unter X. P ◦ X −1 wird auch die Verteilung von X genannt.
Produktraum, Koordinatenabbildung und Produkt-σ-Algebra
Sei (Ωi )i∈I eine Familie
S
von Mengen. Die Menge i∈I Ωi der Abbildungen ω : I → i∈I Ωi mit der Eigenschaft, dass
ωi := ω (i) ∈ Ωi für jedes i ∈ I gilt, heisst das Produkt der (Ωi )i∈I , oder kurz der Produktraum.
ω (j) die j-te Koordinatenabbildung. Seien (Ωi , Ai ),
Für j ∈ I heisst πj : i∈I Ωi → Ωj , ω 7→N
i ∈ I, Messräume. Die Produkt-σ-Algebra
ist die kleinste σ-Algebra auf i∈I Ωi , so
i∈I Ai N
dass für jedes j ∈ I die Koordinatenabbildung πj : i∈I Ωi → Ωj
i∈I Ai , Aj -messbar ist:
N
S
S
−1
i∈I Ai := σ (πi , i ∈ I) := σ
i∈I σ (πi ) = σ
i∈I πi (Ai ) .
Totalvariationsmetrik Wir erinnern zunächst an den Begriff der totalen Variation, wie er in
der Analysis verwendet wird.1 Im folgenden seien (V, |·|) ein Banachraum über dem Körper K und
I := [a, b] ⊂ R ein kompaktes Intervall. Es seien f : I → V eine Abbildung und Z := (t0 , . . . , tn )
eine Zerlegung von I.2 Dann heisst
Xn
LZ (f ) :=
|f (tj ) − f (tj−1 )| ∈ R
j=1
die Länge des Streckenzuges (f (t0 ) , . . . , f (tn )) in V , und
V ar (f, I) := sup {LZ (f ) : Z ist eine Zerlegung von I}
heisst die totale Variation von f über I. Wir wollen diesen Begriff nun auf Masse übertragen.
Sei (Ω, A) ein Messraum und ν ein signiertes Mass auf (Ω, A). Gemäss Definition 4 in Dunford
und Schwartz [1958, S. 97] wird die so genannte Totalvariation von ν durch
nX
o
kνkTV := sup
|ν (A)| , Z ist eine Partition von Ω in endlich viele A-messbare Mengen
A∈Z
erklärt. Sei Z eine Partition von Ω in endlich viele A-messbare Mengen. Wir definieren Z− :=
{A ∈ Z : ν (A) < 0} und Z+ := {A ∈ Z : ν (A) ≥ 0}. Dann gilt offensichtlich Z = Z− ∪ Z+ und
X
X
X
|ν (A)|
|ν (A)| +
|ν (A)| =
A∈Z−
A∈Z
A∈Z+
X
X
=
ν (A) −
ν (A)
A∈Z+
A∈Z−
[
[
A
A
−
ν
=ν
A∈Z−
A∈Z+
[
{ [
A
A
−
ν
=ν
A∈Z+
A∈Z+
[
{ [
.
A
ν
+
A
= ν
+
+
A∈Z
A∈Z
n
o
Es genügt also in der Definition von kνkTV Partitionen Z der Art A, A{ , mit A ∈ A, zu betrachten. Wir erhalten damit
n
o
kνkTV = sup |ν (A)| + ν A{ : A ∈ A .
Mit einer zusätzlichen Annahme an ν kann der vorangehende Ausdruck vereinfacht werden — wie
der folgende Hilfssatz zeigt.
Hilfssatz 1.1 Sei (Ω, A) ein Messraum und ν ein signiertes Mass auf (Ω, A) mit ν (Ω) = 0. Dann gilt
kνkTV = 2 sup {ν (A) : A ∈ A} = −2 inf {ν (A) : A ∈ A} = 2 sup {−ν (A) : A ∈ A} und somit
kνkTV = 2 sup {|ν (A)| : A ∈ A} .
Beweis
Siehe Abschnitt 3 über positive Variation, negative Variation und Variation in Elstrodt
[2005, S. 272 f.], insbesondere Satz 1.9.
Mit Hilfe dieses Ergebnisses erhalten wir schliesslich
Hilfssatz 1.2 (Totalvariationsmetrik) Sei (Ω, A) ein Messraum und seien µ, ν Wahrscheinlichkeitsmasse auf (Ω, A). Dann wird vermöge
dTV (µ, ν) :=
1
kµ − νkTV = sup {|µ (A) − ν (A)| : A ∈ A}
2
eine Metrik auf der Menge aller Wahrscheinlichkeitsmasse auf (Ω, A) erklärt. dTV (·, ·) heisst Totalvariationsmetrik.
1 Siehe
2 Wir
Amann und Escher [1999, S. 289].
nennen (t0 , . . . , tn ) eine Zerlegung von I, wenn n ∈ N und a = t0 < t1 < . . . < tn = b gelten.
2
Beweis
Die Menge M (A) der endlichen signierten Masse auf (Ω, A) ist ein R-Vektorraum. Gemäss Korollar 7.45 in Klenke [2006, S. 158] ist k·kTV eine Norm auf M (A). Damit entspricht dTV (·, ·)
der mit dem Faktor 1/ 2 skalierten Metrik, die durch k·kTV auf M (A) induziert wird.
2
Was ist Kopplung?
Die Methode der Kopplung geht zurück auf Doeblin [1938]. Ihr Gegenstand ist die Abschätzung
der Totalvariationsmetrik von zwei Wahrscheinlichkeitsmassen durch die Wahrscheinlichkeit eines
Ereignisses mittels einer geeigneten Wahl eines Wahrscheinlichkeitsraumes.
Definition 2.1 (Kopplung von Wahrscheinlichkeitsmassen) Sei (E, E) ein Messraum und
N seien P1 , P2
Wahrscheinlichkeitsmasse auf (E, E). Ein Wahrscheinlichkeitsmass P auf (E × E, E
E) mit den
Eigenschaften
P1 = P ◦ π1−1 und P2 = P ◦ π2−1
heisst Kopplung der Wahrscheinlichkeitsmasse P1 und P2 .
Wir erkennen unmittelbar: Ist P eine Kopplung von P1 und P2 , dann sind P1 und P2 die Marginalmasse (Randverteilungen) zu P.
Um die angesprochene Abschätzung von dTV (P1 , P2 ) vornehmen zu können, ist es vorteilhaft,
anstelle von P1 und P2 mit messbaren Abbildungen X1 und X2 zu arbeiten, deren Bildmasse
identisch zu P1 und P2 sind. Wir führen deshalb folgende Definition ein.
Definition 2.2 (Kopplung von messbaren Abbildungen) Sei (Ωi , Ai , Pi ) ein Wahrscheinlichkeitsraum,
(E, E) ein Messraum und Xi : Ωi → E eine (Ai , E)-messbare N
Abbildung, i ∈ {1, 2}. Sei (Ω, A, P)
ein Wahrscheinlichkeitsraum und Z : Ω → E × E eine (A, E
E)-messbare Abbildung. Z heisst
Kopplung der messbaren Abbildungen X1 und X2 , wenn P ◦ Z −1 eine Kopplung der Wahrscheinlichkeitsmasse P1 ◦ X1−1 und P2 ◦ X2−1 ist.
Wir kommen nun zur angekündigten Abschätzung von dTV (·, ·), der so genannten KopplungsUngleichung.
Korollar 2.3 (Kopplungs-Ungleichung) Sei (Ωi , Ai , Pi ) ein Wahrscheinlichkeitsraum, (E, E) ein Messraum und Xi : Ωi → E eine (Ai , E)-messbareN
Abbildung, i ∈ {1, 2}. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und Z : Ω → E × E eine (A, E
E)-messbare Abbildung. Ist Z eine Kopplung von
X1 und X2 , dann gilt
dTV P1 ◦ X1−1 , P2 ◦ X2−1 ≤ P ({π1 ◦ Z 6= π2 ◦ Z}) .
(1)
Beweis
Sei A ∈ E beliebig. Wir definieren µi := Pi ◦ Xi−1 und Zi := πi ◦ Z, i ∈ {1, 2}. Für i ∈ {1, 2}
gilt
µi (A) = Pi ◦ Xi−1 (A)
= P ◦ Z −1 ◦ πi−1 (A)
= P ◦ Z −1 ◦ πi−1 (A)
−1
= P ◦ (πi ◦ Z)
(A)
= P ◦ Zi−1 (A)
= P Zi−1 (A) .
Damit erhalten wir
µ1 (A) − µ2 (A) = P Z1−1 (A) − P Z2−1 (A)
= P ({Z1 ∈ A}) − P ({Z2 ∈ A})
= P ({Z1 ∈ A} ∩ {Z1 = Z2 }) + P ({Z1 ∈ A} ∩ {Z1 6= Z2 })
3
− P ({Z2 ∈ A} ∩ {Z1 = Z2 }) − P ({Z2 ∈ A} ∩ {Z1 6= Z2 })
= P ({Z1 ∈ A} ∩ {Z1 = Z2 }) + P ({Z1 ∈ A} ∩ {Z1 6= Z2 })
− P ({Z1 ∈ A} ∩ {Z1 = Z2 }) − P ({Z2 ∈ A} ∩ {Z1 6= Z2 })
= P ({Z1 ∈ A} ∩ {Z1 6= Z2 }) − P ({Z2 ∈ A} ∩ {Z1 6= Z2 })
|
{z
}
≥0
≤ P ({Z1 ∈ A} ∩ {Z1 6= Z2 })
≤ P ({Z1 6= Z2 }) .
Beim Übergang von der zweiten auf die dritte Formelzeile haben wir davon Gebrauch gemacht,
dass {{Zi ∈ A} ∩ {Z1 = Z2 } , {Zi ∈ A} ∩ {Z1 6= Z2 }} eine Partition des Ereignisses {Zi ∈ A}
darstellt, i ∈ {1, 2}, und dass P additiv ist. Die vierte Formelzeile ist dadurch gerechtfertigt,
dass offensichtlich {Z1 ∈ A}∩{Z1 = Z2 } = {Z2 ∈ A}∩{Z1 = Z2 } gilt. Die erste Ungleichung gilt
aufgrund der Nichtnegativität von P. Die zweite Ungleichung folgt aus {Z1 ∈ A} ∩ {Z1 6= Z2 } ⊂
{Z1 6= Z2 } und der Monotonie von P. Da der Ausdruck µ1 (A) − µ2 (A) ≤ P ({Z1 6= Z2 }) symmetrisch in Z1 und Z2 ist, gilt auch
− (µ1 (A) − µ2 (A)) = µ2 (A) − µ1 (A) ≤ P ({Z1 6= Z2 }) .
Insgesamt erhalten wir
|µ1 (A) − µ2 (A)| ≤ P ({Z1 6= Z2 })
und damit die Behauptung
dTV P1 ◦ X1−1 , P2 ◦ X2−1 = dTV (µ1 , µ2 )
= sup {|µ1 (A) − µ2 (A)| : A ∈ E}
≤ P ({Z1 6= Z2 }) .
Die Kopplungs-Ungleichung (1) soll nun an einem Beispiel illustriert werden.
Beispiel 2.4 Seien n ∈ N, (Ω, A, P) ein Wahrscheinlichkeitsraum und I1 , . . . , In unabhängige {0, 1}wertige (A, σ (N0 ))-messbare Abbildungen Ii : ΩP
→ N0 mit P (Ii = 1) =: pi ∈ (0, 1) (und damit
n
P (Ii = 0) = 1 − pi ) für alle 1 ≤ i ≤ n. Für W := i=1 Ii gilt dann
Xn
Xn
dTV (L (W ) , Po (λ)) ≤
pi (1 − exp (−pi )) ≤
p2i ,
i=1
i=1
wobei Po (λ) die Poisson-Verteilung mit Parameter λ :=
Pn
i=1
pi bezeichnet.
Beweis
Seien n ∈ N und 1 ≤ i ≤ n beliebig. Wir definieren Ωi := {−1, 0, 1, . . .} = {−1} ∪ N0 und Ai :=
σ (Ωi ). Wir wollen nun auf (Ωi , Ai ) ein Wahrscheinlichkeitsmass definieren. Dazu definieren wir
zunächst eine Abbildung pi : N0 → R durch
pi (0) := 1 − pi
∀k ∈ N
exp (−pi ) k
pi
k!
X
pi (−1) := 1 − pi (0) −
pi (k) :=
k∈N
pi (k) .
Aus pi ∈ (0, 1) folgt pi (0) > 0. Für k ∈ N gilt offensichtlich pi (k) > 0. Weiter ist
X
pi (−1) = 1 − pi (0) −
pi (k)
k∈N
= 1 − (1 − pi ) −
X
k∈N

exp (−pi ) k
pi
k!

X

exp (−pi ) k
= 1 − (1 − pi ) − 
pi − exp (−pi )
 k∈N0

|
{z k!
}
=1
4
= exp (−pi ) − (1 − pi )
≥ 0.3
Somit haben wir gezeigt, dass pi nichtnegativ ist. Als nächstes definieren wir eine Abbildung
Pi : σ (Ωi ) → R durch
X
∀A ∈ σ (Ωi ) Pi (A) :=
pi (k) .
k∈A
Aufgrund der Nichtnegativität von pi ist Pi nichtnegativ. Per Definition ist Pi σ-additiv mit
Pi (Ωi ) = 1. Damit ist Pi ein Wahrscheinlichkeitsmass auf (Ωi , Ai ). Wir betrachten nun den
Produktraum
Ω := ni=1 Ωi der Ωi , 1 ≤ i ≤ n. Zusammen mit der Produkt-σ-Algebra A :=
Nn
i=1 Ai ist dann (Ω, A) ein Messraum. Durch
∀A ∈ A
P (A) :=
Yn
X
(ω1 ,...,ωn )∈A
j=1
Pj ({ωj })
wird auf (Ω, A) schliesslich ein Wahrscheinlichkeitsmass erklärt. Wir kommen nun zur Kopplung. Für 1 ≤ i ≤ n definieren wir (A, σ (N0 ))-messbare Abbildungen Xi , Yi : Ω → N0 durch
(
0, falls ωi = 0,
Xi ((ω1 , . . . , ωn )) :=
1 sonst
und
(
0,
Yi ((ω1 , . . . , ωn )) :=
ωi
falls ωi ≤ 0,
sonst.
Es gilt dann
P ({Xi = 0}) = P ({(ω1 , . . . , ωn ) ∈ Ω : ωi = 0})
= P ({ω ∈ Ω : ω = (ω1 , . . . , ωi−1 , 0, ωi+1 , . . . , ωn )})
X
Yn
=
Pj ({ωj })
ω∈Ω: ω=(ω1 ,...,ωi−1 ,0,ωi+1 ,...,ωn )
j=1
X
Yn
=
Pj ({ωj })
(ω1 ,...,ωn )∈Ω1 ×...×Ωi−1 ×{0}×Ωi+1 ×...×Ωn
j=1
X
Yn
Pi ({0})
Pj ({ωj })
=
(ω1 ,...,ωi ,ωi+1 ,...ωn )∈Ω1 ×...×Ωi−1 ×Ωi+1 ×...×Ωn
j=1,j6=i
X
Yn
= Pi ({0})
Pj ({ωj })
(ω1 ,...,ωi ,ωi+1 ,...ωn )∈Ω1 ×...×Ωi−1 ×Ωi+1 ×...×Ωn
j=1,j6=i
Yn
X
= Pi ({0})
Pj ({ωj })
j=1,j6=i
ωj ∈Ωj
{z
}
|
=1
= Pi ({0})
= pi (0)
= 1 − pi
und P ({Xi = 1}) = pi . Xi besitzt also die gleiche Verteilung
Pn wie Ii . Nach Konstruktion sind
die X1 , . . . , Xn zudem unabhängig. Somit besitzt X := i=1 Xi die gleiche Verteilung wie W :
L (X) = L (W ). Für Yi erhalten wir auf analoge Weise
P ({Yi = 0}) = Pi ({−1}) + Pi ({0}) = exp (−pi ) =
und
∀ωi ∈ N
P ({Yi = ωi }) = Pi ({ωi }) = pi (ωi ) =
exp (−pi ) 0
pi
0!
exp (−pi ) ωi
pi .
ωi !
3 Für R 3 x > 0 gilt log (x) ≤ x − 1 (Beweis mit Hilfe des Mittelwertsatzes der Differentialrechnung). Daraus
folgt für y := 1 − x, dass log (1 − y) ≤ −y und 1 − y ≤ exp (−y).
5
Yi ist also Poisson-verteilt mit Parameter pi . Nach Konstruktion sind auch die Y1 , . . . , Yn unabhängig.P
Aus L (Yi ) = Po (pi ) für 1 P
≤ i ≤ n und der Unabhängigkeit der Y1 , . . . , Yn folgt dann
n
n
0
für Y := i=1 Yi , dass L (Y ) = Po ( i=1 pi ) = Po (λ).4 Definieren wir Z := (X, Y ) , dann ist
−1
die Verteilung von Z, P ◦ Z , im Sinne von Definition 2.1 eine Kopplung der beiden Verteilungen L (W ) und Po (λ). Um dTV (L (W ) , Po (λ)) abschätzen zu können, müssen wir gemäss
Korollar 2.3 die Wahrscheinlichkeit für das Ereignis {π1 ◦ Z 6= π2 ◦ Z} = {X 6= Y } berechnen
bzw. nach oben abschätzen. Für dieses Ereignis gilt
nXn
o nXn
o [n
Xn
{X 6= Y } =
Xi 6=
Yi =
Xi − Yi 6= 0 ⊂
{Xi − Yi 6= 0} ,
i=1
i=1
i=1
i=1
Pn
denn ist die Summe i=1 Xi − Yi von 0 verschieden, dann ist mindestens einer der Summanden
Xi − Yi von 0 verschieden. Da P monoton und σ-subadditiv ist, erhalten wir daraus
[n
Xn
P ({X 6= Y }) ≤ P
{Xi − Yi 6= 0} ≤
P ({Xi − Yi 6= 0}) .
i=1
i=1
Aufgrund der vorangehenden Gleichung interessieren wir uns für die Wahrscheinlichkeit des
Ereignisses {Xi 6= Yi }, 1 ≤ i ≤ n. Nach Definition von Xi und Yi gilt zunächst
{Xi = Yi } = {Xi = Yi = 0 ∨ Xi = Yi = 1}
= {Xi = Yi = 0} ∪ {Xi = Yi = 1}
= {(ω1 , . . . , ωn ) ∈ Ω : ωi = 0} ∪ {(ω1 , . . . , ωn ) ∈ Ω : ωi = 1} ,
mit {(ω1 , . . . , ωn ) ∈ Ω : ωi = 0} ∩ {(ω1 , . . . , ωn ) ∈ Ω : ωi = 1} = ∅. Damit erhalten wir
P ({Xi = Yi }) = P ({(ω1 , . . . , ωn ) ∈ Ω : ωi = 0} ∪ {(ω1 , . . . , ωn ) ∈ Ω : ωi = 1})
= P ({(ω1 , . . . , ωn ) ∈ Ω : ωi = 0}) + P ({(ω1 , . . . , ωn ) ∈ Ω : ωi = 1})
= Pi ({0}) + Pi ({1})
= pi (0) + pi (1)
= 1 − pi + exp (−pi ) pi
und
P ({Xi 6= Yi }) = 1 − P ({Xi = Yi })
= 1 − (1 − pi + exp (−pi ) pi )
= pi − exp (−pi ) pi
= pi (1 − exp (−pi ))
≤ p2i .
Insgesamt erhalten wir
dTV (L (W ) , Po (λ)) ≤ P ({X 6= Y })
Xn
≤
P ({Xi 6= Yi })
i=1
Xn
≤
pi (1 − exp (−pi ))
i=1
Xn
≤
p2i .
i=1
3
Kopplung im Rahmen von Steins Methode
Wir wollen in diesem Abschnitt an die zentralen Ergebnisse der ersten beiden Vorträge anknüpfen
— und verzichten dabei weitestgehend auf den wahrscheinlichkeitstheoretischen Formalismus des
vorangehenden Abschnitts.
4 Siehe
hierzu beispielsweise Klenke [2006, Korollar 15.13, Aussage (vi)].
6
Für beliebiges λ > 0 und A ⊂ N0 erklären wir eine Funktion g = gλ,A : N0 → R, die der
folgenden Gleichung genügt:
∀j ∈ N0
λg (j + 1) − jg (j) = 1{j∈A} − Po (λ) (A) .
(2)
Der Wert von g an der Stelle 0 ist hierbei irrelevant und wird üblicherweise auf 0 gesetzt. Man
beachte, dass die Lösung von (2) rekursiv berechnet werden kann, indem zunächst j = 0 gesetzt
und mit Hilfe von (2) der Wert für g (j + 1) = g (1) berechnet wird. Danach wird j um 1 erhöht,
um so Schrittweise jeden beliebigen Wert g (j) zu bestimmen.
Sei nun W eine N0 -wertige Zufallsgrösse. Aus (2) folgt dann
P (W ∈ A) − Po (λ) (A) = E [λg (W + 1) − W g (W )] .
(3)
Wenn wir die rechte Seite von (3) gleichmässig für alle g = gλ,A nach oben abschätzen können,
so liefert dies eine obere Schranke für die Totalvariationsmetrik der Verteilung von W und der
Poisson-Verteilung Po (λ):
dTV (L (W ) , Po (λ)) = sup {|P (W ∈ A) − Po (λ) (A)| : A ⊂ N0 } .
Die angesprochene Abschätzung ist nun Gegenstand des folgenden Theorems:
Theorem 3.1 (Barbour, Holst und Janson [1992, Theorem 1.B]) Sei n ∈ N und seien I1P
, . . . , In
n
{0, 1}-wertige Zufallsgrössen mit P (Ii = 1) =: pi ∈ (0, 1) für 1 ≤ i ≤ n. Sei W :=
i=1 Ii .
Angenommen, für alle 1 ≤ i ≤ n existierten N0 -wertige Zufallsgrössen Ui und Vi derart, dass
L (Ui ) = L (W )
und L (Vi + 1) = L (W | Ii = 1)
gilt. Für beliebiges A ⊂ N0 gilt dann
X n
|P (W ∈ A) − Po (λ) (A)| = pi E [g (Ui + 1)] − E [g (Vi + 1)]
i=1
Xn
≤ ∆g
pi E [|Ui − Vi |] ,
i=1
mit ∆g := sup {|g (j + 1) − g (j)| : j ∈ N0 }.
Beweis
Pn
Pn
Pn
Sei A ⊂ N0 beliebig. Wir definieren λ := E [W ] = E [ i=1 Ii ] = i=1 E [Ii ] = i=1 pi und
∀1 ≤ i ≤ n
Wi :=
Xn
j=1,j6=i
Ij .
Für beliebiges 1 ≤ i ≤ n gilt zunächst
(
g (Wi + 1) = g (Wi + Ii ) = g (W ) , falls Ii = 1,
Ii g (Wi + 1) =
0,
falls Ii = 0,
und damit
E [Ii g (Wi + 1)] = P (Ii = 1) E [g (W ) | Ii = 1] + P (Ii = 0) E [0]
= pi E [g (W ) | Ii = 1] .
Wir erhalten dann für (3)
P (W ∈ A) − Po (λ) (A) = E [λg (W + 1) − W g (W )]
hXn
X n
i
=E
pi g (W + 1) −
Ii g (W )
i=1
i=1
Xn
Xn
=
pi E [g (W + 1)] −
E [Ii g (W )]
i=1
i=1
Xn
Xn
=
pi E [g (W + 1)] −
E [Ii g (Wi + 1)]
i=1
i=1
7
(4)
=
=
Xn
i=1
Xn
i=1
Xn
pi E [g (W + 1)] −
i=1
pi E [g (W ) | Ii = 1]
pi (E [g (W + 1)] − E [g (W ) | Ii = 1]) .
(5)
Aus L (Ui ) = L (W ) folgt E [Ui + 1] = E [W + 1] und aus L (Vi + 1) = L (W | Ii = 1) =
L (Wi + 1) folgt E [g (W ) | Ii = 1] = E [g (Wi + 1)] = E [g (Vi + 1)]. Mit (5) erhalten wir deshalb
Xn
|P (W ∈ A) − Po (λ) (A)| = pi (E [g (W + 1)] − E [g (W ) | Ii = 1])
i=1
Xn
=
pi (E [g (Ui + 1)] − E [g (Vi + 1)])
i=1
Xn
≤
pi |E [g (Ui + 1) − g (Vi + 1)]|
i=1
Xn
≤
pi E [|g (Ui + 1) − g (Vi + 1)|] .
(6)
i=1
Die erste Ungleichung folgt aus der Dreiecksungleichung für |·| und die zweite aus der Ungleichung von Jensen. Der letzte Ausdruck auf der rechten Seite von (6) kann schliesslich mit Hilfe
von
|g (Ui + 1) − g (Vi + 1)| ≤ ∆g |Ui − Vi |
(7)
wie folgt abgeschätzt werden:
Xn
Xn
pi E [|g (Ui + 1) − g (Vi + 1)|] ≤ ∆g
i=1
i=1
pi E [|Ui − Vi |] .
Mit einer zusätzlichen Annahme an die Zufallsgrössen Ui und Vi , 1 ≤ i ≤ n, können wir die
obere Schranke von |P (W ∈ A) − Po (λ) (A)| in Theorem 3.1 ausschliesslich durch die ersten beiden
Momente von W abschätzen.
Pn
Korollar 3.2 Es gelten die Voraussetzungen von Theorem 3.1. Sei λ := E [W ] = E [ i=1 Ii ] =
P
n
i=1 pi . Unter der Annahme, dass Ui ≥ Vi P-fast sicher für alle 1 ≤ i ≤ n gilt, ergibt sich für
beliebiges A ⊂ N0
Xn
|P (W ∈ A) − Po (λ) (A)| ≤ λ−1
pi E [|Ui − Vi |]
i=1
= 1 − V [W ]/ E [W ] .
Beweis
Sei 1 ≤ i ≤ n beliebig. Aus der Voraussetzung Ui ≥ Vi P-fast sicher folgt
Xn
Xn
pi E [|Ui − Vi |] =
pi E [Ui − Vi ]
i=1
i=1
Xn
=
pi E [(Ui + 1) − (Vi + 1)]
i=1
Xn
Xn
=
pi E [Ui + 1] −
pi E [Vi + 1] .
i=1
i=1
Aus L (Ui ) = L (W ) folgt E [Ui + 1] = E [W + 1]. Aus L (Vi + 1) = L (W | Ii = 1), Ii (Wi + 1) =
Ii (Wi + Ii ) = Ii W und Ausdruck (4) mit g = id folgt
pi E [Vi + 1] = pi E [W | Ii = 1] = E [Ii (Wi + 1)] = E [Ii W ] .
Somit erhalten wir
Xn
i=1
pi E [|Ui − Vi |] =
=
=
Xn
i=1
Xn
pi E [Ui + 1] −
Xn
i=1
pi E [Vi + 1]
Xn
i=1
X
n
pi E [W + 1] −
E [Ii W ]
i=1
hX n
i
pi E [W + 1] − E
Ii W
i=1
= λ (E [W ] + 1) − E [W W ]
= λ + λE [W ] − E W 2
8
i=1
2
= λ + (E [W ]) − E W 2
= λ − V [W ] .
Aufgrund von Lemma 1.1.1 in Barbour et al. [1992, S. 7] gilt
∆g ≤ λ−1 (1 − exp (−λ)) ≤ min 1, λ−1 ≤ λ−1 .
Für beliebiges A ⊂ N0 erhalten wir dann mit Theorem 3.1
Xn
|P (W ∈ A) − Po (λ) (A)| ≤ ∆g
pi E [|Ui − Vi |]
i=1
≤ λ−1 (λ − V [W ])
= 1 − λ−1 V [W ]
= 1 − V [W ]/ E [W ] .
Wir können die Aussage des vorangehenden Theorems noch ein wenig verallgemeinern:
Theorem 3.3 (Barbour et al. [1992, Theorem 2.A]) Sei I eine beliebige (Index-)Menge
P und sei
Ii eine {0, 1}-wertige
Zufallsgrösse
mit
P
(I
=
1)
=:
p
∈
(0,
1),
i
∈
I.
Sei
W
:=
i
i
i∈I Ii und
P
λ := E [W ] = i∈I pi . Angenommen, für alle i ∈ I existierten N0 -wertige Zufallsgrössen Ui und
Vi derart, dass
L (Ui ) = L (W ) und L (Vi + 1) = L (W | Ii = 1)
gilt. Es gilt dann
h
i
pi E min λ−1 (1 − exp (−λ)) |Ui − Vi | , 2 min 1, λ− 1/2
i∈I
X
≤ λ−1 (1 − exp (−λ))
pi E [|Ui − Vi |] .
dTV (L (W ) , Po (λ)) ≤
X
i∈I
Beweis
Sei A ⊂ N0 beliebig. Für i ∈ I gilt
|g (Ui + 1) − g (Vi + 1)| ≤ |g (Ui + 1)| + |g (Vi + 1)|
≤ 2 sup {|g (j)| : j ∈ N0 }
=: 2 kgk .
Zusammen mit der Abschätzung (7) erhalten wir daraus
|g (Ui + 1) − g (Vi + 1)| ≤ min (∆g |Ui − Vi | , 2 kgk) .
Aufgrund von Lemma 1.1.1 in Barbour et al. [1992, S. 7] gilt
kgk ≤ min 1, λ− 1/2 ,
∆g ≤ λ−1 (1 − exp (−λ)) ≤ min 1, λ−1 .
Somit ergibt sich
|g (Ui + 1) − g (Vi + 1)| ≤ min (∆g |Ui − Vi | , 2 kgk)
≤ min λ−1 (1 − exp (−λ)) |Ui − Vi | , 2 min 1, λ− 1/2
≤ λ−1 (1 − exp (−λ)) |Ui − Vi | .
Mit Hilfe von Theorem 3.1, insbesondere von Ausdruck (6), und der vorangehenden Abschätzung
erhalten wir schliesslich
X
|P (W ∈ A) − Po (λ) (A)| ≤
pi E [|g (Ui + 1) − g (Vi + 1)|]
i∈I
h
i
X
≤
pi E min λ−1 (1 − exp (−λ)) |Ui − Vi | , 2 min 1, λ− 1/2
i∈I
X
−1
≤ λ (1 − exp (−λ))
pi E [|Ui − Vi |] .
i∈I
9
Wir beschliessen unsere Ausführungen mit einem Beispiel zu Theorem 3.3.
Beispiel 3.4 Wir betrachten das folgende Experiment. Gegeben seien N ∈ N nummerierte Urnen,
die in aufsteigender Reihenfolge angeordnet sind. Auf diese N Urnen werden zufällig 0 ≤ m ≤ N
Bälle verteilt, wobei in einer Urne höchstens ein Ball zu liegen kommt und die entsprechende
Wahrscheinlichkeit für alle Urnen identisch ist. Wir interessieren uns für die Verteilung der Anzahl
Bälle in den ersten 1 ≤ n ≤ N Urnen.
Für 1 ≤ k ≤ n definieren wir eine {0, 1}-wertige Zufallsgrösse Ik , die den Wert 1 besitzt, falls
ein Ball in Urne k liegt, und P
die sonst 0 ist. Die Anzahl Bälle in den ersten n Urnen wird dann
n
durch die Zufallsgrösse W := k=1 Ik beschrieben. Aufgrund der Voraussetzungen gilt
P ({Ik = 1}) =
für alle 1 ≤ k ≤ n. Für W gilt dann
hX n
i Xn
E [W ] = E
Ik =
k=1
k=1
E [Ik ] =
m
.
N
Xn
k=1
P ({Ik = 1}) = n
m
=: λ.
N
Wir suchen nun nach einer geeigneten Kopplung, um Theorem 3.3 auf die vorliegende Situation
anwenden zu können. Dazu definieren wir zunächst
∀1 ≤ k ≤ n
Uk := W.
Für beliebiges 1 ≤ k ≤ n gilt damit L (Uk ) = L (W ). Für die Definition der Vk , 1 ≤ k ≤ n, müssen
wir etwas mehr arbeiten. Sei 1 ≤ k ≤ n beliebig. Wir unterscheiden zwei Fälle:
(1) Es gelte Ik = 0, d.h. in Urne k sei kein Ball vorhanden. Dann wählen wir aus der Menge aller
Urnen mit einem Ball,
M := {l ∈ {1, . . . , N } : Il = 1} ,
zufällig (mit gleicher Wahrscheinlichkeit) eine Urne aus; diese bezeichnen wir mit L. Für 1 ≤
j ≤ n definieren wir dann eine {0, 1}-wertige Zufallsgrösse Jkj wie folgt:


1, falls j = k,
Jkj := 0, falls j = L und 1 ≤ L ≤ n,


Ij , sonst.
(2) Es gelte Ik = 1, d.h. in Urne k sei ein Ball vorhanden. Dann setzen wir L := k und definieren
Jkj := Jj für alle 1 ≤ k ≤ n.
Alsdann definieren wir
∀1 ≤ k ≤ n
Vk :=
Xn
j=1,j6=k
Jkj .
Für 1 ≤ k ≤ n gilt dann
Vk + 1 =
und mit W =
Pn
k=1 Ik
E [|Uk − Vk |]
= E [|W − Vk |]
hXn
=E Ij
j=1
hXn
=E Ij
j=1
hXn
=E Ij
j=1
hXn
=E Xn
j=1,j6=k
d
Jkj + 1 =
X n
j=1
Ij | Ik = 1
offenbar L (Vk + 1) = L (W | Ik = 1). Weiter gilt
Xn
i
Jkj j=1,j6=k
Xn
i
Xn
Xn
−
Jkj 1{Ik =0} + Ij −
Jkj 1{Ik =1}
j=1,j6=k
j=1
j=1,j6=k
i
hXn
i
Xn
Xn
−
Jkj 1{Ik =0} + E Ij −
Jkj 1{Ik =1}
j=1,j6=k
j=1
j=1,j6=k
i
hXn
i
Xn
Xn
Ij −
Jkj 1{Ik =0} + E Ij −
Ij 1{Ik =1}
−
j=1,j6=k
j=1,j6=k
j=1
10
j=1,j6=k
i
hXn
Xn
=E Ij −
Jkj 1{Ik =0} + E |Ik | 1{Ik =1}
j=1,j6=k
j=1,j6=k
i
hXn
Xn
=E Ij −
Jkj 1{Ik =0} 1{1≤L≤n}
j=1,j6=k
j=1,j6=k
i
hXn
Xn
+E Ij −
Jkj 1{Ik =0} 1{n<L≤N } + E |1| 1{Ik =1}
j=1,j6=k
j=1,j6=k
= E |IL − JL | 1{Ik =0} 1{1≤L≤n}
i
hXn
Xn
+E Ij −
Ij 1{Ik =0} 1{n<L≤N } + E 1{Ik =1}
j=1,j6=k
j=1,j6=k
= E |1 − 0| 1{Ik =0} 1{1≤L≤n} + E 1{Ik =1}
= E 1{Ik =0} 1{1≤L≤n} + E 1{Ik =1}
= P ({1 ≤ L ≤ n} ∩ {Ik = 0}) + P ({Ik = 1})
= P ({Ik = 0}) P ({1 ≤ L ≤ n} | {Ik = 0}) + P ({Ik = 1})
|
{z
}|
{z
} |
{z
}
m
m
n
−
1
=1−
=
=
N
N
N −1
m n−1
m
= 1−
+
N N −1 N
N −m n−1
m
=
+ .
N N −1 N
Mit Theorem 3.3 erhalten wir schliesslich
dTV (L (W ) , Po (λ)) ≤ λ−1 (1 − exp (−λ))
Xn
pk E [|Uk − Vk |]
m
N
m N −m n−1
(1 − exp (−λ))
+
≤
k=1 N
mn
N N −1 N
N m N −m n−1
m
= (1 − exp (−λ))
n
+
mn N
N N −1 N
N −m n−1
m
= (1 − exp (−λ))
+
.
N N −1 N
k=1
Xn
Literatur
Amann, H. und Escher, J. (1999). Analysis II, 1 edn, Birkhäuser Verlag, Basel.
Barbour, A. D., Holst, L. und Janson, S. (1992). Poisson Approximation, Oxford Studies in
Probability, Oxford University Press, Oxford.
Doeblin, W. (1938). Exposé de la theorie des chaı̂nes simples constantes de markov à un nombre
fini d’états, Revue mathematique de l’Union Interbalkanique 2: 77–105.
Dunford, N. und Schwartz, J. T. (1958). Linear Operators, Part I, Interscience Publishers,
Inc., New York.
Elstrodt, J. (2005). Mass- und Integrationstheorie, 4 edn, Springer Verlag, Berlin.
Klenke, A. (2006). Wahrscheinlichkeitstheorie, Springer Verlag, Berlin.
Lindvall, T. (2002). Lectures on the Coupling Method, Dover Publications, Inc., Mineola, New
York.
11

Zugehörige Unterlagen

Ubungsblatt 5 - RISC-Linz

Grundkonzepte der Optik, SS 2014 Übungsserie 7

Einführung in die Kopplung

Zugehörige Unterlagen

Produkte

Unterstützung

Einführung in die Kopplung

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können