MAT982 Proseminar über statistische Methoden, Universität Zürich FS 2008 Einführung in die Kopplung Ausarbeitung zum Vortrag Marc Sommer [email protected] 10. März 2008 1 Begriffe und Notation Wir verwenden im folgenden die üblichen mengentheoretischen Bezeichnungen ∈, ∈, / ⊂, ∪ und ∩. Seien Ω und I Mengen. Grundlegende mengentheoretische Begriffe Mit |Ω| wird die Mächtigkeit von Ω bezeichnet. Die Menge aller Teilmengen von Ω heisst Potenzmenge von Ω und wird mit P (Ω) notiert, also P (Ω) := {A : A ⊂ Ω}. Für A ⊂ Ω bedeutet A{ := {x ∈ Ω : x ∈ / A} das Komplement von A in Ω. Für A, B ⊂ Ω heisst A \ B := {ω ∈ Ω : ω ∈ A, ω ∈ / B} = A ∩ B { die mengentheoretische Differenz von A und B. Eine Familie (Ai )i∈I von Teilmengen von Ω ist eine Abbildung der Indexmenge I in P (Ω), die jedem i ∈ I eine Menge Ai ∈ P (Ω) als Bild zuordnet. Eine Familie (Ai )i∈I von Teilmengen von Ω heisst disjunkt, wenn die Mengen Ai , i ∈ I, paarweise disjunkt sind, d.h. wenn Ai ∩ Aj = ∅ für alle i, j ∈ I mit i 6= j gilt. σ-Algebra und Wahrscheinlichkeitsmass Eine Teilmenge A ⊂ P (Ω) heisst σ-Algebra über Ω, wenn Ω ∈ A gilt, und wenn A gegenüber Komplementbildung und abzählbaren Vereinigungen abgeschlossen ist. Eine Menge A ⊂ Ω heisst A-messbar, wenn A ∈ A gilt. Sei A eine σ-Algebra über Ω. Eine Abbildung P : A → R heisst Wahrscheinlichkeitsmass auf(Ω,P A), wenn gilt: (1) Für jede S disjunkte Familie (An )n∈N von Teilmengen von Ω gilt P n∈N An = n∈N P (An ); (2) P (A) ≥ 0 für alle A ∈ A; (3) P (Ω) = 1. Eine Abbildung P : A → R, für die (1) und (2) gilt, heisst Mass auf (Ω, A). Eine Abbildung P : A → R, für die (1) gilt, heisst signiertes Mass auf (Ω, A). Ist A eine σAlgebra über Ω, dann heisst das Paar (Ω, A) messbarer Raum oder Messraum. Ist P : A → R ein Wahrscheinlichkeitsmass auf (Ω, A), dann heisst das Tripel (Ω, A, P) Wahrscheinlichkeitsraum. Messbare Abbildung und Bildmass Seien (Ω, A) und (Ω0 , A0 ) Messräume. Eine Abbildung X : Ω → Ω0 heisst (A, A0 )-messbar, wenn X −1 (A0 ) ∈ A für alle A0 ∈ A0 gilt. Sei P ein Wahrscheinlichkeitsmass auf (Ω, A) und X : Ω → Ω0 eine (A, A0 )-messbare Abbildung. Dann ist P ◦ X −1 : A0 → R, A0 7→ P X −1 (A0 ) ein Wahrscheinlichkeitsmass auf (Ω0 , A0 ). P ◦ X −1 heisst das Bildmass von P unter X. P ◦ X −1 wird auch die Verteilung von X genannt. Produktraum, Koordinatenabbildung und Produkt-σ-Algebra Sei (Ωi )i∈I eine Familie S von Mengen. Die Menge i∈I Ωi der Abbildungen ω : I → i∈I Ωi mit der Eigenschaft, dass ωi := ω (i) ∈ Ωi für jedes i ∈ I gilt, heisst das Produkt der (Ωi )i∈I , oder kurz der Produktraum. ω (j) die j-te Koordinatenabbildung. Seien (Ωi , Ai ), Für j ∈ I heisst πj : i∈I Ωi → Ωj , ω 7→N i ∈ I, Messräume. Die Produkt-σ-Algebra ist die kleinste σ-Algebra auf i∈I Ωi , so i∈I Ai N dass für jedes j ∈ I die Koordinatenabbildung πj : i∈I Ωi → Ωj i∈I Ai , Aj -messbar ist: N S S −1 i∈I Ai := σ (πi , i ∈ I) := σ i∈I σ (πi ) = σ i∈I πi (Ai ) . Totalvariationsmetrik Wir erinnern zunächst an den Begriff der totalen Variation, wie er in der Analysis verwendet wird.1 Im folgenden seien (V, |·|) ein Banachraum über dem Körper K und I := [a, b] ⊂ R ein kompaktes Intervall. Es seien f : I → V eine Abbildung und Z := (t0 , . . . , tn ) eine Zerlegung von I.2 Dann heisst Xn LZ (f ) := |f (tj ) − f (tj−1 )| ∈ R j=1 die Länge des Streckenzuges (f (t0 ) , . . . , f (tn )) in V , und V ar (f, I) := sup {LZ (f ) : Z ist eine Zerlegung von I} heisst die totale Variation von f über I. Wir wollen diesen Begriff nun auf Masse übertragen. Sei (Ω, A) ein Messraum und ν ein signiertes Mass auf (Ω, A). Gemäss Definition 4 in Dunford und Schwartz [1958, S. 97] wird die so genannte Totalvariation von ν durch nX o kνkTV := sup |ν (A)| , Z ist eine Partition von Ω in endlich viele A-messbare Mengen A∈Z erklärt. Sei Z eine Partition von Ω in endlich viele A-messbare Mengen. Wir definieren Z− := {A ∈ Z : ν (A) < 0} und Z+ := {A ∈ Z : ν (A) ≥ 0}. Dann gilt offensichtlich Z = Z− ∪ Z+ und X X X |ν (A)| |ν (A)| + |ν (A)| = A∈Z− A∈Z A∈Z+ X X = ν (A) − ν (A) A∈Z+ A∈Z− [ [ A A − ν =ν A∈Z− A∈Z+ [ { [ A A − ν =ν A∈Z+ A∈Z+ [ { [ . A ν + A = ν + + A∈Z A∈Z n o Es genügt also in der Definition von kνkTV Partitionen Z der Art A, A{ , mit A ∈ A, zu betrachten. Wir erhalten damit n o kνkTV = sup |ν (A)| + ν A{ : A ∈ A . Mit einer zusätzlichen Annahme an ν kann der vorangehende Ausdruck vereinfacht werden — wie der folgende Hilfssatz zeigt. Hilfssatz 1.1 Sei (Ω, A) ein Messraum und ν ein signiertes Mass auf (Ω, A) mit ν (Ω) = 0. Dann gilt kνkTV = 2 sup {ν (A) : A ∈ A} = −2 inf {ν (A) : A ∈ A} = 2 sup {−ν (A) : A ∈ A} und somit kνkTV = 2 sup {|ν (A)| : A ∈ A} . Beweis Siehe Abschnitt 3 über positive Variation, negative Variation und Variation in Elstrodt [2005, S. 272 f.], insbesondere Satz 1.9. Mit Hilfe dieses Ergebnisses erhalten wir schliesslich Hilfssatz 1.2 (Totalvariationsmetrik) Sei (Ω, A) ein Messraum und seien µ, ν Wahrscheinlichkeitsmasse auf (Ω, A). Dann wird vermöge dTV (µ, ν) := 1 kµ − νkTV = sup {|µ (A) − ν (A)| : A ∈ A} 2 eine Metrik auf der Menge aller Wahrscheinlichkeitsmasse auf (Ω, A) erklärt. dTV (·, ·) heisst Totalvariationsmetrik. 1 Siehe 2 Wir Amann und Escher [1999, S. 289]. nennen (t0 , . . . , tn ) eine Zerlegung von I, wenn n ∈ N und a = t0 < t1 < . . . < tn = b gelten. 2 Beweis Die Menge M (A) der endlichen signierten Masse auf (Ω, A) ist ein R-Vektorraum. Gemäss Korollar 7.45 in Klenke [2006, S. 158] ist k·kTV eine Norm auf M (A). Damit entspricht dTV (·, ·) der mit dem Faktor 1/ 2 skalierten Metrik, die durch k·kTV auf M (A) induziert wird. 2 Was ist Kopplung? Die Methode der Kopplung geht zurück auf Doeblin [1938]. Ihr Gegenstand ist die Abschätzung der Totalvariationsmetrik von zwei Wahrscheinlichkeitsmassen durch die Wahrscheinlichkeit eines Ereignisses mittels einer geeigneten Wahl eines Wahrscheinlichkeitsraumes. Definition 2.1 (Kopplung von Wahrscheinlichkeitsmassen) Sei (E, E) ein Messraum und N seien P1 , P2 Wahrscheinlichkeitsmasse auf (E, E). Ein Wahrscheinlichkeitsmass P auf (E × E, E E) mit den Eigenschaften P1 = P ◦ π1−1 und P2 = P ◦ π2−1 heisst Kopplung der Wahrscheinlichkeitsmasse P1 und P2 . Wir erkennen unmittelbar: Ist P eine Kopplung von P1 und P2 , dann sind P1 und P2 die Marginalmasse (Randverteilungen) zu P. Um die angesprochene Abschätzung von dTV (P1 , P2 ) vornehmen zu können, ist es vorteilhaft, anstelle von P1 und P2 mit messbaren Abbildungen X1 und X2 zu arbeiten, deren Bildmasse identisch zu P1 und P2 sind. Wir führen deshalb folgende Definition ein. Definition 2.2 (Kopplung von messbaren Abbildungen) Sei (Ωi , Ai , Pi ) ein Wahrscheinlichkeitsraum, (E, E) ein Messraum und Xi : Ωi → E eine (Ai , E)-messbare N Abbildung, i ∈ {1, 2}. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und Z : Ω → E × E eine (A, E E)-messbare Abbildung. Z heisst Kopplung der messbaren Abbildungen X1 und X2 , wenn P ◦ Z −1 eine Kopplung der Wahrscheinlichkeitsmasse P1 ◦ X1−1 und P2 ◦ X2−1 ist. Wir kommen nun zur angekündigten Abschätzung von dTV (·, ·), der so genannten KopplungsUngleichung. Korollar 2.3 (Kopplungs-Ungleichung) Sei (Ωi , Ai , Pi ) ein Wahrscheinlichkeitsraum, (E, E) ein Messraum und Xi : Ωi → E eine (Ai , E)-messbareN Abbildung, i ∈ {1, 2}. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und Z : Ω → E × E eine (A, E E)-messbare Abbildung. Ist Z eine Kopplung von X1 und X2 , dann gilt dTV P1 ◦ X1−1 , P2 ◦ X2−1 ≤ P ({π1 ◦ Z 6= π2 ◦ Z}) . (1) Beweis Sei A ∈ E beliebig. Wir definieren µi := Pi ◦ Xi−1 und Zi := πi ◦ Z, i ∈ {1, 2}. Für i ∈ {1, 2} gilt µi (A) = Pi ◦ Xi−1 (A) = P ◦ Z −1 ◦ πi−1 (A) = P ◦ Z −1 ◦ πi−1 (A) −1 = P ◦ (πi ◦ Z) (A) = P ◦ Zi−1 (A) = P Zi−1 (A) . Damit erhalten wir µ1 (A) − µ2 (A) = P Z1−1 (A) − P Z2−1 (A) = P ({Z1 ∈ A}) − P ({Z2 ∈ A}) = P ({Z1 ∈ A} ∩ {Z1 = Z2 }) + P ({Z1 ∈ A} ∩ {Z1 6= Z2 }) 3 − P ({Z2 ∈ A} ∩ {Z1 = Z2 }) − P ({Z2 ∈ A} ∩ {Z1 6= Z2 }) = P ({Z1 ∈ A} ∩ {Z1 = Z2 }) + P ({Z1 ∈ A} ∩ {Z1 6= Z2 }) − P ({Z1 ∈ A} ∩ {Z1 = Z2 }) − P ({Z2 ∈ A} ∩ {Z1 6= Z2 }) = P ({Z1 ∈ A} ∩ {Z1 6= Z2 }) − P ({Z2 ∈ A} ∩ {Z1 6= Z2 }) | {z } ≥0 ≤ P ({Z1 ∈ A} ∩ {Z1 6= Z2 }) ≤ P ({Z1 6= Z2 }) . Beim Übergang von der zweiten auf die dritte Formelzeile haben wir davon Gebrauch gemacht, dass {{Zi ∈ A} ∩ {Z1 = Z2 } , {Zi ∈ A} ∩ {Z1 6= Z2 }} eine Partition des Ereignisses {Zi ∈ A} darstellt, i ∈ {1, 2}, und dass P additiv ist. Die vierte Formelzeile ist dadurch gerechtfertigt, dass offensichtlich {Z1 ∈ A}∩{Z1 = Z2 } = {Z2 ∈ A}∩{Z1 = Z2 } gilt. Die erste Ungleichung gilt aufgrund der Nichtnegativität von P. Die zweite Ungleichung folgt aus {Z1 ∈ A} ∩ {Z1 6= Z2 } ⊂ {Z1 6= Z2 } und der Monotonie von P. Da der Ausdruck µ1 (A) − µ2 (A) ≤ P ({Z1 6= Z2 }) symmetrisch in Z1 und Z2 ist, gilt auch − (µ1 (A) − µ2 (A)) = µ2 (A) − µ1 (A) ≤ P ({Z1 6= Z2 }) . Insgesamt erhalten wir |µ1 (A) − µ2 (A)| ≤ P ({Z1 6= Z2 }) und damit die Behauptung dTV P1 ◦ X1−1 , P2 ◦ X2−1 = dTV (µ1 , µ2 ) = sup {|µ1 (A) − µ2 (A)| : A ∈ E} ≤ P ({Z1 6= Z2 }) . Die Kopplungs-Ungleichung (1) soll nun an einem Beispiel illustriert werden. Beispiel 2.4 Seien n ∈ N, (Ω, A, P) ein Wahrscheinlichkeitsraum und I1 , . . . , In unabhängige {0, 1}wertige (A, σ (N0 ))-messbare Abbildungen Ii : ΩP → N0 mit P (Ii = 1) =: pi ∈ (0, 1) (und damit n P (Ii = 0) = 1 − pi ) für alle 1 ≤ i ≤ n. Für W := i=1 Ii gilt dann Xn Xn dTV (L (W ) , Po (λ)) ≤ pi (1 − exp (−pi )) ≤ p2i , i=1 i=1 wobei Po (λ) die Poisson-Verteilung mit Parameter λ := Pn i=1 pi bezeichnet. Beweis Seien n ∈ N und 1 ≤ i ≤ n beliebig. Wir definieren Ωi := {−1, 0, 1, . . .} = {−1} ∪ N0 und Ai := σ (Ωi ). Wir wollen nun auf (Ωi , Ai ) ein Wahrscheinlichkeitsmass definieren. Dazu definieren wir zunächst eine Abbildung pi : N0 → R durch pi (0) := 1 − pi ∀k ∈ N exp (−pi ) k pi k! X pi (−1) := 1 − pi (0) − pi (k) := k∈N pi (k) . Aus pi ∈ (0, 1) folgt pi (0) > 0. Für k ∈ N gilt offensichtlich pi (k) > 0. Weiter ist X pi (−1) = 1 − pi (0) − pi (k) k∈N = 1 − (1 − pi ) − X k∈N exp (−pi ) k pi k! X exp (−pi ) k = 1 − (1 − pi ) − pi − exp (−pi ) k∈N0 | {z k! } =1 4 = exp (−pi ) − (1 − pi ) ≥ 0.3 Somit haben wir gezeigt, dass pi nichtnegativ ist. Als nächstes definieren wir eine Abbildung Pi : σ (Ωi ) → R durch X ∀A ∈ σ (Ωi ) Pi (A) := pi (k) . k∈A Aufgrund der Nichtnegativität von pi ist Pi nichtnegativ. Per Definition ist Pi σ-additiv mit Pi (Ωi ) = 1. Damit ist Pi ein Wahrscheinlichkeitsmass auf (Ωi , Ai ). Wir betrachten nun den Produktraum Ω := ni=1 Ωi der Ωi , 1 ≤ i ≤ n. Zusammen mit der Produkt-σ-Algebra A := Nn i=1 Ai ist dann (Ω, A) ein Messraum. Durch ∀A ∈ A P (A) := Yn X (ω1 ,...,ωn )∈A j=1 Pj ({ωj }) wird auf (Ω, A) schliesslich ein Wahrscheinlichkeitsmass erklärt. Wir kommen nun zur Kopplung. Für 1 ≤ i ≤ n definieren wir (A, σ (N0 ))-messbare Abbildungen Xi , Yi : Ω → N0 durch ( 0, falls ωi = 0, Xi ((ω1 , . . . , ωn )) := 1 sonst und ( 0, Yi ((ω1 , . . . , ωn )) := ωi falls ωi ≤ 0, sonst. Es gilt dann P ({Xi = 0}) = P ({(ω1 , . . . , ωn ) ∈ Ω : ωi = 0}) = P ({ω ∈ Ω : ω = (ω1 , . . . , ωi−1 , 0, ωi+1 , . . . , ωn )}) X Yn = Pj ({ωj }) ω∈Ω: ω=(ω1 ,...,ωi−1 ,0,ωi+1 ,...,ωn ) j=1 X Yn = Pj ({ωj }) (ω1 ,...,ωn )∈Ω1 ×...×Ωi−1 ×{0}×Ωi+1 ×...×Ωn j=1 X Yn Pi ({0}) Pj ({ωj }) = (ω1 ,...,ωi ,ωi+1 ,...ωn )∈Ω1 ×...×Ωi−1 ×Ωi+1 ×...×Ωn j=1,j6=i X Yn = Pi ({0}) Pj ({ωj }) (ω1 ,...,ωi ,ωi+1 ,...ωn )∈Ω1 ×...×Ωi−1 ×Ωi+1 ×...×Ωn j=1,j6=i Yn X = Pi ({0}) Pj ({ωj }) j=1,j6=i ωj ∈Ωj {z } | =1 = Pi ({0}) = pi (0) = 1 − pi und P ({Xi = 1}) = pi . Xi besitzt also die gleiche Verteilung Pn wie Ii . Nach Konstruktion sind die X1 , . . . , Xn zudem unabhängig. Somit besitzt X := i=1 Xi die gleiche Verteilung wie W : L (X) = L (W ). Für Yi erhalten wir auf analoge Weise P ({Yi = 0}) = Pi ({−1}) + Pi ({0}) = exp (−pi ) = und ∀ωi ∈ N P ({Yi = ωi }) = Pi ({ωi }) = pi (ωi ) = exp (−pi ) 0 pi 0! exp (−pi ) ωi pi . ωi ! 3 Für R 3 x > 0 gilt log (x) ≤ x − 1 (Beweis mit Hilfe des Mittelwertsatzes der Differentialrechnung). Daraus folgt für y := 1 − x, dass log (1 − y) ≤ −y und 1 − y ≤ exp (−y). 5 Yi ist also Poisson-verteilt mit Parameter pi . Nach Konstruktion sind auch die Y1 , . . . , Yn unabhängig.P Aus L (Yi ) = Po (pi ) für 1 P ≤ i ≤ n und der Unabhängigkeit der Y1 , . . . , Yn folgt dann n n 0 für Y := i=1 Yi , dass L (Y ) = Po ( i=1 pi ) = Po (λ).4 Definieren wir Z := (X, Y ) , dann ist −1 die Verteilung von Z, P ◦ Z , im Sinne von Definition 2.1 eine Kopplung der beiden Verteilungen L (W ) und Po (λ). Um dTV (L (W ) , Po (λ)) abschätzen zu können, müssen wir gemäss Korollar 2.3 die Wahrscheinlichkeit für das Ereignis {π1 ◦ Z 6= π2 ◦ Z} = {X 6= Y } berechnen bzw. nach oben abschätzen. Für dieses Ereignis gilt nXn o nXn o [n Xn {X 6= Y } = Xi 6= Yi = Xi − Yi 6= 0 ⊂ {Xi − Yi 6= 0} , i=1 i=1 i=1 i=1 Pn denn ist die Summe i=1 Xi − Yi von 0 verschieden, dann ist mindestens einer der Summanden Xi − Yi von 0 verschieden. Da P monoton und σ-subadditiv ist, erhalten wir daraus [n Xn P ({X 6= Y }) ≤ P {Xi − Yi 6= 0} ≤ P ({Xi − Yi 6= 0}) . i=1 i=1 Aufgrund der vorangehenden Gleichung interessieren wir uns für die Wahrscheinlichkeit des Ereignisses {Xi 6= Yi }, 1 ≤ i ≤ n. Nach Definition von Xi und Yi gilt zunächst {Xi = Yi } = {Xi = Yi = 0 ∨ Xi = Yi = 1} = {Xi = Yi = 0} ∪ {Xi = Yi = 1} = {(ω1 , . . . , ωn ) ∈ Ω : ωi = 0} ∪ {(ω1 , . . . , ωn ) ∈ Ω : ωi = 1} , mit {(ω1 , . . . , ωn ) ∈ Ω : ωi = 0} ∩ {(ω1 , . . . , ωn ) ∈ Ω : ωi = 1} = ∅. Damit erhalten wir P ({Xi = Yi }) = P ({(ω1 , . . . , ωn ) ∈ Ω : ωi = 0} ∪ {(ω1 , . . . , ωn ) ∈ Ω : ωi = 1}) = P ({(ω1 , . . . , ωn ) ∈ Ω : ωi = 0}) + P ({(ω1 , . . . , ωn ) ∈ Ω : ωi = 1}) = Pi ({0}) + Pi ({1}) = pi (0) + pi (1) = 1 − pi + exp (−pi ) pi und P ({Xi 6= Yi }) = 1 − P ({Xi = Yi }) = 1 − (1 − pi + exp (−pi ) pi ) = pi − exp (−pi ) pi = pi (1 − exp (−pi )) ≤ p2i . Insgesamt erhalten wir dTV (L (W ) , Po (λ)) ≤ P ({X 6= Y }) Xn ≤ P ({Xi 6= Yi }) i=1 Xn ≤ pi (1 − exp (−pi )) i=1 Xn ≤ p2i . i=1 3 Kopplung im Rahmen von Steins Methode Wir wollen in diesem Abschnitt an die zentralen Ergebnisse der ersten beiden Vorträge anknüpfen — und verzichten dabei weitestgehend auf den wahrscheinlichkeitstheoretischen Formalismus des vorangehenden Abschnitts. 4 Siehe hierzu beispielsweise Klenke [2006, Korollar 15.13, Aussage (vi)]. 6 Für beliebiges λ > 0 und A ⊂ N0 erklären wir eine Funktion g = gλ,A : N0 → R, die der folgenden Gleichung genügt: ∀j ∈ N0 λg (j + 1) − jg (j) = 1{j∈A} − Po (λ) (A) . (2) Der Wert von g an der Stelle 0 ist hierbei irrelevant und wird üblicherweise auf 0 gesetzt. Man beachte, dass die Lösung von (2) rekursiv berechnet werden kann, indem zunächst j = 0 gesetzt und mit Hilfe von (2) der Wert für g (j + 1) = g (1) berechnet wird. Danach wird j um 1 erhöht, um so Schrittweise jeden beliebigen Wert g (j) zu bestimmen. Sei nun W eine N0 -wertige Zufallsgrösse. Aus (2) folgt dann P (W ∈ A) − Po (λ) (A) = E [λg (W + 1) − W g (W )] . (3) Wenn wir die rechte Seite von (3) gleichmässig für alle g = gλ,A nach oben abschätzen können, so liefert dies eine obere Schranke für die Totalvariationsmetrik der Verteilung von W und der Poisson-Verteilung Po (λ): dTV (L (W ) , Po (λ)) = sup {|P (W ∈ A) − Po (λ) (A)| : A ⊂ N0 } . Die angesprochene Abschätzung ist nun Gegenstand des folgenden Theorems: Theorem 3.1 (Barbour, Holst und Janson [1992, Theorem 1.B]) Sei n ∈ N und seien I1P , . . . , In n {0, 1}-wertige Zufallsgrössen mit P (Ii = 1) =: pi ∈ (0, 1) für 1 ≤ i ≤ n. Sei W := i=1 Ii . Angenommen, für alle 1 ≤ i ≤ n existierten N0 -wertige Zufallsgrössen Ui und Vi derart, dass L (Ui ) = L (W ) und L (Vi + 1) = L (W | Ii = 1) gilt. Für beliebiges A ⊂ N0 gilt dann X n |P (W ∈ A) − Po (λ) (A)| = pi E [g (Ui + 1)] − E [g (Vi + 1)] i=1 Xn ≤ ∆g pi E [|Ui − Vi |] , i=1 mit ∆g := sup {|g (j + 1) − g (j)| : j ∈ N0 }. Beweis Pn Pn Pn Sei A ⊂ N0 beliebig. Wir definieren λ := E [W ] = E [ i=1 Ii ] = i=1 E [Ii ] = i=1 pi und ∀1 ≤ i ≤ n Wi := Xn j=1,j6=i Ij . Für beliebiges 1 ≤ i ≤ n gilt zunächst ( g (Wi + 1) = g (Wi + Ii ) = g (W ) , falls Ii = 1, Ii g (Wi + 1) = 0, falls Ii = 0, und damit E [Ii g (Wi + 1)] = P (Ii = 1) E [g (W ) | Ii = 1] + P (Ii = 0) E [0] = pi E [g (W ) | Ii = 1] . Wir erhalten dann für (3) P (W ∈ A) − Po (λ) (A) = E [λg (W + 1) − W g (W )] hXn X n i =E pi g (W + 1) − Ii g (W ) i=1 i=1 Xn Xn = pi E [g (W + 1)] − E [Ii g (W )] i=1 i=1 Xn Xn = pi E [g (W + 1)] − E [Ii g (Wi + 1)] i=1 i=1 7 (4) = = Xn i=1 Xn i=1 Xn pi E [g (W + 1)] − i=1 pi E [g (W ) | Ii = 1] pi (E [g (W + 1)] − E [g (W ) | Ii = 1]) . (5) Aus L (Ui ) = L (W ) folgt E [Ui + 1] = E [W + 1] und aus L (Vi + 1) = L (W | Ii = 1) = L (Wi + 1) folgt E [g (W ) | Ii = 1] = E [g (Wi + 1)] = E [g (Vi + 1)]. Mit (5) erhalten wir deshalb Xn |P (W ∈ A) − Po (λ) (A)| = pi (E [g (W + 1)] − E [g (W ) | Ii = 1]) i=1 Xn = pi (E [g (Ui + 1)] − E [g (Vi + 1)]) i=1 Xn ≤ pi |E [g (Ui + 1) − g (Vi + 1)]| i=1 Xn ≤ pi E [|g (Ui + 1) − g (Vi + 1)|] . (6) i=1 Die erste Ungleichung folgt aus der Dreiecksungleichung für |·| und die zweite aus der Ungleichung von Jensen. Der letzte Ausdruck auf der rechten Seite von (6) kann schliesslich mit Hilfe von |g (Ui + 1) − g (Vi + 1)| ≤ ∆g |Ui − Vi | (7) wie folgt abgeschätzt werden: Xn Xn pi E [|g (Ui + 1) − g (Vi + 1)|] ≤ ∆g i=1 i=1 pi E [|Ui − Vi |] . Mit einer zusätzlichen Annahme an die Zufallsgrössen Ui und Vi , 1 ≤ i ≤ n, können wir die obere Schranke von |P (W ∈ A) − Po (λ) (A)| in Theorem 3.1 ausschliesslich durch die ersten beiden Momente von W abschätzen. Pn Korollar 3.2 Es gelten die Voraussetzungen von Theorem 3.1. Sei λ := E [W ] = E [ i=1 Ii ] = P n i=1 pi . Unter der Annahme, dass Ui ≥ Vi P-fast sicher für alle 1 ≤ i ≤ n gilt, ergibt sich für beliebiges A ⊂ N0 Xn |P (W ∈ A) − Po (λ) (A)| ≤ λ−1 pi E [|Ui − Vi |] i=1 = 1 − V [W ]/ E [W ] . Beweis Sei 1 ≤ i ≤ n beliebig. Aus der Voraussetzung Ui ≥ Vi P-fast sicher folgt Xn Xn pi E [|Ui − Vi |] = pi E [Ui − Vi ] i=1 i=1 Xn = pi E [(Ui + 1) − (Vi + 1)] i=1 Xn Xn = pi E [Ui + 1] − pi E [Vi + 1] . i=1 i=1 Aus L (Ui ) = L (W ) folgt E [Ui + 1] = E [W + 1]. Aus L (Vi + 1) = L (W | Ii = 1), Ii (Wi + 1) = Ii (Wi + Ii ) = Ii W und Ausdruck (4) mit g = id folgt pi E [Vi + 1] = pi E [W | Ii = 1] = E [Ii (Wi + 1)] = E [Ii W ] . Somit erhalten wir Xn i=1 pi E [|Ui − Vi |] = = = Xn i=1 Xn pi E [Ui + 1] − Xn i=1 pi E [Vi + 1] Xn i=1 X n pi E [W + 1] − E [Ii W ] i=1 hX n i pi E [W + 1] − E Ii W i=1 = λ (E [W ] + 1) − E [W W ] = λ + λE [W ] − E W 2 8 i=1 2 = λ + (E [W ]) − E W 2 = λ − V [W ] . Aufgrund von Lemma 1.1.1 in Barbour et al. [1992, S. 7] gilt ∆g ≤ λ−1 (1 − exp (−λ)) ≤ min 1, λ−1 ≤ λ−1 . Für beliebiges A ⊂ N0 erhalten wir dann mit Theorem 3.1 Xn |P (W ∈ A) − Po (λ) (A)| ≤ ∆g pi E [|Ui − Vi |] i=1 ≤ λ−1 (λ − V [W ]) = 1 − λ−1 V [W ] = 1 − V [W ]/ E [W ] . Wir können die Aussage des vorangehenden Theorems noch ein wenig verallgemeinern: Theorem 3.3 (Barbour et al. [1992, Theorem 2.A]) Sei I eine beliebige (Index-)Menge P und sei Ii eine {0, 1}-wertige Zufallsgrösse mit P (I = 1) =: p ∈ (0, 1), i ∈ I. Sei W := i i i∈I Ii und P λ := E [W ] = i∈I pi . Angenommen, für alle i ∈ I existierten N0 -wertige Zufallsgrössen Ui und Vi derart, dass L (Ui ) = L (W ) und L (Vi + 1) = L (W | Ii = 1) gilt. Es gilt dann h i pi E min λ−1 (1 − exp (−λ)) |Ui − Vi | , 2 min 1, λ− 1/2 i∈I X ≤ λ−1 (1 − exp (−λ)) pi E [|Ui − Vi |] . dTV (L (W ) , Po (λ)) ≤ X i∈I Beweis Sei A ⊂ N0 beliebig. Für i ∈ I gilt |g (Ui + 1) − g (Vi + 1)| ≤ |g (Ui + 1)| + |g (Vi + 1)| ≤ 2 sup {|g (j)| : j ∈ N0 } =: 2 kgk . Zusammen mit der Abschätzung (7) erhalten wir daraus |g (Ui + 1) − g (Vi + 1)| ≤ min (∆g |Ui − Vi | , 2 kgk) . Aufgrund von Lemma 1.1.1 in Barbour et al. [1992, S. 7] gilt kgk ≤ min 1, λ− 1/2 , ∆g ≤ λ−1 (1 − exp (−λ)) ≤ min 1, λ−1 . Somit ergibt sich |g (Ui + 1) − g (Vi + 1)| ≤ min (∆g |Ui − Vi | , 2 kgk) ≤ min λ−1 (1 − exp (−λ)) |Ui − Vi | , 2 min 1, λ− 1/2 ≤ λ−1 (1 − exp (−λ)) |Ui − Vi | . Mit Hilfe von Theorem 3.1, insbesondere von Ausdruck (6), und der vorangehenden Abschätzung erhalten wir schliesslich X |P (W ∈ A) − Po (λ) (A)| ≤ pi E [|g (Ui + 1) − g (Vi + 1)|] i∈I h i X ≤ pi E min λ−1 (1 − exp (−λ)) |Ui − Vi | , 2 min 1, λ− 1/2 i∈I X −1 ≤ λ (1 − exp (−λ)) pi E [|Ui − Vi |] . i∈I 9 Wir beschliessen unsere Ausführungen mit einem Beispiel zu Theorem 3.3. Beispiel 3.4 Wir betrachten das folgende Experiment. Gegeben seien N ∈ N nummerierte Urnen, die in aufsteigender Reihenfolge angeordnet sind. Auf diese N Urnen werden zufällig 0 ≤ m ≤ N Bälle verteilt, wobei in einer Urne höchstens ein Ball zu liegen kommt und die entsprechende Wahrscheinlichkeit für alle Urnen identisch ist. Wir interessieren uns für die Verteilung der Anzahl Bälle in den ersten 1 ≤ n ≤ N Urnen. Für 1 ≤ k ≤ n definieren wir eine {0, 1}-wertige Zufallsgrösse Ik , die den Wert 1 besitzt, falls ein Ball in Urne k liegt, und P die sonst 0 ist. Die Anzahl Bälle in den ersten n Urnen wird dann n durch die Zufallsgrösse W := k=1 Ik beschrieben. Aufgrund der Voraussetzungen gilt P ({Ik = 1}) = für alle 1 ≤ k ≤ n. Für W gilt dann hX n i Xn E [W ] = E Ik = k=1 k=1 E [Ik ] = m . N Xn k=1 P ({Ik = 1}) = n m =: λ. N Wir suchen nun nach einer geeigneten Kopplung, um Theorem 3.3 auf die vorliegende Situation anwenden zu können. Dazu definieren wir zunächst ∀1 ≤ k ≤ n Uk := W. Für beliebiges 1 ≤ k ≤ n gilt damit L (Uk ) = L (W ). Für die Definition der Vk , 1 ≤ k ≤ n, müssen wir etwas mehr arbeiten. Sei 1 ≤ k ≤ n beliebig. Wir unterscheiden zwei Fälle: (1) Es gelte Ik = 0, d.h. in Urne k sei kein Ball vorhanden. Dann wählen wir aus der Menge aller Urnen mit einem Ball, M := {l ∈ {1, . . . , N } : Il = 1} , zufällig (mit gleicher Wahrscheinlichkeit) eine Urne aus; diese bezeichnen wir mit L. Für 1 ≤ j ≤ n definieren wir dann eine {0, 1}-wertige Zufallsgrösse Jkj wie folgt: 1, falls j = k, Jkj := 0, falls j = L und 1 ≤ L ≤ n, Ij , sonst. (2) Es gelte Ik = 1, d.h. in Urne k sei ein Ball vorhanden. Dann setzen wir L := k und definieren Jkj := Jj für alle 1 ≤ k ≤ n. Alsdann definieren wir ∀1 ≤ k ≤ n Vk := Xn j=1,j6=k Jkj . Für 1 ≤ k ≤ n gilt dann Vk + 1 = und mit W = Pn k=1 Ik E [|Uk − Vk |] = E [|W − Vk |] hXn =E Ij j=1 hXn =E Ij j=1 hXn =E Ij j=1 hXn =E Xn j=1,j6=k d Jkj + 1 = X n j=1 Ij | Ik = 1 offenbar L (Vk + 1) = L (W | Ik = 1). Weiter gilt Xn i Jkj j=1,j6=k Xn i Xn Xn − Jkj 1{Ik =0} + Ij − Jkj 1{Ik =1} j=1,j6=k j=1 j=1,j6=k i hXn i Xn Xn − Jkj 1{Ik =0} + E Ij − Jkj 1{Ik =1} j=1,j6=k j=1 j=1,j6=k i hXn i Xn Xn Ij − Jkj 1{Ik =0} + E Ij − Ij 1{Ik =1} − j=1,j6=k j=1,j6=k j=1 10 j=1,j6=k i hXn Xn =E Ij − Jkj 1{Ik =0} + E |Ik | 1{Ik =1} j=1,j6=k j=1,j6=k i hXn Xn =E Ij − Jkj 1{Ik =0} 1{1≤L≤n} j=1,j6=k j=1,j6=k i hXn Xn +E Ij − Jkj 1{Ik =0} 1{n<L≤N } + E |1| 1{Ik =1} j=1,j6=k j=1,j6=k = E |IL − JL | 1{Ik =0} 1{1≤L≤n} i hXn Xn +E Ij − Ij 1{Ik =0} 1{n<L≤N } + E 1{Ik =1} j=1,j6=k j=1,j6=k = E |1 − 0| 1{Ik =0} 1{1≤L≤n} + E 1{Ik =1} = E 1{Ik =0} 1{1≤L≤n} + E 1{Ik =1} = P ({1 ≤ L ≤ n} ∩ {Ik = 0}) + P ({Ik = 1}) = P ({Ik = 0}) P ({1 ≤ L ≤ n} | {Ik = 0}) + P ({Ik = 1}) | {z }| {z } | {z } m m n − 1 =1− = = N N N −1 m n−1 m = 1− + N N −1 N N −m n−1 m = + . N N −1 N Mit Theorem 3.3 erhalten wir schliesslich dTV (L (W ) , Po (λ)) ≤ λ−1 (1 − exp (−λ)) Xn pk E [|Uk − Vk |] m N m N −m n−1 (1 − exp (−λ)) + ≤ k=1 N mn N N −1 N N m N −m n−1 m = (1 − exp (−λ)) n + mn N N N −1 N N −m n−1 m = (1 − exp (−λ)) + . N N −1 N k=1 Xn Literatur Amann, H. und Escher, J. (1999). Analysis II, 1 edn, Birkhäuser Verlag, Basel. Barbour, A. D., Holst, L. und Janson, S. (1992). Poisson Approximation, Oxford Studies in Probability, Oxford University Press, Oxford. Doeblin, W. (1938). Exposé de la theorie des chaı̂nes simples constantes de markov à un nombre fini d’états, Revue mathematique de l’Union Interbalkanique 2: 77–105. Dunford, N. und Schwartz, J. T. (1958). Linear Operators, Part I, Interscience Publishers, Inc., New York. Elstrodt, J. (2005). Mass- und Integrationstheorie, 4 edn, Springer Verlag, Berlin. Klenke, A. (2006). Wahrscheinlichkeitstheorie, Springer Verlag, Berlin. Lindvall, T. (2002). Lectures on the Coupling Method, Dover Publications, Inc., Mineola, New York. 11