Seminar zur Wahrscheinlichekitstheorie Totalvariationsabstand und

Werbung
Seminar zur Wahrscheinlichekitstheorie
Totalvariationsabstand und Kopplung
1
Totalvariationsabstand
Man stelle sich vor ein messbarer Raum (Ω, A) sei gegeben und Z sei die Menge der Wahrscheinlichkeitsmaße auf diesem Raum. Dann macht es Sinn eine
Metrik auf Z zu definieren, denn mit ihrer Hilfe lässt sich Z zu einem topologischen Raum erweitern. Unter anderem kann man mit einer Metrik offene (und
abgeschlosse) Bälle von Radius r um jeden Element aus Z sich angucken. Insbesondere wenn man in einer Situation wäre, wo für ein µ ∈ Z sich in jedem -Ball
unendlich viele µt aus einer Folge (µn )n≥1 für ein t ≥ N befinden, so könnte
man von einer Konvergenz der Folge (µn )n≥1 gegen µ sprechen:
Definition 1.1. Sei (Ω, A) ein messbarer Raum, µ und ν Wahrscheinlichkeitsmaße darauf. Dann heißt
||µ − ν||TV := max |µ(A) − ν(A)|
A⊆Ω
der Totalvariationsabstand zwischen µ und ν.
Die Definition ist sehr naheliegend, das heißt als Wert für den “Abstand“ zwischen zwei W-Maßen nimmt man die größtmögliche Differenz (zum Betrag)
zwischen ihnen für irgendeine Teilmenge von Ω.
Beispiel 1.1. Erinnern wir uns ans Beispiel mit dem Frosch, so hatte er die
Möglichkeiten mit Wahrscheinlichkeit p von Osten nach Westen und mit Wahrscheinlichkeit q von Westen
nach Ostenzu springen. Das heißt Ω = {e, w}
1−p
p
mit der Übergangsmatrix
und der Stationärerverteilung π =
q
1−q
q
p
( p+q
, p+q
). Nehmen wir wieder an, dass der Frosch an dem östlichen Blatt
startet (d.h. µ0 = (1, 0)) und definieren ferner
∆t := |µt (e) − π(e)|
Dann gilt
||µt − π||TV = ∆t = |P t (e, e) − π(e)| = |P t (e, w) − π(w)|
Beweis. Per Definition ist ||µt − π||TV = max |µt (A) − π(A)|.
A⊆Ω
Für A = ∅ und für A = Ω ist die Differenz aber gleich 0.
⇒ ||µt − π||TV = max{|µt (e) − π(e)|, |µt (w) − π(w)|}
es gilt aber |µt (e) − π(e)| = |µt (w) − π(w)|, denn µt (e) = (µ0 P t )(e) = P t (e, e)
⇒ |µt (e) − π(e)| = |P t (e, e) − π(e)| = |1 − P t (e, w) − π(e)| = |π(w) − P t (e, w)| =
= |µt (w) − π(w)|
1
Zum Nachweis, dass der in Def 1.1 definierte Totalvariationsabstand tatsächlich eine Metrik ist, benötigen wir eine äquivalente, sehr nützliche Darstellung
von ||µ − ν||TV . Von nun an ist Ω immer als eine endliche Menge und A als ihre
Potenzmenge vorausgesetzt, wenn nichts Zusätzliches erwähnt wird.
Satz 1.1. Seien µ und ν Wahrscheinlichkeitsmaße auf (Ω, A) . Dann gilt
||µ − ν||TV =
1X
|µ(x) − ν(x)|.
2
(1)
x∈Ω
Beweis. Setze B := {x : µ(x) ≥ ν(x)} und sei A ⊂ Ω beliebig. Dann gilt
µ(A) − ν(A) ≤ µ(A ∩ B) − ν(A ∩ B) ≤ µ(B) − ν(B)
Die erste Ungleichung ist richtig, weil aus A = (A ∩ B) ∪ (A ∩ B c ) folgt
µ(A) = µ(A ∩ B) + µ(A ∩ B c ) und ν(A) = ν(A ∩ B) + ν(A ∩ B c ) .
⇒ µ(A) − ν(A) = µ(A ∩ B) − ν(A ∩ B) + µ(A ∩ B c ) − ν(A ∩ B c )
|
{z
}
≤0
denn (A ∩ B c ) ⊂ {x : µ(x) < ν(x)}.
Und die zweite aus µ(B)−ν(B) = µ(A∩B)−ν(A∩B)+µ(Ac ∩ B) − ν(Ac ∩ B).
|
{z
}
≥0
Ganz analog weist man nach, dass ν(A) − µ(A) ≤ ν(B c ) − µ(B c ) ist.
P
P
Aus
µ(x) =
ν(x) = 1 folgt durch Subraktion außerdem, dass
x∈Ω
x∈Ω
P
P
µ(x) − ν(x) −
ν(x) − µ(x) = 0 ist.
x∈B c
x∈B
⇒ µ(B) − ν(B) = ν(B c ) − µ(B c ) und |µ(A) − ν(A)| ≤ µ(B) − ν(B) ∀A ⊂ Ω
µ(B) − ν(B) ist unsere obere Schranke für ||µ − ν||TV .
Setze A = B, dann erhalten wir ||µ − ν||TV = µ(B) − ν(B) =
P
|µ(x) − ν(x)|
= 21 (µ(B) − ν(B) + ν(B c ) − µ(B c )) = 12
x∈Ω
Bemerkung. Aus dem Beweis geht insbesondere hervor, dass
||µ − ν||TV =
X
(µ(x) − ν(x)) =
x,µ(x)≥ν(x)
X
(µ(x) − ν(x))
(2)
x,µ(x)>ν(x)
und
||µ − ν||TV =
X
(ν(x) − µ(x))
x,µ(x)<ν(x)
gilt.
2
(3)
Satz 1.2. Sei (Ω, A) ein messbarer Raum und Z die Menge der Wahrscheinlichkeitsmaße auf diesem Raum. Dann ist die in der Definition 1.1 definierte
Abbildung eine Metrik auf Z.
Beweis. Für beliebige Elemente µ, ν und η aus Z gilt per Definition
||µ − ν||TV = max |µ(A) − ν(A)| ≥ 0
A⊆Ω
Gelte ||µ − ν||TV = 0 ⇒ µ(A) − ν(A) = 0 ∀A ⊂ Ω ⇒ µ = ν
Andererseits impliziert µ = ν schon ||µ − ν||TV = 0.
Die Symmetrie von ||µ − ν||TV ist klar und die Dreiecksungleichung folgt nun
leicht mit (1)
P
P
||µ − ν||TV = 12
|µ(x) − ν(x)| = 12
|µ(x) − η(x) + η(x) − ν(x)|
x∈Ω
≤
1
2
P
x∈Ω
(|µ(x) − η(x)| + |η(x) − ν(x)|) = ||µ − η||TV + ||η − ν||TV
x∈Ω
Es gibt noch 2 weitere nützliche, äquivalente Definitionen von ||µ − ν||TV
Satz 1.3. Seien µ und ν Wahrscheinlichkeitsmaße auf (Ω, A), f : Ω → R eine
Funktion mit max |f (x)| ≤ 1. Dann gilt
x∈Ω
(
)
X
X
1
||µ − ν||TV = sup
f (x)µ(x) −
f (x)ν(x) : max |f (x)| ≤ 1
(4)
x∈Ω
2 f
x∈Ω
x∈Ω
Beweis. “ ≥ Richtung “
Sei also f beliebig mit max |f (x)| ≤ 1 gegeben. Dann erhalten wir folgendes
x∈Ω
P
P
P
1 f (x)µ(x) −
|f (x)||µ(x) − ν(x)|
f (x)ν(x) ≤ 21
2 ≤
x∈Ω
P
1
|µ(x)
2
x∈Ω
x∈Ω
x∈Ω
− ν(x)| = ||µ − ν||TV
Die erste Ungleichheit folgt aus Dreiecksungleichung für Betrag, zweite unter
Benutzung der Voraussetzung und die letzte Gleichheit aus (1). Weil diese Ungleichungskette für alle f erfüllt ist, gilt sie somit auch fürs Supremum über
diese menge.
P
P
f (x)µ(x) −
f (x)ν(x) : max |f (x)| ≤ 1
⇒
||µ − ν||TV ≥ 21 sup
f
x∈Ω
x∈Ω
x∈Ω
“ ≤ Richtung “
Wir konstruieren nun ein f ∗ welches die Gleichheit erfüllt, dann wird offensichtlich das Supremum über die Menge ≥ ||µ − ν||TV sein und unseren Beweis
vollenden.
1, falls x mit µ(x) ≥ ν(x)
∗
f :=
−1, falls x mit µ(x) < ν(x)
P ∗
P ∗
P ∗
1
f (x)ν(x) = 21
f (x)µ(x) −
f (x)(µ(x) − ν(x))
2
x∈Ω
x∈Ω
x∈Ω
!
P
P
(2)+(3)
1
=2
(µ(x) − ν(x)) +
(ν(x) − µ(x))
= ||µ−ν||TV
x:µ(x)≥ν(x)
x:µ(x)<ν(x)
3
2
Kopplung
Für die letzte äquvalente Darstellung von ||µ − ν||TV benötigen wir die Einführung eines neuen Begriffs.
Definition 2.1. Sei (Ω, A) ein messbarer Raum, µ und ν Wahrscheinlichkeitsmaße darauf. Seien ferner X und Y zufallsvariablen, beide definiert auf dem
selben W-Raum (X, A, P) mit PX = µ und PY = ν. Dann wird das Paar (X, Y )
als Kopplung von µ und ν bezeichnet.
Beispiel 2.1. Sei (Ω, A) = ({0, 1}, P({0, 1})), µ(0) = µ(1) = 0, 5 = ν(0) = ν(1).
Das heißt also µ = ν und beide können als Wahrscheinlichkeitsverteilungen des
fairen Münzenwurfs angesehen werden. Nun gibt es zwei Möglichkeiten diese zu
koppeln:
1. Wir wählen X und Y als unabhängig von einander mit
P(X = x, Y = y) = 0, 25 für alle (x, y) aus {0, 1}2
2. Oder wir setzen Y = X und P(X = 0, Y = 0) = 0.5 = P(X = 1, Y = 1),
P(X 6= Y ) = 0
Bemerkung. Wenn eine Kopplung (X, Y ) von µ und ν mit q = P(X,Y ) als ihre
Wahrscheinlichkeitsverteilung auf Ω × Ω gegeben ist, so genügt diese per Definition
P
P
q(x, y) =
P(X = x, Y = y) = P(X = x) = µ(x)
y∈Ω
y∈Ω
und
P
q(x, y) =
x∈Ω
P
P(X = x, Y = y) = P(Y = y) = ν(y)
y∈Ω
Andererseits wenn uns eine Wahrscheinlichkeitsverteilung q auf Ω × Ω vorliegt,
welche
P
P
q(x, y) = µ(x) und
q(x, y) = ν(y)
y∈Ω
x∈Ω
erfüllt, dann existiert ein Paar von Zufallsvariablen (X, Y ) beide definiert auf
dem selben W-Raum mit der Zielmenge Ω × Ω, so dass q der gemeinsamen Verteilung von (X, Y ) entspricht (das hat zur Folge, dass (X, Y ) eine Kopplung von
µ und ν ist).
Beweis. Sei Ω = {x1 , ..., xn }. Wir definieren sowohl X, als auch Y auf
(Ω × Ω, P(Ω × Ω), q), als Projektionen auf die erste bzw. die zweite Koordinate.
Setze P := q, dann erhalten wir
P(X = xi ) = q(xi × Ω) = µ(xi ) bzw. P(Y = xj ) = q(Ω × xj ) = ν(xj ) und
P(X = xi , Y = xj ) = q({xi × Ω} ∩ {Ω × xj }) = q(xi , xj )
Wir halten also fest, dass eine Kopplung entweder durch die Angabe eines Paares (X, Y ), oder durch die Angabe eines W-Maßes q auf Ω×Ω spezifiziert werden
kann
4
Greifen wir wieder das Beispiel 2.1 auf. Man könnte die Kopplung im ersten
Fall also durch angabe des q1 (x, y) = 0, 25 für alle (x, y) auf {0, 1}2 spezifizieren,
im zweiten Fall q2 (0, 0) = q2 (1, 1) = 0, 5 und 0 sonst.
Satz 2.1. Sei (Ω, A) ein messbarer Raum, µ und ν Wahrscheinlichkeitsmaße
darauf, (X, Y ) ihre Kopplung. Dann gilt
||µ − ν||TV = inf {P(X 6= Y ) : (X, Y ) ist eine Kopplung}
(5)
(X,Y )
Beweis. “ ≤ Richtung “
Sei also (X, Y ) eine beliebige Kopplung von µ und ν, A ⊂ Ω auch beliebig, so
folgt
|µ(A) − ν(A)| = |P(X ∈ A) − P(Y ∈ A)| =
|P(X ∈ A, X 6= Y ) + P(X ∈ A, X = Y ) − P(Y ∈ A, Y = X) − P(Y ∈ A, Y 6= X)|
= |P(X ∈ A, X 6= Y ) − P(Y ∈ A, Y 6= X)| ≤ P(X 6= Y )
Die letzte Abschätzung stimmt, da sowohl {X ∈ A} ∩ {X 6= Y }, als auch
{Y ∈ A} ∩ {Y 6= X} beide Teilmengen von {X 6= Y } sind. Da diese Ungleichungskette für alle A ⊂ Ω erfüllt ist
⇒
max |µ(A) − ν(A)| ≤ P(X 6= Y ).
A⊂Ω
{z
}
|
||µ−ν||TV
Dies widerrum ist für alle Kopplungen (X, Y ) von µ und ν erfüllt.
⇒
||µ − ν||TV ≤ inf {P(X 6= Y ) : (X, Y ) ist eine Kopplung} .
(X,Y )
“ ≥ Richtung “
Es reicht eine Kopplung zu finden für welche die Gleichheit gilt, dann folgt
automatisch
Wegen der Bemerkung zuvor genügt es aber so
Pdie Behauptung. P
ein q mit
q(x, y) = ν(y),
q(x, y) = µ(x) und für die Gleichheit in dem
x∈Ω
y∈Ω
P
Satz brauchen wir eine dritte Bedingung
q(x, x) = 1 − ||µ − ν||TV , denn
x∈Ω
P
q(x, x) = P(X = Y ).
x∈Ω
Wir definieren unser q wie folgt:
q(x, x) := µ(x) ∧ ν(x)
q(x, y) :=
(µ(x)−µ(x)∧ν(x))(ν(y)−µ(y)∧ν(y))
||µ−ν||TV
Um zu sehen, dass dieser q alle benötigte Eigenschaften erfüllt, weisen wir sie
nach. Sei hier für wieder B := {x : µ(x) ≥ ν(x)}
5
1) Dritte Bedingung ist erfüllt:
P
P
P
q(x, x) =
µ(x) ∧ ν(x) =
ν(x) +
µ(x)
x∈ΩP
x∈Ω
P
P x∈B P x∈B c
P
=
ν(x) +
µ(x) +
µ(x) −
µ(x) = 1 −
(µ(x) − ν(x))
P
x∈B
x∈B c
x∈B
x∈B
x∈B
(2)
= 1 − ||µ − ν||TV
2) Unser q ist ein W-Maß (≥ 0 ist klar):
P
P P
(2) P
(3)
q(x, y) =
q(x, y) =
(ν(y) − µ(y) ∧ ν(y)) = ||µ − ν||TV
x6=y
y∈B c x∈B
⇒ wegen 1) erhalten wir
y∈B c
P
x∈Ω
q(x, x) +
P
q(x, y) = 1
x6=y
3) Die erste und zweite Bedingungen sind erfüllt:
P
P
ν(x) + (µ(x) − ν(x)) x ∈ B
q(x, y) = q(x, x)+
q(x, y) =
µ(x),
x ∈ Bc
y∈Ω
y,y6=x
P
q(x, y) analog
x∈Ω
6
= µ(x)
Herunterladen