Seminar zur Wahrscheinlichekitstheorie Totalvariationsabstand und Kopplung 1 Totalvariationsabstand Man stelle sich vor ein messbarer Raum (Ω, A) sei gegeben und Z sei die Menge der Wahrscheinlichkeitsmaße auf diesem Raum. Dann macht es Sinn eine Metrik auf Z zu definieren, denn mit ihrer Hilfe lässt sich Z zu einem topologischen Raum erweitern. Unter anderem kann man mit einer Metrik offene (und abgeschlosse) Bälle von Radius r um jeden Element aus Z sich angucken. Insbesondere wenn man in einer Situation wäre, wo für ein µ ∈ Z sich in jedem -Ball unendlich viele µt aus einer Folge (µn )n≥1 für ein t ≥ N befinden, so könnte man von einer Konvergenz der Folge (µn )n≥1 gegen µ sprechen: Definition 1.1. Sei (Ω, A) ein messbarer Raum, µ und ν Wahrscheinlichkeitsmaße darauf. Dann heißt ||µ − ν||TV := max |µ(A) − ν(A)| A⊆Ω der Totalvariationsabstand zwischen µ und ν. Die Definition ist sehr naheliegend, das heißt als Wert für den “Abstand“ zwischen zwei W-Maßen nimmt man die größtmögliche Differenz (zum Betrag) zwischen ihnen für irgendeine Teilmenge von Ω. Beispiel 1.1. Erinnern wir uns ans Beispiel mit dem Frosch, so hatte er die Möglichkeiten mit Wahrscheinlichkeit p von Osten nach Westen und mit Wahrscheinlichkeit q von Westen nach Ostenzu springen. Das heißt Ω = {e, w} 1−p p mit der Übergangsmatrix und der Stationärerverteilung π = q 1−q q p ( p+q , p+q ). Nehmen wir wieder an, dass der Frosch an dem östlichen Blatt startet (d.h. µ0 = (1, 0)) und definieren ferner ∆t := |µt (e) − π(e)| Dann gilt ||µt − π||TV = ∆t = |P t (e, e) − π(e)| = |P t (e, w) − π(w)| Beweis. Per Definition ist ||µt − π||TV = max |µt (A) − π(A)|. A⊆Ω Für A = ∅ und für A = Ω ist die Differenz aber gleich 0. ⇒ ||µt − π||TV = max{|µt (e) − π(e)|, |µt (w) − π(w)|} es gilt aber |µt (e) − π(e)| = |µt (w) − π(w)|, denn µt (e) = (µ0 P t )(e) = P t (e, e) ⇒ |µt (e) − π(e)| = |P t (e, e) − π(e)| = |1 − P t (e, w) − π(e)| = |π(w) − P t (e, w)| = = |µt (w) − π(w)| 1 Zum Nachweis, dass der in Def 1.1 definierte Totalvariationsabstand tatsächlich eine Metrik ist, benötigen wir eine äquivalente, sehr nützliche Darstellung von ||µ − ν||TV . Von nun an ist Ω immer als eine endliche Menge und A als ihre Potenzmenge vorausgesetzt, wenn nichts Zusätzliches erwähnt wird. Satz 1.1. Seien µ und ν Wahrscheinlichkeitsmaße auf (Ω, A) . Dann gilt ||µ − ν||TV = 1X |µ(x) − ν(x)|. 2 (1) x∈Ω Beweis. Setze B := {x : µ(x) ≥ ν(x)} und sei A ⊂ Ω beliebig. Dann gilt µ(A) − ν(A) ≤ µ(A ∩ B) − ν(A ∩ B) ≤ µ(B) − ν(B) Die erste Ungleichung ist richtig, weil aus A = (A ∩ B) ∪ (A ∩ B c ) folgt µ(A) = µ(A ∩ B) + µ(A ∩ B c ) und ν(A) = ν(A ∩ B) + ν(A ∩ B c ) . ⇒ µ(A) − ν(A) = µ(A ∩ B) − ν(A ∩ B) + µ(A ∩ B c ) − ν(A ∩ B c ) | {z } ≤0 denn (A ∩ B c ) ⊂ {x : µ(x) < ν(x)}. Und die zweite aus µ(B)−ν(B) = µ(A∩B)−ν(A∩B)+µ(Ac ∩ B) − ν(Ac ∩ B). | {z } ≥0 Ganz analog weist man nach, dass ν(A) − µ(A) ≤ ν(B c ) − µ(B c ) ist. P P Aus µ(x) = ν(x) = 1 folgt durch Subraktion außerdem, dass x∈Ω x∈Ω P P µ(x) − ν(x) − ν(x) − µ(x) = 0 ist. x∈B c x∈B ⇒ µ(B) − ν(B) = ν(B c ) − µ(B c ) und |µ(A) − ν(A)| ≤ µ(B) − ν(B) ∀A ⊂ Ω µ(B) − ν(B) ist unsere obere Schranke für ||µ − ν||TV . Setze A = B, dann erhalten wir ||µ − ν||TV = µ(B) − ν(B) = P |µ(x) − ν(x)| = 21 (µ(B) − ν(B) + ν(B c ) − µ(B c )) = 12 x∈Ω Bemerkung. Aus dem Beweis geht insbesondere hervor, dass ||µ − ν||TV = X (µ(x) − ν(x)) = x,µ(x)≥ν(x) X (µ(x) − ν(x)) (2) x,µ(x)>ν(x) und ||µ − ν||TV = X (ν(x) − µ(x)) x,µ(x)<ν(x) gilt. 2 (3) Satz 1.2. Sei (Ω, A) ein messbarer Raum und Z die Menge der Wahrscheinlichkeitsmaße auf diesem Raum. Dann ist die in der Definition 1.1 definierte Abbildung eine Metrik auf Z. Beweis. Für beliebige Elemente µ, ν und η aus Z gilt per Definition ||µ − ν||TV = max |µ(A) − ν(A)| ≥ 0 A⊆Ω Gelte ||µ − ν||TV = 0 ⇒ µ(A) − ν(A) = 0 ∀A ⊂ Ω ⇒ µ = ν Andererseits impliziert µ = ν schon ||µ − ν||TV = 0. Die Symmetrie von ||µ − ν||TV ist klar und die Dreiecksungleichung folgt nun leicht mit (1) P P ||µ − ν||TV = 12 |µ(x) − ν(x)| = 12 |µ(x) − η(x) + η(x) − ν(x)| x∈Ω ≤ 1 2 P x∈Ω (|µ(x) − η(x)| + |η(x) − ν(x)|) = ||µ − η||TV + ||η − ν||TV x∈Ω Es gibt noch 2 weitere nützliche, äquivalente Definitionen von ||µ − ν||TV Satz 1.3. Seien µ und ν Wahrscheinlichkeitsmaße auf (Ω, A), f : Ω → R eine Funktion mit max |f (x)| ≤ 1. Dann gilt x∈Ω ( ) X X 1 ||µ − ν||TV = sup f (x)µ(x) − f (x)ν(x) : max |f (x)| ≤ 1 (4) x∈Ω 2 f x∈Ω x∈Ω Beweis. “ ≥ Richtung “ Sei also f beliebig mit max |f (x)| ≤ 1 gegeben. Dann erhalten wir folgendes x∈Ω P P P 1 f (x)µ(x) − |f (x)||µ(x) − ν(x)| f (x)ν(x) ≤ 21 2 ≤ x∈Ω P 1 |µ(x) 2 x∈Ω x∈Ω x∈Ω − ν(x)| = ||µ − ν||TV Die erste Ungleichheit folgt aus Dreiecksungleichung für Betrag, zweite unter Benutzung der Voraussetzung und die letzte Gleichheit aus (1). Weil diese Ungleichungskette für alle f erfüllt ist, gilt sie somit auch fürs Supremum über diese menge. P P f (x)µ(x) − f (x)ν(x) : max |f (x)| ≤ 1 ⇒ ||µ − ν||TV ≥ 21 sup f x∈Ω x∈Ω x∈Ω “ ≤ Richtung “ Wir konstruieren nun ein f ∗ welches die Gleichheit erfüllt, dann wird offensichtlich das Supremum über die Menge ≥ ||µ − ν||TV sein und unseren Beweis vollenden. 1, falls x mit µ(x) ≥ ν(x) ∗ f := −1, falls x mit µ(x) < ν(x) P ∗ P ∗ P ∗ 1 f (x)ν(x) = 21 f (x)µ(x) − f (x)(µ(x) − ν(x)) 2 x∈Ω x∈Ω x∈Ω ! P P (2)+(3) 1 =2 (µ(x) − ν(x)) + (ν(x) − µ(x)) = ||µ−ν||TV x:µ(x)≥ν(x) x:µ(x)<ν(x) 3 2 Kopplung Für die letzte äquvalente Darstellung von ||µ − ν||TV benötigen wir die Einführung eines neuen Begriffs. Definition 2.1. Sei (Ω, A) ein messbarer Raum, µ und ν Wahrscheinlichkeitsmaße darauf. Seien ferner X und Y zufallsvariablen, beide definiert auf dem selben W-Raum (X, A, P) mit PX = µ und PY = ν. Dann wird das Paar (X, Y ) als Kopplung von µ und ν bezeichnet. Beispiel 2.1. Sei (Ω, A) = ({0, 1}, P({0, 1})), µ(0) = µ(1) = 0, 5 = ν(0) = ν(1). Das heißt also µ = ν und beide können als Wahrscheinlichkeitsverteilungen des fairen Münzenwurfs angesehen werden. Nun gibt es zwei Möglichkeiten diese zu koppeln: 1. Wir wählen X und Y als unabhängig von einander mit P(X = x, Y = y) = 0, 25 für alle (x, y) aus {0, 1}2 2. Oder wir setzen Y = X und P(X = 0, Y = 0) = 0.5 = P(X = 1, Y = 1), P(X 6= Y ) = 0 Bemerkung. Wenn eine Kopplung (X, Y ) von µ und ν mit q = P(X,Y ) als ihre Wahrscheinlichkeitsverteilung auf Ω × Ω gegeben ist, so genügt diese per Definition P P q(x, y) = P(X = x, Y = y) = P(X = x) = µ(x) y∈Ω y∈Ω und P q(x, y) = x∈Ω P P(X = x, Y = y) = P(Y = y) = ν(y) y∈Ω Andererseits wenn uns eine Wahrscheinlichkeitsverteilung q auf Ω × Ω vorliegt, welche P P q(x, y) = µ(x) und q(x, y) = ν(y) y∈Ω x∈Ω erfüllt, dann existiert ein Paar von Zufallsvariablen (X, Y ) beide definiert auf dem selben W-Raum mit der Zielmenge Ω × Ω, so dass q der gemeinsamen Verteilung von (X, Y ) entspricht (das hat zur Folge, dass (X, Y ) eine Kopplung von µ und ν ist). Beweis. Sei Ω = {x1 , ..., xn }. Wir definieren sowohl X, als auch Y auf (Ω × Ω, P(Ω × Ω), q), als Projektionen auf die erste bzw. die zweite Koordinate. Setze P := q, dann erhalten wir P(X = xi ) = q(xi × Ω) = µ(xi ) bzw. P(Y = xj ) = q(Ω × xj ) = ν(xj ) und P(X = xi , Y = xj ) = q({xi × Ω} ∩ {Ω × xj }) = q(xi , xj ) Wir halten also fest, dass eine Kopplung entweder durch die Angabe eines Paares (X, Y ), oder durch die Angabe eines W-Maßes q auf Ω×Ω spezifiziert werden kann 4 Greifen wir wieder das Beispiel 2.1 auf. Man könnte die Kopplung im ersten Fall also durch angabe des q1 (x, y) = 0, 25 für alle (x, y) auf {0, 1}2 spezifizieren, im zweiten Fall q2 (0, 0) = q2 (1, 1) = 0, 5 und 0 sonst. Satz 2.1. Sei (Ω, A) ein messbarer Raum, µ und ν Wahrscheinlichkeitsmaße darauf, (X, Y ) ihre Kopplung. Dann gilt ||µ − ν||TV = inf {P(X 6= Y ) : (X, Y ) ist eine Kopplung} (5) (X,Y ) Beweis. “ ≤ Richtung “ Sei also (X, Y ) eine beliebige Kopplung von µ und ν, A ⊂ Ω auch beliebig, so folgt |µ(A) − ν(A)| = |P(X ∈ A) − P(Y ∈ A)| = |P(X ∈ A, X 6= Y ) + P(X ∈ A, X = Y ) − P(Y ∈ A, Y = X) − P(Y ∈ A, Y 6= X)| = |P(X ∈ A, X 6= Y ) − P(Y ∈ A, Y 6= X)| ≤ P(X 6= Y ) Die letzte Abschätzung stimmt, da sowohl {X ∈ A} ∩ {X 6= Y }, als auch {Y ∈ A} ∩ {Y 6= X} beide Teilmengen von {X 6= Y } sind. Da diese Ungleichungskette für alle A ⊂ Ω erfüllt ist ⇒ max |µ(A) − ν(A)| ≤ P(X 6= Y ). A⊂Ω {z } | ||µ−ν||TV Dies widerrum ist für alle Kopplungen (X, Y ) von µ und ν erfüllt. ⇒ ||µ − ν||TV ≤ inf {P(X 6= Y ) : (X, Y ) ist eine Kopplung} . (X,Y ) “ ≥ Richtung “ Es reicht eine Kopplung zu finden für welche die Gleichheit gilt, dann folgt automatisch Wegen der Bemerkung zuvor genügt es aber so Pdie Behauptung. P ein q mit q(x, y) = ν(y), q(x, y) = µ(x) und für die Gleichheit in dem x∈Ω y∈Ω P Satz brauchen wir eine dritte Bedingung q(x, x) = 1 − ||µ − ν||TV , denn x∈Ω P q(x, x) = P(X = Y ). x∈Ω Wir definieren unser q wie folgt: q(x, x) := µ(x) ∧ ν(x) q(x, y) := (µ(x)−µ(x)∧ν(x))(ν(y)−µ(y)∧ν(y)) ||µ−ν||TV Um zu sehen, dass dieser q alle benötigte Eigenschaften erfüllt, weisen wir sie nach. Sei hier für wieder B := {x : µ(x) ≥ ν(x)} 5 1) Dritte Bedingung ist erfüllt: P P P q(x, x) = µ(x) ∧ ν(x) = ν(x) + µ(x) x∈ΩP x∈Ω P P x∈B P x∈B c P = ν(x) + µ(x) + µ(x) − µ(x) = 1 − (µ(x) − ν(x)) P x∈B x∈B c x∈B x∈B x∈B (2) = 1 − ||µ − ν||TV 2) Unser q ist ein W-Maß (≥ 0 ist klar): P P P (2) P (3) q(x, y) = q(x, y) = (ν(y) − µ(y) ∧ ν(y)) = ||µ − ν||TV x6=y y∈B c x∈B ⇒ wegen 1) erhalten wir y∈B c P x∈Ω q(x, x) + P q(x, y) = 1 x6=y 3) Die erste und zweite Bedingungen sind erfüllt: P P ν(x) + (µ(x) − ν(x)) x ∈ B q(x, y) = q(x, x)+ q(x, y) = µ(x), x ∈ Bc y∈Ω y,y6=x P q(x, y) analog x∈Ω 6 = µ(x)