1 Konvergenzraten von irreduziblen Markovketten

Werbung
1
Konvergenzraten von irreduziblen Markovketten
(n)
Sei P eine aperiodische irreduzible, positiv rekurrente Übergangsmatrix. Dann wissen wir, dass Pi,j
gegen der eindeutigen invarianten Verteilung πj konvergiert. In diesem Abschnitt, wollen wir untersuchen,
mit welcher Rate diese Konvergenz stattfindet. Als Hilfsmittel, benützen wir einige Begriffe der linearen
Algebra, insbesondere Eigenwerte und Eigenvektoren. Wir zeigen, dass im Falle |E| < ∞, die Konvergenz
exponentiell ist. Sei π eine Wahrscheinlichkeitsverteilung auf E mit πi > 0, i ∈ E. Wir definieren den
Skalarprodukt
X
fi gi πi ,
f, g π =
i∈E
für f, g ∈ L2 (π) = {f : kf k2π =
P
i∈E (fi )
2
πi < ∞}.
Definition 1.1. Die Matrix P ∗
∗
Pi,j
≡
Pj,i πj
,
πi
i, j ∈ E
heisst (π-) adjungierte Matrix. Falls P = P ∗ , so heisst P symmetrisch bezüglich π, d.h. P erfüllt die
detailed balance Beziehung
πi Pi,j = πj Pj,i ,
i, j ∈ E.
P und P ∗ heissen normal, falls
P P ∗ = P ∗ P.
Beachte, dass
P f, g
π
= f, P ∗ g π ,
f, g ∈ L2 (π),
P
∗
wobei P fi =
auch eine stochastische Matrix und π ist invariante
j Pi,j fj . Insbesondere ist P
∗
Verteilung zu P .
Beispiel 1 E ist ein Graph mit Kantenmenge K = {b = (b1 , b2 )} ⊆ E × E. Wir nehmen an, dass
für jedes b = (b1 , b2 ) ∈ K, −b = (b2 , b1 ) ∈ K, d.h. die Kanten sind nicht orientiert. Sei N (i) = {b2 ∈ E :
(i, b2 ) ∈ K}, die Menge der Nachbarn von i ∈ E, und setzen vorraus, dass |N (i)| < ∞, die Kardinalität
von N (i) ist endlich. Dann ist
1
1N (i) (j)
Pi,j =
|N (i)|
(i)|
ist symmetrisch bezüglich πi = α|N (i)|. Falls |E| < ∞, ist πi = |N
2|K| eine Wahrscheinlichkeitsverteilung.
Beispiel 2 Sei E = {0, 1, ..., N − 1} der diskrete Torus der Länge N . Addition und Subtraktion
werden
immer modulo N verstanden. Sei Pi,j = q(i − j), wobei die Gewichte q(i) ≥ 0 normiert sind:
P
1
∗
∗
∗
i∈E q(i) = 1. Dann ist πi = N die invariante Verteilung, ferner ist Pi,j = Pj,i , und P P = P P ,
cf. Übung. Seien ui = log πi und Wi,j = log Pi,j ∈ [−∞, 0), dann sehen wir, dass die detailed balance
equivalent mit
ui − uj = Wj,i − Wi,j ,
für alle Paare i, j mit Wi,j 6= −∞. Die Funktion u mit der obigen Eigenschaft heisst Potential zu
{Wi,j , i, j ∈ E}.
Beispiel 3 Sei E = Z und P mit Pi,j > 0, |i − j| = 1 und Pi,j = 0, |i − j| > 1, d.h. eine irreduzible
Irrfahrt zu den nächsten Nachbarn. Ist die Markov Kette positiv rekurrent, dann ist die invariante
Verteilung auch symmetrisch (Übung !). Die Rolle von P ∗ lässt sich am Besten mit der Transformation
der Dichte erklären: Sei ν eine beliebige Anfangsverteilung. Dann ist ν (n) ≡ νP (n) die Verteilung der
Markovkette zur Zeit n.
(n)
Lemma 1.2. Sei fi
(n)
≡
νi
πi
, i ∈ E die Dichte von ν (n) bezüglich π, dann gilt
(n)
fi
(0)
= (P ∗ )(n) fi .
1
Beweis Wegen der Definition von P ∗ gilt
(n+1)
(n+1)
fi
=
=
=
νi
=
(ν (n) P )i
πi
P
πi
P (n)
j νj Pj,i
πi
X
(n)
j
=
(n)
fj πj Pj,i
(1)
πi
(n)
∗
Pi,j
fj
= P ∗ fi
j
Für |E| = N < ∞ und symmetrisches P sind die Eigenwerte von P λi , i = 0, ..., N − 1 reell und man
kann eine orthogonale Basis aus Eigenvektoren finden. λ0 = 1 ist Eigenwert zum Eigenvektor 1.
Lemma 1.3. Sei λ ∈ R ein Eigenwert von P , dann gilt |λ| ≤ 1.
Beweis. Sei f ∈ L2 (π) ein Eigenvektor von P zu λ. Sei j0 sodass maxj∈E |fj | = |fj0 | > 0, dann
X
X
|λ||fj0 | = |
Pj0 ,i fi | ≤
Pj0 ,i max |fi | = |fj0 |.
i
i
i
Wir ordnen die Eigenwerte von P der Größe nach:
−1 ≤ λN −1 ≤ λN −2 ≤ ... ≤ λ1 ≤ λ0 = 1.
Lemma 1.4. Sei |E| = N < ∞ und P irreduzible und symmetrisch, dann ist λ1 < 1. Ist ferner die
Matrix P aperiodisch, dann ist λN −1 > −1.
(n(i,j))
Beweis. Wegen der Irreduzibilität, gibt es zu jedem i, j ein n(i, j) ≥ 0 mit Pi,j
n̄ = maxi,j n(i, j) < ∞ und setze
n̄
1 X (k)
R=
P .
n̄ + 1
> 0. Sei
k=0
Dann ist R eine stochastische Matrix, symmetrisch bezüglich π mit Ri,j > 0, für alle i, j ∈ E. Nun
zeigen wir, dass 1 einfacher Eigenwert zu P ist.
wir an, dass dies nicht der Fall wäre, d.h. wir
Nehmen
finden einen Eigenvektor f zum λ1 = 1 mit f, 1 π = 0. Dann gilt auch Rf = f . Sei j0 wie oben:
|fj0 | = maxi |fi |. Wir können annehmen, dass fj0 = 1. Wegen f, 1 π = 0 und πi > 0, i ∈ E, gibt es
wenigstens ein j1 6= j0 mit fj1 < 0. Somit
X
X
1 = fj0 = Rfj0 = Rj0 ,j1 fj1 +
Rj0 ,k fk ≤ Rj0 ,j1 fj1 +
Rj0 ,k < 1,
k6=j1
k6=j1
(2)
∗
was ein Widerspruch ergibt ! Falls P symmetrisch ist mit Pi,j > 0 auch Pj,i = Pj,i
> 0, somit Pi,i > 0
und die Periode kann nur 1 oder 2 sein. Falls P aperiodisch gibt es fuer jedes i ∈ E ein n(i) ∈ N sodass
(2n(i)+1)
Pi,i
> 0.
Waere λN −1 = −1 mit Eigenvektor f , dann fuer j0 ∈ E sodass fj0 = |fj0 | = maxj |fj | > 0,
X (2n(j )+1)
(2n(j )+1)
−fj0 = Pj0 ,j0 0
fj0 +
Pj0 ,j 0
fj
j6=j0
≥
(2n(j )+1)
Pj0 ,j0 0
fj0
−
X
(2n(j0 )+1)
Pj0 ,j
fj0
(2)
j6=j0
(2n(j0 )+1)
= (−1 + 2Pj0 ,j0
also ein Widerspruch!
)fj0 > −fj0
2
Nun kehren wir zu der allgemeinen Situation zurück und für r ∈ N setzen wir
Q̄(r) := P (r) (P ∗ )(r) = P (r) (P (r) )∗ .
Dann ist Q̄(r) eine symmetrische stochastische Matrix positive semidefinite, denn
(r)
Q̄ f, f π = (P ∗ )(r) f, (P ∗ )(r) f π ≥ 0.
Beachte, dass im Allgemeinen, Q̄(r) 6= (Q1 )(r) , ausser natürlich, wenn P normal ist. Sei
τ (r) ≡ sup{ Q̄(r) f, f π , f ∈ L2 (π), f, 1 π = 0, kf kπ = 1}.
Im Fall von normalem P gilt
τ (r) = (τ (1) )r .
Im symmetrischen Fall lässt sich τ (1) einfach ausdrücken:
Lemma 1.5. Sei |E| = N < ∞ und P symmetrisch, dann ist
p
τ (1) = max(λ1 , |λN −1 |).
Insbesondere ist τ (1) < 1, falls P irreduzibel und aperiodisch ist.
Beweis. Für P symmetrisch ist einfach Q̄(1) = P (2) und die Eigenwerte von Q̄(1) sind {λ2i , i =
0, ..., N − 1}. Dabei ist λ20 = 1 der grösste Eigenwert von Q̄(1) und τ (1) = max(λ21 , λ2N −1 ) der Nächste. Im nicht-symmetrischen Fall folgt im Allgemeinen aus der Aperiodizität und Irreduzibilität von P
nicht die Irreduzibilität von Q̄(1) . D.h. es kann schon passieren, dass τ (1) = 1. Jedoch, kann man immer
r ≥ 1 so wählen, dass τ (r) < 1:
Lemma 1.6. Sei |E| = N < ∞, P irreduzibel und aperiodisch dann gibt es r ≥ 1, sodass τ (r) < 1. Ist
P normal, dann kann man r = 1 wählen.
(r)
Beweis. Da P irreduzibel und aperiodisch ist, gibt es ein r ≥ 1 mit Pi,j > 0, i, j ∈ E. Dann ist auch
(r)
(P (r) )∗i,j > 0, i, j ∈ E und somit Q̄i,j > 0, i, j ∈ E. Insbesondere ist Q̄(r) irreduzibel und die 1. Aussage
folgt aus Lemma 2. Im normalen Fall ist τ (r) = (τ (1) )r , sodass aus τ (r) < 1 folgt τ (1) < 1.
Beachte, dass die obige Aussage ist im Allgemeinen falsch für unendliches E ! Die Bedeutung von τ
wird im folgenden Satz erklärt. Davor brauchen wir noch:
Definition 1.7. Für ν, µ Verteilungen auf E sei
kµ − νkvar = sup µ(A) − ν(A)
A⊆E
der Variationsabstand zwischen µ und ν.
Satz. Sei P irreduzibel, aperiodisch und positive rekurrent mit invarianter Verteilung π. Dann für
jedes k ≥ 1 gilt
n
τ [ k ] 1 − πi
(n)
kPi,· − πk2var ≤
,
i ∈ E, n ≥ k.
4
πi
Beweis. Die Jordan Zerlegung zeigt, dass für eine beliebige Verteilung ν
kν − πkvar =
X
X
1
sup fi νi −
fi πi .
2 f :kf k∞ ≤1 i
i
Ferner, mit Cauchy Schwarz Ungleichung
X
X
X
ν
ν
νi
fi νi −
fi πi = fi ( − 1)πi = f, − 1 π ≤ kf kπ k − 1kπ ,
πi
π
π
i
i
i
Also
kν − πkvar ≤
3
1 ν
k − 1kπ .
2 π
(n)
(0)
Beachte, dass Pi,· ist die Verteilung der Kette zur Zeit n mit Anfangsverteilung ν = δi . Sei fj
die Dichte zur Zeit 0, dann gilt für die Dichte zur Zeit n mit Lemma 1
=
δi (j)
πj
(n)
(n)
fj
=
Pi,j
(0)
(n−k)
= (P ∗ )(n) fj = (P ∗ )(k) fj
,
πj
j ∈ E,
und wir bekommen zunächst die Abschätzung
(n)
kPi,· − πk2var ≤
1
(P ∗ )(k) f (n−k) − 12 .
π
4
Da (P ∗ )(k) 1 = 1, sehen wir , dass
∗ (k) (n−k)
2 2
2 (P ) f
− 1π = (P ∗ )(k) f (n−k) − 1 π = (P ∗ )(k) hπ
(n−k)
wo wir setzen hi = fi
− 1, i ∈ E. Es gilt
h, 1 π = f (n−k) , 1 π − 1, 1 π = 1 − 1 = 0,
da f (n−k) eine Dichte ist. Somit, mit Hilfe der Definition von τ (k) ,
∗ (k) 2 ∗ (k)
(P ) h = P ) h, P ∗ )(k) h = Q̄(k) h, h ≤ τ (k) h, h .
π
π
π
π
Sei jetzt n = k
n
k
+ ` mit 0 ≤ ` ≤ k − 1. Mit Iteration bekommen wir einfach
n
(k) k (τ
)
(n)
2
(P ∗ )(`) f (0) − 1 2
kPi,· − πkvar ≤
π
4 n
2
(τ (k) ) k (`) ≤
τ f (0) − 1π .
4
Nun ist τ (`) ≤ 1 und ferner
(0)
f − 12 = f (0) − 1, f (0) − 1
π
π
= f (0) , f (0) π − 2 f (0) , 1 π + 1, 1 π = f (0) , f (0) π − 1
1
πi − 1
=
−1=
.
πi
πi
(3)
(4)
4
Zugehörige Unterlagen
Herunterladen