1 Konvergenzraten von irreduziblen Markovketten (n) Sei P eine aperiodische irreduzible, positiv rekurrente Übergangsmatrix. Dann wissen wir, dass Pi,j gegen der eindeutigen invarianten Verteilung πj konvergiert. In diesem Abschnitt, wollen wir untersuchen, mit welcher Rate diese Konvergenz stattfindet. Als Hilfsmittel, benützen wir einige Begriffe der linearen Algebra, insbesondere Eigenwerte und Eigenvektoren. Wir zeigen, dass im Falle |E| < ∞, die Konvergenz exponentiell ist. Sei π eine Wahrscheinlichkeitsverteilung auf E mit πi > 0, i ∈ E. Wir definieren den Skalarprodukt X fi gi πi , f, g π = i∈E für f, g ∈ L2 (π) = {f : kf k2π = P i∈E (fi ) 2 πi < ∞}. Definition 1.1. Die Matrix P ∗ ∗ Pi,j ≡ Pj,i πj , πi i, j ∈ E heisst (π-) adjungierte Matrix. Falls P = P ∗ , so heisst P symmetrisch bezüglich π, d.h. P erfüllt die detailed balance Beziehung πi Pi,j = πj Pj,i , i, j ∈ E. P und P ∗ heissen normal, falls P P ∗ = P ∗ P. Beachte, dass P f, g π = f, P ∗ g π , f, g ∈ L2 (π), P ∗ wobei P fi = auch eine stochastische Matrix und π ist invariante j Pi,j fj . Insbesondere ist P ∗ Verteilung zu P . Beispiel 1 E ist ein Graph mit Kantenmenge K = {b = (b1 , b2 )} ⊆ E × E. Wir nehmen an, dass für jedes b = (b1 , b2 ) ∈ K, −b = (b2 , b1 ) ∈ K, d.h. die Kanten sind nicht orientiert. Sei N (i) = {b2 ∈ E : (i, b2 ) ∈ K}, die Menge der Nachbarn von i ∈ E, und setzen vorraus, dass |N (i)| < ∞, die Kardinalität von N (i) ist endlich. Dann ist 1 1N (i) (j) Pi,j = |N (i)| (i)| ist symmetrisch bezüglich πi = α|N (i)|. Falls |E| < ∞, ist πi = |N 2|K| eine Wahrscheinlichkeitsverteilung. Beispiel 2 Sei E = {0, 1, ..., N − 1} der diskrete Torus der Länge N . Addition und Subtraktion werden immer modulo N verstanden. Sei Pi,j = q(i − j), wobei die Gewichte q(i) ≥ 0 normiert sind: P 1 ∗ ∗ ∗ i∈E q(i) = 1. Dann ist πi = N die invariante Verteilung, ferner ist Pi,j = Pj,i , und P P = P P , cf. Übung. Seien ui = log πi und Wi,j = log Pi,j ∈ [−∞, 0), dann sehen wir, dass die detailed balance equivalent mit ui − uj = Wj,i − Wi,j , für alle Paare i, j mit Wi,j 6= −∞. Die Funktion u mit der obigen Eigenschaft heisst Potential zu {Wi,j , i, j ∈ E}. Beispiel 3 Sei E = Z und P mit Pi,j > 0, |i − j| = 1 und Pi,j = 0, |i − j| > 1, d.h. eine irreduzible Irrfahrt zu den nächsten Nachbarn. Ist die Markov Kette positiv rekurrent, dann ist die invariante Verteilung auch symmetrisch (Übung !). Die Rolle von P ∗ lässt sich am Besten mit der Transformation der Dichte erklären: Sei ν eine beliebige Anfangsverteilung. Dann ist ν (n) ≡ νP (n) die Verteilung der Markovkette zur Zeit n. (n) Lemma 1.2. Sei fi (n) ≡ νi πi , i ∈ E die Dichte von ν (n) bezüglich π, dann gilt (n) fi (0) = (P ∗ )(n) fi . 1 Beweis Wegen der Definition von P ∗ gilt (n+1) (n+1) fi = = = νi = (ν (n) P )i πi P πi P (n) j νj Pj,i πi X (n) j = (n) fj πj Pj,i (1) πi (n) ∗ Pi,j fj = P ∗ fi j Für |E| = N < ∞ und symmetrisches P sind die Eigenwerte von P λi , i = 0, ..., N − 1 reell und man kann eine orthogonale Basis aus Eigenvektoren finden. λ0 = 1 ist Eigenwert zum Eigenvektor 1. Lemma 1.3. Sei λ ∈ R ein Eigenwert von P , dann gilt |λ| ≤ 1. Beweis. Sei f ∈ L2 (π) ein Eigenvektor von P zu λ. Sei j0 sodass maxj∈E |fj | = |fj0 | > 0, dann X X |λ||fj0 | = | Pj0 ,i fi | ≤ Pj0 ,i max |fi | = |fj0 |. i i i Wir ordnen die Eigenwerte von P der Größe nach: −1 ≤ λN −1 ≤ λN −2 ≤ ... ≤ λ1 ≤ λ0 = 1. Lemma 1.4. Sei |E| = N < ∞ und P irreduzible und symmetrisch, dann ist λ1 < 1. Ist ferner die Matrix P aperiodisch, dann ist λN −1 > −1. (n(i,j)) Beweis. Wegen der Irreduzibilität, gibt es zu jedem i, j ein n(i, j) ≥ 0 mit Pi,j n̄ = maxi,j n(i, j) < ∞ und setze n̄ 1 X (k) R= P . n̄ + 1 > 0. Sei k=0 Dann ist R eine stochastische Matrix, symmetrisch bezüglich π mit Ri,j > 0, für alle i, j ∈ E. Nun zeigen wir, dass 1 einfacher Eigenwert zu P ist. wir an, dass dies nicht der Fall wäre, d.h. wir Nehmen finden einen Eigenvektor f zum λ1 = 1 mit f, 1 π = 0. Dann gilt auch Rf = f . Sei j0 wie oben: |fj0 | = maxi |fi |. Wir können annehmen, dass fj0 = 1. Wegen f, 1 π = 0 und πi > 0, i ∈ E, gibt es wenigstens ein j1 6= j0 mit fj1 < 0. Somit X X 1 = fj0 = Rfj0 = Rj0 ,j1 fj1 + Rj0 ,k fk ≤ Rj0 ,j1 fj1 + Rj0 ,k < 1, k6=j1 k6=j1 (2) ∗ was ein Widerspruch ergibt ! Falls P symmetrisch ist mit Pi,j > 0 auch Pj,i = Pj,i > 0, somit Pi,i > 0 und die Periode kann nur 1 oder 2 sein. Falls P aperiodisch gibt es fuer jedes i ∈ E ein n(i) ∈ N sodass (2n(i)+1) Pi,i > 0. Waere λN −1 = −1 mit Eigenvektor f , dann fuer j0 ∈ E sodass fj0 = |fj0 | = maxj |fj | > 0, X (2n(j )+1) (2n(j )+1) −fj0 = Pj0 ,j0 0 fj0 + Pj0 ,j 0 fj j6=j0 ≥ (2n(j )+1) Pj0 ,j0 0 fj0 − X (2n(j0 )+1) Pj0 ,j fj0 (2) j6=j0 (2n(j0 )+1) = (−1 + 2Pj0 ,j0 also ein Widerspruch! )fj0 > −fj0 2 Nun kehren wir zu der allgemeinen Situation zurück und für r ∈ N setzen wir Q̄(r) := P (r) (P ∗ )(r) = P (r) (P (r) )∗ . Dann ist Q̄(r) eine symmetrische stochastische Matrix positive semidefinite, denn (r) Q̄ f, f π = (P ∗ )(r) f, (P ∗ )(r) f π ≥ 0. Beachte, dass im Allgemeinen, Q̄(r) 6= (Q1 )(r) , ausser natürlich, wenn P normal ist. Sei τ (r) ≡ sup{ Q̄(r) f, f π , f ∈ L2 (π), f, 1 π = 0, kf kπ = 1}. Im Fall von normalem P gilt τ (r) = (τ (1) )r . Im symmetrischen Fall lässt sich τ (1) einfach ausdrücken: Lemma 1.5. Sei |E| = N < ∞ und P symmetrisch, dann ist p τ (1) = max(λ1 , |λN −1 |). Insbesondere ist τ (1) < 1, falls P irreduzibel und aperiodisch ist. Beweis. Für P symmetrisch ist einfach Q̄(1) = P (2) und die Eigenwerte von Q̄(1) sind {λ2i , i = 0, ..., N − 1}. Dabei ist λ20 = 1 der grösste Eigenwert von Q̄(1) und τ (1) = max(λ21 , λ2N −1 ) der Nächste. Im nicht-symmetrischen Fall folgt im Allgemeinen aus der Aperiodizität und Irreduzibilität von P nicht die Irreduzibilität von Q̄(1) . D.h. es kann schon passieren, dass τ (1) = 1. Jedoch, kann man immer r ≥ 1 so wählen, dass τ (r) < 1: Lemma 1.6. Sei |E| = N < ∞, P irreduzibel und aperiodisch dann gibt es r ≥ 1, sodass τ (r) < 1. Ist P normal, dann kann man r = 1 wählen. (r) Beweis. Da P irreduzibel und aperiodisch ist, gibt es ein r ≥ 1 mit Pi,j > 0, i, j ∈ E. Dann ist auch (r) (P (r) )∗i,j > 0, i, j ∈ E und somit Q̄i,j > 0, i, j ∈ E. Insbesondere ist Q̄(r) irreduzibel und die 1. Aussage folgt aus Lemma 2. Im normalen Fall ist τ (r) = (τ (1) )r , sodass aus τ (r) < 1 folgt τ (1) < 1. Beachte, dass die obige Aussage ist im Allgemeinen falsch für unendliches E ! Die Bedeutung von τ wird im folgenden Satz erklärt. Davor brauchen wir noch: Definition 1.7. Für ν, µ Verteilungen auf E sei kµ − νkvar = sup µ(A) − ν(A) A⊆E der Variationsabstand zwischen µ und ν. Satz. Sei P irreduzibel, aperiodisch und positive rekurrent mit invarianter Verteilung π. Dann für jedes k ≥ 1 gilt n τ [ k ] 1 − πi (n) kPi,· − πk2var ≤ , i ∈ E, n ≥ k. 4 πi Beweis. Die Jordan Zerlegung zeigt, dass für eine beliebige Verteilung ν kν − πkvar = X X 1 sup fi νi − fi πi . 2 f :kf k∞ ≤1 i i Ferner, mit Cauchy Schwarz Ungleichung X X X ν ν νi fi νi − fi πi = fi ( − 1)πi = f, − 1 π ≤ kf kπ k − 1kπ , πi π π i i i Also kν − πkvar ≤ 3 1 ν k − 1kπ . 2 π (n) (0) Beachte, dass Pi,· ist die Verteilung der Kette zur Zeit n mit Anfangsverteilung ν = δi . Sei fj die Dichte zur Zeit 0, dann gilt für die Dichte zur Zeit n mit Lemma 1 = δi (j) πj (n) (n) fj = Pi,j (0) (n−k) = (P ∗ )(n) fj = (P ∗ )(k) fj , πj j ∈ E, und wir bekommen zunächst die Abschätzung (n) kPi,· − πk2var ≤ 1 (P ∗ )(k) f (n−k) − 12 . π 4 Da (P ∗ )(k) 1 = 1, sehen wir , dass ∗ (k) (n−k) 2 2 2 (P ) f − 1π = (P ∗ )(k) f (n−k) − 1 π = (P ∗ )(k) hπ (n−k) wo wir setzen hi = fi − 1, i ∈ E. Es gilt h, 1 π = f (n−k) , 1 π − 1, 1 π = 1 − 1 = 0, da f (n−k) eine Dichte ist. Somit, mit Hilfe der Definition von τ (k) , ∗ (k) 2 ∗ (k) (P ) h = P ) h, P ∗ )(k) h = Q̄(k) h, h ≤ τ (k) h, h . π π π π Sei jetzt n = k n k + ` mit 0 ≤ ` ≤ k − 1. Mit Iteration bekommen wir einfach n (k) k (τ ) (n) 2 (P ∗ )(`) f (0) − 1 2 kPi,· − πkvar ≤ π 4 n 2 (τ (k) ) k (`) ≤ τ f (0) − 1π . 4 Nun ist τ (`) ≤ 1 und ferner (0) f − 12 = f (0) − 1, f (0) − 1 π π = f (0) , f (0) π − 2 f (0) , 1 π + 1, 1 π = f (0) , f (0) π − 1 1 πi − 1 = −1= . πi πi (3) (4) 4