Einführung in die Theorie der Markov-Ketten Jens Schomaker Markov-Ketten Zur Motivation der Einführung von Markov-Ketten betrachte folgendes Beispiel: 1.1 Beispiel Wir wollen die folgende Situation mathematisch formalisieren: Eine Person steht in einer der vier Ecken eines Raumes - in diesem Fall s1 - und wirft eine faire Münze, um zu entscheiden, ob sie sich im Uhrzeigersinn oder gegen ihn bewegt. Dies wiederholt die Person beliebig oft. Man möchte also für alle Schritte des Experiments, die man anhand der natürlichen Zahlen abzählt, eine Zufallsvariable Xn definieren, welche die Ecke angibt, in der sich die Person im n-ten Schritt befindet. D.h. man wählt einen (zeitdiskreten) stochastischen Prozess (X0 , X1 , . . .), der Werte in {s1 , . . . , s4 } annimmt. Dass ein zugehöriger Produktraum mit Wahrscheinlichkeitsmaß P wie unten existiert, ist nicht klar, wird aber durch den Satz von Ionescu-Tulcea geliefert, der aufgrund seines Umfangs jedoch nicht behandelt wird. Um die Ausgangsbedingung, dass in s1 gestartet wird, zu erfüllen, sollte gelten: P(X0 = s1 ) = 1. Die Entscheidungsregel für die Bewegung liefert zudem: P(X1 = s2 ) = 1/2 und P(X1 = s4 ) = 1/2. Um die Verteilungen der Xn für n ≥ 2 zu berechnen, benötigt man nun jedoch bedingte Wahrscheinlichkeiten. Für den Fall Xn = s2 ergibt sich z.B. aus der Entscheidungsregel für die Bewegung folgendes: P(Xn+1 = s1 | Xn = s2 ) = 1/2 und P(Xn+1 = s3 | Xn = s2 ) = 1/2. Genauer gilt sogar aufgrund der Entscheidungsregel, dass Xn+1 nur von Xn abhängt; für Xn = s2 und beliebige i0 , . . . , in−1 ∈ {1, . . . , 4} beispielsweise: P(Xn+1 = s1 | Xn = s2 , Xn−1 = sin−1 , . . . , X0 = si0 ) = 1/2 und P(Xn+1 = s3 | Xn = s2 , Xn−1 = sin−1 , . . . , X0 = si0 ) = 1/2. 1 Diese beispielhaften Überlegungen fasst man nun in einer Definition zusammen: 1.2 Definition Sei P eine k × k-Matrix mit Einträgen (Pi,j )i,j=1,...,k . Ein (zeitdiskreter) stochastischer Prozess (X0 , X1 , . . .) mit endlichem Zustandsraum {s1 , . . . , sk } heißt (homogene) Markov-Kette mit Übergangsmatrix P genau dann, wenn für alle n ∈ N, alle i, j ∈ {1, . . . , k} und alle i0 , . . . , in−1 ∈ {1, . . . , k} gilt: P(Xn+1 = sj | Xn = si , Xn−1 = sin−1 , . . . , X0 = si0 ) = P(Xn+1 = sj | Xn = si ) = Pi,j . (1) Die Einträge der Übergangsmatrix P heißen Übergangswahrscheinlichkeiten und die Übergangswahrscheinlichkeit Pi,j ist die bedingte Wahrscheinlichkeit sich zum Zeitpunkt n + 1 im Zustand sj zu befinden, gegeben, dass man zum Zeitpunkt n im Zustand si ist. Die Homogenität der Markov-Kette ist dabei die Zeitunabhängigkeit, d.h zu allen Zeiten n liegen dieselben Übergangswahrscheinlichkeiten Pi,j bzw. liegt dieselbe Übergangsmatrix P vor. Homogenität wird in der Regel nicht erwähnt, da man diese Eigenschaft voraussetzen möchte, wenn man Markov-Ketten betrachtet. Die Eigenschaft, die durch das erste Gleichheitszeichen in Gleichung 1 gegeben ist, wird dabei als MarkovEigenschaft - kurz ME - oder auch Gedächtsnislosigkeit bezeichnet. Sie drückt aus, dass die bedingte Wahrscheinlichkeit von Xn+1 unter (X0 , . . . , Xn ) nur von Xn abhängt und unabhängig von den vorhergehenden X0 , . . . , Xn−1 ist. Mit dieser Definition ergeben sich direkt folgende Eigenschaften für die Übergangsmatrix: i) Pi,j ≥ 0 für alle i, j ∈ {1, . . . , k}, da (bedingte) Wahrscheinlichkeiten nicht negativ sind. ii) k P Pi,j = 1 für alle i ∈ {1, . . . , k}, da {s1 , . . . , sk } der gesamte Wertebereich von Xn+1 ist: j=1 k X Pi,j = j=1 k X P(Xn+1 = sj | Xn = si ) = 1. j=1 1.3 Beispiel Das oben eingeführte Beispiel 1.1 hat also als Zustandsraum {s1 , . . . , s4 } und als Übergangsmatrix: 0 1/2 0 1/2 1/2 0 1/2 0 P = 0 1/2 0 1/2 1/2 0 1/2 0 1.4 Definition Eine einfache und nahezu selbsterklärende Möglichkeit die Übergangsmatrix darzustellen, ist ein Übergangsgraph. Der Übergangsgraph für Beispiel 1.1 sieht beispielsweise wie folgt aus: s1O o 1/2 1/2 1/2 1/2 s4 o / s2 O 1/2 1/2 1/2 / s 3 1/2 Die Zustände werden dabei mit den zugehörigen Übergangswahrscheinlichkeiten verbunden, sofern diese nicht Null sind. Die Summe der Wahrscheinlichkeiten, die von einem Zustand wegzeigen, ist dabei immer 1, was der spaltenweisen Aufsummierung zu 1 in der Übergangsmatrix entspricht (vgl. Definition 1.2, Eigenschaft ii). Um das Beispiel 1.1 komplett zu erfassen, benötigen wir noch eine weitere Eigenschaft einer Markov-Kette: 1.5 Definition Die Anfangsverteilung einer Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } wird durch einen 2 Zeilenvektor µ(0) wie folgt definiert: (0) (0) µ(0) = (µ1 , . . . , µk ) := (P(X0 = s1 ), . . . , P(X0 = sk )). Da µ(0) eine Wahrscheinlichkeitsverteilung auf dem Zustandsraum {s1 , . . . , sk } ist, gilt: k X (0) µi = 1. i=1 Ebenso definiert man µ(n) für n ≥ 1 als die Wahrscheinlichkeitsverteilung der Markov-Kette zum Zeitpunkt n als: (n) (n) µ(n) = (µ1 , . . . , µk ) := (P(Xn = s1 ), . . . , P(Xn = sk )). Auch hier gilt analog: k X (n) µi = 1. i=1 1.6 Beispiel Das oben eingeführte Beispiel 1.1 hat also als Anfangsverteilung: µ(0) = (1, 0, 0, 0). Es wird sich in folgendem Satz zeigen, dass man zur Berechnung der µ(n) lediglich die Anfangsverteilung µ(0) und die Übergangsmatrix P benötigt. 1.7 Satz Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk }, Übergangsmatrix P und Anfangsverteilung µ(0) gegeben. Dann gilt für alle n ∈ N: µ(n) = µ(0) P n . Beweis: Induktion über n: n = 1: (0) (0) Sei µ(0) = (µ1 , . . . , µk ), dann gilt für j = 1, . . . , k: (1) µj Def. = σ-Add. = P(X1 = sj ) k X P(X0 = si , X1 = sj ) i=1 bed. W.-keit = k X P(X0 = si )P(X1 = sj | X0 = si ) i=1 Def. = = k X (0) µi Pi,j i=1 (0) (µ P )j . Dabei ist (µ(0) P )j der j-te Eintrag des Zeilenvektors µ(0) P . Also gilt: (1) (1) µ(1) = (µ1 , . . . , µk ) = ((µ(0) P )1 , . . . , (µ(0) P )k ) = µ(0) P. n → n + 1: 3 Sei also die Behauptung für n gezeigt. Zeige, dass sie auch für n + 1 gilt. Für j = 1, . . . , k gilt analog: (n+1) µj = P(Xn+1 = sj ) = k X P(Xn = si , Xn+1 = sj ) i=1 = k X P(Xn = si )P(Xn+1 = sj | Xn = si ) i=1 = k X i=1 (n) = (µ (n) µi Pi,j P )j . Also gilt auch µ(n+1) = µ(n) P und damit und der Induktionsvoraussetzung auch: IV µ(n+1) = µ(n) P = µ(0) P n P = µ(0) P n+1 . 1.8 Beispiel Für Beispiel 1.1 ergibt sich mit Anfangsverteilung µ(0) = (1, 0, 0, 0) induktiv durch einfaches Nachrechnen: ( (0, 1/2, 0, 1/2) , falls n ≥ 1 und n ungerade . µ(n) = (1/2, 0, 1/2, 0) , falls n ≥ 1 und n gerade Mit Anfangsverteilung µ(0) = (0, 1, 0, 0) vertauscht sich dagegen die Zuordnung von gerade und ungerade. Die Wahl der Anfangsverteilung bestimmt also das Verhalten des weiteren Verlaufs der Verteilungen µ(n) , wie man hier sieht, und gehört zu einer vollständigen Charakterisierung einer Markov-Kette. Ein anderes Beispiel gegeben durch eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , s2 } und folgender Übergangsmatrix 0,75 0,25 0,25 0,75 liefert induktiv für alle n ∈ N (n) µ ( (1/2(1 + 2−n ), 1/2(1 − 2−n )) = (1/2(1 − 2−n ), 1/2(1 + 2−n )) , falls µ(0) = (1, 0) . , falls µ(0) = (0, 1) In beiden Fällen gilt jedoch limn→∞ µ(n) = (1/2, 1/2). 1.9 Lemma Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben. Sei {a0 , . . . , an } ⊆ N für n ≥ 2 so, dass a0 < a1 < . . . < an−1 < an . Dann gilt für alle i0 , . . . , in ∈ {1, . . . , k}: P(Xan = sin , . . . , Xa1 = si1 | Xa0 = si0 ) = n−1 Y P(Xaj+1 = sij+1 | Xaj = sij ). j=0 Anschaulich: Die Wahrscheinlichkeit eines gegebenen Weges durch den Übergangsgraph mit gegebenen Zeiten ist gleich dem Produkt der einzelnen Wege mit den entsprechenden Zeiten. Beweis: Induktion über n: n = 2: 4 Sei {a0 , a1 , a2 } ⊆ N so, dass a0 < a1 < a2 : P(Xa2 = si2 , Xa1 = si1 | Xa0 = si0 ) bed. W.-keit = ME = = P(Xa2 = si2 | Xa1 = si1 , Xa0 = si0 )P(Xa1 = si1 | Xa0 = si0 ) P(Xa2 = si2 | Xa1 = si1 )P(Xa1 = si1 | Xa0 = si0 ) 1 Y P(Xaj+1 = sij+1 | Xaj = sij ) j=0 n → n + 1: Sei {a0 , . . . , an+1 } ⊆ N so, dass a0 < a1 < . . . < an < an+1 : P(Xan+1 = sin+1 , Xan = sin , . . . , Xa1 = si1 | Xa0 = si0 ) bed. W.-keit = ME & IV = P(Xan+1 = sin+1 | Xan = sin , . . . , Xa0 = si0 )P(Xan = sin , . . . , Xa1 = si1 | Xa0 = si0 ) P(Xan+1 = sin+1 | Xan = sin ) n−1 Y P(Xaj+1 = sij+1 | Xaj = sij ) j=0 = n Y P(Xaj+1 = sij+1 | Xaj = sij ) j=0 1.10 Lemma Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben. Seien i, j ∈ {1, . . . , k}. Dann gilt für alle m, n ∈ N: P(Xm+n = sj | Xm = si ) = (P n )i,j , insbesondere ist dies unabhängig von m. Beweis: Sei m fest aber beliebig. Beweise die Behauptung durch Induktion über n: n = 1: n = 1 folgt direkt aus der Definition von Markov-Kette. n → n + 1: Sei also die Behauptung für n gezeigt. Zeige, dass sie auch für n + 1 gilt. P(Xm+n+1 = sj | Xm = si ) σ-Add. = k X P(Xm+n = sq , Xm+n+1 = sj | Xm = si ) q=1 k X 1.9 = P(Xm+n = sq | Xm = si )P(Xm+n+1 = sj | Xm+n = sq ) q=1 IV & Def. = k X (P n )i,q Pq,j q=1 = (P n P )i,j = (P n+1 )i,j 1.11 Kolmogorov-Chapman-Gleichung Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben. Seien i, j ∈ {1, . . . , k}. Dann gilt für alle m, n ∈ N die Kolmogorov-Chapman-Gleichung: P(Xm+n = sj | X0 = si ) = k X P(Xm = sq | X0 = si )P(Xm+n = sj | Xm = sq ). q=1 5 Anschaulich: Die Wahrscheinlichkeit aller Wege gegeben durch Anfangs- und Endpunkt durch den Übergangsgraph mit gegebenen Anfangs- und Endzeiten ist gleich der Summe aller möglichen Wege mit festem Zeitpunkt für einen festen Zwischenschritt. Insbesondere gilt damit auch für alle q ∈ {1, . . . , k}: P(Xm+n = sj | X0 = si ) ≥ P(Xm = sq | X0 = si )P(Xm+n = sj | Xm = sq ) Beweis: 1.10 P(Xm+n = sj | X0 = si ) = (P m+n )i,j = k X (P m )i,q (P n )q,j q=1 1.10 = k X P(Xm = sq | X0 = si )P(Xm+n = sj | Xm = sq ) q=1 6 Irreduzible und aperiodische Markov-Ketten In diesem Kapitel werden zwei grundlegende Eigenschaften von Markov-Ketten beschrieben. 2.1 Definition Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben. Man sagt, dass ein Zustand si mit einem Zustand sj kommuniziert, in Zeichen si → sj , genau dann, wenn die Markov-Kette positive Wahrscheinlichkeit besitzt, innerhalb einer Zeit n von Zustand si nach Zustand sj zu gelangen; d.h. wenn ein n ∈ N existiert, sodass: P(Xm+n = sj | Xm = si ) > 0. Nach Lemma 1.10 ist dies unabhängig von m und es gilt P(Xm+n = sj | Xm = si ) = (P n )i,j . Weiter sagt man, dass zwei Zustände si und sj miteinander kommunizieren, in Zeichen si ↔ sj , genau dann, wenn si → sj und sj → si . 2.2 Definition Eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P heißt irreduzibel genau dann, wenn für alle i, j ∈ {1, . . . , k} gilt, dass si ↔ sj . Ansonsten heißt die Markov-Kette reduzibel. Eine äquivalente Formulierung für Irreduzibilität ist, dass für alle i, j ∈ {1, . . . , k} ein n ∈ N mit (P n )i,j > 0 existiert. 2.3 Beispiel Die Irreduzibilität lässt sich am Übergangsgraph leicht veranschaulich und auch überprüfen, indem man alle Paare von Zuständen darauf überprüft, ob es jeweils einen Weg von einem Zustand in den anderen gibt. Die Markov-Kette aus Beispiel 1.1 ist z.B. irreduzibel. Übergangsgraphen von reduzibelen Markov-Ketten sind z.B. wie folgt gegeben: 1/2 s1 o ^ / s2 @ 2/3 3/4 s4O 1/2 1/3 1 1/2 1 1/4 s5 s3 oder s1 > s2O 1 1/2 1 s3 Man sieht hier auch die Rechtfertigung für die Bezeichnung reduzibel“, da das Betrachten des Langzeitver” haltens einer reduzibelen Markov-Kette, d.h. das Verhalten der µ(n) für große n, sich auf das Betrachten einer Markov-Kette mit kleinerem Zustandsraum und entsprechend angepasster Übergangsmatrix vereinfachen lässt. 2.4 Definition Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben. Die Periode d(si ) eines Zustandes si definiert man als: d(si ) := ggT({n ≥ 1 | (P n )i,i > 0}) , wobei ggT(∅) := ∞. 7 In Worten bedeutet dies, dass die Periode von si der größte gemeinsame Teiler der Menge von Zeiten ist, an denen die Markov-Kette wieder nach si (mit positiver Wahrscheinlichkeit) zurückkehren kann, sofern die Markov-Kette in si gestartet ist, d.h. X0 = si . Ist d(si ) = 1, so heißt der Zustand si aperiodisch (die Markov-Kette kann also unregelmäßig“ nach si ” zurückkehren). 2.5 Definition Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben. Falls alle Zustände der Markov-Kette aperiodisch sind, so heißt auch die Markov-Kette aperiodisch. Andernfalls heißt sie periodisch. 2.6 Beispiel Betrachte nur den Teil der linken Markov-Kette aus Beispiel 2.3 bestehend aus den Zuständen {s1 , s2 , s3 }, also den folgenden Übergangsgraph: 1/2 s1 o ` / s2 > 2/3 3/4 1/3 1/2 1/4 ~ s3 Man sieht leicht mit den Aussagen aus 1.10 und 1.11, dass für jeden Zustand si gilt: (P 2 )i,i > 0 und (P 3 )i,i > 0, und damit auch d(si ) = 1. Also ist diese reduzierte Markov-Kette aperiodisch. Das Beispiel 1.1 hingegen ist periodisch, da für jeden Zustand si gilt: (P n )i,i > 0 genau dann, wenn n ∈ {2k | k ∈ N}. Also ist d(si ) = ggT({2k > 0 | k ∈ N}) = 2. Man sieht hier auch den Zusammenhang zu den in Beispiel 1.8 berechneten Verteilungen µ(n) , da man sich in Abhängigkeit vom Startzustand immer alternierend zwischen den Zustandspaaren s1 , s3 und s2 , s4 bewegt. Vorbereitend für den nächsten Satz benötigt man folgendes Lemma: 2.7 Lemma Sei A = {a1 , a2 , a3 , . . .} eine Menge positiver, natürlicher Zahlen mit folgenden Eigenschaften: i) ggT(A) = 1, und ii) A ist abgeschlossen unter Addition, d.h. wenn a, b ∈ A gilt, dann gilt auch a + b ∈ A. Dann existiert ein N ∈ N so, dass n ∈ A für alle n ≥ N . Beweis: siehe Appendix in Brémaud, Pierre (1998) Markov Chains: Gibbs Fields, Monte Carlo Simulation, and Queues, Springer, New York. 2.8 Satz Sei eine aperiodische Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben. Dann existiert ein N ∈ N so, dass (P n )i,i > 0 für alle i ∈ {1, . . . , k} und alle n ≥ N . Beweis: Für jeden Zustand si definiere Ai := {n ≥ 1 | (P n )i,i > 0}. Nach Voraussetzung ist die Markov-Kette aperiodisch, d.h. alle Zustände sind aperiodisch und somit gilt ggT(Ai ) = 1. Zur Anwendung des Lemmas benötigt man nun die Abgeschlossenheit unter Addition für Ai : 8 Seien a1 , a2 ∈ Ai , d.h. es gilt 1.10 1.10 (P a1 )i,i = P(Xa1 = si | X0 = si ) > 0 und (P a2 )i,i = P(Xa1 +a2 = si | Xa1 = si ) > 0. Hiermit folgt: 1.10 (P a1 +a2 )i,i = P(Xa1 +a2 = si | X0 = si ) ≥ P(Xa1 +a2 = si , Xa1 = si | X0 = si ) 1.9 = P(Xa1 = si | X0 = si )P(Xa1 +a2 = si | Xa1 = si ) > 0 Also gilt auch a1 + a2 ∈ Ai . Mit dem Lemma angewandt auf Ai folgt nun, dass ein Ni ∈ N existiert, sodass (P n )i,i > 0 für alle n ≥ Ni . N := max{N1 , . . . , Nk } liefert die Behauptung des Satzes. 2.9 Korollar Sei eine aperiodische und irreduzibele Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben. Dann existiert ein M ∈ N so, dass (P n )i,j > 0 für alle i, j ∈ {1, . . . , k} und alle n ≥ M . Beweis: Aufgrund der Aperiodizität und Satz 2.8 existiert ein N ∈ N so, dass (P n )i,i > 0 für alle i ∈ {1, . . . , k} und alle n ≥ N . Für zwei Zustände si und sj existiert aufgrund der Irreduzibilität ein ni,j ∈ N so, dass (P ni,j )i,j > 0. Sei Mi,j := N + ni,j , dann gilt für jedes m ≥ Mi,j : (P m )i,j = P(Xm = sj | X0 = si ) ≥ P(Xm = sj , Xm−ni,j = si | X0 = si ) = P(Xm−ni,j = si | X0 = si ) P(Xm = sj | Xm−ni,j = si ) | {z }| {z } >0, da m−ni,j ≥N >0, nach Wahl von ni,j > 0 M := max{Mi,j | i, j = 1, . . . , k} liefert die Behauptung des Korollars. 2.10 Satz Sei eine irreduzibele Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben. Wenn ein Zustand si mit Pi,i > 0 existiert, dann ist die Markov-Kette auch aperiodisch. Beweis: Zu zeigen, dass die Markov-Kette aperiodisch ist, bedeutet für alle j ∈ {1, . . . , k}: 1 = d(sj ) = ggT({n ≥ 1 | (P n )j,j > 0}). Sei also j ∈ {1, . . . , k} beliebig und i ∈ {1, . . . , k} nach Voraussetzung so, dass Pi,i > 0. Aufgrund der Irreduzibilität existieren m1 , m2 ∈ N so, dass (P m1 )i,j > 0 und (P m2 )j,i > 0. Damit folgt für alle n ∈ N: (P m2 +n+m1 )j,j = P(Xm2 +n+m1 = sj | X0 = sj ) ≥ P(Xm2 +n+m1 = sj , Xm2 +n = si , . . . , Xm2 = si | X0 = sj ) 1.9 = (P m2 )j,i (Pi,i )n (P m1 )i,j > 0 ⇒ {n ≥ 1 | (P n )j,j > 0} ⊇ N \ {0, . . . , m2 + m1 − 1} ⇒ {n ≥ 1 | (P n )j,j > 0} enthält mindestens zwei Primzahlen. ⇒ d(sj ) = ggT({n ≥ 1 | (P n )j,j > 0}) = 1. 9