Einführung in die Theorie der Markov

Einführung in die Theorie der Markov-Ketten
Jens Schomaker
Markov-Ketten
Zur Motivation der Einführung von Markov-Ketten betrachte folgendes Beispiel:
1.1 Beispiel
Wir wollen die folgende Situation mathematisch formalisieren:
Eine Person steht in einer der vier Ecken eines Raumes - in diesem Fall s1 - und wirft eine faire Münze, um
zu entscheiden, ob sie sich im Uhrzeigersinn oder gegen ihn bewegt. Dies wiederholt die Person beliebig
oft.
Man möchte also für alle Schritte des Experiments, die man anhand der natürlichen Zahlen abzählt, eine
Zufallsvariable Xn definieren, welche die Ecke angibt, in der sich die Person im n-ten Schritt befindet.
D.h. man wählt einen (zeitdiskreten) stochastischen Prozess (X0 , X1 , . . .), der Werte in {s1 , . . . , s4 } annimmt.
Dass ein zugehöriger Produktraum mit Wahrscheinlichkeitsmaß P wie unten existiert, ist nicht klar, wird aber
durch den Satz von Ionescu-Tulcea geliefert, der aufgrund seines Umfangs jedoch nicht behandelt wird.
Um die Ausgangsbedingung, dass in s1 gestartet wird, zu erfüllen, sollte gelten:
P(X0 = s1 ) = 1.
Die Entscheidungsregel für die Bewegung liefert zudem:
P(X1 = s2 ) = 1/2
und
P(X1 = s4 ) = 1/2.
Um die Verteilungen der Xn für n ≥ 2 zu berechnen, benötigt man nun jedoch bedingte Wahrscheinlichkeiten.
Für den Fall Xn = s2 ergibt sich z.B. aus der Entscheidungsregel für die Bewegung folgendes:
P(Xn+1 = s1 | Xn = s2 ) = 1/2
und
P(Xn+1 = s3 | Xn = s2 ) = 1/2.
Genauer gilt sogar aufgrund der Entscheidungsregel, dass Xn+1 nur von Xn abhängt; für Xn = s2 und beliebige
i0 , . . . , in−1 ∈ {1, . . . , 4} beispielsweise:
P(Xn+1 = s1 | Xn = s2 , Xn−1 = sin−1 , . . . , X0 = si0 ) = 1/2
und
P(Xn+1 = s3 | Xn = s2 , Xn−1 = sin−1 , . . . , X0 = si0 ) = 1/2.
1
Diese beispielhaften Überlegungen fasst man nun in einer Definition zusammen:
1.2 Definition
Sei P eine k × k-Matrix mit Einträgen (Pi,j )i,j=1,...,k .
Ein (zeitdiskreter) stochastischer Prozess (X0 , X1 , . . .) mit endlichem Zustandsraum {s1 , . . . , sk } heißt (homogene) Markov-Kette mit Übergangsmatrix P genau dann, wenn für alle n ∈ N, alle i, j ∈ {1, . . . , k} und
alle i0 , . . . , in−1 ∈ {1, . . . , k} gilt:
P(Xn+1 = sj | Xn = si , Xn−1 = sin−1 , . . . , X0 = si0 ) = P(Xn+1 = sj | Xn = si ) = Pi,j .
(1)
Die Einträge der Übergangsmatrix P heißen Übergangswahrscheinlichkeiten und die Übergangswahrscheinlichkeit Pi,j ist die bedingte Wahrscheinlichkeit sich zum Zeitpunkt n + 1 im Zustand sj zu befinden, gegeben,
dass man zum Zeitpunkt n im Zustand si ist.
Die Homogenität der Markov-Kette ist dabei die Zeitunabhängigkeit, d.h zu allen Zeiten n liegen dieselben
Übergangswahrscheinlichkeiten Pi,j bzw. liegt dieselbe Übergangsmatrix P vor. Homogenität wird in der Regel
nicht erwähnt, da man diese Eigenschaft voraussetzen möchte, wenn man Markov-Ketten betrachtet.
Die Eigenschaft, die durch das erste Gleichheitszeichen in Gleichung 1 gegeben ist, wird dabei als MarkovEigenschaft - kurz ME - oder auch Gedächtsnislosigkeit bezeichnet. Sie drückt aus, dass die bedingte Wahrscheinlichkeit von Xn+1 unter (X0 , . . . , Xn ) nur von Xn abhängt und unabhängig von den vorhergehenden
X0 , . . . , Xn−1 ist.
Mit dieser Definition ergeben sich direkt folgende Eigenschaften für die Übergangsmatrix:
i) Pi,j ≥ 0 für alle i, j ∈ {1, . . . , k}, da (bedingte) Wahrscheinlichkeiten nicht negativ sind.
ii)
k
P
Pi,j = 1 für alle i ∈ {1, . . . , k}, da {s1 , . . . , sk } der gesamte Wertebereich von Xn+1 ist:
j=1
k
X
Pi,j =
j=1
k
X
P(Xn+1 = sj | Xn = si ) = 1.
j=1
1.3 Beispiel
Das oben eingeführte Beispiel 1.1 hat also als Zustandsraum {s1 , . . . , s4 } und als Übergangsmatrix:


0 1/2 0 1/2
1/2 0 1/2 0 

P =
 0 1/2 0 1/2
1/2
0 1/2 0
1.4 Definition
Eine einfache und nahezu selbsterklärende Möglichkeit die Übergangsmatrix darzustellen, ist ein Übergangsgraph. Der Übergangsgraph für Beispiel 1.1 sieht beispielsweise wie folgt aus:
s1O o
1/2
1/2
1/2
1/2
s4 o
/ s2
O
1/2
1/2
1/2
/ s 3
1/2
Die Zustände werden dabei mit den zugehörigen Übergangswahrscheinlichkeiten verbunden, sofern diese nicht
Null sind. Die Summe der Wahrscheinlichkeiten, die von einem Zustand wegzeigen, ist dabei immer 1, was der
spaltenweisen Aufsummierung zu 1 in der Übergangsmatrix entspricht (vgl. Definition 1.2, Eigenschaft ii).
Um das Beispiel 1.1 komplett zu erfassen, benötigen wir noch eine weitere Eigenschaft einer Markov-Kette:
1.5 Definition
Die Anfangsverteilung einer Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } wird durch einen
2
Zeilenvektor µ(0) wie folgt definiert:
(0)
(0)
µ(0) = (µ1 , . . . , µk ) := (P(X0 = s1 ), . . . , P(X0 = sk )).
Da µ(0) eine Wahrscheinlichkeitsverteilung auf dem Zustandsraum {s1 , . . . , sk } ist, gilt:
k
X
(0)
µi
= 1.
i=1
Ebenso definiert man µ(n) für n ≥ 1 als die Wahrscheinlichkeitsverteilung der Markov-Kette zum Zeitpunkt n
als:
(n)
(n)
µ(n) = (µ1 , . . . , µk ) := (P(Xn = s1 ), . . . , P(Xn = sk )).
Auch hier gilt analog:
k
X
(n)
µi
= 1.
i=1
1.6 Beispiel
Das oben eingeführte Beispiel 1.1 hat also als Anfangsverteilung:
µ(0) = (1, 0, 0, 0).
Es wird sich in folgendem Satz zeigen, dass man zur Berechnung der µ(n) lediglich die Anfangsverteilung µ(0)
und die Übergangsmatrix P benötigt.
1.7 Satz
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk }, Übergangsmatrix P und Anfangsverteilung
µ(0) gegeben. Dann gilt für alle n ∈ N:
µ(n) = µ(0) P n .
Beweis:
Induktion über n:
n = 1:
(0)
(0)
Sei µ(0) = (µ1 , . . . , µk ), dann gilt für j = 1, . . . , k:
(1)
µj
Def.
=
σ-Add.
=
P(X1 = sj )
k
X
P(X0 = si , X1 = sj )
i=1
bed. W.-keit
=
k
X
P(X0 = si )P(X1 = sj | X0 = si )
i=1
Def.
=
=
k
X
(0)
µi Pi,j
i=1
(0)
(µ
P )j .
Dabei ist (µ(0) P )j der j-te Eintrag des Zeilenvektors µ(0) P . Also gilt:
(1)
(1)
µ(1) = (µ1 , . . . , µk ) = ((µ(0) P )1 , . . . , (µ(0) P )k ) = µ(0) P.
n → n + 1:
3
Sei also die Behauptung für n gezeigt. Zeige, dass sie auch für n + 1 gilt. Für j = 1, . . . , k gilt analog:
(n+1)
µj
= P(Xn+1 = sj )
=
k
X
P(Xn = si , Xn+1 = sj )
i=1
=
k
X
P(Xn = si )P(Xn+1 = sj | Xn = si )
i=1
=
k
X
i=1
(n)
= (µ
(n)
µi Pi,j
P )j .
Also gilt auch µ(n+1) = µ(n) P und damit und der Induktionsvoraussetzung auch:
IV
µ(n+1) = µ(n) P = µ(0) P n P = µ(0) P n+1 .
1.8 Beispiel
Für Beispiel 1.1 ergibt sich mit Anfangsverteilung µ(0) = (1, 0, 0, 0) induktiv durch einfaches Nachrechnen:
(
(0, 1/2, 0, 1/2) , falls n ≥ 1 und n ungerade
.
µ(n) =
(1/2, 0, 1/2, 0) , falls n ≥ 1 und n gerade
Mit Anfangsverteilung µ(0) = (0, 1, 0, 0) vertauscht sich dagegen die Zuordnung von gerade und ungerade.
Die Wahl der Anfangsverteilung bestimmt also das Verhalten des weiteren Verlaufs der Verteilungen µ(n) ,
wie man hier sieht, und gehört zu einer vollständigen Charakterisierung einer Markov-Kette.
Ein anderes Beispiel gegeben durch eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , s2 } und folgender Übergangsmatrix
0,75 0,25
0,25 0,75
liefert induktiv für alle n ∈ N
(n)
µ
(
(1/2(1 + 2−n ), 1/2(1 − 2−n ))
=
(1/2(1 − 2−n ), 1/2(1 + 2−n ))
, falls µ(0) = (1, 0)
.
, falls µ(0) = (0, 1)
In beiden Fällen gilt jedoch limn→∞ µ(n) = (1/2, 1/2).
1.9 Lemma
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Sei {a0 , . . . , an } ⊆ N für n ≥ 2 so, dass a0 < a1 < . . . < an−1 < an . Dann gilt für alle i0 , . . . , in ∈ {1, . . . , k}:
P(Xan = sin , . . . , Xa1 = si1 | Xa0 = si0 ) =
n−1
Y
P(Xaj+1 = sij+1 | Xaj = sij ).
j=0
Anschaulich: Die Wahrscheinlichkeit eines gegebenen Weges durch den Übergangsgraph mit gegebenen Zeiten
ist gleich dem Produkt der einzelnen Wege mit den entsprechenden Zeiten.
Beweis:
Induktion über n:
n = 2:
4
Sei {a0 , a1 , a2 } ⊆ N so, dass a0 < a1 < a2 :
P(Xa2 = si2 , Xa1 = si1 | Xa0 = si0 )
bed. W.-keit
=
ME
=
=
P(Xa2 = si2 | Xa1 = si1 , Xa0 = si0 )P(Xa1 = si1 | Xa0 = si0 )
P(Xa2 = si2 | Xa1 = si1 )P(Xa1 = si1 | Xa0 = si0 )
1
Y
P(Xaj+1 = sij+1 | Xaj = sij )
j=0
n → n + 1:
Sei {a0 , . . . , an+1 } ⊆ N so, dass a0 < a1 < . . . < an < an+1 :
P(Xan+1 = sin+1 , Xan = sin , . . . , Xa1 = si1 | Xa0 = si0 )
bed. W.-keit
=
ME & IV
=
P(Xan+1 = sin+1 | Xan = sin , . . . , Xa0 = si0 )P(Xan = sin , . . . , Xa1 = si1 | Xa0 = si0 )
P(Xan+1 = sin+1 | Xan = sin )
n−1
Y
P(Xaj+1 = sij+1 | Xaj = sij )
j=0
=
n
Y
P(Xaj+1 = sij+1 | Xaj = sij )
j=0
1.10 Lemma
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Seien i, j ∈ {1, . . . , k}. Dann gilt für alle m, n ∈ N:
P(Xm+n = sj | Xm = si ) = (P n )i,j , insbesondere ist dies unabhängig von m.
Beweis:
Sei m fest aber beliebig. Beweise die Behauptung durch Induktion über n:
n = 1:
n = 1 folgt direkt aus der Definition von Markov-Kette.
n → n + 1:
Sei also die Behauptung für n gezeigt. Zeige, dass sie auch für n + 1 gilt.
P(Xm+n+1 = sj | Xm = si )
σ-Add.
=
k
X
P(Xm+n = sq , Xm+n+1 = sj | Xm = si )
q=1
k
X
1.9
=
P(Xm+n = sq | Xm = si )P(Xm+n+1 = sj | Xm+n = sq )
q=1
IV & Def.
=
k
X
(P n )i,q Pq,j
q=1
=
(P n P )i,j
=
(P n+1 )i,j
1.11 Kolmogorov-Chapman-Gleichung
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Seien i, j ∈ {1, . . . , k}. Dann gilt für alle m, n ∈ N die Kolmogorov-Chapman-Gleichung:
P(Xm+n = sj | X0 = si ) =
k
X
P(Xm = sq | X0 = si )P(Xm+n = sj | Xm = sq ).
q=1
5
Anschaulich: Die Wahrscheinlichkeit aller Wege gegeben durch Anfangs- und Endpunkt durch den Übergangsgraph mit gegebenen Anfangs- und Endzeiten ist gleich der Summe aller möglichen Wege mit festem Zeitpunkt
für einen festen Zwischenschritt.
Insbesondere gilt damit auch für alle q ∈ {1, . . . , k}:
P(Xm+n = sj | X0 = si ) ≥ P(Xm = sq | X0 = si )P(Xm+n = sj | Xm = sq )
Beweis:
1.10
P(Xm+n = sj | X0 = si ) = (P m+n )i,j
=
k
X
(P m )i,q (P n )q,j
q=1
1.10
=
k
X
P(Xm = sq | X0 = si )P(Xm+n = sj | Xm = sq )
q=1
6
Irreduzible und aperiodische
Markov-Ketten
In diesem Kapitel werden zwei grundlegende Eigenschaften von Markov-Ketten beschrieben.
2.1 Definition
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Man sagt, dass ein Zustand si mit einem Zustand sj kommuniziert, in Zeichen si → sj , genau dann,
wenn die Markov-Kette positive Wahrscheinlichkeit besitzt, innerhalb einer Zeit n von Zustand si nach Zustand
sj zu gelangen; d.h. wenn ein n ∈ N existiert, sodass:
P(Xm+n = sj | Xm = si ) > 0.
Nach Lemma 1.10 ist dies unabhängig von m und es gilt P(Xm+n = sj | Xm = si ) = (P n )i,j .
Weiter sagt man, dass zwei Zustände si und sj miteinander kommunizieren, in Zeichen si ↔ sj , genau
dann, wenn si → sj und sj → si .
2.2 Definition
Eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P heißt irreduzibel
genau dann, wenn für alle i, j ∈ {1, . . . , k} gilt, dass si ↔ sj . Ansonsten heißt die Markov-Kette reduzibel.
Eine äquivalente Formulierung für Irreduzibilität ist, dass für alle i, j ∈ {1, . . . , k} ein n ∈ N mit (P n )i,j > 0
existiert.
2.3 Beispiel
Die Irreduzibilität lässt sich am Übergangsgraph leicht veranschaulich und auch überprüfen, indem man alle
Paare von Zuständen darauf überprüft, ob es jeweils einen Weg von einem Zustand in den anderen gibt. Die
Markov-Kette aus Beispiel 1.1 ist z.B. irreduzibel. Übergangsgraphen von reduzibelen Markov-Ketten sind z.B.
wie folgt gegeben:
1/2
s1 o ^
/ s2
@
2/3
3/4
s4O
1/2
1/3
1
1/2
1
1/4
s5
s3
oder
s1
> s2O
1
1/2
1
s3
Man sieht hier auch die Rechtfertigung für die Bezeichnung reduzibel“, da das Betrachten des Langzeitver”
haltens einer reduzibelen Markov-Kette, d.h. das Verhalten der µ(n) für große n, sich auf das Betrachten einer
Markov-Kette mit kleinerem Zustandsraum und entsprechend angepasster Übergangsmatrix vereinfachen lässt.
2.4 Definition
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Die Periode d(si ) eines Zustandes si definiert man als:
d(si ) := ggT({n ≥ 1 | (P n )i,i > 0}) , wobei ggT(∅) := ∞.
7
In Worten bedeutet dies, dass die Periode von si der größte gemeinsame Teiler der Menge von Zeiten ist,
an denen die Markov-Kette wieder nach si (mit positiver Wahrscheinlichkeit) zurückkehren kann, sofern die
Markov-Kette in si gestartet ist, d.h. X0 = si .
Ist d(si ) = 1, so heißt der Zustand si aperiodisch (die Markov-Kette kann also unregelmäßig“ nach si
”
zurückkehren).
2.5 Definition
Sei eine Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Falls alle Zustände der Markov-Kette aperiodisch sind, so heißt auch die Markov-Kette aperiodisch. Andernfalls
heißt sie periodisch.
2.6 Beispiel
Betrachte nur den Teil der linken Markov-Kette aus Beispiel 2.3 bestehend aus den Zuständen {s1 , s2 , s3 }, also
den folgenden Übergangsgraph:
1/2
s1 o `
/ s2
>
2/3
3/4
1/3
1/2
1/4
~
s3
Man sieht leicht mit den Aussagen aus 1.10 und 1.11, dass für jeden Zustand si gilt:
(P 2 )i,i > 0 und (P 3 )i,i > 0, und damit auch d(si ) = 1.
Also ist diese reduzierte Markov-Kette aperiodisch.
Das Beispiel 1.1 hingegen ist periodisch, da für jeden Zustand si gilt:
(P n )i,i > 0 genau dann, wenn n ∈ {2k | k ∈ N}.
Also ist d(si ) = ggT({2k > 0 | k ∈ N}) = 2. Man sieht hier auch den Zusammenhang zu den in Beispiel 1.8
berechneten Verteilungen µ(n) , da man sich in Abhängigkeit vom Startzustand immer alternierend zwischen
den Zustandspaaren s1 , s3 und s2 , s4 bewegt.
Vorbereitend für den nächsten Satz benötigt man folgendes Lemma:
2.7 Lemma
Sei A = {a1 , a2 , a3 , . . .} eine Menge positiver, natürlicher Zahlen mit folgenden Eigenschaften:
i) ggT(A) = 1, und
ii) A ist abgeschlossen unter Addition, d.h. wenn a, b ∈ A gilt, dann gilt auch a + b ∈ A.
Dann existiert ein N ∈ N so, dass n ∈ A für alle n ≥ N .
Beweis: siehe Appendix in Brémaud, Pierre (1998) Markov Chains: Gibbs Fields, Monte Carlo Simulation,
and Queues, Springer, New York.
2.8 Satz
Sei eine aperiodische Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Dann existiert ein N ∈ N so, dass
(P n )i,i > 0 für alle i ∈ {1, . . . , k} und alle n ≥ N .
Beweis:
Für jeden Zustand si definiere Ai := {n ≥ 1 | (P n )i,i > 0}.
Nach Voraussetzung ist die Markov-Kette aperiodisch, d.h. alle Zustände sind aperiodisch und somit gilt
ggT(Ai ) = 1. Zur Anwendung des Lemmas benötigt man nun die Abgeschlossenheit unter Addition für
Ai :
8
Seien a1 , a2 ∈ Ai , d.h. es gilt
1.10
1.10
(P a1 )i,i = P(Xa1 = si | X0 = si ) > 0 und (P a2 )i,i = P(Xa1 +a2 = si | Xa1 = si ) > 0.
Hiermit folgt:
1.10
(P a1 +a2 )i,i = P(Xa1 +a2 = si | X0 = si )
≥ P(Xa1 +a2 = si , Xa1 = si | X0 = si )
1.9
= P(Xa1 = si | X0 = si )P(Xa1 +a2 = si | Xa1 = si )
> 0
Also gilt auch a1 + a2 ∈ Ai .
Mit dem Lemma angewandt auf Ai folgt nun, dass ein Ni ∈ N existiert, sodass (P n )i,i > 0 für alle n ≥ Ni .
N := max{N1 , . . . , Nk } liefert die Behauptung des Satzes.
2.9 Korollar
Sei eine aperiodische und irreduzibele Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Dann existiert ein M ∈ N so, dass
(P n )i,j > 0 für alle i, j ∈ {1, . . . , k} und alle n ≥ M .
Beweis:
Aufgrund der Aperiodizität und Satz 2.8 existiert ein N ∈ N so, dass (P n )i,i > 0 für alle i ∈ {1, . . . , k}
und alle n ≥ N . Für zwei Zustände si und sj existiert aufgrund der Irreduzibilität ein ni,j ∈ N so, dass
(P ni,j )i,j > 0. Sei Mi,j := N + ni,j , dann gilt für jedes m ≥ Mi,j :
(P m )i,j = P(Xm = sj | X0 = si )
≥ P(Xm = sj , Xm−ni,j = si | X0 = si )
= P(Xm−ni,j = si | X0 = si ) P(Xm = sj | Xm−ni,j = si )
|
{z
}|
{z
}
>0, da m−ni,j ≥N
>0, nach Wahl von ni,j
> 0
M := max{Mi,j | i, j = 1, . . . , k} liefert die Behauptung des Korollars.
2.10 Satz
Sei eine irreduzibele Markov-Kette (X0 , X1 , . . .) mit Zustandsraum {s1 , . . . , sk } und Übergangsmatrix P gegeben.
Wenn ein Zustand si mit Pi,i > 0 existiert, dann ist die Markov-Kette auch aperiodisch.
Beweis:
Zu zeigen, dass die Markov-Kette aperiodisch ist, bedeutet für alle j ∈ {1, . . . , k}:
1 = d(sj ) = ggT({n ≥ 1 | (P n )j,j > 0}).
Sei also j ∈ {1, . . . , k} beliebig und i ∈ {1, . . . , k} nach Voraussetzung so, dass Pi,i > 0.
Aufgrund der Irreduzibilität existieren m1 , m2 ∈ N so, dass (P m1 )i,j > 0 und (P m2 )j,i > 0.
Damit folgt für alle n ∈ N:
(P m2 +n+m1 )j,j = P(Xm2 +n+m1 = sj | X0 = sj )
≥ P(Xm2 +n+m1 = sj , Xm2 +n = si , . . . , Xm2 = si | X0 = sj )
1.9
= (P m2 )j,i (Pi,i )n (P m1 )i,j
> 0
⇒ {n ≥ 1 | (P n )j,j > 0} ⊇ N \ {0, . . . , m2 + m1 − 1}
⇒ {n ≥ 1 | (P n )j,j > 0} enthält mindestens zwei Primzahlen.
⇒ d(sj ) = ggT({n ≥ 1 | (P n )j,j > 0}) = 1.
9